Posted by & filed under 每日一题.

【四脚猫】每日一题(10月18日): 一个大的含有5000w个URL的记录,一个小的含有500个URL的记录,找出两个记录里相同的URL。
参考答案:
1.用500个url的记录做个hash表
2.用5000w的做个遍历(可以把5000w记录分开,10万一个任务,用分布式计算来处理加快速度),如果存在于hash表中的 ,则输出url ,同时删除hash表中的该记录
3.遍历完成后输出的都是重复的记录,若hash表中还存在的则是5000w中不存在,500中存在的记录

欢迎各位攻城狮,各位大牛给每日一题投稿,大家可以把自己碰到的有趣问题,工作中碰到的难题等…发送到 稿件邮箱:2313427189@qq.com