第六章 数据地
小时,三个新闻站已经爬取完毕,最近7天只要带着失踪两字的新闻全都被抓下来。
趁热打铁,他又添加了十个本地新闻站和两个本地论坛,两三个网站的反爬虫机制很厉害,不到一分钟就被禁止访问了,他苦笑了一声耸了耸肩,无论如何已经有上千条新闻进来了。
新闻抓取,达成!男孩带着明亮的眼眸笑着,带着欣喜回望了身后熟睡的女孩们,又紧握拳头再次振作。
接下来是提取工作,首先是去重,用distinct命令就可以。去重之后剩下700多条新闻和帖子,男孩倒吸一口凉气。
短短几天,全市竟然发生了700多起失踪案!
提取工作最难的一部分是地点识别,男孩没有字典,如果是有物流公司的数据就好了——思忖片刻,问题很快解决。
他打开无极公司的地图网页,找到API接口,用网页提取的方式将钱唐市的所有街道小区名、路名、饭馆名、桥名、河名全部提取下来,毕竟工作量不大,于是他连公共厕所也没有放过。导入新的数据表后,自制的字典完成。
借着字典和熟悉的命令,几十万字的新闻在5分钟化为700个零碎地名的文件,再次去重之后,只剩下500多个地名
<本章未完请点击"下一页"继续观看!>