知乎爬虫是个小型爬虫工具,用来爬下知乎最高票的答案们,在linux下用C++开发,其中的用到的较多库工具由 zouxin 在写他的小型搜索引擎的时候提供。
编辑./startfile/seeds.txt, 爬虫将从这个文件指定的用户URL开始爬。
make
./zhihuCrawler
即开始爬,可以访问http://localhost:8080来查看爬虫的状态。
爬下的数据都存储在./datafile/rawData.raw下。 调用
./sort.sh
可以查看根据票数排序后的结果。