完成豆瓣读书/电影相关的爬取,使用了简单的多线程极大地提高了爬虫效率,更多信息待加入补充。
爬取结果在
Result_Book
文件夹,可直接查看
- 增加了简单的多线程爬取(concurrent.futures模块,线程池管理),极大地提高了爬虫效率。
- 按标签名称进行相关图书信息的抓取,排序后存入本地excel,可自行进行进一步筛选,按
Tag
存取在不同的Sheet
- 使用
User Agent
伪装成不同的浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
爬取结果在
Result_Movie
文件夹,可直接查看
- 增加了简单的多线程爬取(threading模块,简单粗暴的多线程管理),极大地提高了爬虫效率。
- 按标签名称进行相关电影信息的抓取,排序后存入本地excel,可自行进行进一步筛选,按
Tag
存取在不同的Sheet
- 使用
User Agent
伪装成不同的浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
欢迎 Star / PR.