From fb7b9c5d99a606f99c14fee535fe833d1b3d7cf4 Mon Sep 17 00:00:00 2001 From: luyishisi <543429245@qq.com> Date: Thu, 16 Mar 2017 16:51:08 +0800 Subject: [PATCH] =?UTF-8?q?=E5=AE=8C=E6=88=90readme=E6=96=87=E4=BB=B6?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 26 ++++++++++++++------------ 1 file changed, 14 insertions(+), 12 deletions(-) diff --git a/README.md b/README.md index 20234cc9..3df93b43 100644 --- a/README.md +++ b/README.md @@ -1,31 +1,33 @@ # Anti-Anti-Spider -# 2016-10-24 +# 2016-10-24 begin 仓库网址位于https://github.com/luyishisi/Anti-Anti-Spider 欢迎stat - 本项目由URLTEAM维护 - -作者博客 https://www.urlteam.org +作者博客 https://www.urlteam.org 项目简介: 运用请求伪造,浏览器伪造,浏览器自动化,图像处理,ip处理等方式进行反爬虫技术的通用化使用。 为以后的采集任务快速开展留下基础代码。 如今项目会包含多项技术的样例代码. - 项目起因 - 本身是想做一个反爬虫的技术攻关站点,如果在总结诸多技术中发觉可以将反反爬虫技术直接保留与代码中。 在之后采集需要时能快速有效的测试该站点具有怎样的反爬特性,并且可以快速的进行代码复用 - - - 你可以做什么: 2:提交你觉得难以采集的网站 联系方式: a83533774@gmail.com - -项目结构树: - +项目结构树:(有待更新) https://github.com/luyishisi/Anti-Anti-Spider/blob/master/tree.txt + +重点项目: +1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率} +2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用} +3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫} +5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博} +6:ip跟换技术 {代理,tor,adsl} +7:请求伪造 {phantomjs,requests,selenium} +8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时} +9:selenium {伪造请求头,支付宝模拟登陆} +UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}