Skip to content

抖音 小红书 b站 tiktok 爬虫 知乎 全网第一也是唯一的解决方案

Notifications You must be signed in to change notification settings

an-Underpriviliged-ZJUer/cyberu-preview

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 

Repository files navigation

这个代码仓库是一个完整项目的预览版本。仅部分内容在这个代码仓库中。

本项目完全适用于个人的爬虫需求,不接受任何的商业化需求联系。本项目的工具性源代码已开源在 pypi 。完整业务项目开源托管在 gitee 。需要联系获取开发项目,请见说明结尾。

这个项目比其它开源项目具备何优势?

  • 本项目迄今为止完全由学生个人开发,不具备任何套路,不具备知识星球、 Pro 版升级吸流、进阶付费策略、行业利益相关赞助商引流支持等坑,开源的最终需求是为了项目本身,减少开发者的个人开发压力
  • 本项目不以盈利为导向,最终商业变现预期为少于5元/份的代码拷贝;现阶段处于开源声誉积累阶段,全部代码暂时完全免费开放,性价比最高
  • 本项目从根源上不具备高性能大规模攻击特点,一方面不会给网站带来任何的服务器压力和经济损失,免去合法性之忧;另一方面使得目标网站“无法拒绝”,本项目的技术方法永久可用。
  • 本项目在同类项目中在开源平台启动时间最长、维护时间最久。本项目从2021年初开始,持续维护至今,曾因其他因素闭源 40% 时期并减少推广。如此长时间的维护直接导致了项目在最终实际场景的稳定性,且作者始终维护项目的健壮性、将每一行代码的完美性和简洁性放在首位、给未来可能的开发者最佳的开发体验。
  • **本项目大大增强了大量 Python 作为脚本语言在其它场景的实用性。**本项目遵循“所有代码只写一次”、“所有行为在重复第三次前抽象”的原则,生成了大量函数。这些功能在完全与爬虫不想关的 Python 领域也即开即用,因此即使不是爬虫需求的开发者也可直接引入此包(事实上,爬虫相关的代码只占包的10%)。例如:你现在可以仅用一个函数快速完成字典、列表、.json、.yaml、.txt、.csv的文件和数据转换;仅用一个函数快速处理图片和字符串(比较内容相似度、拼接、字符串根据某个 mark-str段 快速切分为仅两段);增强 kwargs 传参规则(自创);转化语言提取为一个时间类;单函数化路径处理和文件查找,等等。
  • 本项目所需的技术知识门槛低,胜在思路清奇+无害的小众市场。大部分的开发者不需要相对深奥繁琐的计网实战细节和js攻防经验,即可参与开发和自定义功能。

这个项目号称全网唯一,是否名不符实?

  • 本项目是唯一一个能保证完全绕过反爬策略的项目(原理:只通过浏览器层(而不是任何如 request 的其它层!!!)和鼠标键盘层实现爬虫)
  • 本项目是唯一一个围绕普通用户在爬虫相关的常用开发需求中总结了基础设施的项目
  • 本项目是唯一一个大规模实践代码自动化正常用户浏览操作的项目
  • 本项目是唯一一个能够免疫现今所有监控手段的项目
  • 本项目是唯一一个在python中完全使用对象传参思想的项目
  • 本项目是唯一一个解决通用常见网站爬取的开源项目
  • 本项目是全网唯一一个不使用 request 来爬取元数据的爬虫项目
  • 本项目是唯一一个历史 star 1k+ 的爬虫项目中迄今没有第二 contributor 的项目(笑
附同行现状:

NanmiCoder/MediaCrawler: 小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫 (github.com),只开发了爬文字的功能,比较幽默;随时需要根据反爬策略更新而调整,真实用户登陆快照+请求伪造+js逆向,是下一轮大风控反爬工程师的首要目标,付费 Pro 版和ip代理支持商引流,17+k star

yuncaiji/API: 各种 app 逆向爬虫数据接口。抖音,小红书, 快手 ,京东, 美团 ,饿了么 ,大众点评, douyin xiaohongshu kuaishou jingdong meituan eleme dianping 抖音数据 ,美团数据 ,小红书数据, 快手数据, 点评数据。爬虫。抖音爬虫。小红书爬虫。饿了么爬虫。快手爬虫。点评爬虫。 (github.com)云采数据接口,适合商业专业用户,很快,很刑

cv-cat/DouYin_Spider: 抖音,抖音爬虫,抖音视频/图集、主页、搜索、抖音直播爬虫 (github.com)js逆向,一样,也经常需要重改,也是基本越改越刑,多数项目的生存时间不会超过一年是js逆向系的传统异能

这个项目能做什么?

对于普通用户:

更好地爬取抖音、小红书、微博、知乎、tiktok、youtube、百度等网站和部分客户端如B站、wallPaperEngine 等的内容,并管理数据;保存一般类型网页的内容;使用时钟事件提醒、日记记录等功能

对于开发者:

快速开发基于 selenium 的软件;一套开箱即用的 python 语法糖盒;

对于学习者:

理解 python 的高级特性;感受一个框架从0到1的设计过程;

总地来说,这个项目是为了保存网页内容以及用自动化方案解决个人电脑办公、生活使用的一些痛点而存在的。这个项目主要是为了解决个人使用场景的需求,而不是为了企业级和商业及目的而实现的。

效果展示

按住ctrl,单击鼠标左键以在新窗口查看

用户列表

douyin1

douyin2

运行这个项目需要怎么做?

这个项目的运行环境即是一般的个人电脑。

你必须具备:

  • 基本的 python 使用经验

我们建议你:

  • 具备一定的包括其它语言在内的编程能力
  • 使用 ChatGPT 来学习和阅读 ,以省去不必要的时间
  • 使用 windows 操作系统电脑,而不是 macOS 等其它操作系统
  • 一般的运行环境是在 IDE 中的。使用命令行不是推荐的做法。
  • 使用 PyCharm ,而不是 VSCode 。当然,这不是必须的,如果你不在意繁琐的设置的情况下
  • 从一个爬虫业务代码文件开始阅读,即能够快速理解87%的业务过程和代码风格

关于项目设计的一些信息,以便于你理解:

  • 每个实际业务几乎不会用到超过三个代码文件:
CyberU/__init__.py (which contains hundreds util funcs)
*give douyin as an example
code/douyin/douyin_detect.py (which import douyin_utils.py)
  • 项目的函数不断在根据需求而调整更新,每个业务代码中的函数和用法可能不是最新的,但几乎不会有什么变化

这个项目完整吗?

这个项目始终仍在个人开发阶段,目前的(包括前文全部提到的全部网站)每一版功能是完整可用的。存在部分推送时的代码是未经测试的同时git branch唯一,因此实际代码仓库版本的内容可能存在问题。

后续有什么开发计划?

  • 继续深耕浏览器自动化
  • 浏览器的替代方案(中间人攻击、移动端自动化、AI Agent自动化、键鼠自动化)
  • 跨端探索
  • 设计一套与 ChatGPT 交互的数据格式和自然语言库
  • 探索更美观、更高效、更定制化的生活应用

联系作者

About

抖音 小红书 b站 tiktok 爬虫 知乎 全网第一也是唯一的解决方案

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages