Learning

Crawler

视频来自网站Bilibili: 小北不熬夜啊啊/2022自学爬虫全套，学完可接项目（无私分享）

https://www.bilibili.com/video/BV1iu411C79S

4khd_crapper

爬取网站为https://4khd.com/

4khd_single_url_crapper.py

4khd_single_url_crapper.py的运行需要非官方库有requests, lxml

需要手动输入url和folder_name来进行爬取，图片保存在与运行文件同路径的名为folder_name的文件夹中

4khd_crapper.py

运行依赖的库

requirements.txt记录运行需要的库，可通过pip功能安装：

pip install -r requirements.txt

爬取功能介绍

可以从主页和cosplay界面进行图片的爬取（默认从主页进行爬取，主页内容包括cosplay中的内容，需要修改的请自行在代码中更改注释）

自动获取url进行爬取，图片以图集文件夹的形式分类保存在运行文件同路径下，以年、月、日进行分类

每次运行从主页第一页开始，直到最后一页停止，过程中会对图集完整性进行检查，下载缺失的图片

连接超时的链接重爬取功能

如果有连接超时的链接，链接会被记录在运行文件同路径下的txt文件中，分别记录在timeout_page_url.txt（记录连接超时的页链接）和timeout_url.txt（记录连接超时的图连接）

在开始爬取时和完成所有图集的爬取后，会尝试一次对记录的超时链接爬取的重试，并记录依然连接超时的链接

配置文件

第一次运行文件，会生成名为config.yml的配置文件

config.yml的默认设置为：

save_path: .\
page_choice: main
request_save_path: false
request_page_choice: false
downloading_progress_page: 1
downloading_progress_url: none
download_success: false

图片保存的路径设置

第一次运行文件会询问图片保存的路径，输入为空则默认选择运行文件所在的路径作为图片保存的路径

之后config.yml中request_save_path的设置会变为false，以后运行文件不再询问图片保存的路径

若想开启询问，可以在config.yml中将request_save_path的设置改为true

爬取界面的选择设置

第一次运行文件会询问爬取界面的选择，选项为main（主页）、cosplay、album，输入为空则默认选择main

之后config.yml中request_page_choice的设置会变为false，以后运行文件不再询问爬取界面的选择

若想开启询问，可以在config.yml中将request_page_choice的设置改为true

爬取进度保存

downloading_progress_page记录爬取界面页码，默认为1，即第一页

downloading_progress_url记录正在爬取的图集的链接，默认为none

download_success记录是否全部爬取完成，默认为false，为没有完成爬取

若全部爬取完成后再次运行文件，则会询问是否重新开始爬取

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
4khd_crapper		4khd_crapper
README.md		README.md
mybaidu.html		mybaidu.html
note1.ipynb		note1.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Learning

Contents

Crawler

4khd_crapper

4khd_single_url_crapper.py

4khd_crapper.py

运行依赖的库

爬取功能介绍

连接超时的链接重爬取功能

配置文件

图片保存的路径设置

爬取界面的选择设置

爬取进度保存

About

Releases

Packages

Contributors 2

Languages

xumeng-zhang/Learning

Folders and files

Latest commit

History

Repository files navigation

Learning

Contents

Crawler

4khd_crapper

4khd_single_url_crapper.py

4khd_crapper.py

运行依赖的库

爬取功能介绍

连接超时的链接重爬取功能

配置文件

图片保存的路径设置

爬取界面的选择设置

爬取进度保存

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages