GitHub - lanjie6/blog-crawler: 基于Java实现的博客爬虫小项目，仅供学习

介绍

blog-crawler博客采集系统，本系统分两个子系统，一个是CMS系统，一个是爬虫系统。
CMS系统采用 SpringBoot+Mybatis+Maven3+Shiro+Restful+Lucene+Bootstrap+Layui等技术栈
爬虫系统采用 HttpClient+Jsoup+Quartz+Log4j+Ehcache等技术栈

注意事项

本项目作为教学使用，请勿商用

使用说明

拉取项目:
1.1. 打开idea，选择下图所示方式，从gitee中拉取项目

1.2. 按下图所示，输入项目gitee地址https://gitee.com/gucaini/blog-crawler.git，输入自己本地磁盘的存放目录，例如：D:\workspace\demo\blog-crawler，点击克隆按钮Clone

1.3. 更改自己的Maven仓库，File->Settings->Build,Execution,Deployment->Build tools->Maven，如下图所示

1.4. 等待下载完毕所有依赖
创建数据库：
2.1. 创建数据库blog-crawler，如下图所示

2.2. 找到数据库sql文件脚本，如下图所示

2.3. 导入数据，Database->Import->Restore From SQL DUMP，如下图所示

2.4. 数据导入成功，如下图所示
修改项目配置文件：
3.1. 修改blog项目配置文件，如下图所示，将图中第3步数据库连接地址改为自己的数据库连接地址，将图中第4步的lucene配置改为你本地的目录地址（自己创建一个lucene文件夹），将第5步中的项目图片保存地址改为你当前blog项目所在的目录地址

3.2. 修改crawler项目配置文件，如下图所示，将图中第3步数据库连接地址改为自己的数据库连接地址，将第4步中的项目图片保存地址改为你当前blog项目所在的目录地址

3.3. 至此所有的准备工作已经就绪，可以尝试启动项目，blog项目是博客系统，包含前端博客展示功能和后端博客管理功能，可单独启动。crawler项目是博客爬虫系统，用于每5分钟对博客网站进行一次爬取，可以单独启动。当你不需要爬取数据的时候，可以不用关注crawler项目，仅仅只把blog项目单独启动作为一个独立的博客系统来学习。
项目展示：
4.1. 博客系统前台展示，浏览器输入地址localhost:9090

4.2. 博客系统后台展示，浏览器输入地址localhost:9090/login 登录账号：admin 登录密码：admin123

4.3. 爬虫系统爬取数据展示

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
blog		blog
crawler		crawler
LICENSE		LICENSE
README.md		README.md
blog_crawler.sql		blog_crawler.sql
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

介绍

注意事项

使用说明

About

Releases

Packages

Languages

License

lanjie6/blog-crawler

Folders and files

Latest commit

History

Repository files navigation

介绍

注意事项

使用说明

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages