GitHub - Kyofin/Java-Spider: 使用Java针对各大型网站的爬虫实战 🕷

项目结构

├── Readme.md
├── jingdong-crawler   	**使用httpclient进行原生爬虫**
│   ├── db
│   ├── jingdong-crawler.iml
│   ├── pom.xml
│   ├── src
│   └── target
└── webmagic-crawler  	**使用webmagic框架进行爬虫**
    ├── db
    ├── pom.xml
    ├── src
    ├── target
    └── webmagic-crawler.iml

目标

IDEA启动

设置idea激活的profile，指定数据库使用pg还是mysql

配置redis和选择的数据库连接

redis用于分布式爬虫时记录已爬的队列和爬过的队列

在jedis中配置即可。

public  void start() {
        Spider.create(new GithubRepoProcessor())
                // 设置download解决官方webMagic无法访问部分ssl网站问题
                .setDownloader(new HttpClientDownloader())
                .addUrl("https://github.com/huzekang/")
                .setScheduler(new RedisScheduler(new JedisPool("127.0.0.1",6379)))
                .setPipelines(Lists.newArrayList(githubRepoJPAPipeline,githubUserJPAPipeline))
                .thread(8)
                .runAsync();

    }

数据库用于持久化爬取到的数据库

启动类Application选择要跑的任务，放开注释即可

public void run(String... args) throws Exception {
//		githubRepoProcessor.start();
//		jobProcessor.start();
//		csdnBlogPageProcessor.start();
//		hitaProcessor.start();
	}

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
jingdong-crawler		jingdong-crawler
webmagic-crawler		webmagic-crawler
.gitignore		.gitignore
Readme.md		Readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

项目结构

目标

IDEA启动

About

Releases

Packages

Languages

Kyofin/Java-Spider

Folders and files

Latest commit

History

Repository files navigation

项目结构

目标

IDEA启动

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages