java 采集器基础【源码】

woaidaima2016 · 发表于 2017-6-13 12:03:55

想要查看内容赶紧注册登陆吧!

您需要登录才可以下载或查看，没有账号？立即注册

x

采用Java爬虫框架WebMagic，灵活，简单；

测试采集地址是：http://www.jfinal.com/project

效果：

java代码：（所用到的jar包在源码里面）
public class SpiderTest implements PageProcessor {
private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

/* 启动蜘蛛 */
public static void main(String[] args) {
Spider.create(new SpiderTest()).addUrl("http://www.jfinal.com/project").thread(5).run();
}

@Override
public Site getSite() {
return page;
}

@Override
public void process(Page page) {
/* 获取html源码 */
Html html = page.getHtml();
/* 使用xpath获得标题和链接 */
List hrefs = html.xpath("//div[@class='jf-panel-item']/h3/a/@href").all();
Listtitles = html.xpath("//div[@class='jf-panel-item']/h3/a/text()").all();
for (int i = 0; i < titles.size(); i++) {
System.out.println("标题：" + titles.get(i) + "\t\t\t链接：" + hrefs.get(i));
}
}

}

账号		自动登录	找回密码
密码			立即注册

java 采集器基础【源码】

想要查看内容赶紧注册登陆吧!

相关帖子