java 采集器基础【源码】

woaidaima2016 发表于 2017-6-13 12:03:55

采用Java爬虫框架WebMagic，灵活，简单；测试采集地址是：http://www.jfinal.com/project
效果：http://img.woaidaima.com//upload/image/20170408/1491624047540011541.jpgjava代码：（所用到的jar包在源码里面）
public class SpiderTest implements PageProcessor {
private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

/* 启动蜘蛛 */
public static void main(String[] args) {
Spider.create(new SpiderTest()).addUrl("http://www.jfinal.com/project").thread(5).run();
}

@Override
public Site getSite() {
return page;
}

@Override
public void process(Page page) {
/* 获取html源码 */
Html html = page.getHtml();
/* 使用xpath获得标题和链接 */
List hrefs = html.xpath("//div[@class='jf-panel-item']/h3/a/@href").all();
Listtitles = html.xpath("//div[@class='jf-panel-item']/h3/a/text()").all();
for (int i = 0; i < titles.size(); i++) {
System.out.println("标题：" + titles.get(i) + "\t\t\t链接：" + hrefs.get(i));
}
}

}

页: [1]

我爱代码 - 专业游戏安全与逆向论坛's Archiver

java 采集器基础【源码】