我爱代码 - 专业游戏安全与逆向论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 5106|回复: 2

java 采集器基础【源码】

[复制链接]

2381

主题

53

回帖

9145

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
9145
QQ
发表于 2017-6-13 12:03:55 | 显示全部楼层 |阅读模式

想要查看内容赶紧注册登陆吧!

您需要 登录 才可以下载或查看,没有账号?立即注册

x
采用Java爬虫框架WebMagic,灵活,简单;
测试采集地址是:http://www.jfinal.com/project

效果:
java代码:(所用到的jar包在源码里面)
public class SpiderTest implements PageProcessor {
        private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

        /* 启动蜘蛛 */
        public static void main(String[] args) {
                Spider.create(new SpiderTest()).addUrl("http://www.jfinal.com/project").thread(5).run();
        }

        @Override
        public Site getSite() {
                return page;
        }

        @Override
        public void process(Page page) {
                /* 获取html源码 */
                Html html = page.getHtml();
                /* 使用xpath获得标题和链接 */
                List hrefs = html.xpath("//div[@class='jf-panel-item']/h3/a/@href").all();
                Listtitles = html.xpath("//div[@class='jf-panel-item']/h3/a/text()").all();
                for (int i = 0; i < titles.size(); i++) {
                        System.out.println("标题:" + titles.get(i) + "\t\t\t链接:" + hrefs.get(i));
                }
        }

}


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|我爱代码 - 专业游戏安全与逆向论坛 ( 陇ICP备17000105号-1 )

GMT+8, 2025-2-24 09:25 , Processed in 0.052143 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表