欢迎光临
我一直在奋斗

Webmagic爬虫框架实践

对于这个,个人觉得很适合中国的国情。比如说爬去discuz等各大论坛的内容变得异常的轻松。
简单的测试了一下。这个例子很贴切。仅仅测试了爬虫爬取页面的能力。还没有写具体的爬取复杂页面的内容。

 

package ua;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.downloader.selenium.SeleniumDownloader;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.samples.HuabanProcessor;

/**
 * Created by ZFOX on 2016-10-11.
 */
public class uatest implements PageProcessor {


    private Site site = Site.me().setRetryTimes(3).setSleepTime(5000).setTimeOut(9000).setDomain("tianyancha.com")
            .addHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
            .addHeader("Accept-Encoding", "gzip, deflate, br")//设置压缩格式
            .addHeader("Accept-Language", "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3")//语言
            .addHeader("Cache-Control", "no-cache")
            .addHeader("Connection", "keep-alive")
            .addHeader("Pragma", "no-cache")
            .addHeader("Upgrade-Insecure-Requests", "1")
            .addHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0");//浏览器的u-agent标签

    @Override
    public Site getSite() {
        return site;
    }

    @Override
    public void process(Page page) {
        System.out.println(page.getHtml().toString());

    }


    public static void main(String[] args) {
        Spider.create(new uatest()).thread(5)
                //.addPipeline(new FilePipeline("D:/Other/TEMP"))
                //.setDownloader(new SeleniumDownloader("D:/Other/TEMP/l"))
                .addUrl("http://bbs.icnkr.com/thread-4287403-1-1.html")
                .runAsync();
    }


}

未经允许不得转载:奋斗者的足迹 » Webmagic爬虫框架实践
分享到: 更多 (0)

评论 1

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1

    装作看得懂的样子评论下

    摩天之星3年前 (2016-11-23)回复

奋斗者的足迹

联系我们加入我们