欢迎光临
我一直在奋斗

WebMagic(java爬虫)

最近一直比较忙,都没什么时间写blog了。主要是在学习webmagic的使用。WebMagic是一个简单灵活的爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。是黄亿华大神写的一个java爬虫框架。

特性:

  • 简单的API,可快速上手
  • 模块化的结构,可轻松扩展
  • 提供多线程和分布式支持

webmagic参考了scrapy的模块划分,分为Spider(整个爬虫的调度框架)、Downloader(页面下载)、PageProcessor(链接提取和页面分析)、Scheduler(URL管理)、Pipeline(离线分析和持久化)几部分。只不过scrapy通过middleware实现扩展,而webmagic则通过定义这几个接口,并将其不同的实现注入主框架类Spider来实现扩展。

这个只有多多的使用才能明白其中的含义。

这个框架的开源的

GitHub地址:https://github.com/code4craft/webmagic

未经允许不得转载:奋斗者的足迹 » WebMagic(java爬虫)
分享到: 更多 (0)

评论 3

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1

    来看看,学习学习!!

    蒂欧娜3年前 (2016-10-17)回复
  2. #2

    你这个怎么还需要登录,你的服务器还在呢

    依然慢节奏1年前 (2018-08-10)回复

奋斗者的足迹

联系我们加入我们