为乐趣而生的爬虫框架,希望参与开源

本贴最后更新于 2555 天前,其中的信息可能已经渤澥桑田

webBee 为乐趣而爬

项目地址:https://github.com/pkwenda/webBee
(项目起步算是 0.1 版本,为了听取大家意见先放出来,目前经过测试,很少配置稳定自动爬取知乎用户数据,正在写 webbee-redis 插件缓存数据进行全面可视化分析)
使用过程中有疑问或需求请到这里:https://github.com/pkwenda/webBee/issues
License Build Status Gitter Github All Releases GitHub closed issues Version 0.0.1

  • webBee 基于 jdk8 是一个持续成长的 垂直爬虫框架 项目

  • webBee 遵循 MIT 开源协议

  • webBee 是一个不错的 java 进阶项目

  • 欢迎大家贡献代码,如果觉得这个项目不错,请为它 点赞

演示站点

设计初衷

  • 设计简洁,面向接口
  • 配置简单,明了
  • 一次配置,自动匹配

涉及技术栈

  • httpcomponents
  • jsoup
  • redis
  • 代理
  • 多线程

即将完善的内容

  • 分布式爬取
  • 代理接口
  • 通过配置智能寻找目标 url
  • 图片、视频的处理
  • 可对 熊猫tv斗鱼tv 等弹幕网站弹幕监听分析
  • 制作一个炫酷的官网实例

开源协议

MIT

最后,作者真的希望把项目越做越好,衷心希望大家积极参与开源,我新创建了一个开源群 147255248,来的都是元老哦

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3167 引用 • 8207 回帖 • 2 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注
  • webBee
    2 引用 • 11 回帖
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    395 引用 • 3408 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • semiconlon

    网站很漂亮啊

    1 回复
  • pkwenda
    作者

    现在的官网只是挂载一个 demo 测试的,以后做完了会很惊艳的 QaQ

  • xjtushilei

    哇,我也搞了一个开源的爬虫框架。自己随便写的玩的,后来越来越感觉这东西没啥写的😅😅😅 以后慢慢填坑

    1 回复
  • pkwenda
    作者

    一起努力。