我是如何使用 webBee 分析知乎 20w 用户数据的

本贴最后更新于 2751 天前,其中的信息可能已经物是人非

首先说一下我使用的工具:
项目地址: https://github.com/pkwenda/webBee

webBee是我为了深入学习而写的一个爬虫框架,新生儿1个月,但我打算一直做下去
首先我需要数据来测试修改我的框架啊,我想到了知乎的用户数据就是一个非常好的免费资源,不过想‘偷’知乎大大嘛...
还是要费点心思的。随便找了个知乎网红 (QaQ 美女学霸有木有!)

在这里呢,介绍一下我的框架

 他是一个垂直爬虫[只针对单个网站的深入爬取]不是类似百度、google的爬虫引擎
 因为还没完全开发完,暂时还没有上传到maven中央仓库,不过大家可以下载项目用maven build个jar包拿来用 
 目前正在完善core核心包和redis插件包

当然你也没必要写这么多,随便写写就行主要是cookie
这些东西相信用过postman 或者 Paw等web接口测试工具的童鞋很熟悉了
 [ps:这部分其实有很多优化的部分,我下一步要不算的自动随机模拟useragent、代理ip等。防止反扒网站很容易抓到我们]
 最主要的其实是cookie,这部分我原来其实是实现的 你利用Jquery的语法来选择 user-password的from表单进行登录的。
但是,因为目前web端五花八门而且提高用户门槛被我放弃了。一律cookie。 

设置 cookie 的两种方式:

setting.setCookies(key,value).setCookies(key,value)..... //可以链式调用哦
setting.addHeader('cookie','value') //你可以一次写完也可以链式

那么有些小白童鞋就会问了怎么看网站 cookie 呢?

我们主要讲一下那些 cookie,是知乎是认为你必须携带的?我们分析下知乎发送的包

知道了吧,这可以当做有效期内的密码来用

webBee 你的方法只需要实现 PageProcessor 接口即可灵感来自 servletwebMagic 的面向接口设计。

public class FetchZhihu implements PageProcessor

   @Override
    public void process(Page page) throws IOException {... //用来获取结果的
    
     @Override
    public Setting getSetting() {... //用来设置请求的[header/cookie/下一页等]

比如在 process 里面

 page.getApi(); //这样就拿到了返回的数据
 
 private RedisSet redisHash = new RedisSet();
 redisHash.insert("zhihu_user_yet",page.getApi());//这样就完成了redis的缓存、持久化。

类似笔者巴拉巴拉一顿逼逼,开它两三个线程先来 20w 玩玩

【ps:多线程代码没测试完还没提交到github,汗。。。】
踩过的坑:
1、爬的太快被知乎封号24小时(建议大家用小号)
2、知乎不定时会对频率快的进行延时(已处理)
3、建议模仿用户行为早中晚各2个小时【这部分我会再写定时任务插件】

我自己 3 个线程[线程有最佳线程算法的哦,不要以为越多越好],不到 4 个小时后到手 20w

我使用 redis-dump 插件导出 json 文件,放在我那个 7 元一年的静态仅能运行 html 和 js 的,200mb 硬盘的,无敌屌丝服务器上跑 20w 数据,json 文件都达到 115mb,跑了 3 分钟,汗....

下面我们随便写写 js,简单分一下 20w 用户的男女比例和粉丝比例分析:
【动态图怎么传上去变静态的了!哭,重新截图吧】



对你发现了么?没错,我忘了知乎有 4w 不男不女了!!

下面粉丝分析:
10000+ 粉丝 422 人

1000-10000: 1630 人

剩余的大家自己看吧。


我倒是真没想到,我那么垃圾的服务器还能跑 20w 数据,哈哈哈哈哈哈

大家可能会有顾虑了,webBee 只能 redis?当然不是,考虑数据量方面我先弄 redis,当然我不提供插件大家也可以用 jdbc 、jpa、Mbatis、之类的,但是我会提供更简单的 mysql、mongod 等持久化操作插件,后续效果好可能会提供 elasticSearch 插件,但是涉及到工作量,还是希望大家多多参与贡献啦。

webBee 还有茫茫多的事情要处理,还会集成 htmlunit 等分析异步网站,监听弹幕网站等接口。

赶快给我点赞吧!0.0

项目地址: https://github.com/pkwenda/webBee

java 开源讨论群:147255248

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3186 引用 • 8212 回帖 • 1 关注
  • webBee
    2 引用 • 11 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 631 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖 • 1 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    132 引用 • 188 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 387 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 182 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    176 引用 • 815 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 63 关注
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 53 关注
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    285 引用 • 728 回帖
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    55 引用 • 85 回帖 • 1 关注
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    200 引用 • 120 回帖
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 210 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 10 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 2 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    46 引用 • 25 回帖
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    5 引用 • 62 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    107 引用 • 295 回帖
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    25 引用 • 83 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 354 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 1 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    497 引用 • 1387 回帖 • 294 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 335 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖 • 1 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 606 关注