某豆瓣小组删帖考察——基于我的豆瓣小组爬虫

爬虫地址:https://github.com/lixiang810/NSDBG-Next

我在今年 8 月开发出了这个爬虫,用于保存我所在某小组的讨论。此后我加入了检验帖子是否被删除的功能:指定爬取页数,将爬取下的每页帖子列表与数据库中这一段时间的帖子列表进行比较,存在于数据库而不存在于爬取数据中的帖子即为疑似删除。此后,再通过访问这些帖子的方式来确证。我平时会进行定期检验,每次检验时,我一般取前 20 页进行检验。

屏幕截图 20211109172635.png

然而今天我检测了前 180 页,结果如上(此前已标记为被删除的帖子不会被再次检验)。我得出了这样的结论:删帖频率对时间三次求导的值约为 0,即:

\frac{\mathrm d^3 n}{\mathrm d t^3}=0

伟大发现,伟大发现。

  • 审查
    1 引用
  • 豆瓣
    6 引用 • 19 回帖
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    134 引用 • 261 回帖 • 484 关注

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...