【释疑贴】社区贴子与用户的数据统计(新手必看)

本贴最后更新于 1267 天前,其中的信息可能已经事过境迁

一开始对社区的导航方式无法适应,不知道从哪里开始查看感兴趣的贴子(开始没有发现登录后可以直接使用搜索功能以为只能用 Google 的站内搜索),所以想把贴子标题爬下来快速浏览,最初的想法是从最新贴子里找动态加载分页信息的 url,但是发现不好计算出总页数也无法区分动态加载的 json 数据是不是含有重复的混淆数据,试了好几次没有结果。

后来发现主页的底部导航有数据统计的页面链接,没想到社区所有注册用户信息是可以公开访问的,于是先爬了下七百多页的用户列表页提取出了 50207 位用户的用户名和个人主页链接,接着逐个爬取用户主页上的数据,最后爬取公开贴子列表用户(有 68 位用户选择不公开贴子列表)的贴子列表获取到 16124 条贴子的数据。最近将爬取到的数据做成了 3 个 Excel 表,部分截图如下,有兴趣的小伙伴可以查看隐藏的打赏内容。

post.PNG
U.PNG
P.PNG

注册用户数最多的 10 个城市(基于公开城市位置的用户统计):

排行 城市 人数
TOP.1 北京 4270
TOP.2 上海 2637
TOP.3 深圳 2224
TOP.4 广州 1870
TOP.5 杭州 1768
TOP.6 成都 1310
TOP.7 武汉 969
TOP.7 南京 928
TOP.8 重庆 675
TOP.8 西安 613
TOP.9 苏州 596
TOP.9 长沙 542
TOP.9 郑州 526
TOP.10 济南 434

【黑客】成员与【画家】成员的数量:

身份 人数 占比
黑客 46424 92%
画家 3783 8%

活跃用户数:

条件 人数 占比
发贴数不为 0 2730 5.4%
发贴数不少于 10 396 0.8%
回贴数不为 0 4747 9.5%

贴子数据统计:

过滤条件 贴子数量
非管理员节点贴子浏览数不少于 500 1742
非管理员节点贴子回贴数不为 0 7227
非管理员节点贴子回贴数不为 0 或浏览数不少于 500 7776
非管理员节点贴子回贴数不少于 20 且浏览数不少于 500 235

2019 年 8 月份各时间段访问黑客派的在线人数平均值(按数据统计里显示的在线用户数减去所有数据里面最低的一个数值 116):

  • 在线人数最多的时刻:8 月 19 日 17:05(733)
  • 在线人数最少的时刻:8 月 25 日 05:50(116)
时间段 访问网站在线人数
6~7 点 53
7~8 点 61
8~9 点 91
9~10 点 190
10~11 点 280
11~12 点 336
12~13 点 328
13~14 点 317
14~15 点 344
15~16 点 372
16~17 点 394
17~18 点 385
18~19 点 305
19~20 点 248
20~21 点 230
21~22 点 223
22~23 点 212
23~0 点 187
0~1 点 142
1~2 点 100
2~3 点 77
3~4 点 66
4~5 点 59
5~6 点 53

新增用户登录之后在黑客派停留总时长的统计:

在线总时长 人数
10 分钟 + 11295
1 小时 + 6569
10 小时 + 2161
20 小时 + 1349
50 小时 + 670
100 小时 + 372
200 小时 + 196
720 小时 + 48
任意时长 19250

追加 3 个统计表格:

年份 年度发贴数 年度新注册用户数
2012 55 79
2013 498 380
2014 158 186
2015 953 1569
2016 3066 3591
2017 3505 5141
2018 4681 26953
2019.8 3207 12308
月份 发贴分布数 新注册用户分布数
1 月 1317 5936
2 月 976 2678
3 月 1566 2884
4 月 1455 2732
5 月 1262 8574
6 月 1253 3987
7 月 1396 4814
8 月 1673 5239
9 月 1311 3575
10 月 1126 3326
11 月 1418 3362
12 月 1370 3100
时间段 发贴总数 收到的回贴总数
0~1 点 419 1978
1~2 点 209 891
2~3 点 66 290
3~4 点 32 120
4~5 点 27 30
5~6 点 13 32
6~7 点 40 162
7~8 点 74 245
8~9 点 306 1650
9~10 点 1160 5817
10~11 点 1419 7815
11~12 点 1335 6368
12~13 点 698 2939
13~14 点 820 4050
14~15 点 1200 4970
15~16 点 1217 5022
16~17 点 1273 4550
17~18 点 1257 3920
18~19 点 793 2214
19~20 点 610 1597
20~21 点 719 2563
21~22 点 784 2362
22~23 点 906 2914
23~0 点 746 2729

分析发现,每天最佳发贴时间段是 10~11 点。

以上社区开放的数据只放在社区给大伙解疑。如果你还对会员升级系统感兴趣,请看:
https://hacpai.com/article/1567678498082

打赏 70 积分后可见
70 积分 • 8 打赏
  • 黑客派

    黑客派是 B3log 开源社区的线上论坛,这里主要汇聚了程序员和设计师。HacPai 分别取 Hacker / Painter 的头三个字母组成,源自《黑客与画家》。

    358 引用 • 4754 回帖 • 510 关注
  • 数据统计
    4 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
soulfight
Don't judge, don't believe; keep running, keep alive.

推荐标签 标签

  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    15 引用 • 66 回帖
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    84 引用 • 1161 回帖 • 497 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    73 引用 • 379 回帖 • 1 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 623 关注
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    5 引用 • 65 回帖 • 1 关注
  • 创业

    你比 99% 的人都优秀么?

    81 引用 • 1395 回帖
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 577 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 658 关注
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    191 引用 • 289 回帖 • 485 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    82 引用 • 1748 回帖
  • 博客

    记录并分享人生的经历。

    262 引用 • 2369 回帖 • 1 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    4 引用 • 35 回帖
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    103 引用 • 126 回帖 • 518 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    168 引用 • 411 回帖 • 525 关注
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    9 引用 • 117 回帖 • 2 关注
  • 倾城之链
    22 引用 • 54 回帖 • 54 关注
  • 一些有用的避坑指南。

    67 引用 • 94 回帖 • 1 关注
  • 分享

    有什么新发现就分享给大家吧!

    235 引用 • 1672 回帖 • 1 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 66 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖 • 1 关注
  • CodeMirror
    1 引用 • 2 回帖 • 58 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    20 引用 • 57 回帖
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 32 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 567 关注
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    140 引用 • 256 回帖
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 588 关注