【释疑贴】社区贴子与用户的数据统计(新手必看)

本贴最后更新于 1671 天前,其中的信息可能已经事过境迁

一开始对社区的导航方式无法适应,不知道从哪里开始查看感兴趣的贴子(开始没有发现登录后可以直接使用搜索功能以为只能用 Google 的站内搜索),所以想把贴子标题爬下来快速浏览,最初的想法是从最新贴子里找动态加载分页信息的 url,但是发现不好计算出总页数也无法区分动态加载的 json 数据是不是含有重复的混淆数据,试了好几次没有结果。

后来发现主页的底部导航有数据统计的页面链接,没想到社区所有注册用户信息是可以公开访问的,于是先爬了下七百多页的用户列表页提取出了 50207 位用户的用户名和个人主页链接,接着逐个爬取用户主页上的数据,最后爬取公开贴子列表用户(有 68 位用户选择不公开贴子列表)的贴子列表获取到 16124 条贴子的数据。最近将爬取到的数据做成了 3 个 Excel 表,部分截图如下,有兴趣的小伙伴可以查看隐藏的打赏内容。

post.PNG
U.PNG
P.PNG

注册用户数最多的 10 个城市(基于公开城市位置的用户统计):

排行 城市 人数
TOP.1 北京 4270
TOP.2 上海 2637
TOP.3 深圳 2224
TOP.4 广州 1870
TOP.5 杭州 1768
TOP.6 成都 1310
TOP.7 武汉 969
TOP.7 南京 928
TOP.8 重庆 675
TOP.8 西安 613
TOP.9 苏州 596
TOP.9 长沙 542
TOP.9 郑州 526
TOP.10 济南 434

【黑客】成员与【画家】成员的数量:

身份 人数 占比
黑客 46424 92%
画家 3783 8%

活跃用户数:

条件 人数 占比
发贴数不为 0 2730 5.4%
发贴数不少于 10 396 0.8%
回贴数不为 0 4747 9.5%

贴子数据统计:

过滤条件 贴子数量
非管理员节点贴子浏览数不少于 500 1742
非管理员节点贴子回贴数不为 0 7227
非管理员节点贴子回贴数不为 0 或浏览数不少于 500 7776
非管理员节点贴子回贴数不少于 20 且浏览数不少于 500 235

2019 年 8 月份各时间段访问黑客派的在线人数平均值(按数据统计里显示的在线用户数减去所有数据里面最低的一个数值 116):

  • 在线人数最多的时刻:8 月 19 日 17:05(733)
  • 在线人数最少的时刻:8 月 25 日 05:50(116)
时间段 访问网站在线人数
6~7 点 53
7~8 点 61
8~9 点 91
9~10 点 190
10~11 点 280
11~12 点 336
12~13 点 328
13~14 点 317
14~15 点 344
15~16 点 372
16~17 点 394
17~18 点 385
18~19 点 305
19~20 点 248
20~21 点 230
21~22 点 223
22~23 点 212
23~0 点 187
0~1 点 142
1~2 点 100
2~3 点 77
3~4 点 66
4~5 点 59
5~6 点 53

新增用户登录之后在黑客派停留总时长的统计:

在线总时长 人数
10 分钟 + 11295
1 小时 + 6569
10 小时 + 2161
20 小时 + 1349
50 小时 + 670
100 小时 + 372
200 小时 + 196
720 小时 + 48
任意时长 19250

追加 3 个统计表格:

年份 年度发贴数 年度新注册用户数
2012 55 79
2013 498 380
2014 158 186
2015 953 1569
2016 3066 3591
2017 3505 5141
2018 4681 26953
2019.8 3207 12308
月份 发贴分布数 新注册用户分布数
1 月 1317 5936
2 月 976 2678
3 月 1566 2884
4 月 1455 2732
5 月 1262 8574
6 月 1253 3987
7 月 1396 4814
8 月 1673 5239
9 月 1311 3575
10 月 1126 3326
11 月 1418 3362
12 月 1370 3100
时间段 发贴总数 收到的回贴总数
0~1 点 419 1978
1~2 点 209 891
2~3 点 66 290
3~4 点 32 120
4~5 点 27 30
5~6 点 13 32
6~7 点 40 162
7~8 点 74 245
8~9 点 306 1650
9~10 点 1160 5817
10~11 点 1419 7815
11~12 点 1335 6368
12~13 点 698 2939
13~14 点 820 4050
14~15 点 1200 4970
15~16 点 1217 5022
16~17 点 1273 4550
17~18 点 1257 3920
18~19 点 793 2214
19~20 点 610 1597
20~21 点 719 2563
21~22 点 784 2362
22~23 点 906 2914
23~0 点 746 2729

分析发现,每天最佳发贴时间段是 10~11 点。

以上社区开放的数据只放在社区给大伙解疑。如果你还对会员升级系统感兴趣,请看:
https://hacpai.com/article/1567678498082

打赏 70 积分后可见
70 积分 • 8 打赏
  • 黑客派

    黑客派是 B3log 开源社区的线上论坛,这里主要汇聚了程序员和设计师。HacPai 分别取 Hacker / Painter 的头三个字母组成,源自《黑客与画家》。

    358 引用 • 4754 回帖 • 510 关注
  • 数据统计
    4 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
soulfight
Don't judge, don't believe; keep running, keep alive.

推荐标签 标签

  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    131 引用 • 1114 回帖 • 150 关注
  • 倾城之链
    23 引用 • 66 回帖 • 102 关注
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    523 引用 • 4581 回帖 • 690 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 4 关注
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 221 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 635 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 5 关注
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    103 引用 • 126 回帖 • 446 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 9 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 21 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    9 引用 • 32 回帖 • 162 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 238 关注
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 443 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 2 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖
  • danl
    65 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    106 引用 • 152 回帖 • 1 关注
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    96 引用 • 330 回帖
  • 笔记

    好记性不如烂笔头。

    304 引用 • 777 回帖
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    40 引用 • 24 回帖
  • sts
    2 引用 • 2 回帖 • 149 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖 • 1 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 23 关注
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    7 引用 • 26 回帖 • 3 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    84 引用 • 139 回帖 • 1 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 39 关注