【释疑贴】社区贴子与用户的数据统计(新手必看)

本贴最后更新于 1761 天前,其中的信息可能已经事过境迁

一开始对社区的导航方式无法适应,不知道从哪里开始查看感兴趣的贴子(开始没有发现登录后可以直接使用搜索功能以为只能用 Google 的站内搜索),所以想把贴子标题爬下来快速浏览,最初的想法是从最新贴子里找动态加载分页信息的 url,但是发现不好计算出总页数也无法区分动态加载的 json 数据是不是含有重复的混淆数据,试了好几次没有结果。

后来发现主页的底部导航有数据统计的页面链接,没想到社区所有注册用户信息是可以公开访问的,于是先爬了下七百多页的用户列表页提取出了 50207 位用户的用户名和个人主页链接,接着逐个爬取用户主页上的数据,最后爬取公开贴子列表用户(有 68 位用户选择不公开贴子列表)的贴子列表获取到 16124 条贴子的数据。最近将爬取到的数据做成了 3 个 Excel 表,部分截图如下,有兴趣的小伙伴可以查看隐藏的打赏内容。

post.PNG
U.PNG
P.PNG

注册用户数最多的 10 个城市(基于公开城市位置的用户统计):

排行 城市 人数
TOP.1 北京 4270
TOP.2 上海 2637
TOP.3 深圳 2224
TOP.4 广州 1870
TOP.5 杭州 1768
TOP.6 成都 1310
TOP.7 武汉 969
TOP.7 南京 928
TOP.8 重庆 675
TOP.8 西安 613
TOP.9 苏州 596
TOP.9 长沙 542
TOP.9 郑州 526
TOP.10 济南 434

【黑客】成员与【画家】成员的数量:

身份 人数 占比
黑客 46424 92%
画家 3783 8%

活跃用户数:

条件 人数 占比
发贴数不为 0 2730 5.4%
发贴数不少于 10 396 0.8%
回贴数不为 0 4747 9.5%

贴子数据统计:

过滤条件 贴子数量
非管理员节点贴子浏览数不少于 500 1742
非管理员节点贴子回贴数不为 0 7227
非管理员节点贴子回贴数不为 0 或浏览数不少于 500 7776
非管理员节点贴子回贴数不少于 20 且浏览数不少于 500 235

2019 年 8 月份各时间段访问黑客派的在线人数平均值(按数据统计里显示的在线用户数减去所有数据里面最低的一个数值 116):

  • 在线人数最多的时刻:8 月 19 日 17:05(733)
  • 在线人数最少的时刻:8 月 25 日 05:50(116)
时间段 访问网站在线人数
6~7 点 53
7~8 点 61
8~9 点 91
9~10 点 190
10~11 点 280
11~12 点 336
12~13 点 328
13~14 点 317
14~15 点 344
15~16 点 372
16~17 点 394
17~18 点 385
18~19 点 305
19~20 点 248
20~21 点 230
21~22 点 223
22~23 点 212
23~0 点 187
0~1 点 142
1~2 点 100
2~3 点 77
3~4 点 66
4~5 点 59
5~6 点 53

新增用户登录之后在黑客派停留总时长的统计:

在线总时长 人数
10 分钟 + 11295
1 小时 + 6569
10 小时 + 2161
20 小时 + 1349
50 小时 + 670
100 小时 + 372
200 小时 + 196
720 小时 + 48
任意时长 19250

追加 3 个统计表格:

年份 年度发贴数 年度新注册用户数
2012 55 79
2013 498 380
2014 158 186
2015 953 1569
2016 3066 3591
2017 3505 5141
2018 4681 26953
2019.8 3207 12308
月份 发贴分布数 新注册用户分布数
1 月 1317 5936
2 月 976 2678
3 月 1566 2884
4 月 1455 2732
5 月 1262 8574
6 月 1253 3987
7 月 1396 4814
8 月 1673 5239
9 月 1311 3575
10 月 1126 3326
11 月 1418 3362
12 月 1370 3100
时间段 发贴总数 收到的回贴总数
0~1 点 419 1978
1~2 点 209 891
2~3 点 66 290
3~4 点 32 120
4~5 点 27 30
5~6 点 13 32
6~7 点 40 162
7~8 点 74 245
8~9 点 306 1650
9~10 点 1160 5817
10~11 点 1419 7815
11~12 点 1335 6368
12~13 点 698 2939
13~14 点 820 4050
14~15 点 1200 4970
15~16 点 1217 5022
16~17 点 1273 4550
17~18 点 1257 3920
18~19 点 793 2214
19~20 点 610 1597
20~21 点 719 2563
21~22 点 784 2362
22~23 点 906 2914
23~0 点 746 2729

分析发现,每天最佳发贴时间段是 10~11 点。

以上社区开放的数据只放在社区给大伙解疑。如果你还对会员升级系统感兴趣,请看:
https://hacpai.com/article/1567678498082

打赏 70 积分后可见
70 积分 • 8 打赏
  • 黑客派

    黑客派是 B3log 开源社区的线上论坛,这里主要汇聚了程序员和设计师。HacPai 分别取 Hacker / Painter 的头三个字母组成,源自《黑客与画家》。

    358 引用 • 4754 回帖 • 511 关注
  • 数据统计
    4 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
soulfight
Don't judge, don't believe; keep running, keep alive.

推荐标签 标签

  • OnlyOffice
    4 引用 • 10 关注
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    76 引用 • 390 回帖
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    402 引用 • 3522 回帖
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 726 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    5 引用 • 13 回帖 • 1 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 132 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖 • 18 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    76 引用 • 429 回帖
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 405 关注
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    6 引用 • 15 回帖 • 180 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 127 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 430 关注
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 196 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 705 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 608 关注
  • 反馈

    Communication channel for makers and users.

    124 引用 • 907 回帖 • 225 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    124 引用 • 580 回帖
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    15 引用 • 136 回帖 • 3 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 529 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3169 引用 • 8208 回帖 • 1 关注
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    91 引用 • 751 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    281 引用 • 718 回帖 • 1 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    175 引用 • 994 回帖
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 700 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    19 引用 • 31 回帖 • 2 关注