【释疑贴】社区贴子与用户的数据统计(新手必看)

本贴最后更新于 1642 天前,其中的信息可能已经事过境迁

一开始对社区的导航方式无法适应,不知道从哪里开始查看感兴趣的贴子(开始没有发现登录后可以直接使用搜索功能以为只能用 Google 的站内搜索),所以想把贴子标题爬下来快速浏览,最初的想法是从最新贴子里找动态加载分页信息的 url,但是发现不好计算出总页数也无法区分动态加载的 json 数据是不是含有重复的混淆数据,试了好几次没有结果。

后来发现主页的底部导航有数据统计的页面链接,没想到社区所有注册用户信息是可以公开访问的,于是先爬了下七百多页的用户列表页提取出了 50207 位用户的用户名和个人主页链接,接着逐个爬取用户主页上的数据,最后爬取公开贴子列表用户(有 68 位用户选择不公开贴子列表)的贴子列表获取到 16124 条贴子的数据。最近将爬取到的数据做成了 3 个 Excel 表,部分截图如下,有兴趣的小伙伴可以查看隐藏的打赏内容。

post.PNG
U.PNG
P.PNG

注册用户数最多的 10 个城市(基于公开城市位置的用户统计):

排行 城市 人数
TOP.1 北京 4270
TOP.2 上海 2637
TOP.3 深圳 2224
TOP.4 广州 1870
TOP.5 杭州 1768
TOP.6 成都 1310
TOP.7 武汉 969
TOP.7 南京 928
TOP.8 重庆 675
TOP.8 西安 613
TOP.9 苏州 596
TOP.9 长沙 542
TOP.9 郑州 526
TOP.10 济南 434

【黑客】成员与【画家】成员的数量:

身份 人数 占比
黑客 46424 92%
画家 3783 8%

活跃用户数:

条件 人数 占比
发贴数不为 0 2730 5.4%
发贴数不少于 10 396 0.8%
回贴数不为 0 4747 9.5%

贴子数据统计:

过滤条件 贴子数量
非管理员节点贴子浏览数不少于 500 1742
非管理员节点贴子回贴数不为 0 7227
非管理员节点贴子回贴数不为 0 或浏览数不少于 500 7776
非管理员节点贴子回贴数不少于 20 且浏览数不少于 500 235

2019 年 8 月份各时间段访问黑客派的在线人数平均值(按数据统计里显示的在线用户数减去所有数据里面最低的一个数值 116):

  • 在线人数最多的时刻:8 月 19 日 17:05(733)
  • 在线人数最少的时刻:8 月 25 日 05:50(116)
时间段 访问网站在线人数
6~7 点 53
7~8 点 61
8~9 点 91
9~10 点 190
10~11 点 280
11~12 点 336
12~13 点 328
13~14 点 317
14~15 点 344
15~16 点 372
16~17 点 394
17~18 点 385
18~19 点 305
19~20 点 248
20~21 点 230
21~22 点 223
22~23 点 212
23~0 点 187
0~1 点 142
1~2 点 100
2~3 点 77
3~4 点 66
4~5 点 59
5~6 点 53

新增用户登录之后在黑客派停留总时长的统计:

在线总时长 人数
10 分钟 + 11295
1 小时 + 6569
10 小时 + 2161
20 小时 + 1349
50 小时 + 670
100 小时 + 372
200 小时 + 196
720 小时 + 48
任意时长 19250

追加 3 个统计表格:

年份 年度发贴数 年度新注册用户数
2012 55 79
2013 498 380
2014 158 186
2015 953 1569
2016 3066 3591
2017 3505 5141
2018 4681 26953
2019.8 3207 12308
月份 发贴分布数 新注册用户分布数
1 月 1317 5936
2 月 976 2678
3 月 1566 2884
4 月 1455 2732
5 月 1262 8574
6 月 1253 3987
7 月 1396 4814
8 月 1673 5239
9 月 1311 3575
10 月 1126 3326
11 月 1418 3362
12 月 1370 3100
时间段 发贴总数 收到的回贴总数
0~1 点 419 1978
1~2 点 209 891
2~3 点 66 290
3~4 点 32 120
4~5 点 27 30
5~6 点 13 32
6~7 点 40 162
7~8 点 74 245
8~9 点 306 1650
9~10 点 1160 5817
10~11 点 1419 7815
11~12 点 1335 6368
12~13 点 698 2939
13~14 点 820 4050
14~15 点 1200 4970
15~16 点 1217 5022
16~17 点 1273 4550
17~18 点 1257 3920
18~19 点 793 2214
19~20 点 610 1597
20~21 点 719 2563
21~22 点 784 2362
22~23 点 906 2914
23~0 点 746 2729

分析发现,每天最佳发贴时间段是 10~11 点。

以上社区开放的数据只放在社区给大伙解疑。如果你还对会员升级系统感兴趣,请看:
https://hacpai.com/article/1567678498082

打赏 70 积分后可见
70 积分 • 8 打赏
  • 黑客派

    黑客派是 B3log 开源社区的线上论坛,这里主要汇聚了程序员和设计师。HacPai 分别取 Hacker / Painter 的头三个字母组成,源自《黑客与画家》。

    358 引用 • 4754 回帖 • 510 关注
  • 数据统计
    4 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
soulfight
Don't judge, don't believe; keep running, keep alive.

推荐标签 标签

  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    284 引用 • 247 回帖 • 210 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 1 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 7 关注
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    139 引用 • 441 回帖
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    96 引用 • 330 回帖
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    69 引用 • 190 回帖 • 500 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    6364 引用 • 28621 回帖 • 263 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 21 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 3 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 31 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 675 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    160 引用 • 470 回帖 • 1 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖 • 1 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    60 引用 • 287 回帖
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 16 关注
  • 分享

    有什么新发现就分享给大家吧!

    240 引用 • 1729 回帖
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 618 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    66 引用 • 124 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    163 引用 • 529 回帖
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 1 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 686 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 25 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    84 引用 • 139 回帖 • 1 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    51 引用 • 190 回帖