【警报贴】基于社区成员的在线状态提示对用户的上网时间段画像

本贴最后更新于 1886 天前,其中的信息可能已经渤澥桑田

记得日本动漫改编电影《死亡笔记》中有个桥段,侦探“L”基于死者的遇害时间画像推测出作案者是学生从而缩小了调查半径。最近注意到黑客派网站上有一个显示用户在线状态的标识,研究了下,发现可以用来对活跃用户的上网时间段画像,贴出来分享下。

默认未取消“公开在线状态”的用户个人主页,头像下面的第一个标识显示的是用户的登录状态,如果你有在个人设置页面取消“公开在线状态”的话则不会显示这个标识,通过统计数据发现社区仅有 0.6% 的用户未公开自己的在线状态,即是说其他 5W+ 的用户登录状态是对外公开的。

先来看下这个登录状态标识会显示哪些状态。

  • 在线:用户登录账号在线时显示
  • 刚刚:用户退出登录 1 分钟内显示
  • 1 分钟前~ 59 分钟前:用户退出登录后对应的时间内显示
  • 1 小时前~ 23 小时前:用户退出登录后对应的时间内显示
  • 1 天前~ 6 天前:用户退出登录后对应的时间内显示
  • 1 周前~ 4 周前:用户退出登录后对应的时间内显示
  • 1 个月前~ 11 个月前:用户退出登录后对应的时间内显示
  • 1 年前~ N 年前:用户退出登录后对应的时间内显示

根据上面的信息可以这样来收集指定用户的登录状态数据,设置定时任务每个小时访问一次指定用户的个人主页,获取登录状态信息,记录登录状态提示信息和访问时间,一天会记录 24 次,这样持续记录 50 天之后就有了 1200 条记录,然后清洗数据应该就可以比较准确的画出用户一周内每天上网的时间段了。

当然了,以上记录方式只对【社区活跃成员】并且【未手动取消】“公开在线状态”的用户有效。看到这里,如果你对社区用户数据做过统计分析的话就会发现活跃的用户实在是太少了,不过还是要提醒各位小伙伴一句,如果你没有取消“公开在线状态”的话是完全有可能被别人记录下来的。

又发现用户个人主页的【在线时长】统计信息也可以用来收集指定用户的登录行为,同样的方式,只需要每小时记录下用户的在线时长数据和访问时间,持续收集数据清洗后就可以画像了。这个【在线时长】记录,用户是没有办法选择关闭的,只能选择登录或者不登录。

如果你发现你的个人主页访问量不正常地稳定持续增长,那么极有可能是别人在收集你的数据了。

最后,如果你也对社区的帖子跟用户统计数据感兴趣,请看:
https://hacpai.com/article/1566621201255

3 操作
soulfight 在 2019-09-22 16:08:44 更新了该帖
soulfight 在 2019-09-22 14:26:59 更新了该帖
soulfight 在 2019-09-08 13:09:34 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
soulfight
Don't judge, don't believe; keep running, keep alive.

推荐标签 标签

  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    944 引用 • 1459 回帖 • 19 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 390 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • 创业

    你比 99% 的人都优秀么?

    84 引用 • 1399 回帖 • 1 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 128 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 1 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 167 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    32 引用 • 130 回帖 • 3 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    180 引用 • 400 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 62 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 633 关注
  • 电影

    这是一个不能说的秘密。

    120 引用 • 599 回帖
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 2 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖 • 1 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    311 引用 • 546 回帖 • 1 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 552 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 27 关注
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1705 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 71 关注
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    729 引用 • 1327 回帖
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 659 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    23 引用 • 32 回帖
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 350 关注
  • danl
    132 关注