大数据对外服务专题分析标准化案例

本贴最后更新于 2817 天前,其中的信息可能已经事过境迁

#前言
大数据对外服务是支撑中心大数据中心的一项业务,也是大数据变现的一项重要手段。虽然我们掌握了许多数据资源,熟悉多种分析手段,但由于各类行业都有其独特性,每次大数据对外服务需求都应该充分调研,了解行业客户真正的需求,必要的时候还要到实地去考察,与客户面对面沟通,以达到最好的分析效果。
#交付成果
大数据对外服务一般提供给客户一份专题分析报告 PPT,PPT 中仅提供脱敏的统计级数据,或者趋势分析数据。不可包含任何用户清单级的敏感数据。
#分析流程
大数据对外服务流程为 152 流程,是由县市公司政企部客户经理发起,经过直属领导、法务部、信息安全等部门审批,通过后方可进行。客户经理应尽可能详细地写清楚客户需求,并告知客户最终的可交付成果。商务部分也需要提供,例如是否通过其他项目来置换大数据对外服务费用等。
##需求调研
为了满足客户需求,避免分析结果出现问题,第一次接到大数据对外服务流程时,可与项目发起人一同前往客户所在地,当面沟通,进一步明确客户的具体需求。
##可行性分析
与客户沟通完毕并明确了客户需求之后,应对该需求进行可行性分析,考虑客户需求是否为当前系统中可提取的数据。此外,考虑交付成果是否为脱敏的统计级数据。
##数据提取
数据提取过程一般通过客户标签库、客户轨迹表、常用基站表等维度进行提取。
###1.区域确认
根据商铺的位置,在地图上进行坐标拾取,通常情况下,我们先选取商铺所在位置多边形的四个点,分别提取这四个点的 GPS 坐标(注意:只有谷歌地球的坐标才是真实的 GPS 坐标,其他坐标都是经过转换的“火星坐标”)
6666.jpg
通过获取这 4 个坐标的最大值和最小值,得出实际的坐标取值范围如下图绿色方框所示。
777.jpg
从数据库中取得落在该区域内的基站清单。
###2.基站确认
获得这个矩形区域中的基站,如下图所示,可见,所得基站均处于商铺范围内。
base.jpg
###3.用户分布热力图
根据基站所覆盖的用户数绘制出用户分布密度热力图。
rlt.jpg
###4.用户提取
根据基站清单,提取用户信息,并剔除在该区域 7 天及 7 天以上的常驻用户。如下图所示,根据每天的访客情况可见,该区域的日均访客数为 23301.9 人,最大值为 29008 人,最小值为 14818 人。
444.jpg
根据用户清单,进一步挖掘用户的详细信息。
##数据挖掘
对于已获取的用户清单,可直接进行用户标签的关联,对于潜在目标客户的分析,可让客户提供有效的真实会员资料,通过该清单进行建模,以得到潜在目标客户模型。
###1.基本信息
(1)用户年龄分布
如下图所示,该区域的用户年龄集中分布在 20-35 之间,其中年龄为 26 岁的用户数最多,达到 1.8 万,随着年龄的增长呈递减趋势。
5555.jpg
(2)用户性别比例
如下图所示,该区域的用户为男性居多,占比高达 63%。
666666.jpg
(3)用户归属地
如下图所示,在一个月的监控样本中,用户归属来自丰泽的最多,达到 13 万人,高出第二名两倍以上,晋江归属的用户达 5.78 万,鲤城归属的用户达 5.35 万,惠安归属的用户达 4.2 万。
77777.jpg
(4)用户职业特征
如下图所示,该区域近一个月来访的用户分布情况如下,其中商旅人士最多,占比达 62%,学生占比 21%,公务人员占比 7%。
zyzy.jpg
(5)用户星座分布
该区域用户的星座分布如下图所示,其中天秤座用户占比最高,达到 10.54%,其次为天蝎座用户,占比 9.95%,处女座用户占比第三,达到 8.92%。
star.jpg
###2.消费能力
(1)月均 ARPU 值
该区域用户平均 ARPU 值分布情况如下图所示,可见,绝大多数用户的 ARPU 值集中在 100-200 之间。
ARPU.jpg
(2)用户余额分布
该区域用户余额分布情况如下图所示,可见余额小于 50 元的用户数最多。
余额.jpg
(3)月均流量使用
该区域的用户流量使用情况如下图所示,其中,月均流量处于 500MB-1GB 的用户数最多,达到 8.7 万户。
ll.jpg
(4)终端品牌分布
下图所示为该区域用户所使用终端品牌的占比情况,其中苹果终端占比最高达到 42.92%,华为、欧珀、小米并列占比 11%,步步高、三星品牌占比分别为 8% 和 6%。
zdzb.jpg
(5)拥有汽车的用户占比
如下图所示,该区域中,拥有汽车的用户占比为 26%。
iscar.jpg
(6)汽车品牌占比情况
该区域用户的汽车品牌占比情况如下图所示,其中本田汽车占比最高,达到 29.76%,丰田汽车占比仅次于本田,达 27.60%,大众汽车占比 23.73%,标致汽车占比 3.38%,同时也存在宾利、保时捷、宝马、奔驰、雷克萨斯等高端汽车品牌。
carband.jpg
###3.偏好特征
(1)上网内容偏好
该区域用户上网行为偏好如下图所示,其中搜索类偏好最高,达到 2.86 万次,IT 类偏好达 1.92 万次,游戏和购物类偏好分别为 1.39 和 1.33 万次,社交生活类偏好为 1.06 万次。
swxw.jpg
(2)APP 使用偏好
该区域中,社交通信类 APP 使用的频次最高,其次为 IT 类 APP 和系统工具类 APP。
appuse.jpg
###4.通信特征
(1)用户通话次数分布
下图为该区域用户的月通话次数,其中月通话在 100-200 次的用户最多,达到 91925 户,通话 500 次以上的为 75168 户。
thcs1.jpg
(2)用户影响力
根据用户通话特征评估模型对该区域的用户进行分析,得出该区域用户有 45% 的用户具有较高的社会影响力。
yxl.jpg
##分析报告制作
分析报告一般提供 PPT 或 WORD 形式,尽量避免使用专业术语,应使用可供客户阅读的简单描述或举例。
##数据审核
数据审核一般由 B 角、、信息安全部门、法务部、财务部依次进行,仅当审核完成之后才可将最终的分析报告提交给客户。
##分析报告提交
分析报告通过流程进行流转,最终由需求发起人将该报告直接发送给客户。

  • 工作

    快乐工作,认真生活。

    139 引用 • 1469 回帖 • 6 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • 占比
    1 引用 • 3 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • relyn
    作者

    不是的哈

  • 其他回帖
  • 88250 1

    专业..(挽尊....

  • monday

    头像好像很熟悉,武汉理工?

    1 回复
relyn
永远相信美好的事情即将发生 泉州

推荐标签 标签

  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 233 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    398 引用 • 3437 回帖
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 3 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 22 关注
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 27 关注
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 381 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 1 关注
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    5 引用 • 15 回帖 • 210 关注
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 513 关注
  • 导航

    各种网址链接、内容导航。

    37 引用 • 168 回帖 • 3 关注
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 182 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 432 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 33 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 452 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    85 引用 • 1201 回帖 • 450 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    16 引用 • 53 回帖 • 123 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 466 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 293 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 343 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    27 引用 • 66 回帖 • 1 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    165 引用 • 1461 回帖
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 12 关注
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    284 引用 • 4481 回帖 • 651 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 570 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    164 引用 • 594 回帖