大数据对外服务专题分析标准化案例

本贴最后更新于 2797 天前,其中的信息可能已经事过境迁

#前言
大数据对外服务是支撑中心大数据中心的一项业务,也是大数据变现的一项重要手段。虽然我们掌握了许多数据资源,熟悉多种分析手段,但由于各类行业都有其独特性,每次大数据对外服务需求都应该充分调研,了解行业客户真正的需求,必要的时候还要到实地去考察,与客户面对面沟通,以达到最好的分析效果。
#交付成果
大数据对外服务一般提供给客户一份专题分析报告 PPT,PPT 中仅提供脱敏的统计级数据,或者趋势分析数据。不可包含任何用户清单级的敏感数据。
#分析流程
大数据对外服务流程为 152 流程,是由县市公司政企部客户经理发起,经过直属领导、法务部、信息安全等部门审批,通过后方可进行。客户经理应尽可能详细地写清楚客户需求,并告知客户最终的可交付成果。商务部分也需要提供,例如是否通过其他项目来置换大数据对外服务费用等。
##需求调研
为了满足客户需求,避免分析结果出现问题,第一次接到大数据对外服务流程时,可与项目发起人一同前往客户所在地,当面沟通,进一步明确客户的具体需求。
##可行性分析
与客户沟通完毕并明确了客户需求之后,应对该需求进行可行性分析,考虑客户需求是否为当前系统中可提取的数据。此外,考虑交付成果是否为脱敏的统计级数据。
##数据提取
数据提取过程一般通过客户标签库、客户轨迹表、常用基站表等维度进行提取。
###1.区域确认
根据商铺的位置,在地图上进行坐标拾取,通常情况下,我们先选取商铺所在位置多边形的四个点,分别提取这四个点的 GPS 坐标(注意:只有谷歌地球的坐标才是真实的 GPS 坐标,其他坐标都是经过转换的“火星坐标”)
6666.jpg
通过获取这 4 个坐标的最大值和最小值,得出实际的坐标取值范围如下图绿色方框所示。
777.jpg
从数据库中取得落在该区域内的基站清单。
###2.基站确认
获得这个矩形区域中的基站,如下图所示,可见,所得基站均处于商铺范围内。
base.jpg
###3.用户分布热力图
根据基站所覆盖的用户数绘制出用户分布密度热力图。
rlt.jpg
###4.用户提取
根据基站清单,提取用户信息,并剔除在该区域 7 天及 7 天以上的常驻用户。如下图所示,根据每天的访客情况可见,该区域的日均访客数为 23301.9 人,最大值为 29008 人,最小值为 14818 人。
444.jpg
根据用户清单,进一步挖掘用户的详细信息。
##数据挖掘
对于已获取的用户清单,可直接进行用户标签的关联,对于潜在目标客户的分析,可让客户提供有效的真实会员资料,通过该清单进行建模,以得到潜在目标客户模型。
###1.基本信息
(1)用户年龄分布
如下图所示,该区域的用户年龄集中分布在 20-35 之间,其中年龄为 26 岁的用户数最多,达到 1.8 万,随着年龄的增长呈递减趋势。
5555.jpg
(2)用户性别比例
如下图所示,该区域的用户为男性居多,占比高达 63%。
666666.jpg
(3)用户归属地
如下图所示,在一个月的监控样本中,用户归属来自丰泽的最多,达到 13 万人,高出第二名两倍以上,晋江归属的用户达 5.78 万,鲤城归属的用户达 5.35 万,惠安归属的用户达 4.2 万。
77777.jpg
(4)用户职业特征
如下图所示,该区域近一个月来访的用户分布情况如下,其中商旅人士最多,占比达 62%,学生占比 21%,公务人员占比 7%。
zyzy.jpg
(5)用户星座分布
该区域用户的星座分布如下图所示,其中天秤座用户占比最高,达到 10.54%,其次为天蝎座用户,占比 9.95%,处女座用户占比第三,达到 8.92%。
star.jpg
###2.消费能力
(1)月均 ARPU 值
该区域用户平均 ARPU 值分布情况如下图所示,可见,绝大多数用户的 ARPU 值集中在 100-200 之间。
ARPU.jpg
(2)用户余额分布
该区域用户余额分布情况如下图所示,可见余额小于 50 元的用户数最多。
余额.jpg
(3)月均流量使用
该区域的用户流量使用情况如下图所示,其中,月均流量处于 500MB-1GB 的用户数最多,达到 8.7 万户。
ll.jpg
(4)终端品牌分布
下图所示为该区域用户所使用终端品牌的占比情况,其中苹果终端占比最高达到 42.92%,华为、欧珀、小米并列占比 11%,步步高、三星品牌占比分别为 8% 和 6%。
zdzb.jpg
(5)拥有汽车的用户占比
如下图所示,该区域中,拥有汽车的用户占比为 26%。
iscar.jpg
(6)汽车品牌占比情况
该区域用户的汽车品牌占比情况如下图所示,其中本田汽车占比最高,达到 29.76%,丰田汽车占比仅次于本田,达 27.60%,大众汽车占比 23.73%,标致汽车占比 3.38%,同时也存在宾利、保时捷、宝马、奔驰、雷克萨斯等高端汽车品牌。
carband.jpg
###3.偏好特征
(1)上网内容偏好
该区域用户上网行为偏好如下图所示,其中搜索类偏好最高,达到 2.86 万次,IT 类偏好达 1.92 万次,游戏和购物类偏好分别为 1.39 和 1.33 万次,社交生活类偏好为 1.06 万次。
swxw.jpg
(2)APP 使用偏好
该区域中,社交通信类 APP 使用的频次最高,其次为 IT 类 APP 和系统工具类 APP。
appuse.jpg
###4.通信特征
(1)用户通话次数分布
下图为该区域用户的月通话次数,其中月通话在 100-200 次的用户最多,达到 91925 户,通话 500 次以上的为 75168 户。
thcs1.jpg
(2)用户影响力
根据用户通话特征评估模型对该区域的用户进行分析,得出该区域用户有 45% 的用户具有较高的社会影响力。
yxl.jpg
##分析报告制作
分析报告一般提供 PPT 或 WORD 形式,尽量避免使用专业术语,应使用可供客户阅读的简单描述或举例。
##数据审核
数据审核一般由 B 角、、信息安全部门、法务部、财务部依次进行,仅当审核完成之后才可将最终的分析报告提交给客户。
##分析报告提交
分析报告通过流程进行流转,最终由需求发起人将该报告直接发送给客户。

  • 工作

    快乐工作,认真生活。

    139 引用 • 1469 回帖 • 6 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • 占比
    1 引用 • 3 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250 1

    专业..(挽尊....

  • monday

    头像好像很熟悉,武汉理工?

    1 回复
  • relyn
    作者

    不是的哈

relyn
永远相信美好的事情即将发生 泉州

推荐标签 标签

  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    7 引用 • 26 回帖 • 3 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    77 引用 • 1741 回帖
  • 自由行
    1 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    25 引用 • 217 回帖 • 166 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    131 引用 • 1114 回帖 • 151 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1425 引用 • 10043 回帖 • 470 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖 • 2 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    51 引用 • 190 回帖
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    180 引用 • 447 回帖 • 1 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 692 关注
  • 博客

    记录并分享人生的经历。

    270 引用 • 2386 回帖
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖 • 3 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    18722 引用 • 69932 回帖
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • Sillot

    Sillot (汐洛)孵化自思源笔记,致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点
    Github 地址:https://github.com/Hi-Windom/Sillot

    16 引用 • 6 回帖 • 28 关注
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 7 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 452 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 684 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 1 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖 • 1 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    76 引用 • 390 回帖
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 566 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    5 引用 • 13 回帖
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    85 引用 • 895 回帖 • 1 关注
  • gRpc
    10 引用 • 8 回帖 • 55 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 407 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    164 引用 • 1451 回帖