大数据对外服务专题分析标准化案例

本贴最后更新于 2863 天前,其中的信息可能已经事过境迁

#前言
大数据对外服务是支撑中心大数据中心的一项业务,也是大数据变现的一项重要手段。虽然我们掌握了许多数据资源,熟悉多种分析手段,但由于各类行业都有其独特性,每次大数据对外服务需求都应该充分调研,了解行业客户真正的需求,必要的时候还要到实地去考察,与客户面对面沟通,以达到最好的分析效果。
#交付成果
大数据对外服务一般提供给客户一份专题分析报告 PPT,PPT 中仅提供脱敏的统计级数据,或者趋势分析数据。不可包含任何用户清单级的敏感数据。
#分析流程
大数据对外服务流程为 152 流程,是由县市公司政企部客户经理发起,经过直属领导、法务部、信息安全等部门审批,通过后方可进行。客户经理应尽可能详细地写清楚客户需求,并告知客户最终的可交付成果。商务部分也需要提供,例如是否通过其他项目来置换大数据对外服务费用等。
##需求调研
为了满足客户需求,避免分析结果出现问题,第一次接到大数据对外服务流程时,可与项目发起人一同前往客户所在地,当面沟通,进一步明确客户的具体需求。
##可行性分析
与客户沟通完毕并明确了客户需求之后,应对该需求进行可行性分析,考虑客户需求是否为当前系统中可提取的数据。此外,考虑交付成果是否为脱敏的统计级数据。
##数据提取
数据提取过程一般通过客户标签库、客户轨迹表、常用基站表等维度进行提取。
###1.区域确认
根据商铺的位置,在地图上进行坐标拾取,通常情况下,我们先选取商铺所在位置多边形的四个点,分别提取这四个点的 GPS 坐标(注意:只有谷歌地球的坐标才是真实的 GPS 坐标,其他坐标都是经过转换的“火星坐标”)
6666.jpg
通过获取这 4 个坐标的最大值和最小值,得出实际的坐标取值范围如下图绿色方框所示。
777.jpg
从数据库中取得落在该区域内的基站清单。
###2.基站确认
获得这个矩形区域中的基站,如下图所示,可见,所得基站均处于商铺范围内。
base.jpg
###3.用户分布热力图
根据基站所覆盖的用户数绘制出用户分布密度热力图。
rlt.jpg
###4.用户提取
根据基站清单,提取用户信息,并剔除在该区域 7 天及 7 天以上的常驻用户。如下图所示,根据每天的访客情况可见,该区域的日均访客数为 23301.9 人,最大值为 29008 人,最小值为 14818 人。
444.jpg
根据用户清单,进一步挖掘用户的详细信息。
##数据挖掘
对于已获取的用户清单,可直接进行用户标签的关联,对于潜在目标客户的分析,可让客户提供有效的真实会员资料,通过该清单进行建模,以得到潜在目标客户模型。
###1.基本信息
(1)用户年龄分布
如下图所示,该区域的用户年龄集中分布在 20-35 之间,其中年龄为 26 岁的用户数最多,达到 1.8 万,随着年龄的增长呈递减趋势。
5555.jpg
(2)用户性别比例
如下图所示,该区域的用户为男性居多,占比高达 63%。
666666.jpg
(3)用户归属地
如下图所示,在一个月的监控样本中,用户归属来自丰泽的最多,达到 13 万人,高出第二名两倍以上,晋江归属的用户达 5.78 万,鲤城归属的用户达 5.35 万,惠安归属的用户达 4.2 万。
77777.jpg
(4)用户职业特征
如下图所示,该区域近一个月来访的用户分布情况如下,其中商旅人士最多,占比达 62%,学生占比 21%,公务人员占比 7%。
zyzy.jpg
(5)用户星座分布
该区域用户的星座分布如下图所示,其中天秤座用户占比最高,达到 10.54%,其次为天蝎座用户,占比 9.95%,处女座用户占比第三,达到 8.92%。
star.jpg
###2.消费能力
(1)月均 ARPU 值
该区域用户平均 ARPU 值分布情况如下图所示,可见,绝大多数用户的 ARPU 值集中在 100-200 之间。
ARPU.jpg
(2)用户余额分布
该区域用户余额分布情况如下图所示,可见余额小于 50 元的用户数最多。
余额.jpg
(3)月均流量使用
该区域的用户流量使用情况如下图所示,其中,月均流量处于 500MB-1GB 的用户数最多,达到 8.7 万户。
ll.jpg
(4)终端品牌分布
下图所示为该区域用户所使用终端品牌的占比情况,其中苹果终端占比最高达到 42.92%,华为、欧珀、小米并列占比 11%,步步高、三星品牌占比分别为 8% 和 6%。
zdzb.jpg
(5)拥有汽车的用户占比
如下图所示,该区域中,拥有汽车的用户占比为 26%。
iscar.jpg
(6)汽车品牌占比情况
该区域用户的汽车品牌占比情况如下图所示,其中本田汽车占比最高,达到 29.76%,丰田汽车占比仅次于本田,达 27.60%,大众汽车占比 23.73%,标致汽车占比 3.38%,同时也存在宾利、保时捷、宝马、奔驰、雷克萨斯等高端汽车品牌。
carband.jpg
###3.偏好特征
(1)上网内容偏好
该区域用户上网行为偏好如下图所示,其中搜索类偏好最高,达到 2.86 万次,IT 类偏好达 1.92 万次,游戏和购物类偏好分别为 1.39 和 1.33 万次,社交生活类偏好为 1.06 万次。
swxw.jpg
(2)APP 使用偏好
该区域中,社交通信类 APP 使用的频次最高,其次为 IT 类 APP 和系统工具类 APP。
appuse.jpg
###4.通信特征
(1)用户通话次数分布
下图为该区域用户的月通话次数,其中月通话在 100-200 次的用户最多,达到 91925 户,通话 500 次以上的为 75168 户。
thcs1.jpg
(2)用户影响力
根据用户通话特征评估模型对该区域的用户进行分析,得出该区域用户有 45% 的用户具有较高的社会影响力。
yxl.jpg
##分析报告制作
分析报告一般提供 PPT 或 WORD 形式,尽量避免使用专业术语,应使用可供客户阅读的简单描述或举例。
##数据审核
数据审核一般由 B 角、、信息安全部门、法务部、财务部依次进行,仅当审核完成之后才可将最终的分析报告提交给客户。
##分析报告提交
分析报告通过流程进行流转,最终由需求发起人将该报告直接发送给客户。

  • 工作

    快乐工作,认真生活。

    139 引用 • 1469 回帖 • 6 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • 占比
    1 引用 • 3 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250 1

    专业..(挽尊....

  • 其他回帖
  • monday

    头像好像很熟悉,武汉理工?

    1 回复
  • relyn
    作者

    不是的哈

relyn
永远相信美好的事情即将发生 泉州

推荐标签 标签

  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 733 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    189 引用 • 1056 回帖 • 2 关注
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 191 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 618 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    76 引用 • 429 回帖
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 476 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    942 引用 • 1458 回帖 • 118 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1347 回帖
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 610 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 4 关注
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    21 引用 • 37 回帖 • 519 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 437 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 10 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 58 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 12 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖 • 2 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 561 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖 • 25 关注
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 181 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    9 引用 • 32 回帖 • 152 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖 • 1 关注
  • V2Ray
    1 引用 • 15 回帖 • 1 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    109 引用 • 54 回帖
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    90 引用 • 383 回帖
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 703 关注