第 4 章 数据处理
任务 1 采集数据
一、数据处理概述
- 定义:对数量巨大、来源分散、格式多样的数据进行管理、分析,提取有价值信息的过程。
- 核心价值:解决问题的重要方式(如智能交通、网络购物分析等)。
二、常用数据处理软件
软件名称 | 功能与特点 | 适用场景 |
---|---|---|
WPS 表格 | 国产免费,支持.et 格式,功能与 Excel 兼容 | 日常办公、基础数据分析 |
Excel | 微软经典工具,支持.xlsx 格式,功能强大 | 管理、金融、统计分析 |
SQL Server | 关系型数据库管理系统 | 企业数据存储与管理 |
SPSSAU | 国产数据分析平台,支持 300 + 算法 | 教育、医学、社会科学研究 |
三、数据类型与输入规则
-
字符型数据
- 定义:包含汉字、字母、数字组合(如学号、编号)。
- 输入方法:先输入英文单引号
'
,再输入内容(例:'001
)。 - 显示特点:单元格内左对齐。
-
数值型数据
- 定义:纯数字或含货币符号、百分号等(如销售额、成绩)。
- 输入方法:直接输入,自动右对齐。
-
日期 / 时间型数据
-
格式要求:
- 日期:
YYYY/MM/DD
或YYYY-MM-DD
(例:2023/10/1)。 - 时间:
HH:MM:SS
(例:15:30:00)。 - 混合输入:日期与时间用空格分隔(例:2023/10/1 15:30)。
- 日期:
-
-
分数输入
- 输入方法:先输入
0
和空格,再输入分数(例:0 2/3
显示为2/3
)。
- 输入方法:先输入
四、数据采集方法
-
人工录入
-
操作技巧:
- 按
Enter
键切换到下一行,按Tab
键切换到右侧单元格。 - 单元格内换行:
Alt + Enter
。 - 重命名工作表:双击标签后输入新名称。
- 按
-
-
外部数据导入
-
步骤:
- 点击 “数据” 选项卡 → “获取外部数据” → 选择数据源(如 Access 数据库)。
- 选择目标表格,设置导入位置(新工作表或现有工作表)。
-
-
工具软件采集
-
网络问卷:
- 结构:标题 → 正文(选择题、填空题)→ 收集(通过网页、微信等分享)。
- 工具推荐:51 调查、问卷星。
-
五、数据格式化与美化
-
单元格格式设置
-
操作路径:选中单元格 → 右键 → “设置单元格格式”。
-
常用功能:
- 数字:设置货币、百分比等格式。
- 对齐:调整文字方向、合并单元格。
- 边框 / 填充:添加表格线、设置背景色。
-
-
条件格式
-
功能:突出显示符合条件的数据(如销售额 <50000 元标红)。
-
操作步骤:
- 选中目标区域 → “开始” → “条件格式” → “突出显示单元格规则” → “小于”。
- 输入数值(如 50000),选择格式(如浅红色填充)。
-
-
套用表格样式
- 操作路径:选中区域 → “开始” → “套用表格格式” → 选择预设样式。
六、核心概念解析
-
单元格
- 定义:表格中最小的数据存储单位,地址由列标(字母)+ 行号(数字)唯一标识(例:A3)。
-
工作表
- 定义:工作簿中的 “页”,默认名称为 Sheet1、Sheet2 等,可通过标签切换。
-
工作簿
- 定义:存储数据的 Excel 文件,包含多个工作表。
七、典型应用场景
-
智能交通
- 分析车辆定位数据,优化信号灯调度,实时显示路况(教材图 4-1、4-2)。
-
网络购物
- 通过用户行为数据分析(如搜索、订单),构建用户画像,制定精准营销策略(教材图 4-3、4-4)。
-
北斗卫星导航系统
- 应用领域:智能交通、物流配送、无人驾驶(教材图 4-7)。
八、操作流程示例
-
创建图书销售表
-
步骤:
- 启动 Excel → 输入表头(经销部门、图书类别、数量、销售额)。
- 按教材图 4-11 录入数据,保存为 “图书销售情况.xlsx”。
-
-
设置条件格式(销售额 <50000 标红)
-
步骤:
- 选中 D3:D11 → “开始” → “条件格式” → “小于” → 输入 50000 → 选浅红色填充。
-
复习建议:
- 重点掌握 Excel 基本操作(数据输入、格式设置、条件格式)。
- 熟记教材案例(如智能交通、网络购物数据应用)。
- 结合教材图 4-10(采集数据思维导图)梳理知识框架。
任务 2 加工数据
一、运算表达式(教材第 24 页 表 4-2)
定义:以 =
开头,由运算符和数据项组成,用于数据计算。
运算符分类及说明:
运算符类型 | 符号 | 含义 | 应用示例 | 教材案例 |
---|---|---|---|---|
算术运算符 | + |
加法 | =1+2 |
=D3/C3 (单册平均价) |
- |
减法 / 负号 | =2-1 或 -5 |
=D3/SD$12 (销售额占比) |
|
* |
乘法 | =2*3 |
||
/ |
除法 | =4/2 |
||
^ |
乘方 | =3^2 |
||
比较运算符 | = |
等于 | =A1=A2 |
=IF(C3>=8%, "良好", "一般") |
> |
大于 | =A1>A2 |
||
< |
小于 | =A1<A2 |
||
>= |
大于或等于 | =A1>=A2 |
||
<= |
小于或等于 | =A1<=A2 |
||
<> |
不等于 | =A1<>A2 |
||
文本运算符 | & |
连接文本 | "2023"&"年" |
|
引用运算符 | : |
区域引用(连续范围) | =SUM(A1:D4) |
|
, |
联合引用(多个区域) | =SUM(A1:D1, A2:C2) |
||
(空格) | 交集引用(共有单元格) | =SUM(A1:D1 A2:B4) |
关键说明:
- 绝对地址:在单元格地址的行号和列标前加
$
(如$D$12
),填充时地址不变(教材图 4-29)。 - 运算符优先级:算术运算符 > 比较运算符 > 文本运算符。
二、常用函数(教材第 26 页 表 4-3)
定义:预置的运算表达式,形式为 函数名(参数)
。
教材重点函数及说明:
——函数名—— | ————————格式———————— | 功能 | 参数说明 | 教材案例 |
---|---|---|---|---|
MAX() |
MAX(number1, [number2], ...) |
计算一组数值中的最大值 | number1 :数值或单元格引用 |
=MAX(B3:B5) (最高气温) |
MIN() |
MIN(number1, [number2], ...) |
计算一组数值中的最小值 | 同上 | =MIN(B3:B5) (最低气温) |
SUM() |
SUM(number1, [number2], ...) |
计算所有参数的和 | 同上 | =SUM(C3:C11) (总册数) |
AVERAGE() |
AVERAGE(number1, [number2], ...) |
计算算术平均值 | 同上 | =AVERAGE(C3:E3) (平均分) |
RANK() |
RANK(number, ref, [order]) |
返回某数值的排名(降序默认) | number :待排名的数值ref :排名区域order=0 :降序(可省略)order=1 :升序 |
=RANK(D3, $D$3:$D$11, 0) |
IF() |
IF(logical_test, value_if_true, value_if_false) |
条件判断,返回不同结果 | logical_test :逻辑表达式value_if_true :条件为真时的结果value_if_false :条件为假时的结果 |
=IF(C3>=8%, "良好", "一般") |
COUNTIF() |
COUNTIF(range, criteria) |
统计指定区域中符合条件的单元格个数 | range :统计范围criteria :条件表达式 |
=COUNTIF(D3:D12, "高工") |
SUMIF() |
SUMIF(range, criteria, [sum_range]) |
计算符合条件的单元格区域内数值的和 | range :条件判断区域criteria :条件表达式sum_range :求和区域(可省略) |
=SUMIF(B3:B12, "第一组", F3:F12) |
ROUND() |
ROUND(number, num_digits) |
将数值四舍五入到指定小数位数 | number :待处理的数值num_digits :保留的小数位数 |
=ROUND(AVERAGE(C3:E3), 2) |
函数嵌套示例(教材图 4-38):
excel
=ROUND(AVERAGE(C3:E3), 2) (先计算平均分,再四舍五入保留2位小数)
三、核心操作流程(教材案例解析)
-
计算单册平均价(教材图 4-28):
excel=D3/C3 (销售额÷数量)
- 步骤:输入公式 → 按
Enter
→ 设置小数位数 → 填充柄拖动。
- 步骤:输入公式 → 按
-
计算销售额占比(教材图 4-29):
excel=D3/$D$12 (绝对引用总销售额)
- 注意:分母需用绝对地址
$D$12
,避免填充时地址改变。
- 注意:分母需用绝对地址
-
分类汇总(教材图 4-42):
-
步骤:
- 按 “经销部门” 排序 → 数据 → 分类汇总。
- 设置 “分类字段” 为 “经销部门”,“汇总方式” 为 “求和”,勾选 “数量” 和 “销售额”。
-
四、重点总结
-
运算表达式:
- 绝对地址与相对地址的区别(
$D$12
vsD3
)。 - 运算符优先级对计算结果的影响。
- 绝对地址与相对地址的区别(
-
函数:
-
IF()
函数的条件判断逻辑(教材图 4-36)。 -
RANK()
函数的降序默认规则(教材图 4-35)。
-
-
数据整理:
- 分类汇总前必须排序(教材图 4-42 提示)。
- 高级筛选条件区域的建立规则(同一行 “与”,不同行 “或”,教材图 4-43)。
复习建议:
- 结合教材案例(如图 4-28 至 4-45)进行实操练习。
- 重点掌握
SUM()
、IF()
、RANK()
、COUNTIF()
函数的参数规则。 - 理解排序、筛选、分类汇总的逻辑关系,避免操作顺序错误。
任务 4 初识大数据
一、大数据基础知识
1. 大数据的定义
- Gartner 定义:无法通过传统软件工具在合理时间内处理的海量、高增长、多样化信息资产,需新处理模式提升决策力、洞察力与流程优化能力。
- 麦肯锡定义:规模超出传统数据库处理能力,具有海量数据规模、快速数据流转、多样数据类型、价值密度低四大特征的数据集合。
2. 大数据的产生历史
-
关键节点:
- 2005 年:Hadoop 项目诞生,提供分布式存储(HDFS)与并行处理(MapReduce)技术。
- 2015 年:国务院发布《促进大数据发展行动纲要》,部署国家大数据战略。
- 2021 年:《中华人民共和国数据安全法》施行,强化数据安全管理。
3. 大数据的特征(5V)
特征 | 含义 | 教材案例 |
---|---|---|
体量大 | 数据规模巨大(如全球每日产生 2.5 亿条推文)。 | 物联网传感器每日采集数亿条数据。 |
多样化 | 数据类型多样(结构化如表格、半结构化如 XML、非结构化如视频 / 图片)。 | 社交平台包含文字、图片、视频。 |
速度快 | 数据实时流转,需快速处理(如实时路况更新)。 | 股票交易数据秒级更新。 |
真实性 | 数据需准确、可信赖(如医疗诊断数据)。 | 疫情数据需真实反映传播情况。 |
价值密度低 | 有用数据占比小,需深度挖掘(如监控视频中仅有几秒关键画面)。 | 电商日志中仅少数用户行为有价值。 |
4. 大数据的作用
- 技术融合:推动物联网、云计算、人工智能协同发展(教材图 4-59:百度智能云平台)。
- 产业升级:催生智能医疗、智慧城市、精准营销等新业态。
- 决策支持:通过数据分析优化城市管理(如交通信号灯调度)、企业运营(如用户画像)。
二、大数据处理流程
1. 数据采集
-
方法:
- 离线采集:通过 ETL 技术(抽取 - 转换 - 加载)处理批量数据(如企业财务数据)。
- 实时采集:用于流处理场景(如用户行为分析、股票交易监控)。
- 互联网采集:网络爬虫抓取公开数据(如电商评论、新闻资讯)。
2. 数据清洗
- 目的:去除噪声、错误数据,规范格式(如统一日期格式 “2023-10-01”)。
3. 数据存储
- 技术:分布式文件系统(HDFS)、分布式数据库(如 HBase)。
4. 数据挖掘
- 算法:神经网络、遗传算法、决策树(如预测用户购买行为)。
5. 数据展现
- 形式:图表、仪表盘(如教材图 4-60:国家教育资源公共服务平台可视化数据)。
三、大数据采集与分析方法
1. 采集方法
- 其他方法:与技术服务商合作,通过 API 接口采集企业内部数据(如客户信息、财务数据)。
2. 分析方法
-
核心技术:
- 预测性分析:基于历史数据建模预测未来(如销量预测、用户流失预警)。
- 可视化分析:图表直观展示数据规律(如柱状图对比不同地区销售额)。
四、数据安全
1. 安全风险
- 隐私泄露:数据集中存储易被攻击(如社交媒体用户信息泄露)。
- 攻击手段:黑客利用大数据技术精准定位目标(如 APT 攻击隐藏在海量数据中)。
2. 安全需求
- 机密性:加密保护数据(如公钥加密、同态加密)。
- 完整性:验证数据未被篡改(如哈希值校验)。
3. 安全策略
- 技术:入侵检测系统(IDS)、访问控制列表(ACL)。
- 规则:遵循《数据安全法》,明确数据所有权与使用权。
五、大数据发展趋势
- 资源化:数据成为企业核心资产(如电商平台通过用户数据优化推荐)。
- 与云计算结合:弹性扩展存储与计算能力(如教材图 4-59:百度智能云)。
- 与人工智能结合:算法优化推动自动驾驶、语音识别等应用发展。
六、典型案例与政策
1. 政策文件
- 《促进大数据发展行动纲要》(2015) :提出建设数据强国,推动大数据在政务、民生领域应用。
- 《数据安全法》(2021) :明确数据分类分级保护、数据安全审查等制度。
2. 应用场景
- 智慧城市:通过交通数据优化信号灯配时(教材图 4-59)。
- 智慧教育:国家教育资源平台提供个性化学习资源(教材图 4-60)。
七、考试重点标注
- 5V 特征:体量大、多样化、速度快、真实性、价值密度低(教材 P41)。
- 处理流程:采集 → 清洗 → 存储 → 挖掘 → 展现(教材 P43 图 4-61)。
- 数据安全:风险(隐私泄露、攻击手段)、需求(机密性、完整性)、策略(加密、访问控制)。
- 政策时间节点:2015 年《纲要》、2021 年《数据安全法》。
- 技术融合:大数据与云计算、人工智能的协同关系。
复习建议:
- 案例记忆:结合教材图 4-59(百度智能云)、图 4-60(国家教育平台)理解应用场景。
- 对比学习:区分离线采集(ETL)与实时采集(流处理)的适用场景。
- 口诀辅助:“5V 特征要记牢,采集清洗不能少,存储挖掘加展现,安全法规是保障”。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于