《信息技术(基础模块 下册)》复习知识点汇总(F_ 天信中职 王炼杰)

第 4 章 数据处理

任务 1 采集数据

一、数据处理概述

  1. 定义:对数量巨大、来源分散、格式多样的数据进行管理、分析,提取有价值信息的过程。
  2. 核心价值:解决问题的重要方式(如智能交通、网络购物分析等)。

二、常用数据处理软件

软件名称 功能与特点 适用场景
WPS 表格 国产免费,支持.et 格式,功能与 Excel 兼容 日常办公、基础数据分析
Excel 微软经典工具,支持.xlsx 格式,功能强大 管理、金融、统计分析
SQL Server 关系型数据库管理系统 企业数据存储与管理
SPSSAU 国产数据分析平台,支持 300 + 算法 教育、医学、社会科学研究

三、数据类型与输入规则

  1. 字符型数据

    • 定义:包含汉字、字母、数字组合(如学号、编号)。
    • 输入方法:先输入英文单引号 '​,再输入内容(例:'001​)。
    • 显示特点:单元格内左对齐。
  2. 数值型数据

    • 定义:纯数字或含货币符号、百分号等(如销售额、成绩)。
    • 输入方法:直接输入,自动右对齐。
  3. 日期 / 时间型数据

    • 格式要求

      • 日期:YYYY/MM/DD​或 YYYY-MM-DD​(例:2023/10/1)。
      • 时间:HH:MM:SS​(例:15:30:00)。
      • 混合输入:日期与时间用空格分隔(例:2023/10/1 15:30)。
  4. 分数输入

    • 输入方法:先输入 0​和空格,再输入分数(例:0 2/3​显示为 2/3​)。

四、数据采集方法

  1. 人工录入

    • 操作技巧

      • Enter​键切换到下一行,按 Tab​键切换到右侧单元格。
      • 单元格内换行:Alt + Enter​。
      • 重命名工作表:双击标签后输入新名称。
  2. 外部数据导入

    • 步骤

      1. 点击 “数据” 选项卡 → “获取外部数据” → 选择数据源(如 Access 数据库)。
      2. 选择目标表格,设置导入位置(新工作表或现有工作表)。
  3. 工具软件采集

    • 网络问卷

      • 结构:标题 → 正文(选择题、填空题)→ 收集(通过网页、微信等分享)。
      • 工具推荐:51 调查、问卷星。

五、数据格式化与美化

  1. 单元格格式设置

    • 操作路径:选中单元格 → 右键 → “设置单元格格式”。

    • 常用功能

      • 数字:设置货币、百分比等格式。
      • 对齐:调整文字方向、合并单元格。
      • 边框 / 填充:添加表格线、设置背景色。
  2. 条件格式

    • 功能:突出显示符合条件的数据(如销售额 <50000 元标红)。

    • 操作步骤

      1. 选中目标区域 → “开始” → “条件格式” → “突出显示单元格规则” → “小于”。
      2. 输入数值(如 50000),选择格式(如浅红色填充)。
  3. 套用表格样式

    • 操作路径:选中区域 → “开始” → “套用表格格式” → 选择预设样式。

六、核心概念解析

  1. 单元格

    • 定义:表格中最小的数据存储单位,地址由列标(字母)+ 行号(数字)唯一标识(例:A3)。
  2. 工作表

    • 定义:工作簿中的 “页”,默认名称为 Sheet1、Sheet2 等,可通过标签切换。
  3. 工作簿

    • 定义:存储数据的 Excel 文件,包含多个工作表。

七、典型应用场景

  1. 智能交通

    • 分析车辆定位数据,优化信号灯调度,实时显示路况(教材图 4-1、4-2)。
  2. 网络购物

    • 通过用户行为数据分析(如搜索、订单),构建用户画像,制定精准营销策略(教材图 4-3、4-4)。
  3. 北斗卫星导航系统

    • 应用领域:智能交通、物流配送、无人驾驶(教材图 4-7)。

八、操作流程示例

  1. 创建图书销售表

    • 步骤

      1. 启动 Excel → 输入表头(经销部门、图书类别、数量、销售额)。
      2. 按教材图 4-11 录入数据,保存为 “图书销售情况.xlsx”。
  2. 设置条件格式(销售额 <50000 标红)

    • 步骤

      1. 选中 D3:D11 → “开始” → “条件格式” → “小于” → 输入 50000 → 选浅红色填充。

复习建议

  1. 重点掌握 Excel 基本操作(数据输入、格式设置、条件格式)。
  2. 熟记教材案例(如智能交通、网络购物数据应用)。
  3. 结合教材图 4-10(采集数据思维导图)梳理知识框架。

任务 2 加工数据

一、运算表达式(教材第 24 页 表 4-2)

定义:以 =​开头,由运算符和数据项组成,用于数据计算。
运算符分类及说明

运算符类型 符号 含义 应用示例 教材案例
算术运算符 + 加法 =1+2 =D3/C3​(单册平均价)
- 减法 / 负号 =2-1​ 或 -5 =D3/SD$12​(销售额占比)
* 乘法 =2*3
/ 除法 =4/2
^ 乘方 =3^2
比较运算符 = 等于 =A1=A2 =IF(C3>=8%, "良好", "一般")
> 大于 =A1>A2
< 小于 =A1<A2
>= 大于或等于 =A1>=A2
<= 小于或等于 =A1<=A2
<> 不等于 =A1<>A2
文本运算符 & 连接文本 "2023"&"年"
引用运算符 : 区域引用(连续范围) =SUM(A1:D4)
, 联合引用(多个区域) =SUM(A1:D1, A2:C2)
(空格) 交集引用(共有单元格) =SUM(A1:D1 A2:B4)

关键说明

  1. 绝对地址:在单元格地址的行号和列标前加 $​(如 $D$12​),填充时地址不变(教材图 4-29)。
  2. 运算符优先级:算术运算符 > 比较运算符 > 文本运算符。

二、常用函数(教材第 26 页 表 4-3)

定义:预置的运算表达式,形式为 函数名(参数)​。
教材重点函数及说明

——函数名—— ————————格式———————— 功能 参数说明 教材案例
MAX() MAX(number1, [number2], ...) 计算一组数值中的最大值 number1​:数值或单元格引用 =MAX(B3:B5)​(最高气温)
MIN() MIN(number1, [number2], ...) 计算一组数值中的最小值 同上 =MIN(B3:B5)​(最低气温)
SUM() SUM(number1, [number2], ...) 计算所有参数的和 同上 =SUM(C3:C11)​(总册数)
AVERAGE() AVERAGE(number1, [number2], ...) 计算算术平均值 同上 =AVERAGE(C3:E3)​(平均分)
RANK() RANK(number, ref, [order]) 返回某数值的排名(降序默认) number​:待排名的数值
ref​:排名区域
order=0​:降序(可省略)
order=1​:升序
=RANK(D3, $D$3:$D$11, 0)
IF() IF(logical_test, value_if_true, value_if_false) 条件判断,返回不同结果 logical_test​:逻辑表达式
value_if_true​:条件为真时的结果
value_if_false​:条件为假时的结果
=IF(C3>=8%, "良好", "一般")
COUNTIF() COUNTIF(range, criteria) 统计指定区域中符合条件的单元格个数 range​:统计范围
criteria​:条件表达式
=COUNTIF(D3:D12, "高工")
SUMIF() SUMIF(range, criteria, [sum_range]) 计算符合条件的单元格区域内数值的和 range​:条件判断区域
criteria​:条件表达式
sum_range​:求和区域(可省略)
=SUMIF(B3:B12, "第一组", F3:F12)
ROUND() ROUND(number, num_digits) 将数值四舍五入到指定小数位数 number​:待处理的数值
num_digits​:保留的小数位数
=ROUND(AVERAGE(C3:E3), 2)

函数嵌套示例(教材图 4-38):

excel

=ROUND(AVERAGE(C3:E3), 2) (先计算平均分,再四舍五入保留2位小数)

三、核心操作流程(教材案例解析)

  1. 计算单册平均价(教材图 4-28):
    excel

    =D3/C3 (销售额÷数量)
    • 步骤:输入公式 → 按 Enter​→ 设置小数位数 → 填充柄拖动。
  2. 计算销售额占比(教材图 4-29):
    excel

    =D3/$D$12 (绝对引用总销售额)
    • 注意:分母需用绝对地址 $D$12​,避免填充时地址改变。
  3. 分类汇总(教材图 4-42):

    • 步骤

      1. 按 “经销部门” 排序 → 数据 → 分类汇总。
      2. 设置 “分类字段” 为 “经销部门”,“汇总方式” 为 “求和”,勾选 “数量” 和 “销售额”。

四、重点总结

  1. 运算表达式

    • 绝对地址与相对地址的区别($D$12​ vs D3​)。
    • 运算符优先级对计算结果的影响。
  2. 函数

    • IF()​函数的条件判断逻辑(教材图 4-36)。
    • RANK()​函数的降序默认规则(教材图 4-35)。
  3. 数据整理

    • 分类汇总前必须排序(教材图 4-42 提示)。
    • 高级筛选条件区域的建立规则(同一行 “与”,不同行 “或”,教材图 4-43)。

复习建议

  1. 结合教材案例(如图 4-28 至 4-45)进行实操练习。
  2. 重点掌握 SUM()​、IF()​、RANK()​、COUNTIF()​函数的参数规则。
  3. 理解排序、筛选、分类汇总的逻辑关系,避免操作顺序错误。

任务 4 初识大数据

一、大数据基础知识

1. 大数据的定义

  • Gartner 定义:无法通过传统软件工具在合理时间内处理的海量、高增长、多样化信息资产,需新处理模式提升决策力、洞察力与流程优化能力。
  • 麦肯锡定义:规模超出传统数据库处理能力,具有海量数据规模、快速数据流转、多样数据类型、价值密度低四大特征的数据集合。

2. 大数据的产生历史

  • 关键节点

    • 2005 年:Hadoop 项目诞生,提供分布式存储(HDFS)与并行处理(MapReduce)技术。
    • 2015 年:国务院发布《促进大数据发展行动纲要》,部署国家大数据战略。
    • 2021 年:《中华人民共和国数据安全法》施行,强化数据安全管理。

3. 大数据的特征(5V)

特征 含义 教材案例
体量大 数据规模巨大(如全球每日产生 2.5 亿条推文)。 物联网传感器每日采集数亿条数据。
多样化 数据类型多样(结构化如表格、半结构化如 XML、非结构化如视频 / 图片)。 社交平台包含文字、图片、视频。
速度快 数据实时流转,需快速处理(如实时路况更新)。 股票交易数据秒级更新。
真实性 数据需准确、可信赖(如医疗诊断数据)。 疫情数据需真实反映传播情况。
价值密度低 有用数据占比小,需深度挖掘(如监控视频中仅有几秒关键画面)。 电商日志中仅少数用户行为有价值。

4. 大数据的作用

  • 技术融合:推动物联网、云计算、人工智能协同发展(教材图 4-59:百度智能云平台)。
  • 产业升级:催生智能医疗、智慧城市、精准营销等新业态。
  • 决策支持:通过数据分析优化城市管理(如交通信号灯调度)、企业运营(如用户画像)。

二、大数据处理流程

1. 数据采集

  • 方法

    • 离线采集:通过 ETL 技术(抽取 - 转换 - 加载)处理批量数据(如企业财务数据)。
    • 实时采集:用于流处理场景(如用户行为分析、股票交易监控)。
    • 互联网采集:网络爬虫抓取公开数据(如电商评论、新闻资讯)。

2. 数据清洗

  • 目的:去除噪声、错误数据,规范格式(如统一日期格式 “2023-10-01”)。

3. 数据存储

  • 技术:分布式文件系统(HDFS)、分布式数据库(如 HBase)。

4. 数据挖掘

  • 算法:神经网络、遗传算法、决策树(如预测用户购买行为)。

5. 数据展现

  • 形式:图表、仪表盘(如教材图 4-60:国家教育资源公共服务平台可视化数据)。

三、大数据采集与分析方法

1. 采集方法

  • 其他方法:与技术服务商合作,通过 API 接口采集企业内部数据(如客户信息、财务数据)。

2. 分析方法

  • 核心技术

    • 预测性分析:基于历史数据建模预测未来(如销量预测、用户流失预警)。
    • 可视化分析:图表直观展示数据规律(如柱状图对比不同地区销售额)。

四、数据安全

1. 安全风险

  • 隐私泄露:数据集中存储易被攻击(如社交媒体用户信息泄露)。
  • 攻击手段:黑客利用大数据技术精准定位目标(如 APT 攻击隐藏在海量数据中)。

2. 安全需求

  • 机密性:加密保护数据(如公钥加密、同态加密)。
  • 完整性:验证数据未被篡改(如哈希值校验)。

3. 安全策略

  • 技术:入侵检测系统(IDS)、访问控制列表(ACL)。
  • 规则:遵循《数据安全法》,明确数据所有权与使用权。

五、大数据发展趋势

  • 资源化:数据成为企业核心资产(如电商平台通过用户数据优化推荐)。
  • 与云计算结合:弹性扩展存储与计算能力(如教材图 4-59:百度智能云)。
  • 与人工智能结合:算法优化推动自动驾驶、语音识别等应用发展。

六、典型案例与政策

1. 政策文件

  • 《促进大数据发展行动纲要》(2015) :提出建设数据强国,推动大数据在政务、民生领域应用。
  • 《数据安全法》(2021) :明确数据分类分级保护、数据安全审查等制度。

2. 应用场景

  • 智慧城市:通过交通数据优化信号灯配时(教材图 4-59)。
  • 智慧教育:国家教育资源平台提供个性化学习资源(教材图 4-60)。

七、考试重点标注

  • 5V 特征:体量大、多样化、速度快、真实性、价值密度低(教材 P41)。
  • 处理流程:采集 → 清洗 → 存储 → 挖掘 → 展现(教材 P43 图 4-61)。
  • 数据安全:风险(隐私泄露、攻击手段)、需求(机密性、完整性)、策略(加密、访问控制)。
  • 政策时间节点:2015 年《纲要》、2021 年《数据安全法》。
  • 技术融合:大数据与云计算、人工智能的协同关系。

复习建议

  1. 案例记忆:结合教材图 4-59(百度智能云)、图 4-60(国家教育平台)理解应用场景。
  2. 对比学习:区分离线采集(ETL)与实时采集(流处理)的适用场景。
  3. 口诀辅助:“5V 特征要记牢,采集清洗不能少,存储挖掘加展现,安全法规是保障”。

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...