我们公司的统计与数据挖掘考试,考试时间是 1 个小时,满分 100 分

本贴最后更新于 2990 天前,其中的信息可能已经事过境迁

姓名: 分数:
一、选择题(48 分)
1、以下两种描述分别对应哪两种对分类算法的评价标准? ( )
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC
2.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链
3.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( )
A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则
4.下面哪种不属于数据预处理的方法? ( )
A 变量代换 B 离散化 C 聚集 D 估计遗漏值
5.假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215,将它们划分成四个箱,等频(等深)划分时,15 在第几个箱子内? ( )
A 第一个 B 第二个 C 第三个 D 第四个
6.以下哪种方法不属于特征选择的标准方法: ( )
A 嵌入 B 过滤 C 包装 D 抽样
7.下面不属于创建新属性的相关方法的是: ( )
A 特征提取 B 特征修改 C 映射数据到新的空间 D 特征构造
8.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 ( )
A 2 B 3 C 3.5 D 5
9.假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为:( )
A 0.821 B 1.224 C 1.458 D 0.716
10.以下哪些算法是基于规则的分类器 ( )
A. C4.5 B. KNN C. Naive Bayes D. ANN
11.决策树中不包含以下哪种结点? ( )
A,根结点(root node) B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node)
12.以下哪项关于决策树的说法是错误的 ( )
A.冗余属性不会对决策树的准确率造成不利的影响 B.子树可能在决策树中重复多次
C.决策树算法对于噪声的干扰非常敏感 D.寻找最佳决策树是 NP 完全问题
13.因子分析的主要作用:( )
A、对变量进行降维 B、对变量进行判别 C、对变量进行聚类 D、以上都不对
14.关于 K-means 聚类过程正确的是:( )
A、使用的是迭代的方法 B、均适用于对变量和个案的聚类 C、对变量进行聚类 D、以上都不对
15.东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别跑!"以上对话体现了数据分析方法中的( )
A. 关联 B. 聚类 C. 分类 D. 自然语言处理
16.已知甲班学生“统计学”的平均成绩为 86 分,标准差是 12.8 分,乙班学生“统计学”的平均成绩是 90 分,标准差是 10.3 分,下列表述正确的是( )
A. 乙班平均成绩的代表性高于甲班 B. 甲班平均成绩的代表性高于乙班
C. 甲、乙两班平均成绩的代表性相同 D. 甲、乙两班平均成绩的代表性无法比较
17.当你用跑步时间(RunTime)、年龄(Age)、跑步时脉搏(Run_Pulse)以及最高脉搏(Maximum_Pulse)作为预测变量来对耗氧量(Oxygen_Consumption )进行回归时,年龄(Age)的参数估计是-2.78. 这意味着什么?( )
A、年龄每增加一岁,耗氧量就增大 2.78 . B、年龄每增加一岁,耗氧量就降低 2.78.
C、年龄每增加 2.78 岁,耗氧量就翻倍。 D、年龄每减少 2.78 岁,耗氧量就翻倍。
18.下面那一项可用于比较身高和体重的变异度( )
A.方差 B.标准差 C.变异系数 D.全距
19.正态曲线下,横轴上从均数到 +∞ 的面积为( )
A.97.5% B.95% C.50% D.5%
20.统计图中的散点图主要用来( )。
A.观察变量之间的相关关系 B.主要用来表示总体各部分所占的比例
C.主要用来表示次数分布 D.主要用来反映分类数据的频数分布
21、客户画像可以使用哪种分析方法?( )
A.聚类 B.因子分析 C.两者都可以 D.两者都不可以
22、个体之间的相似性主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
23 变量之间的相关性主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
24 客户之间的联系主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
二、填空题(22 分)
1、数据预处理包括_______________、和数据离散化。
2、列举出处理空缺值的三种方法
___、
3、四种计量尺度分别是定类、______________、
4. 标号 12345 的 5 个球,一次取两个,和为 3 或者 6 的概率是_____________。
三、简答题 (30 分)
1、某银行信用卡模型建设过程中,申请评分卡模型训练过程出现过拟合现象,请阐述什么是过拟合现象?如何解决过拟合现象?如果一个模型在训练过程出现欠拟合现象,那原因又是如何?如何避免?(6 分)

2、什么是聚类分析? 请详细描述 k-means 算法的计算原理、步骤以及优缺点。(8 分)

3、已知每 10 万人中有 1 人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有 1% 的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率??(4 分)

4、何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。(6 分)

5、何谓聚类?它与分类有什么异同?(6 分)

打赏区有答案

打赏 10 积分后可见
10 积分 • 3 打赏
  • 统计
    8 引用 • 55 回帖
  • 数据挖掘
    17 引用 • 32 回帖 • 3 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • zonghua

    期末考试题哈哈哈

  • liweiwei

    还不如直接考高等数学呢。

relyn
永远相信美好的事情即将发生 泉州

推荐标签 标签

  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    75 引用 • 258 回帖 • 618 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1348 回帖
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 384 回帖 • 9 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 116 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 22 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 608 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 659 关注
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    266 引用 • 665 回帖 • 1 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    125 引用 • 169 回帖
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 399 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 476 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖 • 1 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 2 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 15 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    53 引用 • 37 回帖 • 2 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 709 关注
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖 • 1 关注
  • 创业

    你比 99% 的人都优秀么?

    84 引用 • 1399 回帖
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 211 关注
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 344 回帖
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 134 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖 • 2 关注
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 22 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    110 引用 • 54 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    130 引用 • 793 回帖 • 1 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖 • 1 关注