我们公司的统计与数据挖掘考试,考试时间是 1 个小时,满分 100 分

本贴最后更新于 3019 天前,其中的信息可能已经事过境迁

姓名: 分数:
一、选择题(48 分)
1、以下两种描述分别对应哪两种对分类算法的评价标准? ( )
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC
2.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链
3.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( )
A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则
4.下面哪种不属于数据预处理的方法? ( )
A 变量代换 B 离散化 C 聚集 D 估计遗漏值
5.假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215,将它们划分成四个箱,等频(等深)划分时,15 在第几个箱子内? ( )
A 第一个 B 第二个 C 第三个 D 第四个
6.以下哪种方法不属于特征选择的标准方法: ( )
A 嵌入 B 过滤 C 包装 D 抽样
7.下面不属于创建新属性的相关方法的是: ( )
A 特征提取 B 特征修改 C 映射数据到新的空间 D 特征构造
8.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 ( )
A 2 B 3 C 3.5 D 5
9.假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为:( )
A 0.821 B 1.224 C 1.458 D 0.716
10.以下哪些算法是基于规则的分类器 ( )
A. C4.5 B. KNN C. Naive Bayes D. ANN
11.决策树中不包含以下哪种结点? ( )
A,根结点(root node) B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node)
12.以下哪项关于决策树的说法是错误的 ( )
A.冗余属性不会对决策树的准确率造成不利的影响 B.子树可能在决策树中重复多次
C.决策树算法对于噪声的干扰非常敏感 D.寻找最佳决策树是 NP 完全问题
13.因子分析的主要作用:( )
A、对变量进行降维 B、对变量进行判别 C、对变量进行聚类 D、以上都不对
14.关于 K-means 聚类过程正确的是:( )
A、使用的是迭代的方法 B、均适用于对变量和个案的聚类 C、对变量进行聚类 D、以上都不对
15.东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别跑!"以上对话体现了数据分析方法中的( )
A. 关联 B. 聚类 C. 分类 D. 自然语言处理
16.已知甲班学生“统计学”的平均成绩为 86 分,标准差是 12.8 分,乙班学生“统计学”的平均成绩是 90 分,标准差是 10.3 分,下列表述正确的是( )
A. 乙班平均成绩的代表性高于甲班 B. 甲班平均成绩的代表性高于乙班
C. 甲、乙两班平均成绩的代表性相同 D. 甲、乙两班平均成绩的代表性无法比较
17.当你用跑步时间(RunTime)、年龄(Age)、跑步时脉搏(Run_Pulse)以及最高脉搏(Maximum_Pulse)作为预测变量来对耗氧量(Oxygen_Consumption )进行回归时,年龄(Age)的参数估计是-2.78. 这意味着什么?( )
A、年龄每增加一岁,耗氧量就增大 2.78 . B、年龄每增加一岁,耗氧量就降低 2.78.
C、年龄每增加 2.78 岁,耗氧量就翻倍。 D、年龄每减少 2.78 岁,耗氧量就翻倍。
18.下面那一项可用于比较身高和体重的变异度( )
A.方差 B.标准差 C.变异系数 D.全距
19.正态曲线下,横轴上从均数到 +∞ 的面积为( )
A.97.5% B.95% C.50% D.5%
20.统计图中的散点图主要用来( )。
A.观察变量之间的相关关系 B.主要用来表示总体各部分所占的比例
C.主要用来表示次数分布 D.主要用来反映分类数据的频数分布
21、客户画像可以使用哪种分析方法?( )
A.聚类 B.因子分析 C.两者都可以 D.两者都不可以
22、个体之间的相似性主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
23 变量之间的相关性主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
24 客户之间的联系主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
二、填空题(22 分)
1、数据预处理包括_______________、和数据离散化。
2、列举出处理空缺值的三种方法
___、
3、四种计量尺度分别是定类、______________、
4. 标号 12345 的 5 个球,一次取两个,和为 3 或者 6 的概率是_____________。
三、简答题 (30 分)
1、某银行信用卡模型建设过程中,申请评分卡模型训练过程出现过拟合现象,请阐述什么是过拟合现象?如何解决过拟合现象?如果一个模型在训练过程出现欠拟合现象,那原因又是如何?如何避免?(6 分)

2、什么是聚类分析? 请详细描述 k-means 算法的计算原理、步骤以及优缺点。(8 分)

3、已知每 10 万人中有 1 人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有 1% 的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率??(4 分)

4、何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。(6 分)

5、何谓聚类?它与分类有什么异同?(6 分)

打赏区有答案

打赏 10 积分后可见
10 积分 • 3 打赏
  • 统计
    8 引用 • 55 回帖
  • 数据挖掘
    17 引用 • 32 回帖 • 3 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • liweiwei

    还不如直接考高等数学呢。

  • 其他回帖
  • zonghua

    期末考试题哈哈哈

relyn
永远相信美好的事情即将发生 泉州

推荐标签 标签

  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 216 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 1 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 5 关注
  • CodeMirror
    1 引用 • 2 回帖 • 129 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 5 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 591 关注
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    93 引用 • 899 回帖 • 3 关注
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    166 引用 • 595 回帖
  • 博客

    记录并分享人生的经历。

    273 引用 • 2388 回帖 • 1 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 536 关注
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 44 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    167 引用 • 1520 回帖 • 1 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    16 引用 • 130 回帖
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1737 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    343 引用 • 723 回帖
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    21 引用 • 37 回帖 • 548 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 6 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 106 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    943 引用 • 1460 回帖 • 3 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    132 引用 • 795 回帖
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 5 关注
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖 • 2 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    139 引用 • 269 回帖 • 28 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 7 关注