登录注册

机器学习 (5)——模型评估方法

本贴最后更新于 2465 天前，其中的信息可能已经时过境迁

0x00 模型评估与选择

在机器学习中，我们需要对使用的模型进行评估，对误差等进行分析，来选择一个预测准确率最高的模型。

0x01 误差

我们把学习器的实际预测输出与样本的真实输出之间的差异称为误差。

经验误差：学习器在训练集上的误差称为训练误差或经验误差。
泛化误差：将训练好的模型用在新样本上的误差称为泛化误差。

机器学习的目的是为了预测新样本的情况，所以我们需要在新样本上表现很好的学习器，即需要得到一个泛化误差小的学习器。

0x02 过拟合与欠拟合

过拟合：学习器把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛化性能下降。一般是由于学习能力过强，将训练样本所包含的不太一般的性质都学到了。
欠拟合：学习器学习能力过弱，对训练样本的一般性质尚未学好

欠拟合比较容易克服，可以在决策树学习中扩展分支、在神经网络中增加训练轮数等。

过拟合则难克服，过拟合是机器学习面临的关键障碍，各类学习算法都有一些针对过拟合的措施来缓解过拟合。

0x03 评估方法

为了对学习器的泛化误差进行评估，需要使用一个测试集来测试学习器对新样本的判别能力，然后以测试集上的测试误差作为泛化误差的近似。

测试集应该尽量与训练集互斥，即测试样本尽量不在训练集中出现、未在训练集中使用过。

下来介绍几种常用的评估方法：

留出法

留出法是直接将数据集 D 划分为两个互斥的几何，其中一个集合作为训练集 S，另一个作为测试集 T。

在训练集 S 中训练出模型后，用测试集 T 来评估其测试误差，作为对泛化误差的估计。

训练/测试集要尽可能的保证数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。具体做法是尽可能保留类别比例，最好使用分层采样的方法。

交叉验证法

交叉验证法先将数据集 D 划分为 k 个大小相似的互斥子集，每个子集尽可能的保证数据分布的一致性。

然后每次使用 k-1 个子集作为训练集，余下的一个子集作为测试集。

这样就可以得到 k 组训练/测试集，可以进行 k 次训练和测试，最终返回的是 k 个测试结果的均值。

交叉验证法评估结果的稳定性和保真性在很大程度上取决于 k 的取值。

通常将交叉验证法称为“k 折交叉验证”。如 k 取 10，则称为 10 折交叉验证。

留一法

如果数据集 D 中包含 m 个样本，若令 k=m，则得到了交叉验证法的一个特例：留一法。

显然，留一法不受随机样本划分方式的影响，因为留一法只有唯一一种划分方式。

留一法的评估结果往往被认为比较准确。但是留一法也存在缺陷，当数据集较大时，训练 m 个模型的计算开销非常大。比如我们是上千万级的数据，那么就得训练上千万个模型，这是不现实的。

自助法

上述几种方法都存在一个问题，那就是由于保留了一部分样本用于测试，导致实际评估的模型所使用的训练集比 D 小，会引起一些误差，而自助法，可以解决这个问题。

自助法以自助采样法为基础，给定包含 m 个样本的数据集 D，对它进行采样产生数据集 D’：

每次随机从 D 中挑选一个样本，再将样本放回初始数据集中，使得该样本在下次采样时仍有可能被采到。这个过程重复执行 m 次后，我们就得到了包含 m 个样本的数据集 D’，这就是自助采样的结果。

D 中有一部分样本会在 D’中多次出现，而另一部分样本不出现。可以做一个简单的估计，样本在 m 次采样中始终不被采到的概率是

取极限得到

机器学习

机器学习（Machine Learning）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
77 引用 • 37 回帖

HuixiaZhang 6 年前

1.0k 208 175 297 35 3 46 254

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

注册关于

请输入回帖内容 ...

HuixiaZhang

回帖

帖子

积分

590

近期热议

推荐标签标签

CentOS

CentOS（Community Enterprise Operating System）是 Linux 发行版之一，它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码，因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。
240 引用 • 224 回帖
Oracle

Oracle（甲骨文）公司，全称甲骨文股份有限公司（甲骨文软件系统有限公司），是全球最大的企业级软件公司，总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年，甲骨文已超越 IBM，成为继 Microsoft 后全球第二大软件公司。
107 引用 • 127 回帖 • 344 关注
Rust

Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发，最早发布于 2014 年 9 月。
59 引用 • 22 回帖 • 7 关注
生活

生活是指人类生存过程中的各项活动的总和，范畴较广，一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。
230 引用 • 1432 回帖
30Seconds
📙 前端知识精选集，包含 HTML、CSS、JavaScript、React、Node、安全等方面，每天仅需 30 秒。
- 精选常见面试题，帮助您准备下一次面试
- 精选常见交互，帮助您拥有简洁酷炫的站点
- 精选有用的 React 片段，帮助你获取最佳实践
- 精选常见代码集，帮助您提高打码效率
- 整理前端界的最新资讯，邀您一同探索新世界
488 引用 • 384 回帖 • 3 关注
MySQL

MySQL 是一个关系型数据库管理系统，由瑞典 MySQL AB 公司开发，目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。
694 引用 • 537 回帖 • 1 关注
面试

面试造航母，上班拧螺丝。多面试，少加班。
326 引用 • 1395 回帖
PWL
组织简介

用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织，“用爱发电”象征开源与贡献精神，加入组织，代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入：用爱发电组织邀请帖。
用爱发电组织官网：https://programmingwithlove.stackoverflow.wiki/

用爱发电组织的核心驱动力：
- 遵守开源守则，体现开源&贡献精神：以分享为目的，拒绝非法牟利。
- 自我保护：使用适当的 License 保护自己的原创作品。
- 尊重他人：不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露；以礼相待，尊重所有对社区做出贡献的开发者；通过他人的分享习得知识，要留下足迹，表示感谢。
- 热爱编程、热爱学习：加入组织，热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友，也同样欢迎默默成就的朋友。
- 倾听：正确并恳切对待、处理问题与建议，及时修复开源项目的 Bug ，及时与反馈者沟通。不抬杠、不无视、不辱骂。
- 平视：不诋毁、轻视、嘲讽其他开发者，主动提出建议、施以帮助，以和谐为本。只要他人肯努力，你也可能会被昔日小看的人所超越，所以请保持谦虚。
- 乐观且活跃：你的努力决定了你的高度。不要放弃，多年后回头俯瞰，才会发现自己已经成就往日所仰望的水平。积极地将项目开源，帮助他人学习、改进，自己也会获得相应的提升、成就与成就感。
1 引用 • 487 回帖 • 5 关注
Facebook

Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流，分享无限上传的图片，发布链接和视频，更可以增进对朋友的了解。
4 引用 • 15 回帖 • 443 关注
国际化

i18n（其来源是英文单词 internationalization 的首末字符 i 和 n，18 为中间的字符数）是“国际化”的简称。对程序来说，国际化是指在不修改代码的情况下，能根据不同语言及地区显示相应的界面。
8 引用 • 26 回帖
HHKB

HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘（Capacitive Keyboard）。
5 引用 • 74 回帖 • 518 关注
开源

Open Source, Open Mind, Open Sight, Open Future!
415 引用 • 3594 回帖
jsDelivr

jsDelivr 是一个开源的 CDN 服务，可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。
5 引用 • 31 回帖 • 110 关注
运维

互联网运维工作，以服务为中心，以稳定、安全、高效为三个基本点，确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。
151 引用 • 257 回帖
Redis

Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库，并提供多种语言的 API。从 2010 年 3 月 15 日起，Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始，Redis 的开发由 Pivotal 赞助。
284 引用 • 248 回帖
Hprose

Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用，而且功能强大。你无需专门学习，只需看上几眼，就能用它轻松构建分布式应用系统。
9 引用 • 17 回帖 • 642 关注
Postman

Postman 是一款简单好用的 HTTP API 调试工具。
4 引用 • 3 回帖 • 2 关注
负能量

上帝为你关上了一扇门，然后就去睡觉了....努力不一定能成功，但不努力一定很轻松 (° ー °〃)
89 引用 • 1251 回帖 • 394 关注
Caddy

Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。
10 引用 • 54 回帖 • 182 关注
SVN

SVN 是 Subversion 的简称，是一个开放源代码的版本控制系统，相较于 RCS、CVS，它采用了分支管理系统，它的设计目标就是取代 CVS。
29 引用 • 98 回帖 • 697 关注
微软

微软是一家美国跨国科技公司，也是世界 PC 软件开发的先导，由比尔·盖茨与保罗·艾伦创办于 1975 年，公司总部设立在华盛顿州的雷德蒙德（Redmond，邻近西雅图）。以研发、制造、授权和提供广泛的电脑软件服务业务为主。
8 引用 • 44 回帖
Kafka

Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是现代系统中许多功能的基础。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。
36 引用 • 35 回帖 • 3 关注
京东

京东是中国最大的自营式电商企业，2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月，京东在美国纳斯达克证券交易所正式挂牌上市（股票代码：JD），是中国第一个成功赴美上市的大型综合型电商平台，与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。
14 引用 • 102 回帖 • 314 关注
微服务

微服务架构是一种架构模式，它提倡将单一应用划分成一组小的服务。服务之间互相协调，互相配合，为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建，能够被独立的部署。
96 引用 • 155 回帖
Laravel

Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计，是一款崇尚开发效率的全栈框架。
19 引用 • 23 回帖 • 739 关注
禅道

禅道是一款国产的开源项目管理软件，她的核心管理思想基于敏捷方法 scrum，内置了产品管理和项目管理，同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能，在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来，完整地覆盖了项目管理的核心流程。
10 引用 • 15 回帖
大数据

大数据（big data）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
89 引用 • 113 回帖 • 2 关注

机器学习 (5)——模型评估方法

相关帖子

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

欢迎来到这里！

近期热议

推荐标签标签

组织简介

用爱发电组织的核心驱动力：

最新标签

机器学习 (5)——模型评估方法

相关帖子

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

欢迎来到这里！

近期热议

推荐标签 标签

组织简介

用爱发电组织的核心驱动力：

最新标签

推荐标签标签