机器学习 (6)——性能度量

本贴最后更新于 2177 天前,其中的信息可能已经事过景迁

0x00 性能度量

对学习器泛化性能进行评估时,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量。

性能度量反映任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果,也就是说,模型的好坏是相对的,需要根据实际情况进行选择。

0x01 回归任务中的性能度量

回归任务中最常用的性能度量是“均方误差”(mean squared error)

对于一般的数据分布 D 和概率密度函数 p,均方误差可以表示为:

0x02 分类任务中的性能度量

错误率与精度

分类任务中最常用的两种性能度量就是错误率和精度,同时适用于二分类和多分类任务。

错误率是分类错误的样本数占样本总数的比例。

精度是分类正确的样本数占样本总数的比例。

对于一般的数据分布 D 和概率密度函数 p,错误率和精度可以表示为:


查准率、查全率与 F1

错误率和精度只能表示一部分的性能,如果我们要深入的研究这个问题,就需要用到别的性能度量。

查准率 P 是我们检索到的样本中有多少比例是正确的。

查全率 R 是正确的样本中有多少被检索到了。

真实情况\预测结果 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)
从定义我们就可以得出,差准率和查拳率是一堆矛盾的变量。一般情况下,查准率高时查全率就会低;查全率高时查准率就会低。

如果我们我们根据学习器的预测结果对样例排序,最可能正确的排在最前,最可能错误的排在最后。按照这个顺序逐个把样本作为正确的进行预测,则每次可以计算出当前查全率、查准率。

然后以查准率为纵轴,查全率为横轴作图,就得到了查准率-查全率曲线,也称为“P-R”曲线。

如图:

P-R 图可以直观的表示学习器在总样本上的查全率和查准率,如果一个学习器的 P-R 曲线被另一个学习器的 P-R 曲线完全包住,则可以断言后者的性能优于前者。如果 P-R 曲线交叉,则需要根据实际的需求来进行比较。如果一定要把学习器的性能分个高低,一个比较合理的判据是比较 P-R 曲线下面积的大小,它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。

这个面积值不容易估算,所以又设计了一些综合考虑查准率和查全率的性能度量。平衡点(Break-Event Point)就是这样一个度量,它是“查准率=查全率”时的取值,可以通过比较 BEP 值来比较学习器的性能。

但是 BEP 过于简化,我们更常用的的是 F1 度量:

其中 TP 是假设正确并且实际正确的样例数,TN 是假设错误并且实际错误的样例数。

在实际的应用中,我们要根据不同需求改变对查准率和查全率的重视程度。如商品推荐中应该尽可能推荐用户最感兴趣的,查准率更重要;在逃犯信息检索中,需要尽可能不漏掉逃犯,所以查全率更重要。所以就引出了 F1 度量的一般形势 Fβ,能表达出对查准率和查全率的不同偏好。

其中 β 代表查全率与查准率的相对重要性,在 β=1 时,就是 F1;在 β>1 时,查全率更重要;在 β 小于 1 时,查准率更重要。

ROC 与 AUC

在分类时,我们会选择一个阈值判别,我们将学习器的预测结果对样例排序,最可能正确的排在最前,最可能错误的排在最后。然后我们可以通过一个截断点来把样本分成两部分。在不同的任务中,我们可以根据实际的需求选择不同位置的截断点,如果我们更重视“查准率”,则可以选择排序中靠前的位置进行截断;若更重视“查全率”,则可选择靠后的位置进行截断。

ROC 全称是“受试者工作特征”曲线,我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横纵坐标做图,就得到了 ROC 曲线。与 P-R 曲线使用查准率、查全率为横、纵轴不同,ROC 曲线纵轴是“真正例率”(TPR),横轴是“假正例率”(FPR)。


进行学习器比较时,若一个学习器的 ROC 曲线被另一个学习器的 ROC 曲线完全包裹,那么可以断言后者性能优于前者,若两个学习器发生交叉,则比较 ROC 曲线下的面积,即 AUC(Area Under ROC Curve)

代价敏感错误率与代价曲线

在现实情况中,分类错误之后不同类型错误所造成的后果也不同,比如安检通道把钥匙等金属制品错误的分类到危险品,仅仅是多了一层人工检查的麻烦;但是如果把一把刀错误的分类到安全品里面,那么可能造成十分严重的后果。不同的错误造成的损失是不同的,为了权衡这个损失,可以为错误赋予“非均等代价”(unequal cost)。

我们可以用一张表来代表代价:

真实情况\预测结果 第0类 第1类
第0类 0 cost01
第1类 cost10 0
如果是多分类问题,costij代表第i类的错误被归到第j类所引起的代价。

我们前面的几种方法都是以最小化错误次数为目标的,也就是认为所有错误的代价是均等的。

在非均等代价下,就需要代价曲线来表示学习器的总体代价。代价曲线图的横轴取值为[0,1]的正例概率代价:

代价曲线的绘制则是 ROC 上每一点对应了代价平面上的一条线段,设 ROC 曲线上点的坐标是(TPR,FPR),则可以计算出 FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价。

然后将 ROC 曲线上的每个点都这样转换成一条线段,再取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价。如图:

0x03 参考文档
https://orcl.cc/articles/2018/10/10/1539172872138.html
《机器学习》——周志华

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    131 引用 • 1114 回帖 • 143 关注
  • 创业

    你比 99% 的人都优秀么?

    83 引用 • 1399 回帖
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 386 关注
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 622 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    66 引用 • 114 回帖 • 257 关注
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 72 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    19 引用 • 31 回帖 • 3 关注
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 612 关注
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    287 引用 • 4484 回帖 • 670 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 1 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    6 引用 • 1 回帖 • 1 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 518 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    29 引用 • 111 回帖
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 733 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 199 关注
  • 分享

    有什么新发现就分享给大家吧!

    246 引用 • 1786 回帖
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 444 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 70 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3170 引用 • 8209 回帖
  • 一些有用的避坑指南。

    69 引用 • 93 回帖 • 1 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    167 引用 • 1493 回帖 • 1 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    84 引用 • 139 回帖 • 2 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 341 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 33 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    139 引用 • 268 回帖 • 88 关注