机器学习 (6)——性能度量

本贴最后更新于 2464 天前,其中的信息可能已经事过景迁

0x00 性能度量

对学习器泛化性能进行评估时,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量。

性能度量反映任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果,也就是说,模型的好坏是相对的,需要根据实际情况进行选择。

0x01 回归任务中的性能度量

回归任务中最常用的性能度量是“均方误差”(mean squared error)

对于一般的数据分布 D 和概率密度函数 p,均方误差可以表示为:

0x02 分类任务中的性能度量

错误率与精度

分类任务中最常用的两种性能度量就是错误率和精度,同时适用于二分类和多分类任务。

错误率是分类错误的样本数占样本总数的比例。

精度是分类正确的样本数占样本总数的比例。

对于一般的数据分布 D 和概率密度函数 p,错误率和精度可以表示为:


查准率、查全率与 F1

错误率和精度只能表示一部分的性能,如果我们要深入的研究这个问题,就需要用到别的性能度量。

查准率 P 是我们检索到的样本中有多少比例是正确的。

查全率 R 是正确的样本中有多少被检索到了。

真实情况\预测结果 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)
从定义我们就可以得出,差准率和查拳率是一堆矛盾的变量。一般情况下,查准率高时查全率就会低;查全率高时查准率就会低。

如果我们我们根据学习器的预测结果对样例排序,最可能正确的排在最前,最可能错误的排在最后。按照这个顺序逐个把样本作为正确的进行预测,则每次可以计算出当前查全率、查准率。

然后以查准率为纵轴,查全率为横轴作图,就得到了查准率-查全率曲线,也称为“P-R”曲线。

如图:

P-R 图可以直观的表示学习器在总样本上的查全率和查准率,如果一个学习器的 P-R 曲线被另一个学习器的 P-R 曲线完全包住,则可以断言后者的性能优于前者。如果 P-R 曲线交叉,则需要根据实际的需求来进行比较。如果一定要把学习器的性能分个高低,一个比较合理的判据是比较 P-R 曲线下面积的大小,它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。

这个面积值不容易估算,所以又设计了一些综合考虑查准率和查全率的性能度量。平衡点(Break-Event Point)就是这样一个度量,它是“查准率=查全率”时的取值,可以通过比较 BEP 值来比较学习器的性能。

但是 BEP 过于简化,我们更常用的的是 F1 度量:

其中 TP 是假设正确并且实际正确的样例数,TN 是假设错误并且实际错误的样例数。

在实际的应用中,我们要根据不同需求改变对查准率和查全率的重视程度。如商品推荐中应该尽可能推荐用户最感兴趣的,查准率更重要;在逃犯信息检索中,需要尽可能不漏掉逃犯,所以查全率更重要。所以就引出了 F1 度量的一般形势 Fβ,能表达出对查准率和查全率的不同偏好。

其中 β 代表查全率与查准率的相对重要性,在 β=1 时,就是 F1;在 β>1 时,查全率更重要;在 β 小于 1 时,查准率更重要。

ROC 与 AUC

在分类时,我们会选择一个阈值判别,我们将学习器的预测结果对样例排序,最可能正确的排在最前,最可能错误的排在最后。然后我们可以通过一个截断点来把样本分成两部分。在不同的任务中,我们可以根据实际的需求选择不同位置的截断点,如果我们更重视“查准率”,则可以选择排序中靠前的位置进行截断;若更重视“查全率”,则可选择靠后的位置进行截断。

ROC 全称是“受试者工作特征”曲线,我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横纵坐标做图,就得到了 ROC 曲线。与 P-R 曲线使用查准率、查全率为横、纵轴不同,ROC 曲线纵轴是“真正例率”(TPR),横轴是“假正例率”(FPR)。


进行学习器比较时,若一个学习器的 ROC 曲线被另一个学习器的 ROC 曲线完全包裹,那么可以断言后者性能优于前者,若两个学习器发生交叉,则比较 ROC 曲线下的面积,即 AUC(Area Under ROC Curve)

代价敏感错误率与代价曲线

在现实情况中,分类错误之后不同类型错误所造成的后果也不同,比如安检通道把钥匙等金属制品错误的分类到危险品,仅仅是多了一层人工检查的麻烦;但是如果把一把刀错误的分类到安全品里面,那么可能造成十分严重的后果。不同的错误造成的损失是不同的,为了权衡这个损失,可以为错误赋予“非均等代价”(unequal cost)。

我们可以用一张表来代表代价:

真实情况\预测结果 第0类 第1类
第0类 0 cost01
第1类 cost10 0
如果是多分类问题,costij代表第i类的错误被归到第j类所引起的代价。

我们前面的几种方法都是以最小化错误次数为目标的,也就是认为所有错误的代价是均等的。

在非均等代价下,就需要代价曲线来表示学习器的总体代价。代价曲线图的横轴取值为[0,1]的正例概率代价:

代价曲线的绘制则是 ROC 上每一点对应了代价平面上的一条线段,设 ROC 曲线上点的坐标是(TPR,FPR),则可以计算出 FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价。

然后将 ROC 曲线上的每个点都这样转换成一条线段,再取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价。如图:

0x03 参考文档
https://orcl.cc/articles/2018/10/10/1539172872138.html
《机器学习》——周志华

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    77 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 84 关注
  • Visio
    1 引用 • 2 回帖 • 1 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 104 关注
  • OnlyOffice
    4 引用 • 18 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 36 关注
  • 电影

    这是一个不能说的秘密。

    123 引用 • 608 回帖
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    346 引用 • 757 回帖 • 1 关注
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    10 引用 • 54 回帖 • 181 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    52 引用 • 228 回帖
  • 印象笔记
    3 引用 • 16 回帖 • 2 关注
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 265 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 682 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    500 引用 • 1396 回帖 • 251 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    56 引用 • 85 回帖
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 2 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    42 引用 • 130 回帖 • 253 关注
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 564 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 495 关注
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    76 引用 • 258 回帖 • 624 关注
  • 代码片段

    代码片段分为 CSS 与 JS 两种代码,添加在 [设置 - 外观 - 代码片段] 中,这些代码会在思源笔记加载时自动执行,用于改善笔记的样式或功能。

    用户在该标签下分享代码片段时需在帖子标题前添加 [css] [js] 用于区分代码片段类型。

    201 引用 • 1446 回帖 • 1 关注
  • AWS
    11 引用 • 28 回帖 • 8 关注
  • 反馈

    Communication channel for makers and users.

    120 引用 • 906 回帖 • 280 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 27 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖 • 2 关注
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    100 引用 • 905 回帖