机器学习 (6)——性能度量

本贴最后更新于 2494 天前,其中的信息可能已经事过景迁

0x00 性能度量

对学习器泛化性能进行评估时,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量。

性能度量反映任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果,也就是说,模型的好坏是相对的,需要根据实际情况进行选择。

0x01 回归任务中的性能度量

回归任务中最常用的性能度量是“均方误差”(mean squared error)

对于一般的数据分布 D 和概率密度函数 p,均方误差可以表示为:

0x02 分类任务中的性能度量

错误率与精度

分类任务中最常用的两种性能度量就是错误率和精度,同时适用于二分类和多分类任务。

错误率是分类错误的样本数占样本总数的比例。

精度是分类正确的样本数占样本总数的比例。

对于一般的数据分布 D 和概率密度函数 p,错误率和精度可以表示为:


查准率、查全率与 F1

错误率和精度只能表示一部分的性能,如果我们要深入的研究这个问题,就需要用到别的性能度量。

查准率 P 是我们检索到的样本中有多少比例是正确的。

查全率 R 是正确的样本中有多少被检索到了。

真实情况\预测结果 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)
从定义我们就可以得出,差准率和查拳率是一堆矛盾的变量。一般情况下,查准率高时查全率就会低;查全率高时查准率就会低。

如果我们我们根据学习器的预测结果对样例排序,最可能正确的排在最前,最可能错误的排在最后。按照这个顺序逐个把样本作为正确的进行预测,则每次可以计算出当前查全率、查准率。

然后以查准率为纵轴,查全率为横轴作图,就得到了查准率-查全率曲线,也称为“P-R”曲线。

如图:

P-R 图可以直观的表示学习器在总样本上的查全率和查准率,如果一个学习器的 P-R 曲线被另一个学习器的 P-R 曲线完全包住,则可以断言后者的性能优于前者。如果 P-R 曲线交叉,则需要根据实际的需求来进行比较。如果一定要把学习器的性能分个高低,一个比较合理的判据是比较 P-R 曲线下面积的大小,它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。

这个面积值不容易估算,所以又设计了一些综合考虑查准率和查全率的性能度量。平衡点(Break-Event Point)就是这样一个度量,它是“查准率=查全率”时的取值,可以通过比较 BEP 值来比较学习器的性能。

但是 BEP 过于简化,我们更常用的的是 F1 度量:

其中 TP 是假设正确并且实际正确的样例数,TN 是假设错误并且实际错误的样例数。

在实际的应用中,我们要根据不同需求改变对查准率和查全率的重视程度。如商品推荐中应该尽可能推荐用户最感兴趣的,查准率更重要;在逃犯信息检索中,需要尽可能不漏掉逃犯,所以查全率更重要。所以就引出了 F1 度量的一般形势 Fβ,能表达出对查准率和查全率的不同偏好。

其中 β 代表查全率与查准率的相对重要性,在 β=1 时,就是 F1;在 β>1 时,查全率更重要;在 β 小于 1 时,查准率更重要。

ROC 与 AUC

在分类时,我们会选择一个阈值判别,我们将学习器的预测结果对样例排序,最可能正确的排在最前,最可能错误的排在最后。然后我们可以通过一个截断点来把样本分成两部分。在不同的任务中,我们可以根据实际的需求选择不同位置的截断点,如果我们更重视“查准率”,则可以选择排序中靠前的位置进行截断;若更重视“查全率”,则可选择靠后的位置进行截断。

ROC 全称是“受试者工作特征”曲线,我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横纵坐标做图,就得到了 ROC 曲线。与 P-R 曲线使用查准率、查全率为横、纵轴不同,ROC 曲线纵轴是“真正例率”(TPR),横轴是“假正例率”(FPR)。


进行学习器比较时,若一个学习器的 ROC 曲线被另一个学习器的 ROC 曲线完全包裹,那么可以断言后者性能优于前者,若两个学习器发生交叉,则比较 ROC 曲线下的面积,即 AUC(Area Under ROC Curve)

代价敏感错误率与代价曲线

在现实情况中,分类错误之后不同类型错误所造成的后果也不同,比如安检通道把钥匙等金属制品错误的分类到危险品,仅仅是多了一层人工检查的麻烦;但是如果把一把刀错误的分类到安全品里面,那么可能造成十分严重的后果。不同的错误造成的损失是不同的,为了权衡这个损失,可以为错误赋予“非均等代价”(unequal cost)。

我们可以用一张表来代表代价:

真实情况\预测结果 第0类 第1类
第0类 0 cost01
第1类 cost10 0
如果是多分类问题,costij代表第i类的错误被归到第j类所引起的代价。

我们前面的几种方法都是以最小化错误次数为目标的,也就是认为所有错误的代价是均等的。

在非均等代价下,就需要代价曲线来表示学习器的总体代价。代价曲线图的横轴取值为[0,1]的正例概率代价:

代价曲线的绘制则是 ROC 上每一点对应了代价平面上的一条线段,设 ROC 曲线上点的坐标是(TPR,FPR),则可以计算出 FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价。

然后将 ROC 曲线上的每个点都这样转换成一条线段,再取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价。如图:

0x03 参考文档
https://orcl.cc/articles/2018/10/10/1539172872138.html
《机器学习》——周志华

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    77 引用 • 37 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    54 引用 • 37 回帖
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 1 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖 • 1 关注
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用 • 3 关注
  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖 • 13 关注
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1708 回帖 • 1 关注
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 1 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    26 引用 • 264 回帖
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 512 关注
  • 导航

    各种网址链接、内容导航。

    45 引用 • 177 回帖 • 1 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 4 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    79 引用 • 431 回帖
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 531 关注
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    7 引用 • 69 回帖 • 5 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 26 关注
  • 996
    13 引用 • 200 回帖 • 2 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 67 回帖 • 448 关注
  • 印象笔记
    3 引用 • 16 回帖 • 2 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    12 引用 • 5 回帖 • 635 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖 • 2 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 651 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    210 引用 • 2040 回帖
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 808 关注