机器学习 (6)——性能度量

0x00 性能度量

对学习器泛化性能进行评估时，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量。

性能度量反映任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果，也就是说，模型的好坏是相对的，需要根据实际情况进行选择。

0x01 回归任务中的性能度量

回归任务中最常用的性能度量是“均方误差”(mean squared error)

对于一般的数据分布 D 和概率密度函数 p，均方误差可以表示为：

0x02 分类任务中的性能度量

错误率与精度

分类任务中最常用的两种性能度量就是错误率和精度，同时适用于二分类和多分类任务。

错误率是分类错误的样本数占样本总数的比例。

精度是分类正确的样本数占样本总数的比例。

对于一般的数据分布 D 和概率密度函数 p，错误率和精度可以表示为：

查准率、查全率与 F1

错误率和精度只能表示一部分的性能，如果我们要深入的研究这个问题，就需要用到别的性能度量。

查准率 P 是我们检索到的样本中有多少比例是正确的。

查全率 R 是正确的样本中有多少被检索到了。

真实情况\预测结果	正例	反例
正例	TP(真正例)	FN(假反例)
反例	FP(假正例)	TN(真反例)

从定义我们就可以得出，差准率和查拳率是一堆矛盾的变量。一般情况下，查准率高时查全率就会低；查全率高时查准率就会低。

如果我们我们根据学习器的预测结果对样例排序，最可能正确的排在最前，最可能错误的排在最后。按照这个顺序逐个把样本作为正确的进行预测，则每次可以计算出当前查全率、查准率。

然后以查准率为纵轴，查全率为横轴作图，就得到了查准率-查全率曲线，也称为“P-R”曲线。

如图：

P-R 图可以直观的表示学习器在总样本上的查全率和查准率，如果一个学习器的 P-R 曲线被另一个学习器的 P-R 曲线完全包住，则可以断言后者的性能优于前者。如果 P-R 曲线交叉，则需要根据实际的需求来进行比较。如果一定要把学习器的性能分个高低，一个比较合理的判据是比较 P-R 曲线下面积的大小，它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。

这个面积值不容易估算，所以又设计了一些综合考虑查准率和查全率的性能度量。平衡点（Break-Event Point）就是这样一个度量，它是“查准率=查全率”时的取值，可以通过比较 BEP 值来比较学习器的性能。

但是 BEP 过于简化，我们更常用的的是 F1 度量：

其中 TP 是假设正确并且实际正确的样例数，TN 是假设错误并且实际错误的样例数。

在实际的应用中，我们要根据不同需求改变对查准率和查全率的重视程度。如商品推荐中应该尽可能推荐用户最感兴趣的，查准率更重要；在逃犯信息检索中，需要尽可能不漏掉逃犯，所以查全率更重要。所以就引出了 F1 度量的一般形势 Fβ，能表达出对查准率和查全率的不同偏好。

其中 β 代表查全率与查准率的相对重要性，在 β=1 时，就是 F1；在 β>1 时，查全率更重要；在 β 小于 1 时，查准率更重要。

ROC 与 AUC

在分类时，我们会选择一个阈值判别，我们将学习器的预测结果对样例排序，最可能正确的排在最前，最可能错误的排在最后。然后我们可以通过一个截断点来把样本分成两部分。在不同的任务中，我们可以根据实际的需求选择不同位置的截断点，如果我们更重视“查准率”，则可以选择排序中靠前的位置进行截断；若更重视“查全率”，则可选择靠后的位置进行截断。

ROC 全称是“受试者工作特征”曲线，我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横纵坐标做图，就得到了 ROC 曲线。与 P-R 曲线使用查准率、查全率为横、纵轴不同，ROC 曲线纵轴是“真正例率”（TPR），横轴是“假正例率”（FPR）。

进行学习器比较时，若一个学习器的 ROC 曲线被另一个学习器的 ROC 曲线完全包裹，那么可以断言后者性能优于前者，若两个学习器发生交叉，则比较 ROC 曲线下的面积，即 AUC(Area Under ROC Curve)

代价敏感错误率与代价曲线

在现实情况中，分类错误之后不同类型错误所造成的后果也不同，比如安检通道把钥匙等金属制品错误的分类到危险品，仅仅是多了一层人工检查的麻烦；但是如果把一把刀错误的分类到安全品里面，那么可能造成十分严重的后果。不同的错误造成的损失是不同的，为了权衡这个损失，可以为错误赋予“非均等代价”(unequal cost)。

我们可以用一张表来代表代价：

真实情况\预测结果	第0类	第1类
第0类	0	cost01
第1类	cost10	0

如果是多分类问题，costij代表第i类的错误被归到第j类所引起的代价。

我们前面的几种方法都是以最小化错误次数为目标的，也就是认为所有错误的代价是均等的。

在非均等代价下，就需要代价曲线来表示学习器的总体代价。代价曲线图的横轴取值为[0,1]的正例概率代价：

代价曲线的绘制则是 ROC 上每一点对应了代价平面上的一条线段，设 ROC 曲线上点的坐标是(TPR,FPR)，则可以计算出 FNR，然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段，线段下的面积即表示了该条件下的期望总体代价。

然后将 ROC 曲线上的每个点都这样转换成一条线段，再取所有线段的下界，围成的面积即为在所有条件下学习器的期望总体代价。如图：

0x03 参考文档
https://orcl.cc/articles/2018/10/10/1539172872138.html
《机器学习》——周志华

小样本学习 · Few-shot Learning，FSL

待完成的视频：论文解读合集：【CVPR 2021】小样本学习论文解读 | Few-Shot Classification with Feature Map..._哔哩哔哩_bilibili 王树森：Few-Shot Learning (1/3): 基本概念 (youtube.com) 概述描述 FSL旨在解决在训练 ..

机器学习 -KNN 算法原理 && Spark 实现

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

机器学习算法之 KMeans 聚类算法

一、K-Means 聚类算法原理 1. 算法思想物以类聚，人以群分。 K-Means：一种常见的无监督学习算法，名字叫做 K 均值算法。是否为监督学习：只需要看输入的数据是否有标签。 K-Means 聚类算法是一种迭代求解的聚类分析算法。算法思想是：我们需要随机选择 K 个对象作为初始的聚类中心，然后计算每个对 ..

机器学习基础算法原理

很早以前写的，担心以后会丢失，故在此备份。字不好请见谅。一、模型评估和选择这一章主要是讲对于数据的操作，应当如何增加数据来进行评估，以及评估方法如 macro/micro F1 score、ROC、AUC 等。 [图片] [图片] 二、线性模型基础线性回归的算法，进阶有如拉格朗日插值法、牛顿插值法、勒让德多项式、 ..

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

添加微信：julyedukefu14，回复【11】领取最新升级版【名企 AI 面试 100 题】 1、请详细说说支持向量机（support vector machine，SVM）的原理支持向量机，因其英文名为 support vector machine，故一般简称 SVM，通俗来讲，它是一种二类分类模型，其基本模型 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

机器学习 (6)——性能度量

相关帖子

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

欢迎来到这里！

近期热议

推荐标签标签

最新标签

机器学习 (6)——性能度量

相关帖子

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签