首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习第5步:模型评估的性能度量指标

内容摘要

混淆矩阵是模型性能的量化方法和手段,它分为真阳、真阴、假阳、假阴4种组合。以乳腺癌预测为例,。

文章编号:AI-0020-V1.1

所属类别:人工智能

文章正文

准确率、精准率(查准率)、召回率(查全率)、F1得分是度量模型性能的常用指标。

下面我们通过实现分类预测的混淆矩阵,看一看模型性能度量指标是如何定义和计算的,混淆矩阵如下图所示:

从上图看出,我们可以从两个维度定义模型性能的指标:一个维度是实际类(Actual),也称其为真实类(True),另外一个维度是预测类(Predict)。

1、实际类维度:T(True)代表1(正确,真),F(False)代表0(错误,假)。

2、预测类维度:P(Positive)代表1(正,阳)),N(Negative)代表0(负,阴)。

按照上述两个维度的2*2组合,分为4个子项目,以核算检测为例:

真阳=TP(11):实际为阳(1),预测为阳(1),判断正确。

举例:比如核酸检测为阳性,实际也是阳性,代表着你确实感染了,要隔离治疗。

真阴=TN(00):实际为阴(0),预测为阴(0),判断正确。

举例:比如核酸检测为阴性,实际也是阴性,代表你没有感染新冠病毒,没事儿。

假阴=FN(10):实际为阳(1),预测为阴(0),判断错误。

举例:比如你实际已经感染了新冠病毒,但是检测却为阴性,这是最不好的结果,也就是没有检测出来,这是很危险的事情,因为你有了但是大家都不知道,可能会造成更多不可知的感染。

假阳=FP(01):实际为阴(0),预测为阳(1),判断错误。

举例:比如你没有感染新冠病毒,但是检测却为阳性,因此你也需要隔离观察与治疗,尽管你被冤枉了,但是谁叫机器学习能力有限呢。

从上面看出,TP和TN都是判断对了,也就是无论实际类别是什么,预测结果和实际类别是一致的。FN和FP都是判断错了,预测结果和实际类别相反。

下面以胰腺癌预测结果为例,说明采用混淆矩阵分类组合的应用方法,如下图所示:

从上图可以看出,全部样本中共有71个良性肿瘤预测是正确的,40个恶性肿瘤预测是正确的,还有2个恶性肿瘤和1个良性肿瘤预测是错误的。

其中,类别标签中良性肿瘤(B)为0,恶性肿瘤(M)为1。

错误率ERR(Error)和准确率ACC(Accuracy)能够显示错误分类的样本数量,计算公式如下:

错误率ERR = (FP+FN)/(FP+FN+TP+TN)

说明:就是判断错了,包括没有感染新冠病毒检测结果是阳性,或者感染新冠病毒了,但是检测结果却为阴性。

准确率ACC = 1-ERR =

(预测正确的样本数)/(总样本数)=(TP+TN)/(TP+TN+FP+FN)

精确率PRE(Precision)和召回率REC(Recall)的计算公式如下:

精确率PRE = (预测为1且正确预测的样本数)/(所有预测为1的样本数) =

TP/(TP+FP)

召回率REC = (预测为1且正确预测的样本数)/(所有真实情况为1的样本数) =

TP/(FN+TP)

为了实现精确率和召回率的平衡,将其合并为新指标F1分数(F1 Score),计算公式如下:

F1  = 2*(PRE*REC)/(PRE+REC)

内容小结

混淆矩阵将实现分类的模型预测结果分为4种类型:真阳、真阴、假阳、假阴,定义了准确率、错误率、精准率、召回率等模度量指标。

混淆矩阵的四种预测结果之间相互联系的。

比如优化召回率指标可以降低没有确诊为乳腺癌的概率,然而却增加了乳腺癌检测成本,尽管参检人员是健康的。

如果我们强调准确性指标,正确性则成为关注焦点,那么我们却要以错失乳腺癌病例为代价。

为了在召回率和准确率两个指标之间找到平衡点,可以采用F1记分法。

名词术语

Confusion Matrix:混合矩阵

Accuracy:准确率

Precision:精准率

Recall:召回率

F1 Score:F1得分

以上是《人工智能100讲》中关于机器学习第5步:模型评估的性能度量指标,下一节将学习受试者特征ROC曲线法。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210321A00MC600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券