内容摘要
混淆矩阵是模型性能的量化方法和手段,它分为真阳、真阴、假阳、假阴4种组合。以乳腺癌预测为例,。
文章编号:AI-0020-V1.1
所属类别:人工智能
文章正文
准确率、精准率(查准率)、召回率(查全率)、F1得分是度量模型性能的常用指标。
下面我们通过实现分类预测的混淆矩阵,看一看模型性能度量指标是如何定义和计算的,混淆矩阵如下图所示:
从上图看出,我们可以从两个维度定义模型性能的指标:一个维度是实际类(Actual),也称其为真实类(True),另外一个维度是预测类(Predict)。
1、实际类维度:T(True)代表1(正确,真),F(False)代表0(错误,假)。
2、预测类维度:P(Positive)代表1(正,阳)),N(Negative)代表0(负,阴)。
按照上述两个维度的2*2组合,分为4个子项目,以核算检测为例:
真阳=TP(11):实际为阳(1),预测为阳(1),判断正确。
举例:比如核酸检测为阳性,实际也是阳性,代表着你确实感染了,要隔离治疗。
真阴=TN(00):实际为阴(0),预测为阴(0),判断正确。
举例:比如核酸检测为阴性,实际也是阴性,代表你没有感染新冠病毒,没事儿。
假阴=FN(10):实际为阳(1),预测为阴(0),判断错误。
举例:比如你实际已经感染了新冠病毒,但是检测却为阴性,这是最不好的结果,也就是没有检测出来,这是很危险的事情,因为你有了但是大家都不知道,可能会造成更多不可知的感染。
假阳=FP(01):实际为阴(0),预测为阳(1),判断错误。
举例:比如你没有感染新冠病毒,但是检测却为阳性,因此你也需要隔离观察与治疗,尽管你被冤枉了,但是谁叫机器学习能力有限呢。
从上面看出,TP和TN都是判断对了,也就是无论实际类别是什么,预测结果和实际类别是一致的。FN和FP都是判断错了,预测结果和实际类别相反。
下面以胰腺癌预测结果为例,说明采用混淆矩阵分类组合的应用方法,如下图所示:
从上图可以看出,全部样本中共有71个良性肿瘤预测是正确的,40个恶性肿瘤预测是正确的,还有2个恶性肿瘤和1个良性肿瘤预测是错误的。
其中,类别标签中良性肿瘤(B)为0,恶性肿瘤(M)为1。
错误率ERR(Error)和准确率ACC(Accuracy)能够显示错误分类的样本数量,计算公式如下:
错误率ERR = (FP+FN)/(FP+FN+TP+TN)
说明:就是判断错了,包括没有感染新冠病毒检测结果是阳性,或者感染新冠病毒了,但是检测结果却为阴性。
准确率ACC = 1-ERR =
(预测正确的样本数)/(总样本数)=(TP+TN)/(TP+TN+FP+FN)
精确率PRE(Precision)和召回率REC(Recall)的计算公式如下:
精确率PRE = (预测为1且正确预测的样本数)/(所有预测为1的样本数) =
TP/(TP+FP)
召回率REC = (预测为1且正确预测的样本数)/(所有真实情况为1的样本数) =
TP/(FN+TP)
为了实现精确率和召回率的平衡,将其合并为新指标F1分数(F1 Score),计算公式如下:
F1 = 2*(PRE*REC)/(PRE+REC)
内容小结
混淆矩阵将实现分类的模型预测结果分为4种类型:真阳、真阴、假阳、假阴,定义了准确率、错误率、精准率、召回率等模度量指标。
混淆矩阵的四种预测结果之间相互联系的。
比如优化召回率指标可以降低没有确诊为乳腺癌的概率,然而却增加了乳腺癌检测成本,尽管参检人员是健康的。
如果我们强调准确性指标,正确性则成为关注焦点,那么我们却要以错失乳腺癌病例为代价。
为了在召回率和准确率两个指标之间找到平衡点,可以采用F1记分法。
名词术语
Confusion Matrix:混合矩阵
Accuracy:准确率
Precision:精准率
Recall:召回率
F1 Score:F1得分
以上是《人工智能100讲》中关于机器学习第5步:模型评估的性能度量指标,下一节将学习受试者特征ROC曲线法。
领取专属 10元无门槛券
私享最新 技术干货