我所说的一切都可能是错的!
即使你赞同我的观点,
你的生活也不会因此有任何改变!
除非——你采取了相应的行动。
(这是书先生的第303篇原创分享。2022年12月18日,于新加坡)
引子
最近我们对“阴阳”的话题讨论很多,尤其是对“阳”。
我们知道,疾病监测语境下的“阴性”和“阳性”,是从英语的 negative 和 positive 翻译过来的。它们其实是统计学上的重要概念,是做医学研究、机器学习、深度学习、语言学研究必须准确掌握的知识。
这些年,因为疫情,大家或多或少都听说过和它们相关的一些概念,比如假阳性,假阴性等。但从我和一些语言学学生和科研人员的交流来看,很多人对这些概念的掌握并不准确。
如果打算从事或者正在从事科学研究的人群对这些概念的了解都还不够的话,那其他人群对它们的了解可能更不准确。
我想,因为这几年的疫情,大家肯定会同意,了解一下这些知识是有必要的。因此,今天的推文里,我打算对“阴性”、“阳性”涉及的一些统计学常识做一点科普,希望能帮助大家在面对不确定时多一些笃定——来自知识的信心。
基本概念
对阳性、阴性概念认识的最大误区,就是把它们和现实中某个目标特征是否存在混为一谈。所以,在我看来,要想准确掌握阳性、阴性和它们相关的概念,我们必须记住下面这句话:
阴性、阳性是对测试结果的描述,不是对真实情况的描述。
针对某个我们想要观察的目标特征,真实情况只有两种可能:存在和不存在。以是否感染新冠为例,真实情况要么就是感染了,要么就是没有感染。
然而,不管一个人是感染还是没有感染,TA的测试结果都既可能是阴性,也可能是阳性。所谓阴性,就是测试结果认为这个人没有感染,所谓阳性,就是测试结果认为这个人感染了。
这样一来,测试结果就有四种可能了。为了方便理解,我做了下面这幅图。
在上面的图中,左边的正方形表示被观察人群中是否存在某种特征的实际情况,右边的正方形表示被观察人群的测试结果。
还是以感染新冠为例。显然,这个人群中的人要么感染了新冠,要么没有感染。所以,左边的正方形可以分为两个部分。
两个部分中,深蓝色的部分(甲)就代表实际感染新冠的人群,下方深绿色的部分(乙)就代表实际没有感染新冠的人群。
现在,甲、乙两个人群都去做了是否感染新冠的测试,右图便是测试结果。
在右图中,中间的圆形就代表所有测试结果为阳性的人组成的群体。圆形外面的正方形剩下的部分,就代表所有测试结果为阴性的人组成的群体。
我们还是把图形分成上下两个部分来看。其中1+3为上半部分,2+4为下半部分。显然,数量上来看,1+3=甲,2+4=乙。
深蓝色的部分(1)测试结果为阳性。因为这部分人确实感染了新冠,所以他们的测试结果叫真阳性,英语叫 True Positive 。
浅绿色部分(3)测试结果为阴性。但这部分实际是感染了新冠的,所以他们的测试结果叫假阴性,英语为 False Negative 。
下方深绿色部分(2)测试结果为阴性。这部分人确实没有感染,所以他们的测试结果为真阴性,英语为 True Negative 。
下方浅蓝色部分(4)的测试结果为阳性。但这部分人实际没有感染,所以他们的测试结果为假阳性,英语为 False Positive 。
我们更好地理解下面的内容,我们先对上面的描述做个总结:
好了,上表就是和“阴阳”有关的六个基本概念了。如果你已经理解了他们,你就有基础来搞懂接下来的一些延伸概念了。如果说上面这些基本概念似乎没有什么实际用途,下面要介绍的延伸概念,就个个都有着非常重要的实际应用了。
阴阳和统计
很显然,上面的四种测试结果中,1和2代表正确的测试结果,而3和4是错误的。对于任何测试,我们当然想尽可能地提高正确率,降低错误率。
理想的状态当然是这样的:1和2的比例都同时提高,3和4的比例都同时降低。
然而,现实是残酷的:在测量方式不变的情况下,3和4的比例不可能同时降低。
这个从逻辑上也好理解。如果一个测试方式对要检测的特征非常敏感,敏感到有一点点像,就认为存在,也就是说假阳性率可能很高。这种情况下,真正存在特征的,基本上就很难逃过检测,也就是说,假阴性率会相应下降。
上面这段话中,我提到了假阳性率和假阴性率的概念。它们都是比例。下面我会列出它们的计算方式。为了写公式方便,我们先规定好一些概念的缩写。
假阳性率:False Positive Rate, FPR
假阴性率:False Negative Rate, FNR
假阳性:False Positive, FP
假阴性:False Negative, FN
真阳性:True Positive, TP
真阴性:True Negative, TN
以上就是目前为止出现的概念的中英文及其缩写。为了大家更好地理解接下来的计算公式,我把上面的图复制一下,放在这一行文字的下边,不过上面的1、2、3、4换做了对应的英文缩写。
假阳性率,就是所有实际未感染人群中检测结果为阳性的比例。实际未感染,但检测结果为阳性,也就是假阳性 FP 嘛。而所有实际未感染的人,就是假阳性 FP + 真阴性 TN ,也就是上图右边正方形中下半部分。所以,假阳性率的计算公式就是:
(1) FPR = FP / (FP + TN)
相应地,假阴性率的计算公式就是:
(2) FNR = FN / (FN + TP)
这两个看似平平无奇的概念,在统计学中非常重要,尤其是在假设检验 (hypothesis testing) 统计分析中,因为假设检验就是看阴阳。
为什么这么说呢?
你想啊,什么时候我们会用到阴性、阳性的概念?答案是检测结果只有两种可能的时候。而假设检验的结果就只有两种可能:要么拒绝接受零假设,要么不能拒绝接受零假设(注意,是不能拒绝接受,不是接受)。
这里我补充一点关于假设检验的知识。假设检验中有两种假设,它们是相对的。
一种叫零假设 (Null Hypothesis),一般就是在没有新的知识前,人们普遍接受(或者只好接受)的事实。比如我们现在要采取一种新的教学方法,在两组成绩没有差异的学生身上做实验,一组采用新的教学方法,一组采用传统的教学方法。在做实验之前,我们不知道新方法到底效果更好还是更差,这时候我们假设实验之后两组学生成绩仍然没有差异。这个假设就是零假设。
与零假设相对的叫备择假设 (Alternative Hypothesis) 。对上面新教学方法的例子来说,备择假设就是实验之后,两组学生成绩有显著差异。
在假设检验中,和拒绝接受零假设(也就是发现了显著差异)对应的就是阳性,和不能拒绝接受零假设(也就是没有发现限制差异)对应的就是阴性。
我们做统计分析也好,做医学测试也好,肯定是有个目的的。一般来说,如果结果是阳性(有显著差异),我们就会采取某种行动。如果结果为阴性(没有显著差异),我们就维持现状。
然而,所有的统计都是有随机误差的,也就是说,有时候差异是随机产生的,和我们做的事情没有关系。对于假设检验来说,那个随机误差的大小,就叫显著性水平,用英文字母 α来表示。
因为误差是不可避免的,所以我们只能在测试前规定一个 α 值,只要计算结果小于这个值,我们就拒绝零假设。
实际计算出来的显著性值用字母 p表示。所以, α和 p其实是指同一个东西,不过一个是事先规定的值,一个是实际计算出的值。
应用语言学研究中,一般把 α 值设为0.05。当我们得到一个p = 0.03 的结果时,它的意思是,我们发现的差异有3%的可能性是随机产生的。也就是说,我们有3%的概率把本来没有差异的情况错误地判断为了有差异。
错误地把不存在当作了存在,这是什么?就是假阳性嘛。所以,这个α 值,就等于假阳性率。假阳性率就是用字母 α 表示。
有错误地把不存在判断为存在,当然就有正确地把不存在判定为不存在,后者的概率就被称为为一种检验的“特异性”,英文是 specificity ,它就等于 1 - α,也等于 TN / (TN+FP)。你可以套在上面公式(1)里面算一下,看对不对。这个特异性,其实就是真阴性率。
(3) Specificity = 1 - α= TN / (TN+FP)
现在我们来看假阴性。假阴性就是明明存在,却说不存在。假阴性用字母 β 表示。
反过来,能够正确地把存在判断为存在的概率,就是一种测试的“敏感性”,英文是 sensitivity ,它等于 1 - β ,也等于 TP / (FN+TP)。这个敏感性,其实就是真阳性率。
(4) Sensitivity = 1 -β= TP / (FN+TP)
统计分析里,敏感性也被称为统计强度(statistical Power)。
所以,总结起来,一种检验方法不存在就说不存在的能力,就是它的特异性,而存在就说存在的能力就是它的敏感性,或者统计强度。
两种错误
因为假阳性和假阴性都是错误,所以假设检验中有两大类错误。
和假阳性有关的错误就叫第一类错误 (Type I Error),和假阴性有关的错误就叫第二类错误(Type II Error)。
鉴于 FPR 和 FNR 是此消彼长的关系,我们希望哪个大点,哪个小点,其实取决于成本和风险。也就是说,有时候采取行动风险高,有时候维持现状风险更高。
以疾病检测为例。假阳性高,意味着有可能浪费资源。本来没病的,测出来有病,然后去就医,或者去隔离,这就是浪费资源。
假阴性高,意味着可能错过治疗。本来有病,测出来没病,结果因为没去治疗,病情越来越严重了。
就应用语言学研究而言,采取行动往往耗时费力,风险更高,而维持现状虽然可能没有什么好处,但至少不会有什么损失,所以应用语言学的研究中,我们更多的是控制第一类错误。重复检验中对 α 值的各种调整(比如 Bonferroni Adjustment),就是控制第一类错误的常见方法。
结语
我是一直在读书的书先生,感谢您的阅读。
今天的推文里,我从阴阳出发,给大家介绍了统计学里的一些重要概念。这些概念对初学统计学的人来说,往往容易混淆。我希望今天的推文我把它们讲清楚了。如果还有不清楚的地方,欢迎大家在留言区和我交流。
觉得文章不错,欢迎点赞、转发支持我们。
(原创内容,未经允许,不得转载!)
领取专属 10元无门槛券
私享最新 技术干货