一篇论文
这几天,不少微信公众号报道了一篇尚未正式发表的医学论文。
该论文名为《Relationship between the ABO Blood Group and the COVID-19 Susceptibility》,论述了武汉金银潭医院、南方科技大学、上海交大、武汉中南医院等8家单位的最新研究成果——A、B、AB和O型这几种不同血型与新冠肺炎易感性存在的关联。
原文位于:
https://www.medrxiv.org/content/10.1101/2020.03.11.20031096v1.full.pdf
论文的结论是:COVID-19肺炎患者中A型血的比例显著高于正常人群,而O型血则显著低于正常人群。在死亡患者中观察到高危血型A和低危血型O的分布模式也与之相似。
通俗点讲可以说理解为如果只基于血型这一种因素分析,A型血的人既容易得新冠肺炎,又容易死;而O型血正好相反。
啊哈!那是不是O型血就可以横着走了?赶紧出去浪,口罩也不用带了??
因为这篇论文尚未被期刊或会议接纳,也没有经过同行评价(Peer Review),因此从医学的角度是否成立还没有定论,也不算正式发表。
小编本人也没有能力讨论一篇医学论文的学术价值和意义。本文不讨论论文的结论,而是以本论文为引子,来和大家共同学习一下:“统计学意义上的‘显著’是什么意思”。
几个统计学概念
下图是论文中的一份数据表格:
里面的数字都是什么意思,大家知道吗?
要理解这些数据的含义,我们首先要明确一个概念:卡方检验。
卡方检验是一种统计量的分布在零假设成立时,近似服从卡方分布的假设检验。
它属于非参数检验的范畴,本思想是比较理论频数和实际频数的吻合程度。
为了解释一个概念,又多了三个概念:零假设,卡方分布,和假设检验。我们一个个来看:
零假设(又称为原假设,记作H0):是做统计检验时的一类假设。这种假设一般情况下被希望证明为错的!
比如,我们做卡方检验的目标是要验证两个因素A和B具备相关性,那么这个时候的零假设就会是:“因素A与因素B之间无关联”。
零假设相对的假设称为备择假设(或对立假设)。若零假设为:“因素A与因素B之间无关联”;那么相应的备择假设就是:“因素A与因素B之间有关联”。
卡方分布:是概率论与统计学中常用的一种概率分布,它属于一种特殊的伽玛分布。
卡方分布中存在一个自由度的概念,这个自由度一般用字母k表示,自由度的取值可以是1,2,3,4……
卡方分布的定义是:k个独立的标准正态分布变量的平方和,服从自由度为k的卡方分布。
纯文字描述有点绕口,形式化的描述如下:
若k个随机变量Z1,Z2,……,Zk满足:1)相互独立,并且 2)都符合标准正态分布的随机变量(数学期望为0、方差为1);则这k个随机变量的平方和X (计算公式如下)被称为自由度为k的卡方分布。
下图就是卡方分布在自由度为1-5情况下的概率密度函数和累计函数:
假设检验:是一种检验统计假设的方法,一般通过观察一组随机变量来完成。
假设检验的具体方法除了卡方分析还有t检验,Z检验,F检验等。
不管具体方法是哪种,整体而言,假设检验的套路是一样的,大致过程为:
1. 提出零假设和备择假设。 2. 在零假设下推导检验统计量的分布。 3. 确定显著性水平(选择一个显著性差异阈值,最常用的是 5% 和 1%)。 4. 检验观测样本和零假设下推导出的分布数据是否具有显著性差异—— 若有,则拒绝零假设,接受备择假设; 若无,则接受零假设。 过程-1
这里又出现了一个新的概念:显著性差异。
显著性差异,是统计学上对数据差异性的评价。当数据之间具有显著性差异,则说明参与比对的数据应该是来自具有差异的两个不同总体(population)。
假设检验有点像法庭审判,零假设就是无罪假设,备择假设则是有罪假设,随机变量的观察值就相当于证据。
法庭审判的过程是通过罗列证据,来证明被告有罪的过程,但是整个证明过程成立之前,被告一直被认定是无罪的。
用以衡量显著性差异的阈值又称为显著性水平,用α表示。
α的含义是:当零假设为真时,错误拒绝零假设的临界概率。也就是在零假设其实为真的情况下,经过计算后却最终拒绝了它的最大概率。
这个α的值是人为设定的,通常被设定为5%或者1%。
而(1-α) 构成了另一个概念——置信度,它表示置信区间包含总体参数的确信程度。
这里提到的置信区间指:包含样本统计量取值的随机区间。
当显著性水平为5%时,置信度则为 1 - 5% = 95%。
”置信度为95%”表明:有95%的概率可以确定置信区间包含所有样本。
说了这么多,还是不知道卡方检验是怎么回事啊。别急,我们现在就专门来看卡方检验。
卡方检验
首先,卡方检验是一种假设检验,因此卡方检验的过程肯定是要套用假设检验的过程(上文中过程-1)。
其次,卡方检验的零假设是:我们要检验的统计量近似服从卡方分布。
得知这两点之后,就让我们按照过程-1的套路来走一遍卡方检验的流程吧。
1. 卡方检验的零假设和备择假设
首先给出我们的零假设——H0:观察样本的实际分布与总体样本的理论分布一致!
对应的备择假设为:观察样本的实际分布与总体样本的理论分布不一致!
2. 在零假设下推导检验统计量的分布
此处先要说明背景:
总体样本X一共可以被分为k个互斥的分类,其中某个样本落入到第i个类的概率为pi。
我们从总体样本中随机采样n个样本,把这n个样本中落入第i个类的理论预期个数记作mi,mi = n * pi。因此:n = m1+m2+...+mk
我们统计n个样本落入第i个类的真实个数(称为组频数),将其记作xi。
用mi和xi构建函数如下:
在上述零假设成立以及n趋向正无穷的时候,上述函数的极限分布趋向自由度为(k-1)的卡方分布。
3. 选择一个显著性差异阈值
我们姑且选5%。
4. 检验观测样本和零假设下推导出的分布数据是否具有显著性差异
【计算实际的χ2值】
卡方检验就是将我们已经掌握的理论值和实际观测值都带入到下列函数中,计算实际的χ2值。
计算出了实际的χ2值后,我们就需要用到一个工具,它叫做“卡方检验临界值表”。
【卡方检验临界值表】
这是一个二维表,它是一个现成的工具,不需要你去生成,前人早帮我们算好了。我们只需要把它从网上下载下来,或者从书中找出来,要用的时候去查询就好了。
下图是这个表格的一部分:
绿框内的部分,对应卡方分布的自由度,也就是说整个表格的每一个行对应一个确定的自由度。
橘色框内部的数字是显著性水平,也就是α。
而蓝色框内的每一个cell里面都有一个值,这个值就是对应自由度(行)和显著性水平(列)情况下的χ2临界值。
所谓临界值其实就是一个理论上的χ2值,用来和实际计算出来的χ2值进行比较。
【计算(查找)P值】
这样一个表我们用它来干嘛呢?用它来计算P值。
P值的含义是:在零假设为真时所得到的样本观察结果或获得更极端结果的概率。
P值很容被混同于α(显著性水平),但它与α是有本质区别的——α是事先定好的判断标准;而P值是根据样本计算出来的。
如果我们有统计分析软件,可以用比较精密的方法根据样本分布函数求积分获得P值。但如果我们只有上面这张二维表,也可以通过查表,估计一下P值的大概取值。
查表方法是:用我们计算出来的实际χ2到上表里面去找与之最近似的理论χ2值,然后再找到这个理论值对应的显著性水平(α),将其作为P值的估计值。或者估计P值的大致范畴,比如在0.01 - 0.03之间,或者小于0.01等。
【比较P值和α】
计算出(或者查出)了P值之后,我们会拿它和α进行比较。若P值低于我们定义的显著性水平阈值 ,则说明观察值与理论值偏离程度太大,应当拒绝零假设;否则不能拒绝原假设。
这里可以理解吗?想想之前显著性水平的定义——
当统计分析人员设定了一个具体的显著性水平阈值,例如 α = 5%,也就意味着,TA给出了一个容忍度,TA可以容忍5%程度之内推翻零假设的错误概率。
如果最终计算得出的P值大于5%,则说明推翻零假设的错误可能性已经超过了统计人员的容忍极限,于是我们不能够去推翻零假设。
反之,如果P值小于5%,则说明推翻零假设的错误率统计人员可以接受,于是,就推翻它!
说到了这里,我们终于可以对统计学意义上的显著性来做一个总结了!
统计学意义上的显著性
什么是统计学意义上的显著性呢?就拿用【不同血型感染COVID-19的例子】来说吧:
我们现在想要知道一件事情:COVID-19患者中A型血的比例是不是显著高于正常人群?
为了搞清楚这件事,我们需要进行医学研究,具体手段就是收集整理数据,然后进行统计分析。
收集到的数据
Data-1. 武汉正常人群中A型血人口所占的比例;
Data-2. 金银潭等多家医疗机构收治的COVID-19感染者人数,以及其中A型血的人数。
统计分析的方法
Analyze-Step-1. 建立零假设
零假设:COVID-19患者中A型血人员的比例与正常人口中A血人员的比例一致!
对应备择假设为:COVID-19患者中A型血人员的比例与正常人口中A血人员的比例不一致!
Analyze-Step2. 确定检验统计量
将Data-2的所有样本分为A型血,和非A型血两类,对应计算出x1(A型)和x2(非A型)两类。
根据Data-1得到p1(普通人A型血概率)和p2(普通人非A型血概率),相应得到m1 = n * p1 和m2 = n*p2,其中n为Data-2的样本个数。
Analyze-Step-3:确定显著性水平阈值
我们选择5%(即0.05)为显著性水平阈值。
Analyze-Step-4:卡方检验
将我们k=2, xi,mi (i = 1,2)带入到下列函数中,计算实际的χ2值。
将计算得出的实际χ2值带入卡方检验临界值表,查找对应的P值。
然后发现,P值远远低于我们设置的显著性水平阈值(0.05)。
于是,零假设被推翻!备择假设成立。至此,根据统计结果,我们知道在COVID-19肺炎患者中A型血人员所占比例与普通人中的A型血人员比例显著不一致!
从具体的比例数值上可以看出,COVID-19肺炎患者中A型血人员比例高于普通人。因此,我们也可以说,COVID-19肺炎患者中A型血的比例显著高于正常人群!
同样的方法,还可以应用到B型,AB型和O型上。
总之,统计学意义上的显著性不是拍脑袋想出来的,也不是一眼所见的结果,而是需要先设立假设,然后再经过一个严格的统计分析过程来验证的!
医学研究中的数据统计分析
比值比
如果你仔细看论文“Relationship between the ABO Blood Group and the COVID-19 Susceptibility”,你会发现,表格中有些数据好像之前我们没讲过——下图是论文中Table-1的一部分,作者重组翻译了一下:
A型血 | B型血 | AB型血 | O型血 | |
---|---|---|---|---|
正常武汉市民中的比例 | 32.16% | 24.9% | 9.10% | 33.84% |
金银潭医院收治的1775名新冠肺炎患者中的比例 | 37.75% | 26.42% | 10.03% | 25.8% |
χ2 | 16.431 | 1.378 | 1.117 | 35.674 |
P | <0.001 | 0.240 | 0.291 | <0.001 |
OR | 1.279 | 1.083 | 1.114 | 0.680 |
95% 置信区间 | 1.136 ~ 1.440 | 0.952~1.232 | 0.920 ~ 1.349 | 0.599~0.771 |
这里面OR又是什么东西啊?
表格中的OR全称是odds ratio,可以被翻译为比值比或者优势比。
OR主要指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值,是流行病学研究中病例对照研究中的一个常用指标。计算方法如下:
是否暴露于某因素 | 病例组 | 对照组 |
---|---|---|
是 | a | b |
否 | c | d |
OR = (a*d) /(b*c)
一般情况下:OR == 1,表示该因素对疾病的发生不起作用;OR > 1,表示该因素是危险因素;OR < 1,表示该因素是保护因素。
Meta分析
如果你把金银潭医院的患者人数,A型和非A型的人数分别带入到n,x1,x2,并计算出m1,m2,然后带入到下式计算:
直接得出来的χ2值和论文中数据表格中的具体值不一样。
这是因为,本论文采用了Meta分析。
Meta分析是运用定量方法总结多个研究结果的系统评价,常用于医学研究。中文翻译为荟萃分析、二次分析、汇总分析、集成分析等。
它对多个同类独立研究的结果进行汇总和合并分析,以达到增大样本含量,提高检验效能的目的。
在此我们就不详细讲解Meta分析了,总之,Table-1中的数据不是按照每一家医疗机构的数据单独进行卡方检验算出来的,而是通过Meta分析算出来的。
医学论文的参考价值
前面就已经说了,本文不讨论医学结论,仅仅是借助其中数据讲解统计学中的卡方检验。
但是,即使最简单的卡方检验过程,也需要经过先设定零假设,再一系列非直观的运算、查表过程来确定假设能够被推翻,如果被推翻,才能说统计结果与零假设显著不一致!
反正就是统计分析语境下说的“显著”和文学意义上的”显著“是有显著的区别的。
就算“Relationship between the ABO Blood Group and the COVID-19 Susceptibility”完全经过同行评价被认为在医学上很有价值,也不是说O型血就不会得新冠肺炎了!从论文中数据也可以看出来有四分之一的新冠确诊患者都是O型血的!!
O型血的你,还是该戴口罩戴口罩,好好遵守一切防疫规则,万不可掉以轻心。
而如果你是A型,或者家中有年长、男性(论文后面部分对不同年龄段和性别也有分析)的A型血亲人,还是尽量额外多保护一下吧。