1
病因研究中的混杂因素
疾病的病因研究是十分复杂的,疾病是否发生以及其发生的程度如何,通常会受多种因素(或者说暴露因素)的影响。在资料的统计分析过程中,如果忽视或者低估这些因素的综合作用及各因素间的交互影响,那么,统计分析的结果会存在较严重的偏差,有时甚至得出了截然相反的结论。
在研究设计阶段和统计分析阶段我们可以采用不同方法对混杂因素(与疾病的暴露因素)进行校正或者调整,以减少或者消除资料内部不均衡带来的偏倚,使我们的研究结果能够更加准确反映病因与结局变量之间的定量关系。
如果想进一步了解混杂因素可以查看Boston University School of Public Health(美国波士顿大学公共卫生学院)Wayne W. LaMorte和Lisa Sullivan的文章Confounding and Effect Measure Modification,这篇文章写的很全面,值得一读。
2
混杂因素的调整和校正
在研究设计阶段可以采用限制、匹配、随机化和分层等方式控制混杂因素
1. 限制,简单粗暴的方法,例如,在研究男性心脏病和活动强度之间关系时,假设年龄和性别是我们需要关注的两个混杂因素,可以通过确保所有男性受试者的年龄在40-50岁之间来避免混杂因素,确保比较组中的年龄分布相似,从而最小化混杂。
2. 匹配,通过匹配两个比较组来确保研究在可能的混杂因素(如年龄和性别)方面没有差异。例如,对于每一个年龄在40-50岁之间的活动强度较大的男性患者,我们可以通过匹配一个活动强度类似的年龄在40-50岁之间的男性健康个体。通过这种方式,我们所比较的群体的这些因素相似。
3. 随机化,通过随机化实现对比组之间均衡,减少偏倚,使得混杂因素在对比组之间具有可比性,在干预性实验设计中常用的随机化分组方法有:完全随机化、匹配及区组随机化、分层随机化。在人群调查(横断面研究)中的随机抽样方法有:单纯随机抽样、分层随机抽样、多阶段整群随机抽样。
在资料统计分析阶段可用Logistic回归分析、PSM(倾向性得分匹配)以及Cochran–Mantel–Haenszel检验(CMH分层卡方检验)等方法调整或校正混杂因素
如某医生收集了500例乳腺癌患者预后资料,以及患病年龄、临床分期、肿瘤大小、组织学类型以及淋巴结是否转移等变量,欲研究这些变量对预后的影响?
1.Logistic回归:先做单因素分析,然后以预后为因变量,将有统计学意义的变量(或者无统计学意义但是有专业意义的变量;或者P<0.2的变量)作为自变量纳入Logistic回归分析,对混杂因素进行校正。
2.PSM:适合研究某个自变量对预后的影响,以淋巴结是否转移为例,通过匹配后使得其他自变量(即与结局变脸相关的自变量)无统计学意义,再做淋巴结转移和预后间的单因素统计学检验。
3.CMH:分层的思想,先对混杂因素进行分层,相关因素在比较组间尽可能达到均衡,然后在这种相对的标准状态下计算统计量,估计主要因素的作用;同时,分层可以减小方差 ,提高检验的效率。
3
CMH统计检验
今天主要介绍Cochran-Mantel-Haenszel(CMH)检验,即分层卡方检验,Logistic回归分析、倾向性得分匹配后面介绍。
CMH检验以William G. Cochran,Nathan Mantel和William Haenszel三人的名字命名,CMH是用于分层或匹配分类数据的分析,该方法的运算通常基于K×2×2的列联表(K为类别数或分层数),通过用分层的思想对混杂因素进行调整,以消除由于资料内部的不均一性所造成的偏倚,使资料分析的结果能够更正确地反映所研究的“病因因素”与疾病发生之间的定量关系。进一步了解CMH统计检验可以移步McDonald的《Handbook of Biological Statistics》以及SAS Institute Inc.关于CMH的在线帮助文档。
CMH检验法可以计算3种统计量,即非零相关统计量、行均值得分差值统计量和一般联系统计量。
非零相关统计量要求行变量(原因变量)与列变量(结果变量)均为有序变量,如行变量为药物浓度(高、中、低),列变量为疗效(好、中、差)。
行均值得分差值统计量是当行变量为无序变量(如血型可分为A型、B型、O型等),而列变量为有序变量(如血红蛋白浓度可分为高、中、低),计算该统计量可以获得校正的(即消除某个或某些分层变量的影响,当仅有一个定性原因变量时,就是普通的秩和检验结果)CMH秩和检验结果。
一般联系统计量是当行变量与列变量均为无序变量时计算该统计量,希望回答两名义变量之间是否存在关联性,用通俗的语言表达就是考察各行上的频数分布规律是否相同。
需要注意的是,当结果变量为二分类变量时,得出的以上3 种统计量的数值结果一致。
4
CMH统计检验步骤
首先确定混杂变量分层,分层列四格表,计算Cochran-Mantel-Haenszel检验统计量值。
计算各层优势比值,进行各层优势比齐性检验。如果齐性,则报告公共优势比,根据公共优势比与未调整优势比的大小关系,判断混杂方向,当公共优势比小于未调整优势比,则表明混杂为正混杂。否则,宜分别报告不同层的优势比或者考虑其他方法验证。
5
数据来源
数据根据文献“王学良. 一个病因研究中常用的数据处理方法Mantel-Haenszel方法介绍[J].西安交通大学学报(医学版),1987(1):101-105.”修改并加以整理。
这篇文献是国内介绍CMH比较经典的文献,感兴趣可以看下,文献由作者根据1985年9月华盛顿大学统计学顾问Nathan Mantle教授和康乃尔大学运筹学与工业工程学院Burcew. Tur-nbun教授来华讲学记录稿整理而成。
某学者为研究口服避孕药与心肌梗塞发病之间的关系,在回顾性调查中收集了1976名女性,资料如下表所示:
本例资料为典型的独立2×2列联表资料,结局指标为二分类定性变量,依据一般思路,首先进行2×2列联表资料的卡方检验。
由检验结果可知Pearson卡方值为5.844,P=0.016,在α=0.05检验水准上,拒绝H0,接受H1,差异具有统计学意义,可以认为口服避孕药和心肌梗塞发病之间存在关联。
同时发现Cochran`s(柯克兰)检验结果和Pearson卡方检验一致,Mantel-Haenzel(曼特尔-亨塞尔)检验结果是Cochran`s(柯克兰)检验的改进,具体统计量存在差异,但结论一致。(独立四格表资料Pearson卡方和CMH统计结果一样)
由于不同年龄段患者发生心肌梗塞的机会不等,同时年龄可能会影响心肌梗塞发病的程度,因此年龄作为一个混杂因素可否进行调整?接下来我们依据年龄分层并进行CMH检验。
6
SPSS操作-计算检验统计量
数据录入:年龄,1为≤35岁,2为>35岁;心肌梗塞,1为发生,0为未发生;口服避孕药,1为服用,1为未服用
对频数加权:数据➡个案加权➡将【例数】选入右侧
交叉表:分析➡统计描述➡交叉表
将分层变量【本例年龄】选入层➡统计➡卡方➡CMH统计➡继续
8
结果解读,做出统计推断
❖一般卡方检验分别给出了≤35岁和>35岁年龄组以及汇总的卡方检验结果,汇总的卡方检验统计结果与前面的一致,两个年龄组Pearson卡方检验的P值均小于0.05。
在交叉表【统计】中勾选【风险】即可计算OR值,结果显示两个年龄组的OR值分别为2.822,95%CI(1.570-5.071)和3.579,95%CI(1.570-5.071),提示两个年龄组中口服避孕药为女性心肌梗塞发病的危险因素。
❖OR值齐性检验或者同质性检验,旨在考察不同分层中,病例组和对照组的疾病发生情况是否一致。
如果齐性,则报告公共优势比,根据公共优势比与未调整优势比的大小关系,判断混杂方向,当公共优势比小于未调整优势比,则表明混杂为正混杂。
否则,宜分别报告不同层的优势比,同时应该慎重作出结论,应该考虑选择其他统计学方法(如Logistic回归)进行验证。
在本研究中,Breslow-Day和Tarone`s检验结果一致,卡方值为0.234,P=0.629>0.05,分层OR值同质,即说明年龄分层因素与发生心肌梗塞之间不存在交互作用,此时运用CMH卡方检验结果是可靠的。
❖下面为Cochran`s(柯克兰)检验和Mantel-Haenzel(曼特尔-亨塞尔)检验结果。
Cochran`s的卡方值为24.208,P<0.001;Mantel-Haenzel的卡方值为22.692,P<0.001,两者的P值均小于0.05,提示在调整年龄混杂后,口服避孕药和发生心肌梗塞存在关联,关联程度多大呢?是保护性因素还是危险因素,那就要看OR值了。
❖Cochran`s-Mantel-Haenzel一般OR值估算检验,如果OR值齐性检验显示分层OR值齐性,即同质,可以按照该检验结果报道OR值。
由Breslow-Day和Tarone`s检验结果可知,≤35岁和>35岁年龄组的OR值一致,因此调整年龄后,口服避孕药为发生心肌梗塞的危险因素OR=3.086,95%CI(1.931-4.934),P<0.001。
9
CMH统计检验注意的两个问题
样本含量足够大,分层(即混杂变量)不宜过多,否则分层会造成每层内信息量过少,甚至出现为0的情况,这样反而会增大资料的偏性,增加统计分析的困难。
检验效率各层效应方向一致的情况下最高,以年龄因素为例,假设某种疾病的发生率随着年龄的增大而一直稳定上升,年龄因素在这种疾病的发生上始终为危险因素,这时使用CMH公式对年龄分层进行数据处理,统计效率比较高;否则,就会影响CMH公式的统计效率,使分析结果不能真正反映年龄因素与该病发生之间的联系程度。
10
CMH统计分析Excel工具
参考文献:
1.吴生根, 黄文龙, 许能锋,等. Mantel-Haenszel法在SPSS、SAS软件包中的实现[J]. 海峡预防医学杂志, 2012, 18(1):70-72.
2.胡良平, 沈宁. 用SAS软件实现高维列联表资料的统计学分析:CMH卡方检验[J]. 药学服务与研究, 2013, 13(5):332-335.
3.王学良. 一个病因研究中常用的数据处理方法Mantel-Haenszel方法介绍[J]. 西安交通大学学报(医学版), 1987(1):101-105.
5.http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704-EP713_Confounding-EM/index.html
6.http://www.sfu.ca/sasdoc/sashtml/stat/chap28/sect27.htm
领取专属 10元无门槛券
私享最新 技术干货