很多小伙伴在第一次做四格表卡方检验时,看着输出结果可能会疑惑,是看Pearson卡方结果呢,还是看Fisher精确检验的结果呢?本期“科研加油站”栏目我们一起聊聊两个率的比较(卡方检验)及Fisher精确检验。
问题与数据
某医生拟探讨药物以外的其他方法是否可降低患者的胆固醇浓度,如增强体育锻炼、减少体重及改善饮食习惯等。
该医生随机招募了100位高胆固醇、生活习惯差的受试者,并将其随机分成两组。其中一组给予降胆固醇药物,另一组给予生活习惯干预。经过6个月的试验后,该医生重新测量受试者的胆固醇浓度,分为高和正常两类。
该医生收集了受试者接受的干预方法(intervention)和试验结束时胆固醇的风险程度(risk_level)等变量信息,并按照分类汇总,部分数据如下:
注释:本研究将胆固醇浓度分为“高”和“正常”两类,只是为了分析的方便,并不代表临床诊断结果。
对问题的分析
研究者想判断不同分组情况下的率是否不同,即在不同干预下,胆固醇浓度下降情况的比较。针对这种情况,我们可以使用两个率的比较分析,但需要先满足4项假设:
假设1:因变量和自变量都是二分类变量,如本研究中的干预和风险变量都是二分类变量。
假设2:具有相互独立的观测值,如本研究中各位受试者的信息都是独立的,不存在相互干扰作用。
假设3:研究设计必须满足:(a) 样本具有代表性,如本研究在高胆固醇、生活习惯差的人群中随机抽取100位受试者;(b) 目的分组,可以是前瞻性的,也可以是回顾性的,如本研究分别对50位受试者给予降胆固醇药物和生活习惯干预。
假设4:样本量足够大,最小的样本量要求为分析中的任一预测频数大于5。
经分析,本研究数据符合假设1-3,那么应该如何检验假设4,并进行两个率的比较分析呢?
思维导图
SPSS操作
在进行率的比较之前,我们需要先进行加权(仅针对汇总数据),如下:
(1)在主页面点击Data→Weight Cases
弹出下图:
(2)点击Weight cases by,激活Frequency Variable窗口
(3)将freq变量放入Frequency Variable栏
(4)点击OK。
数据加权之后,我们就可以进行率比较的SPSS操作,如下:
(1)在主页面点击Analyze→Descriptive Statistics→Crosstabs
弹出下图:
(2)将变量intervention和risk_level分别放入Row(s)栏和Column(s)栏
(3)点击Statistics,弹出下图:
(4)点击Chi-square
(5)点击Continue→Cells
(6)分别点击Counts栏和Percentages栏中的Expected和Row选项
(7)点击Continue→OK
结果解释
5.1 判断研究数据是否满足假设4
具有足够的样本量是进行两个率的比较分析的基本假设,经上述SPSS操作,得到相关结果如下:
本研究中,最小的一个预测频数是24.5,大于5,即满足假设4,具有足够的样本量。Chi-Square Tests 表格也对该结果做出提示,如下标注部分:
即在本研究中,没有小于5的预测频数,可以直接进行两个率的比较分析。那么,如果存在预测频数小于5的情况,我们应该怎么办呢?一般来说,如果预测频数小于5,就需要分析Fisher精确检验(Fisher's exact test)的结果,我们将在5.4中向大家详细介绍这部分内容。
5.2 统计描述
在进行两个率的比较分析之前,我们需要先对研究数据有个基本的了解。SPSS输出结果如下:
该表提示,本研究共有100位受试者,每种干预方式各有50位受试者。在试验结束时,药物干预组的50位受试者中有18位胆固醇浓度高,而生活方式干预组的50位受试者中有33位胆固醇浓度高,如下标注部分:
由此可见,药物干预组比生活方式干预组的疗效更好。同时,该表也提示,药物干预组的50位受试者中有32位胆固醇浓度下降,而生活方式干预组的50位受试者中只有17位胆固醇浓度下降,如下标注部分:
但是,在各组样本量不同时,频数会误导人们对数据的理解。因此,我们推荐使用频率来分析结果,如下标注部分:
该表提示,药物干预组的50位受试者中64%胆固醇浓度下降,而生活方式干预组的50位受试者中只有34%胆固醇浓度下降,说明药物干预比生活方式干预更有效。但是这种直接的数据比较可能受到抽样误差的影响,可信性不强,我们还需要进行统计学检验。
5.3 两个率的比较
本研究中任一预测频数均大于5,所以根据Chi-Square Tests表格中的Pearson卡方结果分析率的差值。SPSS输出检验结果如下:
Pearson卡方检验的结果显示χ2=9.004,P=0.003,说明本研究中两个率的差值与0的差异具有统计学意义,提示药物干预比生活方式干预更能有效地降低受试者的胆固醇浓度。如果P>0.05,那么就说明两个率的差值与0的差异没有统计学意义,即不认为两个率之间存在差异。
5.4 Fisher精确检验
如果存在预测频数小于5的情况,那么我们就应该根据Chi-Square Tests表格中的Fisher精确检验结果分析率的差值。SPSS输出检验结果如下:
Fisher精确检验的结果显示P=0.005,说明这两个率的差值与0的差异具有统计学意义。同样地,如果P>0.05,那么就说明两个率的差值与0的差异没有统计学意义,即不认为两个率之间存在差异。
撰写结论
6.1 两个率的比较
本研究招募100位高胆固醇、生活习惯差的受试者,随机分组后分别给予药物或生活习惯干预。试验结束时,药物干预组有32位(64%)胆固醇浓度下降,而生活方式干预组有17位(34%)胆固醇浓度下降,两组率的差值为0.3。
Pearson卡方检验的结果显示χ2=9.004,P=0.003,说明本研究中两个率的差值与0的差异具有统计学意义,提示药物干预比生活方式干预更能有效地降低受试者的胆固醇浓度。
6.2 Fisher精确检验
本研究招募100位高胆固醇、生活习惯差的受试者,随机分组后分别给予药物或生活习惯干预。试验结束时,药物干预组有32位(64%)胆固醇浓度下降,而生活方式干预组有17位(34%)胆固醇浓度下降,两组率的差值为0.3。
由于样本量不足,采取Fisher精确检验,结果显示P=0.005,说明本研究中两个率的差值与0的差异具有统计学意义,提示药物干预比生活方式干预更能有效地降低受试者的胆固醇浓度。
领取专属 10元无门槛券
私享最新 技术干货