t检验是数据分析过程中十分常用的一类统计分析方法,学习起来并不复杂,但后台多次看到有关t检验的留言,所以本文主要想和大家聊聊t检验。
t检验有3种类型,分别是:单样本t检验、两独立样本t检验、成对样本t检验。下面我来分别对它们进行适用场景及案例的介绍。
单样本t检验
单样本t检验适用于一个样本群体某种属性的均值与某个特定值的比较。比如:分析某大学女生的平均身高是否达到全国女大学生的平均身高水平。
在下面的这个案例中,我想以95%的置信度(对应的显著水平为0.05)判断这组数据的均值是否等于250,同时输出这组数据90%的置信区间。
选择菜单中的分析->比较平均值->单样本t检验,在对话框中,将随机数变量选入检验变量,将检验值设为250;点击选项按钮,在复选框中将置信区间百分比改为90%,点击继续,点击确定。对话框如下图所示:
注意:置信区间一般默认为95%,该案例要求将置信区间调整为90%,所以需要对其进行修改,其他时候不用修改。
得到的结果如下所示:
从上图的数据分析结果可知,随机数的实际均值是366.4780,与检验值的差值达到了116.4780,单样本t检验的显著性p值=0.000
其实也可以从另外一个方面来决定是否要拒绝原假设,注意差值90%的置信区间,如果此区间包含0,则说明有90%的把握认为实际均值和待检验值之间不存在显著差异;此处90%的置信区间不包含0,则说明实际均值和待检验值之间存在显著差异。
在已知随机数均值的情况下,我们尝试取一个和均值十分相近的检验值,在单样本t检验的对话框中,将检验值改为360,得到新的检验结果如下:
我们看到:这次随机数均值与检验值的差值只有6.478,这次单样本t检验的显著性p值=0.780>0.05,且90%的置信区间内包含0,说明不管是95%的置信度还是90%的置信度,都认为实际值和假设值之间不存在显著差异。
独立样本t检验
独立样本t检验适用于两个相对独立的群体某个相同属性均值的比较。比如男性和女性群体的身高比较、甲乙两个班级的均分比较,等等。
值得注意的是,两独立样本t检验仅适用于两个群体进行比较,如果类别超过3个,则需要考虑使用单因素方差分析。相关延伸阅读如下:
在此,我们选用SPSS中自带的数据集creditpromo.sav向大家展示介绍独立样本t检验。数据集的部分截图如下所示:
某百货公司随机选择了500位持卡人,其中一半收到了最新促销广告,另一半收到了标准的季节性广告,公司希望以95%的置信度判断最新促销广告的效果是否优于标准的季节性广告。
数据集中包含了500位客户的ID号、接收到的邮件类型和促销期间的花费;其中接受到的邮件类型中,代表标准广告,1代表新促销广告。
选择菜单中的分析->比较平均值->独立样本t检验,在对话框中,将接受到的邮件类型变量选入分组变量,将促销期间的花费变量选入检验变量;
在定义组复选框中,需要分别填入分组变量的值标签。在这个案例中,两个分组变量的值标签分别是0和1,所以,组1指定值为0,组2指定值为1,点击继续,点击确定。
对话框如下图所示:
得到的分析结果如下:
从组统计的分析结果来看,接收新促销广告的客户比接收标准广告的客户在促销期间花费得更多,前者比后者平均多花费了约71.11美元。
从统计检验的结果来看,方差齐性检验的显著性p值=0.276>0.05,说明通过了方差齐性检验,我们应该查看统计检验表中第一行的t检验结果。
其中,独立样本t检验的显著性p值=0.024<0.05,说明置信度为95%时,接收新促销广告的客户在促销期间的花费明显高于接收标准广告的客户,最新促销广告的效果优于标准的季节性广告。
成对样本t检验
成对样本t检验适用于成对的两组样本的比较,它通常考察的是同一受试对象在实验前后的某一指标差异,例如减肥前后两组体重值的比较。
在此,我们选用SPSS中自带的数据集dietstudy.sav向大家展示介绍独立样本t检验。数据集的部分截图如下所示:
数据中共记录了16位受试者的个案信息,每一行记录了每个个体在实行饮食方案前后的体重(磅)以及甘油三酸酯的水平(毫克/100毫升)。
我们需要考察的是受试者在实行饮食方案前后的体重和甘油三酸脂水平是否存在显著差异;也就是以甘油三酸脂变量和最后的甘油三酸脂变量进行成对比较,以体重变量和最后体重变量进行成对比较。分析过程如下:
选择菜单中的分析->比较平均值->成对样本t检验,在对话框中,按住Ctrl键,分别选择甘油三酸脂变量和最后的甘油三酸脂变量,将它们选入配对变量作为配对1;
再按住Ctrl键,分别选择体重变量和最后体重变量,将它们选入配对变量作为配对2,点击确定。
对话框如下图所示:
得到的分析结果如下所示:
从配对样本统计表来看,在实行饮食方案后,受试者最后的甘油三酸脂平均水平(124)低于最初的甘油三酸脂平均水平(138)。
从配对样本相关性来看,甘油三酸脂&最后甘油三酸脂之间的皮尔逊相关系数是-0.286,显著性P值=0.283>0.05,说明各受试者的甘油三酸脂水平变化情况不一致,实行饮食方案和甘油三酸脂水平变化之间的相关性没有统计学意义。
从配对样本检验表来看,甘油三酸脂&最后甘油三酸脂进行配对样本t检验的显著性P值=0.249>0.05,说明实行饮食方案前后,受试者的甘油三酸脂水平没有发生显著性变化。
从配对样本统计表来看,在实行饮食方案后,受试者最后的平均体重(190)低于最初的平均体重(198)。
从配对样本相关性来看,体重&最后体重之间的皮尔逊相关系数是0.996,显著性P值=0.000<0.05,说明各受试者的体重变化情况一致,实行饮食方案和体重变化之间的相关性有统计学意义。
从配对样本检验表来看,体重&最后体重进行配对样本t检验的显著性P值=0.000<0.05,说明实行饮食方案前后,受试者的体重发生了显著性变化,且受试者的体重都显著降低了。
以上,我向大家详细介绍了t检验的三种类型和对应的案例,使用的第一份数据有完整的截图,后面两份数据均来自于SPSS自带数据集,大家可以轻松获取源数据自行练习。
当然,这篇文章主要是从操作层面来介绍SPSS中如何开展t检验分析,至于什么是t分布?它背后的原理是什么?……等等,这类统计学基础问题并没有过多涉及,一篇推文也很难做到面面俱到。
我建议对统计分析方法有一定了解的读者,有时间可以多了解一些统计学基础知识,有利于自己更好的理解和学习统计分析方法,不然这方面的学习总是停留在死记硬背操作步骤的初级阶段,很难完成实质性的提升。
领取专属 10元无门槛券
私享最新 技术干货