大家好,我是邓飞,最近星球的小伙伴问了一个问题,PCA图显示没有明显的分层,K值也没有明显拐点,GWAS分析还用考虑吗?PCA图如下:
什么是PCA,PCA就是降维,将群体降维成几类,用于描述群体结构。
为何PCA可以描述群体结构?
我们看一下群体结构是什么?
比如不同的品种,品种内相似,品种间有差异,这些品种如果聚类,可以分为三类,如果做PCA分析可视化,也可以分为三块,这时候PC1,PC2代表的数值放到模型中做协变量,其作用和讲品种作为因子放到模型中做协变量是一样的。
之所以用PCA而不是用品种,因为我们不知道品种分几种!PCA相当于场年季,如果PCA没有明显的分层,说明协变量也没有显著性,加入模型也不会影响结果。但是万一群体有分层,就可以避免由于品种的效应造成的影响。
所以,PCA可以理解为群体的分层,属于将品种间的效应考虑到模型中的操作。
那么PCA如果没有明显分层,所以GWAS不用考虑PCA是不是也很合理?
答案是:PCA是否使用,不仅仅看是否分层明显,而是看PC1和PC2的方差解释百分比,因为PC1和PC2是作为数字协变量进行GWAS分析的,如果解释度比较高,即使分层不明显,也需要考虑PCA。
放PCA进入GWAS分析模型有什么坏处?
增加计算量。
如果PCA没有解释百分比,放进去也不会对结果有影响。
如果PCA有效,放进去就可以矫正模型,结果更准确。
所以,why not?