1,Admixture建议进行LD质控
Admixtue说明文档中介绍:去掉LD高的SNP不会对结果有影响,因为计算不依赖于LD,会大大提升运行速度。关于Admixture,可以参考这篇博客:Admixture使用说明文档cookbook
如果我们使用plink进行LD质控,可以用下面的代码,标准默认是0.1,有时候也可以选择0.2或者0.05,根据自己的数据量确定。
2,亲缘关系建议使用所有的SNP
亲缘关系矩阵,我们做GS时的GBLUP方法,没见过谁用质控LD后的SNP构建亲缘关系,无论是芯片,还是重测序,一般认为数据量越大,准确性越好,使用质控LD后的SNP构建G矩阵,然后进行GS分析,自废武功,非常无意义。
还有人问我,要不要使用LD质控后的SNP位点进行GWAS分析,我一个黑人打问号???Excuse me???答案是:不可以,要使用全部的SNP,进行基础质控就行了,GWAS就是依赖于LD去进行位点的挖掘,你把LD质控了,你还定位个毛毛。。。
3,PCA分析要不要使用LD质控后的SNP
这个问题,首先要知道PCA是怎么来的,它是根据亲缘关系矩阵计算的!!!,具体参考这篇博客:GCTA学习5 | GCTA计算PCA及可视化,以及这篇文章:主成分分析PCA并给出解释百分比
构建亲缘关系矩阵,不能LD质控SNP位点,你告诉我PCA分析要质控LD位点?why!!!
4,进化树分析要不要使用LD质控后的SNP
进化树是怎么绘制的?它也要用到亲缘关系矩阵,计算遗传距离,不过计算方法和G矩阵不太一样,但是基本趋势一致,所以……,也不能使用LD质控后的SNP位点。
PS:LD质控,是为了降低数据量,特别是admixture进行群体结构分析时,会大大降低运行的时间,当然,有多线程和大内存服务器的小伙伴,完全可以用所有的位点,毕竟成年人的世界,两者都要才是普遍的,都跑一下,看看结果是否有差异。
个人经验,无论是LD质控不质控,只要剩下有一定的数据量,结果变化不大。如果数据量较小,那就会有差异。