大家好,我是邓飞。
之前我总是认为,基因型数据对PCA分析,不需要进行LD质控,因为PCA构建需要先计算G矩阵(基因型数据绘制PCA图和聚类分析图),而G矩阵依赖LD,原则上SNP位点越多,密度越高,G矩阵越能反应个体间的关系,进而PCA越准确。
所以,我认为PCA分析不需要进行LD质控,并写了篇博客介绍(进化树、群体结构、PCA分析需要对LD进行质控吗?),今天看到一篇博客,用实际数据测试了一下,给了我其它角度看待问题。
原文:https://privefl.github.io/bigsnpr/articles/how-to-PCA.html
数据共包括5个人中数据,分别是荷兰人(Netherlands)、意大利人(Italy)、英国 1(UK1)、英国 2(UK2)和芬兰人(Finland),使用所有的基因型数据,绘制PCA图:
可以看到,芬兰人和意大利人分得比较清晰,但是另外三种人种(荷兰人、英国人1,英国人2)没有分开。
这时候PC3和PC4的图,对于人群分不开,如下图所示。
如果对长区间的LD进行质控(removing long-range LD regions only),对于PC1和PC2结果不变,但是PC3和PC4结果好很多,如下图:
亚群荷兰人和英国人也分得比较清楚。
结论:
对于差异比较大的群体,是否进行LD质控对分群结果没有影响。
对于亚群体,对长LD进行质控,虽然PC1和PC2结果不变,但是PC3和PC4会提升区分性。
我的建议:
对于SNP位点比较少的,比如覆盖度有限的位点,建议不进行LD质控。
对于SNP数据量很多的,可以进行长LD质控,比如R2设置0.9,-indep-pairwise 50 10 0.9
注意,即使进行了LD质控,在进行GWAS分析时,也需要用所有的位点,不过PCA可以用LD质控后计算的PCA结果。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有