前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基因型数据进行PCA分析是否提前对LD进行质控

基因型数据进行PCA分析是否提前对LD进行质控

作者头像
邓飞
发布于 2025-03-07 07:25:32
发布于 2025-03-07 07:25:32
990
举报

大家好,我是邓飞。

之前我总是认为,基因型数据对PCA分析,不需要进行LD质控,因为PCA构建需要先计算G矩阵(基因型数据绘制PCA图和聚类分析图),而G矩阵依赖LD,原则上SNP位点越多,密度越高,G矩阵越能反应个体间的关系,进而PCA越准确。

所以,我认为PCA分析不需要进行LD质控,并写了篇博客介绍(进化树、群体结构、PCA分析需要对LD进行质控吗?),今天看到一篇博客,用实际数据测试了一下,给了我其它角度看待问题。

原文:https://privefl.github.io/bigsnpr/articles/how-to-PCA.html

数据共包括5个人中数据,分别是荷兰人(Netherlands)、意大利人(Italy)、英国 1(UK1)、英国 2(UK2)和芬兰人(Finland),使用所有的基因型数据,绘制PCA图:

可以看到,芬兰人和意大利人分得比较清晰,但是另外三种人种(荷兰人、英国人1,英国人2)没有分开。

这时候PC3和PC4的图,对于人群分不开,如下图所示。

如果对长区间的LD进行质控(removing long-range LD regions only),对于PC1和PC2结果不变,但是PC3和PC4结果好很多,如下图:

亚群荷兰人和英国人也分得比较清楚。

结论:

对于差异比较大的群体,是否进行LD质控对分群结果没有影响。

对于亚群体,对长LD进行质控,虽然PC1和PC2结果不变,但是PC3和PC4会提升区分性。

我的建议:

对于SNP位点比较少的,比如覆盖度有限的位点,建议不进行LD质控。

对于SNP数据量很多的,可以进行长LD质控,比如R2设置0.9,-indep-pairwise 50 10 0.9

注意,即使进行了LD质控,在进行GWAS分析时,也需要用所有的位点,不过PCA可以用LD质控后计算的PCA结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档