首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >为何要计算杂合度以及如何计算杂合度

为何要计算杂合度以及如何计算杂合度

作者头像
邓飞
发布2025-11-19 16:16:47
发布2025-11-19 16:16:47
850
举报

大家好,我是邓飞。

好久没有更新了,最近的感受:沉淀的结果是,蓦然回首,一无所有。负重前行,走的更远,轻装上阵,原地打转。用通俗的话讲就是:不写公众号,就可以有更多的时间积累和学习,其实是空余时间刷抖音。

所以,有的没的,都要写一写,有内容了就写干活,没内容了就灌灌水。反正我喜欢看别人灌水的文章,尤其是搞技术的灌水,很有代入感。后之视今亦犹今之视昔,我见观音观自在,我见真武见真我。

杂合度,就是杂合基因型所占的比例,这个数值可以反应两个问题:

- 样本是否正常,有没有离群样本

- 样本是否混杂,是否需要删除

比如一个群体的数据,做GWAS分析,应该是纯合的群体,出现了杂合样本,是需要删掉的。

比如一个群体的数据,做GWAS分析,不是纯合群体,也不是杂合群体,可以把杂合度按照正态分布的格式,计算平均值和标准差,然后删除三倍标准差之外的样本。写到这里,不给代码有点不讲究:

代码语言:javascript
复制
A <- rnorm(1000,0,1)
outlier_above <- which(A > mean(A) + 3*sd(A))
outlier_below <- which(A < mean(A) - 3*sd(A))
del_id = c(outlier_above,outlier_below)

1,plink如何计算样本的杂合度

代码语言:javascript
复制
plink --file test --het

结果文件是plink.het

结果解释:

结果解释:

第一列:家系ID

第二列:个体ID

第三列:观测的纯合位点数

第四列:期望的纯合位点数

第五列:总个体数

第六列:F值(越小,说明杂合度越高)

飞哥吐槽:het的值是F值,这个明明是存合度,为何会叫杂合度,明明值越大越纯合。

这里,也可以手动计算:F =(O-E)/(N-E)

2,杂合度结果应用场景

纯系群体,做GWAS分析,可以对杂合度进行质控,比如小于0.3的认为是杂合群体,可以删除。

自然群体,做GWAS分析,可以对杂合度进行质控,认为群体的杂合度应该是合理区间,可以用三倍标准差的形式进行离群样本的质控,比如计算的F值,通过上面提供的函数,剔除样本。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档