大家好,我是邓飞。
好久没有更新了,最近的感受:沉淀的结果是,蓦然回首,一无所有。负重前行,走的更远,轻装上阵,原地打转。用通俗的话讲就是:不写公众号,就可以有更多的时间积累和学习,其实是空余时间刷抖音。
所以,有的没的,都要写一写,有内容了就写干活,没内容了就灌灌水。反正我喜欢看别人灌水的文章,尤其是搞技术的灌水,很有代入感。后之视今亦犹今之视昔,我见观音观自在,我见真武见真我。
杂合度,就是杂合基因型所占的比例,这个数值可以反应两个问题:
- 样本是否正常,有没有离群样本
- 样本是否混杂,是否需要删除
比如一个群体的数据,做GWAS分析,应该是纯合的群体,出现了杂合样本,是需要删掉的。
比如一个群体的数据,做GWAS分析,不是纯合群体,也不是杂合群体,可以把杂合度按照正态分布的格式,计算平均值和标准差,然后删除三倍标准差之外的样本。写到这里,不给代码有点不讲究:
A <- rnorm(1000,0,1)
outlier_above <- which(A > mean(A) + 3*sd(A))
outlier_below <- which(A < mean(A) - 3*sd(A))
del_id = c(outlier_above,outlier_below)1,plink如何计算样本的杂合度
plink --file test --het结果文件是plink.het

结果解释:

结果解释:
第一列:家系ID
第二列:个体ID
第三列:观测的纯合位点数
第四列:期望的纯合位点数
第五列:总个体数
第六列:F值(越小,说明杂合度越高)
飞哥吐槽:het的值是F值,这个明明是存合度,为何会叫杂合度,明明值越大越纯合。
这里,也可以手动计算:F =(O-E)/(N-E)
2,杂合度结果应用场景
纯系群体,做GWAS分析,可以对杂合度进行质控,比如小于0.3的认为是杂合群体,可以删除。
自然群体,做GWAS分析,可以对杂合度进行质控,认为群体的杂合度应该是合理区间,可以用三倍标准差的形式进行离群样本的质控,比如计算的F值,通过上面提供的函数,剔除样本。