大家好,我是邓飞。
今天介绍一下如何使用plink计算PIC,PIC的意思是多态信息含量 (polymorphism information content,PIC)。
多态信息含量(polymorphism information content,PIC)是衡量遗传标记(如 DNA 分子标记、等位基因等)在群体中多态性水平的重要指标,用于评估标记提供的遗传信息丰富度,反映其区分不同基因型个体的能力。它广泛应用于遗传学研究、分子育种、群体遗传结构分析等领域。
PIC 的本质是:对于一个遗传标记,在随机选择的两个杂合子亲本后代中,该标记能明确区分亲本基因型的概率。简单来说,PIC 值越高,标记的多态性越强,能提供的遗传信息越丰富,在区分个体或群体遗传差异时的效果越好。
参考文献:Botstein D, White R L, Skolnick M, et al. Construction of a genetic linkage map in man using restriction fragment length polymorphisms[J]. American journal of human genetics, 1980, 32(3): 314.
PIC的计算函数:
这里的x就是maf值。
maf和PIC的关系:
如何使用plink的maf结果计算PIC?
1,对基因型数据进行质控
plink --file new_id_dd --chr-set 40 --snps-only just-acgt --chr 1-18 --mind 0.1 --geno 0.1 --hwe 1e-5 --recode --out temp
2,计算maf
plink --file temp --freq
3,用R语言计算PIC
library(data.table)
library(tidyverse)
freq=fread(file="plink.frq",header=T)
head(freq)
summary(freq)
freq$Pic=1-freq[,5]^2-(1-freq[,5])^2-2*(1-freq[,5])^2*freq[,5]^2
head(freq)
summary(freq)
cor(freq$MAF,freq$Pic)
plot(freq$MAF,freq$Pic)
fwrite(freq,"pic_result_maf.txt",sep = " ",quote = F)
上面的方法就是计算PIC的方法。
1,快来领取 | 飞哥的GWAS分析教程
2,飞哥汇总 | 入门数据分析资源推荐
3,数量遗传学,分享几本书的电子版
4,R语言学习看最新版的电子书不香嘛?