众所周知,人体的染色体是由A、T、C、G四种碱基组成的DNA双螺旋结构,其中A碱基与T碱基相对,C碱基与G碱基相对。换言之,如果一条DNA单链某位置上的碱基是A,那么与之配对的另一条单链DNA在相同位置上的碱基就是T。由于人类是一个二倍体生物,这也就意味着人的染色体基因型是由两种碱基组成,如果一个人在染色体某一位置上的基因型(SNP)是AA,并且AA就是野生型,突变的情况是A突变成G,那么基因型AG就是杂合型,GG就是纯合突变型,为了方便计算,我们规定基因型为AA的人的等位基因剂量为0,AG的等位基因剂量为1,GG的等位基因剂量为2,我们也称该SNP的等位基因剂量分别是0、1、2,其他相关知识点可参考往期遗传学概述。
通过DNA测序我们就能获得个体在某一个SNP上的等位基因剂量,接下来我们就需要获取该SNP针对特定疾病的效应值,这种数据可以通过各种GWAS数据库获取。通常情况下我们需要获取某一个SNP对该疾病的效应等位基因(effect allele)、效应量(effect size,通常是BETA或OR)、效应量的标准误以及该效应量的P值,一般来说该P值是要小于全基因组显著水平的(<5E-8)。接下来,我将介绍3种常用的PRS简便计算方法
在下面的公式中,S代表效应值,G代表的等位基因剂量,下标i表示的是SNP的序号,下标j表示的则是个体的序号。
第一种:累加求和法
这种方法是最早提出也是最为简便的计算方法,就是将每个个体上的SNP的效应值和等位基因剂量相乘,然后将各个SNP的得分累加后获取个体的PRS。这种方法简便易行,但是在某些个体部分SNP是缺失时,可能会带来一定的误差。
第二种:平均值法
该方法在第一种方法的基础上除以每个个体用于计算PRS的SNP个数,M表示的就是SNP个数,它较好的处理了某些个体存在SNP缺失的情况,是对第一种方法的优化,也是软件PRSice的默认方法。
第三种:标准化法
看公式我们不难理解,这种方法实际上是对第一种方法算出来的PRS进行标准化。当我们用第一种方法算出不同个体的PRS后,计算这一群人PRS的均值和标准误,然后用原PRS减去PRS均值后再除以PRS的标准误就得到标准化后的个体PRS。这种方法的优点是使PRS数据更符合正态分布,便于统计分析。
以上三种PRS计算方法是我们常用的简便方法,当然最新的研究也提出来各种基于贝叶斯模型或者神经网络的PRS计算方法,笔者认为这些新方法的效果还有待评估,我们首先需要掌握的是这些常用方法。
关于多基因风险评分的计算方法就讲到这里,在下期内容中我会和大家介绍如何使用PRSice软件来快速计算PRS,敬请期待!