证据链系列之
参考人群频率数据库的使用
好的工具,让复杂遗传病易于被诊断
前言
背景介绍
在遗传病二代测序分析过程中,由于测序结果中绝大部分变异都为人群非致病多态性,通过一个高质量的参考人群频率数据库可以直接过滤掉99%以上的变异,因此人群频率几乎是使用范围最广也是最重要的过滤方法。
ACMG指南中,有五项证据(PS4 PM2 BA1 BS1 BS2)与变异频率相关,其中后四项与参考数据库相关,本期公众号重点分析这些证据的原理及潜在问题。
注:PS4证据为统计学实验证据,本篇文章暂不讨论。
ACMG指南中人群频率说明
首先复习一下与人群频率相关的证据。
PM2: 在人群参考频率数据库(1kg,EVS,EXAC等)中未见或频率极低
BA1: 在以上数据库中人群频率>5%
BS1: 在以上数据库中人群频率高于疾病发病率
BS2: 在以上数据库中出现的符合致病机理变异(如某认为完全外显隐性疾病相关基因在数据库中出现纯合变异)
ACMG中的特别提示
以上的证据逻辑看似简单,但如果没有仔细阅读ACMG指南的详细说明,很容易忽略几个很重要的干扰因素,这些因素在特定条件下很容易造成假阳性或假阴性。
1
特别提示条目
① 数据库人种构成
以EXAC数据库为例,数据库以Caucasian与African American为主,判断罕见变异的参考证据性较强。
但当检测人种与数据库中对应人种差异较大时,由于founder mutation差异,极罕见变异结果可信度会下降,影响PM2证据。
② 位点覆盖度问题
由于多数注释软件只标注数据库中的allele频率,一个潜在问题为当allele在数据库中覆盖度很差时(富集困难或产品局限性等因素),只参考频率数据无法判断,因此会造成潜在的假阳性或假阴性问题。
③ indel准确性问题
由于indel准确性问题,尤其为低复杂区域的indel准确性较低,另外还有表示标准差异(如对齐方向),因此在参考时需要特别注意。
2
证据链改进
ACMG提出关于人群频率参考时需要注意的问题,但未提出具体解决方案,因此依然面临无参考标准的问题,但所幸的是,后续有机构提出部分问题的解决方案。
位点覆盖度与indel准确性问题
sherloc分类原则中将数据库allele数进行分级,覆盖度越高的位点,证据等级相应越高。
indel准确性问题,sherloc参考变异质量,由于低复杂区域的变异质量通常较低,因此给予这类变异较低的证据等级。
人种构成问题
此类问题最好的解决办法,即构建人群背景相似的参考数据库。
在高质量数据库可用之前,可以参考Nicola Whiffin等提出基于柏松分布矫正频率的概念:对于罕见变异,取柏松分布95%CI的上限。可以有一定的矫正效果。
注:对这个柏松矫正模型不熟悉的读者,可以参考这个解释:当变异频率越低时,抽样波动性越大,通过柏松矫正模型可以降低波动性造成的影响。
3
证据链增加
一些新提出的参考证据
根据疾病特征进行精细划分
sherloc框架中提出根据疾病性质(如遗传方式,发病年龄,外显率等)确定不同过滤标准。
根据疾病建立对应标准
Nicola Whiffin等提出用疾病的统计数据(如发病率,外显率,等位基因贡献率等)建立量化过滤参考标准,提高过滤的特异性。
5
总结
1、人群频率数据库作为遗传病诊断的重要参考工具,需要建立准确有效的参考标准。
2、随着人群数据库的质量不断提高,参考价值也不断提升,但同时也需要注意其相应问题。
3、数据库参考标准不仅需要对现有标准进行改进,更需要探索新的参考标准,提高数据库的使用价值。
NGS基因诊断率能力提高之路径
多维度、多学科、多角度,合共同之力解决问题。
领取专属 10元无门槛券
私享最新 技术干货