众所周知,我们人类参考基因组是约30亿个碱基,人与人之间其实在整个基因组层面就只有大约数百万个碱基的差异,造成了风格迥异的多元化人种。默认各个人他自己内部的几万亿的细胞内部基因组都是一模一样的,个体跟其他人的差异我们称作是 germline 变异。
这些人群层面的差异绝大部分并不重要,因为本来就是个体的多样性而已,它们这些差异会影响高矮胖瘦,肤色,头发等等,但是不影响生存本身。但是每个人它自己在成长过程中,自己的本来应该是固定的基因信息会缓慢积累突变,这个变异通常是被称作是somatic 突变,它就很重要了,尤其是是患癌后个人的癌症部位积累的突变可以达到成百上千个,它也有自己的生物学意义。
目前 germline 变异和somatic 突变信息都是很容易通过测序的手段去获取,前者只需要去跟我们定义好的参考基因组去比较即可,后者需要每个人自己测两次(自己的癌症样品和自己的正常组织)后内部对比获得。但是这些变异信息往往是几百块,或者成百上千个,并不是每个都很有生物学意义,就需要一个筛选机制,来保证我们挑选到万里挑一的重要突变。
基因测序为什么复杂呢, 一个很简单的比喻:
也就是说,如果我们的测序结果有时候有一些位点跟参考基因组不一样,这个很正常,多态性而已。所以这些跟 参考基因组不一样的变异位点就需要分类 讨论,比如发表在2022年4月的文章:《TP53 Pathogenic Variants in Early-Onset Breast Cancer Patients Fulfilling Hereditary Breast and Ovary Cancer and Li-Fraumeni-like Syndromes》
他首先定位到 germline 变异的技术手段是 3个步骤(ngs测序,比对,找变异):
得到的初步的变异位点信息需要使用大量数据库注释,比如这个文章里面就列出来了 :ClinVar, [22] IARC TP53 Database, [23] ABraOM, [24] 1000 Genomes Project, [25] ExAC, [26] dbSNP [27] and The Genome Aggregation Database [28].
接下来需要参考美国医学遗传学与基因组学学会(The American College of Medical Genetics and Genomics,ACMG)和分子病理协会 (the Association for Molecular Pathology,AMP)制定的ACMG/AMP指南,这个指南规范了如何把筛选后的变异位点分成如下所示的5类:
这里推荐一个很好的解读:怎样看懂一份基因检测报告:给胚系突变分个类,大家也可以拿一些基因检测报告去学习,比如支持突变位点是恶性的证据有 :

恶性的证据
支持突变位点是良性的证据有:

良性的证据
最后根据每个位点各自的良性和恶性证据的多少组合去评价它的致病性。
因为目前这个评价标准还不能完全自动化,所以里面的水有点深,严重制约了基因检测在实际临床应用的广泛性。