首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >万里挑一的重要突变会是什么呢?

万里挑一的重要突变会是什么呢?

作者头像
生信技能树
发布2022-06-08 21:27:36
发布2022-06-08 21:27:36
3490
举报
文章被收录于专栏:生信技能树生信技能树

众所周知,我们人类参考基因组是约30亿个碱基,人与人之间其实在整个基因组层面就只有大约数百万个碱基的差异,造成了风格迥异的多元化人种。默认各个人他自己内部的几万亿的细胞内部基因组都是一模一样的,个体跟其他人的差异我们称作是 germline 变异。

这些人群层面的差异绝大部分并不重要,因为本来就是个体的多样性而已,它们这些差异会影响高矮胖瘦,肤色,头发等等,但是不影响生存本身。但是每个人它自己在成长过程中,自己的本来应该是固定的基因信息会缓慢积累突变,这个变异通常是被称作是somatic 突变,它就很重要了,尤其是是患癌后个人的癌症部位积累的突变可以达到成百上千个,它也有自己的生物学意义。

目前 germline 变异和somatic 突变信息都是很容易通过测序的手段去获取,前者只需要去跟我们定义好的参考基因组去比较即可,后者需要每个人自己测两次(自己的癌症样品和自己的正常组织)后内部对比获得。但是这些变异信息往往是几百块,或者成百上千个,并不是每个都很有生物学意义,就需要一个筛选机制,来保证我们挑选到万里挑一的重要突变。

基因测序为什么复杂呢, 一个很简单的比喻:

  • 这30亿的ATCGA的碱基组合,人类参考基因组是标准答案,但是我们的测序过程就是答题。绝大部分题目(30亿),我们绝大部分(95%)人都会回答的一模一样的正确,这个时候参考基因组这样的标准答案就是金标准。
  • 但是有数百万个题目,我们每个人回答会不一样的,但是这个时候并不是说有人错误有人正确,只能是大家有多态性,因为有一些题目本来就是开放性问答,它的每个答案都是正确的。
  • 对这30亿个习题我们每次作答都有可能有误差,所以通常情况下我们会做100次以上的同一个题目的反复解答,保证解题这个过程本身是可靠的。(这就是我们为什么会要求测序深度)
  • 所以我们拿到了一个人的答题结果,首先去跟所谓的参考答案去对比,找出那个人的数百万的不同于参考答案的地方,然后需要删除那些开放性问答,最后也就是剩下了了几百个到上千个的值得质疑的地方。

也就是说,如果我们的测序结果有时候有一些位点跟参考基因组不一样,这个很正常,多态性而已。所以这些跟 参考基因组不一样的变异位点就需要分类 讨论,比如发表在2022年4月的文章:《TP53 Pathogenic Variants in Early-Onset Breast Cancer Patients Fulfilling Hereditary Breast and Ovary Cancer and Li-Fraumeni-like Syndromes》

他首先定位到 germline 变异的技术手段是 3个步骤(ngs测序,比对,找变异):

  • Next generation sequencing (NGS) of all coding regions and intron-exon junctions of the TP53 was carried out using the Illumina MiSeq DX platform according to Illumina (Illumina, San Diego, CA, USA) and Sophia Genetics protocols.
  • The sequences obtained were aligned to the hg19 reference genome.
  • Variant calling and data sequencing analysis were performed with the Sophia-DDM-V4 software (Sophia Genetics, Saint-Sulpice, Switzerland).

得到的初步的变异位点信息需要使用大量数据库注释,比如这个文章里面就列出来了 :ClinVar, [22] IARC TP53 Database, [23] ABraOM, [24] 1000 Genomes Project, [25] ExAC, [26] dbSNP [27] and The Genome Aggregation Database [28].

接下来需要参考美国医学遗传学与基因组学学会(The American College of Medical Genetics and Genomics,ACMG)和分子病理协会 (the Association for Molecular Pathology,AMP)制定的ACMG/AMP指南,这个指南规范了如何把筛选后的变异位点分成如下所示的5类:

  • pathogenic,
  • likely pathogenic,
  • variants with uncertain significance,
  • benign,
  • likely benign

这里推荐一个很好的解读:怎样看懂一份基因检测报告:给胚系突变分个类,大家也可以拿一些基因检测报告去学习,比如支持突变位点是恶性的证据有 :

恶性的证据

支持突变位点是良性的证据有:

良性的证据

最后根据每个位点各自的良性和恶性证据的多少组合去评价它的致病性。

因为目前这个评价标准还不能完全自动化,所以里面的水有点深,严重制约了基因检测在实际临床应用的广泛性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档