Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用WES和RNA-Seq数据提取到的somatic SNVs不一致

用WES和RNA-Seq数据提取到的somatic SNVs不一致

作者头像
生信技能树
发布于 2020-09-14 08:35:53
发布于 2020-09-14 08:35:53
2K0
举报
文章被收录于专栏:生信技能树生信技能树

学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!

安排学员做了一个翻译

全外显子测序(WES)和RNA测序(RNA-Seq)是二代测序(NGS)的两个主要平台,其中WES主要用于发现DNA变异,而RNA-Seq的使用集中在基因表达量的测量,生信技能树jimmy老师B站都分享过这两方面数据的处理视频教程:

其实两者均可用于检测遗传变异,特别是在单核苷酸变异方面(SNVs)。如果大家对RNA-seq数据如何找变异位点的流程不是很清楚,可以看我们生信技能树以前的教程:

然而如何从WES和RNA-Seq中检测出突变的一致性尚未得到系统的评估。2015的一个文章在肿瘤病人里面做了这样的比较:Inconsistency and features of single nucleotide variants detected in whole exome sequencing versus transcriptome sequencing: 有意思的是引用情况非常糟糕,截止到目前(2020-09-05)都不到20个引用

在这项研究中,Vanderbilt University医学部的研究人员使用27对肿瘤样本及其匹配的正常样本的WES和RNA-Seq数据,研究了SNV检测中技术和生物学上的不一致性。他们分析了三类SNVs:

  • (1)仅在WES中检测到的
  • (2)仅在RNA-Seq中检测到的
  • (3)在两者中均检测到的。

他们发现在WES和RNA-Seq中检测到的SNVs有很小的重叠(约14%),仅在WES中检测到的SNVs主要由于其低覆盖度、低表达或它们位于RNA-Seq数据中的非转录链,而只在RNA-Seq中检测到的SNVs主要因其位置超出了WES检测边界(这一部分约占71%),以及区域覆盖度低、突变等位基因覆盖率低或RNA编辑。两种技术共享的SNVs在WES和RNA-Seq中都具有较高的基因座特异性覆盖度,并且具有较高的基因表达水平。

而WES和RNA-Seq各自特有的SNVs显示出不同的核苷酸替代模式,例如55%的RNA-Seq特有的突变是从A:T → G:C(RNA编辑的一个标志)。这项研究对WES和RNA-Seq数据中获得的somatic SNVs的不一致性提供了重要的评估。

VarScan2读取 count值确定在仅在WES中检测中的 SNVs的原因。(A)堆叠柱状图展示了仅在 WES检测出的 SNVs的 RNA-Seq的 counts结果。(B)条形图展示了 RNA-Seq和 WES共同检测到的 SNVs的 counts结果。红色代表 counts值为 NA(没有覆盖),黄色代表 counts = 1,绿色代表 counts = 2-7,蓝色代表counts ≥ 8。大多数仅在WES中检测出的 SNVs不在 RNA-Seq中。

O’Brien T D, Jia P, Xia J, et al. Inconsistency and features of single nucleotide variants detected in whole exome sequencing versus transcriptome sequencing: A case study in lung cancer[J]. Methods, 2015, 83: 118-127.

来源:https://rna-seqblog.com/inconsistency-of-somatic-snvs-called-in-wes-and-rna-seq-data/

备注:

SNVs(单核苷酸变异)和SNPs(单核苷酸多态性)有所不同,SNPs既存在于肿瘤DNA中,也存在于对照DNA中,而 somatic SNV仅存在于肿瘤样本中。当然,更主流的描述其实是 germline和somatic的变异位点的描述。

学徒作业

现在提供WES和RNA-seq数据的队列研究非常多,如果大家有服务器,完全可以重复一下这篇文章的分析过程,做一下同样的比较!

很久以前,生信技能树分享过中国台湾OSCC癌症多组学,文章是 2016年10月年发表的:APOBEC3A is an oral cancer prognostic biomarker in Taiwanese carriers of an APOBEC deletion polymorphism 就是提供WES和RNA-seq数据

对外显子数据的分析

首先统计了50个OSCC病人的肿瘤癌旁配对全外显子数据的测序总览,走bwa+gatk流程,并且走mutect得到somatic mutations列表,经由 Oncotator 注释成maf文件。最终对着50个病人找到了24,051 somatic mutations 。

然后找拷贝数变异,使用的是 GATK DepthOfCOverage计算测序深度,再用exome CNV 判断拷贝数情况。

测序策略是PE100bp, (75-Mbp target region, mean depth = 244 ± 54×),使用的测序仪和试剂盒是 HiSeq 2000 with the TruSeq PE Cluster kit v3 and TruSeq SBS kit v3

对转录组数据的分析

该实验共得到39对OSCC病人的肿瘤癌旁配对转录组数据,首先检查的测序总览。

然后走标准的转录组数据分析流程: Trimmomatic+hg19+STAR+RSEM+GENCODE

然后,定义了 3548个显著的差异表达基因,阈值是 *p-*value < 0.05 and fold change > 2 ,只保留 transcripts per million (TPM) larger than 0.5。

大家可以下载全部的数据,走Inconsistency and features of single nucleotide variants detected in whole exome sequencing versus transcriptome sequencing:提到的图表。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
单个肿瘤病人的外显子数据分析策略
但是实际上肿瘤外显子队列是很烧钱的,通常来说,一个肿瘤病人需要测50X的血液加上200X的肿瘤,基本上3000块钱是跑不了的,100人的队列就是三十好几万了。而且收集100个肿瘤病人也只能说是背靠大医院平台了。
生信技能树
2020/09/14
6290
肿瘤外显子测序后的突变与否矩阵也可以模仿转录组的表达量矩阵分析吗
整个流程涉及从原始数据到生物学解释的多个步骤,每一步都对最终的生物学结论至关重要。通过这些分析,研究人员可以更好地理解基因表达变化背后的分子机制,并为进一步的实验研究提供方向。
生信菜鸟团
2024/11/23
1540
肿瘤外显子测序后的突变与否矩阵也可以模仿转录组的表达量矩阵分析吗
RNA-seq这十年(3万字长文综述)
我们在生信菜鸟团公众号举办的每周文献精选活动,菜鸟团一周文献推荐(No.20)广受好评的是大神级的RNA-Seq综述,题目:RNA sequencing: the teenage years ,所以在我们生信技能树VIP交流群也得到了关注。
生信技能树
2019/08/08
13.8K0
RNA-seq这十年(3万字长文综述)
你的单细胞数据集还可以分析体细胞突变
单细胞水平上的体细胞突变特征对于研究癌症进化、克隆镶嵌和细胞可塑性至关重要。传统的单细胞基因组测序方法在可扩展性和基因组丢失率方面存在挑战。另一策略是从scRNA-seq 和 scATAC-seq 检测体细胞突变,这种方法的主要优点是可以将细胞谱系映射到转录或调控程序,但由于不同细胞类型的基因表达差异、等位基因脱落事件、RNA 编辑、有限的覆盖深度和测序伪影,突变的检测受到严重限制。因此,现有算法检测体细胞突变具有局限性。因此,研究团队开发了一种名为SComatic的算法,旨在直接检测 scRNA-seq 和ATAC-seq(可及染色质序列测定)数据集中的体细胞突变,而无需匹配的大量或单细胞DNA测序数据。
生信菜鸟团
2024/07/31
4070
你的单细胞数据集还可以分析体细胞突变
新加坡的鼻咽癌肿瘤外显子队列
本次研究纳入了128个NPC患者,涉及3种技术,包括:whole-exome and targeted deep sequencing, as well as SNP array,详情如下:
生信技能树
2022/07/26
4780
新加坡的鼻咽癌肿瘤外显子队列
2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)
而且通过形态学,WES和RNA-seq数据说明了其研究团队构建的类器官可以比较好的模拟其对应的肿瘤,包括 regional heterogeneity and subclonal architecture ,即使是长期培养的类器官也是如此。
生信技能树
2018/12/18
1K0
2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)
RNA-seq数据分析完全指北-10:gatk找突变
如果有读者仔细看过RNA-seq结题报告,就会发现在定量分析以外通常还会有SNP和INDEL分析。目前,对人类测序数据找突变最常用的软件是GATK,除了速度慢以外,没有其他明显缺点(可以通过部署Spark提高速度;当然,如果有钱,可以购买Sentieon,快了15-20倍)。
生信菜鸟团
2021/07/29
3.3K0
多靶点自体免疫细胞技术
本期文章题目是 Immune recognition of somatic mutations leading to complete durable regression in metastatic breast cancer 发表于 Nature Medicine (2018)
生信技能树jimmy
2020/03/27
5810
单细胞测序系列(1)--单细胞全基因组测序
仅2018年,他的研究团队就发表了11篇单细胞测序方向文章,获得了单细胞测序领域的接连重要成果。他众多学术成果中,有40余篇论文发表在Cell, Nature, Science, Cell Stem Cell, Nature Genetics, Nature Cell Biology, Cell Research, Genome Research等期刊上。单细胞测序领域的时代前沿性,以及持续的发展力可见一斑。
用户6317549
2019/09/24
5.7K0
单细胞测序系列(1)--单细胞全基因组测序
Nature重磅综述|关于RNA-seq,你想知道的都在这(续)
原文在深度总结了RNA-seq这些年的同时,还分享了文中一些名词的解释,编译分享如下,希望有助于进一步理解学习。
生信宝典
2021/12/27
8890
使用FACETS对ngs数据找CNV
肿瘤样本拷贝数变异 (CNV,copy number variation),即 somatic CNV 是最主要的体细胞突变之一。
生信技能树
2018/12/07
6.8K0
使用FACETS对ngs数据找CNV
WGS,WES,RNA-seq组与ChIP-seq之间的异同
全外显子(Whole-exome sequencing)测序是啥?转录组(RNA-seq)测序是啥?ChIP-seq又是啥?它们之间有什么差别么?傻傻分不清,不用怕,多学习下就会了,下面让我们一起来从平均测序深度和区域覆盖度的角度来区分它们吧! 1 基础概念 平均测序深度: 指定区域内得到的所有碱基数目与该区域的长度的比值,如果是全基因组,就是整个测序的碱基数目除以基因组的大小。比如人类的基因组大小是3G(30亿个碱基),我的全基因组测序共8.9亿条150bp的reads,那么全基因组范围的平均测序深度就是
生信技能树
2018/03/08
2.8K0
WGS,WES,RNA-seq组与ChIP-seq之间的异同
白血病这样的癌症样品做DNA测序该取什么作为正常对照样本来找somatic突变呢
体细胞突变(Somatic Mutations)和生殖系突变(Germline Mutations)是基因突变的两种主要类型,它们在肿瘤研究和遗传疾病研究中具有不同的含义和研究重点:
生信技能树
2024/11/21
1480
白血病这样的癌症样品做DNA测序该取什么作为正常对照样本来找somatic突变呢
使用单细胞多组学探索TNBC病人的新辅助化疗疗效
文章发表于:Cell. 2018 May。题目是:Chemoresistance Evolution in Triple-Negative Breast Cancer Delineated by Single-Cell Sequencing.
生信技能树jimmy
2020/03/27
8810
SNV和INDEL仅仅是比较数量吗?(学徒作业)
7个WGS数据,怎么着也得人民币5万块钱!数据在 https://www.ncbi.nlm.nih.gov/bioproject/PRJNA632854 :
生信技能树
2020/12/03
1.3K0
SNV和INDEL仅仅是比较数量吗?(学徒作业)
转录组讲师带你读文献(6)-散发性甲状腺髓样癌的基因组和转录特征
我在我在04-转录组笔记推文任务列表(半年期)里面安排了6个经典综述和10篇转录组应用文献给大家,可惜愿意沉下心了认真苦学的并不多。(https://share.mubu.com/doc/14uneHKvPg)
生信技能树
2021/05/27
6760
转录组讲师带你读文献(6)-散发性甲状腺髓样癌的基因组和转录特征
使用SNVSniffer软件找somatic mutation
SNVSniffer and synthetic samples are publicly available at http://snvsniffer.sourceforge.net
生信技能树
2020/10/26
9130
使用SNVSniffer软件找somatic mutation
课前准备----高通量单细胞分析数据集中的体细胞突变检测
体细胞突变在单细胞分辨率上的表征对于研究癌症进化、克隆嵌合和细胞可塑性至关重要。 体细胞突变在单细胞分辨率上的表征对于研究癌症中的遗传异质性和细胞可塑性、非肿瘤组织中的克隆嵌合体以及确定在恶性细胞和表型正常细胞中起作用的突变过程至关重要。单细胞基因组测序为研究单细胞突变提供了最直接的方法。 单细胞基因组测序的一种替代策略包括直接从高通量单细胞测定中检测测序reads中的体细胞突变,如scRNA-seq和scATAC-seq。这种方法的主要优点是可以利用单细胞分析的高通量来绘制细胞谱系的转录或调控程序,而不需要复杂的实验方案来联合分析来自同一细胞的DNA和RNA。然而,由于不同细胞类型的基因表达的可变性、等位基因脱落事件、RNA编辑、有限的覆盖深度和测序产物,突变的检测受到很大限制。因此,现有的算法依赖于检测突变,如单核苷酸变异(SNV)或indel,这些突变以前是通过匹配的bulk或单细胞DNA测序数据确定的。
追风少年i
2024/09/08
1450
课前准备----高通量单细胞分析数据集中的体细胞突变检测
11-肿瘤外显子1.1-gatk 最佳实践:开篇
GATK,即Genome Analysis Toolkit,GATK 在鉴定肿瘤的SNP, INDEL, CNV 等方面也堪称行业标准。
北野茶缸子
2022/07/07
1.5K0
11-肿瘤外显子1.1-gatk 最佳实践:开篇
【生信文献200篇】23 发现新的癌症易感基因-基于突尼斯人群
英文标题:Exome sequencing and case-control analyses identify RCC1 as a candidate breast cancer susceptibility gene
生信菜鸟团
2021/03/23
5110
推荐阅读
相关推荐
单个肿瘤病人的外显子数据分析策略
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档