生物信息数据分析教程视频——13-3种R包(DESeq2、edgeR和limma)进行RNAseq的差异表达分析与比较
TCGA数据挖掘真的是绵绵不绝,这里就不再赘述了,从基因集到ceRNA,到可变剪切,肿瘤免疫, 再到现在的m6A和自噬基因, 马上缺氧,代谢应该是也要出来了,每次一个策略就是33篇数据挖掘文章。真的是很不走心,比如最近有学徒一直咨询我的m6A,我发现仅仅是ccRCC的就有4篇,有一个很简陋的文章,完全是6个网页工具图表拼凑的,再加上一点点多组学。
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
大家应该是都知道,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
有了MAF格式的突变数据,比如TCGA里面的乳腺癌的1000个左右的样本的突变信息,就很容易走maftool这个包,进行绘图,代码如下:
TCGA年度(共4年)研讨会PPT官网是: http://www.genome.gov/17516564
就是一篇文章并没有使用TCGA数据库的指定癌症的生存信息去看自己感兴趣的基因的生存效应,反而舍近求远去下载BMC Cancer. 2011 文章数据,所以我怀疑TCGA应该是该基因在该癌症里面的生存效果不显著!
关于差异分析的文章中【一文就会TCGA数据库基因表达差异分析】其实有推送过,这篇文章目前为止,有近千人付费学习。
关于miRNA的基础知识可参考文章:医学科研实验基础知识笔记(十一):非编码RNA。
在进行差异分析、生存分析等下游分析时,有很多粉丝朋友对到底使用哪种类型的数据非常纠结,所以我们今天比较一下counts、tpm、fpkm、vst、cpm的表达量差异,让大家对这些数据类型有一个直观的感受。
那里的参数可以看下面这个网站https://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html然后下载你要的数据
各位科研芝士的朋友,大家好,又见面了,今天我们的主题是利用cBioportal及UCSC-XENA数据库在线下载TCGA_SNP数据
肿瘤突变负荷(TMB, tumor mutation burden)在生信数据挖掘领域是很古老的东西了,没想到还有人在用它进行各种分析...
生物信息数据分析教程视频——10-TCGA数据库:mi NA的表达探索
前面关于TCGA的教程我介绍很多,包括数据下载和一些简单的分析以及数据的处理,这里介绍还是介绍数据的下载,前面介绍过从网页下载后直接整理,或者利用R包下载,这里介绍基于TCGA数据开发的一些工具——UCSC。从UCSC下载TCGA数据比较简单。
肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。
GTEx数据库(https://gtexportal.org/home/datasets)中有人体各个器官和组织的转录组。之前的有关ACE2教程,都是用这个数据库中的数据完成的。当然数据是开放下载的,Xena研究机构提供了标准化以后的数据(下载链接是https://toil.xenahubs.net/download/gtex_RSEM_gene_tpm.gz, https://toil.xenahubs.net/download/GTEX_phenotype.gz )这个数据下载解压以后有大小有3G+,一般笔记本是无法打开的,用内存大一点的服务器读入也需要一段时间。这个也成为很多小伙伴使用这个数据库的痛点。看过下面这些画图教程的小伙伴应知道:
TCGA是研究肿瘤相关机制的重要资源。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。
但是TCGA数据库这2年就更新了两次,有些以前的教程可能就不在适用,我也写了一篇文章来介绍了最新版的内容:2024年TCGA数据库改版后的数据下载问题,为了下载数据方便,以及我后续分析数据方便,我正在把以前的代码渐渐封装成一个R包,让一些常规分析变得更加方便快捷,这个R包在慢慢的开发中,包的内容比较杂,没有一个好的名字,我就用我公众号ID(MedBioInfoCloud)作为包名:
Motivation: 目前一些计算方法都是基于2011年的那个ceRNAs假设,研究lncRNAs和miRNA靶mRNAs之间的竞争关系。但是,当mRNAs脱离miRNAs的控制之后,海绵lncRNAs如何影响这些mRNAs的表达水平还不是很清楚。
这里我们可以发现,miRNA的前体可能对应多个成熟的miRNA,比如hsa-let-7a-1,有两个对应的成熟体,MIMAT0000062(hsa-let-7a-5p)和MIMAT0004481(hsa-let-7a-3p)。这里的值是对所有成熟体miRNA求和的结果。
这天,接到了生信技能树创始人jimmy老师的一个任务,要重复一篇CELL文章中的一个图示:
前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计28篇教程!
最近做培训时整理的一部分TCGA相关数据库的使用总结。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。 本文包括了TCGA本站中数据的浏览、下载,尤其是TCGA改版后的功能介绍(增加了OncoGrid展示),然后是cBioPortal,TCGA数据在线提供的分析类型最多的一个平台,再是FIREBROWSE,比较不错的在线展示和方便的数据下
各位朋友,大家好,今天,我们分享TCGA数据的最后一个R包,RTCGAToolbox。TCGA数据量庞大,数据种类丰富,分析方法复杂,对于大部分研究人员来说,从如此海量的原始测序数据开始分析是不可行也是不必要的。
主要是研究肿瘤纯度,拷贝数变异,突变全景图,驱动突变,肿瘤异质性。我这里挑选第一个肿瘤纯度的泛癌研究进行解读:
实际上, 这个方法还是过于粗糙了,肿瘤微环境的复杂程度,远不止基质和免疫细胞简单的归类。我随手查了一个比较新的综述文章:《Tumor microenvironment complexity and therapeutic implications at a glance》,链接是https://biosignaling.biomedcentral.com/articles/10.1186/s12964-020-0530-4,感兴趣的可以自己研读:
很简单的设计,就是450K甲基化芯片:DCIS (n=40) and adjacent normal (n=15) ,另外的信息技术:Among 40 DCIS cases 13 later developed invasive disease
今天给大家演示下如何用自己的数据完成maftools的分析,主要是snp文件和临床信息的制作,其实很简单,但是网络上的教程都说的不清楚。
可以使用 dry.run 控制是否真的下载,因为如果是下载甲基化信号值矩阵或者表达量矩阵,会耗时很长。
最近小编在看单基因的分析文章,这些文章共通点多是利用公共数据库进行单基因数据挖掘。小编认为这个对于想发表文章,但是又苦无很好的生信基础的小伙伴是个很好的思路。同时也揭示出一个简单的却容易被忽视的真理-肿瘤数据库掌握得好,分析绘图“一锅烩”,徒手挖文章就不再是遥不可及的梦!
本来呢,还在奇怪,TCGA数据库里面的乳腺癌患者的放化疗信息应该是没有那么全吧。等我看完摘要才明白,原来是研究者自己招募的病人队列,来自于Iceland between 1976 and 2007. 而且Chemotherapy信息很丰富,包括 cyclophosphamide, methotrexate, and fluorouracil 。
TCGA是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。 下载方式多种多样,在我之前的教程介绍了有官网下载;TCGAbiolinks下载;firehose下载。这一次的学习笔记,主要是写用python快速下载TCGA数据库相关数据。我自己尝试后的优点是:快速(大概三分钟就可以下载完毕);下载的数据与官网GDC下载的相同。
数据的下载和之前的教程一样【14-TCGA数据库下载整理】。只不过这里选择的是STAR-Counts了。加入购物车后下载下面的文件。
GEO 数据库全称是 Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI 创建并维护的基因表达数据库。它收录了世界各国研究机构提交的高通量基因表达数据,目前已经发表的论文中涉及到的基因表达检测的数据可以通过这个数据库中找到,并且免费提供下载,对科研人来说真是非常友好的存在。
该研究使用的是 CapitalBio 平台 (CapitalBio 公司) 芯片,非常清晰的研究思路;
前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记
这些文章中处理方式都是自己写代码,从头处理,有些人可能会问,为何如此多余,不是有很多R包吗?为什么那么麻烦?各有各的好处,对于很多初学者来说,直接用一些R包,出错后不知道所以然,那是因为不知道底层代码都进行了什么。关于TCGA数据库挖掘的R包很多,TCGAbiolinks包就很不错,在差异分析的文章【一文就会TCGA数据库基因表达差异分析】中就有提到这个包,当时录制视频的时候这个包好像因为R版本的更新问题,就没有过多介绍,但很久很久前也有文字描述的教程,大家可以通过差异分析的文章中的链接进行查看,但关于GD
关于TCGA的差异分析之前介绍过,不过略微有些不够完整,而且主要是演示的TCGAbiolinks这个包,对于DEseq2介绍的不够,所以今天专门说一下使用DEseq2进行差异分析。
领取专属 10元无门槛券
手把手带您无忧上云