前两篇分别介绍了使用Mfuzz包、TCseq包在具有时间序列特点的转录组、蛋白质组数据中分析基因或蛋白表达的时间趋势,并将具有相似表达模式的基因或蛋白划分聚类。这两种方法都是R语言程序包。但如果您不习惯用R,但仍期望实现类似的功能(时间趋势分析、聚类以及可视化作图等),本篇再继续介绍一个图形界面程序,短时间序列表达挖掘器(Short Time-series Expression Miner,STEM),它在很多文献中也常见到。
进行基因功能或生物学通路富集的工具或网站有很多。像DAVID、IPA、GATHE等。我基本采用基于R的Clusterprofiler包。该包抓取最新的KEGG数据进行计算,保证富集结果的可靠性。另外,该包还可以对富集结果进行比较并可视化具体参数设置为:p-value cutoff=0.01, q-value cutoff=0.05, p值矫正方法为BH(即把每个p-value进行矫正,转换为q-value)。
昨天我们介绍了富集分析的基本的内容:GO分析和KEGG分析都是啥?。但是富集分析还是有很多不同的算法的,对于主要的算法过程其实不用太多了解,这个由专业人士来解决就行。但是对于其输入条件和主要区别还是要了解的,这样能方便我们使用。
原因:随着技术平台的不断发展,许多已发布的实验数据集可以被不同统计方法整合,使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益,我们需要以公正的方式整合它们的结果,例如不同实验的差异分析结果。优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法。因此,秩聚合方法可以成为这一类问题的有用且通用的解决方案。
前面简单介绍过基因矩阵转置文件格式(* .gmt),并且也展示了如何使用R读取gmt文件,今天我们来看看如何做GSEA(Gene Set Enrichment Analysis,基因集富集分析)以及GSEA的结果如何解读。
用我人生中第一张学术墙报开篇。一年前的这张墙报不能展示出当前TBtools的成长状态,但整体感觉还是可以不错(虽然没有获得任何奖项,毕竟参与会议的其他墙报都过分优秀。或许有一天,我们能做出更好的墙报)。
首先,让我们再简单回顾下GSEA的操作过程,(1)我们需要按顺序排列好的gene list用于分析,(2)需要参考基因集pre-defined gene set,那么这个从哪里来呢?这么跟大家说吧,在GSEA中富集出来的基因功能类或者基因集合都是提前定义好的,谁定义的呢?当然是GSEA官方或者一些权威数据库(比如KEGG通路数据库,Gene Ontology数据库等)。举个例子,有哪些基因隶属于p53 signaling pathway或者MAPK singaling pathway是不需要我们操心的,有专家已经帮我们定义好了。那么,如何去查看或者下载这些预定义好的基因集合呢?打开如下链接:
近日,国际知名期刊《核酸研究》(Nucleic Acids Research,IF:16.971)在线发表了北京大学孔雷课题组与中国科学院计算技术研究所赵屹研究员课题组合作开发的基因功能富集平台KOBAS-i (网址http://kobas.cbi.pku.edu.cn/ 或http://bioinfo.org/kobas),文章题为“KOBAS-i: intelligent prioritization and exploratory visualization of biological functions for gene enrichment analysis”。
是系统分析基因功能、基因组 信息数据库,它有助于研究者把基因及表达信息作为一个整体 网络进行研究,以“理解生物系统的高级功能和实用程序资源库”著称。
DNA甲基化,对于做科研的小伙伴们或多或少不陌生吧,而R语言复杂的代码加上报错也常常让小伙伴们怒砸键盘不已!今天,小编给大家分享一个神器,让你轻松搞定甲基化数据分析。当然,如果有小伙伴对甲基化概念不甚了解,可动动手去文末查看!
今天开始学习转录组测序的上下游分析了,艰苦地学完Linux之后感觉生活又光明了!虽然Linux的命令还不太熟悉,只能先想要做什么再从笔记里搜搜关键词,但基本上能跟得上,不用像学Linux一样漏一分钟就要反复回放好多遍才听懂
机构:中国农业大学动物科学技术学院,农业部动物遗传繁育重点实验室,动物繁育国家工程实验室
metascape是一个web工具,提供了基因富集分析,蛋白质互作网络分析等多种功能,对应的文章发表在nature communications上, 链接如下
建国70周年大庆即将到来,各行各业都在积极筹备迎接祖国的生日,在这个举国欢腾的时刻,我们决定以一种特殊方式来表达自己对祖国母亲的祝福:一副用R语言绘制的中国地图。
相信大家对GO和KEGG富集分析并不陌生,有时候富集分析会得到很多显著的结果。全部展示,版面不够。但是如果只展示前几个显著的GO条目或者KEGG通路的话,跟自己研究的对象相关的又不在里面。
在小编的印象中,2年前纯生信文章要是发5分以上还是比较容易的。However,不知什么时候,某个审稿人大脑抽筋,要求做实验来验证,现在的纯生信文章想突破5分还是不容易啊!那么今天,我们就来欣赏这个复旦小哥哥生信文章的魅力吧!文章是今年7月15日发的(最新啊!),题目如下:
通过GWAS分析可以识别到与性状关联的SNP位点,然而从生物学角度出发,我们更想了解的是哪些基因或者通路导致了这些位点与性状的关联现象。为了解决这一问题,科学家们发明了DEPICT这款软件,通过预测基因的功能来对GWAS的结果进行解释。
干货预警:3分钟搞定GO/KEGG功能富集分析(2),给大家详细讲解了DAVID网站的使用,通过分步操作,带领大家学习了使用DAVID工具来进行GO和KEGG分析。今天,我们重点讲解如何将DAVID中的功能富集的结果转换成正式的Figure,有请小猎豹。
科学技术的进步促进了我们世界奥秘更为深入的理解。在生命科学研究领域,过去20年中对现代生物学和医学研究产生巨大影响的技术莫过于二代测序技术的逐渐成熟、推广和相关下游技术的开发。二代测序技术打开了从基因组水平去开展疾病诊断、基因鉴定和功能研究的大门。
TCGA是不错的癌症研究数据资源,但癌症研究不只是有TCGA。ICGC国际癌症基因组联盟,有亚洲、澳大利亚、欧洲、北美和南美17个行政区的89个项目,包括25,000个肿瘤基因组。目的是To obtain a comprehensivedescription of genomic, transcriptomic and epigenomic changes in 50 different tumor types and/or subtypes which are of clinical and societ
KEGG数据库是一个综合性的生物信息数据库,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。它整合了基因组、化学和系统功能信息,旨在从分子水平上理解生物系统的高级功能和实用程序,特别是细胞、生物体和生态系统的功能。
下载数据 切换到工作目录:cd d/生信技能树-视频直播/第七讲 kegg2gene(第六讲kegg数据解析结果) 暂时不用新的kegg注释数据为了能够统一答案 差异基因list和背景基因list 收
肿瘤“种子与土壤”学说是肿瘤生物学最具影响力的理论之一,自提出以来就受到了广泛的认可和延伸。该理论认为肿瘤的发生发展不仅是肿瘤细胞遗传学和表观遗传学方面的改变,还有肿瘤微环境作为恶性种子生长繁育的“肥沃土壤”,彼此相互影响,共同进化,促进了肿瘤的产生。肿瘤微环境火了,大家都想把自己的分析向肿瘤微环境靠,今天小编跟大家分享一篇近期发表在frontiers in oncology(IF:4.137)上的肿瘤微环境相关的文章:BTK Has Potential to Be a Prognostic Factor for Lung Adenocarcinoma and an Indicator for Tumor Microenvironment Remodeling: A Study Based on TCGA Data Mining(BTK有可能成为肺腺癌的预后因素和肿瘤微环境重塑的指标:一项基于TCGA数据挖掘的研究)。该研究基于基质评分和免疫评分共同筛选与肺腺癌免疫浸润的预后因子。我们重点学习一下文章的分析思路。
我们经常在科研文章中看到功能富集分析,包括GO和KEGG富集分析。前面我们也给大家分享过一些GO和KEGG富集分析相关的一些文章
标题:应用RNA测序对鸡类肌内前脂肪细胞的分化过程中长非编码RNA和mRNA的分析
在一篇论文中,最引人注目的除了标题和摘要,便是嵌于文中的各种图表了。而图形凭借其更为直观的表达效果一直备受学术界青睐,可以说如何用更为美观的图形更恰当、更全面、更精准地展现研究结果,是所有研究者一直在探索的课题。
kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。
这一节将介绍更多的R图形资源。首先是定制R图形的一些常用方法,主要涉及数据和模型的图形绘制。然后是如何自定义其他类型的图形或点线等元素。
最近小编在用R的clusterProfiler这个包进行KEGG富集分析的时候,遇到了下面这个错误
Metascape(http://metascape.org/) 是一个功能强大的基因功能注释分析工具,能帮助用户将当前流行的生物信息学分析方法应用到批量基因和蛋白质的分析中,以实现对基因或蛋白功能的认知。只需在Metascape网页几步简单的操作,就可以对大批量的基因或蛋白质进行注释、富集分析以及构建蛋白质-蛋白质互作网络。并且构建的蛋白互作网络还可以直接导出给Cytoscape使用,绘制美观、可发表的蛋白互作网络图。
《本文同步发布于“脑之说”微信公众号,欢迎搜索关注~~》 一、重要性 大规模的神经影像方面的研究已经揭示了多种精神疾病群体中皮层厚度与健康人群存在差异。但是,这些差异背后的潜在神经生物学过程尚不明确。 二、研究目标 确定6种精神疾病中病例组和健康对照组之间皮层厚度的群体差异在神经生物学上的相关性,这6种精神疾病包括注意力缺陷多动障碍(ADHD)、自闭症谱系障碍(ASD)、双相情感障碍(BD)、重度抑郁症(MDD)、强迫症(OCD)和精神分裂症(SCZ)。 三、研究对象 该研究中的被试者来自于ENAGMA consortium (The Enhancing NeuroImaging Genetics through Meta-Analysis)中的145个队列,横跨6种常见的精神疾病,每种疾病组及其对照组的总样本数量如下:注意力缺陷多动障碍组(ADHD)及其对照组:1841和1602;自闭症谱系障碍组(ASD)及其对照组:1748和1770;双相情感障碍组(BD)及其对照组:1547和3405;重度抑郁症组(MDD)及其对照组:2658和3572;强迫症组(OCD)及其对照组:2266和2007;精神分裂症组(SCZ)及其对照组:1688和3244。 四、研究方法 1. 皮层厚度的组间差异 对来自145个队列的被试者进行T1加权像磁共振扫描,并用FreeSufer软件计算基于Desikan-Killiany脑区模板的34个区域的皮层厚度,在每个队列中,分别以34个不同的脑区的皮层厚度为因变量,年龄、年龄的平方、性别和一些中心特异性的变量为协变量,建立多个多重线性回归模型,寻找每个队列中疾病组与对照组皮层厚度的组间差异;然后将145个队列的被试者按照疾病类别进行荟萃分析,采用“metafor”R包中的反向方差加权随机效应模型寻找每种疾病组与其对照组间在皮层厚度上的组间差异。 2. 磁共振成像上和遗传上的相似性 对于每种疾病病例组与对照组在皮层厚度上的组间差异,首先使用R包WGCNA中的biweight midcorrelation来分析这些组间差异的相关性,得到两两疾病间的相关性矩阵;从Brainstorm consortium获得这6种精神疾病在遗传上两两关联性数据;最后使用“vegan”R包中的Mantel test来检验皮质厚度组间差异的相关性矩阵与遗传相关性矩阵的相似性,以此评估这6种精神疾病在磁共振成像上和遗传上的相似性。 3. 虚拟组织学 虚拟组织学是一种把MRI来源的数据(比如疾病与对照组组间差异脑区)与特定脑区的细胞特异性表达的数据关联起来的一种方法。从Allen Human Brain Altas获取脑组织基因表达的数据并按照Desikan-Killiany脑区模板对应到相应脑区,此数据来源于6个捐赠者,年龄从25到57岁,经过两个阶段的过滤后,剩下2511个基因;接着使用从小鼠海马和大脑S1区域获得的单细胞测序数据将过滤后保留的基因归类到9种细胞(CA1锥体细胞、S1锥体细胞、中间神经元细胞、星形胶质细胞、小胶质细胞、少突胶质细胞、壁细胞、内皮细胞和上皮细胞);最后在34个脑区中,分别将每种细胞特异性基因表达谱与每个脑区的MRI数据(皮层厚度差异)进行关联,生成每个细胞类型与34个脑区的相关系数的分布。 4. 共表达分析 对6种疾病间共同的皮层厚度差异进行主成分分析,提取第一个主成分与细胞特异性基因的表达数据进行biweight midcorrelation分析,对统计结果进行FDR(FalseDiscovery Rate)校正,提取P<0.05的基因作为种子基因,基因表达数据来源于5个数据库 (AHBA, BrainCloud, Brain eQTL Almanac [Braineac], Genotype Tissue Expression [GTEx],BrainSpan),共534个捐赠者,年龄范围从0到102,共包括16245个基因的表达数据。每次分别以每个种子基因表达量为因变量,另一个基因的表达量为自变量,年龄和性别作为固定效应,捐赠者来源作为随机效应,构建线性混合模型分析两两基因间表达间的关联,每个种子基因取与其表达正相关的上0.1%基因构建共表达网络 5. 基因轨迹聚类 使用来源于BrainSpan Altas的数据根据基因表达的时空模式对共表达网络的基因进行聚类,聚类方法使用“TMixClust”R包中的光滑样条非参数混合模型进行聚类 6. 基因功能富集分析 使用“clusterProfiler”R包对共表达基因进行GO(Gene Ontology)和KEGG (Kyoto Encyclopedia of Genes and Genomes)的通路富集分析,每个通路基因数目最少设置
共表达网络是一种基于组学数据,通过一定的算法来计算并大规模预测基因功能的方法。通过对构建的网络进行注释,可以挖掘出一些与生物体生长发育等相关的重要的基因或功能模块。小编这里以物种A为例,介绍一种用PCC和MR算法构建共表达网络的方法。
其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,科学家通常是使用来超几何分布检验这个统计学算法做富集分析,即通过比较实际观察到的基因集合(几十个或者几百个)中特定功能或通路的基因数量与随机期望的数量来判断其是否富集。
我们研究一个基因的时候,首先还是要知道这个基因的功能的。之前介绍很多数据库都可以用来查询基因的功能。比如最经典的genecards数据库介绍或者ncbi-gene数据库介绍在这两个基因综合信息查询数据库当中,我们可以了解目标基因的综合的功能。
个人认为,R语言有两个强项,统计和绘图。在生物信息数据分析中,R语言更多时候是发挥一个科学计算和可视化的作用。当然,R语言的功能远不止于此,不仅可以作为脚本语言,解决统计分析和可视化的”小”问题,也可以编写一套完整pipeline, 解决整套数据分析的”大”问题。
咱们在上一个课程中进行了GO圈图绘画,但是我富集分析并不只是有GO,kegg通路的富集分析可以看到基因发挥的作用,在生物体中的重要性。
3、依靠这样的公式,我们可以很轻松的提出国家自然科学基金的科学假说,也能屡清楚课题中的关键点。
不管芯片数据还是测序数据,得到的差异表达基因DEGs都是独立的基因,如果直接对这些基因分析叫单基因分析,这种分析会有很多弊端,比如:
刚刚结束了本年度的最后一次扩增子课程和宏基因组课程(都是爆满,2020年的课程提前开始报名了。就看后面的转录组和单细胞课程的参与度了),数据分析得到的大部分结果都可以用ImageGP绘图展示。在运行流程之余,收到学员的反馈,说希望有一个手册来熟悉网站有哪些功能。在此之前,我们也零星收到一些关于网站的使用咨询和功能建议,因次借这次的ImageGP答疑,来给ImageGP正正名,是的,它不是imagp,也不是imap,更不是GPS(此处有个省略50字的悲伤故事)。它是ImageGP — 画个Picture。
昨天我们介绍了在使用GEO数据可能遇到的一些问题(GEO数据库可能遇到的问题)。由于篇幅的关系,还有一些没有说完,今天就把剩下的问题和大家说一下吧。
然而,GSEA中已经包含了GO与KEGG, 而且还有其他丰富的Genesets,所以推荐GSEA
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
工具入口:www.chrislifescience.club:3838/R/AnnoE2
annoPeakR是一个peak注释工具,基于R语言中的shiny包开发出的web应用,网址如下
做完转录组差异表达或者其他的一些分析拿到一些基因名称之后下一步通常是做一些注释,比如GO或者KEGG的注释,注释好以后通常是富集分析。如果是研究比较多的物种,可以直接使用R语言包clusterProfiler做富集分析当然是最好,最后可以很少的代码拿到很漂亮的结果图。但是如果是比较小众的物种,没办法借助clusterProfiler这个R包的话,如何得到和clusterProfiler一样的可视化结果呢?今天的推文介绍一下相关的R语言ggplot2作图代码
DAVID(https://david.ncifcrf.gov/home.jsp)是一个生物信息数据库,整合了生物学数据和分析工具,为大规模的基因或蛋白列表(成百上千个基因ID或者蛋白ID列表)提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。
偶然间发现这个功能强大的软件,说起基因注释分析工具,会立刻想到DAVID。不可否认,DAVID的确能实现基因功能和通路注释等功能。但是毛病也不少,数据更新慢,处理速度慢等。这次就是因为要处理上万个gene,处理速度实在是太慢了,才寻求它法找到这么个好东西。简直秒杀DAVID,堪称傻瓜操作级别。
GSEA & GSVA:以一组基因为单位,来描述是否参与某种功能,直接注释的结果是得到大量的功能节点
前面给大家讲解过GO和KEGG富集分析,以及柱形图和气泡图展示富集分析结果。
当我们得到差异的探针或者差异的甲基化区域之后,通常都会分析这些差异区域对应的基因是否在特定功能上有富集。在ChAMP中,通过champ.GSEA函数来实现功能富集分析。
领取专属 10元无门槛券
手把手带您无忧上云