在进行生物学实验或者生物信息的学习中,都会听说KEGG富集分析,而且该方法在高通量测序分析中已然成为数据分析中必不可少的一环。
KEGG数据库是一个综合性的生物信息数据库,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。它整合了基因组、化学和系统功能信息,旨在从分子水平上理解生物系统的高级功能和实用程序,特别是细胞、生物体和生态系统的功能。
使用KEGG通路的基因列表进行单细胞GSEA GSVA分析的过程,我们需要遵循以下步骤:
前段时间介绍了一个R包 — Pathview。它可以整合表达谱数据并可视化KEGG通路,操作是先自动下载KEGG官网上的通路图,然后整合输入数据对通路图进行再次渲染。从而对KEGG通路图进行一定程度的个性化处理,并且丰富展示信息。
KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。 你需要了解你的分子目前已有哪些研究,跟
摘要总结:本文通过五个案例,介绍了在生物信息学领域如何通过KEGG数据库进行通路分析、基因表达量分析、信号通路富集分析、基因共表达分析以及差异分析等操作。同时,本文还介绍了如何使用GEO数据库进行数据检索和分析,以及使用R语言进行通路富集分析的方法。通过这些操作,可以更好地理解基因调控网络、挖掘潜在的功能模块以及发现新的生物标志物和靶点。
KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其关注的代谢途径有直观全面的了解。
相信大家对GO和KEGG富集分析并不陌生,有时候富集分析会得到很多显著的结果。全部展示,版面不够。但是如果只展示前几个显著的GO条目或者KEGG通路的话,跟自己研究的对象相关的又不在里面。
其实这样的KEGG数据库的12大代谢通路数据挖掘文章很多,其中一个佼佼者是复旦大学邵志敏团队三阴性乳腺癌的代谢组学文章,文献标题是:《Metabolic-Pathway-Based Subtyping of Triple- Negative Breast Cancer Reveals Potential Therapeutic Targets》,其数据挖掘仅仅是一个引子,后续仍然是有大量真实病人自己的代谢组数据做支撑。如下所示,可以看到在the tumor samples versus paired normal samples in the FUSCC cohort. 的差异分析里面,统计学显著(upregulated or downregulated (FDR < 0.05))的失调代谢通路,在 10 metabolic categories 分类展示 :
单个基因水平上能反映的生物学信息有限,很多时候要进行通路富集分析,来从系统水平上反映出一组基因与哪些生物学通路相关。
今天给大家分享的是2020年Biomed Res Int (IF=2.197)上的文章“Exploring the Key Genes and Pathways in the Formation of Corneal Scar Using Bioinformatics Analysis”。在这篇文章中,作者通过分析数据集GSE6676中高表达TGF-β样本和野生型样本,得到差异表达基因,并对DEGs进行GO和KEGG分析,随后构建PPI网络,最后通过cytoHubba筛选核心基因。
GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,无需设定阈值来区分上调下调基因,使用所有的基因进行分析。
相信大家都做过基因的功能富集分析,小编前面也花了不少篇幅给大家介绍GO和KEGG富集分析
KEGG(Kyoto encyclopedia of genes and genomes, )(https://www.kegg.jp/)是系统分析基因功能、 基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。
咱们在上一个课程中进行了GO圈图绘画,但是我富集分析并不只是有GO,kegg通路的富集分析可以看到基因发挥的作用,在生物体中的重要性。
写此文档的缘由:在做GSEA分析时,由于研究的是非模式生物,从Broad Institue开发的MSigDB没有找到合适的预设基因集,没办法顺利进行GSEA. 但是KEGG数据库收录有目标物种。几经折腾,终于跑上了GSEA. 写此文档为其他研究非模式生物的人员提供一点借鉴。
大家好,今天和大家分享的是2020年3月发表在 Medical Science Monitor (IF=1.918) 上的一篇文章:“An Integrated Network Analysis of mRNA and Gene Expression Profiles in Parkinson’s Disease”。作者从GEO数据库中下载了帕金森病患者的相关数据,并进行了差异表达分析、GO和KEGG富集分析、PPI网络构建等生信分析,由此筛选出了普遍差异表达基因。最后作者通过GSE22491表达谱数据集对普遍差异表达基因进行了验证。
基因集富集分析(Gene Set Enrichment Analysis, GSEA)是是一种计算方法,用于确定事先定义的一组基因是否在不同的样品中差异表达。
NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
昨天我们介绍了富集分析的基本的内容:GO分析和KEGG分析都是啥?。但是富集分析还是有很多不同的算法的,对于主要的算法过程其实不用太多了解,这个由专业人士来解决就行。但是对于其输入条件和主要区别还是要了解的,这样能方便我们使用。
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
但是我们直接是对gsea分析结果的最终es值在可视化,所以是行是通路,列是癌症的,数值是gsea的es打分的矩阵。对初学者来说, 跳过了大量细节,所以跟这个教程会比较吃力,有粉丝就提问了希望可以对这些通路在在具体的癌症里面细化展示,比如绘制gsea图,热图和火山图。
在昨天介绍的KEGG数据库当中,我们可以看到,对于基因通路的可视化,最简单的就是通过类似流程图一样的形式来进行可视化的。例如下面的自噬通路图。?的只是对通路进行简单的可视化,但是有时候我们有更多的DI
用过KEGG的朋友应该都很熟悉里面的通路地图。你是否想过如果自己可以控制通路图将自己的基因绘制在一个通路图中,那么今天给大家介绍一个新推出的Bioconductor软件包pathview。这个包可以进行KEGG富集分析。
在做项目分析的时候遇到过一个问题,就是有个老师想将好几张功能富集结果中的柱状图的横坐标的范围全部调整为一样的,一般画这个柱状图都是用Y叔的clusterprofiler包中的barplot函数对使用这个包的功能富集结果进行一键绘图,超级简单方便。但是当我去查找这个函数的调整坐标的参数时:
“大数据”、“组学”、“数据挖掘”是近几年来我们经常听到的词汇,科研工作中也经常用到二代测序,不管送哪家测序公司进行测序或数据分析,结题报告中都会看到一个标准的分析套路:功能富集分析。
Pathview是一个用于整合表达谱数据并用于可视化KEGG通路的一个R包,其会先下载KEGG官网上的通路图,然后整合输入数据对通路图进行再次渲染,从而对KEGG通路图进行一定程度上的个性化处理,并且丰富其信息展示。(KEGG在线数据库使用攻略)
最近看到一个发表在Bioinformatics期刊的R包ggpicrust2,可以对picrust2结果进行可视化。 文章网址:https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btad470/7234609
实际上,GO/KEGG数据库针对的是基因,不需要是表达量上下调的基因,也可以是突变与否的基因。比如下面的表格:
生物信息学研究中,获取基因列表的GO和KEGG富集分析的需求非常常见。目前有许多生物信息学手段或者数据库可以实现基因富集分析,例如DAVID,但它们有些是收费的,有些不易于使用且很少维护。例如DAVID曾经有六年的时间(2010-2016)没有维护数据库,最近的更新也已经两年半了。而Metascape每月更新其相关的40多个数据库,以确保提供最准确的结果。因此Metascape数据库可以作为富集分析的比较好的手段。
pathway 建立在ko 数据库的基础上,基于我们对生命活动中的分子相互作用和化学物质的反应的认识,构建了复杂的调控网络,采用通路图的形式,进行展示。
1写在前面 GSEA大家都会用了,但GSEA也有它自己的缺点,就是不能比较两个基因集或通路的富集情况。🤒 今天介绍一个Differential Gene Set Enrichment Analysis (DGSEA),可以量化两个基因集的相对富集程度。😉 2用到的包 rm(list = ls()) # devtools::install_github('JamesJoly/DGSEA') library(DGSEA) library(tidyverse) library(RCurl) library(GSA
clusterProfiler4.0同步支持最新版GO和KEGG数据,支持数千物种的功能分析,应对不同来源的基因功能注释(如cell markers, COVID-19等)提供了通用的分析方法,适用各类组学数据(RNA-seq, ChIP-seq, Methyl-seq, scRNA-seq…)。新版本尤其实现多组数据间自由比较,如不同条件、处理等,并内置系列流行辅助工具,如数据处理包dplyr、可视化包ggplot2等,方便分析人员用熟悉的方式自由探索,实现数据高效解读。
今天要和大家分享的是2020年6月发表在Multiple sclerosis and related disorders(IF=2.889)杂志上的文章“Identification and functional analysis of specific MS risk miRNAs and their target genes”,作者将相关文献里的miRNA进行了GO分析、KEGG富集分析、PPI网络构建,确定了多发性硬化症(MS)相关的miRNAs及其靶基因,并对其进行了全面评估。为今后发现MS的发病机制和可能的生物标志物的研究提供参考。
富集分析是生物信息分析中快速了解目标基因或目标区域功能倾向性的最重要方法之一。其中代表性的计算方式有两种: 一是基于筛选的差异基因,采用超几何检验判断上调或下调基因在哪些GO或KEGG或其它定义的通路富集。假设背景基因数目为m,背景基因中某一通路pathway中注释的基因有n个;上调基因有k个,上调基因中落于通路pathway的数目为l。简单来讲就是比较l/k是否显著高于n/m,即上调基因中落在通路pathway的比例是否高于背景基因在这一通路的比例。(实际计算时,是算的odds ratio的差异,l/(k
基因集富集分析GSEA(gene-set enrichment analysis)。这个操作并不难,主要就是准备符合GSEA要求的数据文件(本地的话4个),关于文件准备,可细见官方说明。若有时间我稍后整理以前资料,单独成一篇GSEA数据文件准备。我认为最主要的还是GSEA结果解读。 另外,GSEA我们可能更多的用的是它的富集功能,而实际上它还有其他非常好用的功能,看自己怎么活学活用了,具体来说,就我用的多的有以下几个:(欢迎大家补充)
无论是超几何分布检验和GSEA富集分析,都离不开生物学功能数据库,数据库不仅仅是GO/KEGG哦,目前最齐全的应该是属于 MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb 包括H和C1-C7八个系列(Collection),每个系列分别是:
其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,科学家通常是使用来超几何分布检验这个统计学算法做富集分析,即通过比较实际观察到的基因集合(几十个或者几百个)中特定功能或通路的基因数量与随机期望的数量来判断其是否富集。
大家好!今天给大家介绍一篇2022年4月发表在eBioMedicine(IF:8.143)上的一篇文章。作者构建个体化通路活性鉴定方法(IPAM),可以准确进行癌症类型分类并预测癌症患者预后。
它的github地址为:https://github.com/wu-yc/scMetabolism
之前介绍过 scRNA分析|使用AddModuleScore 和 AUcell进行基因集打分,然后可视化目标基因集合的打分 ,这里介绍scMetabolism包-整合了多个可以完成细胞代谢相关通路评估方法的R包。
看到了一个生物信息学数据挖掘,标题是:《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》,通过大量的数据分析拿到了11个FRDEGs基因列表,然后去对这11个基因进行“屎上雕花”,它们分别是: (ALOX5, CCL5, FHL2, G0S2,IGKC,KRT19,LCN2,LTF,PRKCB,RRM2,TUBA1A) ,比如下面的go数据库的注释结果,就使用了4种展示策略 :
作者在2020年七月发表在Medicine(IF=1.552)上的“Identification of key genes in calcific aortic valve disease by integrated bioinformatics analysis”,研究的疾病同样也是CAVD,文章所采用的三个数据集中,有两个正是本文(等会小编解读的这篇文章)所用数据集,两篇文章的思路大致一致,作者也来自同一单位!虽然在可视化上面作图不是用的同一套分析,但是这样的“风险规避”也太666了吧!
我们直奔主题,今天给大家介绍下利用R语言去下载KEGG数据库的所有数据。这里需要用到的包是KEGGREST。首先看下包的安装以及所需要的相关包:
转录组和代谢组是生物学研究中常用的两种高通量技术。转录组主要用于探究不同处理下基因的表达变化,但是难以确定关键途径,也无法鉴定控制关键途径的结构。代谢组作为生命活动最终的体现者,可以将机体表型上的微小变化指数放大,因此利用代谢组可反映表型的状态变化。但是单独代谢组检测,无法解释影响表型的基因机理。代谢组与转录组的关联分析可在一定程度上克服上述单一组学研究的局限性,从而在代谢通路上更好地解释转录调控机制。
我们一直以来都是给大家前面的两个方案,就是一定要先根据表达量矩阵做不同分组的差异,而且两者的结果一致性都还不错。但是前面的两个方案都会手动一个批次效应的影响,如果大家没有把握好其中的批次效应的去除,很容易在差异分析阶段就不小心引入了错误。
前几天一个小伙伴问:怎么查看一个基因和某一个通路之间的相关性。这里就简单的提供一个可能的解决办法,供有相同需求的小伙伴参考。
今天给大家带来的是2020年3月发表在Annals of Translational Medicine(IF=3.297)杂志上的文章“Identification of key candidate genes and pathways revealing the protective effect of liraglutide on diabetic cardiac muscle by integrated bioinformatics analysis”。这篇文章通过简单的生信分析对经利拉鲁肽治疗的小鼠心肌进行DEGs筛选、功能富集分析并鉴定hub基因,最后选择了MRAS/MAPK信号通路进行实验验证,探究了利拉鲁肽对糖尿病心肌病的保护作用机制。
领取专属 10元无门槛券
手把手带您无忧上云