Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >4个基因如何做go和kegg数据库注释

4个基因如何做go和kegg数据库注释

作者头像
生信技能树
发布于 2022-06-08 12:15:29
发布于 2022-06-08 12:15:29
82400
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

看到公众号后台有人这样提问:4个基因如何做go和kegg数据库注释!

我觉得这样的问题蛮好玩,说明初学者很容易被各种各样的高大上的数据分析项目给误导,以为go和kegg数据库注释是什么了不得的高级分析,或者说不知道为什么要做,也不知道它可以解决什么问题,仅仅是想搞一下高大上的图表而已。

其实4个基因,真正应该做的是,一个个搜索学习它,把基因的功能融会贯通,而不是各式各样的花式数据分析和可视化技巧。就4个基因,背诵它的功能也不是什么难事!

不过,言归正传,既然大家问了,我们还是代码简单演示一下,不然显得我们不专业了。首先,我们假设这4个基因是 'TP53','BRCA1','KRAS','NRAS' ,大家也可以修改为自己感兴趣的基因。代码如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(ggplot2)
library(clusterProfiler)
your_genes=c('TP53','BRCA1','KRAS','NRAS');your_genes
your_genes = bitr(your_genes,'SYMBOL','ENTREZID','org.Hs.eg.db')[,2];your_genes
your_kk <- enrichKEGG(gene         =  your_genes,
                    organism     = 'hsa', 
                    pvalueCutoff = 0.9,
                    qvalueCutoff =0.9)
head(your_kk)[,1:6] 
dotplot(your_kk)
kk=DOSE::setReadable(your_kk, OrgDb='org.Hs.eg.db',keyType='ENTREZID')

tmp = kk@result
write.csv( tmp ,paste0(pro,'_kk.csv'))

确实是可以出结果:

kegg富集分析结果

其实你可以看到,我们选择的这4个基因是 'TP53','BRCA1','KRAS','NRAS' ,就是肿瘤相关的,所以它的kegg注释结果肯定是肿瘤通路无疑,这样的注释都并不需要你做一下kegg的,但凡是你背诵了这些基因的功能,少于10个基因其实人工整理更可靠。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
或许怎么做都对呢?
我看了看图例:(C) Gene Ontology (GO) enrichment analysis for differentially expressed genes in TRM-like versus recirculating CD8+ TILs from the same tumors.
生信技能树
2022/07/26
4700
或许怎么做都对呢?
seurat单细胞数据处理小技巧
当有几类亚群同属于某类细胞时,比如CD4+ T细胞和CD8+ T细胞均属于T细胞,想要将他们合并在一起时,可以使用此代码。
青青青山
2022/06/30
7.5K0
seurat单细胞数据处理小技巧
单细胞功能注释和富集分析(GO、KEGG、GSEA)(2021公开课配套笔记)
在前面几节我们已经知道各个细胞亚群的maerker基因,接下来我们对这些marker基因进行功能注释和富集分析。
生信技能树
2021/07/06
18.8K1
从基因名到GO注释一步到位
这样分析起来就很麻烦,尤其是GO数据库,还有 BP,CC,MF的区别,这个时候推荐使用Y叔的神器,使用
生信技能树
2020/04/14
1.7K0
从基因名到GO注释一步到位
上下调基因各自独立进行GO数据库的3分类富集(求美图代码)
我们通常呢,挑选差异基因,会选择那些log2FC比较大而且具有统计学显著性的上下调基因,不过加上MA图,就可以进一步挑选那些表达量也比较高的,因为这样的基因呢,容易去实验验证。而且呢,通常情况下常识会告诉我们高表达量基因更容易发挥作用。
生信技能树
2021/07/29
5.1K0
R|clusterProfiler-富集分析
简单总结clusterProfiler包进行GO、KEGG的富集分析方法,结果输出及内置的图形展示。
生信补给站
2020/08/06
2.2K0
什么时候P值大于0.05也无所谓呢
实际上,GO/KEGG数据库针对的是基因,不需要是表达量上下调的基因,也可以是突变与否的基因。比如下面的表格:
生信技能树
2020/06/09
9910
KEGG数据库倒闭了吗
然后就找我,以为是我们的标准代码有问题,实际上我的 run_kegg 函数仅仅是包装了 Y叔的 clusterProfiler包而已 ,实际上里面没有啥玄机,如下所示:
生信技能树
2022/06/27
2.6K2
KEGG数据库倒闭了吗
GO、GSEA富集分析一网打进
富集分析是生物信息分析中快速了解目标基因或目标区域功能倾向性的最重要方法之一。其中代表性的计算方式有两种: 一是基于筛选的差异基因,采用超几何检验判断上调或下调基因在哪些GO或KEGG或其它定义的通路富集。假设背景基因数目为m,背景基因中某一通路pathway中注释的基因有n个;上调基因有k个,上调基因中落于通路pathway的数目为l。简单来讲就是比较l/k是否显著高于n/m,即上调基因中落在通路pathway的比例是否高于背景基因在这一通路的比例。(实际计算时,是算的odds ratio的差异,l/(k
生信宝典
2018/02/05
4.5K0
GO、GSEA富集分析一网打进
既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析
就是一篇文章并没有使用TCGA数据库的指定癌症的生存信息去看自己感兴趣的基因的生存效应,反而舍近求远去下载BMC Cancer. 2011 文章数据,所以我怀疑TCGA应该是该基因在该癌症里面的生存效果不显著!
生信技能树
2020/02/20
1.5K0
假如审稿人让你把单细胞数据挖掘代码上传到github
而且不得不说,github在生物信息学领域的重要性,之前我们介绍过代码海洋,详见:《代码海洋-你想模仿的这里都有啊》,也有专门的github收集整理的更加齐全,而且还分门别类整理好了,详见:https://github.com/genecell/single-cell-papers-with-code
生信技能树jimmy
2023/08/31
3420
假如审稿人让你把单细胞数据挖掘代码上传到github
使用pathview增强你的KEGG数据库注释结果的可视化
其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,科学家通常是使用来超几何分布检验这个统计学算法做富集分析,即通过比较实际观察到的基因集合(几十个或者几百个)中特定功能或通路的基因数量与随机期望的数量来判断其是否富集。
生信技能树
2023/12/13
7760
使用pathview增强你的KEGG数据库注释结果的可视化
基因功能富集分析-R语言
BgRation:所有background基因中与该Term相关的基因数与所有background基因的比值
oriRNA
2018/03/17
5.8K6
KEGG中的颜色映射—使用原始P值
使用clusterProfiler进行KEGG分析时,在进行可视化的时候,如barplot函数、dotplot函数默认显示的是调整后的P值,但如果调整后的P值太拿不出手,怎么使用原始的P值呢?
sheldor没耳朵
2025/01/06
4300
KEGG中的颜色映射—使用原始P值
可视化—KEGG富集图中如何展示特定的通路
如果我们要展示特定通路,需要提前筛选,如我只关注炎症和免疫反应相关的通路(查资料且保证原始k k@result中有对应通路)。
sheldor没耳朵
2024/11/01
7433
可视化—KEGG富集图中如何展示特定的通路
转录组GSE105789_小鼠数据下游分析注意事项
简单记录下GSE105789小鼠数据的下游分析的主要事项,与human的数据分析的主要区别是在进行id转换、kegg、go、gsea时,需要注意数据库和物种信息,应该选择小鼠。
sheldor没耳朵
2024/08/21
2450
转录组GSE105789_小鼠数据下游分析注意事项
数据挖掘—KEGG/GO分析中的富集因子、P值等概念理解
clusterProfiler 的结果表中没有直接显示富集因子enrichmentFactor,但是可以自己计算。首先还是辨析下,bgRatio(背景比例)、geneRatio(基因比例)和富集因子三个不同的指标
sheldor没耳朵
2025/05/07
7170
数据挖掘—KEGG/GO分析中的富集因子、P值等概念理解
上下调基因分开注释就应该有生物学功能的重叠
之所以有这样的一个作业,其实是因为这里面又蕴涵着另外一个大家很容易弄错的知识点,就是如何理解生物学功能的上下调问题,文章里面的EMT通路的GSEA如下所示 :
生信技能树
2024/12/19
1750
上下调基因分开注释就应该有生物学功能的重叠
指定通路绘制gsea图热图和火山图
但是我们直接是对gsea分析结果的最终es值在可视化,所以是行是通路,列是癌症的,数值是gsea的es打分的矩阵。对初学者来说, 跳过了大量细节,所以跟这个教程会比较吃力,有粉丝就提问了希望可以对这些通路在在具体的癌症里面细化展示,比如绘制gsea图,热图和火山图。
生信技能树
2022/07/26
2.5K0
指定通路绘制gsea图热图和火山图
单细胞各个亚群特异性高表达基因的数据库注释(包括GO,KEGG,ReactomePA)
拿到了一个单细胞表达量矩阵,默认需要进行: 单细胞聚类分群注释 ,如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
生信技能树
2022/12/16
1.4K0
单细胞各个亚群特异性高表达基因的数据库注释(包括GO,KEGG,ReactomePA)
推荐阅读
相关推荐
或许怎么做都对呢?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验