Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言基础-Day10

R语言基础-Day10

原创
作者头像
用户11008504
发布于 2024-05-09 09:51:53
发布于 2024-05-09 09:51:53
1640
举报

探针注释

一个探针对应多个基因--非特异性探针:去除

探针注释:多个探针对应一个基因

1.随机去重

2.保留行和/行平均值最大的探针

3.取多个探针的平均值

富集分析

输入数据:差异基因的entrezid

SYMBOL:常说的基因名

ENTREZID:富集分析指定用

两者并非一一对应,损失/增加部分基因属于正常

富集分析-KEGG数据库

KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组 信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究,以“理解生物系统的高级功能和实用程序资源库”著称。

富集分析-GO数据库

基因本体(Gene ontology,Go)是一个在生物信息学领域中广泛使用的本体。1998 年由研究三种模式(吴蝇、小鼠和酵母)基因组的研究者共同发起组织了一个称为基因本体联盟的专业团队。创建基因本体的初衷是希望提供一个可具代表性的规范化的基因和基因产物特性的术语指绘或词义解释的工作平台 。现在已包含数十个动物、植物、 微生物的数据库。基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个 方面:

细胞组分(cellular component):细胞的每个部分和细胞外环境。

可以描述为分子水平的活性,如催化或结合活性分子功能(molecular function):

生物过程(biological process): 生物过程系指由一个或多个分子功能有序组合而产生的系列事件。其定义有广义和狭义之分,在词义上可以区分为泛指和特指。一般规律 是,一个过程是由多个不同的步骎组成。

通过将差异基因做 G0 富集分析,可以把基因按照不同的功能进行归类,达到对基 因进行注释和分类的目的。

富集结果解释:衡量每个通路里的基因在差异基因里是否足够多

富集结果含义
富集结果含义

富集不到的补救秘籍

1.调整10gFC、pvalue阈值,以改动差异基因数量

2.不使用默认的padi(富集的),而是用原始p值,在文章里说清楚即可。

3.换富集方法,GSEA也可以做kegg富集

4.调参数maxGsSize=500,默认参数,表示500个基因以上的通路不考虑,可以调大至5000

复杂数据及其分析

多分组数据:一个对照组,2+实验组

  1. 两两差异分析
  2. 向量取子集
  3. 矩阵取子集多数据联合分析分别分析:各自差异分析,差异基因取交集 先合并,后差异分析: 原则上选择来自同一芯片平台的GSE 不要选择一个全是处理组,一个全是对照组的数据去合并 要处理批次效应 Batch effect加权共表达网络WGCNAWGCNA找到与表型最相关的一组基因蛋白互作网络网页工具string输入:差异基因 输出:一个ppi图,可以导出数据放入cytoscape进行网络可视化寻找hub基因 -插件cytohHubba 子网络,插件Mcode

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释、通路表征以及基因间关系 | Nat.Methods
◉ 最初,蛋白质相互作用网络、KNN图和基因表达数据被输入到双视图编码器(虚线部分)。◉ 随后,使用图注意力层来提取细胞和基因的潜在表示。◉ 接着,内积解码器用于重建网络连接,而全连接层负责重建基因表达。◉ 然后,KNN图通过使用注意力系数进行修剪,以优化模型性能。
生信菜鸟团
2025/04/11
1160
scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释、通路表征以及基因间关系 | Nat.Methods
糖尿病视网膜病变患者的长非编码RNA的鉴定
标题:转录组分析鉴定 到新的3-lncRNA关于 糖尿病视网膜病中 转甲状腺素 减弱葡萄糖诱导人视网膜内皮细胞功能障碍 的调控网络
生信技能树
2021/07/06
5750
富集分析-KEGG/GO
是系统分析基因功能、基因组 信息数据库,它有助于研究者把基因及表达信息作为一个整体 网络进行研究,以“理解生物系统的高级功能和实用程序资源库”著称。
用户10412487
2023/03/28
2.7K0
7.5分纯生信, so easy!看完我也能做!
今天给大家带来的是篇非肿瘤纯生信文章,2022年发表在Front Immunnol上。文章思路清晰,整体上就是基于差异表达分析、WGCNA 和 Lasso 回归挖掘疾病相关的hub基因,然后对差异基因进行GO、KEGG 和GSEA分析。然后ssGSEA分析表达谱中 28 个免疫细胞的浸润水平及其与中枢基因标记的关系。最后使用ROC曲线评估了hub基因在疾病中的诊断价值。一气呵成,确定了参与疾病进展的关键生物标志物和免疫相关途径及其与免疫细胞浸润的关系。看完直呼我也能做!
用户6317549
2022/04/09
1.5K0
7.5分纯生信, so easy!看完我也能做!
临床样本组学研究Day2--RNA 及转录组学研究(mRNA )
我们所熟知的传统的转录组学研究,就是表达谱组学研究,研究对象是可编码蛋白质的mRNA。
用户6317549
2022/02/28
8620
临床样本组学研究Day2--RNA 及转录组学研究(mRNA )
长读长单分子实时测序揭示食管鳞状细胞转录组的异质性和复杂性
果然,坚持真的好难,我现在都想不通我是如何坚持七八年每日写笔记做分享,积累着1.3万篇教程的?
生信技能树
2020/09/22
8250
为什么选择GSEA分析?和KEGG和GO分析有什么区别?
但是,一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
DoubleHelix
2020/06/17
25.5K1
一文厘清富集分析:GroupGO、enrichGO、gseGO、enrichKEGG、gseKEGG、enrichMKEGG
生物学研究中,我们常常面对成百上千的基因数据,例如转录组或蛋白质组数据。在基因差异表达分析之后,你得到了差异基因,可能几个到上百个不等,单纯分析单个基因的意义有限,而从庞大的基因关系网络中提取有效信息也十分耗时。
生信菜鸟团
2025/04/06
4770
一文厘清富集分析:GroupGO、enrichGO、gseGO、enrichKEGG、gseKEGG、enrichMKEGG
8+非肿瘤生信分析!快来学习吧~
多发性硬化症(MS)是一种由自身免疫介导的中枢神经系统(CNS)脱髓鞘疾病。MS的诊断和预后尚无客观的临床指标。细胞外蛋白糖基化程度最高,可能会进入体液作为潜在的生物标志物。
作图丫
2022/12/14
8730
8+非肿瘤生信分析!快来学习吧~
转录组测序数据分析的基础和进阶
可变剪切(Alternative Splicing)、转录本组装(Transcript Assembly)和RNA编辑(RNA Editing)都属于转录组测序数据的高级分析。
生信技能树jimmy
2023/08/31
7020
转录组测序数据分析的基础和进阶
R语言学习笔记-Day09
#Fix cell sizes and save to file with correct size
用户11190095
2024/07/17
1530
GEO数据挖掘
箱线图:单个基因在组之间的表达量差异,必须知道每个组是对照组还是实验组。R语言中同一个分组对应一个关键词,比如对照组不能写成对照1,对照2,这样就不能把对照归为一类。
浅念
2023/03/27
1.3K0
一文解决TCGA任意肿瘤的差异lncRNA,miRNA,mRNA
首先对TCGA的RNA表达预处理,筛选掉其中的低表达基因(count<10)进行预处理。根据GENCODE Release 29(GRCh38.p12)(https://www.gencodegenes.org/human/)注释mRNA和lncRNA。 而miRNA是基于miRbase v22数据库(http://www.mirbase.org/index.shtml#opennewwindow)进行注释。
用户1359560
2019/07/10
6.4K0
一文解决TCGA任意肿瘤的差异lncRNA,miRNA,mRNA
简单生信结合少量实验3+分模板
今天给大家带来的是2020年3月发表在Annals of Translational Medicine(IF=3.297)杂志上的文章“Identification of key candidate genes and pathways revealing the protective effect of liraglutide on diabetic cardiac muscle by integrated bioinformatics analysis”。这篇文章通过简单的生信分析对经利拉鲁肽治疗的小鼠心肌进行DEGs筛选、功能富集分析并鉴定hub基因,最后选择了MRAS/MAPK信号通路进行实验验证,探究了利拉鲁肽对糖尿病心肌病的保护作用机制。
科研菌
2020/12/08
6950
简单生信结合少量实验3+分模板
生信马拉松 Day8 GEO数据分析课程笔记
广义的基因有6w+个,包括lncRNA、miRNA等等,每年可能都有个别基因增增减减的情况,累计在一起,就存在基因库版本的差异,10年前查到的和今年的可能不一样,所以旧的数据仍然可以有新的解释,同一个数据集也可以在和其他数据集用不同的思路分析
阿呆的月历
2024/01/25
4280
2020年纯网页工具发生信论文是什么体验?
今天给大家分享的是2020年Biomed Res Int (IF=2.197)上的文章“Exploring the Key Genes and Pathways in the Formation of Corneal Scar Using Bioinformatics Analysis”。在这篇文章中,作者通过分析数据集GSE6676中高表达TGF-β样本和野生型样本,得到差异表达基因,并对DEGs进行GO和KEGG分析,随后构建PPI网络,最后通过cytoHubba筛选核心基因。
科研菌
2020/06/29
4430
PNAS:整合抑郁症的分子、细胞和皮层神经影像特征
抑郁症产生于生物系统的复杂相互作用,跨越基因和分子到细胞、脑网络和行为。为了确定不同的神经生物学过程是如何联合起来导致抑郁症的,我们需要一种多尺度的方法,包括对大脑结构和功能的测量,以及遗传和细胞特异性的转录数据。在这里,我们研究了三个群组影像数据集中与抑郁和负性情绪相关的大脑解剖(皮层厚度)和功能(功能变异、全脑功能连接),包括:英国生物银行(UK Biobank)、大脑基因组超结构项目(Brain Genomics Superstruct Project)和Meta分析增强神经影像数据库(ENIGMA;总被试数n≥23,723)。整合的分析包括皮层基因表达、死后患者转录数据、抑郁症全基因组关联分析(GWAS)和单细胞基因转录。在这三个独立的数据集中,抑郁和负面情绪的神经影像相关物是一致的。将体外基因下调与体内神经影像联系起来,我们发现抑郁症影像表型的转录组相关物追踪了抑郁症患者死后皮层样本中的基因下调。对单细胞和Allen人脑图谱表达数据的综合分析显示,抑郁症体内影像和体外皮层基因失调的细胞相关物是生长抑素(SST)中间神经元和星形胶质细胞。GWAS驱动的抑郁症多基因风险富集在中间神经元的表达基因,而不是胶质细胞,这为我们的观察提供了一致的证据。为了强调多尺度方法的转化潜力,与抑郁症相关的大脑功能和结构的转录相关物富集于抑郁症相关的分子通路。这些发现将特定的基因、细胞类别和生物学通路与抑郁症的体内神经影像表型联系了起来。
悦影科技
2022/07/11
1K0
一篇多芯片生信分析(meta)
以往的研究表明,miR-144-3p可能是非小细胞肺癌(NSCLC)的潜在生物标志物。然而,miR-144-3p对NSCLC起源,分化和凋亡的影响以及miR-144-3p与临床参数之间关系的综合机制很少有报道。
用户1359560
2019/05/08
2.7K0
一篇多芯片生信分析(meta)
生信编程直播第七题:写超几何分布检验!
下载数据 切换到工作目录:cd d/生信技能树-视频直播/第七讲 kegg2gene(第六讲kegg数据解析结果) 暂时不用新的kegg注释数据为了能够统一答案 差异基因list和背景基因list 收
生信技能树
2018/03/08
2.8K0
生信编程直播第七题:写超几何分布检验!
如何让你的kegg注释结果图分门别类
KEGG数据库是一个综合性的生物信息数据库,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。它整合了基因组、化学和系统功能信息,旨在从分子水平上理解生物系统的高级功能和实用程序,特别是细胞、生物体和生态系统的功能。
生信技能树
2024/05/09
5150
如何让你的kegg注释结果图分门别类
推荐阅读
相关推荐
scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释、通路表征以及基因间关系 | Nat.Methods
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档