Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >拥有这个R包,只需三步帮你找到差异表达基因

拥有这个R包,只需三步帮你找到差异表达基因

作者头像
百味科研芝士
发布于 2020-06-24 10:02:37
发布于 2020-06-24 10:02:37
3.6K0
举报
文章被收录于专栏:百味科研芝士百味科研芝士

目前,利用大量的微阵列或RNA-Seq技术来探索不同条件(例如治疗或疾病)之间基因表达的差异是研究疾病的最简单方法。但是,如何快速的从测序得到的“海量”的基因集群中发现差异表达的基因(DEGs)仍然是一项非常重要的任务。

高通量测序可以从相对较少的样本中得到大量的基因表达结果,为了识别DEGs列表,微阵列显著性分析(SAM)采用modified t检验,引入一个因子来最小化基因变异的影响。limma包也提供了一种完整的分析基因表达的方法。今天为大家推荐另一种基因表达分析方法,即ORdensity(https://github.com/rsait/ORdensity)。

ORdensity通过返回三个邻近假阳性异常值(outlier)和密度(density)相关的测量值(OR、FP和dFP),可以以较高的分类精度识别出DEGs(引用)。OR是用来识别DEGs的索引,FP是计算得到的K-近邻假阳性(positives in a neighbourhood),而dFP是排列抽样得到的K-近邻假阳性的密度(density of false positives in a neighbourhood)。随后根据这些指标对潜在DEGs进行聚类,来区分mean FP和dFP中得分排列情况相似的假阳性基因与差异表达基因。

相较于其他分析方法,ORdensity可以通过并行计算来大量节省分析时间,分析结果鲁棒性更好。同时ORdensity使用方法极为简便,仅仅通过输入数据、创建对象和提取DEGs三步即可完成差异基因的分析。下面就给大家简单介绍一下使用方法吧。

1

安装ORdensity

首先,使用devtools工具从github下载安装ORdensity包,随后加载。

ORdensity依赖cluster包,并使用foreach进行并行运算。

2

导入数据

我们使用simexpr包的基因集数据进行演示,数据是在1000个基因集中模拟100个差异表达基因,包含62个变量的1000个观察值。数据框每行对应一个基因,并包含DEgen、gap、30个阳性病例和30个阴性病例的基因表达值。差异表达基因的DEgen为1,非差异表达基因的DEgen为0.

3

创建对象及分析

创建ORdensity分析基因集的S4对象(parallel命令为并行处理,nprocs设置计算机进程数,seed设置随机数种子,使结果具有重复性):

ORdensity计算速度很快,等待一分钟左右即可。接下来通过summary命令对生成的对象进行概括描述:

ORdensity发现,最佳数据聚类有2个聚类。同时,summary结果告诉我们数据的估计最优聚类,每个聚类中的基因数量,以及它们的名称。根据OR统计量的平均值,按递减顺序对聚类进行排序。我们发现第一个基因簇的平均值(61.8986)高于第二个簇的平均值(10.510895),这意味着第一个簇更有可能由真差异表达基因组成,而第二个簇更有可能由假阳性基因组成。而对于其他的集群很可能是假阴性。

4

提取差异基因

如果我们想通过ORdensity提取检测到的差异表达基因,可以使用findDEgenes命令汇总找到的基因簇的列表、每个基因相对应的OR统计值,以及一个指示该基因是否满足选择要求的指标。可以进行两种类型的差异表达基因选择:

ORdensity strong selection: 取表达量较大且FP和dFP均为0的差异表达基因;

ORdensity relaxed selection: 取OR值较大以及FP、dFP值较小的基因作为差异表达基因。

该工具使用PAM聚类过程,目的是区分那些高OR得分、低meanFP和density的假阳性,与通过boostrapping获得假阳性的方法相似。

结果表明,最佳聚类仅由两个聚类组成

根据经验,预期的差异表达基因会显示高OR值,以及低meanFP值和密度值。我们还可以分析每个基因簇中的单个基因,并通过聚类的方法区分假阳性。

"Strong"和"Relaxed"显示被鉴定为差异表达的基因(DE),S代表strong selection (FP=0) ,F代表relaxed selection (FP < expectedFalsePositives) 。

5

图形绘制

我们可以通过plot命令简单绘制一个基于OR(垂直轴),FP(水平轴)和dFP(圆的大小与其值成反比)表示潜在差异表达基因的图。满足relaxed selection的差异基因用三角形绘制:

默认情况下,是ORdensity方法计算选择的最优集群数,可以使用k来指定其他数量的集群值。

ORdensity还提供了k值对轮廓测度(silhouette measure)的曲线图:

图中轮廓系数(silhouette)越接近1,则代表聚类结果越合理。

微阵列/转录组数据中的一个重要问题是如何从数千个基因中选择少量但可能是疾病关键因素的差异表达(DE)基因。如果对每个基因进行单独分析,则有许多假设需要检验,而使用多重比较校正方法,会最终导致cutoff太小。

此外, DEGs的选择还需要具有可重现性。ORdensity通过检测异常值来获得DE基因的可重现选择,可以从大量基因(< 20,000)的数据集中准确识别DEGs。同时ORdensity的分析方法更为创新,有助于识别用其他技术(如limma等)检测不到的有趣基因,同时避免了单基因识别的一些缺点,计算结果更为稳定。核心功能“findDEgenes”提供了三种与邻近离群值和错误率相关的度量,即索引OR以及FP和dFP。

同时“ preclusteredData”和“ plot”有助于用户更好的探索和理解分析结果。ORdensity简单易懂,具有较强的鲁棒性,适用于差异表达基因的识别。此外,ORdensity还允许用户修改分位数的权重、更改集群方法和集群数量、设置随机种子来保证数据的准确性和可重复性。文章“ORdensity: user-friendly R package to identify differentially expressed genes.”于2020年4月份发表在BMC Bioinformatics上,内容有详细的算法及用法的介绍,同时利用该方法进行DEGs分析的研究已经多有发表(见附[1-3])。大家不妨来学习体验一下吧。

附:

[1] A Ghosh, A Som. RNA-Seq analysis reveals pluripotency-associated genes and their interaction networks in human embryonic stem cells. Computational Biology and Chemistry, 2020.

[2] F Ramzan, RF D'Souza, BR Durainayagam, et al. Inflexibility of the plasma miRNA response following a high-carbohydrate meal in overweight insulin-resistant women. Genes & nutrition, 2020.

[3] O Shetta, M Niranjan. Robust subspace methods for outlier detection in genomic data circumvents the curse of dimensionality. Royal Society open science, 2020.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
差异共表达网络-Co-expression networks
第一步,基于每对基因间的相关性或相互信息定义每2个基因之间的个体关系。这些关系描述了所有样本中基因对表达模式之间的相似性。不同的相关性方法已经被用了构建网络,包括皮尔逊或斯皮尔曼相关系数。可选择的,最小绝对误差回归或贝叶斯方法也可以用来构建共表达网络。后2个有个附加优势,因为他们可以用来鉴定随机联系,这已经在其他地方描述。对于其它相似性方法的讨论,请参考参考文献30。很多这种相似性矩阵也可以用了构建PPI网络,已经用癌症数据进行比较了,ref31。 第二步,共表达相关性用了构建网络,每个node代表一个gene,每条边代表共表达关系的强度。下面fig1。 第三步,使用其中一种可行的聚类方法鉴定modules(共表达基因groups)。共表达分析的聚类用来把所有样本中相似genes归组,产生共表达基因group而不是仅仅共表达基因对。这种聚类方法在选择的时候需要考虑,因为这会严重影响结果,和分析的意义。许多聚类方法是可行的,包括k-means聚类和等级聚类,这在ref33中。Modules然后可以被功能富集分析解释,这是一种鉴定排序在一个genes list中overrepresented功能范畴的方法。
Y大宽
2018/09/10
4.7K0
差异共表达网络-Co-expression networks
生信代码:差异分析(TCGAbiolinks包)
引言:上一期(这里可到达上一期)我们利用得到的肝癌的数据,进行了预处理,得到了最终的表达矩阵TCGA_LIHC_final.csv,今天我们的主要任务就是进行差异表达分析。此外,还会顺带讲两个进行富集分析和聚类分析的函数。
科研菌
2021/01/12
2.9K0
生信代码:差异分析(TCGAbiolinks包)
Conquer-对单细胞数据差异表达分析的重新审视
随着单细胞测序技术的流行,我们对复杂疾病和性状的理解从patient,tissue的表达谱(bulk RNA-seq)到单个细胞的表达谱(single cell RNA-seq)。究其原因,在于bulk RNA-seq产生的是一个细胞群体的平均读数,而细胞,特别是癌细胞存在极大的异质性,这些平均信号可能不足以反应这堆组织的真实信息。Prof Aviv Regev (MIT教授,HHMI研究院,人类细胞图谱计划项目co-chair)曾经形容这种方法就像水果沙拉,颜色和味道都能提示冰沙的成分,但倘若只有几个是属于蓝莓的味道,那么很容易就被一堆草莓的味道所覆盖(如下图)。因而在细胞尺度上进行大规模的测序分析以对细胞进行重新分型是很有必要的。
生信技能树
2018/09/21
2.3K0
Conquer-对单细胞数据差异表达分析的重新审视
容易复现!铁死亡+免疫相关亚型分析轻松可发7+!
最近,在肺腺癌(LUAD)中发现了几种具有不同预后的分子亚型。然而,在 LUAD 中,铁死亡分子亚型的特征和相关的肿瘤微环境 (TME) 细胞浸润尚未得到充分研究。
作图丫
2022/12/14
4830
容易复现!铁死亡+免疫相关亚型分析轻松可发7+!
同一科室一批数据一套分析发2遍?
作者在2020年七月发表在Medicine(IF=1.552)上的“Identification of key genes in calcific aortic valve disease by integrated bioinformatics analysis”,研究的疾病同样也是CAVD,文章所采用的三个数据集中,有两个正是本文(等会小编解读的这篇文章)所用数据集,两篇文章的思路大致一致,作者也来自同一单位!虽然在可视化上面作图不是用的同一套分析,但是这样的“风险规避”也太666了吧!
科研菌
2020/11/23
6610
同一科室一批数据一套分析发2遍?
文献翻译A 15-gene signature for prediction of colon cancer recurrence and prognosis based on SVM(1)Abstr
从Gene Expression Omnibus数据中收集5个结肠癌样本微阵列数据和癌症基因组图谱(TCGA)。在预处理之后,GSE17537中的数据是使用用于微阵列数据的线性模型(LIMMA)方法鉴定差异表达基因(DEGs)。 DEG进一步进行了基于PPI网络的社区评分和支持向量机(SVM)。然后使用SVM和Cox回归分析通过四个数据集GSE38832,GSE17538,GSE28814和TCGA验证。
用户1359560
2018/08/27
5930
单细胞测序—拟时序分析综合
拟时序分析(Pseudotime Analysis)在单细胞测序(Single-cell RNA-seq)中是一个重要的分析步骤,主要用于研究细胞在发育过程或其他生物学过程中所经历的状态变化。与传统的时间序列不同,拟时序分析不依赖于实际的时间信息,而是通过单细胞转录组数据来推测出细胞状态的动态变化轨迹。以下是进行拟时序分析的几个主要原因:
sheldor没耳朵
2024/08/30
1K0
单细胞测序—拟时序分析综合
7.5分纯生信, so easy!看完我也能做!
今天给大家带来的是篇非肿瘤纯生信文章,2022年发表在Front Immunnol上。文章思路清晰,整体上就是基于差异表达分析、WGCNA 和 Lasso 回归挖掘疾病相关的hub基因,然后对差异基因进行GO、KEGG 和GSEA分析。然后ssGSEA分析表达谱中 28 个免疫细胞的浸润水平及其与中枢基因标记的关系。最后使用ROC曲线评估了hub基因在疾病中的诊断价值。一气呵成,确定了参与疾病进展的关键生物标志物和免疫相关途径及其与免疫细胞浸润的关系。看完直呼我也能做!
用户6317549
2022/04/09
1.5K0
7.5分纯生信, so easy!看完我也能做!
基因芯片数据挖掘分析表达差异基因
基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列。据此可重组出靶核酸的序列。
DoubleHelix
2019/08/07
3.2K0
基因芯片数据挖掘分析表达差异基因
【生信文献200篇】02 用米氏方程解决单细胞转录组dropout现象
本次要介绍的这篇文章提出了一个算法,被包装到了R包,是:M3Drop , 文章最开始 2017年发表在bioRxiv,后来(2019)发表在Bioinformatics。
生信菜鸟团
2021/01/05
1.8K0
如何筛选基因加上简单分析就能3+分?
大家好, 今天和大家分享的是 2020 年 4 月发表在DNA Cell Biol(IF:3.191)上的一篇文章,“Identification of Genes Related to Clinicopathological Characteristics and Prognosis of Patients with Colorectal Cancer”。作者通过筛选差异基因及基因富集分析,并通过分析DEGs与CRC临床病理特征相关性,构建了预后模型。
科研菌
2020/08/20
9010
如何筛选基因加上简单分析就能3+分?
专注于Agilent microRNA 芯片数据的处理R包-AgiMicroRna
R包作者:Pedro Lopez-Romero 最后一次更新:October 27,2020
生信技能树
2021/10/12
2.5K0
用米氏方程解决单细胞转录组dropout现象
不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了五个小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,包括5个栏目:
生信技能树jimmy
2020/03/27
1.6K0
找肿瘤的差异基因,你选对了对照吗?
这里推荐大家看加州大学旧金山分校的研究团队在2017的发表在《Nature Communications》期刊上的文章,标题是“Comprehensive analysis of normal adjacent to tumor transcriptomes”, 发现在每个癌症里面,通过t-SNE(t-distributed Stochastic Neighbor Embedding)技术展示了不同组织类型的转录组数据的降维结果。肿瘤旁边组织(即癌旁组织,Normal Adjacent to Tumor, NAT)在健康样本和肿瘤样本之间形成了一个独特的中间状态。 而且发现使用癌旁或者正常组织做对照, 差异分析结果其实是有很大区别!
生信技能树
2024/12/19
2270
找肿瘤的差异基因,你选对了对照吗?
单细胞测序—标准流程代码(3)—marker 基因富集分析_差异基因
过了很久之后才想起来继续整理单细胞测序的标准分析流程。书接上回单细胞测序—标准流程代码(2) — 标记基因与细胞注释,这篇帖子主要关注的是富集分析。
sheldor没耳朵
2024/09/04
7910
单细胞测序—标准流程代码(3)—marker 基因富集分析_差异基因
转录组数据的时间序列分析,你学会了吗
上周的公众号处理了不同时间序列的数据集,但因为是内置的数据集,很多分析流程都已经被pipeline函数包装了,那如果是自己的时间序列数据集该怎么分析呢?
生信菜鸟团
2022/10/31
3.2K0
转录组数据的时间序列分析,你学会了吗
有一些错误在图片上面显示不出来
起初我看到了这个韦恩图,仅仅是觉得本应该啊,虽然是GSE25097是表达量芯片,而TCGA里面的是转录组测序,两个技术得到了不同的表达量矩阵,但是实验设计是类似的,都是对比癌症样品和癌旁,理论上差异分析的交集本应该是这么可怜:
生信技能树
2024/11/21
1800
有一些错误在图片上面显示不出来
文献复现之一篇铁死亡生信文章(1)
Genomic analysis uncovers prognostic and immunogenic characteristics of ferroptosis for clear cell renal cell carcinoma
用户1359560
2021/06/17
1.8K0
文献复现之一篇铁死亡生信文章(1)
差异分析的时候到底是p值重要还是变化倍数重要?
但是学员们在使用相应的代码去处理自己的研究领域的数据集的时候往往是会碰壁,比如这个文献:《Longitudinal expression changes are weak correlates of disease progression in Huntington's disease. Brain Commun 2020 》,对应的数据集是 :
生信技能树
2024/11/21
1570
差异分析的时候到底是p值重要还是变化倍数重要?
差异表达分析没那么简单
近些年来,过去被视作冗余垃圾的Noncoding RNAs被发现在基因表达调控中发挥了重要作用
生信菜鸟团
2023/09/09
5310
差异表达分析没那么简单
推荐阅读
相关推荐
差异共表达网络-Co-expression networks
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档