Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >差异基因检测方法

差异基因检测方法

作者头像
Y大宽
发布于 2018-11-09 07:53:45
发布于 2018-11-09 07:53:45
1.9K0
举报
文章被收录于专栏:Y大宽Y大宽

差异基因的检测方法很多,但生物学家偏好使用的是fold change(FC)和t-test。猜测因为一是它们比较简单,二来好解释。很多研究表明,改进的t-test可以提高top gene list的质量。现在简单的说一下原理

1 Fold change 或log ratio

指两个组group之间每个gene平均值在log2水平的差异。 FC=3=log2A-log2B=log(A/B) 所以,A/B=2^3=8 这样有一个缺点就是高的FC并非真正的差异,而是来自变异,并无生物学意义。 值得注意的是,基于FC的gene list比基于t-test的可重复性强,但这不代表着更准确。 所以,如果关注基因表达的绝对变化,则看FC 如果关注潜在的噪音,则用t-test。 也就是说,FC只考虑到组间差异,二未考虑组内变异。

2 T-test

差异性=signal/noise,期中signal即为组间变异,二noise为组内变异 groupA和groupB的差异XA均值-XB均值,这个同FC的M均值。受3个因素影响 (1)Fold change(M均值):M均值越大,t值越大,也就是说signal大 (2)Variance(s):s越小,t越小,就是组内差异大,即noise大 (3)sample size(n):n越大,t越大,即M均值和s同样的情况下,n越大,结果越精确。

上面可以看出,即使FC不大,但s值足够小,也会有大的t值,所以引入惩罚t-test。初衷是避免将表达水平和变异程度较低的无生物学意义的gene识别为差异gene。

其中,s0是个小的正数。引入s0消除s过小 可见,若S小,则S0作用大,反之,S大,S0作用小。 芯片分析中的SAM(significant analysis of microarrays)即这种方法。 步骤 (1)samples在AB之间随机打乱重拍1000次,d-value依次计算,这些d-value的均值作为整个gene的d-value,观察到的d-value偏离期望d-value越大,越可能是真正的差异gene。 (2)随着作者的cut off(德尔塔value)被选择,需要权衡差异基因数目和假阳性结果的数目(FDR).

继而,有基于贝叶斯理论的moerated t-test。也是最常用的。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.10.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
不同形式的基因排序方法会影响gsea富集分析结果
基因集富集分析(Gene Set Enrichment Analysis,简称GSEA)是一种用来确定一个预先定义的基因集是否在某种生物学状态下(比如疾病状态)表达水平有显著变化的方法。
生信技能树
2024/05/06
8860
不同形式的基因排序方法会影响gsea富集分析结果
没有生物学重复的转录组差异分析如何挑选基因呢: 变化倍数与P值选谁?
2、没有生物学重复的时候 还有算法可以做差异分析吗?进而得到一个统计学显著性Pvalue值。
生信技能树
2024/12/27
2500
没有生物学重复的转录组差异分析如何挑选基因呢: 变化倍数与P值选谁?
lncRNA实战项目-第五步-差异表达的mRNA和lncRNA
上一步骤得到了表达矩阵,两个样本分别是F_1yr.OC和M_1yr.OC, 所以接下来的差异分析就是比较1岁猕猴脑OC区域女性和男性的差别,差异分析的分析方法很多,主要根据前面标准化的方法,有基于counts的差异分析,也有基于标准化后的FPKM,TPM等的差异分析。 常见的R包有(摘自https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts): edgeR (Robinson et al., 2010) DESeq / qDESeq2 (Ande
生信技能树
2018/03/05
5K0
lncRNA实战项目-第五步-差异表达的mRNA和lncRNA
基因芯片数据挖掘分析表达差异基因
基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列。据此可重组出靶核酸的序列。
DoubleHelix
2019/08/07
3.2K0
基因芯片数据挖掘分析表达差异基因
跟着存档教程动手学RNAseq分析(五):DESeq2基因水平差异表达分析
跟着存档教程动手学RNAseq分析(四):使用DESeq2进行DE分析的QC方法
王诗翔呀
2022/12/30
2.9K0
跟着存档教程动手学RNAseq分析(五):DESeq2基因水平差异表达分析
R语言中这个筛选差异基因的方式可读性很好,值得推荐
如果不想安装额外包,用ifelse;如果是单个条件,用dplyr::if_else;如果多个条件,用dplyr::case_when (更可读)
生信宝典
2022/03/27
8160
DESeq2差异基因分析和批次效应移除
差异基因鉴定 基因表达标准化 不同样品的测序量会有差异,最简单的标准化方式是计算 counts per million (CPM),即原始reads count除以总reads数乘以1,000,000。 这种计算方式的缺点是容易受到极高表达且在不同样品中存在差异表达的基因的影响;这些基因的打开或关闭会影响到细胞中总的分子数目,可能导致这些基因标准化之后就不存在表达差异了,而原本没有差异的基因标准化之后却有差异了。 RPKM、FPKM和TPM是CPM按照基因或转录本长度归一化后的表达,也会受到这一影响。 ca
生信宝典
2018/06/26
6.8K0
「Workshop」第四十期 常用的差异分析方法
如今在生物学研究中,差异分析越来越普遍,也有许多做差异分析的方法可供选择。但是在实际应用中,大多数人不知道该使用哪种方法来处理自己的数据,所以今天我就来介绍下目前几种常用的差异分析方法及其适用场景。
王诗翔呀
2021/04/23
1.7K0
BIC无代码绘制差异基因火山图
Volcano plot | 别再问我这为什么是火山图 一文解释了火山图如何解读。不太难看懂,而一旦看懂了,图也就知道怎么绘制了。
生信宝典
2021/04/29
9930
BIC无代码绘制差异基因火山图
一网打尽转录组差异分析!!!
差异分析在转录组数据分析中占据着举足轻重的地位,是揭示基因表达变化的关键步骤。然而,面对众多如DESeq2、limma和edgeR等转录组分析R包,分析人员常常面临选择困境。本文旨在深入探讨这些常用差异分析R包的特点、优劣,以及它们与t检验/Wilcox秩和检验(Wilcox-rank-sum test)在差异分析结果上的异同点。
生信学习者
2024/06/11
5070
一网打尽转录组差异分析!!!
如何试用 R 语言绘制散点图
转录组分析中,计算了两组间差异表达的基因后,通常怎样表示?您可能第一时间想到可以使用火山图。的确,火山图是使用频率最多的,在火山图中可以很轻松地根据基因在两组间的Fold
玩转编程
2022/01/05
1.5K0
真的是可以让所有的基因都随心所欲的差异吗
有这样的想法的人不在少数,所以有必要澄清一下,通常情况下,我们会做很多次差异分析然后取交集,这样的话保证拿到的基因是非常可靠的,这个过程中其实我们并不会关心不同的差异分析为什么会有不一样的地方,同样的实验设计可能导致不同的转录组差异分析结果和差异基因列表,这可能是由于以下因素导致的:
生信技能树
2023/10/10
3380
真的是可以让所有的基因都随心所欲的差异吗
表达差异基因分析
1安装BiocManage,再安装DESeq2包 > # <差异基因分析> > # 1.判断是否有BiocManager包,若不存在则安装 > options(repos=structure(c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))) #设置清华镜像,加速下载 > > if (!requireNamespace("BiocManager", quietly = TRUE)) + install.packages("BiocManager
爱学习的小明明
2020/09/22
1.4K0
IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗?
Figure 2. CIH aggravates fibrosis, inflammation, and lipid accumulation in hepatocytes with PAOA stimulation
生信技能树
2025/02/05
1070
IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗?
单细胞差异基因火山图绘制
做完单细胞差异基因分析(FindMarkers/FindAllmarkers)之后,按照常规流程绘制出来的火山图看上去会很奇怪。
凑齐六个字吧
2024/06/27
5390
单细胞差异基因火山图绘制
敲减过表达前后转录组差异最好是都做一下
这种方法可以揭示基因表达的变化,发现新的生物学标记,以及理解基因表达调控的复杂性。在生物学和医学研究中,对特定基因进行过表达(过表达,即让基因表达水平高于正常生理状态)或敲减(降低基因表达水平,包括完全敲除或部分抑制)是一种常用的功能性分析方法。通过这些技术,研究人员可以探究基因的功能以及它们在生物学过程或疾病发生中的作用。以下是进行这类实验的几个主要原因:
生信菜鸟团
2024/05/11
5360
敲减过表达前后转录组差异最好是都做一下
多分组差异分析解决方案(2)分批次差异基因后取交集
主要方法:如果不同分组代表着一定的趋势,例如group1,group2,group3的样本严重程度越来越重。那么就可以求group1和group2的差异基因,group2和group3的差异基因,group1和group3的差异基因,最后把三次得到的上调差异基因和下调差异基因求交集。
用户1359560
2021/06/10
2.8K0
两个不同数据集:同一课题组同样的实验设计差异分析结果一致性却很差是为什么呢?
这个数据集包括了46例样本,35个 药物 non-responder 和 11 个 responder。
生信技能树
2025/02/05
1450
两个不同数据集:同一课题组同样的实验设计差异分析结果一致性却很差是为什么呢?
上下调基因数量不平衡?再探!
这周曾老师给我分享了一篇文章,TCGA-STAD队列肿瘤样本EBV分型后的差异表达基因出现了上下调数量不平衡,想让我看看是不是样本数量的问题
生信菜鸟团
2023/09/09
1.2K0
上下调基因数量不平衡?再探!
识别肿瘤功能失调子通路的方法ICDS
子通路是指具有特定生物学功能的生物通路的局部区域。随着大规模测序数据的产生使我们有更多的机会来研究癌症发生的分子机制。研究DNA甲基化、拷贝数变异(CNV)和基因表达改变对致瘤的失调子通路分子状态的潜在影响是很必要的。本工作提出一个通过整合多组学数据和通路拓扑信息来识别癌症功能失调子通路(ICDS)的方法。利用肝癌(LIHC)、头颈部鳞状细胞癌(HNSC)、宫颈鳞状细胞癌和宫颈腺癌的数据集,验证了ICDS在识别异常子通路方面的有效性。进一步将ICDS和其他识别子通路的方法)(只考虑DNA甲基化、CNV或基因表达)进行比较,通过这些分析,证实ICDS比其他三种只考虑一种数据类型的方法更能识别癌症相关的子通路。
作图丫
2022/03/29
6120
识别肿瘤功能失调子通路的方法ICDS
推荐阅读
相关推荐
不同形式的基因排序方法会影响gsea富集分析结果
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档