Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >凭什么说TCGA和GEO数据挖掘的结论不可靠呢

凭什么说TCGA和GEO数据挖掘的结论不可靠呢

作者头像
生信技能树
发布于 2023-02-27 13:22:05
发布于 2023-02-27 13:22:05
9980
举报
文章被收录于专栏:生信技能树生信技能树

前些天在《生信技能树》公众号提到了一个开放式讨论:富集分析排名第一的通路就是目标吗,我自己也给出来了一个证据链加强的措施,就是干湿结合:转录组差异分析不足以说明你的目标基因调控某个通路 ,然后蛮多小伙伴看完了之后表示对数据挖掘的结论持保留态度。

孙中山先生曾经说过:“天下大势,浩浩汤汤,顺之者昌,逆之者亡。” 生命科学领域的研究,一切终将数字化,意味着生物信息学是主旋律,无论您信或者不信,一味地抵抗无疑是螳臂当车。

持有这样迂腐陈旧观念的不在少数,比如文章:《IFI44L is a novel tumor suppressor in human hepatocellular carcinoma affecting cancer stemness, metastasis, and drug resistance via regulating met/Src signaling pathway》,因为他们自己研究里面这个IFI44L基因在癌症里面是低表达,而且它表达量越低肝癌病人预后越差,非常符合守旧派的抑癌基因的理念。主要是实验数据:the expression of IFI44L in 217 pairs of normal liver and HCC tumor tissues were analyzed by IHC and Western blotting analysis.

但是作者在查询这个IFI44L基因的前期研究,发现了它在胰腺癌里面被发表了一个完全相反的结论,在癌症样品里面高表达而且表达量越高预后越差,就在讨论里面说因为这个结论来源于TCGA和GEO数据挖掘,可靠性存疑:

可靠性存疑

我看了看这个文章,确实发表的杂志不怎么样,Oncotarget. 2017; 8:52571-52583. https://doi.org/10.18632/oncotarget.16732

这个数据挖掘挖掘文章,针对4个表达量矩阵独立差异分析后,对有统计学显著的表达量上下调基因取交集:

  • 四个数据集是: (“GSE15471”, “GSE18670”, “GSE28735” and “GSE58561”).
  • 交集是:13 DEGs (MYOF, SLC6A6, S100P, HK2, IFI44L, OSBPL3, IGF2BP3, PDK4, IL1R2, ERO1A, EGLN3, PLAC8 and ACSL5) (除了PDK4外的基因都是上调)

如下所示:

拿到的表达量矩阵后续分析大同小异,公众号推文在:

四个gse数据集就是做四次而已。

然后去TCGA数据库里面看这些交集上下调基因是否有预后意义,发现 upregulation of ERO1A (P=0.0005), OSBPL3 (p= 0.0153) and IFI44L (P=0.0040) were significantly correlated with shorter overall survival and shorter median survival time

可以看到确实这个IFI44L基因是在癌症样品里面高表达而且表达量越高预后越差

表达量越高预后越差

生存分析是目前肿瘤等疾病研究领域的点睛之笔!我在生信技能树多次分享过生存分析的细节;

起码数据挖掘是经得起复现的

这个2017的Oncotarget文章的结论是: three genes (ERO1A, OSBPL3 and IFI44L) are significantly upregulated in PDAC and the expression level of these three genes are negative correlation with the overall survivals of patients with PDAC. 是基于GEO数据库的4个gse表达量矩阵,以及TCGA数据库的生存预后信息。

而Huang et al. BMC Cancer (2018) 是基于217 pairs of normal liver and HCC tumor tissues were analyzed by IHC and Western blotting analysis.

首先呢,这两天有冲突的结论是在两个完全不同的癌症领域,不一定要互相掐架。不过起码217个肝癌病人的实验数据是不可能验证和复现,但是TCGA和GEO数据挖掘的结论是可以随时随地任意复现的。当然了,复现这个过程需要生物信息学基本能力。再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理

把R的知识点路线图搞定,如下:

  • 了解常量和变量概念
  • 加减乘除等运算(计算器)
  • 多种数据类型(数值,字符,逻辑,因子)
  • 多种数据结构(向量,矩阵,数组,数据框,列表)
  • 文件读取和写出
  • 简单统计可视化
  • 无限量函数学习

学徒作业

针对四个数据集独立做差异fix,是: (“GSE15471”, “GSE18670”, “GSE28735” and “GSE58561”). 然后取交集,然后跟tcga的差异分析取交集。

只需要验证 (ERO1A, OSBPL3 and IFI44L) 这3个基因是不是在癌症里面高表达,而且表达量越高病人预后越差即可。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
凭感觉这个数据挖掘文章里面的差异基因上下调应该是弄反了
(mRNA,lncRNA,miRNA,甲基化,蛋白)均可走上述流程,也就是说33种癌症乘以5种亚型,乘以5种分子,乘以15个策略就已经是过万篇数据挖掘课题了,而且你仔细搜索一下就发现,真的是已经有了过万篇数据挖掘文章了哦!我一直强调:数据挖掘的核心是缩小目标基因!
生信技能树
2023/02/27
7670
凭感觉这个数据挖掘文章里面的差异基因上下调应该是弄反了
物种保守行能说明它是目标分子吗
但是在高通量测序大行其道的这10年,困扰大家的问题在于如何从繁多的基因定位到少量的几个基因,这也就是数据挖掘的核心,缩小目标基因!各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
生信技能树
2021/04/29
5940
物种保守行能说明它是目标分子吗
TCGA数据库里面配对取样的肿瘤转录组数据并不多( 居然是单细胞分析思路)
发表这个研究的杂志不怎么样, Oncotarget. 2017; 8:41334-41347. https://doi.org/10.18632/oncotarget.17295 但是里面有一个信息蛮有意思的,而且毕竟是比较早期的数据挖掘了,不同于现在的粗制滥造各种灌水套路,起码他们是实打实的做了不少原创性工作了的!
生信菜鸟团
2021/07/05
1.3K0
TCGA数据库里面配对取样的肿瘤转录组数据并不多( 居然是单细胞分析思路)
25张图带你玩转表达量差异分析思路
研究者首先做了一个bulk转录组,走了标准的差异分析,拿到了上下调基因以及注释它们的功能。然后把这些基因在自己的单细胞转录组各个亚群具体看其是否有表达差异,发现异质性很大,以前拿到的混合状态的差异其实是细胞亚群的比例差异而已。
生信技能树
2021/07/06
1.5K0
欧洲裔和非裔美国乳腺癌患者差异可以TCGA数据库验证
差异分析相信大家都不陌生了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
生信技能树
2021/07/06
4160
惊!3个同样的数据挖掘策略居然同时发表
这个问题怎么说呢,生命科学领域的数据挖掘课题的发表主要是靠工作量,很少有新颖或者前沿,无非就是替换癌症替换分子替换生物学功能基因集,我整理过大家耳熟能详的策略,有:
生信技能树
2020/08/11
1.1K0
惊!3个同样的数据挖掘策略居然同时发表
大规模-高通量-多组学-居然只能把食管癌分成两个亚型
可以看到,有两个技术:25 groups( 125 samples ) for TMT proteomics, and 31 paired samples were subjected to lable-free phosphoproteomics.
生信技能树
2022/03/03
7640
大规模-高通量-多组学-居然只能把食管癌分成两个亚型
急性髓系白血病的lncRNAs表观遗传图谱
标题:Epigenetic landscape analysis of lncRNAs in acute myeloid leukemia with DNMT3A mutations
生信技能树
2021/07/06
9400
学徒作业-单基因的tcga数据挖掘分析
最近在做一个0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》,直播活动,收集整理文献看到了一个很有意思的研究,节选文章里面的部分图表作为学徒作业哈!
生信技能树
2020/06/03
1.9K0
三阴性乳腺癌表达数据分析笔记之PAM50
取出PAM50基因,根据这些基因的表达了绘制热图,并添加分组信息,与原始分组(TNBC,noTNBC)进行对比。
生信技能树
2020/10/26
3.4K0
三阴性乳腺癌表达数据分析笔记之PAM50
该基因具有跨物种保守性质能说明它是目标分子吗?
但是在高通量测序大行其道的这10年,困扰大家的问题在于如何从繁多的基因定位到少量的几个基因,这也就是数据挖掘的核心,缩小目标基因!各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
生信技能树
2022/12/16
5800
该基因具有跨物种保守性质能说明它是目标分子吗?
《GEO数据挖掘课程》配套练习题
我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:
生信技能树
2020/09/24
1.1K0
《GEO数据挖掘课程》配套练习题
TCGA数据库R包集大成者TCGAbiolinks
主要是因为GDC官网虽然权威,但是太复杂了,不利于初学者。而且GDC官网是针对TCGA数据库的每个癌症的每个病人的不同数据分开存放,每次都是批量下载后,整理合并的。但是我们前面的在线接口,去cbioportal或者FireBrowse都是以癌症为单位下载不同数据集。包括后面分享的:
生信技能树
2022/07/26
1.1K0
TCGA数据库R包集大成者TCGAbiolinks
哈医大生信中心的脑瘤单细胞数据挖掘
作者下载了Patel et al. (2014)发表的GSE57872).在里面的 576 cells 自己走了一遍CNV分析,拿到了350 tumor cells.进行聚类,结果如下:
生信技能树jimmy
2020/03/30
1.1K0
华大基因单细胞团队的这个差异分析后的热图真奇怪
一般来说,这样的基因集预后模型数据挖掘文章都是临床医师的专享,大家耳熟能详的策略有;
生信技能树
2023/02/27
8180
华大基因单细胞团队的这个差异分析后的热图真奇怪
一个甲基化芯片数据被挖掘好几次(学徒作业)
很简单的设计,就是450K甲基化芯片:DCIS (n=40) and adjacent normal (n=15) ,另外的信息技术:Among 40 DCIS cases 13 later developed invasive disease
生信技能树
2020/10/26
9780
一个甲基化芯片数据被挖掘好几次(学徒作业)
联合单细胞与TCGA数据建立肝癌预后模型
(2)基于此,使用CIBERSORT算法去预测TCGA每个样本的细胞类型组成比例。
生信技能树jimmy
2022/03/14
2.9K0
联合单细胞与TCGA数据建立肝癌预后模型
这3个lncRNA组成的食管癌诊断分类器在tcga数据库能否复现
看起来似乎是Agilent和CBC公司合作,所以芯片平台是:Agilent-038314 CBC Homo sapiens lncRNA + mRNA microarray V2.0 (Feature Number version) ,从有表达差异的基因列表里面筛选到最后的3个lncRNA组成的食管癌诊断分类器基因集,过程比较复杂,如下:
生信技能树
2020/05/06
8180
这3个lncRNA组成的食管癌诊断分类器在tcga数据库能否复现
干湿结合发6.68分,这样的套路给我来一打
目前,纯生信分析发文依然是如火如荼,但随着审稿人的审美疲劳,其口味也越来越挑。纯生信文章不再那么容易满足审稿人的味蕾了,所以,“生信分析+实验验证”也是目前生信类高分文章的整体套路。到底怎样将生信分析与实验验证完美的整合呢?今天,一起学习一篇6.68分的文章,看看 “别人家的套路吧”!
百味科研芝士
2020/02/19
2.9K0
干湿结合发6.68分,这样的套路给我来一打
通过R包cgdsr链接cbioportal来探索TCGA等公共数据
其中MSKCC的就是cBioPortal,主页在:https://www.cbioportal.org/
生信技能树
2022/07/26
1.1K0
通过R包cgdsr链接cbioportal来探索TCGA等公共数据
推荐阅读
相关推荐
凭感觉这个数据挖掘文章里面的差异基因上下调应该是弄反了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档