前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >基因功能推断的数据分析的重要性

基因功能推断的数据分析的重要性

作者头像
生信菜鸟团
发布2025-02-03 23:38:26
发布2025-02-03 23:38:26
750
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

一个基因它可以有很多转录本从而有很多蛋白质产物,所以会发挥很多生物学功能。而人类或者其它物种的基因都是一两万个,人脑几乎是不可能把每个基因对应的生物学功能背诵清楚的,就需要引入生物学功能数据库了。比如 (GeneCards、OMIMD、UniProt),或者( msigdb ,KEGGG、Reactome),即使是这样其实也不够,因为这些数据库记录的都是过往的生命科学领域的研究的成果,极其的有限,而且遵循马太效应。

  • “马太效应”(Matthew Effect),源自《新约·马太福音》中的一句话:“凡有的,还要加给他,叫他有余;没有的,连他所有的也要夺过来。”。在社会学和经济学中,这个效应描述了一种现象,即成功和资源往往会集中在已经成功或拥有资源的人或事物上,导致富者愈富,贫者愈贫。
  • 在生命科学和基因研究领域,这种现象可能表现为对“明星基因”(即那些已经被广泛研究且已知功能的基因)的关注和资源投入远多于那些功能未知或研究较少的基因。这可能造成对某些基因的了解非常深入,而对其他基因的了解则相对有限。

比如癌症研究领域的明星基因主要是癌基因(oncogenes)或抑癌基因(tumor suppressor genes) :

癌基因(Oncogenes)

癌基因通常促进细胞的生长和分裂,当它们发生突变或过度表达时,可能导致癌症的发生。

  1. HER2(人表皮生长因子受体2):在乳腺癌中的过表达与侵袭性和较差的预后相关。
  2. EGFR(表皮生长因子受体):在多种癌症中过表达,如肺癌、乳腺癌和结直肠癌。
  3. KRAS:在多种癌症中突变,如胰腺癌、结直肠癌和肺癌。
  4. BRAF:在黑色素瘤和其他癌症中突变。
  5. MYCN:在多种癌症中过表达,与肿瘤生长和转移有关。
  6. CCND1:在多种癌症中过表达,与肿瘤的侵袭性和转移有关。
抑癌基因(Tumor Suppressor Genes)

抑癌基因通常抑制细胞的生长和分裂,当它们发生突变或失活时,可能导致癌症的发生。

  1. TP53:被称为“基因组的守护者”,在多种癌症中突变,包括肝癌、乳腺癌和肺癌。
  2. BRCA1/BRCA2:与乳腺癌和卵巢癌的风险增加有关。
  3. APC:在结直肠癌中突变,与肿瘤的早期发展有关。
  4. VHL:在肾癌和某些其他癌症中突变。
  5. PTEN:在乳腺癌和甲状腺癌中突变。
  6. RBAP1A:在多种癌症中失活,与肿瘤抑制失活有关。

但并不是所有的基因都有很好的生物学背景

如果我们看这个INSIG1基因:https://www.genecards.org/cgi-bin/carddisp.pl?gene=INSIG1

会发现它确实是很少有明确建立好的生物学功能信息:

很少有明确建立好的生物学功能

如果我们看一个癌症研究领域的明星基因:https://www.genecards.org/cgi-bin/carddisp.pl?gene=TP53

很明显的是各个数据库都有关于tp53基因的功能的介绍:

各个数据库都有关于tp53基因的功能

破除“明星基因”效应

选择研究“明星基因”确实存在一些实际的优势和考量,比如:

  1. 生物学背景清晰
    • 明星基因通常有详尽的研究背景,其功能和在疾病中的作用已经被广泛研究。这使得研究者可以基于现有的知识构建假设和实验设计。
  2. 资源丰富
    • 由于这些基因已经被广泛研究,相关的实验材料(如抗体、基因表达载体、基因敲除/敲入模型等)更容易获得,实验设计和实施可能更加直接和方便。
  3. 易于发表文章
    • 明星基因由于其在科学界内的知名度,相关的研究可能更容易吸引期刊编辑和审稿人的兴趣,从而增加发表的机会。
    • 这些基因的研究结果可能对科学界有即时和明显的影响,因此可能被认为具有较高的学术价值。

然而,这并不意味着研究其他基因不重要或没有价值。实际上,对较少研究的基因进行研究可能会带来新的科学发现和突破。此外,随着技术的发展和研究的深入,一些非明星基因可能会因为新的发现而变成明星基因。科研人员在选择研究课题时需要平衡创新性和可行性,同时也要考虑到研究的长期影响和潜在的科学贡献。探索未知领域虽然风险更高,但潜在的回报也可能更大。

数据驱动的研究更容易定位到非“明星基因”

据驱动的研究方法在识别非“明星基因”或“暗物质”基因方面具有巨大潜力。随着高通量测序技术的发展,我们可以获取大量的基因表达数据、蛋白质组学数据、代谢组学数据等,进行多组学分析(Multi-omics analysis)。因为不依赖于先验假设,而是直接从数据中发现模式和关联,这使得研究者能够探索未知的生物学领域,发现新基因和新机制。然而,这些方法也面临挑战,如数据的复杂性、噪声处理、结果的生物学验证等,需要综合运用多种技术和方法来确保结果的可靠性。

比如2025的单细胞数据挖掘文章:《Single-Cell Sequencing and Machine Learning Integration to Identify Candidate Biomarkers in Psoriasis: INSIG1》,研究者们通过分析定位到了一个具有诊断意义的基因:INSIG1,但是它不是很出名。

这个基因的定位的过程,就是纯粹的单细胞数据挖掘了,很简单的把GSE162183这个单细胞转录组数据集进行降维聚类分群,因为里面的有psoriasis (Pso) group and the Control group两个分组,所以是可以做差异分析的。然后又定位到了t细胞的拟时序,就是:trajectory of T cell differentiation during psoriasis progression and identified TDEGs associated with T cell differentiation ,

然后还使用两个传统的bulk表达量芯片数据集做差异分析,就是:GSE14905 and GSE66511 ,然后机器学习构建诊断模型,几乎完美的区分了疾病组和正常组:

机器学习构建诊断模型

既然合理的定位到了INSIG1这个目标基因,但是它的生物学功能记录又很少很少,所以推断它的生物学功能就成为了重中之重。接下来我们会以7个笔记来说明如何进行合理的推断!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 癌基因(Oncogenes)
  • 抑癌基因(Tumor Suppressor Genes)
  • 但并不是所有的基因都有很好的生物学背景
  • 破除“明星基因”效应
  • 数据驱动的研究更容易定位到非“明星基因”
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档