一个基因它可以有很多转录本从而有很多蛋白质产物,所以会发挥很多生物学功能。而人类或者其它物种的基因都是一两万个,人脑几乎是不可能把每个基因对应的生物学功能背诵清楚的,就需要引入生物学功能数据库了。比如 (GeneCards、OMIMD、UniProt),或者( msigdb ,KEGGG、Reactome),即使是这样其实也不够,因为这些数据库记录的都是过往的生命科学领域的研究的成果,极其的有限,而且遵循马太效应。
比如癌症研究领域的明星基因主要是癌基因(oncogenes)或抑癌基因(tumor suppressor genes) :
癌基因通常促进细胞的生长和分裂,当它们发生突变或过度表达时,可能导致癌症的发生。
抑癌基因通常抑制细胞的生长和分裂,当它们发生突变或失活时,可能导致癌症的发生。
如果我们看这个INSIG1基因:https://www.genecards.org/cgi-bin/carddisp.pl?gene=INSIG1
会发现它确实是很少有明确建立好的生物学功能信息:
很少有明确建立好的生物学功能
如果我们看一个癌症研究领域的明星基因:https://www.genecards.org/cgi-bin/carddisp.pl?gene=TP53
很明显的是各个数据库都有关于tp53基因的功能的介绍:
各个数据库都有关于tp53基因的功能
选择研究“明星基因”确实存在一些实际的优势和考量,比如:
然而,这并不意味着研究其他基因不重要或没有价值。实际上,对较少研究的基因进行研究可能会带来新的科学发现和突破。此外,随着技术的发展和研究的深入,一些非明星基因可能会因为新的发现而变成明星基因。科研人员在选择研究课题时需要平衡创新性和可行性,同时也要考虑到研究的长期影响和潜在的科学贡献。探索未知领域虽然风险更高,但潜在的回报也可能更大。
据驱动的研究方法在识别非“明星基因”或“暗物质”基因方面具有巨大潜力。随着高通量测序技术的发展,我们可以获取大量的基因表达数据、蛋白质组学数据、代谢组学数据等,进行多组学分析(Multi-omics analysis)。因为不依赖于先验假设,而是直接从数据中发现模式和关联,这使得研究者能够探索未知的生物学领域,发现新基因和新机制。然而,这些方法也面临挑战,如数据的复杂性、噪声处理、结果的生物学验证等,需要综合运用多种技术和方法来确保结果的可靠性。
比如2025的单细胞数据挖掘文章:《Single-Cell Sequencing and Machine Learning Integration to Identify Candidate Biomarkers in Psoriasis: INSIG1》,研究者们通过分析定位到了一个具有诊断意义的基因:INSIG1,但是它不是很出名。
这个基因的定位的过程,就是纯粹的单细胞数据挖掘了,很简单的把GSE162183这个单细胞转录组数据集进行降维聚类分群,因为里面的有psoriasis (Pso) group and the Control group两个分组,所以是可以做差异分析的。然后又定位到了t细胞的拟时序,就是:trajectory of T cell differentiation during psoriasis progression and identified TDEGs associated with T cell differentiation ,
然后还使用两个传统的bulk表达量芯片数据集做差异分析,就是:GSE14905 and GSE66511 ,然后机器学习构建诊断模型,几乎完美的区分了疾病组和正常组:
机器学习构建诊断模型
既然合理的定位到了INSIG1这个目标基因,但是它的生物学功能记录又很少很少,所以推断它的生物学功能就成为了重中之重。接下来我们会以7个笔记来说明如何进行合理的推断!