
用进化的“脚印”,重建生命的分子网络
在高度互联的生命体系中,诸如转录因子与 DNA 的结合、蛋白质之间的相互作用等复杂过程,都依赖“网络生物学”来理解。然而回到二十多年前,那时只有少量(而且大多是原核生物)的基因组被测序,研究分子互作的主要手段仍是分子生物学实验。比如,当时遗传学家刚进入利用酵母双杂交等技术解析细胞“线路图”的时代。
那时的基因组学革命刚刚萌芽,又朦胧又充满希望。我还记得自己作为本科生曾问导师齐藤老师:网络生物学未来会走向哪里?
他的回答不是一句话,而是一篇论文——一篇展示“比较基因组学”力量的经典工作,也彻底改变了我对这个领域的认识。

靠“共现”推断蛋白质关系:改变一个领域的想法
这篇发表于 1999 年的标志性论文提出了一个简单却深刻的思想:如果蛋白质 A 和 B 在物种进化中总是一起出现,它们很可能在功能上是协作的。
换句话说,功能相关的蛋白质会在漫长的进化过程中“共同出现、共同保留”,这种跨物种的一致性就是“共进化信号”。
研究人员当时做了两件事:
结果非常惊人:
这说明,不做任何湿实验,仅用进化信息,就能推断蛋白质网络。而在随后发表的研究中,这种“系统性的进化图谱”甚至能在部分评估中超过实验方法。
进化的力量:40 亿年写下的隐藏笔记
这一方法让我意识到两件重要的事:
进化本身就是最长、规模最大的实验
四十亿年的自然演化,已经做过无数实验,其“实验结果”全部隐含在当今物种的基因组中。
这些信息并非直接可读,而是以模糊、压缩的形式存在。如果能聪明地“解码”,它们提供的洞见并不逊色于任何人工实验。
信息剖析能比实验更快地推动发现
相比针对单个蛋白做实验,从一组蛋白之间的“信息关联”中获得线索效率更高。
因为:
后来研究人员又发现,类似的“特征剖析模式”还可以用于质谱数据,用来重建蛋白复合物的组成。这种思路的迁移性极强,也打开了系统生物学的想象空间。
从进化关系到蛋白结构:AlphaFold 的成功也是进化的胜利
在最近几年,AlphaFold 的革命性突破同样依赖进化“脚印”。其关键理念是:多序列比对中的共进化模式,包含了氨基酸之间三维距离的线索。
这些规律在深度学习模型中被转换为精准的结构预测。
今天的大型语言模型和生物基础模型同样如此——它们把大量、弱关联的进化信息收集到高维潜在空间中,形成能被人类直观理解的模式。
随着生命科学越来越聚焦人类健康,回到进化本身的经验比以往任何时候都重要。比如,近年出现的基因组级语言模型 Evo 和 Evo 2,就是通过学习整个生命树的基因组,隐式捕捉到共进化的模式,它们预示着一种结合“自然实验 + 人类实验”的未来。
一个小想法可以改写一个领域
1999 年那篇论文展示了一个朴素而有力的理念:聪明地使用现有信息,可以让整个领域发生转变。
都证明了这一点。
在人工智能时代,我们的工具更强大、数据更丰富,也更有能力从“进化的脚印”中解码生命的复杂性。
整理 | DrugOne团队
参考资料
Yachie, N. Harnessing evolution to infer protein networks. Nat Rev Genet (2025).
https://doi.org/10.1038/s41576-025-00919-x
内容为【DrugOne】公众号原创|转载请注明来源