
DRUGONE
生命体系本质上是动态变化的,而蛋白质等大分子并不是单一静态结构,而是由大量可相互转化的构象状态共同组成的动态构象集合(conformational ensembles)。这些动态状态对于酶催化、变构调控、分子识别以及信号传导等生物学功能至关重要。然而,当前结构生物学和人工智能结构预测仍然主要依赖“静态结构”范式,例如AlphaFold虽然彻底改变了蛋白结构预测,但其核心仍然是预测单一构象,而无法真正描述蛋白在不同时间尺度上的动态构象分布。
文章指出,真正的下一代结构生物学目标,并不是预测“一个结构”,而是预测完整的大分子构象集合,包括不同状态之间的概率分布、热力学关系以及在不同环境下的动态变化。然而,实现这一目标面临巨大挑战。目前缺乏能够在原子分辨率下完整解析构象景观的实验技术,也缺乏标准化的构象集合表示方法、比较指标以及验证体系。
研究人员系统讨论了构象集合预测所面临的核心问题,包括构象集合定义不统一、实验数据稀疏且存在平均化效应、不同技术间的数据整合困难,以及如何建立真正的“ground-truth ensemble”数据集。文章进一步提出,未来需要通过整合冷冻电镜、NMR、X-ray、分子动力学以及生成式AI模型,建立统一的大分子动态结构基础设施,从而推动结构生物学从“静态快照”时代迈向“动态分布”时代。

传统结构生物学长期以来主要关注单一静态结构。例如,X-ray晶体学和冷冻电镜通常给出的是最稳定或最主要构象,而这些结构往往被视为蛋白“真实结构”。然而,真实生物体系中的蛋白始终处于动态变化中,不断在多个构象之间转换。
从统计热力学角度来看,大分子的宏观性质来源于大量微观状态的Boltzmann加权平均。即使是处于天然折叠态的蛋白,也存在从键振动、侧链翻转、loop运动到大尺度结构重排等多层级动态变化。整个构象集合共同决定了蛋白的稳定性、结合能力以及催化行为。
目前的实验技术虽然各具优势,但都无法单独完整解析构象集合。例如:
因此,目前大多数结构模型实际上只是整个构象景观中的极少数状态。这种“静态结构中心主义”不仅限制了对蛋白功能的理解,也影响了AI结构预测的发展,因为蛋白功能往往依赖于动态构象之间的转变,而非单一结构本身。
文章认为,未来若能够真正实现构象集合预测,将能够直接连接结构模型与宏观生物学性质,从而揭示疾病机制、蛋白进化规律以及下一代药物设计原理。
蛋白构象集合预测的核心问题
文章提出,实现类似AlphaFold那样的构象集合预测,需要解决四个基础问题。
首先,不同学科对“构象集合”的定义并不统一。有些研究仅关注几个离散宏观状态,而忽略了大量微观状态的连续变化。事实上,即使极低概率状态也会影响整体热力学性质,因此不能简单只关注主要构象。
其次,目前没有任何单一实验技术能够完整捕获构象集合。不同实验技术只能观察动态景观中的部分信息,因此必须通过多模态数据整合才能接近真实构象空间。
第三,实验数据本身存在严重挑战。例如,大多数实验测量实际上是大量构象的时间平均与集合平均,因此多个不同构象集合可能同时满足实验数据,导致逆问题(inverse problem)本质上是病态的。
第四,目前缺乏统一的构象集合表示方法、比较指标以及不确定性量化框架。当前PDBx/mmCIF主要适用于静态结构,而无法有效表达复杂动态构象集合。

图1:蛋白自由能景观与多尺度构象集合。
如何建立真正的“Ground-Truth Ensemble”
文章强调,未来最重要的任务之一,是建立真正可信的大分子构象集合标准数据集。
研究人员认为,不能再停留在“一个实验技术对应一个结构”的传统思维,而应转向整合结构生物学(integrative structural biology)。不同实验技术能够提供互补信息:
例如,核糖体就是典型案例。其不同构象状态之间的平衡决定了翻译效率与准确性,而这些状态受到RNA和蛋白微小涨落影响。如果只研究几个宏观状态,就会忽略许多对翻译调控至关重要的微观细节。
文章进一步指出,目前许多实验数据中的“隐藏信息”尚未被充分利用。例如:
未来需要新的统计结构生物学算法,从这些数据中提取真正的动态构象信息。

图2:统计结构生物学与整合结构生物学框架。
实验挑战:平均化、稀疏性与噪声
即使获得大量实验数据,构象集合重建仍然极其困难。因为大部分实验数据本质上是ensemble average,即大量构象状态的平均结果。
这意味着:
例如,在NMR NOE与FRET实验中,信号与距离呈1/r⁶关系,因此即使极少数短距离构象,也会显著影响整体观测值。
为了解决这些问题,研究人员开始发展Bayesian inference与maximum entropy等方法。这些方法能够在实验数据约束下,对不同构象状态重新加权,从而得到更符合真实物理规律的构象集合。
此外,蛋白内部往往同时存在刚性区域与高度柔性区域,这使得传统RMSD等全局比较指标失效。例如,高度动态loop可能掩盖结构核心中真正具有功能意义的微小变化。
因此,未来需要新的层级化表示方式,能够同时处理不同尺度动态,并维持统一的热力学分布。
构象集合的编码与比较
文章指出,目前PDB格式实际上并不适合表示构象集合。
现有altloc、B-factor以及multimodel encoding都存在明显缺陷:
因此,未来需要新的构象集合编码框架,能够:
在比较指标方面,目前RMSD主要适用于单一结构,而不适用于概率分布。未来更合理的方法可能是基于概率密度函数(PDF)的比较,例如Jensen–Shannon divergence。
但作者也指出,仅依赖低维PDF仍可能丢失关键物理信息,因此未来需要类似蛋白语言模型embedding的高维表示方法。

图3:病态逆问题与构象集合重建。
机器学习与分子动力学的融合
文章认为,未来真正的构象集合预测,将建立在机器学习与分子动力学深度融合基础之上。
传统分子动力学虽然天然适合描述构象集合,但受到采样效率与力场精度限制。近年来,机器学习力场开始接近量子化学精度,而增强采样方法也借助深度学习获得提升。
更重要的是,生成式AI正在迅速进入构象集合领域。例如:
不过,目前这些方法仍然远不可靠。例如,通过操控AlphaFold MSA可以诱导不同构象,但这些状态缺乏真实热力学概率信息,并且可能生成不稳定甚至非物理状态。
因此,未来必须建立更加完善的数据基础设施,使实验结构生物学与机器学习形成闭环反馈:
文章认为,未来所有结构数据都应被视为“ensemble data”,而不是单一结构。
讨论
文章最后强调,当前结构生物学正处于从“静态结构时代”向“动态构象时代”转型的关键节点。
未来真正重要的问题不再是:“蛋白长什么样?”,而是:“蛋白如何在不同状态之间动态切换?”。
构象集合预测不仅能够提升结构预测精度,更可能彻底改变药物发现与蛋白设计。例如:
研究人员进一步指出,目前许多结构预测难题,例如亚埃级精度问题、RNA结构预测困难、突变效应预测失败,本质上都可能源于缺乏构象集合表示。
因此,未来需要建立统一的大分子构象集合基础设施,包括:
文章认为,这种转变最终将使结构生物学真正从“静态快照”进化为“动态生命过程”的科学。
整理 | DrugOne团队
参考资料
Wankowicz, S.A., Bonomi, M. From possibility to precision in macromolecular ensemble prediction. Nat Methods (2026).
https://doi.org/10.1038/s41592-026-03084-z