首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Methods | 从“可能结构”到精准预测: AI如何重塑大分子构象集合研究

Nat. Methods | 从“可能结构”到精准预测: AI如何重塑大分子构象集合研究

作者头像
DrugAI
发布2026-05-26 20:09:26
发布2026-05-26 20:09:26
20
举报

DRUGONE

生命体系本质上是动态变化的,而蛋白质等大分子并不是单一静态结构,而是由大量可相互转化的构象状态共同组成的动态构象集合(conformational ensembles)。这些动态状态对于酶催化、变构调控、分子识别以及信号传导等生物学功能至关重要。然而,当前结构生物学和人工智能结构预测仍然主要依赖“静态结构”范式,例如AlphaFold虽然彻底改变了蛋白结构预测,但其核心仍然是预测单一构象,而无法真正描述蛋白在不同时间尺度上的动态构象分布。

文章指出,真正的下一代结构生物学目标,并不是预测“一个结构”,而是预测完整的大分子构象集合,包括不同状态之间的概率分布、热力学关系以及在不同环境下的动态变化。然而,实现这一目标面临巨大挑战。目前缺乏能够在原子分辨率下完整解析构象景观的实验技术,也缺乏标准化的构象集合表示方法、比较指标以及验证体系。

研究人员系统讨论了构象集合预测所面临的核心问题,包括构象集合定义不统一、实验数据稀疏且存在平均化效应、不同技术间的数据整合困难,以及如何建立真正的“ground-truth ensemble”数据集。文章进一步提出,未来需要通过整合冷冻电镜、NMR、X-ray、分子动力学以及生成式AI模型,建立统一的大分子动态结构基础设施,从而推动结构生物学从“静态快照”时代迈向“动态分布”时代。

传统结构生物学长期以来主要关注单一静态结构。例如,X-ray晶体学和冷冻电镜通常给出的是最稳定或最主要构象,而这些结构往往被视为蛋白“真实结构”。然而,真实生物体系中的蛋白始终处于动态变化中,不断在多个构象之间转换。

从统计热力学角度来看,大分子的宏观性质来源于大量微观状态的Boltzmann加权平均。即使是处于天然折叠态的蛋白,也存在从键振动、侧链翻转、loop运动到大尺度结构重排等多层级动态变化。整个构象集合共同决定了蛋白的稳定性、结合能力以及催化行为。

目前的实验技术虽然各具优势,但都无法单独完整解析构象集合。例如:

  • 冷冻电镜和X-ray能够提供高分辨率结构,但受到冻结状态和晶体环境限制;
  • NMR能够观察动态平均信息,但受体系大小与灵敏度限制;
  • 分子动力学能够模拟动态过程,但受到力场精度与时间尺度限制。

因此,目前大多数结构模型实际上只是整个构象景观中的极少数状态。这种“静态结构中心主义”不仅限制了对蛋白功能的理解,也影响了AI结构预测的发展,因为蛋白功能往往依赖于动态构象之间的转变,而非单一结构本身。

文章认为,未来若能够真正实现构象集合预测,将能够直接连接结构模型与宏观生物学性质,从而揭示疾病机制、蛋白进化规律以及下一代药物设计原理。

蛋白构象集合预测的核心问题

文章提出,实现类似AlphaFold那样的构象集合预测,需要解决四个基础问题。

首先,不同学科对“构象集合”的定义并不统一。有些研究仅关注几个离散宏观状态,而忽略了大量微观状态的连续变化。事实上,即使极低概率状态也会影响整体热力学性质,因此不能简单只关注主要构象。

其次,目前没有任何单一实验技术能够完整捕获构象集合。不同实验技术只能观察动态景观中的部分信息,因此必须通过多模态数据整合才能接近真实构象空间。

第三,实验数据本身存在严重挑战。例如,大多数实验测量实际上是大量构象的时间平均与集合平均,因此多个不同构象集合可能同时满足实验数据,导致逆问题(inverse problem)本质上是病态的。

第四,目前缺乏统一的构象集合表示方法、比较指标以及不确定性量化框架。当前PDBx/mmCIF主要适用于静态结构,而无法有效表达复杂动态构象集合。

图1:蛋白自由能景观与多尺度构象集合。

如何建立真正的“Ground-Truth Ensemble”

文章强调,未来最重要的任务之一,是建立真正可信的大分子构象集合标准数据集。

研究人员认为,不能再停留在“一个实验技术对应一个结构”的传统思维,而应转向整合结构生物学(integrative structural biology)。不同实验技术能够提供互补信息:

  • cryo-EM与X-ray提供原子级静态结构;
  • NMR提供局部动态信息;
  • FRET、DEER、SAXS和AFM能够描述大尺度运动;
  • 分子动力学则可连接不同构象之间的转变。

例如,核糖体就是典型案例。其不同构象状态之间的平衡决定了翻译效率与准确性,而这些状态受到RNA和蛋白微小涨落影响。如果只研究几个宏观状态,就会忽略许多对翻译调控至关重要的微观细节。

文章进一步指出,目前许多实验数据中的“隐藏信息”尚未被充分利用。例如:

  • cryo-EM particle stack中的异质性;
  • X-ray diffuse scattering中的动态信息;
  • 多温度晶体学中的低概率状态。

未来需要新的统计结构生物学算法,从这些数据中提取真正的动态构象信息。

图2:统计结构生物学与整合结构生物学框架。

实验挑战:平均化、稀疏性与噪声

即使获得大量实验数据,构象集合重建仍然极其困难。因为大部分实验数据本质上是ensemble average,即大量构象状态的平均结果。

这意味着:

  • 不同构象集合可能给出相同实验结果;
  • 实验噪声会进一步降低重建精度;
  • 某些低概率状态虽然罕见,却可能对实验信号贡献巨大。

例如,在NMR NOE与FRET实验中,信号与距离呈1/r⁶关系,因此即使极少数短距离构象,也会显著影响整体观测值。

为了解决这些问题,研究人员开始发展Bayesian inference与maximum entropy等方法。这些方法能够在实验数据约束下,对不同构象状态重新加权,从而得到更符合真实物理规律的构象集合。

此外,蛋白内部往往同时存在刚性区域与高度柔性区域,这使得传统RMSD等全局比较指标失效。例如,高度动态loop可能掩盖结构核心中真正具有功能意义的微小变化。

因此,未来需要新的层级化表示方式,能够同时处理不同尺度动态,并维持统一的热力学分布。

构象集合的编码与比较

文章指出,目前PDB格式实际上并不适合表示构象集合。

现有altloc、B-factor以及multimodel encoding都存在明显缺陷:

  • altloc只能表示少量离散状态;
  • B-factor混合了真实动态与实验噪声;
  • multimodel缺乏状态概率信息。

因此,未来需要新的构象集合编码框架,能够:

  • 表达状态之间的层级关系;
  • 区分构象异质性与组成异质性;
  • 包含Boltzmann权重与不确定性信息。

在比较指标方面,目前RMSD主要适用于单一结构,而不适用于概率分布。未来更合理的方法可能是基于概率密度函数(PDF)的比较,例如Jensen–Shannon divergence。

但作者也指出,仅依赖低维PDF仍可能丢失关键物理信息,因此未来需要类似蛋白语言模型embedding的高维表示方法。

图3:病态逆问题与构象集合重建。

机器学习与分子动力学的融合

文章认为,未来真正的构象集合预测,将建立在机器学习与分子动力学深度融合基础之上。

传统分子动力学虽然天然适合描述构象集合,但受到采样效率与力场精度限制。近年来,机器学习力场开始接近量子化学精度,而增强采样方法也借助深度学习获得提升。

更重要的是,生成式AI正在迅速进入构象集合领域。例如:

  • Boltzmann Generator利用normalizing flow生成平衡态分布;
  • diffusion model开始用于生成蛋白构象集合;
  • 部分模型已经能够预测无序蛋白构象分布。

不过,目前这些方法仍然远不可靠。例如,通过操控AlphaFold MSA可以诱导不同构象,但这些状态缺乏真实热力学概率信息,并且可能生成不稳定甚至非物理状态。

因此,未来必须建立更加完善的数据基础设施,使实验结构生物学与机器学习形成闭环反馈:

  • AI帮助实验分析;
  • 实验数据反向优化AI模型;
  • 新模型再指导实验设计。

文章认为,未来所有结构数据都应被视为“ensemble data”,而不是单一结构。

讨论

文章最后强调,当前结构生物学正处于从“静态结构时代”向“动态构象时代”转型的关键节点。

未来真正重要的问题不再是:“蛋白长什么样?”,而是:“蛋白如何在不同状态之间动态切换?”。

构象集合预测不仅能够提升结构预测精度,更可能彻底改变药物发现与蛋白设计。例如:

  • 稳定低概率构象的小分子药物;
  • 依赖动态构象识别的抗体;
  • 能够跨越复杂构象景观的酶设计。

研究人员进一步指出,目前许多结构预测难题,例如亚埃级精度问题、RNA结构预测困难、突变效应预测失败,本质上都可能源于缺乏构象集合表示。

因此,未来需要建立统一的大分子构象集合基础设施,包括:

  • 数据采集;
  • ensemble建模;
  • 编码标准;
  • 比较指标;
  • benchmark体系;
  • 主动学习框架。

文章认为,这种转变最终将使结构生物学真正从“静态快照”进化为“动态生命过程”的科学。

整理 | DrugOne团队

参考资料

Wankowicz, S.A., Bonomi, M. From possibility to precision in macromolecular ensemble prediction. Nat Methods (2026).

https://doi.org/10.1038/s41592-026-03084-z

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档