
本综述内容较为详尽(43页),推荐有兴趣的读者阅读原文。
本文介绍了一篇由浙江大学药学院侯廷军教授与意大利技术研究院Luigi Bonati教授团队联合发表在Chemical Reviews上的综述文章——《Enhanced Sampling in the Age of Machine Learning: Algorithms and Applications》。

分子动力学模拟(MD)是一种强大的“计算显微镜”,能揭示原子级别的物理、化学与生物过程。然而,许多关键事件(如蛋白折叠、药物结合、相变反应)往往发生在毫秒甚至秒级的时间尺度上,远超传统MD的计算极限。为此,研究人员发展出增强采样(Enhanced Sampling)方法,以此加速对罕见事件的探索。近几年,机器学习(ML)技术的引入给增强采样领域带来了颠覆性的变革,彻底改变了其研究范式。它不仅能自动学习关键的集合变量(Collective Variables, CVs),还能优化偏置势的构建方式,并且催生了一系列基于生成模型与强化学习的新型策略。本文系统梳理了ML在增强采样中的融合路径、算法框架与典型应用,全面展示了人工智能(AI)如何推动分子模拟迈向“智能探索”的新时代。

从显微镜到智能探索
分子动力学通过求解牛顿方程可精确描述原子运动,但受限于:
增强采样方法应运而生,典型策略包括:
然而,这些方法仍依赖人工定义变量与经验偏置,限制了复杂体系的探索。随着深度学习、图神经网络与生成模型的发展,增强采样正在从“手工建模”走向“自我学习”。

机器学习驱动的增强采样框架
机器学习与增强采样的结合主要体现在三条路径:
利用有监督或无监督学习自动提取系统的低维表示,例如通过自编码器、主成分分析或图神经网络捕捉蛋白折叠的慢模态。
借助神经网络直接拟合高维自由能面(Free Energy Surface, FES),实现智能偏置构建,代表方法包括VesNet、OPES、Deep Bias NN等。
利用扩散模型、变分自编码器(VAE)、Boltzmann生成器等直接在分子构象空间中生成符合能量分布的样本,从根本上突破罕见事件瓶颈。

主要进展
数据驱动的集合变量(CV)自动学习
传统CV依赖人工经验,如二面角、键长、协调数等。MLCV通过模型自动识别主导慢动力学的变量。
这些方法不仅提高了CV构建的精度,也实现了“自动化发现”复杂反应通道。

偏置势能的智能化学习
偏置势能的构建决定采样效率。近年来,研究人员使用神经网络直接学习自由能面,从而实现:
这一方向显著提升了自由能计算的收敛速度,尤其在高维蛋白体系中表现突出。

生成模型与强化学习采样
生成模型为增强采样带来范式创新:
这些方法展现出强大的可迁移性,为未来“自学习分子模拟系统”奠定基础。

应用前沿
增强采样与机器学习的结合已在多领域取得突破:
未来展望
研究人员认为,增强采样正迈向“自动化与物理一致性并重”的新阶段:
未来,AI 不仅是加速器,更是科学家的“智能助手”,将帮助人类更高效地穿越能量景观的山谷与峰峦,理解生命与物质的微观世界。
整理 | 王建民
参考资料
Enhanced Sampling in the Age of Machine Learning: Algorithms and Applications. Kai Zhu, Enrico Trizio, Jintu Zhang, Renling Hu, Linlong Jiang, Tingjun Hou, and Luigi Bonati. Chemical Reviews.
DOI: 10.1021/acs.chemrev.5c00700