
DRUGONE
机器学习已在材料建模中得到广泛应用,并常规性地支持具备量子力学精度的大规模原子模拟。然而,开发机器学习原子间势(MLIP)依赖高质量训练数据,而人工生成和整理这些数据往往成为主要瓶颈。本研究提出了一种自动化框架,用于探索和拟合势能面,并在开源软件 autoplex(automatic potential-landscape explorer)中实现。该框架设计强调与现有软件架构的互操作性,以及便捷的用户工作流程。研究人员展示了在多类体系中的广泛应用,包括钛-氧体系、二氧化硅、晶态与液态水,以及相变存储材料。总体而言,该研究表明自动化能加速基于机器学习的原子模拟在计算材料科学中的应用。

机器学习原子间势已成为实现大规模、量子级精度原子模拟的首选方法,被应用于高压研究、反应机理发现以及蛋白质建模等领域。尽管已有多种高效的MLIP拟合框架,但高质量训练数据的获取仍然是瓶颈。数据构建过程耗时且依赖人工操作,限制了MLIP的广泛应用。当前虽有主动学习方法用于逐步扩展数据集,但仍依赖昂贵的从头分子动力学计算。研究人员认为,下一阶段的关键创新应集中在数据生成与自动化探索方面。

本研究关注如何从零开始构建MLIP,不仅覆盖局域能量极小点,也包括高能量、不稳定的势能面区域,以提升势能模型的鲁棒性。为此,研究人员基于随机结构搜索(RSS)方法,提出了一个与迭代拟合紧密结合的自动化框架。
结果
autoplex 框架
研究人员开发的 autoplex 框架模块化设计,可与主流计算与自动化基础设施对接,并在高性能计算平台上实现大规模自动化。其核心思路是利用随机结构生成、DFT单点计算与迭代MLIP拟合形成闭环流程。研究人员以硅、二氧化钛及其二元体系为例,展示了随着迭代训练的推进,模型预测误差逐步降低并逼近合理的精度标准。

高级势能模型与计算成本
在SiO₂体系中,研究人员对比了不同DFT泛函下生成的训练数据,发现较高阶的SCAN泛函在晶型稳定性预测上明显优于PBE,从而凸显了在MLIP训练中采用更高层级参考数据的重要性。即便如此,利用autoplex生成的模型仍能在有限计算成本下实现较高预测精度。

水体系与不同架构的比较
水因氢键和范德华作用而极具挑战性。研究人员首先使用GAP框架在revPBE-D3泛函下生成势能面,并进一步采用图神经网络架构NequIP对同一数据集进行拟合。结果表明,NequIP在液态水的结构刻画和冰多晶型能量预测中优于GAP,显示了autoplex生成的数据集对多种模型架构的普适适用性。

相变存储材料的应用
研究人员将autoplex应用于Ge₁Sb₂Te₄和In₃Sb₁Te₂两类相变存储材料。与过去依赖专家手工构建数据集的方式相比,autoplex能够快速、高效地探索复杂势能面并生成训练数据。模拟结果表明,autoplex在刻画局域结构特征、环统计学和结晶动力学方面均表现良好,并显著减少了人工操作与计算资源消耗。

讨论
研究人员指出,自动化是推动MLIP成为主流模拟工具的关键环节。本研究证明了通过整合现有软件生态,可以在大规模上实现RSS与MLIP迭代拟合的自动化。autoplex不仅能够快速生成稳健的势能模型,还为进一步扩展到表面、界面以及反应路径探索提供了可能。
此外,RSS生成的小单元结构数据表现出良好的稳定性和通用性,可作为标准起点应用于不同势能拟合框架。研究人员认为,这类自动化方法将在未来数据集构建与模型训练中发挥越来越重要的作用,并有望促成普适型的原子模拟机器学习模型,使其在材料科学中成为默认方法。
整理 | DrugOne团队
参考资料
Liu, Y., Morrow, J.D., Ertural, C. et al. An automated framework for exploring and learning potential-energy surfaces. Nat Commun 16, 7666 (2025).
https://doi.org/10.1038/s41467-025-62510-6
内容为【DrugOne】公众号原创|转载请注明来源