
波恩大学Andreas Hansen团队以及微软研究院AI for Science研究团队于2025年9月2日在《Journal of Chemical Information and Modeling》上发表文章,题为“Chemical Space Exploration with Artificial “Mindless” Molecules”。文章提出的MindlessGen用于通过随机原子排布并随后进行几何优化来创建化学多样化的“Mindless”分子。利用这一框架,作者构建MB2061基准集,该数据集为测试、验证和训练密度泛函近似(DFA)、半经验方法、力场以及机器学习势能函数在超越传统化学空间的分子结构上的表现,提供了一个具有挑战性的基准。

MindlessGen代码仓库:
https://github.com/grimme-lab/MindlessGen
背景
化学空间探索的一个重要方面在于研究那些理论上可行但当前合成技术无法实现的结构。在这种情况下,量子化学(QC)计算为探索未知化学空间提供了更为根本的途径。尤其是密度泛函理论(DFT),已被证明能以中等计算成本获得较高精度的结果。大多数现代泛函主要通过拟合再现实验结合能,却往往牺牲了对电子密度的准确建模。因此,基于高水平波函数方法的基准研究对于评估和改进QC方法(如DFT)而言至关重要。现有多数常用数据集主要集中于传统、可合成分子,从而限制了其在非常规化学体系中的适用性。
在机器学习与基准研究中,常用的量子力学(QM)数据集包括QM7、QM9、ANI-1、ANI-1x、PubChemQC、ZINC20等。其中不少数据集来源于广泛使用的化学数据库,如PubChem、ChEMBL和GDB。针对非常规分子结构的研究也已有所探索,例如“Mindless”基准集MB08-165、MB16-43、VQM24数据集以及Google DeepMind的QCML数据集。但这些数据集要么在规模上受限,要么在元素组成上有限。
在本研究中,作者通过生成处于弛豫基态几何构型的“无直觉”分子(Mindless Molecules, MLM),探索尚未开发的化学空间。所生成的分子最多包含20个随机排布的原子,并呈现多样化的结合模式。计算了MLM分解为氢化物和双原子分子的反应能量,并将其作为评估DFA 精度与鲁棒性的可靠基准。
方法
MindlessGen分子生成过程如图1所示。首先,根据用户给定的约束条件生成随机原子列表,并分配初始坐标。若无特别指定,原子列表和分子电荷会被选择为闭壳层体系。随后,原子坐标通过几何规则收缩为分子状形状,然后进入优化过程,优先采用快速的SQM方法(如GFNn-xTB)。在优化过程中,结构可能断裂为多个不相连的碎片。程序利用图论识别并按大小排序,选择最大碎片继续优化。共价键图节点通过Pyykkö和Atsumi提供的共价半径与原子间距离对比来设定。该循环会反复进行,直到只剩下一个连通分子。在优化完成后,程序会将HOMO-LUMO能隙与用户定义的阈值进行比较,以作为多参考特征的基本检测。可选的后处理步骤包括基于非共价相互作用(NCIs)的超分子对称排列生成以及使用外部的DFT方法进行附加检查或几何优化。

图1 MindlessGen工作流
图2展示了通过MindlessGen生成的典型“无直觉”分子(MLM)。除了中大型有机分子外,该生成器还支持构建大型原子簇。此外,程序还提供了生成对称副本的选项,这使得可以自动构建基于MLM的非共价相互作用(NCI)复合物。

图2 使用MindlessGen生成的典型“无直觉”分子
基准集分子生成
在使用MindlessGen生成用于基准测试的候选分子后,采取了一系列关键步骤,以确保得到具有代表性且可靠的结构集合。在每个体系规模(10至20个原子)下各生成20个分子,共得到220个分子,并使用半经验GFN2-xTB紧束缚方法进行优化。随后,这些结构经过所有必要检查(图3)。在DFT水平进行最终几何优化时,有9个体系未能收敛,17个结构在优化过程中发生解离。另有2个结构因FOD分析被剔除,1个因SCF稳定性分析被剔除。最终的人工检查又移除了77个结构。总体而言,约有一半的生成几何结构被舍弃。即使在这些筛选步骤之后,最终数据集仍需从元素组成和键合模式方面进行检查,以确保足够的化学多样性。这些筛选步骤中的一部分完全可以纳入全自动化流程中。

图3 生成分子后的MLM筛选过程示例
MB2061基准集
为了评估各种量子化学方法在精确描述“无直觉分子”方面的表现,基于高质量参考数据开发了MB2061无直觉基准集。该基准集中的所有结构均由MindlessGen生成,涵盖了除稀有气体外直至碘的所有主族元素(图4)。由于元素组成唯一,可以排除重复结构。该数据集共包含2061个单重态基态几何结构的MLM。

图4 MB2061基准集所包含的元素
所有结构均按照前文所述工作流程进行筛选。所得分解反应能范围为−1232.4到1607.8 kcal·mol⁻¹,平均绝对值为306.3 kcal·mol⁻¹(图5)。

图5 MB2061基准集中的参考反应能范围
相比早期的MB16-43(仅含16原子中性分子),MB2061在体系大小与元素选择上大幅提升多样性(图6)。体系规模主要在10-20个原子,部分8或9原子分子也被保留下来。多数结构至少包含一个前3周期的主族元素,其中C(74%)、N(56%)和O(54%)最为常见。由于有机分子及传统分子通常也包含这些元素,因此该集合对量子化学方法的普适性评估具有很高价值。整个数据集可以按需拆分为子集:MB727-Light(H-Cl主族元素,排除1与2族,共727个分子);MB782-s-Block(H-Cl主族元素+K、Ca、Rb、Sr,共782个分子);MB552-Heavy(H-I主族元素,排除1与2族,共552个分子)。

图6 MB2061基准集的组成情况
结果及讨论
DFT评估
各类密度泛函近似(DFA)的平均符号误差(MSE)和平均绝对误差(MAE)如图7所示。由于伦敦色散效应预计对本文研究的小规模分解反应影响甚微,因此主要考察了不同DFA与色散校正的最佳组合。统计趋势与Perdew等人提出的Jacob’s ladder框架高度一致,即精度通常会随着阶梯的上升而提高。与此一致,双杂化泛函展现了最高的精度。在所有测试方法中,M06-L-D4的准确度最低(MAE=45.3 kcal·mol⁻¹),而ωB97X-2的准确度最高(MAE=8.4 kcal·mol⁻¹)。

图7 DFA与伦敦色散校正的最佳组合所得到的MAE与MSE
强参数化的Minnesota泛函MN15-L、M06-2X、MN15,以及复合方法B97-3c、PBEh-3c、r2SCAN-3c,均表现为正的MSE,对应于对MLM的过强成键;而大多数其他DFA则表现为负的MSE,表明成键较弱。值得注意的是,每一阶Jacob’s ladder中MAE最大的方法,其MSE的量级也相当接近,这表明存在系统性误差。最初预期,高度参数化的泛函(如MN15或ωB97M)会因MLM中存在非常规成键模式而表现不佳,但并未观察到一致的趋势表明某种设计策略具有系统性优势。如前文所述,完整数据集可以划分为三个子集:MB727-Light、MB782-s-Block和MB552-Heavy。实验表明子集内的表现趋势与完整集合高度一致。
SQM方法
与经典力场(FF)、半经验量子力学方法(SQM)或机器学习势(MLP)等近似方法相比,DFT的计算量仍然显著更高。作者评估了传统SQM方法、力场方法以及紧束缚模型等。结果表明,传统SQM方法误差极大(范围从183.1到606.5 kcal·mol⁻¹),几乎是最差DFA的5倍,无法准确描述“无直觉分子”。GFN-FF在近似方法中表现异常优异,其MAE为218.9 kcal·mol⁻¹,优于GFN0-xTB、aTB、PM6-D3H4X和PM7。只有一个尚未发表的第三代紧束缚模型g-xTB在性能上接近常见DFT方法,表现出色,MAE约等于35 kcal·mol⁻¹,最大绝对误差(AMAX)为162 kcal·mol⁻¹,且无收敛失败。此外,该数据集还是一个极具挑战性的基准,用于评估各种计算方法及其实现的稳健性。这在部分体系的不收敛或收敛到错误的SCF极小值中得以体现。
基于机器学习模型
采用机器学习势能模型(MLIP),如AIMNet2,在维持相近计算成本的同时,可以显著提升精度。由于AIMNet2仅适用于一组有限但化学上相关的元素(H,B,C,N,O等),构建了MB306-AIMNet2子集,包含MB2061数据集中所有AIMNet2可处理的306个结构。结果表明,AIMNet2在该子集上的表现非常出色,尤其考虑到其极低的计算成本。MAE=15.5 kcal·mol⁻¹,可与许多DFA相媲美。这表明AIMNet2的训练集已经足够广泛,模型灵活性也足以描述MLM的行为(至少对包含的元素而言)。但需注意,该子集未包含金属,而金属通常具有更复杂的电子结构。因此,AIMNet2尚无法探索MB2061中涉及的某些“无直觉化学空间”区域。
总结
作者开发了MLM分子生成器MindlessGen,并用它构建了MB2061基准集。此外,评估了DFT、SQM和基于ML的方法在MB2061数据库上的表现。总体而言,MB2061基准集为量子化学方法提供了一个化学多样且具有挑战性的测试平台,提升了对非常规分子体系下方法精度与稳健性的理解,从而支持在闭壳层体系化学空间中进一步探索未知区域。虽然DFT已能高精度描述MLM,但最大改进潜力仍在于SQM、力场(FF)与机器学习方法的发展。
MB2061不仅适合作为验证基准,也可用作高效学习策略的训练数据。特别是在主动学习工作流(如Proppe等人提出的regAL 框架)中,MB2061提供了有前景的基础。展望未来,预计 MindlessGen与MB2061将成为下一代模型参数化与测试的重要资源,最终推动更稳健、更具可迁移性的方法在整个化学空间中的应用。
参考链接:
https://doi.org/10.1021/acs.jcim.5c01364
--------- End ---------