Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Chem. Soc. Rev. | 机器学习势的发展:从分子到材料

Chem. Soc. Rev. | 机器学习势的发展:从分子到材料

作者头像
DrugAI
发布于 2025-04-18 08:52:25
发布于 2025-04-18 08:52:25
5210
举报
文章被收录于专栏:DrugAIDrugAI

近年来,机器学习势(MLPs, machine learning potentials)迅速发展,并广泛应用于化学、物理和材料科学。MLPs 通过将离散的从头算数据拟合为连续且保持对称性的数学形式,使得大规模、从第一性原理出发的原子级模拟变得高效而精确。本文综述了过去二十年来 MLPs 的发展历程,重点介绍近年来在分子、反应和材料领域提出的先进方法。研究人员还讨论了 MLPs 的代表性应用及其向通用势函数发展的趋势,并总结了该领域当前面临的挑战与机遇。

引言

作为量子化学的基础,Born–Oppenheimer(BO)近似允许研究人员将原子核和电子运动进行分离,并在核坐标的参数控制下求解电子薛定谔方程。不同核几何下对应的(绝热)本征能构成一个连续的超曲面,即势能面(PES),其本质是核坐标的多维函数。基于PES,可以采用经典或量子力学的方法求解原子核的运动方程。因此,PES 在从小分子到块体材料的结构理解,以及相变和化学反应等动态过程研究中发挥着核心作用。

从数学角度来看,PES 的构建可被视为对选定核构型下离散势能数据点的拟合或插值,从而实现对任意核构型的能量预测。尽管概念上较为直观,但精确构建 PES 一直是化学与物理中的难点。早期构建 PES 的方法常受到体系维度的限制。例如,在凝聚态材料或生物分子系统中,研究人员常采用经验势能场或原子间势能等物理驱动模型来代替代价高昂的电子结构计算。虽然这类方法在合理参数化后可在相似元素组成的不同规模体系间具有一定的迁移性,但通常难以准确描述复杂的多体相互作用以及成键/断键过程。

另一方面,对于小分子与化学反应,PES 通常通过更复杂的数学表达对从头算数据进行拟合或插值。这种方式可归类为广义上的机器学习回归方法,具备较高的灵活性,适用于特定体系的分子光谱学和反应动力学研究,但缺乏可扩展性和可迁移性。对于原子数量达数百的中等规模体系,研究人员可选择在核几何变化过程中即时计算能量和原子力,从而避免显式构建解析 PES 的困难。该方法被称为从头算分子动力学(AIMD),通常与密度泛函理论等计算高效的电子结构方法结合使用。尽管如此,AIMD 仍受到时间尺度限制,难以研究如化学反应等罕见事件。同时,除非波函数高度局域化,即时的量子动力学模拟通常不可行。

近年来,神经网络、核方法等现代机器学习技术因其在高维空间中建模复杂关系的能力,成为科研中的强大工具。特别是在物理科学中,机器学习对多维 PES 的表示已展现出巨大潜力。除了追求函数逼近精度外,研究人员还特别关注 PES 在对称操作(如同类原子的交换)下的性质保持。这催生了具有对称适应性的机器学习势能函数(MLPs),其在结构到能量/力映射方面展现出高度的灵活性与泛化能力。MLPs 已被成熟地应用于化学反应、材料性质、异质体系、激发态、光谱学等多种场景中。

早期机器学习势能函数的简要回顾

机器学习方法在势能面(PES)表示中的应用已有较长历史。最早的尝试可追溯至20世纪90年代末,当时研究人员开始使用神经网络拟合分子-表面体系和小分子的势能面,也尝试用神经网络优化凝聚相体系中经验势能场的参数。然而,由于高质量数据和计算资源的限制,这些早期研究多为概念验证,主要展示了神经网络作为非线性拟合工具在 PES 表示中的潜力。但当时尚未系统解决 PES 的对称性适应问题,特别是对相同原子置换的不变性。尽管部分工作提出了在输入层或隐藏层引入对称化操作的设想,但尚缺乏通用方法。

进入 21 世纪后,MLPs 在小体系中得到了更广泛的探索。研究人员针对多原子分子和反应,发展了结合从头算数据采样策略的神经网络势能模型,部分模型达到了光谱级精度。然而,当时的模型仍未实现对称性要求。2004 年起,研究人员开始在分子-表面体系中引入对称性坐标,并通过傅里叶展开等方式进行扩展,虽仍受限于特定体系。

值得指出的是,在这一时期,神经网络并非构建 PES 的主流方法。对小分子体系,还出现了许多非神经网络的拟合方法,如改进的 Shepard 插值(MSI)、再生核希尔伯特空间插值(RKHS)、移动最小二乘插值(IMLS)以及置换不变多项式(PIP)拟合等。这些方法实质上均属于广义的机器学习回归方式,不依赖于物理构建的函数形式。例如,RKHS 是一种核插值方法,与高斯过程回归密切相关,并可自动评估预测误差。此外,数据采样和对称性适配等关键思想最早也在这些非神经网络方法中提出,后来成为现代机器学习构建 MLPs 的基础理念。

例如,有研究提出基于轨迹的采样策略,通过迭代选择最不确定或分布最边缘的数据点,以不断完善 PES,这实际上是机器学习中主动学习(active learning)思想的雏形。PIP 方法则提供了一种基于对称函数构建输入特征的通用框架,成为其他机器学习方法实现输入对称化的重要工具。不过,这一时期的 NN 和非 NN 方法多以整个结构为输入,构建总能量函数,限制于少数原子的低维体系,本文将其归类为“全局描述符模型”。

与此同时,高维和周期性体系的 MLP 构建仍面临极大挑战。相比之下,经验势能场如嵌入原子法(EAM)采用的势能表达更具可扩展性——将总能量分解为原子贡献,每个原子能量取决于其邻近原子的相对位置。然而,这些原子能多采用经验函数形式,难以表达复杂结构。

有研究意识到该局部表示的优势,采用独立神经网络拟合每个原子的能量,但当时尚未给出通用且保对称的输入设计方式。真正的突破来自 2007 年 Behler 与 Parrinello 提出的 BPNN 方法,首次使用固定长度的多体函数数组作为神经网络输入,并通过元素特定神经网络确保总能量对同类原子的置换不变。该方法中提出的原子中心对称函数(ACSFs)既满足对称性要求,又使势能计算成本线性增长,并具备可扩展性,适用于分子与周期性体系。这一思路随后被用于高斯过程方法,发展出另一类局部描述符模型——GAP 模型,其原子能预测由结构相似性直接驱动。

自此之后,特别是过去十年间,现代 MLP 模型快速发展。一方面,PIP 或更精简的基本不变量(FIs)被用于构建对称性良好的神经网络或高斯过程模型,使得对小至中等规模气相分子与金属表面体系的高精度 PES 拟合成为可能;如 GDML 和 pKREG 等全局描述符模型在少量数据条件下亦表现良好。另一方面,大量局部描述符模型被提出,在原有 ACSFs 基础上进行改进,或开发出可生成任意阶多体描述符的更系统方案。近年来,消息传递神经网络(MPNNs)的出现进一步突破了局部描述的限制,实现了可学习的原子描述符,并能捕捉非局部效应,推动了一批新型高精度模型的涌现。

现代机器学习势的发展

基于全局描述符的模型

为确保势能面(PES)的平移和旋转不变性,研究人员常用原子间距离作为结构描述符,但原子置换不变性则更复杂。置换不变多项式(PIP)方法通过对距离函数进行对称化生成,适用于小分子体系。为提高精度,研究人员提出将 PIP 与神经网络结合(PIP-NN),在保留对称性的同时增强了拟合能力。此外,基本不变量(FI)作为一组线性无关的对称性基础,可进一步压缩描述符的维度,形成 FI-NN 方法。这些方法虽具高精度,但对数据量要求较大。

为提升小样本学习能力,研究人员引入了核方法(如 GPR 和 KRR),并结合对称性策略提出了 PIP-GPR、pKREG 等方法。GDML 方法则直接对力进行拟合,通过积分恢复能量,实现了能量守恒。后续的对称 GDML(sGDML)与面向周期性系统的 BIGDML 等变体使其适用于更大或更复杂体系,保留了全局表示对长程作用建模的优势。

基于局部描述符的模型

相比全局模型,局部描述符方法更适用于大体系。Behler-Parrinello 神经网络(BPNN)使用以原子为中心的对称函数(ACSFs)作为描述符,具备对称性和线性可扩展性。研究人员提出了各种改进版本,如 ANI、wACSF、TensorMol 等,通过增强表示能力或自动调节参数提高了泛化性。

除了经典三体描述符,研究人员还发展了诸如 Deep Potential、EANN、SOAP 等模型,通过矩阵或张量的构造方式捕捉高阶多体相互作用。ACE、MTP、aPIP 等方法采用张量收缩技术系统地生成高阶描述符,保持了线性可扩展性,但在实际中仍需截断至四阶或五阶以控制计算复杂度。这些局部模型目前被广泛应用于复杂材料与反应体系,但通常难以处理非局域与长程作用。

基于消息传递神经网络(MPNN)的模型

近年来,MPNN 方法因其端到端学习能力受到关注。MPNN 将分子看作图结构,节点表示原子,边表示相互作用。通过迭代的消息传递,模型能动态捕捉原子间的局域与非局域关联。典型模型如 DTNN、SchNet、HIP-NN、PhysNet 等,已广泛应用于势能预测和物理性质建模。

为提升表现能力,研究人员引入角度信息(如 DimeNet、Cormorant)或将传统描述符(如 EAD)递归更新构建新模型(如 REANN)。这些模型在小分子数据集上展现出比经典三体描述符更高的准确性和数据效率。

更进一步,研究人员发展了等变 MPNN(equivariant MPNN),显式引入原子间相对方向信息,显著提升了模型的表示能力。典型模型包括 NequIP、Allegro、MACE 等,已在水、蛋白质和金属系统中取得领先性能。通过张量产品、球谐函数等方式,模型实现了对 SO(3)/E(3) 对称群的等变性,适合预测偶极矩、极化率等响应性质。部分模型则在笛卡尔空间构造张量消息(如 PaiNN、NewtonNet、CAMP),在保持等变性的同时降低计算开销。

为提高效率,研究人员还提出了如 EquiREANN 的结构,利用张量叠加实现更快的有效作用半径扩散,适用于如共轭π体系等具有微弱能量变化的结构。同时,研究人员已建立统一的数学框架,将多体描述符与等变神经网络纳入统一表述,为未来模型发展提供理论基础。由于 MPNN 模型结构较深,参数递归更新过程也对并行优化策略提出了新挑战,部分模型如 Allegro、SO3KRATES 试图以局域结构或自注意力机制提高效率。

非局域性与长程作用

机器学习势能函数(MLPs)通常采用截断的原子邻域描述局部环境,从而具备良好的可扩展性。然而,这种截断策略会忽略原子间的非局域和长程作用,尤其在存在电荷转移或范德华作用较强的体系(如气-液界面)中会导致明显误差。虽然可以通过增大截断半径或增加消息传递层来缓解,但这会大幅增加计算成本,且信息在多次传递中会逐渐衰减,导致模型无法准确捕捉远程相互作用。

研究人员提出了一种更高效的策略,即将总能量分为短程与长程两部分:短程部分由神经网络建模,长程部分则通过原子电荷与库仑相互作用计算获得。典型做法是利用神经网络预测原子电荷,再通过 Ewald 求和计算电荷间相互作用,并从总能量中扣除这部分电荷能量,以避免重复计入。部分模型如 TensorMol、PhysNet 等进一步将偶极矩、色散能等也纳入神经网络建模,以增强对物理长程相互作用的表达。

然而,由于原子电荷多依赖于局部描述符,这类方法难以表达全局电荷重分布。为解决这一问题,研究人员引入了电荷平衡(charge equilibration)机制,通过最小化整个系统静电能以确定原子电荷。在此基础上,提出了如 CENT、CENT2、4G-HDNNP 等模型,通过两个神经网络分别预测原子电负性和局部能量,实现更准确的能量分解。同时,也有方法如 BpopNN、kQeq 通过核回归等方式预测电负性,并以偶极矩而非电荷作为训练目标,避免电荷划分方法的不确定性。

除了点电荷方法,研究人员还尝试用最大局域 Wannier 中心(MLWCs)代替电荷来表示电子极化响应,如 SCFNN 模型中引入两个模块,通过自洽过程处理电场与电子响应,并用于预测包含长程极化的原子力。此外,还有方法如长程等变表示(long-distance equivariant representation),通过对邻域密度与核函数卷积构建原子中心特征,适用于描述电荷与偶极间相互作用。

在共轭 π-体系中,长程作用也常由离域电子引起,如芳香化合物、长链共轭分子等。此类体系对传统全局或局部 MLP 模型提出挑战。研究人员提出如 SO3KRATES、MBNN 等模型,分别通过球谐变换或引入更长截断的多体函数,增强长程描述能力。此外,Hu 等人提出 MS-MACE 模型,结合了长程的非等变 MACE(l=0)与短程的等变 MACE(l=2),在保证精度的同时降低了整体计算成本。

最后,研究人员也尝试将物理公式与机器学习融合。如 MLRNet 模型将 NN 输出嵌入 Morse/long-range 函数中,确保在短程和远程都具备物理合理的外推能力。该思路为 MLP 在数据稀缺区域提供了拓展潜力。

典型应用与通用势能模型

随着大量开源、用户友好型软件包的发布,机器学习势能函数(MLPs)已被广泛应用于化学、物理和材料科学领域,使得对复杂体系的原子级模拟成为现实。不同类型的 MLP 模型近年来被应用于多个关键任务,以下为代表性进展概述:

小分子与反应体系

研究人员使用基于全局描述符的方法(如 PIP、PIP-NN 和 FI-NN)构建了高精度的从头算势能面(PES),被广泛应用于小分子的光谱与反应动力学研究。例如:

  • 利用 PIP-NN 构建的 PES 揭示了 F/Cl + CH₄ 反应的立体动力学机制与 Feshbach 共振;
  • 对 HF-HF 体系的全维量子散射模拟揭示了其不服从经典碰撞规律;
  • FI-NN 方法用于描述高维体系(如 F⁻ + (CH₃)₃Cl),揭示了 SN2 与消除反应机制的竞争关系;
  • 更大体系如 C₁₄H₃₀ 和多壁纳米管的红外谱计算与动力学模拟也已实现。

分子-表面体系

在气-固界面反应中,局部描述符模型如 BPNN 和 EANN 成为主流,能够描述不同表面上的吸附、碰撞、反应过程。例如:

  • 在 Pt 表面模拟 D₂ 解离吸附过程;
  • Pd 和 Ru 表面的激光诱导脱附/氧化反应;
  • H 溢流过程及其与表面合金的协同效应。

近期研究表明,REANN 与 MACE 等模型在精度与计算效率间取得较好平衡。

凝聚态体系

在晶体、液体和无定形结构中,MLPs 正逐步取代经验势能,用于研究结构相变与热力学性质。例如:

  • SOAP-GAP 模型成功描述了 C、Si、P 单元素材料的相变与自扩散;
  • 在高熵合金、纳米冰相变、水的异常热力学行为等系统中,BPNN 与 DP 模型展现出优异性能。

凝聚相反应与稀有事件

MLPs 能捕捉键的生成/断裂,使其在复杂反应网络建模中表现出优势。例如:

  • DP 模型用于甲烷燃烧与 N₂O₅ 在水气溶胶界面反应;
  • ANI-1xnr 模型支持 C、H、N、O 元素反应的高通量计算;
  • MLP 模拟揭示水界面反应、Ag 氧化相活性、催化剂结构变化等过程。

异相催化

研究人员结合采样与全局优化算法(如 SSW)与 MLPs 构建大规模催化反应网络。例如:

ZnCrO 催化剂的热力学相图;

Pt 表面氧化过程与活性相演化;

ORR 过程机制、CO₂ 解离反应中的熵效应等。

能源材料与电池界面

MLPs 在固态电解质、电池阴极界面、超离子导体、液体离子等方面取得突破。例如:

  • MTP 模拟固态电池中 Li-S 界面的反应路径;
  • DP 模型揭示水合离子、电荷转移过程;
  • 各类 MLP 可用于预测热力学、扩散与输运性质。

生物分子体系

近期 MLP 开始用于大规模生物体系的从头模拟:

  • SpookyNet 实现含 >25,000 原子的蛋白质-水系统模拟;
  • Allegro 模型支持 4,400 万原子规模的 HIV 病毒壳模拟;
  • AI2BMD 模型基于 VisNet 架构,具备高精度力场计算能力,并成功预测多肽 3J 耦合常数。

通用势能模型

传统 MLP 多为特定体系定制,难以迁移。为此,研究人员提出了通用势能模型(UP),通过大规模多样化数据训练,使其具备跨体系的泛化能力。例如:

  • MEGNet:基于图神经网络,初步实现了材料性质的迁移预测;
  • M3GNet、CHGNet:使用包含力与应力的大数据集训练,支持结构搜索与高通量筛选;
  • MACE-MP-0:采用等变 MPNN 架构,已用于气-固-液界面、多元素体系、催化与燃烧模拟;
  • GNoME:使用 NequIP 架构,训练于超 8,900 万晶体结构,实现了对未知稳定材料的大规模发现。

这些模型标志着 MLP 正在从专用模型走向具有“基础模型”性质的广泛应用阶段。

结论与展望

机器学习势能函数(MLPs)已成为化学领域增长最快、应用最广的机器学习分支之一。经过多年的发展,MLPs 方法体系逐渐成熟,本文对其演进历程与典型应用进行了系统总结。然而,该领域仍面临诸多挑战与机遇。

对于小分子与反应体系,追求极致精度与计算效率的任务仍主要依赖于基于全局描述符的模型。例如,阿司匹林的 PIP PES 在精度上超过了 ANI、GAP 与 sGDML,且在相似精度下,其计算速度约为 ACE 模型的 40–100 倍。近期基于图连通性的算法显著加速了基本不变量(FI)的生成,使 FI-NN 方法有望扩展至更复杂的高对称性体系,并在多个小分子上取得优于局部描述符或 MPNN 模型的精度表现。核方法如 pKREG 与 sGDML 虽具备数据高效性,但在全构象空间中描述反应性体系的能力仍需验证。此外,对于多电子态体系的非绝热动力学,目前基于机器学习的对角/非对角 PES 构建方法仍十分有限,如何精准刻画多电子态体系仍是一大难题。

对于延展体系,尽管原子级 MLP 模型已取得显著进展,但多数方法对多体结构的表达仍限于有限阶数。等变 MPNN 模型具备更强的表达与泛化能力,但其多阶张量操作导致计算成本偏高,如何构建高效的等变模型成为研究热点。此外,MPNN 中每一层消息传递之间的依赖性也使得大规模分子动力学模拟中并行效率受限,需要更复杂的并行策略。

长程作用的建模仍具提升空间,尽管已有策略(如 Ewald 求和)在 MPNN 中取得初步成效。近年来,MLPs 也开始探索外加电场下的建模能力,可用于极化、电荷响应等电场诱导行为的模拟。

一个显著趋势是“通用势能模型(Universal Potentials, UPs)”的兴起。这类模型尝试构建能泛化至任意体系的统一势能函数,并在材料、分子等多个领域取得进展。然而,现有 UP 多训练于晶体或材料相关数据,在化学空间的覆盖仍有限。要实现更广泛适用性,训练数据应覆盖周期表全部元素及其组合,包含分子、固体、液体、界面、缺陷与反应构型等多样体系。同时,更高效的数据采样策略仍是当前的瓶颈。

此外,现有 UP 多基于百万级以上参数的 GNN 或 MPNN 架构,计算速度慢、内存需求高,如何在保证精度的前提下构建更轻量的模型仍需进一步研究。尽管当前 UP 可较好预测稳定结构,但其在反应体系中是否具备广泛泛化能力仍有待全面验证。

总体而言,随着大数据平台的完善与机器学习方法的不断突破,研究人员对通用势能模型的发展前景持乐观态度,期待其在未来为原子模拟带来更大拓展空间,推动多领域应用的融合与创新。

整理 | WJM

参考资料

Xia, J., Zhang, Y., & Jiang, B. (2025). The Evolution of Machine Learning Potentials for Molecules, Reactions and Materials. Chem. Soc. Rev., 2025

https://doi.org/10.1039/D5CS00104H

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变
今天为大家介绍的是来自多伦多大学的Alán Aspuru-Guzik团队的一篇论文。计算化学是理解分子和预测化学性质的重要工具。然而,由于求解薛定谔方程的困难以及随着分子系统规模增加而带来的计算成本的增加,传统的计算方法面临着重大挑战。为此,利用人工智能(AI)和机器学习(ML)技术进行计算实验引起了极大的兴趣。将AI和ML引入计算化学可以提高化学空间探索的可扩展性和速度。然而,在ML模型的可重复性和可转移性方面挑战依然存在。这篇综述强调了ML在学习、补充或替代传统计算化学以进行能量和性质预测方面的演变。从完全基于数值数据训练的模型开始,向着包含或学习量子力学物理规律的理想模型迈进。本文还回顾了现有的计算方法和ML模型及其相互结合,概述了未来研究的路线图,并确定了改进和创新的领域。最终目标是开发能够预测薛定谔方程准确且可转移解的AI架构,从而彻底变革化学和材料科学中的计算实验。
DrugAI
2024/07/16
4090
Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变
Nat. Comput. Sci. | 融合化学启发策略,拓展机器学习势的原子分解与多体表示能力
目前,大多数应用于凝聚态系统的机器学习势(machine learning potentials, MLPs)主要依赖于多体置换不变多项式(many-body permutationally invariant polynomials)或以原子为中心的神经网络(atom-centered neural networks)。然而,这些方法在实现原子级能量分解的化学可解释性方面面临挑战,同时也难以完全匹配传统力场的计算效率。本研究中,研究人员提出了一种融合上述两类方法优势的新策略,在准确性与接近力场级速度之间取得了良好平衡。该方法采用以单体为中心的表示方式(monomer-centered representation),将总势能分解为一系列具有化学意义的单体能量之和。每个单体的结构描述符由一体项和二体有效相互作用组成,这些相互作用通过适当构建的置换不变多项式输入至前馈神经网络中,从而实现能量预测。 研究人员对该方法在不同系统中的表现进行了系统评估,包括气相水三聚体、液态水、甲烷-水簇以及液态二氧化碳等体系。结果表明,该方法在准确性、计算效率和灵活性方面均有所提升,显示出在构建高精度机器学习势方面的巨大潜力,并有望应用于复杂分子系统的大规模量子力学与经典力场模拟中。
DrugAI
2025/04/18
1100
Nat. Comput. Sci. | 融合化学启发策略,拓展机器学习势的原子分解与多体表示能力
前沿报告 | 机器学习在化学和材料科学中的应用
机器学习方法已被应用于预测分子和固体的能量和性质,并且这种应用的受欢迎程度急剧增加。原子相互作用的量子性质使能量评估的计算量很大,因此,当需要进行许多此类计算时,机器方法尤其有用。近年来,ML 在化学和材料研究中的不断扩展的应用包括预测相关分子的结构,基于分子动力学模拟计算能表面,识别具有所需材料特性的结构以及创建机器学习的密度泛函。对于这些类型的问题,输入描述符必须以紧凑的方式解决原子环境中的差异。
数据科学人工智能
2022/03/31
2.3K0
前沿报告 | 机器学习在化学和材料科学中的应用
Chem. Sci. | 机器学习原子间势能模型AIMNet2实现复杂元素有机化合物模拟
近年来,机器学习原子间势能(MLIPs)的研究取得了显著进展,为大规模分子动力学模拟提供了一种高效且准确的替代方案。与传统的量子力学方法相比,MLIPs通过拟合量子力学势能面,可在接近量子精度的前提下实现计算效率的大幅提升。然而,现有MLIPs多局限于特定体系或少数元素,通用性不足。
DrugAI
2025/05/12
1400
Chem. Sci. | 机器学习原子间势能模型AIMNet2实现复杂元素有机化合物模拟
Drug Discov Today | 机器学习预测小分子pKa的进展和挑战
2022年9月24日,浙江大学药学院侯廷军教授团队在Drug Discovery Today上发表文章”Machine learning methods for pKa prediction of small molecules: Advances and challenges“。论文中作者总结了用于预测pKa的基于机器学习的两类QSAR模型(基于描述符的模型和基于图的模型),并对pKa预测当前遇到的挑战和未来的方向进行了深入的讨论和分析。
智药邦
2022/11/16
9780
Drug Discov Today | 机器学习预测小分子pKa的进展和挑战
原创 | 机器学习在分子动力学领域顶会论文初探
作者:王可汗 校对:陈之炎本文约2000字,建议阅读5分钟本文解读了机器学习在分子动力学领域的最新研究,带你速读4篇相关领域的最新顶会论文。 分子动力学是现代计算凝聚态物理的重要力量,它经常用于模拟材料。当前,以机器学习为代表的人工智能技术在分子动力学的科学计算领域潜力巨大,展示出旺盛的生命力和光明前景。本文解读了机器学习在分子动力学领域的最新研究,带你速读4篇相关领域的最新顶会论文。 1.论文题目原文: FORCES ARE NOT ENOUGH: BENCHMARK AND CRITICAL EVALU
数据派THU
2023/03/29
7860
原创 | 机器学习在分子动力学领域顶会论文初探
Nat. Commun. | 开发适用多种元素及合金的通用MLP,北京科技大学这样做
今天为大家介绍的是来自北京科技大学宿彦京团队发表的一篇论文。机器学习势能(MLPs)已经表现出显著的精度,但缺乏适用于广泛元素及其合金的通用型MLPs,限制了其应用范围。在本文中,作者构建了一个适用于多种元素的统一通用MLP,并通过一个针对16种金属元素及其合金的模型(UNEP-v1)进行演示。为了实现化学空间的完整表征,作者通过主成分分析和多样化的测试数据集,证明采用单组分和双组分系统就足以完成这一任务。该统一模型UNEP-v1在多个物理性质上展现出优于广泛使用的嵌入原子法势能的表现,同时保持了卓越的计算效率。通过再现实验观测到的化学顺序和稳定相,以及在MoTaVW合金中进行大规模的塑性和主要辐射损伤模拟,作者展示了该方法的有效性。
DrugAI
2024/12/20
2510
Nat. Commun. | 开发适用多种元素及合金的通用MLP,北京科技大学这样做
Chem. Sci. | 从大规模量子化学数据中学习分子力学力场
今天为大家介绍的是来自John D. Chodera团队的一篇论文。开发可靠且可扩展的分子力学(MM)力场——这些快速的用于描述分子系统势能面的经验模型——对于生物分子模拟和计算辅助药物设计是不可或缺的。在此,作者介绍了一种通用且可扩展的机器学习MM力场——espaloma-0.3,以及一个使用图神经网络的端到端可微分框架以克服传统基于规则的方法的限制。espaloma-0.3在单个GPU上训练一天即可拟合一个包含超过110万次能量和力计算的多样化量子化学数据集,能再现与药物发现高度相关的化学领域(包括小分子、肽和核酸)的量子化学能量特性。此外,该力场保持了小分子的量子化学能量最小化几何结构,并保留了肽和折叠蛋白的凝聚相特性,自洽地参数化蛋白质和配体,生成稳定的模拟结果,从而高度准确地预测结合自由能。此方法展示了系统构建更准确且易于扩展到新化学领域的力场的显著潜力。
DrugAI
2024/07/30
2210
Chem. Sci. | 从大规模量子化学数据中学习分子力学力场
量子化学进入机器学习时代
有“机器学习教父”之称的CMU教授Tom Mitchell曾给出过机器学习的经典定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们说关于T和P,该程序对E进行了学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。比如说,用机器学习来判定垃圾邮件,那么提供一堆邮件,其中一些是垃圾邮件,这就是经验E,邮件系统做到自动判定某邮件为垃圾邮件是任务T,而判定的正确率是性能P。
用户7592569
2020/07/27
2.2K0
量子化学进入机器学习时代
Nat. Mach. Intell. | 字节跳动AI团队开发机器学习力场模型,推动液体电解质研究新进展
尽管机器学习力场(Machine Learning Force Fields, MLFFs)在固体与小分子体系中已得到广泛应用,但在液体电解质模拟中的应用仍存在显著空白,而液体电解质正是当前商业锂离子电池中的关键组成部分。在本研究中,研究人员提出了由字节跳动人工智能团队开发的分子模拟加速器——BAMBOO(ByteDance Artificial intelligence Molecular simulation Booster),这是一个面向分子动力学模拟的预测型框架,并展示了其在锂电池液体电解质模拟中的应用潜力。
DrugAI
2025/04/10
3230
Nat. Mach. Intell. | 字节跳动AI团队开发机器学习力场模型,推动液体电解质研究新进展
业界 | 谷歌研究院在化学发力:应用机器学习技术预测分子性质
最近,机器学习在化学领域的应用有很大进展,特别是化学搜索问题,从药物筛选、电池设计到OLEDs设计,催化剂的发现。 历史上化学家使用薛定谔方程做数值近似来解决化学检索问题,如使用密度泛函理论(DFT),然而近似值的计算成本限制了搜索的规模。 为了能够扩大搜索能力,AI科技评论了解到已有几个研究小组使用DFT生成的训练数据,创建ML模型来预测化学性质,例如Matthias Rupp等用机器学习模型来预测各种有机分子的原子化能,Jörg Behler 和 Michele Parrinello引入DFT势能面的
AI科技评论
2018/03/12
1.2K0
Chem Rev|人工智能和机器学习算法在结晶研究中的应用
2022年6月27日,来自杨森研发部结晶技术部门的Christos Xiouras和雅典国立技术大学化学工程学院的Georgios D. Stefanidis等人在Chem Rev杂志发表文章Applications of Artificial Intelligence and Machine Learning Algorithms to Crystallization。
智药邦
2023/02/14
1.8K0
Chem Rev|人工智能和机器学习算法在结晶研究中的应用
助力前沿基础科学研究,飞桨联手深度势能推动分子模拟新生态建设
开源开放已经成为驱动技术创新和加速产业发展的核心动能。开源开放对人类社会过去几百年科学和技术的发展起到非常重要的作用,让我们可以更快追踪到最新的技术进展。
用户1386409
2021/05/07
9800
助力前沿基础科学研究,飞桨联手深度势能推动分子模拟新生态建设
鄂维南院士 | 机器学习:数学理论和科学应用
本文是2019年7月在西班牙瓦伦西亚举办的国际工业与应用数学大会上Peter Henrici奖讲座的报告。本报告将对以下内容做一个广泛的综述:
数据科学人工智能
2022/03/30
1.8K0
业界 | 分子性质预测新突破:谷歌新型神经网络助力化学研究
选自Google Research Blog 作者:George Dahl 机器之心编译 参与:吴攀 理论上讲,由原子构成的分子种类的数量是无穷大的。要了解这些分子的性质,化学家往往要进行很多严格的实验,随着新分子的不断出现,这样的工作也是无穷无尽的。为了帮助化学家更快地预测出分子的性质并协助进一步的开发(比如发现新药物或新材料),计算机科学家也在尝试构建能够基于分子的基本数据预测分子性质的算法和模型。近日,谷歌等机构的研究者发表了两篇论文介绍了他们在这方面的研究进展——达到了当前最佳的预测表现。在本文中,
机器之心
2018/05/07
1.5K0
业界 | 分子性质预测新突破:谷歌新型神经网络助力化学研究
Drug Discov Today|配体-蛋白的分子对接中的机器学习
2021年9月21日,Drug Discovery Today杂志在线发表文章,文章概述和讨论了配体-蛋白的分子对接中机器学习(尤其是深度学习)的应用。
智药邦
2021/11/10
1.7K0
Drug Discov Today|配体-蛋白的分子对接中的机器学习
以前所未有的原子数量进行量子力学模拟,机器学习发现新的高压固体氢
---- 将 ScienceAI 设为星标 第一时间掌握 新鲜的 AI for Science 资讯 ---- 编辑 | 绿萝 氢是宇宙中最为丰富的元素。从外太空到恒星,再到地球上的许多物质,氢无处不在。 氢是元素周期表中的第一个元素,它的单个原子也是所有元素中最简单的,只有一个质子和一个电子。 对于伊利诺伊大学厄巴纳-香槟分校(UIUC)的物理学教授 David Ceperley 来说,这使得氢成为构建和测试物质理论的自然起点。他使用计算机模拟来研究氢原子如何相互作用和结合以形成固体、液体和气体。然而
机器之心
2023/05/09
2180
以前所未有的原子数量进行量子力学模拟,机器学习发现新的高压固体氢
专访 | 分子科学中的机器学习:不会燎原的星星之火?
机器之心原创 作者:邱陆陆 继计算机视觉、语音识别、自然语言处理之后,谁是下一个迎来深度学习的浪潮冲击的领域?聚集了世界上最聪明头脑的自然科学领域会不会「首当其冲」?科学家们如何应用深度学习?他们是否担心被神经网络取代?我们在上海纽约大学主办的「分子科学中的机器学习方法及应用」暑期学校里,与三位分子科学教授聊了聊。 机器学习的热度已经蔓延到了自然科学领域。如果你在今年夏天走进高校物理系的论文答辩现场,会发现「机器学习」成为了物理系论文中仅次于「物理」的高频词汇。「没提到机器学习简直可以算作文章的一个亮点了」
机器之心
2018/05/09
7930
专访 | 分子科学中的机器学习:不会燎原的星星之火?
Nat. Commun. | 机器学习势能中的炼金自由度:插值与微分新策略
机器学习原子间势(MLIPs)已成为现代原子模拟的重要工具。近期,基于大规模数据集预训练的通用MLIPs展现出优异的精度与泛化能力。然而,其计算成本仍限制了在化学无序系统(需大尺寸模拟单元)或采样密集型统计方法中的应用。研究人员在本研究中引入了连续且可微的炼金自由度,利用图神经网络MLIPs中将元素表示为实值张量的特性。该方法在输入图中加入具有权重的炼金原子,并调整了MLIP的消息传递与读出机制,从而实现材料组成状态之间的平滑插值。借助MLIP的端到端可微性,研究人员可高效计算能量对组成权重的梯度。据此,提出了用于优化固溶体组成以实现目标宏观性质、解析多组分氧化物的有序与无序结构,以及开展炼金自由能模拟以量化空位形成与成分变化自由能的方法。
DrugAI
2025/05/12
1550
Nat. Commun. | 机器学习势能中的炼金自由度:插值与微分新策略
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
分子表示是本研究理解物质世界的关键要素,也是现代分子机器学习的基础。以往的分子机器学习模型通常使用字符串、指纹特征、全局特征以及简单的分子图,这些表示方式本质上信息较为稀疏。然而,随着预测任务复杂度的提升,分子表示需要编码更高保真度的信息。本研究提出了一种新的方法,通过立体电子效应将富含量子化学信息的数据注入分子图中,从而增强其表达能力与可解释性。通过定制的双图神经网络流程学习预测含立体电子信息的分子表示,使该表示能够应用于任何下游的分子机器学习任务,而无需昂贵的量子化学计算。本研究表明,显式地加入立体电子信息能显著提升二维图神经网络模型在分子性质预测任务中的性能。此外,本研究还展示了在小分子上训练得到的分子表示可以准确地外推至更大的分子结构,揭示了先前难以处理的体系(如完整蛋白质)中轨道相互作用的化学机理,为分子设计开辟了新途径。
DrugAI
2025/06/07
1170
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
推荐阅读
Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变
4090
Nat. Comput. Sci. | 融合化学启发策略,拓展机器学习势的原子分解与多体表示能力
1100
前沿报告 | 机器学习在化学和材料科学中的应用
2.3K0
Chem. Sci. | 机器学习原子间势能模型AIMNet2实现复杂元素有机化合物模拟
1400
Drug Discov Today | 机器学习预测小分子pKa的进展和挑战
9780
原创 | 机器学习在分子动力学领域顶会论文初探
7860
Nat. Commun. | 开发适用多种元素及合金的通用MLP,北京科技大学这样做
2510
Chem. Sci. | 从大规模量子化学数据中学习分子力学力场
2210
量子化学进入机器学习时代
2.2K0
Nat. Mach. Intell. | 字节跳动AI团队开发机器学习力场模型,推动液体电解质研究新进展
3230
业界 | 谷歌研究院在化学发力:应用机器学习技术预测分子性质
1.2K0
Chem Rev|人工智能和机器学习算法在结晶研究中的应用
1.8K0
助力前沿基础科学研究,飞桨联手深度势能推动分子模拟新生态建设
9800
鄂维南院士 | 机器学习:数学理论和科学应用
1.8K0
业界 | 分子性质预测新突破:谷歌新型神经网络助力化学研究
1.5K0
Drug Discov Today|配体-蛋白的分子对接中的机器学习
1.7K0
以前所未有的原子数量进行量子力学模拟,机器学习发现新的高压固体氢
2180
专访 | 分子科学中的机器学习:不会燎原的星星之火?
7930
Nat. Commun. | 机器学习势能中的炼金自由度:插值与微分新策略
1550
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
1170
相关推荐
Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档