Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习模型以出色的精度进行有机反应机理分类

机器学习模型以出色的精度进行有机反应机理分类

作者头像
机器之心
发布于 2023-03-29 04:53:30
发布于 2023-03-29 04:53:30
4730
举报
文章被收录于专栏:机器之心机器之心

编辑 | 绿萝

化学反应的发现不仅受到获得实验数据的速度的影响,还受到化学家理解这些数据的难易程度的影响。揭示新的催化反应的机理基础是一个特别复杂的问题,通常需要计算和物理有机化学的专业知识。然而,研究催化反应很重要,因为它们代表了最有效的化学过程。

近日,来自英国曼彻斯特大学(UoM)化学系的 Burés 和 Larrosa 报告了一种机器学习模型,展示了可以训练深度神经网络模型来分析普通动力学数据并自动阐明相应的机理类别,而无需任何额外的用户输入。该模型以出色的精度识别各种类型的机理。

研究结果表明,人工智能引导的机理分类是一种强大的新工具,可以简化和自动化机理阐明。预计这项工作将进一步推动全自动有机反应发现和开发的发展。

该研究以「Organic reaction mechanism classification using machine learning」为题,于 2023 年 1 月 25 日发布在《Nature》上。

论文链接:https://www.nature.com/articles/s41586-022-05639-4

化学反应机理的传统阐明方式

确定将底物转化为产品所涉及的基本步骤的确切顺序,对于合理改进合成方法、设计新催化剂和安全扩大工业过程至关重要。为了阐明反应机理,需要收集多个动力学曲线,人类专家必须对数据进行动力学分析。尽管反应监测技术在过去几十年中有了显著改进,以至于动力学数据收集可以完全自动化,但机理阐明的基础理论框架并没有以同样的速度发展。

当前的动力学分析流程包括三个主要步骤:从实验数据中提取动力学特性,预测所有可能机理的动力学特性,以及将实验提取的特性与预测的特性进行比较。

一个多世纪以来,化学家们一直在从反应速率中提取机理信息。今天仍在使用的一种方法是评估反应的初始速率,重点关注最初百分之几的起始物质的消耗。这种方法很受欢迎,因为在大多数情况下,反应物浓度随时间的变化在反应开始时是线性的,因此分析起来很简单。虽然很有见解,但这种技术忽略了在大部分时间过程中发生的反应速率和浓度的变化。

在过去的几十年里,已经发展出了更先进的方法来评估整个反应过程中反应组分的浓度。数学技术进一步促进了这些方法,这些技术从反应动力学图中揭示了参与一个反应步骤的组分的数量(也称为反应组分的顺序)。这些技术肯定会继续为化学反应性提供深刻的见解,但它们局限于分析反应组分的顺序,而不是提供一个更全面的机理假设来描述催化系统的动力学行为。

图 1:动力学分析的相关性和最新技术。(来源:论文)

AI 改变动力学分析领域

机器学习正在彻底改变化学家解决问题的方式,从设计分子和路线到合成分子,再到理解反应机理。Burés 和 Larrosa 现在通过机器学习模型,根据模拟的反应动力学特征对反应进行分类,为动力学分析带来了这场革命。

在这里,研究人员证明了一个基于模拟动力学数据训练的深度学习模型能够正确地阐明来自时间浓度分布的各种机理。机器学习模型消除了速率定律推导和动力学性质提取和预测的需要,从而简化了动力学分析,极大地促进了所有合成实验室对反应机理的阐明。

由于对所有可用动力学数据进行了整体分析,该方法提高了询问反应曲线的能力,消除了动力学分析过程中潜在的人为错误,并扩大了可分析的动力学范围,包括非稳态(包括活化和失活过程)和可逆反应。这种方法将是对目前可用的动力学分析方法的补充,并将在最具挑战性的情况下特别有用。

具体研究

研究人员定义了 20 类反应机理,并为每一类制定了速率定律。每种机理都由一组动力学常数(k1, … kn) 和化学物质浓度的常微分方程(ODE)函数进行数学描述。然后,他们求解了这些方程式,生成了数百万个描述反应物衰变和产物生成的模拟。这些模拟动力学数据用于训练学习算法以识别每个机理类别的特征签名。生成的分类模型使用动力学曲线作为输入,包括初始和时间浓度数据,并输出反应的机理类别。

图 2:机理范围和数据构成。(来源:论文)

深度学习模型的训练通常需要大量数据,当必须通过实验收集这些数据时,这可能会带来相当大的挑战。

Burés 和 Larrosa 训练算法的方法避免了产生大量实验动力学数据的瓶颈。在案例中,研究人员能够通过数值求解 ODE 集来生成 500 万个动力学样本用于模型的训练和验证,而无需使用稳态近似。

模型包含 576,000 个可训练参数,并结合使用两种类型的神经网络:(1) 长短期记忆神经网络,一种用于处理时间数据序列(即时间浓度数据)的循环神经网络;(2) 全连接神经网络,用于处理非时间数据(即每次动力学运行中催化剂的初始浓度和长短期记忆提取的特征)。该模型输出每种机理的概率,概率总和等于 1。

研究人员使用模拟动力学曲线的测试集评估了训练模型,并证明它正确地将这些曲线分配给机理类,准确率为 92.6%。

图 3:机器学习模型在测试集上的性能,每个动力学曲线有六个时间点。(来源:论文)

即使有意引入「嘈杂」数据,该模型也表现良好,这意味着它可用于对实验数据进行分类。

图 4:误差和数据点数量对机器学习模型性能的影响。(来源:论文)

最后,研究人员使用先前报道的几个实验动力学曲线对他们的模型进行了基准测试。预测的机理与早期动力学研究的结论非常吻合。在某些情况下,该模型还识别了在原始工作中没有检测到的机理细节。对于一个具有挑战性的反应,该模型提出了三个非常相似的机理类别。然而,作者正确地说,这个结果不是一个错误,而是他们模型的一个特征,因为它表明需要进一步的具体实验来探索机理。

图 5:具有实验动力学数据的案例研究。(来源:论文)

总之,Burés 和 Larrosa 开发了一种方法,不仅可以自动执行从动力学研究中推导出机理假设的漫长过程,还可以对具有挑战性的反应机理进行动力学分析。与数据分析中的任何技术进步一样,由此产生的机理分类应被视为需要进一步实验支持的假设。误解动力学数据的风险始终存在,但该算法能够在少量实验的基础上以高精度识别正确的反应路径,可以说服更多研究人员尝试动力学分析。

因此,这种方法可以普及和推动动力学分析纳入反应开发流程,尤其是当化学家对机器学习算法越来越熟悉时。

参考内容:https://www.nature.com/articles/d41586-023-00145-7

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星,并点击右下角点赞和在看。

点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
7 Papers | AAAI 2023杰出论文奖;AI生成文本检测方法综述
机器之心 & ArXiv Weekly  参与:杜伟、楚航、罗若天 本周论文包括获得 AAAI 2023 杰出论文奖的 CowClip 算法,以及现有 AI 生成文本检测方法的全面技术介绍 。 目录: CowClip: Reducing CTR Prediction Model Training Time from 12 hours to 10 minutes on 1 GPU DyStyle: Dynamic Neural Network for Multi-Attribute-Conditioned S
机器之心
2023/02/23
7210
7 Papers | AAAI 2023杰出论文奖;AI生成文本检测方法综述
加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取
上海交通大学密西根学院助理教授贺玉莲课题组,针对确定决定 Eads 的关键物理量提出了一种新方法,即基于自动机器学习 (AutoML) 的特征删除实验,从高通量密度泛函理论 ( density functional theory, DFT) 数据库中实现了知识的自动提取。
HyperAI超神经
2024/04/19
2210
加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取
Nat. Mach. Intell. | 字节跳动AI团队开发机器学习力场模型,推动液体电解质研究新进展
尽管机器学习力场(Machine Learning Force Fields, MLFFs)在固体与小分子体系中已得到广泛应用,但在液体电解质模拟中的应用仍存在显著空白,而液体电解质正是当前商业锂离子电池中的关键组成部分。在本研究中,研究人员提出了由字节跳动人工智能团队开发的分子模拟加速器——BAMBOO(ByteDance Artificial intelligence Molecular simulation Booster),这是一个面向分子动力学模拟的预测型框架,并展示了其在锂电池液体电解质模拟中的应用潜力。
DrugAI
2025/04/10
1930
Nat. Mach. Intell. | 字节跳动AI团队开发机器学习力场模型,推动液体电解质研究新进展
Drug Discov Today|赛诺菲:机器学习引导的早期小分子药物发现
2022年3月29日,赛诺菲的NikhilPillai等人在Drug Discov Today杂志发表文章,分析和反思了机器学习在临床前小分子药物发现中的多种应用,并简要介绍了机器学习任务中的分子表征方法。
智药邦
2022/04/13
8140
Drug Discov Today|赛诺菲:机器学习引导的早期小分子药物发现
Nat. Comput. Sci. | 化学反应网络和机器学习的机会
今年1月中旬,Nature Computational Science上刊登了一篇名为“Chemical reaction networks and opportunities for machine learing”的文章,此文旨在向读者展示机器学习在化学反应网络中的潜在作用和巨大机遇。
DrugAI
2023/02/17
6660
Nat. Comput. Sci. | 化学反应网络和机器学习的机会
mLife|华东师范大学张鲁嘉团队:高效的酶智能设计平台NAC4ED
计算方法包括分子对接、分子动力学、量子力学和多尺度QM/MM方法等,已被广泛用于研究酶催化机制和酶的设计。但这些会涉及大量手动操作,这显然对高通量方式模拟酶和突变体是不友好的。
智药邦
2025/01/07
6560
mLife|华东师范大学张鲁嘉团队:高效的酶智能设计平台NAC4ED
Chem Sci|分子形变能量计算:南方科技大学钟龙华团队推出D2AF软件
人们开发了许多理论和模型来了解化学过程。例如,过渡态理论 (TST)和马库斯理论,以及基于轨道的理论如前线分子轨道 (FMO)、伍德沃德-霍夫曼规则、价键 (VB)、自然键轨道 (NBO)从轨道角度提供了对反应更直观的见解。由Houk和Bickelhaupt等人开创的Distortion/Interaction-Activation Strain,简称为D/IAS模型能分析化学反应速率。该模型结合了分子几何形变(畸变)和反应物之间的相互作用,来解释和预测化学反应的活化能。
智药邦
2025/02/10
1580
Chem Sci|分子形变能量计算:南方科技大学钟龙华团队推出D2AF软件
基于AI的连续流反馈系统加速化学反应开发
今天给大家介绍的是ASCOUNTS of chemical research上有关连续流的文章 "Feedback in Flow for Accelerated Reaction Development"
智药邦
2021/06/07
1.4K0
基于AI的连续流反馈系统加速化学反应开发
迁移学习「求解」偏微分方程,条件偏移下PDE的深度迁移算子学习
本文约3200字,建议阅读5分钟 迁移学习框架能够快速高效地学习异构任务。 传统的机器学习算法旨在孤立地学习,即解决单个任务。在许多实际应用中,收集所需的训练数据和重建模型要么成本高得令人望而却步,要么根本不可能。 迁移学习(TL)能够将在学习执行一个任务(源)时获得的知识迁移到一个相关但不同的任务(目标),从而解决数据采集和标记的费用、潜在的计算能力限制和数据集分布不匹配的问题。 来自美国布朗大学和约翰斯·霍普金斯大学(JHU)的研究人员提出了一种新的迁移学习框架,用于基于深度算子网络 (DeepONet
数据派THU
2023/03/29
6500
迁移学习「求解」偏微分方程,条件偏移下PDE的深度迁移算子学习
中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数
中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。
HyperAI超神经
2024/01/17
7780
中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数
JACS|一种支持机器学习的开源化学反应数据库
目前,化学反应数据通常以非结构化的形式存储,这给下游应用(包括机器学习模型的训练)带来了重大阻碍。
智药邦
2021/12/20
2.9K0
JACS|一种支持机器学习的开源化学反应数据库
ACS Cent. Sci. | 为构建化学反应性模型而设计数据集
今天为大家介绍的是来自Connor W. Coley团队的一篇论文。模型可以将我们对化学反应性的理解具体化,并在新合成过程的发展中发挥有用的作用。例如,它们可以用来评估假设的反应条件或在计算机中模拟基质的耐受性。作者认为或许最决定性的因素是训练数据的组成,以及这些数据是否足够训练出一个能够在整个关注领域内做出准确预测的模型。在这里,作者讨论了如何设计反应数据集以促进数据驱动的建模,并强调训练集的多样性和模型的泛化能力依赖于分子或反应表征的选择。
DrugAI
2024/01/11
3470
ACS Cent. Sci. | 为构建化学反应性模型而设计数据集
Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变
今天为大家介绍的是来自多伦多大学的Alán Aspuru-Guzik团队的一篇论文。计算化学是理解分子和预测化学性质的重要工具。然而,由于求解薛定谔方程的困难以及随着分子系统规模增加而带来的计算成本的增加,传统的计算方法面临着重大挑战。为此,利用人工智能(AI)和机器学习(ML)技术进行计算实验引起了极大的兴趣。将AI和ML引入计算化学可以提高化学空间探索的可扩展性和速度。然而,在ML模型的可重复性和可转移性方面挑战依然存在。这篇综述强调了ML在学习、补充或替代传统计算化学以进行能量和性质预测方面的演变。从完全基于数值数据训练的模型开始,向着包含或学习量子力学物理规律的理想模型迈进。本文还回顾了现有的计算方法和ML模型及其相互结合,概述了未来研究的路线图,并确定了改进和创新的领域。最终目标是开发能够预测薛定谔方程准确且可转移解的AI架构,从而彻底变革化学和材料科学中的计算实验。
DrugAI
2024/07/16
3370
Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变
多组分反应的计算机辅助设计与发现
多组分反应(Multicomponent Reactions,简称MCRs)在有机化学中占据着重要地位,因为它们能够在一个步骤中将多个简单的起始材料转化为复杂的分子结构。这不仅大大提高了合成效率,还能显著减少反应步骤和原子损失,从而提升整体的步骤经济性和原子经济性。然而传统的MCRs主要是在尝试中发现的,数量有限,且大多数MCRs是在已有反应模式的基础上进行组合和扩展,并不算全新的反应。
DrugAI
2025/01/17
1030
多组分反应的计算机辅助设计与发现
Chem. Soc. Rev. | 机器学习势的发展:从分子到材料
近年来,机器学习势(MLPs, machine learning potentials)迅速发展,并广泛应用于化学、物理和材料科学。MLPs 通过将离散的从头算数据拟合为连续且保持对称性的数学形式,使得大规模、从第一性原理出发的原子级模拟变得高效而精确。本文综述了过去二十年来 MLPs 的发展历程,重点介绍近年来在分子、反应和材料领域提出的先进方法。研究人员还讨论了 MLPs 的代表性应用及其向通用势函数发展的趋势,并总结了该领域当前面临的挑战与机遇。
DrugAI
2025/04/18
2320
Chem. Soc. Rev. | 机器学习势的发展:从分子到材料
J. Med. Chem. | 机器学习遇上药物动力学,让候选药物“提前亮相”
今天为大家介绍的是来自美国剑桥赛诺菲定量药理学研究负责人Panteleimon D. Mavroudis与Nikhil Pillai团队的一篇论文。这项研究主要关注药物动力学(pharmacokinetic, PK)特征的预测工作。传统预测方法需要通过体外或体内测试获取参数,这些方法不仅耗时耗力,还会涉及伦理问题。为克服这些限制,研究团队开发了基于机器学习(Machine Learning, ML)的数据驱动模型。研究人员从公开数据源收集了大量小分子的物理化学和药物动力学特性数据,并从文献中提取了约800种化合物的人体血浆浓度-时间曲线数据。他们提出了两种创新性的预测框架:一种是将机器学习与生理药代动力学模型相结合的混合框架,另一种是通过两个学习阶段来直接预测药物动力学特征的机器学习框架。在对106种药物的测试中,这些框架展现出优秀的预测性能。在药物血浆浓度-时间曲线下面积(AUC)和最高血药浓度(Cmax)这两个关键指标上,40-60%的化合物预测误差在2倍以内,80-90%的化合物预测误差在5倍以内。这些方法有望提升早期药物筛选和设计效率,推动药物研发能力的进步。
DrugAI
2025/04/10
2000
J. Med. Chem. | 机器学习遇上药物动力学,让候选药物“提前亮相”
J. Chem. Inf. Model. | 预测化学反应产率面临的挑战
今天为大家介绍的是来自Varvara Voinarovska团队的一篇论文。这篇论文讨论了器学习(ML)在预测化学领域的高级特性(如产率、化学合成的可行性和最佳反应条件)时面临的挑战。这些挑战来源于预测任务的高维性质以及涉及的众多关键变量,包括反应物、试剂、催化剂、温度和纯化过程等。成功开发出可靠的预测模型不仅有助于优化高通量实验,还可以提升现有的逆合成预测方法,并在该领域内的多种应用中发挥重要作用。
DrugAI
2024/02/23
5470
J. Chem. Inf. Model. | 预测化学反应产率面临的挑战
工程院院士钱锋团队Nature 子刊新作:基于深度学习实现“基因转录”过程高精度解析
5月11日,一篇题为“Neural network aided approximation andparameter inference of non-Markovian models of gene expression”(人工神经网络辅助的非马尔可夫基因表达模型近似与参数推断)的论文登上Nature子刊《Nature Communications》。
AI科技评论
2021/05/19
1.3K0
工程院院士钱锋团队Nature 子刊新作:基于深度学习实现“基因转录”过程高精度解析
Chem Rev|人工智能和机器学习算法在结晶研究中的应用
2022年6月27日,来自杨森研发部结晶技术部门的Christos Xiouras和雅典国立技术大学化学工程学院的Georgios D. Stefanidis等人在Chem Rev杂志发表文章Applications of Artificial Intelligence and Machine Learning Algorithms to Crystallization。
智药邦
2023/02/14
1.7K0
Chem Rev|人工智能和机器学习算法在结晶研究中的应用
Nat Rev Drug Discov|深度学习与QSAR的融合
2023年12月8日,来自北卡罗来纳大学教堂山分校的Alexander Tropsha、卡内基梅隆大学的Olexandr Isayev等研究人员在Nature Reviews Drug Discovery发表综述文章Integrating QSAR modelling and deep learning in drug discovery: the emergence of deep QSAR。
智药邦
2024/03/05
4940
Nat Rev Drug Discov|深度学习与QSAR的融合
推荐阅读
7 Papers | AAAI 2023杰出论文奖;AI生成文本检测方法综述
7210
加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取
2210
Nat. Mach. Intell. | 字节跳动AI团队开发机器学习力场模型,推动液体电解质研究新进展
1930
Drug Discov Today|赛诺菲:机器学习引导的早期小分子药物发现
8140
Nat. Comput. Sci. | 化学反应网络和机器学习的机会
6660
mLife|华东师范大学张鲁嘉团队:高效的酶智能设计平台NAC4ED
6560
Chem Sci|分子形变能量计算:南方科技大学钟龙华团队推出D2AF软件
1580
基于AI的连续流反馈系统加速化学反应开发
1.4K0
迁移学习「求解」偏微分方程,条件偏移下PDE的深度迁移算子学习
6500
中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数
7780
JACS|一种支持机器学习的开源化学反应数据库
2.9K0
ACS Cent. Sci. | 为构建化学反应性模型而设计数据集
3470
Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变
3370
多组分反应的计算机辅助设计与发现
1030
Chem. Soc. Rev. | 机器学习势的发展:从分子到材料
2320
J. Med. Chem. | 机器学习遇上药物动力学,让候选药物“提前亮相”
2000
J. Chem. Inf. Model. | 预测化学反应产率面临的挑战
5470
工程院院士钱锋团队Nature 子刊新作:基于深度学习实现“基因转录”过程高精度解析
1.3K0
Chem Rev|人工智能和机器学习算法在结晶研究中的应用
1.7K0
Nat Rev Drug Discov|深度学习与QSAR的融合
4940
相关推荐
7 Papers | AAAI 2023杰出论文奖;AI生成文本检测方法综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档