Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nature|利用大型语言模型开展自主化学研究

Nature|利用大型语言模型开展自主化学研究

作者头像
智药邦
发布于 2024-03-05 09:11:30
发布于 2024-03-05 09:11:30
2830
举报
文章被收录于专栏:智药邦智药邦

化学研究以迭代循环为基础,通过设计、执行和改进实验来实现特定目标。研究人员的经验和直觉在最初的设计和随后的优化过程中起着至关重要的作用,而这在以前的化学研究自主系统中是无法复制的。

2023年12月20日,Boiko 等人在Nature上报发表文章Autonomous chemical research with large language models,介绍了一种名为"Coscientist"的人工智能系统。

Coscientist 是一个由 GPT-4 驱动的人工智能系统,它能自主设计、规划和执行复杂的实验,并将大型语言模型与互联网和文档搜索、代码执行和实验自动化等工具相结合。Coscientist 展示了其在六个不同任务中加速研究的潜力,包括钯催化交叉耦合反应的成功优化,同时展示了(半)自主实验设计和执行的先进能力。研究结果表明,像 Coscientist 这样的人工智能系统在推动研究方面具有多功能性、有效性和可解释性。

图1 系统结构

a, Coscientist 由多个模块组成,这些模块可以交换信息。蓝色背景的方框代表 LLM 模块,规划模块用绿色表示,输入提示用红色表示。白色方框代表不使用 LLM 的模块。b, 实验类型,展示使用单个模块或模块组合时的能力。c, 带液体处理器的实验装置图片。

化学家的工作是多方面的--不仅需要执行化学反应的技术技能,还需要规划化学反应的知识。但是,化学反应往往无法以可接受的产率提供产物,而搜索文献、确定下一个(或多个)实验以及执行这些实验的反复过程也会迅速变得繁琐。

因此,化学家们长期以来一直渴望开发自动化系统,以方便他们的工作。

此时,人工智能在化学领域取得了长足进步,为规划任务中的决策提供指导。然而,这些人工智能工具通常是为执行单一操作而训练的,对化学研究各个方面的一般理解超出了它们的能力范围。这些局限性让人们无法实现建立一种工作环境的梦想--人们可以监督能够自主规划和执行实验的机器人。

然而,作为 ChatGPT聊天机器人背后的工作动力,生成式预训练转换器(GPT)的出现突然为化学家提供了自动化难题中的重要一环。通过"理解"人类的自然语言,GPT 可以让机器与人互动,从而为特定问题提供解决方案。这些大型语言模型适用于广泛的主题,但它们在化学方面的能力却不尽如人意,需要实施额外的技巧--对模型进行微调--才能在化学应用中发挥有效作用。

有鉴于此,Boiko 等人现在开始探索是否有可能将经过微调的 GPT 串联起来,利用人类的单个提示,如 "您能合成分子 A 吗?"(图 2)来协调自动化实验室。这不仅需要理解问题,还需要确定成功完成任务所必须执行的任务。

图2 化学研究自动化人工智能系统

简而言之,人工智能 Coscientist 由以下模块组成:协助文献检索,找出合成途径,决定实验方案;编写代码,实现模块之间的通信;搜索硬件文档,以便触发机器人远程进行实验。Boiko 等人通过要求 Coscientist 确定七种分子的合成程序,对其网络搜索能力进行了基准测试,这些分子的复杂程度各不相同。这些例子包括扑热息痛、阿司匹林和布洛芬等畅销药物,也包括其他化合物。Coscientist 的表现优于其他 GPT,它能可靠地生成详细和化学准确的合成程序。

图3 Coscientist在化学合成规划任务方面的能力

更有趣的是,Coscientist 能够设计方案并协调两种类型反应的执行,即所谓的 Sonogashira 和 Suzuki-Miyaura 交叉偶联反应,这两种反应在药物研发中通常用于形成碳-碳键。一旦确定了这两种交叉偶联反应所需的反应物,Coscientist 就能正确计算出所需的量,并通过对移液机器人进行编程,使其能够获得化学品的储备溶液,从而将它们混合在一起。反应成功地得到了预期产物。不仅如此,Coscientist 还根据化学反应规则选择使用何种试剂。

图4 由Coscientist设计和执行的交叉耦合Suzuki和Sonogashira反应实验

最后一个例子是,Coscientist 的任务是优化反应,最大限度地提高产品产量,其过程包括反复建议反应条件,并利用结果提出更好的实验建议。与贝叶斯优化法相比,在只有十个反应实例的情况下,Coscientist 的表现非常出色。在没有实例的情况下,GPT 对反应条件的初步建议有时很差。但当有了实例后,每次迭代后的建议都会迅速改进,这表明 Coscientist 能够随着时间的推移获取知识并调整推理。

图5 优化实验结果

Boiko 及其同事的研究结果有力地证明了当前版本的 Coscientist 能够半自主地进行实验。不过,它仍有一些局限性。正如作者所指出的,有时会出现化学反应不正确的情况。不过,通过使用复杂的提示策略以及以化学为重点的数据源,这些问题可以得到缓解。还需要注意的是,现实世界中的研究问题要比本研究中的问题复杂得多,往往涉及化学以外的学科概念,如药物开发中的生物学概念。目前,Coscientist 还无法解决这些复杂的问题。

总之,以上介绍的例子是朝着建立自动化实验室迈出的关键一步。然而,Coscientist 和其他即将问世的人工智能技术必须成熟起来,研究人员才能充分了解它们的不足之处以及如何在科学领域更好地使用它们。我们期待在不久的将来会有更多令人兴奋的发展。

参考资料:

1、 https://doi.org/10.1038/d41586-023-03790-0

2、https://www.nature.com/articles/s41586-023-06792-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
4分钟成功复现诺奖!CMU开发GPT-4化学家,自主编码操控机器人颠覆化学研究登Nature
先是谷歌DeepMind的AI工具GNoME成功预测出200万种晶体结构,随后微软推出的MatterGen,大大加速了设计所需材料特性的速度。
新智元
2023/12/21
5150
4分钟成功复现诺奖!CMU开发GPT-4化学家,自主编码操控机器人颠覆化学研究登Nature
不到4分钟,这个GPT驱动的“化学家”能制造药物,还能复现诺奖研究!研究登Nature
你有没有想过,可能就在你阅读这篇文章的几分钟内,获得诺贝尔奖的化学反应就能被完美复刻出来。
大数据文摘
2023/12/21
2120
不到4分钟,这个GPT驱动的“化学家”能制造药物,还能复现诺奖研究!研究登Nature
GPT-4搞科研登Nature!布洛芬配方轻松拿捏,诺奖得主提出的复杂反应也能完成
要知道,2010年诺贝尔化学奖获得者就因为对该反应的研究才获奖的,这类反应可以高效地构建碳-碳键,生成很多以往很难甚至无法合成的物质。
量子位
2023/12/21
1980
GPT-4搞科研登Nature!布洛芬配方轻松拿捏,诺奖得主提出的复杂反应也能完成
Nature | 有机合成的数字化
2019年7月,普林斯顿大学的Ian W. Davies学者在Nature上发表了一篇文章——有机合成的数字化。
DrugAI
2021/01/29
8110
入门综述:机器学习在“逆合成+反应预测+自动化合成”的应用
近年来,化学合成和数据科学的交叉导致了一些新兴工具的出现,包括用于逆合成和反应预测的算法,以及用于高通量、自动化合成的机器人。近日,来自美国密歇根大学安娜堡分校的Tim Cernak、普林斯顿大学的Abigail G. Doyle和加州大学伯克利分校的Richmond Sarpong合作在Nature Reviews Methods Primers 上发表Primer文章,总结当前计算机科学尤其是机器学习在逆合成(图1b)、反应预测(图1c)和自动化合成领域(图1d)的应用,旨在向非计算专家介绍化学信息学理论领域的现状,包括实验和理论方面,以及目前使用的自动化软件和硬件。
智药邦
2021/07/14
1.7K0
入门综述:机器学习在“逆合成+反应预测+自动化合成”的应用
Nat. Rev. Mater. | 大型语言模型驱动的网状化学创新
网状化学研究分子构筑单元的连接,形成金属-有机框架(MOFs)和共价有机框架(COFs)等晶态扩展结构。大型语言模型(LLMs)作为生成式人工智能,可助力研究者从文献中提取知识、设计材料、收集与解析实验数据,从而加速科学发现。本综述探讨LLMs在研究中的应用,包括提示工程、知识与工具增强及微调优化。我们讨论如何构建“化学感知”模型,使其适配特定任务,并融入网状化学实践,将传统的“合成-表征-应用”经验驱动流程转化为基于合成-结构-性质-性能关系的发现循环。此外,我们探讨模块化LLM智能体如何嵌入多智能体实验系统(如自驱动机器人实验室)以优化繁重任务、辅助化学家,并降低LLMs在晶体生长等复杂问题中的应用门槛。本研究为计算与实验化学家提供洞见,助力LLMs在网状化学及更广泛材料科学领域的材料发现。
DrugAI
2025/02/07
720
Nat. Rev. Mater. | 大型语言模型驱动的网状化学创新
J. Chem. Inf. Model. | 预测化学反应产率面临的挑战
今天为大家介绍的是来自Varvara Voinarovska团队的一篇论文。这篇论文讨论了器学习(ML)在预测化学领域的高级特性(如产率、化学合成的可行性和最佳反应条件)时面临的挑战。这些挑战来源于预测任务的高维性质以及涉及的众多关键变量,包括反应物、试剂、催化剂、温度和纯化过程等。成功开发出可靠的预测模型不仅有助于优化高通量实验,还可以提升现有的逆合成预测方法,并在该领域内的多种应用中发挥重要作用。
DrugAI
2024/02/23
5270
J. Chem. Inf. Model. | 预测化学反应产率面临的挑战
Angew. Chem. Int. Ed. | 麻省理工学院融合大语言模型推进电化学反应探索
今天为大家介绍的是来自麻省理工学院Klavs F. Jensen教授团队的一篇论文。电化学C-H氧化反应是对碳氢化合物进行官能化的一种可持续路径,但识别合适的底物和优化合成仍然具有挑战性。在这项研究中,作者报告了一种结合机器学习和大语言模型的综合方法,以简化电化学C-H氧化反应的探索过程。利用批量快速筛选电化学平台,作者评估了广泛的反应,最初根据底物的反应性对其进行分类,同时大语言模型从文献数据中进行文本挖掘以增强训练集。由此产生的反应性预测机器学习模型实现了高精度(>90%),并能够对大量商业化分子进行虚拟筛选。为了优化选定底物的反应条件,作者提示大语言模型生成代码以迭代改善产率。这种人工智能协作方法被证明是有效的,能够高效地确定8种类药物物质或中间体的高产率条件。基于化学家给出的自然语言提示,作者对12种不同的大语言模型(包括LLaMA系列、Claude系列、OpenAI o1和GPT-4)在与机器学习相关的代码生成和函数调用方面的准确性和可靠性进行了基准测试,以展示其在加速四个不同任务的研究方面的潜力。此外,作者还收集了一个实验基准数据集,包括1071个电化学C-H氧化反应的反应条件和产率。
DrugAI
2024/12/30
1180
Angew. Chem. Int. Ed. | 麻省理工学院融合大语言模型推进电化学反应探索
Nature|谷歌DeepMind团队基于AI与机器人打造新型材料
2023年11月29日,谷歌DeepMind团队在Nature杂志上发表文章Scaling deep learning for materials discovery,介绍了其在材料科学领域取得的重要突破。Nature同期文章Google AI and robots join forces to build new materials对此进行了评述。
智药邦
2024/03/05
6020
Nature|谷歌DeepMind团队基于AI与机器人打造新型材料
基于AI的连续流反馈系统加速化学反应开发
今天给大家介绍的是ASCOUNTS of chemical research上有关连续流的文章 "Feedback in Flow for Accelerated Reaction Development"
智药邦
2021/06/07
1.4K0
基于AI的连续流反馈系统加速化学反应开发
基于文本表示推断化学反应的实验步骤
今天给大家介绍的是nature communications上有关化学反应实验步骤预测的文章 "Inferring experimental procedures from text-based representations of chemical reactions"。
智药邦
2021/06/07
1.3K0
基于文本表示推断化学反应的实验步骤
JMC | 人工智能在药物合成中的当前和未来作用(1)
人工智能和机器学习已经证明了其在预测化学性质和小分子合成设计中的潜在作用。数据驱动的合成路线设计是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)联盟开发和评估的一部分,该联盟包括MIT和13个化学和制药公司成员。他们一起写了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登于2020年4月JMC,分享了如何将预测模型整合到药物合成工作流程中,如何在MLPDS成员公司中使用预测模型以及该领域的前景。
DrugAI
2021/02/02
7790
JMC | 人工智能在药物合成中的当前和未来作用(1)
Chem. Sci. | SynAsk:首个可公开访问的特定化学领域大语言模型
今天为大家介绍的是来自广州国家实验室廖矿标课题组的一篇论文。自然语言处理(NLP)领域随着大语言模型(LLMs)的出现经历了一场变革性的转变,在各种语言任务和应用中掀起了一场革命。将LLMs整合到特定领域可增强其在特定领域的应用能力。值得注意的是,NLP在有机化学领域取得了重大进展,尤其是在预测合成任务方面,为专门针对有机化学领域开发LLMs铺平了道路。本研究介绍了SynAsk,这是一个由AIChemEco公司开发的综合性有机化学特定领域LLM平台。通过使用特定领域数据对LLM进行微调,并将其与思维链方法相结合,SynAsk可以无缝访问我们的知识库和高级化学工具,以问答格式实现功能。这种新颖的方法将微调技术与外部资源整合相结合,形成了一个专门针对有机化学的模型,有助于推动该领域的研究和发现。SynAsk可在https://synask.aichemeco.com上访问,代表了在利用自然语言处理进行合成应用方面的重大进步。
DrugAI
2025/01/02
3690
Chem. Sci. | SynAsk:首个可公开访问的特定化学领域大语言模型
Nat. Mach. Intel. | 面向未来药物化学家的Transformers
化学反应可以被归为不同的类别,但在大规模的情况下,确定一个特定的反应属于什么类别并不是一件小事。一项新的研究展示了利用自然语言处理(NLP)的方法对化学反应进行数据驱动的自动分类。
智能生信
2021/03/03
5580
Nat. Mach. Intel. | 面向未来药物化学家的Transformers
Artif. Intell. Chem. | 人工智能推动化学发展的二十种方式
2024年诺贝尔物理学奖颁给了神经网络的发展,而化学奖的一半则颁给了利用人工智能 (AI) 预测蛋白质结构的人,显然这项技术已经在科学界掀起了波澜。人工智能也在深刻地重塑化学行业。从加速分子设计的算法到提高实验速度和准确性的自动化实验室,人工智能正在改变化学家解决复杂问题的方式。它的影响遍及材料发现、反应优化和可持续发展工作,使其成为现代化学中不可或缺的力量。
DrugAI
2024/11/23
7780
Artif. Intell. Chem. | 人工智能推动化学发展的二十种方式
NAT CHEM|人工智能的、增强智能的和自动化的化学
2021年8月16日,Nature Chemistry杂志发表了一篇南安普顿大学物理化学教授、AI3SD Network+首席研究员Jeremy Frey的专访文章。在这篇文章中,Jeremy Frey谈论了机器学习数据质量不确定性的危险以及人工智能与其他技术的协同作用。
智药邦
2021/09/06
5500
NAT CHEM|人工智能的、增强智能的和自动化的化学
机器学习模型以出色的精度进行有机反应机理分类
编辑 | 绿萝 化学反应的发现不仅受到获得实验数据的速度的影响,还受到化学家理解这些数据的难易程度的影响。揭示新的催化反应的机理基础是一个特别复杂的问题,通常需要计算和物理有机化学的专业知识。然而,研究催化反应很重要,因为它们代表了最有效的化学过程。 近日,来自英国曼彻斯特大学(UoM)化学系的 Burés 和 Larrosa 报告了一种机器学习模型,展示了可以训练深度神经网络模型来分析普通动力学数据并自动阐明相应的机理类别,而无需任何额外的用户输入。该模型以出色的精度识别各种类型的机理。 研究结果表明,人
机器之心
2023/03/29
4590
机器学习模型以出色的精度进行有机反应机理分类
Nature|GPT-4被吹爆,科学家担忧溢屏!
---- 新智元报道   编辑:Britta 【新智元导读】虽然GPT-4刚发布没多久,但科学家们对这项技术的担忧渐渐溢出。 GPT-4的横空出世,既让人兴奋,又让人沮丧。 尽管GPT-4拥有让人震惊的创造力,推理能力,但科学家们却对这项技术的安全性表示出担忧。 由于OpenAI违背初衷,并未开源GPT-4、公布模型的训练方法和数据,因此它的实际工作情况也无从得知。 科学界对此感到十分沮丧。 开源AI社区HuggingFace专门从事环境研究的科学家Sasha Luccioni表示,「OpenAI
新智元
2023/03/29
2290
Nature|GPT-4被吹爆,科学家担忧溢屏!
从信息时代到智力时代的药物发现
数据驱动着药物发现,但它仍然是该行业面临的最大挑战之一。实验通常是不可重复的,并且数据解释受人类的偏见和限制。
DrugAI
2021/01/29
3440
Nat Rev Drug Discov|深度学习与QSAR的融合
2023年12月8日,来自北卡罗来纳大学教堂山分校的Alexander Tropsha、卡内基梅隆大学的Olexandr Isayev等研究人员在Nature Reviews Drug Discovery发表综述文章Integrating QSAR modelling and deep learning in drug discovery: the emergence of deep QSAR。
智药邦
2024/03/05
4680
Nat Rev Drug Discov|深度学习与QSAR的融合
推荐阅读
相关推荐
4分钟成功复现诺奖!CMU开发GPT-4化学家,自主编码操控机器人颠覆化学研究登Nature
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档