化学研究以迭代循环为基础,通过设计、执行和改进实验来实现特定目标。研究人员的经验和直觉在最初的设计和随后的优化过程中起着至关重要的作用,而这在以前的化学研究自主系统中是无法复制的。
2023年12月20日,Boiko 等人在Nature上报发表文章Autonomous chemical research with large language models,介绍了一种名为"Coscientist"的人工智能系统。
Coscientist 是一个由 GPT-4 驱动的人工智能系统,它能自主设计、规划和执行复杂的实验,并将大型语言模型与互联网和文档搜索、代码执行和实验自动化等工具相结合。Coscientist 展示了其在六个不同任务中加速研究的潜力,包括钯催化交叉耦合反应的成功优化,同时展示了(半)自主实验设计和执行的先进能力。研究结果表明,像 Coscientist 这样的人工智能系统在推动研究方面具有多功能性、有效性和可解释性。
图1 系统结构
a, Coscientist 由多个模块组成,这些模块可以交换信息。蓝色背景的方框代表 LLM 模块,规划模块用绿色表示,输入提示用红色表示。白色方框代表不使用 LLM 的模块。b, 实验类型,展示使用单个模块或模块组合时的能力。c, 带液体处理器的实验装置图片。
化学家的工作是多方面的--不仅需要执行化学反应的技术技能,还需要规划化学反应的知识。但是,化学反应往往无法以可接受的产率提供产物,而搜索文献、确定下一个(或多个)实验以及执行这些实验的反复过程也会迅速变得繁琐。
因此,化学家们长期以来一直渴望开发自动化系统,以方便他们的工作。
此时,人工智能在化学领域取得了长足进步,为规划任务中的决策提供指导。然而,这些人工智能工具通常是为执行单一操作而训练的,对化学研究各个方面的一般理解超出了它们的能力范围。这些局限性让人们无法实现建立一种工作环境的梦想--人们可以监督能够自主规划和执行实验的机器人。
然而,作为 ChatGPT 等聊天机器人背后的工作动力,生成式预训练转换器(GPT)的出现突然为化学家提供了自动化难题中的重要一环。通过"理解"人类的自然语言,GPT 可以让机器与人互动,从而为特定问题提供解决方案。这些大型语言模型适用于广泛的主题,但它们在化学方面的能力却不尽如人意,需要实施额外的技巧--对模型进行微调--才能在化学应用中发挥有效作用。
有鉴于此,Boiko 等人现在开始探索是否有可能将经过微调的 GPT 串联起来,利用人类的单个提示,如 "您能合成分子 A 吗?"(图 2)来协调自动化实验室。这不仅需要理解问题,还需要确定成功完成任务所必须执行的任务。
图2 化学研究自动化人工智能系统
简而言之,人工智能 Coscientist 由以下模块组成:协助文献检索,找出合成途径,决定实验方案;编写代码,实现模块之间的通信;搜索硬件文档,以便触发机器人远程进行实验。Boiko 等人通过要求 Coscientist 确定七种分子的合成程序,对其网络搜索能力进行了基准测试,这些分子的复杂程度各不相同。这些例子包括扑热息痛、阿司匹林和布洛芬等畅销药物,也包括其他化合物。Coscientist 的表现优于其他 GPT,它能可靠地生成详细和化学准确的合成程序。
图3 Coscientist在化学合成规划任务方面的能力
更有趣的是,Coscientist 能够设计方案并协调两种类型反应的执行,即所谓的 Sonogashira 和 Suzuki-Miyaura 交叉偶联反应,这两种反应在药物研发中通常用于形成碳-碳键。一旦确定了这两种交叉偶联反应所需的反应物,Coscientist 就能正确计算出所需的量,并通过对移液机器人进行编程,使其能够获得化学品的储备溶液,从而将它们混合在一起。反应成功地得到了预期产物。不仅如此,Coscientist 还根据化学反应规则选择使用何种试剂。
图4 由Coscientist设计和执行的交叉耦合Suzuki和Sonogashira反应实验
最后一个例子是,Coscientist 的任务是优化反应,最大限度地提高产品产量,其过程包括反复建议反应条件,并利用结果提出更好的实验建议。与贝叶斯优化法相比,在只有十个反应实例的情况下,Coscientist 的表现非常出色。在没有实例的情况下,GPT 对反应条件的初步建议有时很差。但当有了实例后,每次迭代后的建议都会迅速改进,这表明 Coscientist 能够随着时间的推移获取知识并调整推理。
图5 优化实验结果
Boiko 及其同事的研究结果有力地证明了当前版本的 Coscientist 能够半自主地进行实验。不过,它仍有一些局限性。正如作者所指出的,有时会出现化学反应不正确的情况。不过,通过使用复杂的提示策略以及以化学为重点的数据源,这些问题可以得到缓解。还需要注意的是,现实世界中的研究问题要比本研究中的问题复杂得多,往往涉及化学以外的学科概念,如药物开发中的生物学概念。目前,Coscientist 还无法解决这些复杂的问题。
总之,以上介绍的例子是朝着建立自动化实验室迈出的关键一步。然而,Coscientist 和其他即将问世的人工智能技术必须成熟起来,研究人员才能充分了解它们的不足之处以及如何在科学领域更好地使用它们。我们期待在不久的将来会有更多令人兴奋的发展。
参考资料:
1、 https://doi.org/10.1038/d41586-023-03790-0
2、https://www.nature.com/articles/s41586-023-06792-0