
DRUGONE
科学文献的指数级增长正在成为化学研究中的核心瓶颈。每年有数十万条新的化学反应被报道,但将这些信息转化为可直接执行的实验方案却愈发困难。尽管大语言模型在化学任务中显示出潜力,但在复杂反应、可重复性、可信度评估和完整实验细节生成方面仍存在显著不足。
研究人员提出 MOSAIC,一种面向 AI 辅助化学合成的群体智能计算框架。该方法将大规模反应空间划分为多个专业知识区域,并训练 2,498 个化学专家模型,协同生成带有置信度评估的、可复现实验方案。实验验证表明,MOSAIC 在多类反应中实现了 71% 的整体成功率,成功合成了 35 种以上此前未报道的化合物,并在部分案例中推动了全新反应方法学的发现。该研究展示了群体智能在化学合成自动化与知识加速中的巨大潜力。

化学合成知识主要以文献形式分散存在,严重依赖研究人员的经验积累与人工检索。随着反应类型和实验条件的爆炸式增长,即便经验丰富的化学家也难以全面掌握不断扩展的实验方法空间。
近年来,通用大语言模型已被用于反应条件预测和合成规划,但这类模型通常存在三方面局限:其一,输出不稳定、难以复现;其二,缺乏对预测可靠性的量化评估;其三,往往无法给出决定实验成败的完整操作细节。研究人员认识到,单一模型难以覆盖庞大而异质的化学知识空间,而群体智能与专业化专家协同可能是突破这一瓶颈的关键路径。
方法
MOSAIC 首先通过反应特征编码与距离度量,将已知化学反应嵌入到统一的高维反应空间中,并利用向量检索与聚类算法将该空间划分为大量Voronoi 知识区域。每个区域对应一类相互关联的反应模式,并据此微调一个专门的语言模型专家。对于新的合成问题,系统通过相似性搜索动态选取最相关的多个专家协同生成完整实验方案,包括试剂、溶剂、计量比、温度、反应时间、后处理步骤及产率预测。同时,专家与目标反应之间的距离被用作置信度指标,用于指导实验优先级排序。
结果
群体智能合成框架概览
MOSAIC 将反应空间拆分为可搜索的专业知识区域,并通过多专家协作生成高质量实验方案,显著降低了单模型幻觉和不确定性问题。

图 1|MOSAIC 群体智能框架。
定量评估:产率与条件预测
在多种经典反应类型中,MOSAIC 能够较为准确地预测反应产率区间,并在试剂与溶剂选择上显著优于通用大语言模型。引入多专家预测后,至少部分正确条件的命中率接近 95%。

图 2|提示词设计与定量评估指标。
与通用大语言模型的比较
在涵盖多类代表性反应的测试中,MOSAIC 在实验可行性、步骤完整性和一致性方面全面优于多种通用大语言模型,且表现更加稳定可控。

图 3|计算预测指导下的从头化合物合成。
新化合物与新反应方法的实验验证
研究人员依据 MOSAIC 给出的最高置信度方案,成功合成了横跨医药、材料、农业和日化领域的多种新化合物。在部分案例中,模型在远离训练分布的区域仍给出了可行方案,进而促成了此前未报道的反应路径。

图4|MOSAIC 指导下的新化合物合成与方法学拓展示例。
讨论
MOSAIC 体现了一种将群体智能理念引入化学合成自动化的全新范式。通过将庞大的反应知识空间拆解为可搜索的专家区域,研究人员实现了知识的可扩展利用和不确定性的显式量化。
研究人员强调,该框架的价值并非取代化学家的专业判断,而是作为一种“智能指南针”,帮助研究人员在海量文献中快速定位最有希望的实验方向。随着反应数据库和语言模型能力的持续增长,MOSAIC 所代表的群体智能策略有望在化学合成、材料发现和自动化实验平台中发挥越来越重要的作用。
整理 | DrugOne团队
参考资料
Li, H., Sarkar, S., Lu, W. et al. Collective intelligence for AI-assisted chemical synthesis. Nature (2026).
https://doi.org/10.1038/s41586-026-10131-4
内容为【DrugOne】公众号原创|转载请注明来源