
论文信息:Masato Sumita, Shoichi Ishida, Kazuki Yoshizoe, Ryo Tamura, Kei Terayama, Koji Tsuda. Molecular Design with Artificial Intelligence: Progress and Perspectives for Small Molecules.Chem. Rev. 2026, 126, 3007−3054(Chemical Reviews 特刊 Artificial Intelligence for Chemistry)。作者团队来自东京大学、RIKEN、日本国立材料研究所(NIMS)、横滨市立大学、九州大学,以及 MolNavi 公司。

这篇发表于 Chemical Reviews 的综述,表面上是在盘点小分子生成式人工智能的发展:SMILES、图神经网络、变分自编码器、强化学习、扩散模型、大语言模型、蒙特卡洛树搜索等。但如果只把它读成一篇分子生成算法大全,就会错过文章真正重要的思想。
它的核心命题是:
AI 对化学最深刻的影响,不是让计算机学会画出更多分子,而是把过去依赖化学家经验完成的提出下一步候选方案这一环节外置、算法化,并最终与模拟、合成、表征和实验评价组成闭环。
换句话说,这篇文章讨论的不是单纯的分子生成,而是化学发现机制本身的重新组织。
作者没有直接从神经网络讲起,而是从化学史讲起。
他们把化学研究抽象为一个反复循环的过程:
方案提出 formulation → 测量或合成 measurement → 性能评价 evaluation → 再提出下一个方案。
图 1 将这一循环可视化。这里的方案提出并不是狭义的配方设计,而是根据已有知识,决定下一种值得合成、测量或计算的物质。传统上,这一步主要依赖化学家的知识、直觉、经验和想象力。

图 1 化学逆问题求解中的传统循环。方案提出根据累积知识选择下一目标;测量包括合成及获取物质、材料或分子的可观测量;评价用于判断候选是否满足预设要求。
作者进一步区分了两类问题:

图 2 化学中的正问题与逆问题。红色路径表示由结构预测可观测性质的正问题,蓝色路径表示由可观测信息推断或设计分子结构的逆问题。
化学史上的几次革命,都可以从逆问题求解能力的提升来理解。
19世纪的原子论,提供了描述物质的基本语言;20世纪的光谱学、衍射和核磁共振,使化学家能够从实验信号推断分子结构;量子化学和分子模拟则使研究者可以从结构计算性质。但传统模拟存在一个根本限制:模拟必须先有一个分子结构作为输入。
因此,量子化学、分子动力学、分子对接等工具通常是优秀的评价器,却不是天然的候选提出者。它们可以告诉你某个分子是否好,却不能自动告诉你下一步应该计算哪一个分子。
这正是生成式 AI 被引入的逻辑位置:它试图承担传统循环中的方案提出功能。
作者用一个非常有冲击力的数量级说明这个问题。文章援引的估计认为,仅药物样有机分子的潜在空间就可能达到约 (10^{60}),而人类实际合成、分离或登记的分子数量只有约 (10^8) 量级。无论数字的边界如何定义,这个差距都意味着:化学家实际探索的只是化学空间中极窄的一层。
因此,AI 在这里被赋予的角色不是电子化学家,而是一个外部搜索脑。
原文图 3 区分了三种计算分子设计方式。

图 3 三种计算分子设计范式。a 为开放式高通量筛选,b 为加入生成式 AI 的开放式生成,c 为由评价反馈驱动的闭环生成。
第一种是传统高通量筛选:先准备一个分子库,再逐个预测或计算性质。它能加速搜索,但搜索边界仍由分子库决定。
第二种是在开放环路中加入生成模型。模型学习已有分子数据的分布,再从中采样出新结构。这比固定分子库灵活,但生成结果仍然主要来自训练分布附近。
第三种才是作者真正推崇的形态:闭环生成。
生成器提出分子,评价器计算其性质,优化或搜索算法利用评价结果改变下一轮生成方向。这样,评价结果不再只是终点,而会反向塑造候选分布。
这一划分非常重要,因为它揭示了生成模型和分子设计系统之间的区别:
前者关心合法性、多样性和分布拟合;后者关心命中率、样本效率、可合成性、风险和最终实验性能。
许多所谓AI 分子设计工作,实际上只是第一或第二种:它们能够生成大量新结构,却没有真正形成有效反馈。文章的判断是,只有进入第三种闭环,AI 才真正成为化学逆问题的求解工具。
但这里也埋下了全文的一条内在张力:闭环优化可以推动生成分布移动,却不意味着系统必然能够突破训练数据、分子表示和结构操作所规定的边界。作者在前文强调闭环可能产生根本新颖的分子,在展望部分又明确指出,概率生成模型本质上仍倾向于训练分布附近。二者并不完全矛盾:闭环能把模型推向训练分布的边缘,但能否跨出去,取决于生成器是否具有相应的结构支持,以及评价器在分布外是否仍然可靠。
下图可以看作一张分子设计系统架构图。

图 4 分子生成式 AI 系统的基本类型与模块组合。上部展示无条件生成、条件生成、对抗式生成和外部评价反馈驱动的闭环设计;下部展示分子表示、生成策略、优化搜索和评价策略四类模块。
作者认为,任何分子生成 AI 都应拆解为四个相互独立但紧密耦合的模块:
分子首先必须被计算机表示为某种对象:
表示方式并不是一个中性的编码选择,而是在预先规定系统能够看见什么、忽略什么、怎样修改分子。
包括组合式片段拼接、自回归生成、VAE、GAN、归一化流、能量模型、Transformer、大语言模型、扩散模型等。
包括随机搜索、遗传算法、贝叶斯优化、强化学习、梯度优化、MCMC、GFlowNet、穷举筛选、蒙特卡洛树搜索等。
包括机器学习性质预测、分子对接、分子动力学、量子化学、逆合成规划、真实实验以及多目标综合评分。
文章指出,现有系统之所以看起来异常复杂,是因为研究者不断组合这些模块。一个系统可能采用 SMILES 表示、Transformer 生成、强化学习优化、QSAR 模型评分;另一个系统则使用三维坐标、扩散模型、口袋条件生成和对接评价。分子 AI 并不存在一个单一算法谱系,它更像一个由不同部件组合而成的工程栈。
这一拆分带来一个重要结论:
判断一个分子设计系统,不能只问它用了什么生成模型,还要问它在什么表示空间里生成、用什么算法搜索、又由谁来判断分子好坏。
很多论文把主要篇幅放在生成器架构上,但在实际发现流程中,生成器往往并不是决定系统上限的部件。评价器的可信度、搜索算法的样本效率,以及合成边界的定义,通常更加关键。
原文图 5 以水杨酸为例,对比了一维字符串、二维分子图和三维坐标表示。

图 5 分子表示方式,以水杨酸为例。一维表示包括 SMILES、SELFIES、InChI、分子指纹和描述符;二维表示为分子图;三维表示为原子坐标与构象。
SMILES 和 SELFIES 把分子转化为字符序列,因此可以直接借用自然语言处理技术。
它们的优势非常现实:
但字符串是把分子图人为线性化后的结果。相同分子可能有多个 SMILES 写法,长程拓扑关系需要通过序列间接学习,立体化学和三维构象信息也容易被弱化。
SELFIES 解决了 SMILES 容易产生语法无效字符串的问题,但每个字符串都能映射为合法分子并不等于每个分子都具有合理化学意义,更不等于可合成、稳定或具有目标功能。
分子图把原子作为节点、化学键作为边,天然符合化学拓扑。
它减少了字符串语法带来的问题,也更适合使用图神经网络。但图生成有自己的困难:
对于蛋白质口袋结合、构象匹配、分子间作用等任务,三维空间才是真正发生物理过程的地方。因此,三维生成模型,尤其是等变扩散模型,成为近年的重要方向。
这类模型必须处理平移、旋转对称性,通常采用 E(3) 或 SE(3) 等变架构。文章还特别指出,某些 E(3) 对称设计对镜像变换同样不变,因此可能无法正确区分手性,这说明物理对称性本身也要谨慎定义。
文章最终没有宣布哪一种表示胜出。其立场是:
这比简单宣称扩散模型将取代语言模型更接近实际。模型的优劣只能相对于任务、数据、评价成本和目标结构来讨论。
文章用大量篇幅回顾生成模型,但从更高层看,这些模型都在解决同一个问题:学习一个可采样的分子分布。

图 6 代表性的分子生成策略,包括预构建分子库、片段组合、自回归模型、Transformer 与大语言模型、变分自编码器、生成对抗网络、归一化流和扩散模型。
VAE 的重要贡献不是单纯生成新分子,而是把离散分子映射进连续空间,使优化算法能够在潜空间中移动。
问题在于,潜空间的连续性不保证解码后的化学空间也连续。潜空间中看似很小的一步,可能导致结构突变,甚至进入无法有效解码的死区。
GAN 可以产生更尖锐的数据分布,但训练不稳定、模式坍塌和离散结构生成一直是挑战。在分子领域,它的重要性逐渐被更稳定的自回归模型和扩散模型削弱。
Transformer 的优势是可以在大规模分子字符串、反应数据和文本上进行预训练,并通过条件、提示或微调适配多种任务。
但化学语言模型学到的首先是数据中的统计语法。它能够重组已有化学知识,却不会自动获得严格的量子化学约束或可靠的生物机制理解。
扩散模型非常适合从噪声中逐步恢复三维结构,也方便加入蛋白口袋、药效团、形状、氢键等条件。
因此,它在结构基础药物设计中具有明显潜力。但三维结构生成的成功不等于结合自由能预测准确,更不等于体内活性成立。扩散模型解决的是如何产生空间上合理的候选,不是完整的药物发现问题。
文章对这些模型的总体判断是克制的:不存在普遍最优的生成器,生成器是否有效,取决于它与表示、搜索和评价模块的配合。
这是全文最值得重视的部分。
分子生成速度已经不是稀缺能力。一个模型可以在短时间内产生数百万个合法结构。真正困难的是:如何判断其中哪些结构值得相信。
文章把评价方法分为三层:
优点是极快,可用于大规模筛选。缺点是依赖训练数据的覆盖范围。
在训练数据密集区域,它们可以进行插值;一旦进入稀疏区域或分布外区域,误差通常显著增加。
包括对接、分子动力学和量子化学计算。
它们成本更高,但因为包含一定物理机制,对陌生结构往往比纯统计模型更有外推能力。不过,物理模型也不意味着绝对准确:对接打分函数、力场、DFT 泛函和溶剂模型都有各自的近似。
实验是最终标准,但最昂贵、最慢,也受合成、纯化、测量条件和设备通量限制。
这三层形成了一个典型的漏斗:
机器学习快速预筛 → 高精度模拟复筛 → 逆合成与人工审查 → 少量实验验证。
现实中的优秀分子发现系统,通常不是依赖一个神奇模型,而是通过分层评价,把昂贵资源集中到少数候选上。
许多分子生成研究使用强化学习,让模型不断优化某个性质评分。
直观上,这似乎意味着模型可以越变越好。但文章指出了一个根本问题:
如果奖励由一个机器学习预测模型提供,强化学习优化的首先是这个预测模型,而不一定是真实世界中的目标性质。
当生成器持续寻找高分结构时,它可能发现预测器的漏洞,产生在模型看来极好、实际却不合理的分子。这就是奖励黑客。
文章在展望部分用了一个很有力度的判断:依靠统计预测模型寻找统计离群点,本身具有悖论性。即使强化学习改变了生成分布,它也无法突破评分函数自身的适用域。
这一点解释了为什么很多基准测试中的高分分子,在化学家看来往往非常怪异:
解决办法不是简单增加更多奖励项,而是引入:
因此,分子 AI 的核心不是把奖励调得更大,而是建立一个难以被投机、能够表达不确定性、与真实实验保持联系的评价体系。
很多生成模型先自由生成分子,最后再计算 SAScore 或进行逆合成过滤。
文章认为,可合成性应当更早地进入生成过程。
原因是:理论化学空间和现实可达化学空间不是同一回事。现实中可以被探索的空间,受限于:
如果一个模型在完全自由的图空间中搜索,它可能获得很高的虚拟性能,却输出无法实现的分子。
反应驱动生成、基于构件和反应模板的搜索、生成与逆合成联合优化,实际上是在把搜索空间从所有形式上合法的分子缩小为现有化学技术可到达的分子。
这种缩小并不一定是缺点。它常常能显著提高实验命中率。
但它也有深层代价:模型只能在已知反应体系中组合,因而很难发现需要新反应、新键形成策略或新合成范式的分子。换言之,合成约束既提高现实性,也限制原创性。
这正是作者后来对自动化实验室保持谨慎的原因:即使机器人能够完美执行所有已知反应,它仍然只是在更高效地遍历现有合成技术所定义的区域。
文章系统梳理了随机搜索、遗传算法、贝叶斯优化、强化学习、梯度法、贝叶斯采样、穷举筛选和蒙特卡洛树搜索。

图 7 分子设计中的代表性优化与搜索策略,包括随机采样、元启发式算法、贝叶斯优化、穷举搜索、强化学习、合成路线规划和量子计算。
一个值得注意的结论是:传统遗传算法并没有因深度生成模型出现而失效。某些基准中,基于图或 SELFIES 的遗传算法可以达到甚至超过复杂神经生成模型。
这说明深度学习并不天然等于更强的化学空间搜索。若结构修改算子合理、评价器可靠、搜索预算充分,简单算法可能更稳健、更容易解释。
文章尤其强调蒙特卡洛树搜索。它把分子构建视为一系列决策:
作者认为,在巨大组合空间中,MCTS 具有很强的探索能力。文章还详细介绍了虚拟损失和基于哈希的并行化,使多个计算节点避免重复探索同一条路径,并展示了在约千级工作进程上的近线性加速。

图 8 蒙特卡洛树搜索的单轮流程及大规模并行化机制。上部展示选择、扩展、模拟和反向传播四个阶段;下部比较无虚拟损失、使用虚拟损失和基于哈希的工作节点分配。
不过,这一结论应当谨慎理解。
作者团队长期参与 ChemTS 和并行 MCTS 研究,因此文章对 MCTS 的强调带有鲜明的方法论立场。MCTS 的表现高度依赖:
文章前面强调不存在普遍最优的生成模型,而后面对 MCTS 给出了较强的优越性判断。这更适合被理解为作者基于长期实践形成的主张,而不是已经在所有任务、预算和表示方式上得到统一验证的普遍定理。
文章对量子化学的态度并不是把它当成传统辅助工具,而是把它视为突破数据分布限制的关键物理评价器。
纯机器学习模型依赖已有数据。量子化学虽然昂贵,但它从电子结构理论出发,可以对训练集中没有出现过的分子进行计算。
这不意味着量子化学绝对准确,而是说它的适用性主要由理论近似和计算可行性决定,而不是完全由统计训练样本覆盖决定。
作者因此提出一条重要路线:
生成模型负责提出候选,搜索算法负责分配计算预算,量子化学负责在未知区域提供相对可靠的物理评价。
这条路线尤其适合材料分子,因为许多光学、电学和能量性质可以较直接地通过电子结构计算评价。
但量子化学成本高昂。若每个候选都需要 DFT 甚至更高精度计算,搜索很快会变得不可承受。因此,未来真正有价值的系统可能是分层混合式的:
这比先训练一个巨大模型,然后一次性生成答案更符合科学发现的实际结构。
文章表2汇总了多种经过生物实验验证的 AI 设计分子,涉及 RXR、JAK1、TNIK、Nurr1、PI3Kγ、PARP1/2、DDR1、CXCR4 等靶点。

表 2 已通过生物实验验证活性的 AI 设计分子,汇总靶点、对应图中编号、生成算法和分子表示方式。
其中一些结果相当亮眼:

图 9 已合成并获得生物活性验证的 AI 设计分子,标注对应靶点及代表性活性、亲和力或抑制指标。
这些案例证明,AI 确实能够:
但它们并没有证明AI 独立发明了药物。
大多数成功流程都包含:
因此,AI 设计分子更准确的含义往往是:AI 参与了候选提出和排序,而不是独自完成从靶点发现到临床药物的全过程。
此外,体外活性不等于药物成功。一个分子还必须跨越选择性、代谢、毒性、药代动力学、制剂、动物有效性、临床安全性和临床疗效等多重障碍。
这篇综述相对克制地承认:尽管已有实验验证和临床案例,生成式 AI 尚未普遍产生显著优于传统方法所得药物的分子。
与药物发现相比,文章列出的材料分子实验案例明显较少。
包括:

表 3 已完成实验验证的生成式 AI 材料分子案例,汇总目标性质、对应图中编号、算法和分子表示方式。

图 10 已合成并完成材料性能验证的 AI 设计分子,涵盖发光、低黏度和光吸收等目标,并标注代表性实验性能。
材料设计看起来比药物设计约束少,但并不意味着更容易。
药物领域通常有明确靶点、较丰富的生物活性数据库和成熟的药物化学经验;材料性质则高度多样,可能涉及激发态、固态堆积、晶型、界面、加工、缺陷和环境稳定性。
很多材料性质并不只由单个孤立分子决定。例如,一个分子在气相中的 HOMO 或吸收光谱良好,并不保证它在薄膜、晶体或器件中的性能同样良好。
材料生成因此更依赖多尺度模拟和实验闭环,而现有高质量数据又比药物数据稀缺。这解释了为什么材料 AI 具有巨大想象空间,却仍缺少大量前瞻性验证案例。
文章还讨论了一个常被忽略的方向:从质谱、红外、核磁等谱图反推出分子结构。
这也是逆问题,但与药物设计相比,它有一个重要优势:谱图与分子结构之间存在相对明确的物理联系。
文章列出的案例包括:

表 1 生成式 AI 用于分子结构鉴定的代表性研究,汇总输入谱图、输出对象、算法及分子表示方式。
例如,DeepSPInN 在特定小分子数据集上获得了 86.47% 的 top-1 准确率,但随着重原子数增加,准确率下降到 64.63%,显示出结构复杂度带来的明显挑战;Spectro 将红外图像、核磁归属文本和生成模型结合,报告了 93% 的识别准确率。
这里的重要趋势不是单一谱图端到端生成分子,而是多谱图融合。
真实化学实验室本来就不会只依赖一张谱图。核磁提供局部核环境信息,红外反映键和官能团,质谱提供质量及碎片信息。未来更合理的系统将综合:
从这一角度看,生成式 AI 不仅能帮助设计还不存在的分子,也能帮助理解已经存在但尚未识别的物质。
分子生成领域经常使用 novel molecule 一词,但新颖性至少有五个层级:
大量论文只能证明第一或第二层。有些可以达到第三层。真正能够可靠达到第四层的案例很少,而第五层才接近科学意义上的突破。
一个分子没有出现在数据库里,并不意味着它处于未知化学区域;它可能只是已知骨架上的轻微取代。一个模型生成新结构,也不意味着它发现了新机制。
文章在展望中反复强调,概率模型主要重组过去。训练数据又通常集中在表现良好的母体及其衍生物上,因此模型自然会强化这种偏差。
由此得到一个非常现实的判断:
生成式 AI 当前最可靠的价值,不一定是发现完全超越人类知识的分子,而是以系统化方式找出人类在已知知识附近遗漏的优秀候选。
这并不是贬低 AI。化学空间如此庞大,即使只在已有可合成空间中提高搜索效率,也可能带来巨大价值。

图 11 生成式 AI 与机器人实验平台构成的自驱动化学闭环。生成式 AI 负责计算设计,机器人负责合成与测量,评价结果再反馈到下一轮候选提出。
上图展示了一个完整愿景:
这就是所谓自驱动实验室。
但作者在这里并不盲目乐观。他们明确指出,当前自驱动实验室更接近一种技术优化平台,而不必然是产生基础科学革命的自主系统。
原因在于:
这样的系统可以极大提高实验效率,却未必能够提出人类尚未意识到应该优化什么的问题。
真正的科学突破往往涉及目标改变、概念重构和机制发现,而不是在一个固定目标函数上继续爬坡。
文章讨论了大语言模型在化学知识管理、实验手册理解、分子生成、自动合成和安全数据处理中的潜力。
但从全文证据看,LLM 近期最可靠的价值不一定是直接取代专业分子模型,而可能是:
换言之,LLM 可能成为自驱动实验室的自然语言控制层和知识接口。
但它仍然是概率模型,会受到训练语料偏差和幻觉影响。对于化学安全、实验条件和定量预测,LLM 必须接受数据库、规则引擎、模拟工具和人工审查的约束。
文章最后借环境后果提出了更广泛的警告:模型只能从过去推断未来,却很难预见真正前所未有的长期影响。决定研究目标、判断未知风险和承担后果,仍然是人类研究者的责任。
这篇文章的优点,不只是覆盖面广,而是建立了一个相对完整的分子 AI 认识框架。
它最有价值的三个观点是:
第一,AI 分子设计应当被看成逆问题求解,而不是图像生成式的分子创作。
第二,完整系统必须同时考虑表示、生成、搜索和评价,单独比较生成模型意义有限。
第三,真正决定系统能否发现新分子的,是评价器的可靠性、合成空间的边界以及实验反馈,而不是模型能生成多少合法 SMILES。
文章也存在几个值得警惕的倾向:
尽管如此,这仍是一篇重要综述。它把讨论的重心从哪一种生成模型最先进转向怎样构建一个可信、可执行、可验证的化学发现闭环。
传统化学中,最稀缺的能力之一,是在庞大可能性中判断下一步应合成哪个分子、测量什么性质、验证哪条机制。
生成式 AI 正在尝试把这一能力部分算法化。
但它不是凭空创造化学知识。它的边界由四件事共同决定:
因此,这篇文章最终传递的不是AI 即将取代化学家,而是一种更冷静的判断:
AI 可以成为化学家的外部搜索脑,自动整合知识、生成候选、配置计算资源并驱动实验;但目标的选择、理论的突破、未知风险的想象和最终科学判断,仍然必须由人承担。
分子生成只是起点。真正的革命,是将生成、物理模拟、合成、表征、评价和人类判断连接成一个持续学习的发现系统。
