
编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自微软亚研院Fang Lei研究员的一篇关于回顾合成分析的论文。回顾合成分析是有着众多工业应用的有机化学中的重要任务。先前的机器学习方法利用自然语言处理技术在这个任务中取得了令人期待的结果,通过将反应物分子表示为字符串,然后使用文本生成或机器翻译模型预测反应物分子。传统方法主要依赖于字符串表示中的原子级解码,化学家很难从中获得有用的见解,因为人类专家倾向于通过分析组成分子的亚结构来解释反应。众所周知,某些亚结构在反应中是稳定的并且保持不变的。在文中,作者开发了一个亚结构级别的解码模型,通过完全数据驱动的方法自动提取产品分子中的常见保留部分。作者的模型在先前报道的模型基础上取得了改进,并且证明通过提高这些亚结构的准确性可以进一步提升其性能。

有机合成是合成化学的一个重要分支,主要通过各种有机反应构建有机分子。回顾合成分析的目标是根据所需的产物提出可能的反应前体,它是计算机辅助有机合成中的关键任务。准确预测反应物可以帮助找到最优化的反应路径,从众多可能的反应中选择。在论文中,作者使用术语"反应物"来指代对产物分子贡献原子的底物。最近,基于机器学习的方法在这个任务上取得了令人满意的结果。许多方法采用了编码器-解码器框架,其中编码器部分将分子序列或图形编码为高维向量,解码器从编码器的输出中逐个标记地生成输出序列。这些算法中涉及的分子序列通常以SMILES字符串的形式表示,而图形则指的是分子的图形结构。例如,Molecular Transformer和Augmented Transformer使用了反应物和产物的文本SMILES表示。随后,回顾合成分析被形式化为从一种语言(产物)到另一种语言(反应物)的机器翻译任务。

图 1
将回顾合成分析视为机器翻译任务使得可以利用在自然语言处理中非常成熟的深度神经网络架构。在解码阶段,输出的SMILES字符串是通过自回归逐个生成的,传统方法中SMILES字符串中的基本标记主要涉及分子中的单个原子。这对于合成设计或回顾合成分析的化学家来说并不直观或易于解释。在实际的路线搜索任务中,合成化学家通常依靠他们的专业经验,通过从之前学习过的反应路径中汲取灵感,结合基于第一原理的对底层机制的抽象理解,来制定反应路径。对于人类专家来说,回顾合成分析通常从与目标分子化学相似或在目标分子中保留的分子亚结构或片段开始。这些亚结构或片段有助于为可能产生最终产物的一系列化学反应的组装拼图提供线索。
作者提出利用有机合成中常见的亚结构辅助任务,这些亚结构从大量已知反应中提取,捕捉了反应物和产物之间的微妙相似性,同时不依赖专家系统或模板库。通过这种方式,作者将回顾合成分析视为一个亚结构级别的序列到序列学习任务。整体框架的流程如图1所示,包括以下模块:
(1)反应检索。反应检索模块旨在在给定一个单独的产物分子作为查询时检索相似的反应,并提取与之相关的反应物亚结构。检索模型基于双编码器框架。对于每个反应,反应物的学习表示与产物的表示相似。在训练双编码器检索模型之后,可以获得了所有反应物和产物的稠密向量表示,如图1a所示。在回顾合成分析中,产物表示形成查询,用于在高维向量空间中检索相似的反应物分子。
(2)亚结构提取。根据双编码器检索模型的训练目标,检索到的分子应该与正确的反应物相似,然后作者基于分子指纹从产物分子和顶部交叉对齐的候选物质中提取共同的亚结构。这些共同的亚结构提供了反应级别上的从片段到片段的映射,连接了反应物和产物。这些亚结构是特定于产物分子的,类似于从双编码器检索模型中学到的反应模板,而不是来自专家系统。然后,作者将分子分为共同的亚结构和其他分子片段。在上下文中,作者使用“分子片段”或简称为“片段”来指代那些不在共同亚结构中的原子和键。当多个键被断开以隔离亚结构时,作者引入“虚拟编号”来虚拟标记通过断开的键连接的原子,如图1(b)所示。
(3)亚结构级别的序列到序列学习。利用常见的保留亚结构和分子片段,作者将主要基于原子的序列转换为亚结构级别的序列。新的输入序列是亚结构的SMILES字符串,后跟具有虚拟编号标签的其他片段的SMILES字符串。输出序列是带有虚拟编号的片段。换句话说,片段通过由这些虚拟编号指定的键与共同结构相连接。随后,回顾合成分析被转化为一个结构级别的序列到序列学习任务。给定模型预测的带有虚拟标签的片段,我们最终通过自下而上的模块化组装这些个体片段来获得最终的分子图和其SMILES字符串。图1(c)显示了一个示例,其中1S(用[1SH]表示)是来自亚结构的带有虚拟标签的原子,应与预测的片段中的1c(用[1cH]表示)相连接。类似地,来自亚结构的2c(用[2cH]表示)应与预测的片段中的原子[2B](用[2BH]表示)相连接。
亚结构分析对于人类研究人员进行回顾合成分析是至关重要的,而作者提出的方法在之前报告的模型基础上取得了改进。作者证明,如果提高亚结构提取的准确性,可以进一步提升性能。从模型中提取的亚结构可以为人类专家在常规合成任务的决策中提供额外的见解。虽然还处于早期阶段,作者证明了可以通过模仿人类专家的思维方式来开发机器学习模型。
回顾合成预测结果

表 1
作者在表1中报告了基于USPTO_full数据集的回顾合成整体结果。值得注意的是USPTO_full数据集的以下特点。在测试集中,约有4.4%的产物没有反应物,因此它们被视为无效数据;对于其余的产物,大约82.2%能够成功生成来自当前流程的亚结构。并不是每个产物分子都能够在当前的实现中生成亚结构,因为提取过程依赖于产物和候选反应物之间的比较。为了进行公平比较,作者训练了一个使用增强的随机SMILES的基本Transformer模型,以预测没有亚结构的产物。在几乎所有情况下,与之前测试过的其他方法相比,作者的方法在前1位准确率方面表现相当或更好。在成功提取亚结构的数据子集上,模型的性能要比整体结果好得多,如表1所示。这一改进表明,如果在提高亚结构提取准确性方面投入额外的努力,模型的性能指标可以进一步提高,因为亚结构对每个方面都至关重要,并且构成了简化分子的基础。再次值得注意的是,作者的方法不需要基于专家系统或包含有机化学先前知识的模板库构建任何反应模板,也不考虑数据集中从反应物到产物的任何原子映射信息。
作者方法的改进可以归因于两个主要因素:1)模型成功地从USPTO_full测试数据集的82.2%的产品中提取出了亚结构,这是一个相对较高的覆盖率,显示了该方法的普适性;2)模型只需要生成与亚结构中虚拟标记的原子连接的片段,从而缩短了分子的字符串表示,显著减少了需要预测的原子数量。对于具有提取出的亚结构的产物分子,待预测的反应物中的平均原子数从30.0减少到17.9。
常见亚结构上的实验结果

图 2
作者描述了如何基于给定产物和检索到的候选物之间的常见指纹来获取亚结构。由于检索到的候选物并不总是正确的反应物,所以在提取过程中可能会引入错误,导致亚结构不正确。例如,在图2中,从候选物#1中提取的亚结构是不正确的。在这种情况下,逆合成产物是由三键连接的长分子。所有检索到的候选物都与产物具有共享的常见亚结构。通过进一步观察与这些候选物相关的产物,我们很容易发现三键本身很可能是反应位点。这意味着即使它位于对齐指纹的环境中,三键也不应包含在亚结构中。作者将此作为未来改进亚结构提取准确性的计划工作,即我们计划根据检索到的候选物确定可能的反应位点,并将这些原子排除在亚结构的考虑范围之外。
对于不正确的亚结构,作者通过在训练和验证数据上使用正确的反应物进行筛选来轻松地将其排除。在训练数据集中,经过亚结构筛选后,我们从81.9%的产物分子中提取到亚结构。提取的亚结构是从包含20个检索到的候选物的完整集合中得出的。平均每个能生成亚结构的候选物数量为12.5个。唯一亚结构的平均数量为4.2个。模型的训练数据仅由唯一的亚结构组成,以避免冗余。在测试数据上,作者从82.2%的产物分子中提取到亚结构,准确率为90.2%。亚结构的平均数量和唯一亚结构的数量分别为12.1个和4.9个。产物、亚结构和正确反应物中重原子的平均数量分别为26.3、12.1和30.0个。在完整的测试数据集中,产物分子及其关联的候选物中,79.8%至少生成一个正确的亚结构,63.0%生成全部正确的结构,而2.4%(82.2%-79.8%)生成全部不正确的亚结构。

图 3
为了提高亚结构的提取准确性,可以根据检索到的候选物识别潜在的反应位点。另一种可行的方法是增加从检索到的候选物中选择常见指纹的阈值。值得注意的是,当前的实现要求常见指纹在至少20个检索到的候选物中存在5个以上,才能定义为成功的亚结构提取。图3显示了当阈值设置在3至10之间时,具有亚结构的产物的百分比、所有正确亚结构的产物的百分比以及亚结构的准确率。结果显示,随着准确率的提高,获得具有亚结构的产物的可能性单调下降,而具有所有正确亚结构的产物的百分比形成一个凸曲线,峰值大约在6左右。在本文中,作者将阈值设置为5,主要是因为这个设置平衡了相对较高的成功提取亚结构的产物的百分比和这些亚结构中较高的正确百分比。在测试数据上,即使产物和相关的候选物包含不正确的亚结构,正确亚结构的平均数量仍为7.3。这表明,在聚合结果后,即使亚结构提取结果部分不正确,模型仍然可以进行正确预测。

图 4
需要注意的是,提取的亚结构是特定于产物分子的,这有助于捕捉从反应物到产物的细微结构变化,这些变化是与特定反应相关的。邻二甲酰亚胺是一种常见的杂环亚结构。作者在图4中展示了四个示例反应,其中反应物中含有邻二甲酰亚胺。不同反应类型之间提取的亚结构是不同的。在模型的输出中,邻二甲酰亚胺在反应(a)和反应(b)中并不被认为是亚结构的一部分。反应(c)和反应(d)的亚结构是不同的,但它们都包含邻二甲酰亚胺。结果表明,亚结构是与产物相关的,这与作者的预期一致。
利用常见保留的亚结构的另一个好处是,与现有方法相比,该模型可以为用户提供在反向合成规划中做出决策时的额外见解。对于图2中所示的情况,产物可以通过多种类型的偶联反应合成。由于可以通过亚结构对预测进行分组,作者预测的反应物和反应类型可以帮助人类专家评估潜在的途径,并通过化学知识排除不可行的反应。如图2所示,与第一个候选反应物相关的反应是苯和噻吩环之间的Suzuki-Miyaura偶联反应,而与其余候选反应物相关的反应是Sonogashira偶联反应,三键是反应位点。这个例子表明,专业用户可以通过比较与检索到的候选反应物相关的反应来改进预测结果,使预测结果与现有的“黑盒”模型相比更具解释性和可靠性。
结论
作者讨论文章的方法与其他现有方法相比的优势和劣势,这些方法可以广泛地分为基于模板和无模板两类。
与基于模板的方法相比的优势:作者的方法不依赖于预先构建的模板库或专家系统中的先前有关有机化学知识。作者通过机器学习从大量已知反应中提取常见保留的亚结构,从而避免了对专家系统或模板库的依赖。其次,作者的方法基于子结构级别的序列到序列学习,与传统的基于模板的方法相比,更加灵活和可扩展。此外,作者的方法在预测时能够提供更多的化学洞察力和解释性。通过提取常见的亚结构,并将预测的反应和候选反应物按亚结构进行分组,可以帮助化学专家在反向合成规划中做出决策。
与其他无模板方法相比的优势:Augmented Transformer是一种模型,将随机的SMILES字符串作为数据增强引入到他们的Transformer模型中,作者将其作为无模板模型的最先进基线进行比较。作者构建了一个测试数据子集,该子集基于成功提取子结构的产物和未出现在Augmented Transformer的前10个预测中的黄金反应物之间的重叠。该子集的大小约占整个测试数据的22%。对于作者的模型,top 1、top 5和top 10的准确率分别为4.7%、16.8%和22.9%。值得注意的是,这个子集的预测是相当困难的。与大多数输出表示完整反应物分子的模板无模型相比,作者的模型只生成预测片段的SMILES字符串,并利用子结构降低了输出序列长度约40%的困难程度。
利用亚结构的优势:化学反应中,亚结构和官能团是必不可少的概念。在作者的工作中明确引入了产物分子特定的结构稳定的亚结构,用于反向合成预测。常见保留的亚结构在反应过程中预计会保持不变。一个合乎逻辑的后续问题是,在考虑具有多个类似反应基团的反应物时,非反应性基团是否能够在它们的亚结构中正确保留?作者以酰胺化反应为例进行定量分析。首先,作者汇总了在测试数据中通过选择性酰胺化反应合成的产物,要求反应物中的胺基数目大于相应的产物分子。在这种情况下,选择性酰胺化反应会生成新的酰胺基团,并且反应物中含有多个活性胺基团,引入了已知的化学概念,如一级胺和二级胺。总共分析了1,154个产物。对于作者的模型,top1、top5和top10的准确率分别为60.5%、80.2%和82.6%。提取的亚结构的准确率为90.6%。在正确的亚结构集合中,57.6%含有非反应性胺基团。结果表明,部分亚结构能够保留这些非反应性胺基团。由于亚结构的提取采用完全数据驱动的方法,没有人为干预,因此可能会导致在反应过程中保持不变的一些原子未包含在亚结构中。如果我们仅基于包含非反应性胺基团的亚结构进行预测,top1、top5和top10的准确率分别为67.7%、85.6%和87.5%。这进一步证明,如果通过设计额外的排名或过滤模型,将现有的化学知识纳入其中,仅选择化学上正确的亚结构而不是不加选择地使用所有提取的亚结构,预测准确率可以进一步提高。
方法的缺点:目前的模型实现在训练集和测试集中成功提取了大约80%的亚结构,但覆盖范围仍有改进的空间。模型未能为某个给定的产物分子返回任何亚结构的根本原因是检索到的候选反应物有时没有结构相似性。作者推测这可能是由于双编码器未完全训练,或者某些产物分子的类似反应数量仍然有限。基准模型Augmented Transformer在没有提取亚结构时,仅在产物上达到了约34%的top 1准确率。这表明某些产物分子类似反应数量有限是主要原因,可能需要收集更多的反应数据以提高亚结构提取的覆盖范围。
参考资料
Fang, L., Li, J., Zhao, M. et al. Single-step retrosynthesis prediction by leveraging commonly preserved substructures. Nat Commun 14, 2446 (2023).
https://doi.org/10.1038/s41467-023-37969-w