2021年9月15日,Chemical Engineering Journal杂志发表了兰州大学姚小军课题组和腾讯量子实验室谢昌谕博士等人合作的研究文章,该文章提出一种基于Transformer模型的新方法RetroPrime,用于同时解决基于Transformer模型的方法在逆合成预测中反应多样性不足和化学上不合理输出的问题。
以下是全文内容。
摘要
逆合成预测是有机合成的一项重要任务。在这项工作中,作者提出了一种单步无模板和基于Transformer的方法RetroPrime,整合了化学家的逆合成策略:(1)将分子分解成合成子,(2)通过附加离去基团生成反应物。在USPTO-50 K数据集中,当反应类型已知和未知时,RetroPrime的Top-1准确率分别为64.8%和51.4%。在USPTO-full大数据集中,Top-1精度接近最先进的基于Transformer的方法。
众所周知,基于Transformer逆合成模型的输出往往存在多样性不足和高化学不可信的问题。这些问题可能会限制基于Transformer模型在实际应用中的潜力,但很少有研究同时解决这两个问题,RetroPrime就是为了应对这些挑战而设计的。
1.研究背景
有机合成不仅是有机化学的重要组成部分,而且是一系列现代科学学科的基石,如药物发现、环境科学和材料科学等。逆合成分析是设计合成路线的最常用方法,通过应用已知的反应,将分子反复分解成更简单、更容易合成的前体。近年来,随着人工智能技术的发展,计算机辅助合成计划(CASP)进一步使化学家能够思考更复杂的分子并且节省了大量用于设计合成实验的时间和精力。
Liu等人将单步逆合成视为翻译任务,使用LSTM模型将产物的SMILES转化为反应物的SMILES。后来,许多研究者采用了更先进的NLP模型Transformer来预测逆合成。虽然基于Transformer的模型有很多需求,但它们有两个严重的缺点:(1)缺乏多元化的输出(2)化学上不合理的输出。到目前为止,化学文献中还没有对这些困难进行深入讨论。本文的工作仍然使用Top-N准确性,与文献报道的其他方法进行一致的比较,但也提出了应对这两个缺点的策略。
少数研究着手解决这两个缺点中的任何一个。例如,为了减少Transformer输出的无效SMILES的数量,Zheng等人提出了一种自校正学习方案。虽然这种方法减少了无效SMILES的数量,但它不能保证正确的输出是化学上可信的反应物。在另一项研究中,Chen等人试图诱导Transformer提供更多样化的输出,涵盖更广泛的反应。但这项工作在Top- N准确度方面无法与最近的单步反合成方法相比。
本文的研究着手应对这两个缺点,同时实现与先进模型可以竞争的精度。作者将其单步方法命名为RetroPrime。RetroPrime依靠两个Transformer分别预测反应中心和合成子到反应物的变化。这个两阶段框架简化了Transformer以分而治之的方式学习复杂的化学反应模式。为了增强输出多样性和化学成分的合理性,作者在RetroPrime工作流中引入了“混合和匹配”和“标记和对齐”策略。为了估计化学的合理性,采用正向反应预测模型验证方法。
在本工作中,作者在标准数据集USPTO-50 K和大规模USPTO-full上评估了该方法。RetroPrime是一个可靠的工具,它在实现卓越性能的同时,极大地改善了Transformer的缺点,并指出了进一步开发更先进的无模板方法的有希望的方向,有望在未来实现完全自动化和数据驱动的复杂分子逆合成计划。
2.方法
2.1 总览
作者将单步逆合成分为两个阶段:1. 给定一个分子,找出可能的反应中心,断开相关的键以产生合成子(P→S)。2.将合成子转换为反应物(S→R)。作者将这两个Transformer分别称为产物到合成子 (P2S)模型和合成子到反应物(S2R)模型。图1提供了作者提出方法的整体流程。首先,P2S模型标记可能参与反应的分子中的原子,并返回多个可能性。对于每种情况,根据第2.2.1节中定义的规则,从标记的SMILES转换一组合成子。随后,在将这些合成子的SMILES串作为输入输入到S2R模型以预测可能包含这些合成子的亚结构的反应物。
图1:具体流程图。首先,将SMILES输入到Transformer P2S中,以获得具有反应中心标记的SMILES。第二步,如果预测的序列用断开的标签标记,那么标记的原子之间的键就会断开以形成合成子,否则产品本身就会被视为合成子。第三步,重新标记合成子序列,并将反应中心放置在序列的前面。第四步,输入合成子到Transformer S2R中,预测相应的反应物。最后,移除标签并将反应物转换成标准SMILES序列。
2.2 数据准备
作者使用公开可用的反应数据集uspto-50k,它包含了大约50,000个原子映射反应的记录,这些反应被分为10种不同的反应类型。将训练/验证/测试,按照80%/10%/10%分割。具体细节如下文介绍。
2.2.1 反应中心数据集的生成和扩展
对于uspto-50k中的每个原子映射反应记录,作者分析并标记参与反应的产品分子的基本原子。P2S模型被训练来为每个反应识别这些标记的原子。因此,反应中心数据集的源(输入)是产品的SMILES,而目标(输出)是表示与输入相同原子顺序的SMILES,并将标记添加到反应中心原子中。
与正向合成预测不同,逆向合成预测不仅需要产物分子的正确分解,在很多情况下还需要离去的基团。通过研究训练反应数据集,作者根据反应物的数量和离去基团的存在与否(忽略氢原子)定义了四个标签。下面总结了这四个标签的定义,进一步的细节可以在图2中找到。
图2:反应中心标签的解释。(a)标签1,标记两个原子。(b)标签2,标记至少两个原子,但不断开任何键。该产品本身就是一个合成子。(c)标签3,标签一个原子,产品本身是一个合成子,必须有一个离去基团,这个标签是一个非断开的标记。(d)标签4,标记多个原子,断开这些原子之间的键以形成至少两个合成子,多组分反应也属于这个范畴。
2.2.2 合成子到反应物数据集的生成和扩展
在将合成子提供给S2R模型之前,需要使用标签进一步处理。标记原理为反应中心原子标记为1,相邻原子(通过化学键连接)标记为2,其余原子标记为3。这就是作者准备这个数据集的源(输入)部分的方法。对应的目标(输出)部分,作者从原始的USPTO - 50k数据集中取反应物,按照上述原则为SMILES配上标签。
此外,对于反应物,离去基团的原子也标记为1。最后,对于每个合成子-反应物对,作者计算编辑距离,并通过操作目标序列来最小化编辑距离,以便尽可能接近地对齐两个SMILES 字符串。如图3所示,对齐后,S2R数据集中的一个典型输入-输出对共享一个相对较大且相同的子序列。作者把这一策略称为“标签和对齐”。
图3:标签和对齐。研究使用带标记的SMILES来最小化S2R阶段的编辑距离,这样源和目标SMILES就有许多完全相同的块。
2.2.3 uspto-full的扩增
作者从USPTO(1976- 2016年9月)生成USPTO-full数据集。USPTO(1976- 2016年9月)中有1,808,937条原始记录。对于涉及多个产品的反应,该研究复制相同数目的副本。在每个副本中,移除除一个以外的所有产物,以创建具有相同反应的唯一产物分子的附加数据。该研究使用与Dai等人完全相同的训练/验证/测试分割,其中包含的80%/10%/10%的独特反应。
重复USPTO-50 K数据集处理中给出的步骤,该研究进一步从USPTO full中生成反应中心数据集和合成子到反应物数据集。注意,此数据集生成过程包括上一节中描述的数据扩充。
2.3 评价指标
对于这两个阶段,作者使用的评估指标略有不同。P2S阶段的实质是获取反应标签信息。作者在预测序列中以相同数量的输入产物原子顺序提取标签,并根据标签规则进行初步筛选。最后,将符合规则的标签重新标记到输入SMILES中,以获得P2S阶段的结果,并使用这些结果评估P2S阶段。P2S阶段的评估方法和有效预测标准如图4所示。
对于S2R模型,预计将合成子转化为反应物。为了提高准确度,作者建议标记原子,以便于此翻译任务的源和目标序列对齐。因此,在与USPTO-50 K-full数据集中给定反应的基本事实进行比较之前,应移除这些标签并将目标序列(由S2R模型给出)转换回SMILES。
图4:P2S阶段的评价方法和有效预测标准。生成标记的SMILES后,研究首先确定预测的SMILES所代表的原子数是否与输入相同。如果原子数不相同(例如,第2个),则预测无效。如果提取的标签不符合第2节中定义的规则(如第3条),则该预测也无效。如果标签符合规则(例如1号和4号),则提取这些标签并重新标记到输入序列中,以获得最终预测结果。
2.4 反应多样性
为了估计反应多样性,作者使用了一种反应型计数方法。使用基于典型消息传递神经网络的反应类型预测器来预测预测反应的反应类型。根据RetroPrime对每个测试用例的Top-n预测,作者使用反应类型预测器来估计唯一反应类型的数量。然后,计算了对应于每个产品的预测反应物的反应类型的平均数(Dn)。
此外,通过对USPTO-50K数据集的调查,使用了验证数据集和测试数据集中的所有不同反应但导致相同产物的反应数据作为多基础真值测试集。作者收集了22组具有多个真实反应物的产物作为另一个指标来测试和比较模型的多样性。作者还以同样标准在USPTO-full中收集了34,003组多反应物数据进行了多重答案测试。
2.5 混合匹配
P2S模型预测了分子如何分解成更简单的组分。不同的分解意味着不同的化学反应。在其他类似的研究中,人们只需利用合成子进行Top-1分解,就可以进一步预测反应物。然而,作者认为,沿着图1的流程处理多个分解是一种简单而高效的方法,可以极大地增强整体输出分集,研究称这种策略为“混搭”。
2.6 标签对齐
在准备S2R数据集时,作者仔细地最小化了输入-输出序列的编辑距离,并插入了额外的标签,如第2.22节所述。这些努力旨在尽可能地揭示源序列和目标序列之间的相似性,并促进翻译模型学习捕捉数据背后的化学成分。事实上,“标签和对齐”策略不仅提高了Transformer的整体精度,还减少了化学上不可信的输出数量。
3.结果与讨论
3.1 基于翻译的逆合成模型面临的挑战
基于序列到序列的生成模型因其对数据处理的要求较低和较强的泛化能力而被广泛应用于单步逆合成的预测。然而,其有三种预测错误:(1)预测反应物的SMILES在语法上是无效的。(2)预测反应物的SMILES在语法上是有效的,在化学上是合理的,但预测反应物与数据集中指定的基本真实反应物不完全相同。(3) 预测反应物的SMILES是有效的,但产物-反应物对并不构成化学上合理的反应。
在综合规划中,第二类错误不应被完全视为错误。相反,这种“错误”的概念确实揭示了一个事实,即合成有机化合物总是有多种有效的方法。此外,它们还倾向于产生如图5所示的第三类错误。为了应对这些挑战,作者在RetroPrime中分别提出了“混合匹配”和“标签对齐”策略,以缓解多样性差和化学不真实性高的问题。“混合和匹配”明确考虑了产品的不同分解方式和合成子的不同选择。“标记并对齐”使用标记的标记来区分和对齐合成子和反应物之间的反应中心和保守基团。对于与图5相同的示例,模型的直接输出过程如图6所示。采用上述两种策略后,模型预测的多样性和化学合理性可以显著提高。
图5:(a) 从S-Transformer测试数据集中选择的一组预测结果的可视化。第一行包含数据集中的输入分子和真实反应物,第二行和第三行是前6位的预测结果。在这个例子中,作者可以观察到S-Transformer预测其中一个反应物与基真值反应物完全相同,而另一个反应物与真实反应物非常相似,但共轭成员环上的原子变化使结果完全不合理。(Top-1命中了真实反应物。)(Top-1击中地面真值反应物。)(b) S-Transformer直接输出序列的可视化结果表明,S-Transformer预测的大部分序列是相同的,并且该模型没有捕获化学反应中分子的反应中心和保守基团。在大多数情况下,预测序列的不同部分往往导致化学上不可信的结果,而不是多样化。
图6:两个预测阶段的模型输出序列可视化。顶部黑框显示了P2S阶段直接预测的两类反应中心的标记结果。中间的黑框显示了代表两组合成子的序列。(这两个序列显示在不同颜色的框中。)标记为红色的标记是反应中心原子,固定在表示结构的序列的最前端。底部黑框显示了S2R阶段模型的直接输出序列,这是两个合成子对应结果的组合(顶部6)。标记为蓝色的标记表示预测的离去基团,而红色标记仍然是反应中心。“混搭”可以增加多样性。“标记并对齐”可以增强合成子和反应物之间的保守基团关系,从而提高预测的化学可信度。
3.2 Top-N精度
作者在USPTO-50K和USPTO-full两个数据集中对该方法进行了评估。对于USPTO-50 K数据集,结果如表1所示。当反应类型为已知和未知时,该方法分别达到了64.8%和51.4%的Top1精度。从表中可以看出,RetroPrime完全优于Seq2Seq和S-Transformer这两种模型,后者仅使用SMILES表达分子。
与基于模板的方法相比,除了已知反应类型时的前10个准确度外,RetroPrime的准确度远远高于RetroSim,并与GLN竞争。值得注意的是,基于模板的方法在Top-10精度方面表现良好,因为基于模板的方法不限于预测类似的反应前体,以及深度搜索方法(Top-n,n≥10) 有助于发现数据集中记录的反应前体。与基于图的无模板方法相比,当反应类型未知时,RetroPrime方法完全优于G2Gs方法。在已知反应类型的情况下,Top-1和Top-3的精度也优于G2Gs。AT应用了多种有效的数据扩充策略,在基于Transformer的模型上实现了卓越的性能,这表明,如何有效、完整地表达分子结构信息对预测的准确性至关重要。
3.3 反应多样性预测
作者还调查该方法是否提供涵盖广泛化学反应的输出。
由于未知反应类型的设置更自然,因此作者选择此设置,并将方法与S-Transformer进行比较。基于上文中介绍的指标的多样性估计如表2所示。
4.总结
作者提出了一种新的基于Transformer的方法,RetroPrime,以解决逆合成预测问题。在标准uspto - 50k数据集中,当反应类型已知和未知时,RetroPrime的Top-1准确率分别达到64.8%和51.4%。在大数据集USPTO-full中,RetroPrime的Top-1准确率达到44.1%,显著高于基于模板的方法,接近于目前最先进的基于Transformer的方法。
然而,不难看出Transformer有两个严重的缺陷:(1)反应多样性不足;(2)高比例的化学上不合理的问题。这项工作通过提出“混合和匹配”和“标签和调整”策略来有意识地应对这些挑战。结果表明,“混合匹配”策略能显著提高模型的多样性,“标记对齐”策略也能降低化学非合理预测结果的比例。
参考资料
Xiaorui Wang, Yuquan Li, Jiezhong Qiu, Guangyong Chen, Huanxiang Liu and Benben Liao, RetroPrime: A Diverse, plausible and Transformer-based method for Single-Step retrosynthesis predictions , Chemical Engineering Journal.
https://doi.org/10.1016/j.cej.2021.129845
----------- End -----------