编·译作者 | 王建民
今天给大家介绍美国麻省理工学院材料科学与工程系的Somesh Mohapatra, Tzuhsiung Yang & Rafael Gómez-Bombarelli在Nature Machine Intelligence上发表的一篇论文"Reusability report: Designing organic photoelectronic molecules with descriptor conditional recurrent neural networks"。该研究主要基于Esben Jannik Bjerrum及其同事在2020年5月18日发表在Nature Machine Intelligence上的一篇论文” Direct steering of de novo molecular generation with descriptor conditional recurrent neural networks”,Bjerrum及其同事提出了一个基于条件递归神经网络(cRNNs)的生成框架,用于药物设计的背景下生成特定性质的分子。Rafael Gómez-Bombarelli及其同事将该方法复制到一个不相关的化学空间上,通过设计训练数据之外属性的有机光电子分子(OPMs),生成具有接近目标值的连续属性的有机光电分子。
主要构想
Nat. Mach. Intell. | 利用条件循环神经网络生成特定性质分子
Kotsias, P., Arús-Pous, J., Chen, H. et al. Direct steering of de novo molecular generation with descriptor conditional recurrent neural networks. Nat Mach Intell 2, 254–265 (2020). https://doi.org/10.1038/s42256-020-0174-5
深度生成模型可以在未标记的化学数据上进行训练以设计新的分子,但利用这种模型的创造力来寻找最佳分子是一个挑战。Bjerrum及其同事提出了一个基于条件递归神经网络(cRNNs)的生成框架,在药物设计的背景下基于分子SMILES表示的条件循环神经网络,输入目标性质,模型可直接生成具有对应性质的分子。这里,Rafael Gómez-Bombarelli及其同事将该方法复制到一个不相关的化学空间上,通过设计训练数据之外属性的有机光电分子(OPMs)。原始工作中的主要应用是分类任务:识别活性分子,而这里的任务是提出具有接近目标值的连续属性的有机光电分子。
cRNN生成框架可以以结构指纹或属性等为条件对新分子进行采样。简而言之,该模型通过使用其属性设置RNN的初始状态来训练重现分子。推理时,所需的分子属性或分子指纹作为输入给cRNN,并引导分子的随机生成。因此,该方法旨在通过更强的监督来约束早期RNN方法的广度。采样给定分子的负对数似然(NLL)的估计允许以新的方式审视模型。分子属性模型被训练在用廉价的模拟标记的数据上。然后应用迁移学习使模型适应使用较小的标记数据集生成结合特定靶标蛋白的分子的特定任务。由于该方法在基于SMILES分子表示上操作,它需要数据增强以避免原子索引和非规范的SMILES产生的陷阱。
利用cRNNs生成OPMs
OPMs的应用多种多样,设计最佳的OPMs对于晶体管、显示器和太阳能电池等技术是非常理想的。虽然不像小分子药物那样具有化学多样性,但潜在的OPMs的空间是巨大的。OPMs通常含有共轭杂环,尺寸为几十个重原子,因此它们跨越了一个非常独特的设计空间。OPMs的关键属性是它们的电子和光学特性,这些特性可以量化为它们的电子填充的最高占位分子轨道(HOMO)和最低未占位分子轨道(LUMO)的能量,这分别与它们传输空穴和电子的能力有关,以及通过吸收光(optical gap)将一个电子从占位轨道提升到未占位轨道所需的能量。这些能级可以通过密度函数理论(DFT)以合理的精度进行模拟,从而获得属性标签来训练cRNN生成模型。以电子伏特(eV)为单位的OPMs的典型计算值是-10<HOMO<-6;-4<LUMO<2;1< optical gap <5。
研究者测试了cRNN模型生成具有期望属性的OPM的能力。作为训练数据,研究者利用从文献、美国专利和组合生成的衍生物中提取的分子化学结构,总共获得了约172,000个分子,其中14,800个分子通过DFT计算被标记为HOMO、LUMO和optical gap。
按照原来的工作和代码库,以最小的修改来处理较大的分子以及不同的描述符和学习率的优化,研究者使用相互排斥的未标记(157,665)、标记(13,616)和种子(1,129)数据集训练和验证了三种不同的模型。基于指纹的模型在未标记的数据(FPB)上进行了训练。从使用标记数据集的FPB权重开始训练一个顺序迁移学(TL)模型。基于描述符的(PCB)模型进行了训练,以HOMO,LUMO和optical gap标签作为描述符输入。FPB模型在未标记的数据集上进行训练,排除了存在于标记数据集中的所有分子;TL和PCB模型在标记的数据集上进行训练,具有所需属性的分子被排除在外。FPB的验证损失是三者中最好的,表明在生成任务的性能受到13,600的较低数据大小的影响。
将cRNN模型与经典基准进行基准测试
研究者用一个更简单的基于图的遗传算法(GB-GA)对cRNN模型进行了基准测试,该方法最近在分子优化中表现出非常好的性能。GB-GA模型与cRNN模型相比,在寻找具有所需属性的分子方面表现稍差。这两种方法都产生了相当一部分不现实的分子。在cRNN模型的情况下,这些通常是由于SMILES的字符化解码的错误。原则上,这样的错误可以通过更好地嵌入化学空间,用更多的训练数据和更强大的模型来解决。GB-GA方法依赖于手选规则,在没有意识到化学背景的情况下应用这些规则,容易导致不相容的化学基团和不合理的功能化。这只能用额外的关于化学可行性的硬编码规则来解决。然而,这些规则是缺乏的,这也是开发分子生成模型的主要动力之一。
讨论
原始工作中cRNN方法被发现普遍适用于OPMs的设计,并与原始工作有很好的一致性,尽管大多数OPMs比典型的小分子药物大得多,这使得有效的SMILES的生成和重建任务变得更加困难。此外,有机光电子特性是全局性和非附加性的,不像用于训练药物类分子的监督生成模型的化学信息学描述符。最后,在OPMs中,标记数据集的大小通常较低,因为产生HOMO、LUMO和optical gap的DFT计算比大多数分子优化生成模型中使用的生成类药分子描述符的化学信息学方法要昂贵得多。小分子药物中,高通量和组合实验产生参考数据集也比有机光电子学更常见。
这项工作与原始工作不一致的地方,研究者发现数据的可用性是一个关键的驱动因素。FPB模型在生成具有所需性能的分子方面优于其他两个模型,通过在本质上添加化学噪声来种子具有良好性能的分子,并利用其重建精度。然而,FPB模型在发明具有从未见过性能的分子的能力上是有限的,因为采样方法需要已经具有接近期望性能的种子分子的指纹。FPB的性能明显优于TL,而在原始工作中并非如此,这是由于较小尺寸的标记数据集,导致灾难性的遗忘。虽然半监督方法可以解决这个问题,但它们不适用于这种情况,因为一个数据集是另一个数据集的切除。因为两者都属于同一化学空间的歧义,所以半监督技术将是不现实的有利条件。这种性能上的急剧损失表明,如果迁移到大小约104或更小的标记训练数据集,需要对顺序TL策略进行一些进一步的调整。不需要种子分子,PCB策略能够推断出具有所需属性的分子,尽管它们在训练数据中不存在,因此学会了结构-属性关系。虽然它比FPB模型遭受了更强烈的模式崩溃和更低的有效性和重建,但它明显优于TL模型。
总之,所有的模型都产生了具有期望属性的多样化OPM,并有效地摆脱了训练数据的属性分布。关键的限制因素是数据的可用性,TL和PCB模型都证明了这一点。
未来方向
研究者确定了两条感兴趣的途径,以进一步发展cRNN方法用于分子设计。一个是更有效的TL策略,如冻结某些权重,特别是考虑到标记的分子数据的稀缺性来训练描述符模型。另一个途径是避免生成基于文本的分子表征,它不是换元不变的,并且依赖于复杂的语法。使用其他字符串表示法、语法或基于语法的方法可能会提高低数据下的有效性和新颖性。同样,对于大分子来说,堆栈增强的记忆单元、嵌套结构或变换器模型可能更好地捕捉SMILES语法中的长程关系。
数据
https://github.com/learningmatter-mit/Deep-Drug-Coder
代码
https://github.com/learningmatter-mit/Deep-Drug-Coder
参考资料
Mohapatra, S., Yang, T. & Gómez-Bombarelli, R. Reusability report: Designing organic photoelectronic molecules with descriptor conditional recurrent neural networks. Nat Mach Intell 2, 749–752 (2020).
https://doi.org/10.1038/s42256-020-00268-w