首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Commun. Chem. | 基于变分自编码器的化学潜在空间设计复杂天然产物类似物

Commun. Chem. | 基于变分自编码器的化学潜在空间设计复杂天然产物类似物

作者头像
DrugOne
发布于 2023-12-12 12:40:18
发布于 2023-12-12 12:40:18
3680
举报
文章被收录于专栏:DrugOneDrugOne

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Yasubumi Sakakibara团队的一篇论文。化学库是系统性收集的化合物集合。通过化学潜在空间,可以表示这些化学库的结构多样性。化学潜在空间是基于多种分子特征,将化合物结构投射到数学空间的一种方法。这样可以在化合物库内表现出结构多样性,以探索更广泛的化学空间,生成新的药物候选化合物结构。在这项研究中,研究团队开发了一种基于变分自编码器的深度学习方法——NP-VAE。这个方法用于处理难以分析的数据集和大型分子结构(例如具有手性的天然化合物),手性是化合物三维复杂性中的一个重要因素。NP-VAE成功地从大型化合物中构建了化学潜在空间,这些化合物用现有方法无法处理。该方法展现了较高的重构准确性和稳定的生成模型性能。

天然化合物通常由微生物和植物产生,具有独特的结构。由于它们在生物过程中产生,许多天然化合物展现出高生物活性,例如作为药物广泛使用的天然产物,包括抗生素(如青霉素和链霉素)和抗癌剂(如布里奥斯汀和表柔比星)。因此,从包含天然化合物的化合物库中构建化学潜在空间,在药物发现中扮演着关键角色。在这项研究中,研究团队开发了一种基于变分自编码器(VAE)的深度学习方法,命名为天然产物化合物变分自编码器(NP-VAE),用于处理像天然化合物这样具有复杂分子结构的化合物,并获取能够投射大型分子结构的化学潜在空间。NP-VAE是一种基于图的VAE,它结合了有效地将化合物结构分解成片段单元并将它们转换成树结构的算法,以及扩展的连接指纹(ECFP)和树状长短时记忆网络(Tree-LSTM,一种递归神经网络)。

NP-VAE的重建能力和生成能力分析

表 1

首先,研究团队评估了NP-VAE对训练数据中未包含的测试化合物的重建准确性,这被称为泛化能力。评估泛化能力至关重要,因为它可以验证所构建的化学潜在空间的插值准确度。他们使用了St. John等人的数据集进行泛化能力评估。这个数据集被划分为76,000个训练化合物、5,000个验证化合物和5,000个测试化合物。在对训练化合物进行训练后,计算了测试化合物的重建准确性和有效性。重建准确性是通过对5,000个测试化合物使用蒙特卡洛方法来确定的。具体来说,对于每个测试化合物,进行了10次编码和每次编码后进行的10次解码,产生100个输出化合物。然后计算输入到编码器和从解码器输出的化合物结构之间的匹配比例。为了确定有效性,从先验分布N(0; I)中抽取了1,000个潜在向量,并对每个向量解码100次后,使用RDKit检查化学上有效的输出化合物的比例。NP-VAE与四个最先进的化合物VAE模型(CVAE、CG-VAE、JT-VAE和HierVAE)进行了对比(表格1)。结果显示,NP-VAE在测试化合物的重建准确性方面优于之前的模型。此外,由于NP-VAE以亚结构单元(片段)而非单个原子单元生成化合物,其生成成功率始终为100%。这些结果表明NP-VAE是一个高性能的生成模型,表明NP-VAE构建的化学潜在空间包含足够的信息来准确估计未知化合物。

表 2

表 3

接下来,研究团队将NP-VAE作为生成模型与其他生成模型(基于流的模型MoFlow和基于SMILES的使用字符级RNN的方法SM-RNN,以及VAE模型HierVAE)进行了比较。由于他们的主要动机是开发一种能够处理大型和复杂分子的VAE模型,因此他们准备了一个包含约30,000个化合物的化合物库。这个库结合了来自DrugBank的约10,000个化合物和约20,000个来自项目数据集的化合物。项目数据集主要包括天然化合物,并且与常用的ZINC数据库中的化合物相比,包含了许多复杂和大分子的化合物。然而,最先进的VAE模型(JTVAE和HierVAE)以及基于流的模型MoFlow无法处理这些较大尺寸的化合物数据,因此他们不得不准备了一个所有现有方法都可以执行的受限数据集。这个受限数据集通过将药物-天然产物数据集中的化合物数量减少到少于100个非氢原子,并进一步移除了一些导致HierVAE出错的化合物来构建。因此,他们首先比较了药物-天然产物数据集和受限数据集中最大化合物尺寸的差异。表2显示了药物-天然产物数据集、受限数据集和其他三个数据库中所包含化合物的最大原子数和分子量的比较。表3显示了最终实验结果,NP-VAE在常用的各项指标中都表现优异。

构建潜在化学空间

图 1

图 2

研究团队使用药物-天然产物数据集构建了两个化学潜在空间:一个仅基于化合物的结构信息进行训练,另一个结合了结构信息和作为自然性度量的NP-likeness分数进行训练。首先,研究团队使用t-SNE方法将潜在变量的维度降至二维,对这两个化学潜在空间进行了可视化。结果显示在图1中。在图1a和1b中,NP-likeness分数较高的化合物用黄色表示,分数较低的则用紫色表示。与仅使用化合物的结构信息构建的潜在空间(图1a)相比,通过结合NP-likeness分数作为功能信息构建的潜在空间(图1b)可以观察到NP-likeness的梯度变化。当在这些化学潜在空间中绘制代表性的抗癌药化合物时,与仅使用结构信息构建的空间(图1c)相比,结合NP-likeness分数的空间(图1d)观察到每类抗癌药物的分布更为聚集。通过利用构建的化学潜在空间,研究团队如何发现天然化合物Yesotoxin(见图2a)的潜在药物价值。Yesotoxin是药物-天然产物数据集中的一种天然化合物,发现它在化学潜在空间中位于已存在的分子靶向药物附近。基于这一观察,研究者假设从一种叫做Patinopecten yessoensis的扇贝物种中分离出的Yesotoxin可能具有作为分子靶向药物的功能。通过实验验证,确实发现Yesotoxin展示了弱的EGFR(表皮生长因子受体)抑制活性(见图2b)。

潜在空间的插值计算

图 3

研究团队通过扫描两种现有药物化合物之间的化学潜在空间,生成了位于这两种化合物之间的新化合物结构。具体来说,他们从一个化合物(起点)到另一个化合物(终点)进行了空间扫描。通过将中间差值的潜在向量输入到解码器,可以生成新的化合物结构。图3展示了通过探索两种现有药物之间的空间获得的新化合物结构,起始化合物是一种生物分子,烟酰胺腺嘌呤二核苷酸(NAD)衍生物,目标化合物是分子靶向药物索拉非尼(Sorafenib)。如图3所示,随着离开起始化合物并逐渐接近目标化合物,与起始化合物的相似性逐渐降低,而与目标点化合物的相似性逐渐增加。

通过贝叶斯优化技术修改化合物结构以生成具有优化功能指标的新化合物结构

图 4

研究团队使用了TPE算法进行贝叶斯优化,以探索化学潜在空间并生成具有优化功能指标的新化合物结构。通过将现有药物化合物设定为起点,并将探索范围限制在化学潜在空间中起点的邻近区域,他们在保持与起始化合物的结构相似性的同时生成了具有优化功能指标的新化合物结构。要最大化的目标函数被设定为QED。药物-天然产物数据集中NP-likeness分数与QED之间的相关系数为-0.31,表明它们之间存在负相关。因此,可以预期,在NP-likeness分数降低梯度的空间中,QED的梯度在增加,由此构建的化学潜在空间也可以用于探索口服药候选化合物结构。图4显示了以肽类药物奥曲肽和抗癌药紫杉醇作为探索起点时,生成具有优化QED的新化合物结构的结果。当探索范围较小时,可以在保持目标化合物的特征结构的同时获得具有优化QED的新化合物结构。另一方面,当扩大探索范围时,尽管可以观察到目标化合物特征结构的较大变化,但可以获得QED显著提高的新化合物结构。天然产物衍生的药物,如奥曲肽和紫杉醇,通常通过注射给药。因此,提高这些化合物的QED有望增强其作为口服药的属性,为患者带来更多便利。此外,为了定量评估贝叶斯优化的有效性,研究团队对从潜在空间中抽样的多个点重复了优化实验。当探索范围限制在相似度为0.6或更高的化合物时,目标函数QED的平均改善为0.046,标准差为0.074。当探索范围扩大到相似度为0.2或更高的化合物时,目标函数QED的平均改善显著提高到0.538,标准差为0.022。

参考资料

Ochiai, T., Inukai, T., Akiyama, M. et al. Variational autoencoder-based chemical latent space for large molecular structures with 3D complexity. Commun Chem 6, 249 (2023). https://doi.org/10.1038/s42004-023-01054-6

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档