前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Chem. Inf. Model. | 基于物理信息的类药物分子构象生成模型

J. Chem. Inf. Model. | 基于物理信息的类药物分子构象生成模型

作者头像
DrugAI
发布2024-06-04 19:11:13
850
发布2024-06-04 19:11:13
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自David C. Williams团队的一篇论文。作者提出了一种基于扩散的构象生成器模型。该模型侧重于化学键结构的再现,并从传统的经典力场中选取相关术语进行构建,以确保物理相关的表征。作者利用深度学习技术从训练集中推断原子类型和几何参数,通过利用基于扩散的生成技术的最新进展,实现构象采样。通过在大规模、多样化的类药分子合成数据集上进行训练,这些分子使用半经验的GFN2-xTB方法进行优化,达到了较高的键合参数精度,超过了传统的基于知识的方法。结果也与蛋白质数据库和剑桥结构数据库中的实验结构进行了比较。

构象生成是识别给定分子的有效且有用的原子坐标集的过程。由于计算化学中许多工具依赖于原子坐标,这在基于结构的药物发现中扮演了重要角色。因此,多年来开发并完善了几种不同的构象生成方法,每种方法都有其优缺点,但都旨在提供足够质量的工具,用于诸如蛋白质对接等下游计算工作。从广义上讲,可以将目标分子的有效构象定义为势能的局部最小值。从实际操作的角度,也可以认为任何这样的局部能量最小值都应该与全局最小值在能量上相近。然而,仍然存在不确定性,因为分子的能量受其环境的影响,例如分子是否溶解、是否处于某种固态形式或是否与蛋白质结合。此外,从某些角度来看,吉布斯自由能是一个更合适的衡量标准。

图 1

为了解决这些不确定性,需要考虑分子的键合参数,如键长、键角和扭转(见图1)。通常期望这些参数在环境中的依赖性较弱,这一倾向反映在许多经典力场参数化中对偶能的“1-4”排除规则中。因此,这些键合参数的准确复制可以被认为是有效分子构象独立于环境的定义特征。通过在一组首选ϕ值中采样,一个分子可能表现出具有相同键合参数的多个构象,这就是所谓的扭转自由度。许多对接算法利用扭转自由度来通过操纵适当的扭转角以及整体的平移和旋转来采样配体姿态。

模型部分

图 2

模型的整体结构如图2所示,包括两个主要组成部分:一个用于构建原子类型的图变换网络以及输出汇总用于坐标预测的一系列连接组件。图变换网络的目的是将每个分子的原子放置在一个适当的描述性嵌入空间中,它通过枚举原子序号、正式电荷和杂化类型来分配一个初始嵌入。后者是使用嵌入到RDKit化学信息学库中的算法得到的。所有的氢原子都被当作显式处理,手性和顺/反异构原子通过添加为此目的保留的全局向量来标记。

初始原子嵌入通过多层基于GATv2算法的图变换网络进行细化,每一层中包含的GATv2图注意力网络通过将每个分子键与图边缘关联来构建。不包括自边,因为它们不会反映出合适的物理类比(自边相当于与同一原子的键)。相反,图网络的输入与输出连接在一起,以保留一种原子自身身份的形式。这种连接被送入前馈网络,以形成每层的输出。

数据集与实验结果

图 3

关于训练数据集,一个大的、具有代表性的类药分子样本将是理想的。对于一个有意义的基准测试,也需要一个良好量化的基线。作者使用两个公开的合成数据集:QMugs和GEOM-drugs。两者都包含几十万个类药物分子的样本,并且使用GFN2-xTB半经验量子力学方法进行优化。这两组数据的分子量和估计的LogP分布如图3所示。

图 4

两个数据集都被随机划分为训练集(80%)、验证集(10%)和测试集(10%)。模型的第一个版本在QMugs训练子集上训练,训练了固定的100个周期,相当于大约160万步,没有出现过拟合的迹象(见图4a)。在训练过程中独立计算的验证集损失与训练损失惊人地一致。模型的第二个版本在GEOM-drug训练子集上训练,训练了固定的25个周期,相当于大约620万步。同样几乎没有过拟合的证据,训练和验证损失之间也没有明显差异(见图4b)。

图 5

如图5所示,对于一个示例的烷烃键,所显示的键组件的输出是|δij|的函数,其中|δij|是针对不同的σ值计算的。随着|δij|的增加,模型预测的修正也越大。这种总体趋势是将键合的原子拉得更近。随着σ趋近于零,一旦达到正确的键长,修正就会消失。其中,对于该键的修正小于仅对该键所需的修正(即修正值远低于单位斜率线)。这是模型学习到的个别修正的特点,因为最终结果是所有修正的总和。因此,键合组件倾向于协同作用。

图 6

图6展示了弯曲组件输出的一个例子。这个例子的行为与键组件类似,不同之处在于如果原子过于接近,它更倾向于将原子推开。这可能是作为键组件将原子拉近的倾向的一种补偿机制的一部分。对适当的扭转、手性和顺反异构组件的探测也同样揭示了一些信息。

图 7

图7展示了使用确定性生成方法、在500个步骤以及QMugs(PIDM[QMugs])上训练的模型生成的随机构象例子。仅通过视觉检查,并没有发现构象质量之间的明显差异。

图 8

图8展示了一些选定的构象生成示例。对于这些分子中的每一个,大部分时间都生成了高质量的构象。例如胆固醇这样含有融合环系统的甾体,其构象在没有准确再现多个手性的情况下之前的模型都无法可靠生成。像萘并蒽这样的大型芳香系统,尽管作者的模型中不包含相关的非正规扭转项,也能被合理地生成为较平坦的结构。复杂的融合环系统也能被可靠地再现,即使是那些具有桥接结构的,如青蒿甲醚。

图 9

确定性生成的一个特点是帧平滑地过渡到最终解决方案,当生成过程以动画形式呈现时,这种行为最为明显。图9为图8中所示的四个示例展示了生成过程中各阶段的静态描述。分子构象的整体结构在生成过程的早期就已形成,其余部分则专注于细化。

图 10

有些系统的生成是具有挑战性的。一个例子是阿托伐他汀(见图10)。这个分子有一个中心芳香环,连接着四个大的取代基。这个芳香环通常无法生成为平面结构,这可能是因为平面性对两个连接的苯基的方向施加了严格的约束,这些约束难以满足。

图 11

这里测试的是由作者提供的GeoDiff的一个版本,该版本是在GEOM-drugs数据集上进行训练的。尽管这个模型能够准确预测键距和弯曲角度,但是适当的扭转角度重构得较差(见图11)。GeoDiff没有机制来强制执行手性或顺/反异构性。虽然这限制了其在药物发现中的用途,但这种遗漏似乎是作者的疏忽,而不是他们方法的根本限制。

图 12

上述几种构象方法依赖于MMFF94力场。与使用更现实的GFN2-xTB半经验量子力学方法优化的基准构象相比,键长存在明显的偏差(见图12)。如果MMFF94力场中的键长参数进行了重新拟合,那么像PubChem3D、RDKit后接MMFF94以及Balloon这样的构象方法可能会优于这里呈现的生成模型。

图 13

有趣的是,PIDM模型倾向于比QMugs提供的构象更偏好ϕ = 0(见图13)。QMugs的作者使用了一种复杂的程序,包括通过RMSD进行分子动力学和聚类来选择其数据集中的构象,适当扭转角度的均匀性很可能是这一过程的自然结果。

图 14

PDB中的X射线结构分辨率有限,它们的解构部分基于假设的力场参数重建。因此,PDB文件对于测试键合参数的准确性并不实用。然而,CSD数据集中的原子坐标不受此类假设的约束。对CSD数据集生成的构象中的键合参数进行比较,显示出与QMugs数据集观察到的趋势相同,MMFF94键长的偏差得到了证实(见图14)。生成的结果显示很小的偏差,这可能反映了在训练数据中使用的GFN2-xTB的平均准确性。

图 15

为了更好地了解生成模型未能采样的二面角样本空间,作者研究了RMSD分布的尾部。图15显示了PDB结构1EC0中的配体,这是RMSD结果最差的分子(2.9 Å)。这种配体是一个有四个环的对称系统,在PDB中呈现为延伸构象,其生成的最佳姿态更为局限。未能生成更兼容、更延伸的构象可能是由于缺乏明确的机制来排斥非键合原子对之间的相互作用。

图 16

如果二面体采样是重要的,那么在生成过程中引入偏差的一些方法可能是有用的。鉴于该去噪模型对非键原子对之间的距离没有明确的约束,所以在生成过程中对该距离增加某种类型的偏差。图16展示了CSD和PDB数据集中所有原子对之间的距离分布。同时展示了在各种条件下以及使用确定性方案中的500步骤,由PIDM[QMugs]生成的十个构象中采样得到的相同距离。在默认生成中,原子对有重叠的倾向,当引入偏差且其强度为η=0.5时,分布更加接近实验结果。

图 17

图17展示了RMSD统计数据的适度改善。

图 18

如果重新审视PDB系统1EC0,会观察到在匹配该结构中观察到的延伸构象方面的改进(见图18)。

图 19

图19展示了一个例子,证明添加一个排斥项也有助于生成长分子和大环分子的构象。

图 20

除了大量消除原子重叠外,一个有趣的问题是排斥项是否改善了整体的扭转自由度采样。为了探索这个问题,可以使用像TFD这样的扭转指纹来比较生成的构象。使用RDKit的TFD实现得到的结果在图20中显示,比较了CSD和PDB数据集生成的十对构象。基于这一标准,排斥项确实改善了扭转采样,但改善幅度有限。

编译 | 于洲

审稿 | 王建民

参考资料

Williams D C, Inala N. Physics-informed generative model for drug-like molecule conformers[J]. Journal of Chemical Information and Modeling, 2024, 64(8): 2988-3007.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档