Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >直接分子构象生成

直接分子构象生成

作者头像
DrugAI
发布于 2022-11-28 10:04:42
发布于 2022-11-28 10:04:42
1.1K0
举报
文章被收录于专栏:DrugAIDrugAI

3D分子构象生成指的是给定2D分子图,生成对应的稳定3D分子构象,即生成每一个原子的坐标。相对于传统的基于实验或者数值计算的方法,基于机器学习的方法具有计算速度快、计算效果好的优势。在本篇论文中,作者提出一种基于深度学习的分子构象直接生成的方法,论文发表在Transactions of Machine Learning Research 2022。

方法

基于机器学习的分子构象生成已经存在不少探索工作。其中,很多工作基于某一中间量(键长、原子间距离的梯度、二面角等)来生成坐标,但可能会违反某些潜在的规则(如三角不等式)。所以,在本篇论文中,作者设计了一种方案(direct molecular conformation generation, 简记为DMCG)可以直接从2D分子图生成3D分子构象而不借助中间变量。

直接生成3D分子构象存在两个挑战:一是保持生成构象坐标的旋转平移不变性,二是对称原子的坐标的置换不变性。以图一中的分子为例进行说明。(1)如果任意旋转或者平移整个分子构象的坐标,分子构象应该具有不变性。在损失函数中,应体现为旋转平移后的构象和标准构象的误差应保持一致。(2)图一中的分子右侧的嘧啶(由原子12~17组成)应该沿着11-12的碳硫键具有对称性。也就是,如果将原子13、17的坐标对调,同时也对调原子14、16的坐标,分子构象应该保持不变。我们将一个分子中所有对称部分的置换操作记做。对图一来说,

, 其中

对于其余原子

图一:分子图例

为了保持这两种不变性,作者提出了一个新的损失函数:

其中R是真实的分子构象,

是预测的构象,

是任意一种旋转平移变换操作,

是分子图中所有对称部分的置换操作。关于求解

, 作者提出了如下策略:首先对于任意分子,计算它的

。这一步可以根据图同构算法得到。之后,对于任意

, 最优平移旋转操作

可通过求解一个矩阵的特征值和特征向量得到。这个矩阵中的元素与R

相关。根据这两步即可实现

的求解。具体细节在论文第2.1节。

另外,由于一个分子存在多个稳定的3D构象,作者采用VAE的训练框架实现一个分子到多个构象的映射。

除此之外,作者提出一种新的图神经网络结构,如图二所示。网络的每一层包含四个模块,它们工作方式如下:(1)对于每一个化学键,利用它两个端点的原子特征去更新该化学键的特征;(2)对于任意原子,利用和它相邻的化学键去更新原子的特征;(3)利用刚刚更新的原子和化学键特征去更新分子的一个整体表达(4)根据每个原子特征,预测它的坐标。分子的构象逐层优化,最终实现从一个初始随机噪声,得到一个真实分子构象。

图二:网络结构示意图

实验结果

实验结果见下图。从图可见,该文提出的方法在各项指标上都取得了目前最优的结果。

另外作者还将DMCG用在了分子对接(docking)的实验中。分子对接的第一步是获得配体小分子的3D构象,之后将其送入分子对接软件进行后续分析。通常人们会选择RDkit产生初始构象。这里,作者将构象生成这一步替换为采用深度学习工具,包括GeoMol, ConfGF, GeoDiff以及作者提出的DMCG。实验结果如图三所示。DMCG的初始构象能够获得更好的结合能,并且相对于真实的配体构象,DMCG的方法RMSD最小。同时我们也观察到,基于深度学习的方案效果,要好于基于RDKit的构象生成。

图三:分子对接实验。

拓展:2D & 3D 联合预训练

DMCG侧重于从2D分子图生成3D构象。基于DMCG的模型架构和训练方案,作者提出基于2D & 3D的联合预训练。该工作发表于KDD2022。训练目标如图四所示,是三个损失函数的加和。图四(a)展示的重构被掩码的原子属性(例如原子属性、电荷数等)和原子坐标。具体来说,给定一个2D的原子图和每个原子坐标,随机遮盖掉一部分原子和坐标,训练目标是重构被遮盖掉的部分。图四(b)展示的是给定2D分子图,重构它的3D构象。这部分采用的是DMCG的方案。图四(c)展示的是给定3D构象,恢复原子类型的属性。作者在PCQM4M-v2的数据集上进行预训练,训练预料约3.38M个 2D/3D数据对。预训练的网络结构和DMCG网络结构保持一致。

图四:损失函数流程图。

作者在分子属性预测,和2D到3D构象生成任务上进行了实验,都取得了令人满意的结果。

表2:分子属性预测任务。

在表2中,作者展示了若干分子属性预测任务的结果。表2(a)和2(b)展示的是在moleculeNet和OGB-molpcba上预测的结果。这两个数据集都是只有2D图信息,没有3D信息。表2(c)展示的是在一个毒性预测数据集上我们算法的效果,该数据集中的分子具备3D信息。

在2D分子图到3D构象生成的任务上,作者和未经过预训练的版本进行了对比。经过预训练后,在3D构象生成的任务上也取得了显著提升。

表3:分子构象生成任务。

参考资料

论文和代码

[1] Direct molecular conformation generation, TMLR22, https://openreview.net/forum?id=lCPOHiztuw,

https://github.com/DirectMolecularConfGen/DMCG

[2] Unified 2D and 3D Pre-Training of Molecular Representations, KDD22, https://arxiv.org/abs/2207.08806,

https://github.com/teslacool/UnifiedMolPretrain

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
分子表示是本研究理解物质世界的关键要素,也是现代分子机器学习的基础。以往的分子机器学习模型通常使用字符串、指纹特征、全局特征以及简单的分子图,这些表示方式本质上信息较为稀疏。然而,随着预测任务复杂度的提升,分子表示需要编码更高保真度的信息。本研究提出了一种新的方法,通过立体电子效应将富含量子化学信息的数据注入分子图中,从而增强其表达能力与可解释性。通过定制的双图神经网络流程学习预测含立体电子信息的分子表示,使该表示能够应用于任何下游的分子机器学习任务,而无需昂贵的量子化学计算。本研究表明,显式地加入立体电子信息能显著提升二维图神经网络模型在分子性质预测任务中的性能。此外,本研究还展示了在小分子上训练得到的分子表示可以准确地外推至更大的分子结构,揭示了先前难以处理的体系(如完整蛋白质)中轨道相互作用的化学机理,为分子设计开辟了新途径。
DrugAI
2025/06/07
550
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
ICLR 2021|一种端到端的基于双重优化的分子构象生成框架ConfVAE
本文由加拿大魁北克人工智能研究所唐建、Minkai Xu、Yoshua Bengio 以及 MIT 的 Wujie Wang、北京大学的Shitong Luo 等人合作完成,发表在2021年 ICLR(人工智能领域顶级会议)。
智药邦
2022/04/13
6830
ICLR 2021|一种端到端的基于双重优化的分子构象生成框架ConfVAE
MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)
本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
机器之心
2023/08/08
8610
MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)
GEODIFF:用于分子构象生成的几何扩散模型
本文介绍一篇ICLR 2022在审论文《GEODIFF:A GEOMETRIC DIFFUSION MODEL FOR MOLECULAR CONFORMATION GENERATION》。根据分子图来预测分子构象是化学信息学和药物发现中的一项基础工作。随着深度生成模型的兴起,这一工作取得重大进展。在这篇论文中,作者提出了新的生成模型GEODIFF。受热力学粒子扩散模型的启发,GEODIFF将每个原子当作一个粒子,GEODIFF所需要学习的部分——分子构象生成即扩散模型的逆过程。对比最先进的一些生成模型,GEODIFF在多个基准上展示出其竞争力,对于大分子尤其明显。
DrugAI
2021/11/15
1.1K0
GEODIFF:用于分子构象生成的几何扩散模型
ICLR 2022 | 三维分子图的球形信息传递
今天给大家介绍的是ICLR 2022 Poster的文章《Spherical Message Passing for 3D Molecular Graphs》。作者在此工作中考虑了三维分子图的表示学习,其中每个原子与三维的空间位置相关联。这是一个尚未得到充分探索的研究领域,目前还缺乏一个有效的信息传递框架。在这项工作中,作者在球坐标系(SCS)中进行了分析,以完整地识别三维图结构。基于此观察,作者提出了球形信息传递(SMP)作为一种新的和强大的三维分子学习方案。SMP显著降低了训练的复杂性,使其能够在大规模分子上有效地执行。此外,SMP能够区分几乎所有的分子结构,而未覆盖的案例在实际中可能并不存在。基于有意义的基于物理的三维信息表示,作者进一步提出了用于三维分子学习的SphereNet。实验结果表明,在SphereNet中使用有意义的三维信息可以显著提高预测任务的性能。结果还证明了SpherNet在可靠性、效率方面的优势。
智能生信
2022/04/06
1.3K0
ICLR 2022 | 三维分子图的球形信息传递
ICLR 2022 | 能量启发的分子构象优化
本文介绍了关嘉麒&Wesley Wei Qian团队发表在ICLR 2022的文章《ENERGY-INSPIRED MOLECULAR CONFORMATION OPTIMIZATION》。作者研究如何预测分子的空间原子排列或分子构象,提出了一个神经能量最小化的概念。他将预测问题归结为一个展开的优化过程,并将神经网络参数化来学习隐式构象能量场的梯度空间。假设底层势能有不同的函数表达式,作者可以重新解释并统一许多现有的模型,还可以有原则地推导出SE(3)-equivariant神经网络的新变体。
DrugAI
2022/03/25
3150
ICLR 2022 | 能量启发的分子构象优化
ICLR2022 | SphereNet与G-SphereNet : 3D分子图表示与分子几何生成的自回归流模型
本期介绍德州农工大学CSE系Shuiwang Ji 教授(http://people.tamu.edu/~sji/)团队被ICLR2022接收的两个工作:SphereNet与G-SphereNet。
DrugAI
2022/03/25
5480
ICLR2022 | SphereNet与G-SphereNet : 3D分子图表示与分子几何生成的自回归流模型
NeurIPS 2021|分子的三维构象集的扭转几何生成
今天给大家介绍的是NeurIPS 2021上一篇来自MIT的论文。在化学信息学和药物发现领域中,从分子图中预测分子的三维构象集具有关键的作用,但现有的生成模型存在严重的问题,这包括缺乏对重要分子几何元素的建模,优化阶段容易出现累积误差,需要基于经典力场或计算代价昂贵的方法进行结构微调。作者团队提出GEOMOL模型,一种端到端、非自回归和SE(3)不变的机器学习方法来生成低能分子三维构象的分布。利用消息传递神经网络(MPNN)捕捉局部和全局信息的能力,我们能预测局部原子的3D结构和扭转角,这样的局部预测即可用于计算训练损失,也可用于测试时的完整构象。作者团队设计了一个非对抗性的基于损失函数的最优传输来促进多样的构象生成。GEOMOL优于流行的开源、商业或最先进的ML模型,同时速度得到了显著提升。我们希望这种可微的三维结构生成器能对分子建模和相关应用产生重大影响。
DrugAI
2021/12/01
8510
NeurIPS 2021|分子的三维构象集的扭转几何生成
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
从 2D 分子图中预测稳定的 3D 构象一直是计算化学中的一个长期挑战。而最近,机器学习方法取得了相比传统的实验和基于物理的模拟方法更优异的成绩。这些方法主要侧重于模拟分子图上相邻原子之间的局部相互作用,而忽略了非键合原子之间的长程相互作用。然而,这些未成键的原子在 3D 空间中可能彼此接近,模拟它们的相互作用对于准确确定分子构象至关重要,尤其是对于大分子和多分子复合物。在本文中,作者提出了一种称为动态图评分匹配 (DGSM) 的分子构象预测新方法,该方法通过在训练和推理过程中根据原子之间的空间接近度动态构建原子之间的图结构来对局部和远程相互作用进行建模。具体来说,DGSM根据动态构建的图,使用评分匹配方法直接估计原子坐标对数密度的梯度场。可以以端到端的方式有效地训练整个框架。多项实验表明,DGSM 的表现远超该领域一流水平,并且能够为更广泛的化学系统生成构象,例如蛋白质和多分子复合物。
DrugAI
2021/12/01
9560
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
Drug Discov Today | 分子表示与性质预测中的深度学习方法
2022年9月24日,青岛大学计算机科学技术学院李臻教授团队在Drug Discovery Today上发表文章“Deep learning methods for molecular representation and property prediction”。在论文中,作者回顾并总结了现有的分子表示与性质预测的深度学习方法,并讨论了深度学习方法在分子表示和性质预测方面的挑战和机遇。
智药邦
2022/11/16
1.6K0
Drug Discov Today | 分子表示与性质预测中的深度学习方法
CycPeptMP通过多层次分子特征和数据增强来进行环状肽的膜透过性预测
今天为大家介绍的是来自Yutaka Akiyama团队的一篇论文。环状肽具有许多优异的特性,如高结合亲和力、毒性小以及应对复杂蛋白靶点的潜力。然而,它们在药物领域的应用受到了其低膜透过性的限制——这是口服生物利用度和细胞内靶向的一个重要指标。
DrugAI
2024/02/23
3410
CycPeptMP通过多层次分子特征和数据增强来进行环状肽的膜透过性预测
【ICLR】四篇好文简读-专题7
Data-efficient graph grammar learning for molecular generation 论文摘要:
智能生信
2021/12/27
5900
【ICLR】四篇好文简读-专题7
JCIM|RJT-RL:一种基于化合物的可逆树表示和深度强化学习的分子设计方法
2022年8月12日,东京大学Ryuichiro Ishitani研究团队在Journal of Chemical Information and Modeling期刊上发表论文《Molecular Design Method Using a Reversible Tree Representation of Chemical Compounds and Deep Reinforcement Learning》,提出了RJT-RL,这是一个基于强化学习(reinforcement learning, RL)的分子生成和优化模型。
智药邦
2022/11/16
3710
JCIM|RJT-RL:一种基于化合物的可逆树表示和深度强化学习的分子设计方法
Conformator使用—小分子构象生成工具
计算机辅助药物设计方法,例如:对接,药效团搜索,3D数据库搜索以及3D-QSAR模型的创建,需要构象集合来处理小分子的灵活性。Conformator,这是一种基于知识的算法,用于生成构象集合。在测试分子的99.9%的情况下,Conformator凭借其在输入格式,分子几何结构和大环化合物处理方面的鲁棒性而脱颖而出。有了一组扩展的扭转角采样规则,一种用于生成大环构象异构体的新算法以及一种用于构象异构体装配的新聚类算法,Conformator达到了中位数最小均方根偏差(在蛋白质结合的配体构象之间测量)且最多包含250个集合为0.47Å,与排名最高的商业算法OMEGA没有显着差异,并且比包括RDKit DG算法在内的7种免费算法明显更高的准确性。
DrugScience
2021/02/04
1.2K0
Conformator使用—小分子构象生成工具
Nat Commun|双重扩散模型实现基于靶标口袋的三维分子生成
2024年3月26日,香港城市大学黄家骏老师团队,联合腾讯人工智能实验室和上海锐格医药,在Nature Communications上发表文章A dual diffusion model enables 3D molecule generation and lead optimization based on target pockets。
智药邦
2024/04/15
3670
Nat Commun|双重扩散模型实现基于靶标口袋的三维分子生成
J. Chem. Inf. Model. | 基于物理信息的类药物分子构象生成模型
今天为大家介绍的是来自David C. Williams团队的一篇论文。作者提出了一种基于扩散的构象生成器模型。该模型侧重于化学键结构的再现,并从传统的经典力场中选取相关术语进行构建,以确保物理相关的表征。作者利用深度学习技术从训练集中推断原子类型和几何参数,通过利用基于扩散的生成技术的最新进展,实现构象采样。通过在大规模、多样化的类药分子合成数据集上进行训练,这些分子使用半经验的GFN2-xTB方法进行优化,达到了较高的键合参数精度,超过了传统的基于知识的方法。结果也与蛋白质数据库和剑桥结构数据库中的实验结构进行了比较。
DrugAI
2024/06/04
2250
J. Chem. Inf. Model. | 基于物理信息的类药物分子构象生成模型
Pocket2Mol : 基于3D蛋白质口袋的高效分子采样
本文介绍由xingang peng等人发表于ICML上的文章:Pocket2Mol: Efficient Molecular Sampling Based on 3D Protein Pockets。作者提出了一种新的可以满足口袋施加的多个几何约束的采样方法:Pocket2Mol,这是一个由两个模块组成的 E(3)-等变生成网络,它不仅可以捕获结合口袋原子之间的空间和键合关系,还可以在不依赖 马尔科夫链蒙特卡洛方法(MCMC)的情况下从易于处理的分布中以口袋表示为条件对新候选药物进行采样。实验结果表明,从 Pocket2Mol 中取样的分子具有明显更好的结合亲和力和其他药物特性,例如药物相似性和合成可及性。
DrugAI
2022/06/10
1.5K0
Pocket2Mol : 基于3D蛋白质口袋的高效分子采样
原创 | 一文带你速读计算化学领域顶会论文
作者:王可汗本文约1800字,建议阅读8分钟本文解读了机器学习在计算化学领域的最新研究,带你速读4篇相关领域的最新顶会论文。 计算模拟和实验研究是当今研究化学,生物学和材料科学的两个重要手段。当前,以机器学习为代表的人工智能技术在科学计算领域潜力巨大,展示出旺盛的生命力和光明前景。本文解读了机器学习在计算化学领域的最新研究,带你速读4篇相关领域的最新顶会论文。 1. 论文题目:So3krates: Equivariant attention for interactions on arbitrary len
数据派THU
2023/04/25
4000
原创 | 一文带你速读计算化学领域顶会论文
Nat Commun|知识引导的分子表示学习预训练框架
2023年11月21日,清华大学曾坚阳教授(西湖大学教授)、赵诞老师团队,在Nature Communications上发表文章A knowledge-guided pre-training framework for improving molecular representation learning。
智药邦
2024/03/05
2580
Nat Commun|知识引导的分子表示学习预训练框架
ICLR 2022 under review | 从零开始生成三维分子几何结构的自回归流模型
今天给大家介绍的是ICLR2022上underreview的文章《An autoregressive flow model for 3d molecular geometry generation from scratch》。虽然目前已经开发了多种方法来生成分子图,但从零开始生成分子的三维几何结构问题并没有得到充分的探索。在这项工作中,作者提出了G-SphreNet,一种生成三维分子几何的自回归流模型。G-SphereNet采用了一种一步步将原子放置在三维空间上灵活的顺序生成方案,它并不直接生成三维坐标,而是通过生成距离、角度和扭转角来确定原子的三维位置,从而确保不变性和等变性。此外,作者建议使用球形信息传递和注意力机制进行条件信息提取。实验结果表明,G-SphreNet在随机分子几何结构生成和目标分子发现任务方面优于以往的方法。
智能生信
2021/11/02
9150
推荐阅读
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
550
ICLR 2021|一种端到端的基于双重优化的分子构象生成框架ConfVAE
6830
MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)
8610
GEODIFF:用于分子构象生成的几何扩散模型
1.1K0
ICLR 2022 | 三维分子图的球形信息传递
1.3K0
ICLR 2022 | 能量启发的分子构象优化
3150
ICLR2022 | SphereNet与G-SphereNet : 3D分子图表示与分子几何生成的自回归流模型
5480
NeurIPS 2021|分子的三维构象集的扭转几何生成
8510
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
9560
Drug Discov Today | 分子表示与性质预测中的深度学习方法
1.6K0
CycPeptMP通过多层次分子特征和数据增强来进行环状肽的膜透过性预测
3410
【ICLR】四篇好文简读-专题7
5900
JCIM|RJT-RL:一种基于化合物的可逆树表示和深度强化学习的分子设计方法
3710
Conformator使用—小分子构象生成工具
1.2K0
Nat Commun|双重扩散模型实现基于靶标口袋的三维分子生成
3670
J. Chem. Inf. Model. | 基于物理信息的类药物分子构象生成模型
2250
Pocket2Mol : 基于3D蛋白质口袋的高效分子采样
1.5K0
原创 | 一文带你速读计算化学领域顶会论文
4000
Nat Commun|知识引导的分子表示学习预训练框架
2580
ICLR 2022 under review | 从零开始生成三维分子几何结构的自回归流模型
9150
相关推荐
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档