前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >精准预测分子性质,复旦大学周水庚团队提出基于图结构学习的分子图神经网络

精准预测分子性质,复旦大学周水庚团队提出基于图结构学习的分子图神经网络

作者头像
智药邦
发布2024-06-11 19:26:16
2270
发布2024-06-11 19:26:16
举报
文章被收录于专栏:智药邦

分子性质预测(MPP)是计算机辅助药物发现过程中一项基础但又具有挑战性的任务。近年来,越来越多的研究采用不同的基于图的模型进行MPP预测,在提高预测性能方面取得了长足的进步。然而,目前的模型只是将分子本身建模成一个图,忽略了将分子之间的关系也建模成图。

2024年5月6日,复旦大学周水庚教授团队在Bioinformatics上发表文章Molecular property prediction based on graph structure learning。

作者提出了一种基于图结构学习的分子性质预测(graph structure learning (GSL) based molecular property prediction (MPP))方法,称为GSL-MPP。具体来说,GSL-MPP首先在分子图上应用图神经网络(GNN)来提取分子表征。然后,利用分子指纹图谱构建分子相似图(molecular similarity graph, MSG)。然后,对MSG进行图结构学习,得到最终的分子嵌入,这是融合GNN编码的分子表征和分子间关系的结果。即结合分子内和分子间的信息。最后,使用这些分子嵌入来执行MPP。在不同的基准数据集上进行的实验表明,GSL-MPP超越了现有的方法,能够学习到良好的分子表征。

GSL-MPP的结构如图1所示,它在一个两级图学习框架上运行。具体来说,两级图学习框架包括(i)下层:由GNN编码的原子级分子图,以提取初始分子表示;(ii)上层:分子级相似图,在其上执行GSL以迭代学习最终的分子嵌入,其中利用分子间关系,为MPP获得更好和更准确的分子嵌入。

图1 GSL-MPP结构图

GSL-MPP的工作流程如下:(i)初始分子嵌入计算:首先用GNN对分子图进行编码,得到初始分子嵌入。(ii)初始分子相似度矩阵计算:利用指纹将分子表示为特征向量,然后利用分子特征向量计算初始分子相似度矩阵。(iii)初始分子相似图(Initial molecule similarity graph, MSG)构建:构建初始分子相似图A(0),其中每个节点是由上述GNN嵌入初始表示的一个分子,每条边附加一个权重,即对应的两个分子之间的相似度。(iv) MSG上的结构学习:对MSG进行GSL,迭代更新分子嵌入和图结构,得到最终的分子嵌入。(v)性质预测:利用最终的分子嵌入进行性质预测。

实验中使用了来自MoleculeNet的10个基准数据集,其中5个是分类任务,5个是回归任务。具体来说,BACE是关于几种抑制剂的结合结果,BBBP是血脑屏障穿透数据集,SIDER、Clintox、Tox21是三个多任务数据集,对应药物是否有副作用或毒性。ESOL、lipoophilicity和Freesolv是关于物理化学性质的回归数据集。QM7记录了用密度泛函理论(DFT)确定的电子性质。QM8包含计算机生成的量子力学特性。采用之前研究工作的按不同的分子骨架划分数据集的方式,将数据集分成训练、验证和测试三个部分,比例为80%/10%/10%,这比随机分割更具经验性和挑战性。对每个数据集在三个不同的随机种子上运行,报告每次实验的均值和标准差。

作者将GSL-MPP与一些具有代表性的方法进行了比较。如表1所示,将二分类任务将ROC-AUC指标作为对比,回归任务将RMSE作为对比。在五个分类任务数据集上,GSL-MPP性能在其中四个数据集上超越了现有方法。在五个回归任务数据集上,GSL-MPP性能在其中两个数据集上超越了现有方法。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。考虑以下四种不同的模型进行比较:

没有任何(Not any):直接使用原始特征来预测。这等价于一个GIN网络。

只有A0:在初始分子相似图上应用GNN,其中不含GSL的ECFP相似性构建。

只有GSL:使用没有初始图的从头GSL。

无GSL损失:使用初始图和GSL,但只使用预测损失,不使用GSL损失。

结果如表2所示,可见GSL-MPP的效果优于各个消融模型,说明了GSL-MPP的每一个部分都在提升性能中发挥作用。值得注意的是,“只有GSL”通常比“Not any”表现得更差,这意味着从头开始学习分子间图可能很困难,所以有必要利用分子指纹的化学信息来构建初始图。

表2 消融实验

作者还进行了案例分析。为了检验模型的分子表示学习能力,使用默认超参数的t分布随机邻居嵌入(t-SNE)在BACE和BBBP数据集上可视化最终的分子表示,t-SNE是一种非线性降维技术,用于将高维数据嵌入到低维空间(通常是二维或三维)进行可视化。具体来说,它通过一个二维或三维的点对每个高维向量建模,这样相似的向量被建模为附近的点,不相似的向量被高概率地建模为远处的点。在这里,通过t-SNE(使用Python中的sklearn包)将分子表示嵌入到二维空间中,并使用Python中的matplotlib包来显示它。结果如图2所示。

不同标签的分子在两种分类数据集上都有明确的边界,尤其是BBBP。相同标签的分子倾向于聚集在一起,而不同标签的分子则分开定位。两种回归数据集的不同性质值的分子之间似乎存在一定的分布规律。对于FreeSolv数据集,随着属性值的减小,分子倾向于从外部区域移动到内部区域。对于ESOL数据集,随着属性值的减小,分子倾向于从左上向右下移动。这些结果表明,模型为下游任务生成了合理的分子表示。

图2 案例分析

在本文中,作者提出了一个新的基于两级分子表示的分子性质预测模型。不像以前的尝试只关注单个分子图中原子或键之间的信息传递,作者进一步利用了分子间图。具体而言,作者利用分子指纹的化学信息构建初始MSG,并使用GSL对图进行优化。实验表明,模型在大多数情况下都能达到最先进的性能。然而,模型在以下方向上仍有改进的空间:(i)使用更复杂的基于图的模型来编码分子图,而不是使用GIN。(ii)为GSL设计加权余弦相似度以外的新指标。(iii)探索新的、更有效的GSL方法。

参考文献:

[1] Zhao et al. Molecular property prediction based on graph structure learning. Bioinformatics. 2024

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档