首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >卡内基梅隆大学提出SurfPro模型,通过表面特征进行蛋白质设计

卡内基梅隆大学提出SurfPro模型,通过表面特征进行蛋白质设计

作者头像
智药邦
发布2024-07-06 08:09:51
发布2024-07-06 08:09:51
6610
举报
文章被收录于专栏:智药邦智药邦

设计具有期望生化特性和功能的蛋白质,是当前人工智能在生命科学领域最引人注目的应用之一。然而,现有的研究大多数是从蛋白质序列或结构特征出发进行蛋白质设计,而没有考虑到蛋白质分子表面在各种生化过程中所起的重要作用。实际上,分子表面决定了蛋白质在三维欧几里得空间中的形状和生化性质,如疏水性、电荷和极性等等。表面形状和相关的生化特性共同决定了潜在的蛋白质功能。给定具有几何和生化特性约束的所需表面,如何生成适合表面的蛋白质序列,仍是一个未被充分探索的领域。

2024年5月2日,美国卡内基梅隆大学Zhenqiao Song等人在人工智能顶级会议ICML2024上发表文章SurfPro: Functional Protein Design Based on Continuous Surface。

作者提出了一种新的蛋白质设计方法SurfPro(Functional Protein Design Based on Continuous Surface),通过蛋白质的连续表面特征来设计具有期望生化特性和功能的蛋白质序列。SurfPro包括一个分层编码器,逐步模拟蛋白质表面的几何形状和生化特征,以及一个自回归解码器,产生氨基酸序列。实验证明了SurfPro的卓越表现,验证了通过表面特征进行蛋白质设计的有效性。

如图1所示,SurfPro由一个分层编码器和一个自回归解码器组成,编码器从局部角度(local perspective)逐步模拟3D几何形状和生物化学特征到全局图景(global landscape),解码器根据相应表面的几何和生物化学约束生成蛋白质序列。图1(a)给出了SurfPro的概述。

图1 SurfPro结构图

本文使用CATH 4.2数据集进行实验,该数据集给出了一系列的蛋白质结构-序列对,这些结构与特定的生化特性与功能相关联。蛋白质设计模型的目标是,将结构作为特征,将序列作为标签,所设计的蛋白质序列与给定的蛋白质序列尽量接近,从而在空间中能够形成给定的对应结构。作者使用MSMS(molecular surface Monte-Carlo simulator,分子表面的蒙特卡罗模拟器)来通过蛋白质结构信息计算蛋白质原始分子连续表面的点云三维坐标,将与点云上某一点最近的残基的生化特征作为点云上该点的生化特征。作者通过消融实验验证了不同生化特征组合的效果,最终选择了疏水性和电荷特征作为生化特征,这两个特征与三维坐标共同构成了每个点的五维特征。

一个高质量的表面应满足以下两个特性:(1)光滑:点云定义的表面应具有足够的光滑度;(2)紧凑:点云应通过降采样去除冗余信息,提高效率。原始点云通常带有噪声,这可能会限制分子表面的表达能力。因此,对点云进行去噪和平滑处理是必要的。对此,作者对原始点云数据应用高斯核平滑。接着,提高采样效率,作者使用基于八叉树的压缩方法对蛋白质表面进行降采样。具体而言,使用八叉树将表面转换成小立方体,并估计每个立方体的局部密度。每个八叉树节点递归地分为八个相等的八叉。每次划分后,检查每个节点的点数,以确定是否继续划分当前节点。具有比特定阈值更少的点的立方体最小值作为叶节点,不再进一步分割。在对所有节点进行处理后,根据点云的分布将点云转换为不等体积的立方体。密度较低的区域产生较大的立方体。

作者设计了一个分层编码器来模拟蛋白质表面的几何形状和生化特性。分层编码器分为局部建模和全局建模两部分。局部建模将点云的图结构特征作为输入,利用三维坐标刻画的空间关系作为图上的边的权重,使用图神经网络进行建模。全局建模将点云上的点建模成序列,使用注意力机制进行建模。对于点的序列而言,作者根据点对应的残基对点进行排序。

在蛋白质中,彼此靠近的残基表现出很强的相互作用。为了模拟表面上最近顶点之间的这种相互作用,作者设计了一种等变图卷积层(EGCL),以捕获局部几何和生化特征(图1(b)左模块)。具体而言,经过表面建模后,表面上的点具有三维坐标特征以及生化特征,EGCL通过从邻域进行消息传播来更新节点特征,并引入基于门控机制的池化从节点特征得到全图特征。为了促使消息在全局也就是整个表面上传递,作者设计了一个称为FAMHA的全局横向编码器(图1(b)右模块)。其关键思想是将帧平均技术(FA)整合到多头注意力(MHA)层中,不仅能够建模全局生化特征,而且保留了局部信息。FAMHA堆叠多头注意力子层和全连接前馈网络(FFN),在每个子层之后执行残差连接和层归一化。

在自回归蛋白解码器中,考虑到编码几何形状和生化特征的隐藏表示,作者使用Transformer解码器来生成给定表面的蛋白质序列。具体而言,解码器通过对原始序列以及经编码器输出的表示执行交叉注意力操作来生成最终的序列。每个蛋白质序列上的残基都进行独热编码,通过交叉熵损失函数来优化整个模型。

作者将SurfPro与一些具有代表性的方法进行了比较。如表1所示,将复杂度(perplexity,越低越好)和恢复率(recovery rate,越高越好)作为指标。对于蛋白质序列模型而言,复杂度是指预测命中的概率的倒数。例如,如果随机预测某一个残基为20种氨基酸中的一种,则命中概率为1/20,因此随机预测模型的复杂度为20,换言之,对每个残基平均要预测20次才能得到正确结果。恢复率是指在序列中能够正确预测(恢复)的残基比例。SurfPro在这两个指标上超越了基线模型,其复杂度低至3.13,也就是对每个残基平均预测3次左右就能得到正确结果。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。为了更好地分析模型中不同组分的影响,对反折叠任务进行了烧蚀试验。比较的模型如下:(1)SurfPro-w-5:使用了疏水性、电荷、极性、接受电子(acceptor)数和提供电子(donor)数五种生化特征;(2) SurfPro-w/o-global:去除了全局建模;(3) SurfPro-w/o-local:去除了局部建模;(4) surfpro-w-hydrophobicity:只使用疏水性特征;(5)SurfPro-w-charge:只使用电荷特征;(6) SurfPro-w/o-feature:不使用任何生化特征;(7) SurfPro-w-unsorted:在全局建模时,不对原始表面上的顶点进行排序。

表2中的结果表明,合并更多的生化特征不会提升模型性能,仅利用疏水性特性会略微降低性能,而仅依靠电荷特性会严显著降低性能,缺少这两种生化特征会进一步降低性能。这表明在本文的任务上,疏水性和电荷特性是更为关键的特征。此外,删除全局建模或局部建模都会导致显著的性能下降。这些观察结果验证了几何形状和生化特征在表面表征学习中所起的关键作用,强调了将两者结合到蛋白质设计过程中的必要性。值得注意的是,在序列建模时,取消顶点排序会显著降低性能。因为如果不对顶点进行排序,模型很难将每个局部形状与特定的蛋白质片段对齐,特别是对于非常长的序列而言。

表2 消融实验

作者还进行了案例分析。为了深入了解SurfPro设计的功能蛋白,作者可视化了SurfPro模型设计的结合物和属于TrkA(图2(a))和PDGFR(图2(b))的靶蛋白的两个复合物,使用AlphaFold2 (AF2) pAE相互作用来评估设计的结合物与靶蛋白之间的结合亲和力。为了计算pAE相互作用,首先使用ESMFold预测设计的结合物序列的结构,然后将该结构叠加到实际的复合物上。最后计算了新配合物的AF2 pAE相互作用。由于AF2 pAE相互作用模型会自动修正输入的复杂结构,因此AlphaFold2与ESMFold预测的粘结剂结构差异不大。研究表明,当蛋白质复合物的AF2 pAE相互作用低于10时,表明有很强的蛋白质结合亲和力。而以上两个复合物的pAE均低于6,这直观地表明,SurfPro能够设计出具有高蛋白质-蛋白质结合亲和力的功能结合物。

图2 案例分析

本文提出了SurfPro,一个新的蛋白质序列设计模型,基于蛋白质表面的信息来设计具有对应功能的蛋白。SurfPro集成了一个分层编码器,逐步捕获几何和生化特征,进行局部和全局建模,采用自回归解码器根据学习到的表面的几何和生化表示生成蛋白质序列。SurfPro在基于提供的蛋白质表面快速直接生成功能性蛋白质序列方面表现出卓越的性能。然而,现有的方法是通过蒙特卡罗模拟来计算蛋白质表面的点云,而为了进一步增强现有框架的有效性和适用性,未来可通过扩散模型等新型的生成模型,以数据驱动的方式来生成点云。

参考文献

Song et al. SurfPro: Functional Protein Design Based on Continuous Surface. ICML. 2024

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档