首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >南开大学提出PGAT-ABPp模型,通过蛋白质语言模型和图注意力网络识别抗菌肽

南开大学提出PGAT-ABPp模型,通过蛋白质语言模型和图注意力网络识别抗菌肽

作者头像
智药邦
发布于 2024-08-29 10:17:10
发布于 2024-08-29 10:17:10
3360
举报
文章被收录于专栏:智药邦智药邦

耐药病原体的出现是对人类健康的巨大挑战。抗菌肽(Antimicrobial peptides,ABP)又称宿主防御肽,是机体免疫防御系统的重要组成部分,表现出多方面的作用机制,对细菌、真菌、病毒和其他病原体具有广谱抗菌活性。因此,它们已成为传统抗菌药物的潜在替代品。然而,识别ABP需要复杂的设计、漫长的筛选周期和严格的条件,这使得大规模筛选非常具有挑战性。

计算机辅助方法是识别和设计ABP的关键方法,因为它们有可能在临床试验之前进行大规模初步筛选。在过去的几十年里,研究者们已经开发了许多基于机器学习的优秀方法来识别抗菌肽。然而,目前的大多数方法在识别抗菌肽时,仍依赖于手工选取的特征,并且未充分利用结构信息,这可能会影响预测性能。

2024年8月9日,南开大学邵学广教授、蔡文生教授团队在Bioinformatics上发表文章PGAT-ABPp: Harnessing Protein Language Models and Graph Attention Networks for Antibacterial Peptide Identification with Remarkable Accuracy。

作者提出了一种新的深度学习方法PGAT-ABPp,利用AlphaFold2预测的结构和预训练的蛋白质语言模型ProtT5-XL-U50 (ProtT5)来构建图,然后采用图注意力网络(GAT)从图中学习全局判别特征,空间信息的引入进一步提高了模型的预测性能。实验结果表明,PGAT-ABPp的性能超越了现有模型。

如图1所示,PGAT-ABPp从预测的结构中提取空间信息,并将其与ProtT5提取的节点嵌入结合起来构建图。在图中,节点表示残差信息,边表示残差之间的位置关系。随后,使用GAT来学习和更新节点表示,然后由读出层进行处理。最后,利用输出层判断输入是否为ABP。

图1 PGAT-ABPp结构图

本文用于预训练和微调模型的主数据集(S),以及独立测试数据集(SIN),均来自先前的Deep-ABPpred工作。具有抗菌活性的肽被认为是ABP,而不管其目标细菌是什么,而没有已知抗菌活性的肽被标记为非ABP。S包括1635个ABP和1485个非ABP,而SIN包括4017个ABP和5799个ABP。此外,S和SIN之间没有重叠。由于在相同的实验条件下,并非所有序列都具有确定的3D结构,因此作者使用AlphaFold2来预测数据集中所有序列的结构。

在数据集中,ABP中高螺旋含量的肽的比例明显高于非ABP,而低螺旋含量的肽的比例相应低于非ABP。这些ABP和非ABP之间的结构差异需要被捕获并用于区分ABP和非ABP。进一步可以看出,数据集中的ABP具有更高的净正电荷,而非ABP则没有。从序列长度来看,ABP主要分布在15-25之间,而非ABPs主要分布在15-30之间。此外,ABP富含赖氨酸和精氨酸等碱性氨基酸,以及丙氨酸和亮氨酸等疏水氨基酸,丰度明显高于非ABP。这种富集归因于ABP需要携带正电荷,以便在初始结合时与细菌细胞膜形成强静电相互作用,通过疏水残基与脂质相互作用破坏细菌细胞膜。

作者选择ProtT5-XL-U50 (ProtT5)作为特征提取器来获得节点嵌入,因为它能够有效地捕获氨基酸和蛋白质结构类别的生物物理特征,这是本文想要用于区分ABP和非ABP的属性。此外,ProtT5特别适合小的蛋白质家族,使其成为ABP识别任务的理想选择。ProtT5采用具有大小为1024的隐藏层的24层Transformer架构,在Big Fantastic Database (BFD)数据库上进行预训练,随后在UniRef50上进行微调。ProtT5利用其编码器为每个输入标记生成上下文感知嵌入。

从AlphaFold2预测的结构中,可以得到所有原子的笛卡尔坐标来创建接触图。在本研究中,使用接触图中Cα-Cα原子之间的距离来表示空间信息。在这种情况下,如果两个残基对应的Cα原子之间的距离在一定范围内,则认为它们是接触的。接着,图注意力网络用于从上面构建的图中学习结构信息和图级信息。图注意力层的输入是一组节点特征,在每个节点上执行自注意力机制,以计算代表不同节点对之间的重要性的注意力系数。使用归一化的注意力系数计算相应特征的线性组合,以获得每个节点的输出特征。

为了稳定学习过程,增强模型的泛化能力,模型采用了多头注意机制,将多个头的特征连接起来,得到输出的特征表示,以进一步处理节点特征,提供图内节点上下文的全面视图。随后,利用全局平均池化计算多头输出的平均值,得到固定长度的图级特征向量。读取特征向量输入到稠密层,最后通过s型激活函数将输出映射到0-1的范围内,以识别输入肽的类别。预测值大于0.5的肽被认为是ABP,否则为非ABP。

作者将PGAT-ABPp与一些具有代表性的方法进行了比较,如表1所示。在本研究中,使用六个指标来评估模型的性能:准确度(Acc),精确度(Pr),特异度(Sp),ROC曲线下面积(AUC), F1评分(Fs)和马修斯相关系数(MCC),其数值越高越好。表中加粗表示最好的结果,可见PGAT-ABPp相对于现有方法具有显著提升。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。在本文中,消融实验用以评估ProtT5的有效性和整合结构信息的意义。先前的研究将特征编码方法分为两大类:肽水平特征和氨基酸水平特征。为了评估不同类型节点特征对结果的影响,作者选择独热(one-hot)编码方法获得基于序列的特征,选择word2vec方法获得氨基酸级特征。据此,模型分别命名为Onehot-GAT和Word2vec-GAT。鉴于CNN在蛋白质迁移学习的下游任务中的优越性能,使用ProtT5-CNN与ProtT5-GAT进行性能比较,旨在观察结构信息的重要性。表2所示的结果显示了ProtT5-GAT在各个指标上的优越性能。与单热编码和word2vec相比,使用ProtT5作为特征提取器时,模型的性能显著提高,表明ProtT5在表示肽序列方面具有显著优势。此外,与ProtT5-CNN相比,ProtT5-GAT的性能也提高了。

表2 消融实验

作者还进行了案例分析。为了探索模型学习生物信息的能力,作者基于注意权值将模型特征的重要性可视化。具体来说,作者选择了四种已知具有抗菌活性的肽,用于可视化权重:

PGLa (GMASKAGAIAGKIAKVALKAL);

Hepcidin-25 (DTHFPICIFCCGCCHRSKCGMCCKT);

HNP-1 (ACYCRIPACIAGERRYGTCIYQGRLWAFCC);

Magainin-2 (GIGKFLHSAKKFGKAFVGEIMNS)

PGLa在水溶液中呈非结构化形式,但在膜中形成两亲性螺旋。之前的研究通过分子动力学模拟发现,PGLa与DMPC/DMPG双分子层之间最强的相互作用来自于Lys5与DMPG磷的接触,PGLa与双分子层结合的自由能主要取决于正电荷的解离和静电PGLa与脂质相互作用之间的平衡。此外,C端螺旋进行旋转以维持赖氨酸和阴离子脂质磷之间的接触。这些关键残基被赋予了更高的关注权重,可以在图2A中的位置4、11、14和18找到。另外,位置7和15分别对应于疏水氨基酸、丙氨酸和缬氨酸。鉴定的残留物共同对PGLa的抗菌性能有重要贡献。

对其他三个案例的分析类似。在Hepcidin-25中,图2B中位于位置14-19的残基表现出更高的权重,这可能归因于它们位于β折叠的旋转区域。HNP-1的热图分析(图2C)显示,具有较高同源性的重要n端和位点得到了更高的权重,并且识别出与肽的两性性质相关的重要位点,包括带正电的和疏水残基。本文的模型可以识别Magainin-2中所有带正电的氨基酸(图2D中的3、6、9、10和13位)。此外,位于0和2位的甘氨酸以及位于7位的丝氨酸对维持抗菌构象很重要,在Magainin-2中也被赋予了更高的注意力权重。

图2 案例分析

本文提出了PGAT-ABPp模型,利用蛋白质语言模型和图注意力网络进行抗菌肽识别。这是一种鲁棒、准确的ABP识别模型。鉴于ABP的识别是后续设计或湿实验的初步筛选,获得更高的准确性不仅是评估模型性能的指标,而且代表了进一步设计的能力,这种能力对设计实验策略和指导未来研究方向具有重要意义。

尽管PGAT-ABPp显示出优于其他方法的优势,但它仍然可以在几个方面进行扩展。首先,在本文的研究中,作者利用ProtT5提取肽嵌入,这表明蛋白质语言模型的选择会影响性能,并且可能是特定适应于某个任务的。鉴于大语言模型的快速发展,未来还将出现更专业的蛋白质语言模型,有望进一步提高模型的性能。其次,本研究中采用了预测结构并将所得的结构信息作为输入,来预测ABP的方法,这种方法尽管取得了更好的结果,但也比直接使用序列消耗了更多的时间和计算成本。此外,值得注意的是,水中的ABP的结构可能与膜中的不一样,因此使用膜中模拟的结构进行鉴定可能更准确,尽管获得这种结构存在重大挑战。总之,开发高精度的ABP识别模型仍然是一项重要的任务。PGAT-ABPp的优异性能使其成为后续发现和设计ABP的有前途的工具。

参考文献:

Hao et al. PGAT-ABPp: Harnessing Protein Language Models and Graph Attention Networks for Antibacterial Peptide Identification with Remarkable Accuracy. Bioinformatics. 2024

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
数据科学家vs数据分析师,到底有啥区别?
数据科学和机器学习两个领域很容易混淆,从职责描述上还是大家的普遍印象里,这两个职位都差不多。相较之下,数据科学和数据分析这两个职位更容易区分。它们虽有关键差别,但也有相似之处。
大数据文摘
2020/06/17
1.8K0
数据科学家vs数据分析师,到底有啥区别?
【数据科学】如何区分大数据下的三大利器:数据科学家,数据工程师与数据分析师。
与其他一些相关工程职位一样,数据科学家的影响力与互联网同进同退。数据工程师和数据分析师与数据科学家携手共同完成这幅“大数据时代”巨作。他们共同努力拟定数据平台要求,基础和高级算法,提供数据分析和展示所需的可视化工具,并将价值创造以易于理解,富于见解的方式反馈给其他部门。 三者之间的定义又是如何界定的呢? 数据科学家是什么样一个存在呢? 通常情况下,数据科学家有数学或物理方面的高等学位。有博士学位的情况并不少见,硕士学位仅是一个前提条件。数据科学家精通统计建模以及如何构建与定制高级数学算法。这既在他们专业范围
陆勤_数据人网
2018/02/26
9000
数据分析师和数据工程师的区别是什么?
有朋友留言问:面试数据分析相关工作,面试官让我说说数据工程师和数据分析师的区别在哪里,怎么回答?
猴子数据分析
2023/11/15
4390
数据分析师和数据工程师的区别是什么?
AI时代就业指南:商业分析师的前世今生
大数据时代,诞生了很多新兴岗位和就业机会。商业分析、数据分析、数据挖掘、数据科学.....一时间把大家弄得云里雾里,傻傻分不清的情况下干脆把这些人都叫“搞大数据”的。其实这些词汇是不同历史阶段的产物,彼此之间有很多交叉和融合的地方,普通人也许不必区分,但如果你想进入这个行业,那么有必要了解一下相关的知识。本文将通过几个简单的问答帮你了解商业数据分析师的前世今生。 Q1、商业数据分析师是做什么的? A:商业分析师能根据业务的需求,从数据中生成相应的报表,为决策提供支撑。相比其他的业务人员,他能更高,更广,
小莹莹
2018/04/18
1.7K0
AI时代就业指南:商业分析师的前世今生
【学习】数据分析与数据挖掘类的职位必备技能
大数据催生数据分析师 薪酬比同等级职位高20% 随着大数据在国内的发展,大数据相关人才却出现了供不应求的状况,大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。大数据分析师是做什么的?阿里巴巴集团研究员薛贵荣就曾表示,“大数据分析师就是一群玩数据的人,玩出数据的商业价值,让数据变成生产力。”而大数据和传统数据的最大区别在于,它是在线的、实时的、规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。有媒体报道,在美国,大数据分析师平均每年薪酬高达17.5万美元,而国内顶尖互联
小莹莹
2018/04/23
1.3K0
【学习】数据分析与数据挖掘类的职位必备技能
数据分析师的自我修养丨如何进阶为数据科学家
关于如何进入数据科学领域的文章有很多,但是关于从数据分析师转变为数据科学家的文章却很少。
CDA数据分析师
2018/07/30
5970
数据分析师的自我修养丨如何进阶为数据科学家
赠书|机器学习、数据科学、数据分析,到底有啥区别?
之前我是数据分析师的时候,我想继续深造成为一名数据科学家,我意识到两者有很大不同。并不是说数据科学与数据分析用完全不一样的工具和编程语言,我甚至觉得数据科学是数据分析的一种形式,因为最终你是在与数据打交道——转换格式,进行可视化,得出可用的结论。
Ai学习的老章
2020/06/18
9770
赠书|机器学习、数据科学、数据分析,到底有啥区别?
掌握这五大技能,你也可以去应聘数据分析师
数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。几年前, 数据分析还是一个比较鲜见的职业,而今天,无论各行各业,它无处不在的闪烁着耀人的光芒。
陆勤_数据人网
2018/02/28
5730
掌握这五大技能,你也可以去应聘数据分析师
BAT的数据分析师,是如何精进技术的?
最近常听到的一个观点是,未来十年内 AI 可能会取代 50% 的工作岗位,但早 AI 一步取代你的,可能是邻桌懂数据分析的同事。很多人掌握基本的 Excel,但你真的懂数据么?
挖数
2019/09/17
5850
BAT的数据分析师,是如何精进技术的?
如何从数据分析师进阶成为数据科学家?
如何从数据分析师华丽转型,成为一名数据科学家?好比“把大象装进冰箱”,成为“数据科学家”仅需简单三步:
数据STUDIO
2024/07/24
1480
如何从数据分析师进阶成为数据科学家?
进阶指南 | 如何从数据分析师转型为数据科学家?
如何从数据分析师华丽转型,成为一名数据科学家?好比“把大象装进冰箱”,成为“数据科学家”仅需简单三步:
Python数据科学
2019/03/14
5410
进阶指南 | 如何从数据分析师转型为数据科学家?
数据分析师需要掌握的技能
1.第一个是Excel。这看起来很简单,但实际上并非如此。Excel不仅可以执行简单的二维表,复杂的嵌套表,还可以创建折线图,柱形图,条形图,面积图,饼图,雷达图,组合图和散点图。
February
2018/12/12
2.1K0
大数据工程师,数据工程师,数据分析师,数据科学家哪一个适合你?
在数据行业,我们经常会遇到形形色色的职位:大数据工程师、数据工程师、数据分析师、数据科学家,甚至还有机器学习工程师。如此繁多的岗位,有时难免让人眼花缭乱、摸不着头脑。今天,我结合从事 Databend 后开始从 OLTP 渗透着大数据圈子4年+对这些职位的认识做一个总结,让我们一起理清这些职位的职责和学习要点,帮你找到属于自己的方向。
阿炳数记
2025/06/06
1480
大数据工程师,数据工程师,数据分析师,数据科学家哪一个适合你?
CDA数据分析师认证3个级别对应的薪资标
从统计到数据分析,从数据挖掘到大数据,数据科学逐渐成为了一门新兴的学科,数据分析师也逐渐成为了一门抢手的职业。如何成为数据分析师?如何入行数据分析?教育是一个难题!在这个行业中,是否有高质量的证书?拿到证书后能找到多少薪资的工作?今天,我们来分析分析作为这个行业中的老牌,CDA数据分析师的等级标准。
CDA数据分析师
2018/12/07
1.9K0
CDA数据分析师认证3个级别对应的薪资标
用数据分析告诉你数据分析师能挣多少钱
随着大数据时代的到来和数据的市场价值得到认可,数据分析师、进阶一点的还有数据挖掘工程师、甚至是金字塔顶尖的数据科学家,这些作为21世纪最性感的职业已成功吸引无数像笔者这样的热血小青年,阿里的一句“开启AI时代”的口号就足以让我等激动的准备把此身奉献给高大上的数据科学行业。除去像计算机、数学和统计学这些科班出身的童鞋,想要转行投身数据分析的其他行业人士也绝不在少数。但数据分析到底是什么、想要成为一名数据行业的从业者又要具备哪些素质,恐怕这才是大家真正需要关注的焦点。笔者花了一些时间,从数据采集到清洗、分析,从可视化到数据的深度挖掘,一整套数据分析处理流程给大家展示一下目前国内关于数据行业的招聘信息到底有些什么。
IT阅读排行榜
2018/08/16
5990
用数据分析告诉你数据分析师能挣多少钱
经验之谈 | 如何从数据分析师转型为数据科学家?
如何从数据分析师华丽转型,成为一名数据科学家?好比“把大象装进冰箱”,成为“数据科学家”仅需简单三步:
1480
2019/05/21
8960
数据科学家、数据分析师、数据挖掘工程师、数据工程师,你分的清楚吗?
数据科学家(Data scientist)的叫法来自国外,广义上它是对从事数据分析和数据挖掘从业人员的一个泛称,它只是一个头衔,并不是一个职位。狭义上,数据科学家一般是指行业里面的领军人物和顶尖科学人才,如百度前首席数据科学家吴恩达。 在人才市场上我们通常可以看到的是后三个职位(数据分析师、数据挖掘工程师、数据工程师),接下里我们就区分一下这几个职位的相同点和不同点。首先看下企业对这三个职位的要求和描述。 职位和能力 下面是阿里对这3个职位的要求和描述: 数据分析师 岗位描述: 1、独立负责业务数
小莹莹
2018/04/19
2.2K0
数据科学家、数据分析师、数据挖掘工程师、数据工程师,你分的清楚吗?
详解:大数据分析的学习之路
  大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
IT阅读排行榜
2018/08/16
5770
详解:大数据分析的学习之路
入门选手必备 | 大数据分析学习之路
目录: 大数据分析的五个基本方面 如何选择适合的数据分析工具 如何区分三个大数据热门职业 从菜鸟成为数据科学家的 9步养成方案 从入门到精通—快速学会大数据分析 一、大数据分析的五个基本方面 1.可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 2.数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格
CDA数据分析师
2018/02/13
8830
如何选择一份合适的数据科学工作
原作者 Kirill Eremenko 编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权 数据科学当之无愧是"21世纪最性感的工作"。本文我们介绍了数据科学相关的五种新兴职业,希望能帮助你选择适合自己的数据科学工作。 如今是数据科学的鼎盛时期... · 世界各地的大学中最热门的新课程都在这个领域; · 数据科学相关专业的毕业生的平均起薪为每年9万3千美元; · 招聘广告中年薪为六位数的数据科学工作司空见惯。 数据科学当之无愧是”21世纪最性感的工作 “。 但是伴随着许多争议,很多人质疑
CDA数据分析师
2018/02/26
9080
如何选择一份合适的数据科学工作
推荐阅读
相关推荐
数据科学家vs数据分析师,到底有啥区别?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档