首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Brief Bioinform|iAMPCN:识别抗菌肽功能活性的深度学习方法

Brief Bioinform|iAMPCN:识别抗菌肽功能活性的深度学习方法

作者头像
智药邦
发布于 2024-03-05 08:31:54
发布于 2024-03-05 08:31:54
5900
举报
文章被收录于专栏:智药邦智药邦

2023年6月27日,澳大利亚莫纳什大学宋江宁教授团队,与日本京都大学Tatsuya Akutsu教授,以及腾讯人工智能实验室姚建华研究员合作,在Briefings in Bioinformatics上发表文章iAMPCN: a deep-learning approach for identifying antimicrobial peptides and their functional activities。

作者提出了一种新的基于卷积神经网络的抗菌肽功能活性预测器(iAMPCN, identifying antimicrobial peptides based on CNN)。在iAMPCN的结构中,作者使用了4种序列表示,并使用不同滤波长度的CNN模型,从每种编码中提取不同序列长度的特征信息。结果表明,与传统的抗菌肽预测模型相比,iAMPCN模型取得了更好的结果。

背景

抗菌肽(Antimicrobial peptides, AMP)是一种短肽,在多种生物过程中发挥重要作用,对目标生物具有多种功能活性。由于微生物病原体对化学抗生素的耐药性日益增强,开发新的感染性治疗药物迫在眉睫。目前,利用抗菌肽作为治疗感染的潜在替代品已经取得了一些进展,因为大多数天然抗菌肽是生物体中特定的多肽物质,是保护宿主免受入侵病原体侵害的先天免疫系统的关键成分。AMP通常是小分子多肽,对细菌、酵母、真菌、病毒和癌细胞等目标生物具有多种功能活性。

与传统化学抗生素相比,AMP具有更高的抗菌活性、更广泛的抗菌谱和更少的导致目标菌株耐药突变的可能性。因此,AMP的鉴定已成为一个广泛讨论的话题。目前,研究者们已经开发了各种基于机器学习的计算方法来识别AMP,然而,大多数预测方法都难以精准预测AMP的功能活性。

方法

抗菌肽的功能活性可分为抗细菌(Antibacterial)、抗真菌(Antifungal)、抗病毒(Antiviral)、抗癌(Anticancer)等多种类型。作者采用了如下策略来构建每个功能类型的训练和独立测试数据集:从49115个经过实验验证的AMP序列中收集了每种功能活性的阳性和阴性样本。由于不同的AMP数据库已经更新了多次,因此需要对这些序列进行完整的注释。此外,不同AMP数据库之间存在重叠的AMP,构建了链接抗菌肽(linking antimicrobial peptides, LAMP)数据库来反映多个AMP数据库之间的交联。因此,结合多个数据库中的多肽可以使活性注释更加完整。总之,组合来自多个数据集的肽将比仅使用来自一个数据集的肽更好。

然而,不管组合与否,缺少标签的实例始终存在。为此,通过以下步骤来生成阴性数据集:(i)从UniProt下载肽序列,删除所有包含关键字“抗菌”和相关关键字(例如“抗细菌”、“抗真菌”、“抗癌”、“抗病毒”)的条目; (ii)长度大于200或小于10个氨基酸残基被丢弃; (iii)使用CD-HIT程序去除阴性数据集与阳性数据集中具有成对序列同一性的序列。最终获得195525份阴性样本。

为了训练和评估AMP功能活性预测的预测模型,作者从阳性和阴性数据集中随机选择20%的样本来构建测试数据集,使用剩下的80%的样本作为训练数据集。然后,对其他预测工具筛选出在训练数据集中的异常序列进行过滤,并对剩余的数据集进行拆分,以构建独立的数据集和训练数据集。

图1展示了iAMPCN的结构。在这里,作者使用了四种不同类型的氨基酸信息来表示肽序列,包括独热编码、BLOSUM62编码、AAIndex编码和PAAC编码。使用独热编码方案时,将肽序列转换成一个维数为200x21的数值矩阵,其中200表示肽序列的长度,21维二值向量表示每种氨基酸类型(20种标准氨基酸,以及非标准氨基酸)。对于长度小于200的序列,用“0”填充向量,对于长度大于200的序列,去掉部分向量,得到相等维数的矩阵。对于BLOSUM62编码,将肽序列转换为维数为200x23的数值矩阵,其中200同样表示肽序列的长度,23维向量表示不同的氨基酸类型。这种编码反映了氨基酸残基的进化信息。对于AAIndex编码,将肽序列转换为200x531维数的数值矩阵。每种氨基酸类型由531维向量表示,该向量表示氨基酸的各种物理化学和生化特性。最后,对于PAAC编码,将肽序列转换为200x3维的数值矩阵。每种氨基酸类型用三维向量表示,该向量表示氨基酸残基的原始疏水性、亲水性和侧链质量。

图1 iAMPCN结构图

如图1所示,利用2-6个不同滤波长度的一维CNN(即Conv1d)从每种编码中提取不同序列长度的特征信息。首先,将每个CNN提取的特征归一化并输入到池化层中。然后,将同一编码类型提取的特征进行组合,输入池化层,得到最终特征。在结合这些特征后,使用最终的全连接层来给出最终的预测输出。

在本研究中,作者利用迁移学习策略。具体来说,将AMP预测第一阶段训练的AMP和非AMP预测模型作为预训练模型,初始化预测功能活动模型的所有参数权重。AMP预测和AMP功能活性预测的模型训练学习率设置为相同,即0.0001。由于某些功能活性的数据集不平衡,损失函数采用焦点损失(focal loss),以控制训练过程中神经网络赋予正类和负类样本的权重,此外,在实验中采用早期停止(early stopping)策略,以避免过拟合。

结果

作者将iAMPCN与一些具有代表性的方法进行了比较。表1列出了七个不同的指标,包括灵敏度、特异度、精密度、准确度、F1值、马修斯相关系数(MCC)和ROC曲线下面积(AUC)。对于抗菌肽各种功能活性的预测,iAMPCN在大多数指标上超越了现有方法。(注:以下列出抗细菌(Antibacterial)、抗真菌(Antifungal)、抗病毒(Antiviral)、抗癌(Anticancer)这四种功能活性的预测,其他功能活性的预测结果详见原文)

统计学上认为,马修斯相关系数(MCC)是目前衡量不均衡的二分类问题上模型性能的最可靠的指标。在抗细菌、抗真菌、抗病毒、抗癌这四种功能活性的预测上,iAMPCN的MCC分别为0.4099,0.3561,0.5794,0.4139,均显著高于现有方法。特别是在抗癌活性的预测上,基线方法预测的MCC均为负数,而iAMPCN的MCC达到了0.4139,这表明iAMPCN是目前首个能够对AMP的抗癌活性进行精准预测的机器学习模型。

表1 与其他方法对比

作者设计了模型消融实验。在数据集构建过程中,需要使用CD-HIT程序去除阴性数据集与阳性数据集中具有成对序列同一性的序列。显然,去除阴性数据集与阳性数据集中具有100%成对序列同一性的序列时,模型表现最好。之前的预测工具都是在这一基础上进行预测的,而本文则实验了在训练集未完全去除这类序列的情况下,对训练集进行10折交叉验证,iAMPCN模型的表现,如表2所示。随着序列同一性(sequence identity)比例由40%提高到100%,iAMPCN模型的表现不断提升。然而,即使在去除阴性数据集与阳性数据集中具有40%成对序列同一性的序列时,iAMPCN仍能取得较好的结果,表明模型具有较强的鲁棒性。

表2 消融实验

作者还进行了案例分析。在此,作者分析了具有抗革兰氏阳性、抗革兰氏阴性、抗真菌、抗病毒、抗哺乳动物细胞和抗癌等六种最常见功能活性的AMP,并应用SHapley加性解释(SHAP)算法中的“GradientExplainer”方法进行可解释性分析。为每个功能活性选择了三个AMP,并在图2中显示了氨基酸对每个AMP序列的相对重要性。可以看到赖氨酸和精氨酸残基在抗菌活性中发挥着相对重要的作用,这可能是由于它们带正电的特性。这一观察结果与许多先前的研究结果一致。此外,亮氨酸、色氨酸和苯丙氨酸由于其疏水性也有助于抗菌活性。此外,天冬氨酸也被鉴定出具有显著的抗癌活性,这在以往的研究中也得到了证实。

图2 案例分析

总结

准确鉴定抗菌肽及其功能活性对功能肽的设计和抗菌治疗的发展至关重要。本研究开发了一个新的基于卷积神经网络的框架iAMPCN,以准确识别AMP的功能活动。基于训练数据集和独立测试集的实验表明,iAMPCN在预测大多数AMP功能类型方面具有优越的性能。

此外,案例分析表明,iAMPCN可以作为AMP预测的特征提取工具。iAMPCN的卓越预测性能,既归功于可靠的数据集管理最新的AMP注释及其功能活动,以提供最全面的训练数据,又得益于精确的iAMPCN卷积神经网络框架从有效的特征表示中学习,为AMP功能活性预测建立强大的预测能力。综上所述,可以预计iAMPCN将成为识别AMP及其功能活动的实用方法。在未来的工作中,作者将专注于解决标签不平衡问题,以进一步提高模型预测AMP功能活性的性能。

参考文献

[1] Xu et al. iAMPCN: a deep-learning approach for identifying antimicrobial peptides and their functional activities. Brief Bioinform. 2023

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档