前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >比现有方法快5倍,南方科技大学团队提出基于二级结构的蛋白质功能预测模型

比现有方法快5倍,南方科技大学团队提出基于二级结构的蛋白质功能预测模型

作者头像
智药邦
发布2024-06-11 19:29:34
1110
发布2024-06-11 19:29:34
举报
文章被收录于专栏:智药邦

预测蛋白质功能对于理解生物生命过程、预防疾病和开发新的药物靶点至关重要。近年来,基于序列、结构和生物网络的蛋白质功能标注方法得到了广泛的研究。虽然通过实验或计算方法获得蛋白质的三维结构可以提高功能预测的准确性,但高通量技术对蛋白质测序的速度提出了重大挑战。现有的基于一级序列或三级结构的蛋白质功能预测方法具有固有的局限性。首先,仅通过氨基酸序列信息来准确预测未知物种的功能具有挑战性。虽然利用三级结构进行功能预测提高了准确性,但由于其耗时较长,对于分析大量数据集是不切实际的。从初级到三级,正是因为“功能信息密度”不断增加,才更容易预测功能。这个功能信息密度是指功能信息与总信息的比值。因此,开发的基于二级结构的预测算法,将基于一级序列的测序效率与利用部分空间结构信息的准确性相结合,是十分必要的。

2024年5月2日,南方科技大学廖茂富教授团队,联合华大智造倪鸣博士,在Briefings in Bioinformatics上发表文章,提出了一种深度神经网络模型DeepSS2GO (Secondary Structure To Gene Ontology)。

它是一个结合二级结构特征、一级序列和同源性信息的预测模型。该算法巧妙地将基于序列的信息的速度与基于结构的特征的准确性结合起来,同时简化了一级序列中的冗余数据,并绕过了三级结构分析的耗时挑战。结果表明,该算法的预测性能优于目前最先进的算法,能够通过有效地利用二级结构信息来预测关键功能。此外,DeepSS2GO的预测速度比先进的算法快5倍,使其非常适用于大量测序数据。

DeepSS2GO的结构如图1所示。如图1A所示,SPOT-1D-LM套件用于将初级氨基酸序列批量转化为二级结构,即将原来的20个氨基酸字母替换为代表二级结构的8个字母:G (螺旋), H (α-螺旋), I (π-螺旋), E (β-折叠), B (β-桥接), S (弯曲), T (转角) and C (无规则卷曲)。具体而言,SPOT-1D-LM结合了ESM-1b和Prottrans预训练模型,进行蛋白质二级结构预测。然而,SPOT-1D-LM算法受到蛋白长度的限制,需要筛选长度不大于1024的蛋白质序列。然后,将一级序列和二级结构分别输入深度学习模型(图2B),得出对pred-aa和pred-ss8的初步预测。另一方面,同源性比较结果Pred-bit-score使用Diamond方法进行,这是一种非常高速和高性能的进行蛋白质同源性搜索的工具。将三个预测分数组合计算最终预测分数。

图1 DeepSS2GO结构图

由于初级序列和次级结构都是一维线性数据结构,可对两者采用了相同的深度学习模型。为了突出二级结构的优势和有效性,尽可能还原生物学本质,采用最经典、最简洁的CNN提取其特征。如图1B所示。对于给定的蛋白质序列,首先将输入的一级序列或二级结构序列转换成一个独热矩阵。数据集中的蛋白质序列长度均不大于1024,如果输入的是一级氨基酸序列,则矩阵大小为[1024,21],其中宽度21表示20种氨基酸加上补零的位置。类似地,如果输入是二级结构,则矩阵大小为[1024,9],其中宽度9表示八种二级结构加上补零的位置。然后,输入通过一系列具有不同核大小和过滤器的CNN层,然后是最大池化层,并通过Sigmoid函数分别归一化为n种GO项的评分范围[0,1]。接下来,分别对model-aa和model-ss8进行训练,模型Pred-aa或Pred-ss8预测的GO分数将与Pred-bit-score相结合,得出最终分数。

作者重点研究了对蛋白质功能更敏感的卷积核和滤波器大小参数。这些参数将决定特定尺寸的特定序列的特征。模型探索了卷积核和过滤器的不同组合,在图1B中分别用K和F表示。K的大小以8为增量在8到128之间变化,而F的大小从16到65536,每一步增加一倍。对不同的参数组合进行网格搜索,在不同数据集上使用不同的参数组合。在MFO和BPO数据集上最佳值为:K=32, F=32768,在CCO数据集上最佳值为:K=48, F=16384。

与通常使用的准确率指标不同,在蛋白质功能预测上,采用这三个指标来进行绩效评估:Fmax,AUPR和Smin。

(1)F值是精确率和召回率的调和平均值,Fmax是在所有潜在阈值设置中实现的最大F值,反映了精度和召回率之间的最佳平衡。

(2)AUPR是所有潜在阈值下的精确召回曲线下的面积。它是在不平衡数据集中评估模型性能的强大工具,特别是当正样本和负样本的数量存在巨大差异时。与传统的受试者工作特征曲线(ROC)相比,AUPR对模型对少数类的预测性能更为敏感。该指标反映了模型在大量负面(多数)实例中正确识别正面(少数)实例的能力,重点是准确性和召回率。在这种情况下,AUPR是敏感的,因为它对错误分类罕见正样本的模型进行了更重的惩罚,从而提供了对模型在不平衡数据集上的性能的更真实的评估。它优先考虑对少数类别的准确检测,在最需要的地方突出了模型的有效性。

(3)Smin是最小灵敏度指数,即跨阈值的真阳性率和假阳性率之间的差距的计算,可以精确地评估分类器在正实例和负实例之间的判别能力。这个指标对于评估模型在不同条件下区分类别的能力特别有洞察力。一个较低的表示模型难以有效地将阳性和阴性案例区分开来,通常导致关键实例的错误分类率较高。相比之下,更高的Smin表明该模型具有更强的区分两者的能力,从而减少了假阳性和假阴性的可能性。这种敏感性使得Smin成为模型评估的宝贵工具,特别是在错误分类代价很高的情况下。它推动模型不仅能够识别模式,而且能够精确地将类分布之间的重叠最小化,从而提高实际应用中预测的可靠性。

作者将DeepSS2GO与一些具有代表性的方法进行了比较。如表1所示,将Fmax,AUPR和Smin指标作为对比。DeepSS2GO在三个数据集的大多数指标上超越了现有方法。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。由于DeepSS2GO将序列信息模型Pred-aa,二级结构信息模型Pred-ss8以及同源性对齐模型Diamond预测的GO分数相结合,得出最终分数。因此,消融实验分别考虑只使用其中一种模型的情况,以及将Diamond与序列信息模型Pred-aa或二级结构信息模型Pred-ss8同时使用的情况。可见,同时使用序列信息模型Pred-aa,二级结构信息模型Pred-ss8以及同源性对齐模型Diamond预测的DeepSS2GO在三个数据集的所有性能指标上超越了消融模型。

表2 消融实验

作者还进行了案例分析。由于现有研究已经对LYPA2_MOUSE蛋白(UniProt Symbol: Q9WTL7)进行了检测,并与其他类似算法进行了比较,在本例中,作者也将该蛋白作为测试对象。LYPA2_MOUSE蛋白是一种酰基蛋白硫酯酶,负责水解附着在各种蛋白质中s-酰基化半胱氨酸残基上的脂肪酸。LYPA2_MOUSE的一个关键功能包括促进zDHHC的去棕榈酰化过程。因此,预测去棕榈酰化相关的GO术语(GO:0098734和GO:0002084)对于理解其生物学过程至关重要。由于LYPA2_MOUSE蛋白存在于训练集中,首先将该蛋白从训练集中移除,然后使用相同的核和过滤参数作为最优解重新训练模型,并使用新模型预测该蛋白的功能。进一步分析表明,预测所有GO术语的成功主要源于准确预测子节点GO:0002084,从而推断出所有父级标签术语。图2比较了DeepSS2GO与其他类似算法预测的GO术语标签。DeepSS2GO成功地准确预测了所有标签,超越了所有其他同类算法。这证明DeepSS2GO提供了更深入、更具体、更关键的功能注释,使其成为生物学研究中更准确、更全面预测蛋白质功能的实用方法。

图2 案例分析

在本文中,作者提出了一种深度神经网络模型DeepSS2GO,这是一个结合二级结构特征、一级序列和同源性信息的蛋白质功能预测模型。DeepSS2GO通过对二级结构特征的模块化整合,减少了一级序列的冗余信息,增强了对蛋白质功能的预测。该方法提高了预测的准确性、相关性和生物学意义。此外,DeepSS2GO在性能上优于目前领先的基于序列的预测器,提供了对基本蛋白质功能的全面预测。它的快速预测能力使其在包括宏基因组学在内的各个领域对大规模未知物种的预测具有很高的适用性。此外,用户友好的模型架构促进了与最新数据库的更快、更方便的更新。随着基因组测序的进展和新物种序列数据量的增长,该方法有望成为一种有价值的蛋白质功能预测工具,在准确性和计算效率之间取得平衡。

然而,DeepSS2GO在一些领域还可以进一步改进。本文中,为了强调二级结构的有效性,使用经典的传统CNN建立模型,证明即使是简单的方法也可以产生出色的结果。然而,深度学习在图神经网络、扩散模型、自监督学习和大型语言模型等领域的算法发展已经在蛋白质结构和功能分析中显示出卓越的效用。应用这些最先进的算法从各个维度提取蛋白质序列信息可以提高功能预测的准确性。此外,该算法从一级序列预测过渡到二级序列预测使用ProtTrans和ESM预训练模型,这些模型受蛋白质序列长度的限制,因此排除了超过1024个氨基酸的大蛋白。未来对较长的序列采用更通用的二级结构预测方法将显著扩展我们的算法范围。最后,功能预测不仅限于全长蛋白,还可以应用于研究各种多肽,整合多种特征将有助于更广泛地阐明疾病机制和发现药物靶点。因此,有必要利用信息融合的方法进一步整合药物和疾病信息,让功能预测算法更有效地应用于实际。

参考文献:

Song et al. DeepSS2GO: protein function prediction from secondary structure. Brief Bioinform. 2024

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档