首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >IEEE TCBB | DeepSeqPanII:肽与HLA-II分子结合预测的新利器

IEEE TCBB | DeepSeqPanII:肽与HLA-II分子结合预测的新利器

作者头像
智能生信
发布2021-05-17 16:45:04
发布2021-05-17 16:45:04
1.7K0
举报
文章被收录于专栏:智能生信智能生信

今天给大家介绍在IEEE/ACM Transactions on Computational Biology and Bioinformatics上发表的文章“DeepSeqPanII: an interpretable recurrent neural network model with attention mechanism for peptide-HLA classII binding prediction”。随着深度学习的不断发展,基于深度模型的肽与HLA-I分子结合预测模型表现出了较好的性能。然而,HLA-II分子目前仍缺乏较好的结合预测模型。本文基于之前提出的DeepSeqPanI模型提出了适用于HLA-II分子的DeepSeqPanII模型,模型使用LSTM编码和Attention机制优化编码过程,在特征提取时使用卷积神经网络进行特征提取,最终使用全连接神经网络进行结合预测。通过实验,模型表现出了较好的性能。

一、研究背景

1.1 背景

肽与HLA分子结合并进行提呈后,可供T细胞识别并产生相应的免疫响应。HLA分子主要包括两大类:HLA-I分子和HLA-II分子。这两类分子在功能上具有差异,HLA-I分子主要与细胞质内的肽进行结合,而HLA-II分子则与细胞外的肽进行结合,比如病毒肽等。另外,HLA-I分子与HLA-II分子在结构上也有较大差异,其中HLA-I分子只有一条α链,而HLA-II分子则有α和β两条链。除此之外,HLA-II分子和它所结合的肽长度更具有多样性。综上所述,肽与HLA-II分子的结合预测相比于HLA-I分子更具有挑战性。由于实际实验的代价较大,所以开发出基于数据计算的肽与HLA-II分子预测模型尤为重要。

1.2 HLA-II分子挑战

(1) HLA-II分子的多样性。HLA-I分子含有一条蛋白链,且不同分子的蛋白链的长度均一致;而HLA-II分子含有两条蛋白链,且不同分子的蛋白链长度可能不同。

(2) HLA-II分子往往与更长的肽结合。HLA-I分子一般与长度为8-11肽表位序列结合,但HLA-II分子往往会与更长的肽表位序列结合,通常长度会达到14-18。

1.3 相关工作

近年来,有许多工作用于应对HLA-II分子所带来的挑战,SMM-align,NN-align以及NetMHCIIpan-3.1方法都基于不同模型,对肽与HLA-II分子结合进行预测,并取得了较好的效果。

二、模型与方法

本文基于之前提出的DeepSeqPanI模型,构建了端到端的适用于HLA-II分子的DeepSeqPanII模型,模型使用LSTM编码和Attention机制优化编码过程,在特征提取时使用卷积神经网络进行特征提取,最终使用全连接神经网络进行结合预测,模型架构如图1所示。

图1 模型架构

2.1 编码层

由于HLA-II分子蛋白的两条链并非定长,所以作者提出使用LSTM来进行编码,并在编码后使用Attention机制来对编码进行优化。在LSTM编码中,作者为了提高训练效率,使用mask对分子蛋白进行长度补全,并得到隐节点向量。为了发掘基于位置的数据信息,作者使用了Attention机制。将隐节点向量求和后,通过一个正则化和全连接网络,得到注意力向量,并与原隐节点向量进行组合,得到输出的权重向量。编码层细节如图2所示。

图2 编码层细节

2.2 特征提取层

对于特征提取层,DeepSeqPanII模型使用了DeepSeqPanI模型的特征提取层,可详见先前工作。特征提取层使用权值共享的卷积神经网络(即LCBlock)以及池化层,最终提取出相应的特征向量。特征提取层细节如图2所示。

图3 特征提取层细节

2.3 预测层

对于预测层,DeepSeqPanII模型同样使用了DeepSeqPanI模型的预测层网络。预测层使用含Dropout的全连接神经网络,对肽与HLA-II分子的结合进行预测。预测层细节如图4所示。

图4 预测层细节

三、实验结果

本文使用分子上的留一法(LOAO)等方法进行交叉验证,实验数据使用BD2013和BD2016,并于目前现有的较好NN-align,NetMHCIIpan,SMM-align等模型进行对比试验。

3.1 模型在LOAO测试下的预测性能

实验使用AUC指标对DeepSeqPanII和NetMHCIIpan进行比较。实验结果表明,在LOAO测试中,DeepSeqPanII在许多数据点上性能超过了NetMHCIIpan,结果如图5所示。

图5 LOAO测试下DeepSeqPanII和NetMHCIIpan的AUC性能比较

3.2 模型在基准数据下的预测性能

实验使用AUC和SRCC指标对各模型进行比较。实验结果表明,DeepSeqPanII和NetMHCIIpan两个模型的表现最为突出,几乎包揽了所有的最高值,而DeepSeqPanII和NetMHCIIpan也几乎不相上下,结果如图6所示。

图6 基准数据下各模型的AUC和SRCC性能比较

3.3 Attention机制对分子结合关键的捕捉

论文模型中使用了Attention机制,而Attention对分子结合的关键点有较好的捕捉,结果如图7所示。

图7Attention机制对分子结合关键的捕捉

四、总结

本文提出了基于深度神经网络的DeepSeqPanII模型,适用于肽与HLA-II分子结合预测任务。模型使用LSTM编码和Attention机制优化编码过程,在特征提取时使用卷积神经网络进行特征提取,最终使用全连接神经网络进行结合预测。通过实验,模型表现出了较好的性能。在未来,作者希望该模型能够用于其它序列相关的预测任务中。


参考文献

[1]Z. Liu et al., "DeepSeqPanII: an interpretable recurrent neural networkmodel with attention mechanism for peptide-HLA class II bindingprediction," in IEEE/ACM Transactions on Computational Biology andBioinformatics, doi: 10.1109/TCBB.2021.3074927.

https://ieeexplore.ieee.org/abstract/document/9411722

[2]Liu, Z., Cui, Y., Xiong, Z. etal. DeepSeqPan, a novel deep convolutional neural network model forpan-specific class I HLA-peptide binding affinity prediction. Sci Rep 9, 794(2019). https://doi.org/10.1038/s41598-018-37214-1


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 今天给大家介绍在IEEE/ACM Transactions on Computational Biology and Bioinformatics上发表的文章“DeepSeqPanII: an interpretable recurrent neural network model with attention mechanism for peptide-HLA classII binding prediction”。随着深度学习的不断发展,基于深度模型的肽与HLA-I分子结合预测模型表现出了较好的性能。然而,HLA-II分子目前仍缺乏较好的结合预测模型。本文基于之前提出的DeepSeqPanI模型提出了适用于HLA-II分子的DeepSeqPanII模型,模型使用LSTM编码和Attention机制优化编码过程,在特征提取时使用卷积神经网络进行特征提取,最终使用全连接神经网络进行结合预测。通过实验,模型表现出了较好的性能。
  • 肽与HLA分子结合并进行提呈后,可供T细胞识别并产生相应的免疫响应。HLA分子主要包括两大类:HLA-I分子和HLA-II分子。这两类分子在功能上具有差异,HLA-I分子主要与细胞质内的肽进行结合,而HLA-II分子则与细胞外的肽进行结合,比如病毒肽等。另外,HLA-I分子与HLA-II分子在结构上也有较大差异,其中HLA-I分子只有一条α链,而HLA-II分子则有α和β两条链。除此之外,HLA-II分子和它所结合的肽长度更具有多样性。综上所述,肽与HLA-II分子的结合预测相比于HLA-I分子更具有挑战性。由于实际实验的代价较大,所以开发出基于数据计算的肽与HLA-II分子预测模型尤为重要。
  • (1) HLA-II分子的多样性。HLA-I分子含有一条蛋白链,且不同分子的蛋白链的长度均一致;而HLA-II分子含有两条蛋白链,且不同分子的蛋白链长度可能不同。
  • 近年来,有许多工作用于应对HLA-II分子所带来的挑战,SMM-align,NN-align以及NetMHCIIpan-3.1方法都基于不同模型,对肽与HLA-II分子结合进行预测,并取得了较好的效果。
  • 本文基于之前提出的DeepSeqPanI模型,构建了端到端的适用于HLA-II分子的DeepSeqPanII模型,模型使用LSTM编码和Attention机制优化编码过程,在特征提取时使用卷积神经网络进行特征提取,最终使用全连接神经网络进行结合预测,模型架构如图1所示。
  • 图1 模型架构
  • 由于HLA-II分子蛋白的两条链并非定长,所以作者提出使用LSTM来进行编码,并在编码后使用Attention机制来对编码进行优化。在LSTM编码中,作者为了提高训练效率,使用mask对分子蛋白进行长度补全,并得到隐节点向量。为了发掘基于位置的数据信息,作者使用了Attention机制。将隐节点向量求和后,通过一个正则化和全连接网络,得到注意力向量,并与原隐节点向量进行组合,得到输出的权重向量。编码层细节如图2所示。
  • 图2 编码层细节
  • 对于特征提取层,DeepSeqPanII模型使用了DeepSeqPanI模型的特征提取层,可详见先前工作。特征提取层使用权值共享的卷积神经网络(即LCBlock)以及池化层,最终提取出相应的特征向量。特征提取层细节如图2所示。
  • 图3 特征提取层细节
  • 对于预测层,DeepSeqPanII模型同样使用了DeepSeqPanI模型的预测层网络。预测层使用含Dropout的全连接神经网络,对肽与HLA-II分子的结合进行预测。预测层细节如图4所示。
  • 图4 预测层细节
  • 本文使用分子上的留一法(LOAO)等方法进行交叉验证,实验数据使用BD2013和BD2016,并于目前现有的较好NN-align,NetMHCIIpan,SMM-align等模型进行对比试验。
  • 实验使用AUC指标对DeepSeqPanII和NetMHCIIpan进行比较。实验结果表明,在LOAO测试中,DeepSeqPanII在许多数据点上性能超过了NetMHCIIpan,结果如图5所示。
  • 图5 LOAO测试下DeepSeqPanII和NetMHCIIpan的AUC性能比较
  • 实验使用AUC和SRCC指标对各模型进行比较。实验结果表明,DeepSeqPanII和NetMHCIIpan两个模型的表现最为突出,几乎包揽了所有的最高值,而DeepSeqPanII和NetMHCIIpan也几乎不相上下,结果如图6所示。
  • 图6 基准数据下各模型的AUC和SRCC性能比较
  • 论文模型中使用了Attention机制,而Attention对分子结合的关键点有较好的捕捉,结果如图7所示。
  • 图7Attention机制对分子结合关键的捕捉
  • 本文提出了基于深度神经网络的DeepSeqPanII模型,适用于肽与HLA-II分子结合预测任务。模型使用LSTM编码和Attention机制优化编码过程,在特征提取时使用卷积神经网络进行特征提取,最终使用全连接神经网络进行结合预测。通过实验,模型表现出了较好的性能。在未来,作者希望该模型能够用于其它序列相关的预测任务中。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档