前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >π-PrimeNovo : 基于非自回归Transformer的快速从头测序模型

π-PrimeNovo : 基于非自回归Transformer的快速从头测序模型

作者头像
DrugAI
发布2024-07-05 13:04:23
940
发布2024-07-05 13:04:23
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

结构预测和序列预测是蛋白质组学面临的最为关键的两大挑战。尽管以AlphaFold为首的深度学习模型在结构预测上取得了极大的成功,但蛋白质测序算法仍然缺乏突破进展。基于质谱仪对蛋白质序列测序是获得蛋白质序列的主要手段。传统搜库算法依赖于人工建立的蛋白质序列数据库,因此受限于只能对已有的肽段鉴别。而以深度学习的从头测序(de novo sequencing)算法,则能更好的从已有的数据中总结规律,泛化到数据库中不存在的蛋白序列,从而更好地发现自然界中新的蛋白序列。然而,目前的深度学习de novo测序算法普遍准确率低,速度慢。具体而言,生物序列预测的模型目前都基于NLP(自然语言处理)中流行的自回归模型,利用下一个token的预测模式,去逐个单向的预测蛋白质肽序列。这样的预测方式限制了信息传递,从而导致单个氨基酸无法全面的获取周围信息。此外,自回归模型的解码速度慢,难回溯。因此,上海人工智能实验室、国家蛋白质科学中心(北京)、复旦大学的研究团队合作提出了生物学首个“非”自回归Transformer预测模型--PrimeNovo。同时团队研发了适用于蛋白质序列的可控解码的模块PMC(Precise Mass Control),可以实现生成肽段序列质量精确控制。实验表明 PrimeNovo 在多个广泛应用测测试数据集上体现出了极高的预测准确性,比当前的最优模型, Casanovo-V2, GraphNovo以及PepNet等都有10-30%的肽段绝对准确率的提升。受益于非自回归的一次性生成特性,以及自研的CUDA优化算法,PrimeNovo体现出了相比于SOTA自回归模型高达69倍的速度提高。在多个生物学应用场景,包括宏蛋白质组的鉴定,翻译后修饰发现等都有惊人的表现。

模型架构

PrimeNovo模型基于Transformer,利用了Encoder-Decoder的架构。Encoder对输入的谱图进行编码,生成向量信息通过注意力传递给Decoder进行解码预测。不同于自回归的生成Decoder,非自回归的Decoder使用自注意力机制替代了因果注意力机制。这样的设计让序列中的每一个位置都可以在生成过程中看到周围位置的生成信息,而不是像自回归模型中只能获取前向的信息。此外,模型的优化基于CTC损失函数,将loss信号均匀分布在可能的序列排布上。不同于交叉墒对每个位置token施加优化信号,这样的损失函数加强了序列全局的关联。

在测序任务中,质谱仪往往会给出肽段总质量,所以模型生成肽段的质量都应该被严格在较小的质量误差内(如20 ppm)。然而传统的自回归模型无法做到精确控制生成氨基酸序列的总质量,这是因为自回归每个位置词表的概率严格基于前向选词。对任意前向位置解码所得的token的更改,都会引起所有往后位置概率偏移。因此,利用beam search等搜索方法去解码只能获得局部最优解,无法控制序列全局的特性。而在非自回归模型中,词表每个位置的概率独立,在任意位置对生成的序列token做调整不会影响到其他位置的选词。因此,非自回归模型有机会做到真正的可控生成。以此为出发点,团队研发了一种类似背包问题的动态规划非自回归模型解码器,将质量控制下的解码重新建模成优化问题,因此可以获得精确的全局最优解。在这个解码模型中,“背包”的容量即是所要解出序列的质量范围。每个位置氨基酸则是需要去选取的包内物品,物品质量则是氨基酸的摩尔质量,物品价值则是模型词表中氨基酸概率。基于CTC的解码原理,团队用一个二维动态规划表格,则可以搜索到对应的概率最大且严格满足质量要求的最优解序列。最后,基于CUDA的优化算法再此基础上提出,将其顺序解码的方式完全并行,从而极大提升解码速率。

实验结果:

PrimeNovo在各类不同的质谱标注数据测试中,都实现了对之前模型效果的远超。在最广泛接受的九物种baseline上,PrimeNovo刷新每个物种的SOTA表现,将平均准确率由之前最好模型CasaNovo V2的 54%提升到了64%。在更新的九物种测试集V2上将之前最好的63%提升到了73%。此外,在其他几个主流的数据,包括HCC,PT 和 人类抗体的测试上都表现出了10-30%的提升相较于之前的最好模型。

宏蛋白组学领域在进行注释时面临着重大挑战,主要是由于微生物群体内的巨大多样性以及存在许多亲缘关系接近的物种,这些物种具有高度相似的蛋白质序列。因此,增加独有肽段(unique peptides)的数量是实现分类注释精确性的关键方法。本文中,使用了从共生鼠中获得的宏蛋白组数据集,该数据集包含了17种预定义的细菌菌株[1]。在这个数据集中,作者应用了PrimeNovo和Casanovo V2 对数据库搜索未鉴定的谱图进行分析。

结果显示,PrimeNovo的性能优于Casanovo V2,在经过严格的质量控制流程T\U\D\DS*后,分别多鉴定到了107%和124%的PSMs (Peptide spectrum matches)和肽段数量。此外,PrimeNovo在提高分类分辨率方面表现出色,特别是在检测特定分类群肽段方面。在细菌特异性、门特异性、属特异性和种特异性肽段中观察到显著增加。特别值得注意的是PrimeNovo保持了高度的识别准确性,其中所有识别的肽段都正确匹配到已知种类,而Casanovo V2在属级别出现了一次错误匹配。PrimeNovo显著提高了肽段和蛋白质水平的分类分辨率,凸显了其在宏蛋白组学研究中的巨大潜力。

蛋白质翻译后修饰(Protein post-translational modifications,PTMs)在扩展蛋白质组的功能多样性中起着至关重要的作用。而当前数据库搜索引擎的能力有限,只允许考虑少数几种修饰。这种稀缺性导致训练数据中修饰肽段的低存在率,从而使模型难以从数据中准确识别多样的PTMs。

首先,作者在包含21种不同PTMs的合成肽数据集上进行了测试,通过对21种PTMs的逐个微调,作者发现PrimeNovo能够识别广泛的PTMs,在绝大多数PTMs数据上的分类准确率均超过95%,在其中在20种PTMs上的肽段预测和修饰定位准确率超过了61%。其次,作者选取了来自于肺腺癌病人的磷酸化富集的队列数据,该数据集包括103个LUAD肿瘤及其相应的非癌组织。作者随机选择了3389PSMs进行测试,其余用于训练。作者在这样的训练数据上对PrimeNovo进行了微调,测试结果表明PrimeNovo能够以98%的分类准确率区分磷酸化和非磷酸化谱图,并实现了66%的肽段预测及修饰定位准确率。

最后,为了评估PrimeNovo在非富集蛋白组数据集中识别修饰肽段的能力,作者在未进行数据集特定微调的情况下,进一步将其应用于本队列数据中的非富集部分数据。作者依赖模型的置信度得分选择了300个高质量预测肽段。并通过理论谱图预测与原始谱图之间的比较分析,确定了12个肽段作为合成验证和进一步功能研究的候选对象。研究结果显示,12个合成磷酸化肽段的实验谱图和原始谱图的对齐情况良好,其中九对谱图间的皮尔森相关系数超过0.90,以及其余三对为0.70、0.72和0.86,这也体现了PrimeNovo的高预测精度。进一步分析结果表明,这些磷酸化肽段所属的蛋白质与肺腺癌的发生发展机制间存在一定相关性。例如,蛋白Filamin-C (FLNC)与ITPKA之间的相互作用可促进密集的F-actin网络,与增强肺腺癌细胞的迁移相关。此外,HACD3, SNTB2 和 SRRM2是目前仍未被发现与肺腺癌存在相关性的蛋白,但有研究表明这三种蛋白质与其他癌症类型可能相关。这些结果表明,PrimeNovo在从蛋白质组数据集中检测PTMs,尤其是非富集的数据集中,具有高灵敏度,为低丰度PTM的发现提供了一种新的解决方案。

本文预印本地址:https://www.biorxiv.org/content/10.1101/2024.05.17.594647v2

参考资料

[1] Patnode, M.L., Beller, Z.W., Han, N.D., Cheng, J., Peters, S.L., Terrapon, N., Henrissat, B., Le Gall, S., Saulnier, L., Hayashi, D.K., et al.: Interspecies competition impacts targeted manipulation of human gut bacteria by fiber-derived glycans. Cell 179(1), 59–73 (2019).

[2] Xu, J.Y., Zhang, C., Wang, X., Zhai, L., Ma, Y., Mao, Y., Qian, K., Sun, C., Liu, Z., Jiang, S., Wang, M., Feng, L., Zhao, L., Liu, P., Wang, B., Zhao, X., Xie, H., Yang, X., Zhao, L., Chang, Y., Jia, J., Wang, X., Zhang, Y., Wang, Y., Yang, Y., Wu, Z., Yang, L., Liu, B., Zhao, T., Ren, S., Sun, A., Zhao, Y., Ying, W., Wang, F., Wang, G., Zhang, Y., Cheng, S., Qin, J., Qian, X., Wang, Y., Li, J., He, F., Xiao, T., Tan, M.: Integrative Proteomic Characterization of Human Lung Adenocarcinoma. Cell 182(1), 245–26117 (2020).

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档