首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Commun. | 基于蛋白文本描述的ab initio 氨基酸序列设计

Nat. Commun. | 基于蛋白文本描述的ab initio 氨基酸序列设计

作者头像
DrugOne
发布2025-12-17 16:59:11
发布2025-12-17 16:59:11
880
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

蛋白设计在药物研发和酶工程等领域越来越关键。研究人员提出 ProtDAT,一个可从自然语言的蛋白描述文本中直接生成氨基酸序列的多模态蛋白设计框架。ProtDAT 构建了统一的序列–文本整体表示,并通过新型 多模态交叉注意力机制(MCM) 完成细粒度信息交互,使文本与序列在底层深度融合。模型在 Swiss-Prot 的 20,000 组文本–序列测试集中显著优于现有方法,在 pLDDT、TM-score 与 RMSD 等结构指标上提升明显,展示出高质量、可控性强的蛋白序列生成能力。

近年来大量蛋白多模态数据的积累推动了蛋白设计的发展。然而现有蛋白语言模型普遍依赖单一模态(仅序列或仅文本),难以捕获完整生物意义。已有方法通常以预训练或微调方式处理多模态,但文本语义使用浅层、序列–文本交互不足、模态对齐困难,导致难以根据文本生成精准有效的序列。

研究人员基于此提出 ProtDAT,通过端到端的细粒度跨模态融合,将蛋白功能、定位、家族等文本信息与序列生成过程深度耦合,实现自然语言到氨基酸序列的高保真转译。

方法概述

ProtDAT 采用解码器结构,并构建包含序列、文本与跨模态张量三类输入。文本通过 PubMedBERT 编码,序列使用蛋白序列专用 tokenizer 处理。核心模块 MCM 包含三部分:序列模块、文本模块与跨模态交互模块,用于在每层解码中执行自注意力、交叉注意力与跨模态拼接注意力。该机制使文本语义在序列生成全程持续发挥作用。ProtDAT 在 469,395 条 Swiss-Prot 文本–序列对上完成预训练,并在自动回归框架中完成序列逐步生成。

结果

ProtDAT 的训练框架与多模态数据准备

研究人员构建了大规模文本–序列数据集,包含蛋白功能、定位与家族等文本信息,与对应序列对齐并编码。MCM 被应用于 12 层解码器中,使文本、序列与跨模态向量在每层充分交互,最终用于生成高质量序列。

ProtDAT 可从多模态数据生成高质量蛋白序列

研究人员设计五种提示模式(仅文本、文本+N 端序列等),并与 ProGen2、ProtGPT2、ProLLaMA 与 ESM-3 对比生成 110,805 条序列。结构质量评价显示:

ProtDAT 在全部指标上领先:

  • pLDDT 提升约 18
  • TM-score 提升约 0.26
  • RMSD 降低超过 1 Å

ProtDAT 能生成较长序列(接近 500 aa)且结构可信度随长度增长保持稳定。

该结果表明文本信息对序列生成非常关键,且 MCM 有助于降低自动回归误差累计现象。

亚细胞定位一致性评估

研究人员利用 DeepLoc2.1 对生成序列预测定位,并与原文本标注对比。结果显示:

  • ProtDAT Top-1 准确率接近 0.6,显著高于所有基线模型;
  • 在 precision、recall、F1 中均显著领先;
  • 说明 ProtDAT 生成的序列保留了文本中的真实定位特征。

功能注释一致性(GO 术语相似度)

通过 MMseqs2 构建双向检索,比较生成序列与真值序列的 GO 术语集合相似度。结果显示:

  • ProtDAT 的高相似度序列比例约 > 75%;
  • 基线模型大多低于 60%;
  • 说明 ProtDAT 能有效将文本功能语义嵌入所生成序列。

MCM 在序列生成中的作用

研究人员可视化了 MCM 的注意力权重,显示:

  • 文本 token 在生成初期贡献大,随后逐渐平稳;
  • 跨模态模块(CIM)始终保持显著权重;
  • 即使序列长度增加,文本仍维持约 20% 的影响力。

该机制显著减弱自动回归导致的误差累积,使后续氨基酸选择更加稳定可信。

ProtDAT 能生成“远端同源”蛋白序列

t-SNE 显示生成序列与真实序列在向量空间中呈相似分布。选取若干案例发现:

  • 序列相似度低于 25%;
  • 结构 TM-score 高于 0.9。

这符合“远端同源蛋白”的特征,说明模型能生成新颖但结构合理的序列。

生成参数优化与自然蛋白相似性

通过 KL 散度筛选生成参数,最佳为:

  • Top-p = 0.85;
  • Temperature = 1.0;
  • 重复惩罚 = 1.2。

在最佳参数下生成的氨基酸分布高度接近自然蛋白,表明模型学到了天然蛋白序列组织规律。

消融实验:MCM 的关键作用

将 MCM 替换为传统 cross-attention 后:

  • 结构指标全面下降;
  • 定位预测准确率下降;
  • 功能 GO 相似度显著下滑。

表明 MCM 是 ProtDAT 实现多模态整合与高质量序列生成的核心组件。

讨论

ProtDAT 提供了一个可在任意文本–序列数据集上训练的全新框架,实现了蛋白文本信息的深度利用。通过 MCM,序列与文本在生成全程持续交互,克服了以往方法无法充分利用文本语义的限制。实验显示 ProtDAT 在结构可信度、功能一致性与序列合理性上均达到了领先表现。

未来研究人员计划:

  • 扩展更大规模注释文本,进一步增强语言理解能力;
  • 将结构注意力模块纳入 MCM;
  • 推广至非蛋白的“生物语言”,如 RNA、药物分子、单细胞数据等。

ProtDAT 展现出推动多模态蛋白设计新范式的重要潜力。

整理 | DrugOne团队

参考资料

Guo, XY., Li, YF., Liu, Y. et al. Ab-initio amino acid sequence design from protein text description with ProtDAT. Nat Commun 16, 10544 (2025).

https://doi.org/10.1038/s41467-025-65562-w

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档