
DRUGONE
蛋白设计在药物研发和酶工程等领域越来越关键。研究人员提出 ProtDAT,一个可从自然语言的蛋白描述文本中直接生成氨基酸序列的多模态蛋白设计框架。ProtDAT 构建了统一的序列–文本整体表示,并通过新型 多模态交叉注意力机制(MCM) 完成细粒度信息交互,使文本与序列在底层深度融合。模型在 Swiss-Prot 的 20,000 组文本–序列测试集中显著优于现有方法,在 pLDDT、TM-score 与 RMSD 等结构指标上提升明显,展示出高质量、可控性强的蛋白序列生成能力。

近年来大量蛋白多模态数据的积累推动了蛋白设计的发展。然而现有蛋白语言模型普遍依赖单一模态(仅序列或仅文本),难以捕获完整生物意义。已有方法通常以预训练或微调方式处理多模态,但文本语义使用浅层、序列–文本交互不足、模态对齐困难,导致难以根据文本生成精准有效的序列。
研究人员基于此提出 ProtDAT,通过端到端的细粒度跨模态融合,将蛋白功能、定位、家族等文本信息与序列生成过程深度耦合,实现自然语言到氨基酸序列的高保真转译。
方法概述
ProtDAT 采用解码器结构,并构建包含序列、文本与跨模态张量三类输入。文本通过 PubMedBERT 编码,序列使用蛋白序列专用 tokenizer 处理。核心模块 MCM 包含三部分:序列模块、文本模块与跨模态交互模块,用于在每层解码中执行自注意力、交叉注意力与跨模态拼接注意力。该机制使文本语义在序列生成全程持续发挥作用。ProtDAT 在 469,395 条 Swiss-Prot 文本–序列对上完成预训练,并在自动回归框架中完成序列逐步生成。

结果
ProtDAT 的训练框架与多模态数据准备
研究人员构建了大规模文本–序列数据集,包含蛋白功能、定位与家族等文本信息,与对应序列对齐并编码。MCM 被应用于 12 层解码器中,使文本、序列与跨模态向量在每层充分交互,最终用于生成高质量序列。
ProtDAT 可从多模态数据生成高质量蛋白序列
研究人员设计五种提示模式(仅文本、文本+N 端序列等),并与 ProGen2、ProtGPT2、ProLLaMA 与 ESM-3 对比生成 110,805 条序列。结构质量评价显示:
ProtDAT 在全部指标上领先:
ProtDAT 能生成较长序列(接近 500 aa)且结构可信度随长度增长保持稳定。
该结果表明文本信息对序列生成非常关键,且 MCM 有助于降低自动回归误差累计现象。

亚细胞定位一致性评估
研究人员利用 DeepLoc2.1 对生成序列预测定位,并与原文本标注对比。结果显示:
功能注释一致性(GO 术语相似度)
通过 MMseqs2 构建双向检索,比较生成序列与真值序列的 GO 术语集合相似度。结果显示:
MCM 在序列生成中的作用
研究人员可视化了 MCM 的注意力权重,显示:
该机制显著减弱自动回归导致的误差累积,使后续氨基酸选择更加稳定可信。
ProtDAT 能生成“远端同源”蛋白序列
t-SNE 显示生成序列与真实序列在向量空间中呈相似分布。选取若干案例发现:
这符合“远端同源蛋白”的特征,说明模型能生成新颖但结构合理的序列。

生成参数优化与自然蛋白相似性
通过 KL 散度筛选生成参数,最佳为:
在最佳参数下生成的氨基酸分布高度接近自然蛋白,表明模型学到了天然蛋白序列组织规律。
消融实验:MCM 的关键作用
将 MCM 替换为传统 cross-attention 后:
表明 MCM 是 ProtDAT 实现多模态整合与高质量序列生成的核心组件。
讨论
ProtDAT 提供了一个可在任意文本–序列数据集上训练的全新框架,实现了蛋白文本信息的深度利用。通过 MCM,序列与文本在生成全程持续交互,克服了以往方法无法充分利用文本语义的限制。实验显示 ProtDAT 在结构可信度、功能一致性与序列合理性上均达到了领先表现。
未来研究人员计划:
ProtDAT 展现出推动多模态蛋白设计新范式的重要潜力。
整理 | DrugOne团队
参考资料
Guo, XY., Li, YF., Liu, Y. et al. Ab-initio amino acid sequence design from protein text description with ProtDAT. Nat Commun 16, 10544 (2025).
https://doi.org/10.1038/s41467-025-65562-w
内容为【DrugOne】公众号原创|转载请注明来源