前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >ProDMM:跨模态Transformer模型实现蛋白质与DNA互作预测与生成

ProDMM:跨模态Transformer模型实现蛋白质与DNA互作预测与生成

作者头像
实验盒
发布2025-03-04 21:14:49
发布2025-03-04 21:14:49
630
举报
文章被收录于专栏:实验盒实验盒

蛋白质与非编码DNA(NCDS)的相互作用是调控基因表达和代谢通路的关键,但其复杂性长期制约着高效生物工程的发展。传统方法依赖实验试错,耗时耗力;而现有深度学习模型大多聚焦单一分子类型(如仅蛋白质或仅DNA),难以捕捉跨模态的协同效应。

近期,上海交通大学与上海人工智能实验室联合团队在《bioRxiv》预印本平台提出ProDMM(Protein-DNA Multi-Modality Language Model),通过统一的多模态序列建模,实现了蛋白质、编码DNA(CDS)与非编码DNA的联合分析与生成,为这一难题提供了全新解决方案。

核心架构

多模态预训练如何实现跨分子协同建模?ProDMM的核心创新在于其多模态Transformer架构

  1. 编码器(ProDMM-Encoder):基于BERT式双向注意力机制,通过掩码语言建模(MLM)预训练,学习蛋白质、CDS及上下游NCDS的联合表征。预训练数据包含1.29亿对序列,覆盖不同物种的基因组信息。
  2. 解码器(ProDMM-Seq2Seq):在编码器基础上增加自回归解码器,支持跨模态生成任务(如根据蛋白质生成CDS,或基于CDS设计启动子)。

研究团队特别设计了四种序列输入格式(如NCDS-CDS-NCDS、NCDS-Protein-NCDS),通过15%的随机掩码策略,迫使模型学习序列间的依赖关系。可视化分析显示,ProDMM能自动聚类具有相似理化性质的氨基酸,并精准映射密码子与氨基酸的对应关系。

零样本预测与生成任务性能

ProDMM在多项基准测试中表现卓越:

1. 零样本预测能力

  • 基因表达预测:CDS序列的困惑度(Perplexity)与实验测得的蛋白表达水平显著相关(平均Spearman r=0.8,p<1e-5),优于Evo、DNABERT2等模型。
  • 突变适应性预测:在E.coli蛋白质突变体适应性预测中,ProDMM使用蛋白质或CDS作为输入均超越ESM、ProtTrans等基线模型。
  • 代谢通路预测:通过整合多个NCDS-Protein复合序列,ProDMM无需标注数据即可预测萘草酮(naringenin)等代谢产物的产量,为通路优化提供全新工具。

2. 生成任务的突破

  • 反向翻译(Protein→CDS):在生成高表达CDS的任务中,ProDMM的准确率显著高于传统n-gram模型及Prot-CDS Transducer,且能跨物种泛化(如从大肠杆菌迁移至人类基因)。
  • 启动子-CDS协同设计:基于CDS生成的启动子与天然启动子相比,显著提升基因表达预测水平,并精准复现关键调控元件(如TATAAT框)。

应用潜力

ProDMM的突破不仅体现在技术层面,更拓展了合成生物学的应用场景:

  • 蛋白质工程:通过CDS输入的监督学习,ProDMM在蛋白熔点、溶解度预测等任务中表现更优,为理性设计提供可靠工具。
  • 代谢通路优化:预训练模型通过微调学习相邻蛋白-NCDS的局部交互,可预测长程代谢网络的全局行为,减少实验试错成本。
  • 基因表达调控:启动子与CDS的协同生成证明,跨模态条件设计能显著提升目标产物的表达效率,为工业酶或药物蛋白生产提供新思路。

挑战与展望

尽管ProDMM已展现强大能力,其局限性仍需关注:

  1. 长程交互建模不足:当前预训练主要聚焦局部序列关系,对跨多个基因的全局代谢网络预测仍有提升空间。
  2. 真核生物适应性:模型预训练数据以原核基因组为主,需进一步扩展至真核系统以增强普适性。

未来,结合更复杂的图神经网络或引入物理化学先验知识,可能进一步提升模型对生物系统的理解深度。

参考文献

Li, M. et al. (2025). bioRxiv preprint. doi: https://doi.org/10.1101/2025.02.26.640480

本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心架构
  • 零样本预测与生成任务性能
  • 应用潜力
  • 挑战与展望
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档