蛋白质与非编码DNA(NCDS)的相互作用是调控基因表达和代谢通路的关键,但其复杂性长期制约着高效生物工程的发展。传统方法依赖实验试错,耗时耗力;而现有深度学习模型大多聚焦单一分子类型(如仅蛋白质或仅DNA),难以捕捉跨模态的协同效应。
近期,上海交通大学与上海人工智能实验室联合团队在《bioRxiv》预印本平台提出ProDMM (Protein-DNA Multi-Modality Language Model),通过统一的多模态序列建模,实现了蛋白质、编码DNA(CDS)与非编码DNA的联合分析与生成,为这一难题提供了全新解决方案。
核心架构 多模态预训练如何实现跨分子协同建模?ProDMM的核心创新在于其多模态Transformer架构 :
编码器(ProDMM-Encoder) :基于BERT式双向注意力机制,通过掩码语言建模(MLM)预训练,学习蛋白质、CDS及上下游NCDS的联合表征。预训练数据包含1.29亿对序列 ,覆盖不同物种的基因组信息。解码器(ProDMM-Seq2Seq) :在编码器基础上增加自回归解码器,支持跨模态生成任务(如根据蛋白质生成CDS,或基于CDS设计启动子)。研究团队特别设计了四种序列输入格式 (如NCDS-CDS-NCDS、NCDS-Protein-NCDS),通过15%的随机掩码策略,迫使模型学习序列间的依赖关系。可视化分析显示,ProDMM能自动聚类具有相似理化性质的氨基酸,并精准映射密码子与氨基酸的对应关系。
零样本预测与生成任务性能 ProDMM在多项基准测试中表现卓越:
1. 零样本预测能力
基因表达预测 :CDS序列的困惑度(Perplexity)与实验测得的蛋白表达水平显著相关(平均Spearman r=0.8,p<1e-5),优于Evo、DNABERT2等模型。突变适应性预测 :在E.coli蛋白质突变体适应性预测中,ProDMM使用蛋白质或CDS作为输入均超越ESM、ProtTrans等基线模型。代谢通路预测 :通过整合多个NCDS-Protein复合序列,ProDMM无需标注数据即可预测萘草酮(naringenin)等代谢产物的产量,为通路优化提供全新工具。2. 生成任务的突破
反向翻译(Protein→CDS) :在生成高表达CDS的任务中,ProDMM的准确率显著高于传统n-gram模型及Prot-CDS Transducer,且能跨物种泛化(如从大肠杆菌迁移至人类基因)。启动子-CDS协同设计 :基于CDS生成的启动子与天然启动子相比,显著提升基因表达预测水平,并精准复现关键调控元件(如TATAAT框)。应用潜力 ProDMM的突破不仅体现在技术层面,更拓展了合成生物学的应用场景:
蛋白质工程 :通过CDS输入的监督学习,ProDMM在蛋白熔点、溶解度预测等任务中表现更优,为理性设计提供可靠工具。代谢通路优化 :预训练模型通过微调学习相邻蛋白-NCDS的局部交互,可预测长程代谢网络的全局行为,减少实验试错成本。基因表达调控 :启动子与CDS的协同生成证明,跨模态条件设计能显著提升目标产物的表达效率,为工业酶或药物蛋白生产提供新思路。挑战与展望 尽管ProDMM已展现强大能力,其局限性仍需关注:
长程交互建模不足 :当前预训练主要聚焦局部序列关系,对跨多个基因的全局代谢网络预测仍有提升空间。真核生物适应性 :模型预训练数据以原核基因组为主,需进一步扩展至真核系统以增强普适性。未来,结合更复杂的图神经网络或引入物理化学先验知识,可能进一步提升模型对生物系统的理解深度。
参考文献 Li, M. et al. (2025). bioRxiv preprint. doi: https://doi.org/10.1101/2025.02.26.640480
本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。