蛋白质与非编码DNA(NCDS)的相互作用是调控基因表达和代谢通路的关键,但其复杂性长期制约着高效生物工程的发展。传统方法依赖实验试错,耗时耗力;而现有深度学习模型大多聚焦单一分子类型(如仅蛋白质或仅DNA),难以捕捉跨模态的协同效应。
近期,上海交通大学与上海人工智能实验室联合团队在《bioRxiv》预印本平台提出ProDMM(Protein-DNA Multi-Modality Language Model),通过统一的多模态序列建模,实现了蛋白质、编码DNA(CDS)与非编码DNA的联合分析与生成,为这一难题提供了全新解决方案。
多模态预训练如何实现跨分子协同建模?ProDMM的核心创新在于其多模态Transformer架构:
研究团队特别设计了四种序列输入格式(如NCDS-CDS-NCDS、NCDS-Protein-NCDS),通过15%的随机掩码策略,迫使模型学习序列间的依赖关系。可视化分析显示,ProDMM能自动聚类具有相似理化性质的氨基酸,并精准映射密码子与氨基酸的对应关系。
ProDMM在多项基准测试中表现卓越:
1. 零样本预测能力
2. 生成任务的突破
ProDMM的突破不仅体现在技术层面,更拓展了合成生物学的应用场景:
尽管ProDMM已展现强大能力,其局限性仍需关注:
未来,结合更复杂的图神经网络或引入物理化学先验知识,可能进一步提升模型对生物系统的理解深度。
Li, M. et al. (2025). bioRxiv preprint. doi: https://doi.org/10.1101/2025.02.26.640480
本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有