前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ProDMM:跨模态Transformer模型实现蛋白质与DNA互作预测与生成

ProDMM:跨模态Transformer模型实现蛋白质与DNA互作预测与生成

作者头像
实验盒
发布于 2025-03-04 13:14:49
发布于 2025-03-04 13:14:49
2020
举报
文章被收录于专栏:实验盒实验盒

蛋白质与非编码DNA(NCDS)的相互作用是调控基因表达和代谢通路的关键,但其复杂性长期制约着高效生物工程的发展。传统方法依赖实验试错,耗时耗力;而现有深度学习模型大多聚焦单一分子类型(如仅蛋白质或仅DNA),难以捕捉跨模态的协同效应。

近期,上海交通大学与上海人工智能实验室联合团队在《bioRxiv》预印本平台提出ProDMM(Protein-DNA Multi-Modality Language Model),通过统一的多模态序列建模,实现了蛋白质、编码DNA(CDS)与非编码DNA的联合分析与生成,为这一难题提供了全新解决方案。

核心架构

多模态预训练如何实现跨分子协同建模?ProDMM的核心创新在于其多模态Transformer架构

  1. 编码器(ProDMM-Encoder):基于BERT式双向注意力机制,通过掩码语言建模(MLM)预训练,学习蛋白质、CDS及上下游NCDS的联合表征。预训练数据包含1.29亿对序列,覆盖不同物种的基因组信息。
  2. 解码器(ProDMM-Seq2Seq):在编码器基础上增加自回归解码器,支持跨模态生成任务(如根据蛋白质生成CDS,或基于CDS设计启动子)。

研究团队特别设计了四种序列输入格式(如NCDS-CDS-NCDS、NCDS-Protein-NCDS),通过15%的随机掩码策略,迫使模型学习序列间的依赖关系。可视化分析显示,ProDMM能自动聚类具有相似理化性质的氨基酸,并精准映射密码子与氨基酸的对应关系。

零样本预测与生成任务性能

ProDMM在多项基准测试中表现卓越:

1. 零样本预测能力

  • 基因表达预测:CDS序列的困惑度(Perplexity)与实验测得的蛋白表达水平显著相关(平均Spearman r=0.8,p<1e-5),优于Evo、DNABERT2等模型。
  • 突变适应性预测:在E.coli蛋白质突变体适应性预测中,ProDMM使用蛋白质或CDS作为输入均超越ESM、ProtTrans等基线模型。
  • 代谢通路预测:通过整合多个NCDS-Protein复合序列,ProDMM无需标注数据即可预测萘草酮(naringenin)等代谢产物的产量,为通路优化提供全新工具。

2. 生成任务的突破

  • 反向翻译(Protein→CDS):在生成高表达CDS的任务中,ProDMM的准确率显著高于传统n-gram模型及Prot-CDS Transducer,且能跨物种泛化(如从大肠杆菌迁移至人类基因)。
  • 启动子-CDS协同设计:基于CDS生成的启动子与天然启动子相比,显著提升基因表达预测水平,并精准复现关键调控元件(如TATAAT框)。

应用潜力

ProDMM的突破不仅体现在技术层面,更拓展了合成生物学的应用场景:

  • 蛋白质工程:通过CDS输入的监督学习,ProDMM在蛋白熔点、溶解度预测等任务中表现更优,为理性设计提供可靠工具。
  • 代谢通路优化:预训练模型通过微调学习相邻蛋白-NCDS的局部交互,可预测长程代谢网络的全局行为,减少实验试错成本。
  • 基因表达调控:启动子与CDS的协同生成证明,跨模态条件设计能显著提升目标产物的表达效率,为工业酶或药物蛋白生产提供新思路。

挑战与展望

尽管ProDMM已展现强大能力,其局限性仍需关注:

  1. 长程交互建模不足:当前预训练主要聚焦局部序列关系,对跨多个基因的全局代谢网络预测仍有提升空间。
  2. 真核生物适应性:模型预训练数据以原核基因组为主,需进一步扩展至真核系统以增强普适性。

未来,结合更复杂的图神经网络或引入物理化学先验知识,可能进一步提升模型对生物系统的理解深度。

参考文献

Li, M. et al. (2025). bioRxiv preprint. doi: https://doi.org/10.1101/2025.02.26.640480

本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
万字综述|一文掌握大语言模型在生物信息学中的应用
随着大语言模型(LLMs)技术的飞速发展,其在自然语言处理(NLP)领域的成功应用逐渐扩展到了生物信息学领域。生物信息学作为一个跨学科的领域,涉及基因组学、蛋白质组学、药物发现等多个方向,LLMs的引入为这些领域带来了新的研究工具和方法。
实验盒
2025/02/05
4880
万字综述|一文掌握大语言模型在生物信息学中的应用
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
今天为大家介绍的是来自加拿大多伦多大学Bo Wang团队的一篇论文。基于transformer深度学习架构的大型语言模型已经彻底改变了自然语言处理领域。受人类语言与基因组生物学代码之间类比关系的启发,研究人员已开始基于transformer及相关架构开发基因组语言模型(gLMs)。本综述探讨了transformer和语言模型在基因组学中的应用。作者调查了适合使用gLMs的基因组学开放性问题,并论证了对这些问题使用gLMs和transformer架构的理由。作者讨论了gLMs通过无监督预训练任务对基因组进行建模的潜力,特别关注零样本和少样本学习的能力。作者探索了transformer架构的优势和局限性,以及当前gLMs更广泛的优势和局限性。此外,基于目前的研究趋势,作者思考了超越transformer架构的基因组建模的未来。本综述可作为对transformer和语言模型在基因组数据领域感兴趣的计算生物学家和计算机科学家的指南。
DrugAI
2025/04/04
1670
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
Nat. Methods | 压缩比高达10^48!清华药学院张数一团队仅用82个“锚点”即可表示高适应度序列空间
今天为大家介绍的是来自清华大学药学院张数一团队的一篇论文。设计功能更强大的蛋白质需要深入了解序列与功能之间的关系,但这个关系空间范围庞大,难以探索。因此,通过识别功能上重要的特征来有效压缩这个空间就显得极其重要。作者建立了一种称为EvoScan的方法,用于全面分割和扫描高适应度序列空间,从而获得能够捕获其基本特征的锚点(anchor)。这种方法可以与任何能够与转录输出相关联的生物分子功能相兼容。随后,作者开发了深度学习和大语言模型,可以通过这些锚点来精确重建序列空间,无需依赖同源性或结构信息就能预测新的、高适应度的序列。作者将这种实验与计算相结合的方法称为EvoAI,并将其应用于一个抑制蛋白。研究发现,仅需82个锚点就足以将高适应度序列空间压缩,压缩比达到1048。序列空间的极致可压缩性为生物分子设计的应用和对自然进化的理解提供了启示。
DrugAI
2024/12/20
1400
Nat. Methods | 压缩比高达10^48!清华药学院张数一团队仅用82个“锚点”即可表示高适应度序列空间
NAR|一个发现了复杂的生物学规则来破译RNA蛋白质编码潜力的深度递归神经网络
今天给大家介绍俄勒冈州立大学电气工程和计算机科学学院David A. Hendrix等人在Nucleic Acids Research上发表的文章“A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential”。目前新发现的RNA转录本的泛滥为改进编码潜力的评估、基因组注释的基石和机器驱动生物学知识的发现提供了一个独特的机会。传统的基于特征的RNA分类方法受到当前科学知识的限制,而深度学习方法可以独立地发现数据中复杂的生物规则。该模型mRNA RNN(mRNN),在数据较少,没有事先定义mRNA的概念和特征的情况下,超越了最先进的预测蛋白质编码潜力的方法。并且发现了几个对上下文敏感的密码子,它们对编码潜力具有很高的预测能力。
智能生信
2021/02/04
5990
UKBioBERT:融合UK BioBank遗传变异的基因组大语言模型
对于揭示基因调控机制、理解复杂性状的遗传基础,基因表达预测具有重要意义。近年来,深度学习技术的进步推动了序列到功能(sequence-to-function)模型的发展,这些模型通过分析DNA序列信息预测基因表达水平。然而,传统模型多基于单一参考基因组训练,未能充分考虑个体间的遗传变异,导致其在个性化预测和跨群体应用中的性能受限。
实验盒
2025/03/03
4220
UKBioBERT:融合UK BioBank遗传变异的基因组大语言模型
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
近年来,自然语言处理(NLP)领域的快速发展为生物信息学带来了新的研究工具,尤其是大语言模型(如BERT、GPT)在蛋白质结构预测和基因调控分析中的成功应用,揭示了人工智能在生命科学中的巨大潜力。然而,基因组学领域仍面临两大核心挑战:如何解析海量非编码DNA的功能以及如何在低数据场景下实现高精度预测。
实验盒
2025/02/08
2760
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
多组学文献分享---组织中染色质特征、转录组和蛋白质的多重空间映射
追风少年i
2025/02/02
1020
多组学文献分享---组织中染色质特征、转录组和蛋白质的多重空间映射
DNA语言基础模型,从DNA序列中准确预测分子表型 | Nat.Methods
- 图片说明- a,b,NT训练概述(a)及其通过微调在下游基因组预测任务中的应用(b)。通过探测进行的下游任务预测类似,但没有NT中的重新缩放权重。c,NT模型与其他基础基因组学模型在感知场大小、参数数量和我们基准中包含的18个精选下游任务性能方面的比较。d,为下游任务考虑的基因组特征的图形表示(改编自其他地方48)。- ,
生信菜鸟团
2025/02/20
1800
DNA语言基础模型,从DNA序列中准确预测分子表型 | Nat.Methods
深度学习驱动的蛋白质设计--从蛋白质结构到药物候选物的全方位
在生物信息学、合成生物学、药物研发、生物材料制备等领域,深度学习技术的革新正在重塑蛋白质设计工具的边界,使其从单纯的结构预测跃升至具有创造性的设计层面。
Tom2Code
2024/05/09
9390
深度学习驱动的蛋白质设计--从蛋白质结构到药物候选物的全方位
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。近日,美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作,发布了迄今为止最大的公开可用生物学AI模型Evo 2,有望彻底改变人们对生命遗传信息的理解和应用。
DrugAI
2025/03/10
2670
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
在基因组学领域,随着DNA测序技术的飞速发展,我们已经能够以前所未有的速度和精度解析生物的基因组序列。然而,如何准确预测和解读这些序列的功能,依然是一个巨大的挑战。
实验盒
2025/02/18
2170
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
利用基于深度信号处理进展的架构,Evo扩展到了70亿参数,并在单核苷酸分辨率下实现了131千碱基的上下文长度。
新智元
2025/02/14
1270
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
scDiffusion-X:基于多模态扩散模型的单细胞多组学数据生成与调控网络解析新工具
单细胞多组学技术通过在单个细胞层面同时测量多种分子模态(如转录组、表观基因组、染色质可及性和蛋白质组等),为揭示细胞异质性、发育轨迹和调控机制提供了前所未有的视角。然而,该技术在实际应用中面临诸多限制,包括实验成本高昂、样本制备复杂、数据噪声显著以及多模态数据的对齐与整合困难等。传统计算方法,如变分自编码器(VAE)和流模型,在生成质量和跨模态推理能力上存在明显不足。
实验盒
2025/03/24
2320
scDiffusion-X:基于多模态扩散模型的单细胞多组学数据生成与调控网络解析新工具
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
蛋白质语言模型(Protein Language Models, pLMs)已成为研究蛋白质序列与功能之间关系的重要工具。这些模型通过自监督学习从蛋白质序列中提取进化信息,为下游任务提供了丰富的特征表示。然而,尽管其在序列分析方面表现优异,现有模型通常缺乏对蛋白质三维结构的直接理解,这限制了它们在需要结构洞察的任务中的应用。
实验盒
2025/02/25
1670
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
AlphaFold3来了!全面预测蛋白质与所有生命分子相互作用及结构,引领药物研发新革命
近年来,深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里极大改变了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们与其他生物分子的相互作用,并且有潜力创造用于治疗疾病的新型药物。
Tom2Code
2024/07/19
1.4K0
AlphaFold3来了!全面预测蛋白质与所有生命分子相互作用及结构,引领药物研发新革命
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
选自MIT News 作者:Raleigh McElvery 机器之心编译 编辑:小舟、张倩 来自 MIT 和哈佛大学博德研究所等机构的一项研究刚刚登上了 Nature 封面。他们创建了一个数学框架来预测基因组中非编码序列的突变及其对基因表达的影响。研究人员将能够利用这些模型来设计细胞、研发新药、寻找包括癌症和自身免疫性疾病在内的疾病新疗法。 尽管每个人类细胞都包含大量基因,但所谓的「编码」DNA 序列仅占人类整个基因组的 1%。剩下的 99% 由「非编码」DNA 组成,非编码 DNA 不携带构建蛋白质的
机器之心
2022/03/18
3560
Advanced Science | 多模态蛋白表征方法及其迁移性量化
5月30日,中国科学院深圳先进技术研究院数字所殷鹏团队在Advanced Science在线发表了最新研究成果,题为“A Multimodal Protein Representation Framework for Quantifying Transferability Across Biochemical Downstream Tasks”。该工作提出了一种多模态蛋白质表征方法,通过融合多种蛋白质模态,包括序列、结构和基因本体(GO)信息来实现对蛋白的高效表征。同时,提出了一种基于最优传输的特征空间表示度量,用于量化从预训练的多模态表征到下游任务的动态迁移性。这种度量可以有效地捕捉任务间的分布差异,并预测任务间的适应性。这项研究的成果有助于更好地理解蛋白质的性质和功能,为计算生物学领域的研究提供了新的工具和方法。助理研究员胡帆博士为论文的第一作者,数字所硕士研究生胡奕绅、张维鸿为共同一作。潘毅教授为论文的共同作者,殷鹏副研究员为论文的通讯作者。
DrugAI
2023/09/19
4570
Advanced Science | 多模态蛋白表征方法及其迁移性量化
Nature | 多模态基础模型引领分子细胞生物学新纪元
高通量组学技术的快速发展带来了生物数据的指数级增长,这一速度往往超过了研究人员提取分子层面洞见的能力。在自然语言处理领域,大语言模型通过整合海量数据集构建统一模型,并在多个下游任务中展现出强大能力,为应对数据洪流提供了新思路。借鉴这一理念,研究人员设想构建多模态基础模型,并在包括基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学以及空间组学在内的多类组学数据上进行预训练。此类模型有望以前所未有的方式表征细胞的分子状态,描绘出细胞、基因与组织的整体图谱。
DrugAI
2025/04/19
730
Nature | 多模态基础模型引领分子细胞生物学新纪元
MIT「神谕」模型登Nature封面!破译DNA的前世今生和未来
---- 新智元报道   编辑:好困 拉燕 【新智元导读】一个模型即可破译非编码DNA的进化历史和未来? 今天,机器学习再次登上Nature的封面! 这次,来自麻省理工学院和英属哥伦比亚大学等机构的研究人员构建了一个深度学习神经网络模型——「神谕」。 利用数亿次实验观测结果进行训练之后,「神谕」可以预测酵母中的非编码DNA序列的突变会如何影响基因表达。 论文链接:https://www.nature.com/articles/s41586-022-04506-6#Abs1 此外,研究人员还提出了一种
新智元
2022/03/18
5750
AlphaFold新竞争对手出现,ESMFold预测了6亿种蛋白质结构
2022年7月,DeepMind声称AlphaFold已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构。如今,另一家科技巨头也加入了蛋白质结构预测的“军备竞赛”。
智药邦
2022/11/16
7750
AlphaFold新竞争对手出现,ESMFold预测了6亿种蛋白质结构
推荐阅读
万字综述|一文掌握大语言模型在生物信息学中的应用
4880
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
1670
Nat. Methods | 压缩比高达10^48!清华药学院张数一团队仅用82个“锚点”即可表示高适应度序列空间
1400
NAR|一个发现了复杂的生物学规则来破译RNA蛋白质编码潜力的深度递归神经网络
5990
UKBioBERT:融合UK BioBank遗传变异的基因组大语言模型
4220
Nat. Methods|Nucleotide Transformer:人类基因组大模型新突破
2760
多组学文献分享---组织中染色质特征、转录组和蛋白质的多重空间映射
1020
DNA语言基础模型,从DNA序列中准确预测分子表型 | Nat.Methods
1800
深度学习驱动的蛋白质设计--从蛋白质结构到药物候选物的全方位
9390
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
2670
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
2170
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
1270
scDiffusion-X:基于多模态扩散模型的单细胞多组学数据生成与调控网络解析新工具
2320
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
1670
AlphaFold3来了!全面预测蛋白质与所有生命分子相互作用及结构,引领药物研发新革命
1.4K0
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
3560
Advanced Science | 多模态蛋白表征方法及其迁移性量化
4570
Nature | 多模态基础模型引领分子细胞生物学新纪元
730
MIT「神谕」模型登Nature封面!破译DNA的前世今生和未来
5750
AlphaFold新竞争对手出现,ESMFold预测了6亿种蛋白质结构
7750
相关推荐
万字综述|一文掌握大语言模型在生物信息学中的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档