前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >LAMAR:基于预训练语言模型的RNA调控解析新方法

LAMAR:基于预训练语言模型的RNA调控解析新方法

作者头像
实验盒
发布2025-03-06 23:04:33
发布2025-03-06 23:04:33
60
举报
文章被收录于专栏:实验盒实验盒

RNA作为生命活动中的核心分子,在基因表达调控和蛋白质合成中扮演关键角色。其代谢过程,包括剪接、翻译和降解等,受到多种顺式调控元件和反式因子的协同作用,表现出高度复杂性。RNA功能的多样性不仅依赖于其序列,还涉及二级结构、RNA结合蛋白(RBPs)以及细胞环境的综合影响。例如,mRNA的翻译效率常由5'非翻译区(5' UTR)调控,而稳定性则主要受3'非翻译区(3' UTR)影响;剪接过程需要精确识别剪接位点,而内部核糖体进入位点(IRES)则在应激条件下支持帽独立翻译。然而,传统计算方法通常针对单一任务设计(如剪接位点预测),缺乏统一框架来解析RNA调控的多层次规律。从海量序列中挖掘通用规则,成为RNA研究领域亟待解决的难题。

为应对这一挑战,南方科技大学王泽峰、中科院上海营养与健康研究所张国庆团队联合开发了LAMAR(Language Model for RNA Regulation),一个基于Transformer架构的RNA基础语言模型。该模型将RNA序列视为一种“生物语言”,通过大规模预训练捕捉核苷酸间的语义和语法关联,并可通过微调适应多种RNA调控任务,为解析复杂调控网络提供了一种全新的工具。

技术框架与创新

LAMAR的设计融合了多项关键技术创新:

  1. 大规模预训练数据 LAMAR整合了225种哺乳动物和1569种病毒的基因组与转录组数据,包含约1500万条非冗余RNA序列,总计约2670亿核苷酸。这些数据覆盖mRNA、长链非编码RNA(lncRNA)、微小RNA(miRNA)等多种RNA类型,为模型提供了丰富的训练基础。
  2. 双重上下文长度 LAMAR支持两种模型版本:LAMAR-2k(上下文长度2048核苷酸)和LAMAR-4k(上下文长度4096核苷酸)。这种设计兼顾了长程依赖关系的建模与计算效率的需求。
  3. 自监督学习策略 模型采用掩码语言建模方法,随机掩盖部分核苷酸,并通过上下文预测这些被遮蔽的片段。这种无监督学习方式使LAMAR能够从序列中提取进化信息和功能特征,例如区分5' UTR、编码区(CDS)和3' UTR等区域。

性能验证

LAMAR在多种RNA调控任务中表现出超越传统方法的性能,验证了其通用性和鲁棒性:

  1. 剪接位点预测 LAMAR能够准确区分真实剪接位点与“诱饵位点”,其归一化互信息(NMI)提升至0.49,而未经训练的模型为0。在PRAUC(精确率-召回率曲线下面积)和Top-k准确率上,LAMAR超越SpliceAI和RNA-FM等方法,PRAUC提升幅度达0.037-0.041。
  2. 翻译效率预测 基于5' UTR序列,LAMAR预测mRNA翻译效率的Spearman相关系数达到0.652,较UTR-LM提升约18%。值得注意的是,模型仅通过序列信息即可间接捕获RNA二级结构特征。
  3. 降解速率预测 LAMAR通过分析3' UTR中的调控元件(如AU富集区),预测mRNA半衰期与实验数据的Spearman相关系数达0.647。此外,模型还能解析突变对mRNA稳定性的影响,为发现新型调控元件提供支持。
  4. IRES活性预测 在预测病毒和细胞来源的IRES活性时,LAMAR的AUROC(接收者操作特征曲线下面积)高达0.98。实验验证表明,高活性IRES显著提升circRNA翻译效率,例如某病毒IRES在C2C12细胞中的表达量提升2.44倍。

应用前景与研究意义

LAMAR的通用性使其在基础研究和应用领域均展现出广阔潜力:

  • 基础研究:LAMAR可用于解析RNA编辑、替代性聚腺苷酸化等尚未完全理解的调控机制,揭示隐藏在序列中的调控规律。
  • 医学应用:通过优化mRNA药物设计和筛选高效circRNA翻译元件,LAMAR可助力RNA疗法的发展。
  • 突变效应评估:模型能够快速预测非编码区变异的功能影响,为遗传疾病研究提供支持。

当前局限与未来方向

尽管LAMAR取得了显著进展,其仍存在一定局限性:

  • 对于超长RNA序列的远程相互作用建模能力有待提升。
  • 部分任务的预测灵敏度受限于训练数据质量和多样性。

未来,随着模型规模的扩展和多组学数据的整合(如RNA结构信息),LAMAR有望进一步提升性能。此外,探索其在RNA修饰、编辑等新兴领域的应用,或将成为研究的下一个重点。

参考

  • 文献
    • A foundation language model to decipher diverse regulation of RNAs
    • https://doi.org/10.1101/2024.10.12.617732
  • 代码
    • https://github.com/rnasys/LAMAR
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 技术框架与创新
  • 性能验证
  • 应用前景与研究意义
  • 当前局限与未来方向
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档