RNA作为生命活动中的核心分子,在基因表达调控和蛋白质合成中扮演关键角色。其代谢过程,包括剪接、翻译和降解等,受到多种顺式调控元件和反式因子的协同作用,表现出高度复杂性。RNA功能的多样性不仅依赖于其序列,还涉及二级结构、RNA结合蛋白(RBPs)以及细胞环境的综合影响。例如,mRNA的翻译效率常由5'非翻译区(5' UTR)调控,而稳定性则主要受3'非翻译区(3' UTR)影响;剪接过程需要精确识别剪接位点,而内部核糖体进入位点(IRES)则在应激条件下支持帽独立翻译。然而,传统计算方法通常针对单一任务设计(如剪接位点预测),缺乏统一框架来解析RNA调控的多层次规律。从海量序列中挖掘通用规则,成为RNA研究领域亟待解决的难题。
为应对这一挑战,南方科技大学王泽峰、中科院上海营养与健康研究所张国庆团队联合开发了LAMAR(Language Model for RNA Regulation),一个基于Transformer架构的RNA基础语言模型。该模型将RNA序列视为一种“生物语言”,通过大规模预训练捕捉核苷酸间的语义和语法关联,并可通过微调适应多种RNA调控任务,为解析复杂调控网络提供了一种全新的工具。
技术框架与创新 LAMAR的设计融合了多项关键技术创新:
大规模预训练数据
LAMAR整合了225种哺乳动物和1569种病毒的基因组与转录组数据,包含约1500万条非冗余RNA序列,总计约2670亿核苷酸。这些数据覆盖mRNA、长链非编码RNA(lncRNA)、微小RNA(miRNA)等多种RNA类型,为模型提供了丰富的训练基础。双重上下文长度
LAMAR支持两种模型版本:LAMAR-2k(上下文长度2048核苷酸)和LAMAR-4k(上下文长度4096核苷酸)。这种设计兼顾了长程依赖关系的建模与计算效率的需求。自监督学习策略
模型采用掩码语言建模方法,随机掩盖部分核苷酸,并通过上下文预测这些被遮蔽的片段。这种无监督学习方式使LAMAR能够从序列中提取进化信息和功能特征,例如区分5' UTR、编码区(CDS)和3' UTR等区域。性能验证 LAMAR在多种RNA调控任务中表现出超越传统方法的性能,验证了其通用性和鲁棒性:
剪接位点预测
LAMAR能够准确区分真实剪接位点与“诱饵位点”,其归一化互信息(NMI)提升至0.49,而未经训练的模型为0。在PRAUC(精确率-召回率曲线下面积)和Top-k准确率上,LAMAR超越SpliceAI和RNA-FM等方法,PRAUC提升幅度达0.037-0.041。翻译效率预测
基于5' UTR序列,LAMAR预测mRNA翻译效率的Spearman相关系数达到0.652,较UTR-LM提升约18%。值得注意的是,模型仅通过序列信息即可间接捕获RNA二级结构特征。降解速率预测
LAMAR通过分析3' UTR中的调控元件(如AU富集区),预测mRNA半衰期与实验数据的Spearman相关系数达0.647。此外,模型还能解析突变对mRNA稳定性的影响,为发现新型调控元件提供支持。IRES活性预测
在预测病毒和细胞来源的IRES活性时,LAMAR的AUROC(接收者操作特征曲线下面积)高达0.98。实验验证表明,高活性IRES显著提升circRNA翻译效率,例如某病毒IRES在C2C12细胞中的表达量提升2.44倍。应用前景与研究意义 LAMAR的通用性使其在基础研究和应用领域均展现出广阔潜力:
基础研究 :LAMAR可用于解析RNA编辑、替代性聚腺苷酸化等尚未完全理解的调控机制,揭示隐藏在序列中的调控规律。医学应用 :通过优化mRNA药物设计和筛选高效circRNA翻译元件,LAMAR可助力RNA疗法的发展。突变效应评估 :模型能够快速预测非编码区变异的功能影响,为遗传疾病研究提供支持。当前局限与未来方向 尽管LAMAR取得了显著进展,其仍存在一定局限性:
对于超长RNA序列的远程相互作用建模能力有待提升。 部分任务的预测灵敏度受限于训练数据质量和多样性。 未来,随着模型规模的扩展和多组学数据的整合(如RNA结构信息),LAMAR有望进一步提升性能。此外,探索其在RNA修饰、编辑等新兴领域的应用,或将成为研究的下一个重点。
参考 文献A foundation language model to decipher diverse regulation of RNAs https://doi.org/10.1101/2024.10.12.617732 代码https://github.com/rnasys/LAMAR