DRUGAI
RNA在细胞生命活动中发挥着重要作用,例如转录调控、翻译调控、剪接等过程。其功能不仅取决于核苷酸序列,更取决于其层级的二级和三级结构。然而,现有RNA语言模型多基于大规模序列数据进行训练,未充分利用结构信息,导致对结构相关功能的预测能力有限。 已有方法尝试引入结构特征,但往往依赖噪声较大的结构注释数据,或在训练过程中引入任务特定的监督信号,从而牺牲了模型的泛化性和通用性。这一局限性在RNA结构预测、结构导向的功能推断等领域尤为突出。
基于此,本文提出了structRFM,一种完全开源的结构引导 RNA 基础模型,基于结构引导掩码语言建模(SgMLM)策略进行预训练,通过整合序列和结构层面的掩码,隐式地编码碱基配对互作,联合建模结构和序列依赖。structRFM有效利用结构先验,同时保持任务无关的预训练方式,实现对包括零样本预测、二级、三级结构预测及多项功能推断在内的广泛下游任务的强泛化能力 (图 1a)。
方法
图 1 structRFM 整体框架
核心设计:
SgMLM 结构引导预训练策略(图 1c),包含两大核心组成:结构引导掩码和动态掩码比例策略。结构引导掩码选择性地掩盖局部结构上下文中的经典碱基对对应的输入 token,促使模型根据邻近的环区恢复碱基配对,从而隐式引导 structRFM 捕捉 RNA 的序列模式及层级结构规律,无需依赖特定任务目标,挖掘多样的核苷酸间关系,促进序列和结构知识向下游结构及功能预测任务的迁移。动态掩码比例策略则在预训练过程中逐步提升结构引导掩码在整体掩码中的比例,使模型焦点从序列级别转向结构信息表示,最终在核苷酸和结构掩码之间达到平衡。
实验结果
表格 1整体实验结果
零样本测试
图 2 零样本测试
a 使用 t-SNE 在 RNAcentral 子集(23,994 条 RNA)上可视化 structRFM 与随机基线模型的 RNA 嵌入,显示structRFM 能清晰区分 RNA 家族。并展示了 structRFM 提取的矩阵特征与对应接触图的两个示例。b 在 Rfam(24,523 条 RNA)和 ArchiveII600(3,611 条RNA)数据集上,不同模型同源和非同源 RNA 序列对的余弦相似度分布,及 c两个分布的重叠率(OR),展示 structRFM 出色的同源分类能力。各方法和数据集的均值标注。d structRFM 的零样本二级结构预测,展示阈值从 0 到 1(步长0.001)间的 F1 分数及示例热图。
结构预测
图 3 structRFM 用于结构预测
a, b 二级和三级结构预测的神经网络架构。c, d structRFM 及其他模型在 ArchiveII600(3,611 条 RNA)和 bpRNA-TS0(1,305条 RNA)数据集上的二级结构预测 F1 分数。小提琴图中白线为中位数,均值显示于上方。e structRFM 与 structRFM− 在 ArchiveII600 九个家族上的 F1 分数对比。各家族样本数显示于图顶端。f, g 在 CASP15(12 条 RNA)和 RNA Puzzles(20 条 RNA)数据集上,基于预测三级结构提取的二级结构头对头比较。圆圈大小依差值大小而定。h, i CASP15、CASP15-natural 和 RNA Puzzles 三级结构预测的 RMSD 和 F1 分数比较,灰色误差线为 95% 置信区间。j, k CASP15 和RNA Puzzles 上预测三级结构示例,原生结构以粉色展示。
图 4结构预测可视化
structRFM预测结构与 CASP15 数据集原生结构的可视化。列出三级结构 RMSD 及由三级结构提取的二级结构 F1 分数。二级结构中,茎结构为绿色,多重环为红色,内环为黄色,发夹环为蓝色,5’ 和 3’ 非配对区为橙色。总体来看,structRFM 在自然靶标上的表现优于含密集长程交互的合成靶标,但有时未能预测局部短茎(绿色),导致大而错误的多重环(红色)。
功能预测
图 5 structRFM 用于功能预测
a, b 用于剪接位点预测、IRES 识别和 RNA序列分类的神经网络结构示意图。c structRFM、其变体及 SpliceBERT 在剪接位点预测任务(16,505 条 RNA)上的 top-k 准确率比较。d, e IRES 识别(1,164 条RNA)的精确率-召回率曲线(PR 曲线)和受试者工作特征曲线(ROC 曲线)。f,g IRES 识别(1,164 条 RNA)及 nRC 数据集(2,600 条 RNA)上的 ncRNA 分类任务七项指标雷达图,展示 structRFM 性能。h nRC 数据集 13 类 ncRNA 上七个模型的 F1 分数比较。structRFM 和 RNA-FM 达到最新的最优性能,明显领先其他模型。
局限性
structRFM 存在下面的局限性
创新点
总结
structRFM 作为一个完全开源的 RNA 基础模型,在下游任务适应上展现出高效与多样性。更重要的是,本文提出的 SgMLM 预训练策略及收集的序列-结构数据集具有良好的扩展性,可无缝整合进其他预训练框架,标志着在赋能RNA 基础模型多模态结构知识、推动更广泛生物学研究方面迈出了重要一步。
参考资料
A fully-open structure-guided RNA foundation model for robust structural and functional inference. Heqin Zhu, Ruifeng Li, Feng Zhang, Fenghe Tang, Tong Ye, Xin Li, Yunjie Gu, Peng Xiong, S. Kevin Zhou. bioRxiv 2025.08.06.668731;
doi: https://doi.org/10.1101/2025.08.06.668731
代码
github.com/heqin-zhu/structRFM