DRUGAI
RNA 是一类尚未被充分开发的潜在药物靶点。传统的结构基础虚拟筛选(VS)依赖对结合位点的模拟对接,但在大规模分子库和RNA靶点中扩展性有限。为克服这一挑战,研究人员提出了一套面向RNA的结构驱动虚拟筛选流程,结合粗粒度三维建模、合成数据增强和RNA特有的自监督学习。该模型相较分子对接提速达一万倍,并在结构异构测试集中将活性化合物准确排入前2.8%。此外,该方法对结合位点变化具有鲁棒性,并在2万个化合物的体外筛选中成功识别出RNA核开关靶点,1%命中率下的平均富集因子为2.93。这是首个经实验证实、基于深度学习的RNA结构虚拟筛选成功案例。
绝大多数RNA并不编码蛋白,而非编码RNA(ncRNA)在多种生物过程中发挥重要作用。尽管RNA在体内广泛存在,但首个RNA靶向药物直到近期才获得批准,目前市面上绝大多数小分子疗法仍以蛋白为靶点。开发RNA靶向药物不仅能显著扩大可成药空间,还可为现有蛋白靶点不足的疾病提供替代方案。例如,长链非编码RNA在肿瘤等疾病中展现出潜力,尤其是在缺乏明确蛋白靶点的疾病中,如三阴性乳腺癌。由此,RNA正日益成为新型小分子药物研发的重要靶标,这也凸显了高效RNA药物发现工具的迫切需求。
研究人员聚焦于结构基础的筛选方法,通过已知RNA三维结构来寻找候选小分子。这类方法能发现全新结合模式,并提升靶向特异性。近年来,基于机器学习的结合亲和力预测方法不断涌现,已在蛋白领域取得领先性能。但在RNA领域,因缺乏足够的结构和配体结合数据,相关工具的发展受限,且RNA特有的结构性质也阻碍了蛋白领域方法的直接迁移。
目前,RNA虚拟筛选方法主要分为对接类和直接评分类。对接方法通过搜索多个构象并计算能量得分来预测结合能力,但计算资源消耗较大。尽管已有GPU加速和预处理优化等尝试,但大规模筛选仍受限。相比之下,直接评分方法无需构象搜索,依赖数据驱动策略直接预测结合可能性,计算效率高,但准确性仍有限。研究人员此前提出了RNAmigos,首次将RNA三维结构编码为图形式,引入深度学习辅助筛选,并在原生配体恢复上超过已有工具。
在本研究中,研究人员提出一种结构基础的RNA虚拟筛选方法,在保持高准确度的同时,大幅缩短计算时间,支持大规模RNA靶点筛选。为应对数据稀缺,研究人员构建了大规模对接得分数据库,并引入无监督数据增强策略;同时优化RNA结构图表示与模型设计,结合图神经网络与预训练技术,提升模型性能。该方法在数秒内完成筛选,准确度超过对接法(2.8% vs 4.1%),且与对接联合使用时,不仅将活性分子排名提升至1.0%,还将计算成本降低四倍。该方法在结构多样、未知RNA靶点中依然表现稳定,并在一项2万个化合物的体外筛选实验中成功识别RNA靶点活性化合物,实现结构基础深度学习筛选RNA小分子的首次实验证明。
研究概览
RNAmigos2 旨在基于RNA结构实现快速小分子筛选。整个流程以RNA结合位点的三维结构或碱基配对网络及候选化合物列表为输入,输出每个化合物的结合评分。该模型采用双编码器-双解码器结构,分别处理RNA结合位点与小分子的嵌入表示。RNA结构以“2.5D图”形式建模,捕捉所有典型及非典型碱基对相互作用,而小分子则以分子图表示,并通过变分自编码器进行学习。
为增强模型的预测能力,研究人员从RNA-配体复合物中提取结构并聚类,将真实配体与虚假分子(decoy)构成训练集,训练出两个解码器:一个用于区分真实配体与干扰物(Compat),一个用于预测结合亲和力(Aff),后者通过大规模分子对接数据训练而成。
模型性能
相比原始版本,RNAmigos2在数据规模、图表示和预训练方式上全面升级,平均性能提升超过25%。在严格划分的测试集中,Compat与Aff模型分别达到0.844和0.939的平均AuROC,与rDock表现相近但推理速度提升至5秒以内,而rDock需耗费8小时。Aff模型在仅使用模拟数据训练的情况下也表现出良好泛化能力。
研究人员进一步将两个模型结果集成为“Mixed”模型,平均AuROC达到0.972,超过rDock(0.959),并显著减少错误,确立了新一代基于机器学习的RNA虚拟筛选工具。
广泛适用性与鲁棒性
在更大规模的筛选对比中,RNAmigos2优于其他RNA虚拟筛选工具,并在不同结构相似度范围内保持稳定性能。此外,研究人员通过“靶点-配体对调换”实验验证了模型的靶向特异性,RNAmigos2在被扰乱的配对关系下表现仍优于传统方法。
针对真实筛选中靶点识别可能存在偏差的情况,研究人员模拟结合位点扰动后进行评估,结果显示模型对扰动具有良好容忍度,即便结合位点存在偏移或不完整,性能下降幅度也较小。这说明RNAmigos2具备从粗略结构中提取关键信息的能力。
高效筛选策略
RNAmigos2不仅准确率高,而且筛选速度远超传统对接方法。在不依赖GPU的情况下,其计算效率高达每个化合物1.6毫秒,而rDock需65秒。在单核一天计算预算下,rDock最多筛选约1400个分子,RNAmigos2可处理超过1500万个。
为了兼顾速度与准确率,研究人员提出混合策略RNAmigos++:先用RNAmigos2快速预筛选,再用对接方法对高评分化合物精筛。该方法在大幅压缩计算时间的同时,筛选效果优于单独使用任何工具,甚至能提升rDock的筛选准确率(从98.1%升至99.0%),错误率减半。
RNAmigos2在大规模体外实验中成功识别核开关配体
为验证RNAmigos2在实际场景下的表现,研究人员将其应用于一个包含约2万个化合物、36个核酸靶标的大规模体外筛选实验(ROBIN)。不同于此前使用PDB共晶配体作为“活性”参考,本次实验基于真实实验数据,且所有RNA靶点均未出现在训练或验证集中,属于完全盲测。研究人员选取ROBIN数据库中与PDB序列完全一致的RNA靶点,并基于共晶配体定义四个结合位点:TPP、ZTP、SAM-II 和 PreQ1 核开关。
在2分钟内,RNAmigos2完成对24,572个化合物在四个位点上的评分。结果显示,模型在全部四个靶点上均成功富集活性化合物,最高富集因子达到5.09,表现优于随机,且明显区分活性分子与干扰分子。尽管所有靶点与化合物均为首次出现,RNAmigos2仍表现与rDock相当,但耗时仅为其千分之一。将两者结合(RNAmigos++)可进一步提升准确率,并在3个靶点上优于单独使用任一方法。
更重要的是,RNAmigos2在提升命中多样性方面也表现出色。相比仅聚焦某一类RNA配体的模型,RNAmigos2能识别结构多样的活性化合物,有助于后续优化并降低潜在失败风险。具体分析发现,Aff模型更偏向于识别通用型RNA配体,Compat模型则偏好靶点特异性配体,两者互补。RNAmigos2所筛选分子的结构分布也明显区别于rDock,显示其覆盖了更广的化学空间。在ZTP靶点中,例如某些区域仅被RNAmigos2识别,展示了其独特价值。
综上所述,RNAmigos2和RNAmigos++不仅在准确率上具优势,还能提升化学多样性,为构建高效且全面的虚拟筛选策略提供了新可能。
讨论
本研究聚焦于当前热点问题——RNA靶向药物的计算设计。与蛋白质相比,RNA的三维结构数据极为稀缺,这一现状限制了机器学习在RNA药物发现中的广泛应用,因此开发专门的算法框架显得尤为关键。
研究人员通过RNA对接模拟扩增训练数据,并引入RNA领域特有的自监督预训练策略。在此基础上构建的RNAmigos2模型在保持高准确率的同时,相比传统对接方法提速超过一万倍,且对多种RNA靶点表现稳定。尽管模型对结合位点的定义较为敏感,但对结合位点的扰动具有鲁棒性,可与现代结合位点预测算法协同使用。此外,将RNAmigos2与实际对接评分结合,仅耗时四分之一,便可将误差减少四倍。
更重要的是,RNAmigos2在一个包含2.5万个化合物的独立大规模体外筛选实验中表现出色,1%命中率下富集因子达2.93,预测耗时仅两分钟。这些结果表明,RNAmigos2代表了RNA结构基础虚拟筛选的新一代先进工具。
研究人员已公开全部数据集、源代码与模型权重,旨在推动社区共同发展该领域。目前,该方法仍需预定义结合位点,未来可探索结合自动结合位点预测及RNA柔性建模以进一步优化。另一个有前景的方向是结合不同的对接工具训练多个模型,从而构建具多样评分机制的快速替代模型。
研究人员认为,RNAmigos2将与新兴的RNA分子设计工具以及最新支持核酸结构的AlphaFold3模型协同发展,推动下一代RNA药物发现。同时,RNAmigos2可仅依赖低分辨率结构信息(如碱基对),即开展结构基础筛选,在面对海量潜在RNA靶点时,这一特性将成为挖掘全基因组RNA治疗靶标的重要利器。
整理 | WJM
参考资料
Carvajal-Patiño, J.G., Mallet, V., Becerra, D. et al. RNAmigos2: accelerated structure-based RNA virtual screening with deep graph learning. Nat Commun 16, 2799 (2025). https://doi.org/10.1038/s41467-025-57852-0