临床上判别致病与良性遗传变异仍是一大挑战。现有的基因组基础模型虽通过弱监督或无监督学习提升了变异效应预测(VEP)准确性,但缺乏疾病特异性。为此,研究人员提出了DYNA(一种基于孪生神经网络的疾病特异性微调方法),可广泛应用于各类基因组基础模型,以提高疾病背景下的VEP表现。研究人员将DYNA应用于心血管疾病的编码区变异预测和RNA剪接调控的非编码变异预测,涵盖多种疾病-基因关联及致病性调控机制。在这两类任务中,DYNA均对预训练模型在小规模稀有变异数据上进行微调,表现出优于原模型的性能,并在ClinVar数据库中的大规模临床注释中得到验证。值得注意的是,不同基础模型在不同VEP任务中各有优势,因此需要DYNA这样的通用工具来最大限度发挥其潜力。综上,DYNA为临床变异解读提供了一种强有力的疾病特异性预测方法。
临床变异解读正在推动精准医疗的发展,但其应用仍受多种限制。疾病确诊后,判别致病与良性变异具有重要临床意义,可用于筛查、家族遗传检测及疾病预后。然而,约30–50%的变异被归类为“意义不明变异(VUS)”,无法用于临床决策,增加了遗传咨询与患者管理的复杂性。面对大量常见或罕见VUS,研究人员亟需借助计算方法辅助变异解读,提升实验验证与临床检测的优先级。
尽管已有多种变异效应预测(VEP)模型,受限于有限且偏倚的变异注释,预测表型仍具挑战。弱监督与无监督学习可在一定程度上规避人为偏见,目前主流方法多依赖序列保守性或深度生成模型,如基于MSA的EVE及蛋白语言模型等。这些模型虽取得先进性能,但缺乏疾病特异性,限制了其在临床场景中的应用。
尤其在心肌病等疾病中,同一基因的不同变异可能导致相似却临床表现不同的表型,如功能获得与丧失型突变,或主要与修饰性致病效应的区分。因此,仅凭通用VEP评分难以反映关键的疾病相关信息,易导致判断失误。
为此,研究人员提出了DYNA(一种基于孪生神经网络的疾病特异性微调方法),旨在捕捉心血管及RNA剪接调控相关的编码与非编码变异的致病特征。DYNA借鉴自然语言处理中语义相似度的思想,通过两个共享权重的语言模型分支,对比野生型与变异序列的嵌入表示,同时结合少量疾病特异性注释进行微调。
DYNA适用于蛋白语言模型与DNA基础模型,研究人员在心血管编码区与剪接调控非编码区任务中均验证了其有效性。在ClinVar等数据库中,DYNA微调模型表现优于原始模型,展现出在稀有变异精准解读中的潜力。该方法为预训练基因组模型在特定疾病背景下的临床应用提供了新路径。
结果
DYNA 框架概述
为在疾病背景下预测基因变异的效应,研究人员提出了 DYNA 框架,采用孪生神经网络比较野生型与患者特异性变异序列的相似度。该方法基于两个共享权重的语言模型分支,生成序列的嵌入表示。DYNA 处理两类输入:编码区的蛋白质序列,以及涵盖编码和非编码区的DNA序列,分别用于评估变异对蛋白功能与调控元件的影响。
语言模型以掩码语言建模(MLM)方式进行预训练,通过预测被掩码的氨基酸或碱基,对每个位点输出对应的预测分数(MLM logits)。由于蛋白语言模型的词汇量较小,便于语义解释,DYNA 采用伪对数似然比(PLLR)作为蛋白模型的损失函数;而DNA模型词汇量较大(如k-mer或BPE),语义解释难度高,DYNA 则结合对比损失与交叉熵损失,优化非编码区的预测性能。
DYNA 的性能提升主要来源于两方面:一是通过 PLLR 实现疾病特异性分布调整;二是增强了对蛋白结构域中变异的识别能力。以心血管疾病为例,DYNA 在区分功能获得(GoF)与丧失(LoF)型突变方面优于原始模型 ESM1b,尤其在氨基酸水平上展现出更高的致病变异定位精度。通过模拟突变实验(ISM),研究人员进一步比较了 DYNA 与 ESM1b 在蛋白不同结构域中的 PLLR 差异,结果表明 DYNA 能有效减少假阳性,并准确定位致病变异。
研究人员在编码区与非编码区的 VEP 任务中均验证了 DYNA 的泛化能力。在编码任务中,使用心血管疾病中的稀有错义变异与传统神经网络、蛋白语言模型进行比较;在非编码任务中,使用剪接功能突变数据集(MFASS)评估其对稀有变异引起的剪接异常的识别能力。无论哪类任务,DYNA 微调模型都能良好泛化至 ClinVar 注释数据,展示出其在稀有变异和基础模型结合下的临床适应性。
DYNA 在心脏病中的泛化能力评估
为验证 DYNA 区分疾病特异性错义变异的临床实用性,研究人员考察了心肌病(CM)与心律失常(ARM)两类心脏病,这两者可能源自同一基因中不同变异但表现不同表型。基于队列定义的稀有变异数据集进行训练,并在 ClinVar 中独立验证其泛化能力。
研究人员微调了两种蛋白语言模型:ESM1b 与 ESM2,结果显示 DYNA 在 ESM1b 基础上表现最佳,说明基础模型的规模和结构虽重要,但对特定任务的性能仍需疾病特异性微调。DYNA 的优势在于可作为通用微调框架,适配不同模型,显著提升临床变异解读的疾病特异性能力。
DYNA 优于 ESM1b,精准识别罕见错义变异
研究人员在心肌病(CM)训练集中对 DYNA 进行微调(238 个致病和 202 个良性罕见变异,gnomAD 次等位基因频率 <0.1%),并在测试集(118 个致病和 100 个良性变异)上评估其性能。由于这些变异极为罕见,传统基于保守性的模型难以捕捉其特征。DYNA 能显著区分致病与良性变异(PLLR 差异显著,双侧 t 检验 P = 6.467×10⁻²⁵),相较于 ESM1b(KL 散度为 24.21),DYNA 在致病性预测上展现更强的区分度(良性变异集中于零附近,致病变异分布明显偏移)。
在心律失常(ARM)任务中,DYNA 在 168 个致病和 158 个良性变异上进行训练,在 84 个致病和 79 个良性变异上测试,同样展现出明显的 PLLR 分离(P = 7.735×10⁻²⁴)和高于 ESM1b 的 KL 散度,说明其能有效捕捉疾病特异性信号,提升心血管疾病中罕见错义变异的致病性判别能力。
DYNA 在心血管疾病中超越多种基线方法
研究人员进一步将 DYNA 应用于 CM 数据,比较其与 11 种基线方法在不同特征形式下的表现:仅用功能注释(Feature)、蛋白序列编码(Gene)以及两者结合(Concatenate)。在基于 Gene 特征的评估中,DYNA(基于 ESM1b 微调)表现最佳,AUPR 达 0.910,在准确识别致病变异同时有效减少假阳性,这对临床尤为关键。此外,DYNA 也取得了最高的 AUC,进一步验证其稳定性和适应性。
在 ARM 任务中,DYNA 同样优于所有基线方法,在 Gene、Feature 和 Concatenate 三种特征下均表现最佳。其 AUC 达到 0.94,AUPR 达 0.95,较第二名 BART(Feature)高出 3.1%。这表明 DYNA 在疾病特异性 VEP 任务中已树立新的性能基准。
总体而言,DYNA 在 CM 和 ARM 的稀有变异测试集上持续表现优异,验证了其作为强大疾病特异性 VEP 工具的能力,并展现出对未见序列的良好泛化性。
ClinVar 数据验证 DYNA 泛化能力
为验证 DYNA 对临床标注数据的泛化能力,研究人员在 ClinVar 中构建了更具挑战性的心肌病(CM)与心律失常(ARM)数据集进行零样本测试。ClinVar 数据来自全球多个中心,与训练集中基因分布存在明显差异。例如,ClinVar-CM 涵盖 125 个基因,而训练集仅含 16 个,尽管有 14 个重叠,但变异位置不一致;ARM 情况也类似(ClinVar 含 13 个基因,训练集含 7 个,重叠 4 个但位置不同)。
结果显示,DYNA 在 ClinVar 数据上显著优于其基础模型 ESM1b:CM 数据集中 AUPR 提升 4%、AUC 从 0.88 提升至 0.90;ARM 数据集中 AUPR 提升 5%、AUC 从 0.93 提升至 0.96。DYNA 能基于少量(CM <450、ARM <350)稀有变异,学习疾病特异性致病模式,并在独立数据集中有效泛化,减少假阳性,提升临床适用性。
使用 DYNA 对意义不明变异(VUS)再分类
研究人员进一步使用高斯混合模型(GMM)结合 DYNA 的 PLLR,对 ClinVar 中的 VUS 进行再分类。分析表明,VUS 的 PLLR 分布倾向于靠近已知的致病或良性类别:其中一个组(VUS_component_1)接近致病分布,另一个组(VUS_component_2)接近良性,提示部分 VUS 实际可归入已有类别,仅因注释不足而未被识别。所有致病与良性组之间的 t 检验均显著(P < 0.05),统计上进一步支持 DYNA 在 VUS 识别中的潜力。
DYNA 在未见疾病相关基因上的泛化能力
将 DYNA 应用于 ClinVar 中的心肌病(CM)与心律失常(ARM)数据集,使研究人员能够系统评估其在未见疾病相关基因上的泛化能力(详见图 2g、2h 中维恩图中的 ClinVar-only 基因数)。这种泛化能力对于基因组医学的临床应用至关重要,因为新的致病基因正不断通过临床、实验和计算研究被发现。因此,能将已学到的疾病特异性变异预测模式推广至未见基因,是高质量 VEP 模型的重要特性。
为稳健评估 DYNA 的基因级性能,研究人员选取了不重叠的基因(每个基因至少包含 5 个致病和良性变异)。结果显示,DYNA 在 15 个目标基因中有 8 个的 AUC 高于 ESM1b(图 3a),在 9 个基因上的 AUPR 表现更优(图 3b),表明其对 ClinVar CM 数据集中未见基因的预测能力更强。图中雷达图仅展示了存在性能差异的基因,未显示性能无差异者。
进一步地,研究人员比较了 DYNA 在 ClinVar ARM 数据集中对“未重叠”与“重叠”基因的预测表现。通过绘制 PLLR 的核密度估计(KDE),结果显示:在未重叠基因中,良性变异的 PLLR 分布接近 0,致病变异分布明显偏高,其 KL 散度为 25.6364,略高于重叠基因,表明 DYNA 在未见基因中仍具较强的区分能力(图 3c)。
最终,研究人员在 ClinVar CM 与 ARM 数据集中,统一比较了 DYNA 与 ESM1b 在重叠和非重叠基因上的表现。无论是 AUC 还是 AUPR,DYNA 在两类基因中均优于 ESM1b(图 3d)。这些结果揭示两个关键发现:
DYNA 相较于 ESM1b 展现出更强的跨基因泛化能力,尤其是针对未见疾病相关基因;
在 CM 与 ARM 数据集中,DYNA 在未重叠基因上的表现普遍优于重叠基因,表明其不仅具备跨基因的疾病特异性识别能力,也优于传统模型的“基因内泛化”。
这些结果进一步确立了 DYNA 在临床实际应用中,对未知基因致病变异解读的广泛潜力。
评估 DYNA 在非编码区变异预测(VEP)任务中的泛化能力
研究人员验证了 DYNA 相较其他基因组基础模型,在剪接相关非编码变异预测任务中的优越表现,展现其对未见临床剪接变异的强泛化能力与预测精度。
DYNA 优于其他基因组基础模型
DYNA 可广泛用于微调蛋白语言模型与 DNA 基础模型,从而捕捉与疾病和调控机制相关的变异预测模式。此前研究已证明,DYNA 在错义变异任务中基于蛋白语言模型的性能优越。考虑到人类基因组大部分为非编码区域,能准确预测非编码变异的调控效应,尤其是与临床相关的功能后果,是极其关键的。
研究人员将重点放在 RNA 剪接这一调控机制上——因其在 ACMG 临床变异解读指南中被列为关键参考因素,广泛涉及多种疾病。DYNA 在 MFASS 数据集上(揭示罕见变异可显著干扰剪接)进行评估,预测变异对外显子识别与剪接过程的影响,结果显示其在非编码变异任务中优于基础模型。DYNA 通过对四种 DNA 基础模型的微调与对比分析,展现了其适应性和在非编码任务中的预测优势(AUPR 显著提升)。
进一步分析还发现,将剪接破坏性变异(SDVs)纳入微调阶段至关重要。例如,图 4b、4c 显示:纳入 SDVs 的 nucleotide transformer(NT)模型,AUC 达 0.6998,显著高于未纳入 SDVs 的模型(AUC 仅为 0.5679),说明 SDVs 有助于提升模型对调控效应的捕捉能力。
DYNA 泛化至未见的剪接相关非编码变异
在 MFASS 数据集(少于 2.5 万个样本)上完成微调后,DYNA 在 ClinVar 剪接数据集上进行了零样本测试。该数据集规模是 MFASS 的 27 倍,覆盖多个疾病中的剪接致病变异。起始阶段,基于 GPN(Genomic Prediction Network)的 DYNA 模型在 epoch 0 时仅有 AUC = 0.5,AUPR = 0.0359,说明其未具备剪接预测能力。
研究人员采用了两步策略:
第一步,在 MFASS 上对 GPN 模型进行 DYNA 微调,同时使用验证集进行早停,防止过拟合。经过五轮训练后,DYNA 在 ClinVar 剪接数据上的零样本测试中达到 AUC = 0.85,展示出其在未见临床数据上的强泛化能力。
第二步,在微调后的模型上新增一个随机初始化的分类头,仅训练该头部,并将其他参数冻结,再次在 ClinVar 剪接数据集上训练五轮。该策略最终取得 AUC = 0.95、AUPR = 0.87(图 4f、4g),说明通过少量样本学习后,DYNA 能在更大规模的临床数据上实现精准分类。
讨论
随着蛋白语言模型(如 MSA Transformer)基于掩码语言建模(MLM)与自注意力机制的发展,变异效应预测(VEP)工具箱得到了显著扩展。AlphaMissense 进一步融合进化数据、蛋白结构建模、群体频率与结构上下文,提升了预测准确性。然而,这些方法依赖多序列比对(MSA),虽然能提供宝贵的进化信息,但在临床环境中计算开销大、比对困难,尤其对于孤儿基因或稀有变异而言更具挑战。
Brandes 等人展示了 ESM1b 即使在缺乏进化数据的情况下,也能实现强大的零样本预测性能,适用于 MSA 覆盖稀少的基因。但无监督模型的核心局限在于缺乏疾病特异性,限制了其在临床中的应用价值。
与之相比,DYNA 聚焦于心血管疾病与 RNA 剪接调控中的序列特异性预测,绕过了 MSA 所带来的复杂性与计算负担。这种针对性策略不仅提升了预测的灵活性与可扩展性,也保留了模型的稳健性,适配临床场景的需求。
此外,尽管 AlphaFold2、ESMFold 和 AlphaMissense 等模型在结合 MSA 推进蛋白结构预测方面表现出色,它们普遍缺乏对疾病特异性的适配。这种缺失在临床变异解读中仍是关键短板。DYNA 通过引入基于孪生神经网络的疾病特异性语言模型,弥补了这一不足。其双分支共享权重结构,基于序列相似性进行嵌入对比,不仅适用于蛋白语言模型,也同样适配于 DNA 基础模型,为多种疾病特异性 VEP 任务提供了通用、可扩展的解决方案。
未来,研究人员可将 DYNA 融入临床辅助决策系统,为医生提供精准的诊疗建议与风险评估工具,从而推动个性化医疗实践。当前 DYNA 的重点应用在 RNA 剪接任务,这与 ACMG 对剪接在变异解读中关键作用的指南高度一致。但由于 DYNA 架构具备高度灵活性,未来也可拓展至基因调控、增强子-启动子相互作用等非编码功能领域,进一步增强非编码变异的解读能力,提升临床决策质量。
整理 | WJM
参考资料
Zhan, H., Moore, J.H. & Zhang, Z. A disease-specific language model for variant pathogenicity in cardiac and regulatory genomics. Nat Mach Intell (2025).
https://doi.org/10.1038/s42256-025-01016-8