近年来,AI基础模型(如AlphaFold、ESM2)在生物医学领域掀起革命,但人类遗传变异的“主角”——单核苷酸多态性(SNP)却长期缺席。SNP是基因组中最常见的变异形式,也是GWAS研究和疾病预测的核心。然而,传统方法(如HMM模型)在处理单体型定相(Haplotype Phasing)和基因型填补(Genotype Imputation)时依赖参考面板,且多任务需独立建模。
近日,之江实验室唐鲲、华大基因Yinqi Bai、中科院杭州医学研究所和中南大学湘雅医院Jianbo Yang等研究团队在《A SNP Foundation Model Application in Whole-Genome Haplotype Phasing and Genotype Imputation》中提出了首个基于Transformer的SNP基础模型SNPBag,成功将“预训练-微调”范式引入基因组分析,实现多任务统一建模,性能达到SOTA。


无需参考面板:传统方法依赖高质量参考面板,而SNPBag通过预训练直接建模全局遗传模式,尤其适用于缺乏参考数据的群体。
多任务统一框架:一次预训练即可通过微调适配定相、填补、祖先推断等任务,降低计算成本。
高效并行推理:个体基因组分析相互独立,适合大规模数据处理。
⚠️ 当前局限
SNPBag的潜力不仅限于基础研究:
作者团队计划将模型扩展至百万级生物银行数据(如UK Biobank),并探索基因位点间非线性互作(如上位效应),为复杂性状预测提供新思路。
SNPBag的诞生标志着SNP数据分析进入“基础模型时代”。其统一框架与高性能为遗传学研究提供了新工具,但也需进一步验证其在真实场景中的鲁棒性。对计算生物学家而言,如何将此类模型与多组学数据整合,将是下一阶段的重要课题。
Xu et al. (2025). A SNP Foundation Model Application in Whole-Genome Haplotype Phasing and Genotype Imputation. bioRxiv. doi:10.1101/2025.01.20.635579