首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SNPBag:用于单体型定相与基因型填补的SNP基础模型

SNPBag:用于单体型定相与基因型填补的SNP基础模型

作者头像
实验盒
发布2025-02-07 14:25:28
发布2025-02-07 14:25:28
5700
举报
文章被收录于专栏:实验盒实验盒

引言

近年来,AI基础模型(如AlphaFold、ESM2)在生物医学领域掀起革命,但人类遗传变异的“主角”——单核苷酸多态性(SNP)却长期缺席。SNP是基因组中最常见的变异形式,也是GWAS研究和疾病预测的核心。然而,传统方法(如HMM模型)在处理单体型定相(Haplotype Phasing)和基因型填补(Genotype Imputation)时依赖参考面板,且多任务需独立建模。

近日,之江实验室唐鲲、华大基因Yinqi Bai、中科院杭州医学研究所和中南大学湘雅医院Jianbo Yang等研究团队在《A SNP Foundation Model Application in Whole-Genome Haplotype Phasing and Genotype Imputation》中提出了首个基于Transformer的SNP基础模型SNPBag,成功将“预训练-微调”范式引入基因组分析,实现多任务统一建模,性能达到SOTA。

核心设计

  1. 数据来源与预处理
    • 数据来自千人基因组计划(3,202个样本,26个群体),过滤后保留MAF≥3%的约1000万SNP位点。
    • 基因组被划分为2000个重叠窗口(每个窗口10,240个连续位点),以适配长序列模型输入。
  2. 预训练策略
    • 模型架构:基于Longformer(支持长序列注意力机制),包含8层编码器。
    • 任务设计:随机遮盖15%基因型值(0/1/2),训练模型重建被遮盖位点(类似BERT的掩码预测)。
    • 预训练后,模型在验证集上整体准确率达97%,且能泛化至不同缺失率场景(15%-75%遮盖下准确率95.2%-98.2%)。
  3. 微调适配多任务
    • 单体型定相:预测杂合位点的等位基因切换(Switch),错误率仅1.1%,优于BEAGLE5.2(1.3%)和SHAPEIT4(1.4%)。
    • 基因型填补:针对Illumina Omni2.5芯片(仅含15%位点),填补准确率96.88%,接近最优组合方法(BEAGLE5.2定相+填补的97.15%)。
    • 祖先推断:基于染色体22的30个重叠片段,对5大超群体分类准确率达97%,可解析混合血统(如美洲人群的欧非混合特征)。

优势与挑战

无需参考面板:传统方法依赖高质量参考面板,而SNPBag通过预训练直接建模全局遗传模式,尤其适用于缺乏参考数据的群体。

多任务统一框架:一次预训练即可通过微调适配定相、填补、祖先推断等任务,降低计算成本。

高效并行推理:个体基因组分析相互独立,适合大规模数据处理。

⚠️ 当前局限

  • 高缺失率(如75%)下准确率显著下降,未来需优化预训练策略(如动态遮盖比例)。
  • 未整合表型数据,后续计划结合GWAS数据探索表型预测。

应用场景与未来展望

SNPBag的潜力不仅限于基础研究:

  • 医学研究:提升低覆盖度测序数据的分析效率,助力罕见变异检测。
  • 群体遗传学:解析复杂混合群体的遗传结构,追踪迁徙历史。
  • 精准医疗:通过高精度基因型填补,降低基因分型成本,推动个性化疾病风险评估。

作者团队计划将模型扩展至百万级生物银行数据(如UK Biobank),并探索基因位点间非线性互作(如上位效应),为复杂性状预测提供新思路。

总结

SNPBag的诞生标志着SNP数据分析进入“基础模型时代”。其统一框架与高性能为遗传学研究提供了新工具,但也需进一步验证其在真实场景中的鲁棒性。对计算生物学家而言,如何将此类模型与多组学数据整合,将是下一阶段的重要课题。

参考

Xu et al. (2025). A SNP Foundation Model Application in Whole-Genome Haplotype Phasing and Genotype Imputation. bioRxiv. doi:10.1101/2025.01.20.635579

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 核心设计
  • 优势与挑战
  • 应用场景与未来展望
  • 总结
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档