前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >UKBioBERT:融合UK BioBank遗传变异的基因组大语言模型

UKBioBERT:融合UK BioBank遗传变异的基因组大语言模型

作者头像
实验盒
发布2025-03-03 21:54:38
发布2025-03-03 21:54:38
3990
举报
文章被收录于专栏:实验盒实验盒

对于揭示基因调控机制、理解复杂性状的遗传基础,基因表达预测具有重要意义。近年来,深度学习技术的进步推动了序列到功能(sequence-to-function)模型的发展,这些模型通过分析DNA序列信息预测基因表达水平。然而,传统模型多基于单一参考基因组训练,未能充分考虑个体间的遗传变异,导致其在个性化预测和跨群体应用中的性能受限。

为应对这一挑战,耶鲁大学团队在bioRxiv预印本平台发表的研究提出了一种新型基因组语言模型——UKBioBERT。通过整合UK BioBank的大规模遗传变异数据,UKBioBERT显著提升了基因表达预测的准确性和泛化能力。本文将对UKBioBERT的原理、性能及应用前景进行全面阐述。

研究背景:基因表达预测的挑战

基因表达水平由多种因素共同调控,包括基因序列变异、表观遗传修饰和细胞环境等。传统方法(如统计模型和简单机器学习算法)在处理复杂的基因调控网络时表现不足,而基于深度学习的序列到功能模型通过学习DNA序列的上下文信息,取得了较好的预测效果。然而,这些模型通常基于参考基因组构建,忽略了群体中广泛存在的单核苷酸多态性(SNP)等遗传变异。这使得模型在个体化基因表达预测和跨群体应用中面临局限,难以满足精准医学的需求。

UKBioBERT:模型设计与创新

UKBioBERT是一种基于BERT架构的基因组语言模型,其核心创新在于通过整合UK BioBank数据库中约30万欧洲裔个体的遗传变异数据(涵盖约1300万个变异位点)进行预训练。这些数据主要集中在启动子、增强子等调控区域,使得模型能够捕捉个体间遗传变异对基因表达的影响。

训练方法与架构特点

  • 预训练策略:UKBioBERT基于DNABERT2架构,采用掩码语言建模(MLM)方法,通过引入真实遗传变异数据进行训练。与传统随机数据增强不同,这种变异驱动的训练方式使模型能够生成更具信息量的基因序列嵌入(embeddings)。
  • 输入能力:模型支持长达10万碱基的输入序列,适用于大规模基因组分析。
  • 高效性:通过参数高效微调(PEFT)技术(如剪枝Transformer层),UKBioBERT的衍生模型UKBioFormer可在单GPU环境下完成训练,降低了计算资源需求。

与现有模型的区别

相较于DNABERT、HyenaDNA等传统基因组语言模型,UKBioBERT不仅学习DNA序列的语义信息,还融入了个体遗传变异的上下文表征能力。这一设计使其在功能基因组学任务中具有显著优势。

性能评估:UKBioBERT的表现

基因功能表征能力

在基因功能聚类任务中,UKBioBERT表现优异,其平均聚类评分达到0.82,高于DNABERT、HyenaDNA等20余种主流模型。生成的嵌入能够有效区分编码蛋白基因与非编码RNA基因,并精准捕捉远端调控元件(如增强子)的上下文信息,显示出其在基因序列语义学习方面的强大能力。

跨个体基因表达预测

在GTEx数据集的测试中,UKBioBERT结合ElasticNet回归模型对41个代表性基因的表达预测取得了0.88的Pearson相关系数(PCC),优于传统方法和基于参考基因组的Enformer模型。研究还发现,基因表达的可预测性与功能复杂性(如GIFts评分)呈负相关,为后续基因筛选提供了依据。

跨群体预测能力

UKBioBERT与Enformer和Borzoi模型结合,衍生出UKBioFormer和UKBioZoi。其中,UKBioFormer在非洲裔群体中的跨群体预测性能提升显著(PCC提升15%),训练耗时降低30%。这表明模型能够有效利用不同群体间共享的遗传变异信息,提升泛化能力。

eQTL效应方向预测

通过梯度归因(Gradient Attribution)和体外诱变分析(ISM),UKBioFormer能够以超过70%的准确率预测表达数量性状位点(eQTL)对基因表达的影响方向。例如,对于基因JUP,模型成功预测了多个eQTL的效应方向和大小,并揭示了关键调控位点(如rs9910080变异)的功能机制。

应用场景

个体化医疗

UKBioBERT及其衍生模型可根据个体遗传变异预测特异性基因表达水平,为靶向治疗方案的设计提供支持,帮助评估药物反应和疾病风险。

复杂疾病研究

模型为解析罕见变异对基因表达的调控机制提供了新工具,有助于揭示复杂疾病的遗传基础和风险位点的功能影响。

药物开发

通过体外诱变模拟,UKBioBERT能够快速筛选潜在药物靶点或副作用位点,加速药物研发进程。

面临的挑战与未来展望

尽管UKBioBERT在基因表达预测中取得了显著进展,但仍存在一些挑战:

  • 训练复杂性:多基因联合训练的计算复杂性较高。
  • 资源需求:大规模数据的处理对计算资源提出了要求。

未来研究可从以下方向进一步发展:

  • 优化模型架构,提高训练效率。
  • 扩展至跨组织和跨物种预测。
  • 整合多组学数据(如表观遗传学、蛋白质组学),提升模型性能和解释性。
  • 探索遗传变异与表观遗传修饰的协同效应。

结论

UKBioBERT通过整合大规模遗传变异数据,为基因组语言模型提供了更贴近真实生物学场景的预训练框架。其衍生模型UKBioFormer在跨个体和跨群体基因表达预测中的表现,为功能基因组学的研究提供了新方法的参考。

参考

  • 文献
    • Liu, T., Zhang, X., Ying, R., & Zhao, H. (2025). Pre-training Genomic Language Model with Variants for Better Modeling Functional Genomics. bioRxiv, 2025.02.26.640468.
    • https://doi.org/10.1101/2025.02.26.640468
  • 代码
    • https://github.com/HelloWorldLTY/UKBioLM

本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究背景:基因表达预测的挑战
  • UKBioBERT:模型设计与创新
    • 训练方法与架构特点
    • 与现有模型的区别
  • 性能评估:UKBioBERT的表现
    • 基因功能表征能力
    • 跨个体基因表达预测
    • 跨群体预测能力
    • eQTL效应方向预测
  • 应用场景
    • 个体化医疗
    • 复杂疾病研究
    • 药物开发
  • 面临的挑战与未来展望
  • 结论
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档