对于揭示基因调控机制、理解复杂性状的遗传基础,基因表达预测具有重要意义。近年来,深度学习技术的进步推动了序列到功能(sequence-to-function)模型的发展,这些模型通过分析DNA序列信息预测基因表达水平。然而,传统模型多基于单一参考基因组训练,未能充分考虑个体间的遗传变异,导致其在个性化预测和跨群体应用中的性能受限。
为应对这一挑战,耶鲁大学团队在bioRxiv预印本平台发表的研究提出了一种新型基因组语言模型——UKBioBERT。通过整合UK BioBank的大规模遗传变异数据,UKBioBERT显著提升了基因表达预测的准确性和泛化能力。本文将对UKBioBERT的原理、性能及应用前景进行全面阐述。
基因表达水平由多种因素共同调控,包括基因序列变异、表观遗传修饰和细胞环境等。传统方法(如统计模型和简单机器学习算法)在处理复杂的基因调控网络时表现不足,而基于深度学习的序列到功能模型通过学习DNA序列的上下文信息,取得了较好的预测效果。然而,这些模型通常基于参考基因组构建,忽略了群体中广泛存在的单核苷酸多态性(SNP)等遗传变异。这使得模型在个体化基因表达预测和跨群体应用中面临局限,难以满足精准医学的需求。
UKBioBERT是一种基于BERT架构的基因组语言模型,其核心创新在于通过整合UK BioBank数据库中约30万欧洲裔个体的遗传变异数据(涵盖约1300万个变异位点)进行预训练。这些数据主要集中在启动子、增强子等调控区域,使得模型能够捕捉个体间遗传变异对基因表达的影响。
相较于DNABERT、HyenaDNA等传统基因组语言模型,UKBioBERT不仅学习DNA序列的语义信息,还融入了个体遗传变异的上下文表征能力。这一设计使其在功能基因组学任务中具有显著优势。
在基因功能聚类任务中,UKBioBERT表现优异,其平均聚类评分达到0.82,高于DNABERT、HyenaDNA等20余种主流模型。生成的嵌入能够有效区分编码蛋白基因与非编码RNA基因,并精准捕捉远端调控元件(如增强子)的上下文信息,显示出其在基因序列语义学习方面的强大能力。
在GTEx数据集的测试中,UKBioBERT结合ElasticNet回归模型对41个代表性基因的表达预测取得了0.88的Pearson相关系数(PCC),优于传统方法和基于参考基因组的Enformer模型。研究还发现,基因表达的可预测性与功能复杂性(如GIFts评分)呈负相关,为后续基因筛选提供了依据。
UKBioBERT与Enformer和Borzoi模型结合,衍生出UKBioFormer和UKBioZoi。其中,UKBioFormer在非洲裔群体中的跨群体预测性能提升显著(PCC提升15%),训练耗时降低30%。这表明模型能够有效利用不同群体间共享的遗传变异信息,提升泛化能力。
通过梯度归因(Gradient Attribution)和体外诱变分析(ISM),UKBioFormer能够以超过70%的准确率预测表达数量性状位点(eQTL)对基因表达的影响方向。例如,对于基因JUP,模型成功预测了多个eQTL的效应方向和大小,并揭示了关键调控位点(如rs9910080变异)的功能机制。
UKBioBERT及其衍生模型可根据个体遗传变异预测特异性基因表达水平,为靶向治疗方案的设计提供支持,帮助评估药物反应和疾病风险。
模型为解析罕见变异对基因表达的调控机制提供了新工具,有助于揭示复杂疾病的遗传基础和风险位点的功能影响。
通过体外诱变模拟,UKBioBERT能够快速筛选潜在药物靶点或副作用位点,加速药物研发进程。
尽管UKBioBERT在基因表达预测中取得了显著进展,但仍存在一些挑战:
未来研究可从以下方向进一步发展:
UKBioBERT通过整合大规模遗传变异数据,为基因组语言模型提供了更贴近真实生物学场景的预训练框架。其衍生模型UKBioFormer在跨个体和跨群体基因表达预测中的表现,为功能基因组学的研究提供了新方法的参考。
本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。