前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >TEDDY:单细胞生物学基础模型及其在疾病分类中的实践

TEDDY:单细胞生物学基础模型及其在疾病分类中的实践

作者头像
实验盒
发布于 2025-03-17 11:48:30
发布于 2025-03-17 11:48:30
1120
举报
文章被收录于专栏:实验盒实验盒

单细胞RNA测序(scRNA-seq)技术的快速发展为解析细胞异质性和疾病机制提供了高分辨率的数据基础。然而,如何从海量单细胞数据中提取有意义的生物学信息仍是一项挑战。

近期,BCG AI研究所与默克公司合作开发的TEDDY模型家族——基于116百万单细胞数据训练的首个单细胞基础模型,通过大规模数据整合和生物注释监督学习,在疾病分类任务中取得了进展。

研究背景

单细胞数据包含丰富的细胞状态和基因调控网络(GRN)信息,为理解疾病机制和细胞功能提供了独特视角。然而,现有单细胞基础模型面临两大主要限制:一是预训练数据规模有限(通常在百万至千万级),难以充分反映生物学多样性;二是未充分利用单细胞数据附带的生物注释(如疾病状态、细胞类型等),限制了模型在下游任务中的表现。TEDDY模型通过扩展数据规模至1.16亿细胞,并引入监督学习策略,尝试克服这些瓶颈,为单细胞生物学研究提供新的工具。

TEDDY模型的核心设计

数据规模与质量优化

TEDDY模型的预训练数据来源于CELLxGENE数据库,涵盖1.16亿个细胞(包括人类、小鼠及空间转录组数据),显著超过此前模型,如Geneformer(3000万细胞)和Nicheformer(1.1亿细胞)。为确保数据质量,研究团队实施了严格的筛选标准:剔除基因数少于225、线粒体基因占比高于10%的低质量细胞,并排除使用过时刻录技术(如10x Genomics v1)的数据。这种数据规模与质量的双重优化为模型提供了更全面的生物学信息基础。

生物注释监督学习

TEDDY模型在传统的“掩码基因建模”任务之外,新增了基于生物注释的监督预训练任务。具体而言,模型同时预测四类标签:疾病状态(如癌症、心血管疾病、健康等)、组织类型、细胞类型及性别。为避免细粒度标签噪声导致的过拟合,研究者将原始的1399个注释标签整合为43个粗粒度类别。这种监督学习策略使模型能够学习到更具生物学意义的基因表达表征。

双模型架构

TEDDY模型家族包括两种变体:

  • TEDDY-G:借鉴Geneformer的设计,将基因按表达量排序为序列,训练模型预测被掩码基因的排序位置;
  • TEDDY-X:参考scGPT方法,将基因表达量分箱,预测掩码基因的数值化表达水平。

两种架构均通过参数规模扩展(从1000万至4亿参数)探索模型能力的上限,从而适应不同的下游任务需求。

实验评估:疾病分类任务的表现

跨供体泛化能力

研究团队设计了跨供体疾病分类任务,目标是预测来自82个未参与训练的供体细胞是否患有14种疾病。结果显示,TEDDY-G 400M模型的准确率达到72%,比最佳竞品Nicheformer高出8%,比Geneformer提升45.8%。加权F1分数提升17.6%,显著优于传统机器学习方法(如XGBoost)。这表明TEDDY模型在处理跨个体生物学变异性方面具有较强的泛化能力。

跨疾病泛化能力

在识别5种未见疾病(如阿尔茨海默病、胃癌)的患病细胞任务中,TEDDY-G模型表现有所差异。例如,在慢性肾病(CKD)分类中,其准确率高达94%,与Nicheformer相当,优于Geneformer 3%;但在其他疾病上的性能提升有限。这可能与数据规模和注释质量有关,提示单纯依赖现有数据可能不足以应对所有未见疾病的分类挑战。

与传统方法的对比

通过提取TEDDY-G的基因嵌入特征并结合传统方法(如逻辑回归),下游任务的准确率平均提升15%。此外,加入生物注释预训练的模型在F1分数上较无监督模型提升10%-20%,验证了监督学习策略的有效性。

局限性与未来方向

尽管TEDDY模型在疾病分类中表现出色,但仍存在一些局限性:

  1. 跨疾病泛化不足:对于未见疾病的分类性能波动较大,可能受限于注释噪声或细胞级标签的缺失;
  2. 数据依赖性:虽然数据规模已达1.16亿,但与Nicheformer(1.1亿)的表现接近,表明进一步扩展数据可能是关键;
  3. 单模态限制:当前模型仅基于转录组数据,未能整合空间转录组或表观组信息。

未来研究可通过纳入多模态数据(如空间转录组、Perturb-seq扰动数据)增强模型表征能力,并探索基因调控网络的推断,以支持药物靶点发现和精准医疗应用。

相关资源

  • 预印本论文
    • Chevalier, A., Ghosh, S., Awasthi, U., Watkins, J., Bieniewska, J., Mitrea, N., Kotova, O., Shkura, K., Noble, A., Steinbaugh, M. and Delile, J., 2025. TEDDY: A Family Of Foundation Models For Understanding Single Cell Biology. arXiv preprint arXiv:2503.03485.
    • https://doi.org/10.48550/arXiv.2503.03485
  • 数据来源
    • CELLxGENE数据库:https://cellxgene.cziscience.com
  • 代码
    • 暂未发布

本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究背景
  • TEDDY模型的核心设计
    • 数据规模与质量优化
    • 生物注释监督学习
    • 双模型架构
  • 实验评估:疾病分类任务的表现
    • 跨供体泛化能力
    • 跨疾病泛化能力
    • 与传统方法的对比
  • 局限性与未来方向
  • 相关资源
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档