单细胞RNA测序(scRNA-seq)技术的快速发展为解析细胞异质性和疾病机制提供了高分辨率的数据基础。然而,如何从海量单细胞数据中提取有意义的生物学信息仍是一项挑战。
近期,BCG AI研究所与默克公司合作开发的TEDDY模型家族——基于116百万单细胞数据训练的首个单细胞基础模型,通过大规模数据整合和生物注释监督学习,在疾病分类任务中取得了进展。
单细胞数据包含丰富的细胞状态和基因调控网络(GRN)信息,为理解疾病机制和细胞功能提供了独特视角。然而,现有单细胞基础模型面临两大主要限制:一是预训练数据规模有限(通常在百万至千万级),难以充分反映生物学多样性;二是未充分利用单细胞数据附带的生物注释(如疾病状态、细胞类型等),限制了模型在下游任务中的表现。TEDDY模型通过扩展数据规模至1.16亿细胞,并引入监督学习策略,尝试克服这些瓶颈,为单细胞生物学研究提供新的工具。
TEDDY模型的预训练数据来源于CELLxGENE数据库,涵盖1.16亿个细胞(包括人类、小鼠及空间转录组数据),显著超过此前模型,如Geneformer(3000万细胞)和Nicheformer(1.1亿细胞)。为确保数据质量,研究团队实施了严格的筛选标准:剔除基因数少于225、线粒体基因占比高于10%的低质量细胞,并排除使用过时刻录技术(如10x Genomics v1)的数据。这种数据规模与质量的双重优化为模型提供了更全面的生物学信息基础。
TEDDY模型在传统的“掩码基因建模”任务之外,新增了基于生物注释的监督预训练任务。具体而言,模型同时预测四类标签:疾病状态(如癌症、心血管疾病、健康等)、组织类型、细胞类型及性别。为避免细粒度标签噪声导致的过拟合,研究者将原始的1399个注释标签整合为43个粗粒度类别。这种监督学习策略使模型能够学习到更具生物学意义的基因表达表征。
TEDDY模型家族包括两种变体:
两种架构均通过参数规模扩展(从1000万至4亿参数)探索模型能力的上限,从而适应不同的下游任务需求。
研究团队设计了跨供体疾病分类任务,目标是预测来自82个未参与训练的供体细胞是否患有14种疾病。结果显示,TEDDY-G 400M模型的准确率达到72%,比最佳竞品Nicheformer高出8%,比Geneformer提升45.8%。加权F1分数提升17.6%,显著优于传统机器学习方法(如XGBoost)。这表明TEDDY模型在处理跨个体生物学变异性方面具有较强的泛化能力。
在识别5种未见疾病(如阿尔茨海默病、胃癌)的患病细胞任务中,TEDDY-G模型表现有所差异。例如,在慢性肾病(CKD)分类中,其准确率高达94%,与Nicheformer相当,优于Geneformer 3%;但在其他疾病上的性能提升有限。这可能与数据规模和注释质量有关,提示单纯依赖现有数据可能不足以应对所有未见疾病的分类挑战。
通过提取TEDDY-G的基因嵌入特征并结合传统方法(如逻辑回归),下游任务的准确率平均提升15%。此外,加入生物注释预训练的模型在F1分数上较无监督模型提升10%-20%,验证了监督学习策略的有效性。
尽管TEDDY模型在疾病分类中表现出色,但仍存在一些局限性:
未来研究可通过纳入多模态数据(如空间转录组、Perturb-seq扰动数据)增强模型表征能力,并探索基因调控网络的推断,以支持药物靶点发现和精准医疗应用。
本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有