首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Comput. Sci. | 用层级交叉熵损失重塑单细胞图谱级注释模型性能

Nat. Comput. Sci. | 用层级交叉熵损失重塑单细胞图谱级注释模型性能

作者头像
DrugAI
发布2026-02-04 12:10:26
发布2026-02-04 12:10:26
1170
举报

单细胞RNA测序数据的细胞类型注释是解析生物学机制的关键步骤。尽管细胞类型天然具有层级结构(如免疫细胞—淋巴细胞—B细胞),现有多数模型却将标签视为彼此独立的平面分类问题。

研究人员提出了一种层级交叉熵损失(HCE),将细胞类型本体结构直接纳入模型训练目标,使预测结果在生物学层级上保持一致性。该方法可直接应用于线性模型、多层感知机和Transformer架构,在不增加计算成本的情况下,将跨数据集泛化性能提升约12–15%。研究人员同时指出,相比单纯堆叠模型复杂度,构建具有更好层级连通性的训练数据更有助于提升模型通用性。

随着单细胞图谱规模迅速扩大,自动化细胞类型注释成为核心需求。目前公共数据库已收录超过上亿个单细胞样本。

该任务的独特之处在于:

  • 细胞类型构成层级本体结构;
  • 不同研究的注释粒度不一致(粗分类 vs 精细亚型);
  • 新数据持续加入图谱体系。

传统评测多在同分布数据上进行,而在真实应用场景中,新研究数据往往来自不同实验条件,导致模型泛化能力显著下降。

方法

研究人员将细胞类型本体表示为有向无环图结构:

  • 每个节点代表一个细胞类型;
  • 边表示“是某亚型”的层级关系。

核心思想

标准交叉熵损失要求模型在所有类别间进行“非此即彼”的选择。

而HCE损失则:

  • 将子类型的预测概率向上累积到父节点
  • 使模型在细粒度预测与粗粒度标签间保持一致

换言之,预测某个亚型天然隐含预测其上层类型,符合真实生物分类逻辑。该损失函数作为即插即用模块,可无缝替换原有训练目标。

结果

大规模单细胞图谱上的泛化挑战

研究人员在超过1500万细胞构建的训练图谱上训练模型,并在新发布的260万细胞数据上测试。

结果显示:

  • 所有模型在新数据上性能骤降约24–32%;
  • 表明现有方法对跨研究泛化能力严重不足。

图1|持续更新单细胞图谱中的模型泛化评估及分布外性能急剧下降现象。

层级交叉熵显著提升跨数据集性能

引入HCE损失后:

  • 线性模型、MLP和Transformer的宏平均F1值均提升12–15%;
  • 基本恢复了约一半因分布变化造成的性能损失。

进一步分析发现:

  • 提升最明显出现在本体结构中“连接密集”的中间节点类型;
  • 孤立或极少样本的叶节点提升相对较小。

但整体提升与细胞类型稀有程度无明显相关,表现出良好鲁棒性。

图2|层级交叉熵损失在多种模型架构上的性能提升效果。

讨论

研究人员的结果挑战了“更复杂模型必然更好”的常见认知。

核心结论包括:

方法层面

  • 训练目标与生物结构对齐比模型深度更重要;
  • 简单损失函数调整即可带来系统性提升。

数据层面

  • 优化图谱中细胞类型层级连通性尤为关键;
  • 增加具有桥接作用的数据比单纯扩大规模更有效。

拓展意义

HCE损失不仅适用于单细胞注释,还可推广至任何具有层级标签结构的任务,如:

  • 疾病分类体系;
  • 蛋白功能层级注释;
  • 组织类型分类。

整理 | DrugOne团队

参考资料

Cultrera di Montesano, S., D’Ascenzo, D., Raghavan, S. et al. Improving atlas-scale single-cell annotation models with hierarchical cross-entropy loss. Nat Comput Sci (2026).

https://doi.org/10.1038/s43588-025-00945-z

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档