
单细胞RNA测序数据的细胞类型注释是解析生物学机制的关键步骤。尽管细胞类型天然具有层级结构(如免疫细胞—淋巴细胞—B细胞),现有多数模型却将标签视为彼此独立的平面分类问题。
研究人员提出了一种层级交叉熵损失(HCE),将细胞类型本体结构直接纳入模型训练目标,使预测结果在生物学层级上保持一致性。该方法可直接应用于线性模型、多层感知机和Transformer架构,在不增加计算成本的情况下,将跨数据集泛化性能提升约12–15%。研究人员同时指出,相比单纯堆叠模型复杂度,构建具有更好层级连通性的训练数据更有助于提升模型通用性。

随着单细胞图谱规模迅速扩大,自动化细胞类型注释成为核心需求。目前公共数据库已收录超过上亿个单细胞样本。
该任务的独特之处在于:
传统评测多在同分布数据上进行,而在真实应用场景中,新研究数据往往来自不同实验条件,导致模型泛化能力显著下降。
方法
研究人员将细胞类型本体表示为有向无环图结构:
核心思想
标准交叉熵损失要求模型在所有类别间进行“非此即彼”的选择。
而HCE损失则:
换言之,预测某个亚型天然隐含预测其上层类型,符合真实生物分类逻辑。该损失函数作为即插即用模块,可无缝替换原有训练目标。
结果
大规模单细胞图谱上的泛化挑战
研究人员在超过1500万细胞构建的训练图谱上训练模型,并在新发布的260万细胞数据上测试。
结果显示:

图1|持续更新单细胞图谱中的模型泛化评估及分布外性能急剧下降现象。
层级交叉熵显著提升跨数据集性能
引入HCE损失后:
进一步分析发现:
但整体提升与细胞类型稀有程度无明显相关,表现出良好鲁棒性。

图2|层级交叉熵损失在多种模型架构上的性能提升效果。
讨论
研究人员的结果挑战了“更复杂模型必然更好”的常见认知。
核心结论包括:
方法层面
数据层面
拓展意义
HCE损失不仅适用于单细胞注释,还可推广至任何具有层级标签结构的任务,如:
整理 | DrugOne团队
参考资料
Cultrera di Montesano, S., D’Ascenzo, D., Raghavan, S. et al. Improving atlas-scale single-cell annotation models with hierarchical cross-entropy loss. Nat Comput Sci (2026).
https://doi.org/10.1038/s43588-025-00945-z
内容为【DrugOne】公众号原创|转载请注明来源