又是一周的周末了,今天还是入职生信技能树以来整整一周年了,心里有点五味杂陈。今天学习一篇2025年刚刚发表的Cell文献中的数据处理小技巧:2025年10月28号发表在Cell杂志上,文献标题为《Systemic immune activity occurs during human immune system maturation》。如果你的朋友圈很活跃,应该看到过很多次这篇文献了,但是我看这篇文献的视角跟你不一样。
• 新型免疫细胞图谱重构妊娠中期胎儿与成人的免疫结构框架
• 组织驻留记忆T细胞在屏障器官间呈现活跃的跨器官迁移现象
• ARG1+中性粒细胞与PTGES3/PTGER4信号轴共同驱动免疫耐受机制
• 广泛分布的功能性造血干细胞揭示免疫发育所需的活跃造血活动
对来自15例胎儿和4例成人供体、涵盖23个器官的321份样本分选的CD45+免疫细胞进行了scRNA-seq及α/β scTCR-seq测序(图1A):

获得2,868,420个高质量免疫细胞(胎儿2,096,960个,成人771,460个)。基于平均基因表达的主成分分析显示胎儿与成人样本明显分离,凸显两者免疫细胞组成的显著差异(图1B)。细胞聚类为54种主要类型(图1C),采用UMAP可视化。进一步通过人工注释优化了中性粒细胞与单核细胞等复杂亚群的界定,其精度优于 Celltypist 等自动化工具(图S1H)。细胞亚群包括:

这个UMAP图这么详细的亚群注释,不同亚群之间结果界限还这么分明,必须看看人家是怎么分析数据的!
数据中有一个分析点曾老板让我看下,挺有意思的:胎儿肌肉样本中高转录基因的识别与剔除。
文献中的描述如下:巨噬细胞高表达肌细胞基因但是不是双包体!
在对321例样本完成初步合并后,我们观察到来自胎儿肌肉组织的一个巨噬细胞簇特异性表达骨骼肌细胞标志基因,且与其他细胞簇明显分离。进一步分析显示,这些细胞的基因检出数量和UMI指标与其他细胞相当,提示其受环境RNA污染的可能性高于细胞双联体。 为精准识别潜在污染物,我们聚焦于骨骼肌组织中高表达的基因:
这36个基因如下:
Gene | Function | |
|---|---|---|
1 | ACTA1 | 编码骨骼肌α-肌动蛋白,参与肌肉收缩过程,是肌纤维的主要结构蛋白之一。 |
2 | ACTN2 | 编码α-辅肌动蛋白2,主要在骨骼肌中表达,参与维持肌纤维的结构和稳定性。 |
3 | ATP2A1 | 编码肌质网钙ATP酶1,负责将肌质网中的钙离子泵回肌质网,调节肌肉收缩和舒张。 |
4 | CA3 | 编码碳酸酐酶3,参与细胞内酸碱平衡调节,对肌肉代谢和能量代谢有重要作用。 |
5 | CKM | 编码肌酸激酶M型,参与肌肉细胞内的能量代谢,将磷酸肌酸转化为ATP。 |
6 | COX6A2 | 编码细胞色素c氧化酶亚基6A2,是线粒体呼吸链复合体IV的组成部分,参与细胞呼吸和能量产生。 |
7 | COX7A1 | 编码细胞色素c氧化酶亚基7A1,也是线粒体呼吸链复合体IV的组成部分,参与细胞呼吸和能量产生。 |
8 | CRYAB | 编码αB-晶状体蛋白,是一种小热休克蛋白,具有分子伴侣功能,参与细胞应激反应和维持细胞稳定性。 |
9 | DES | 编码结蛋白,是细胞骨架的重要组成部分,参与维持细胞结构和连接相邻细胞。 |
10 | EEF1A2 | 编码真核延伸因子1α2,参与蛋白质合成过程,是翻译延伸阶段的关键因子。 |
11 | ENO3 | 编码γ-烯醇化酶,参与糖酵解过程,催化2-磷酸甘油酸生成磷酸烯醇式丙酮酸。 |
12 | FXYD1 | 编码磷酸化肌醇调节蛋白1,参与调节钠钾泵的活性,影响细胞内钠钾离子平衡。 |
13 | HSPB6 | 编码小热休克蛋白B6,具有分子伴侣功能,参与细胞应激反应和维持细胞稳定性。 |
14 | KLHL41 | 编码Kelch样蛋白41,参与肌肉收缩和舒张的调节,可能与肌纤维的结构和功能相关。 |
15 | MYBPC1 | 编码肌球蛋白结合蛋白C,参与调节肌肉收缩的速度和力量。 |
16 | MYL1 | 编码肌球蛋白轻链1,参与调节肌球蛋白的活性和肌肉收缩。 |
17 | MYL2 | 编码肌球蛋白轻链2,参与调节肌球蛋白的活性和肌肉收缩。 |
18 | MYLPF | 编码肌球蛋白磷酸化轻链,参与调节肌球蛋白的活性和肌肉收缩。 |
19 | MYOZ1 | 编码肌钙蛋白Z1,参与肌肉收缩的调节,可能与钙离子信号传导有关。 |
20 | NEB | 编码肌联蛋白,是肌纤维的重要结构蛋白,参与维持肌纤维的结构和稳定性。 |
21 | PGAM2 | 编码磷酸甘油酸变位酶M型,参与糖酵解过程,催化2-磷酸甘油酸生成3-磷酸甘油酸。 |
22 | RYR1 | 编码兰尼碱受体1,是肌质网膜上的钙离子通道,参与肌肉收缩的钙离子释放。 |
23 | SLN | 编码肌强蛋白,参与调节肌质网钙离子的摄取和释放,影响肌肉收缩和舒张。 |
24 | TCAP | 编码四联蛋白,是肌纤维的重要结构蛋白,参与维持肌纤维的结构和稳定性。 |
25 | TCEA3 | 编码转录延伸因子A3,参与转录延伸过程,对基因表达调控有重要作用。 |
26 | TNNC1 | 编码肌钙蛋白C1,是肌钙蛋白复合体的钙结合亚基,参与钙离子介导的肌肉收缩调节。 |
27 | TNNC2 | 编码肌钙蛋白C2,是肌钙蛋白复合体的钙结合亚基,参与钙离子介导的肌肉收缩调节。 |
28 | TNNI1 | 编码肌钙蛋白I1,是肌钙蛋白复合体的抑制亚基,参与调节肌肉收缩。 |
29 | TNNI2 | 编码肌钙蛋白I2,是肌钙蛋白复合体的抑制亚基,参与调节肌肉收缩。 |
30 | TNNT3 | 编码肌钙蛋白T3,是肌钙蛋白复合体的调节亚基,参与钙离子介导的肌肉收缩调节。 |
31 | TPM1 | 编码α-原肌球蛋白,是肌纤维的重要结构蛋白,参与维持肌纤维的结构和稳定性。 |
32 | TPM2 | 编码β-原肌球蛋白,是肌纤维的重要结构蛋白,参与维持肌纤维的结构和稳定性。 |
33 | ACTC1 | 编码心肌α-肌动蛋白,参与心肌收缩过程,是心肌纤维的主要结构蛋白之一。 |
34 | MYL5 | 编码肌球蛋白轻链5,参与调节肌球蛋白的活性和肌肉收缩。 |
35 | MYOZ2 | 编码肌钙蛋白Z2,参与肌肉收缩的调节,可能与钙离子信号传导有关。 |
36 | MYO7A | 编码肌球蛋白VIIA,参与细胞内物质运输和细胞骨架的组织,对维持细胞结构和功能有重要作用。 |
这些基因在肌肉组织中发挥着重要的生理功能,涉及肌肉收缩、能量代谢、细胞结构维持等多个方面。
这个点是不是很有意思,按照以往的思路,上面这群细胞也会被我丢了,作为双包体!来分析一下作者的数据看看,是怎么发现这个过程的。
作者将所有的数据放在了这里,包含2,868,420个细胞的标准化计数矩阵及相关元数据已发布于Figshare平台:https://figshare.com/articles/dataset/HCA2_0_Raw_normalized_data/29132741

还有一些分析脚本: https://github.com/HeShuai/scHICA.
今天刚好看完文献以及下载完数据:

提供的数据被分为了5个part,在用之前合并一下:
cat all_data_clean_part_01.hdf all_data_clean_part_02 all_data_clean_part_03 all_data_clean_part_04 all_data_clean_part_05 >all_data_clean.h5ad
得到一个h5ad对象,使用python读取进来看看:
# python代码
import scanpy as sc
adata = sc.read_h5ad("data/all_data_clean.h5ad")
adata

有点害怕,第一次干这么大的数据:287w的细胞!
如果你也感兴趣,一起来分析看看!我明天更新我的后续~
友情转发: