前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >细胞鉴定曲线图理解

细胞鉴定曲线图理解

作者头像
生信技能树jimmy
发布2024-04-19 18:33:54
2360
发布2024-04-19 18:33:54
举报
文章被收录于专栏:单细胞天地

cellranger细胞鉴定曲线

一般得到10X Genomics的下机数据之后,我们需要使用Cellranger软件进行上游数据的处理,并且生成网页报告。

其中就包括了Barcode Rank Plot——细胞鉴定曲线图

细胞鉴定曲线图横坐标是Barcodes,纵坐标是UMI counts,都取log19.图中是将所有测序得到的Barcode按照其包含的UMI数进行降序排列,并且对细胞和非细胞标注不同的颜色,帮助区分。

然后基于细胞鉴定曲线图,设定一个cutoff值,决定去除掉哪些barcodes,并且保留下来部分Barcodes用于下游的数据分析。

下游数据读取及硬过滤标准

使用seurat来进行单细胞下游的数据分析,一般我们下载读取的数据都是经过上游cellranger流程处理过后的数据,保留下来几千到上万的barcodes来进行后续的数据分析。

GSE139829这个数据就有所不同,它是提供了原始的矩阵信息,11个样品的数据量就高达一个G

如果使用简单的min.cells = 5,min.features = 500进行一个硬过滤,那就会去除掉绝大多数没有意义的Barcodes。不过我们也可以使用下游矩阵数据来复现一下cellranger的细胞鉴定曲线,找一下过滤的标准。

代码语言:javascript
复制
#读取数据创建seurat对象

counts = Read10X("outputs/UMM061/")

sce=CreateSeuratObject(counts = counts )

> dim(sce)
[1]  33694 737280

创建完seurat对象之后,在不进行任何操作时,seurat会为每个细胞创建一个元数据,保存在meta.data里面

每一列的内容:

  • orig.ident:通常包含所知的样品名,默认为我们赋给project的值,如果不赋值那就是SeuratProject
  • nCount_RNA:每个细胞的UMI数目
  • nFeature_RNA:每个细胞所检测到的基因数目

那我们就可以使用nCount_RNA或者nFeature_RNA在R语言里面绘制细胞鉴定曲线,找到一个合适的cutoff值。

细胞鉴定曲线

cellranger是将所有测序得到的Barcode按照其包含的UMI数进行降序排列,并且对细胞和非细胞标注不同的颜色,帮助区分。那我们也按照对应的数据进行绘图。

代码语言:javascript
复制
a <- sort(log10(sce$nCount_RNA+1),decreasing = TRUE)

plot(a,
     xlab = "Barcodes",
     ylab = "nCount_RNA",
     xlim = c(100,100000)
)

从cellranger的3.0以后的版本,是把所有的barcodes按照UMI数进行排序后,取前1%的那个barcode所包含的UMI数量,记为m然后再去这个m的1/10作为cutoff值

那对应到我们的737280的数据,取1%就是7372,对应的UMI差不多是5000然后再取1/10,也就是500

如果使用nFeature_RNA同样的取log10之后作图,然后按照barcode包含的基因数进行排序,因为平均一个细胞的一个基因有10个左右的UMI,所以换算为基因的阈值就无需再取1/10,那根据取1%的barcode再对应到feature上差不多就是300-500左右的样子

代码语言:javascript
复制
log_data <- log10(sce$nFeature_RNA+1)

plot(sort(log_data,decreasing = TRUE),
     xlab = "Barcodes",
     ylab = "nFeature_RNA",
     xlim = c(100,100000))

基于细胞中至少要表达300个基因来对数据进行过滤

代码语言:javascript
复制
#基于min.features = 300进行过滤
sce2=CreateSeuratObject(counts = counts,
                        min.cells = 5,
                        min.features = 300)


> dim(sce2)
[1] 19222  9755

nFeature_RNA和nCount_RNA

一般很少会有下游是原始的rawcounts的数据,所以对于处理后的数据集我们可以可视化一下nFeature_RNA和nCount_RNA来辅助进行质控

那下期我们可以看看nFeature_RNA和nCount_RNA!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • cellranger细胞鉴定曲线
  • 下游数据读取及硬过滤标准
  • 细胞鉴定曲线
  • nFeature_RNA和nCount_RNA
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档