首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >单细胞CellBender去除环境RNA污染学习(Python)

单细胞CellBender去除环境RNA污染学习(Python)

原创
作者头像
凑齐六个字吧
发布2025-06-09 21:23:59
发布2025-06-09 21:23:59
16800
代码可运行
举报
文章被收录于专栏:单细胞单细胞
运行总次数:0
代码可运行

CellBender用于从高通量单细胞组学数据中消除技术伪影,包括scRNA-seq、snRNA-seq和CITE-seq。

尽管近年来在改进、优化和标准化基于微滴的单细胞组学实验(如单细胞RNA测序,scRNA-seq)协议方面取得了进展,但这些实验的复杂性仍导致原始数据中存在系统性偏差和背景噪声。这些干扰主要来源于不期望的酶促反应产生的伪造文库片段、外源或内源环境转录本的污染、条形码微珠的杂质,以及扩增和/或测序过程中发生的条形码交换。CellBender的主要目的是利用第三方分析流程(例如CellRanger、Alevin、DropSeq、StarSolo等)生成的原始基因-细胞计数矩阵及分子级别信息,对系统性偏差和背景噪声进行建模和去除,从而生成更准确的基因表达估计值。

R语言中可使用decontX去除环境RNA污染:https://mp.weixin.qq.com/s/WZasC5TqaSgYiT7LjLGd0g

CellBender分析流程
1.导入
代码语言:javascript
代码运行次数:0
运行
复制
# 单独创建一个环境
# 如果是Mac推荐
CONDA_SUBDIR=osx-64 conda create -n cellbender python=3.7
# 其他
conda create -n cellbender python=3.7

# 激活环境
conda activate cellbender
pip install torch
conda install -c anaconda pytables
pip install numpy==1.21.6
git clone https://github.com/broadinstitute/CellBender.git
pip install -e CellBender
2.正式运行

使用GSE188711数据集中的GSM5688706样本

代码语言:javascript
代码运行次数:0
运行
复制
cellbender remove-background \
                 --input filtered_feature_bc_matrix.h5 \
                 --output GSM5688706.h5
                 --checkpoint ./ckpt.tar.gz \
                 --force-use-checkpoint
代码语言:javascript
代码运行次数:0
运行
复制
# 如果有GPU资源可以加上cuda
cellbender remove-background \
                 --cuda \
                 --input filtered_feature_bc_matrix.h5 \
                 --output GSM5688706.h5
                 --checkpoint ./ckpt.tar.gz \
                 --force-use-checkpoint

此命令将生成9个文件:

  1. output_report.html:HTML 报告,包括绘图和注释,以及有关改进参数设置的任何警告或建议。
  2. output.h5:作为h5文件的完整计数矩阵,去除了背景RNA。但不执行过滤。
  3. output_filtered.h5:将过滤的计数矩阵作为 h5 文件,去除背景 RNA。“filtered” 一词表示此文件仅包含被确定为具有 > 50% 后验概率包含细胞的液滴。
  4. output_cell_barcodes.csv:包含所有微滴条形码的CSV文件,这些条形码被确定为含有细胞的后验概率为>50%。条形码以纯文本形式编写。此信息也包含在上述每个 output 中,但作为单独的 output 包含在内,以便于在某些下游应用程序中使用。
  5. output.pdf:提供推理过程的标准图形摘要的 PDF 文件。
  6. output.log: 由 cellbender remove-background 运行生成的日志文件。
  7. output_metrics.csv:描述运行的指标,可能用于在使用 CellBender 作为大规模自动化管道的一部分时标记有问题的运行。
  8. ckpt.tar.gz:包含经过训练的模型和完整后验的检查点文件。
  9. output_posterior.h5:噪声的完全后验概率计数。这通常不会在下游使用。

如果想节省空间,则只需要存储 output_report.html 和 output.h5。特别是 ckpt.tar.gz 是一个大文件,可以删除它以节省磁盘存储空间。(但是,如果保留此检查点文件,则可用于使用不同的 --fpr 创建新的输出计数矩阵,而无需重新运行冗长的训练过程。只需使用不同的 --fpr 再次运行该命令并指定 --checkpoint ckpt.tar.gz。

网页版文件会给出详细的运行过滤信息,可以阅读一下。

使用起来整体流程非常简单,但不同于基于R语言的一些工具,Cellbender在使用时需要对最原始的.h5文件进行处理。

参考资料:
  1. Unsupervised removal of systematic background noise from droplet-based single-cell experiments using CellBender. Nat Methods. 2023 Sep;20(9):1323-1335.
  2. CellBender:https://github.com/broadinstitute/CellBender

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多相关内容可关注公众号:生信方舟

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • CellBender分析流程
    • 1.导入
    • 2.正式运行
  • 参考资料:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档