CellBender用于从高通量单细胞组学数据中消除技术伪影,包括scRNA-seq、snRNA-seq和CITE-seq。
尽管近年来在改进、优化和标准化基于微滴的单细胞组学实验(如单细胞RNA测序,scRNA-seq)协议方面取得了进展,但这些实验的复杂性仍导致原始数据中存在系统性偏差和背景噪声。这些干扰主要来源于不期望的酶促反应产生的伪造文库片段、外源或内源环境转录本的污染、条形码微珠的杂质,以及扩增和/或测序过程中发生的条形码交换。CellBender的主要目的是利用第三方分析流程(例如CellRanger、Alevin、DropSeq、StarSolo等)生成的原始基因-细胞计数矩阵及分子级别信息,对系统性偏差和背景噪声进行建模和去除,从而生成更准确的基因表达估计值。
R语言中可使用decontX去除环境RNA污染:https://mp.weixin.qq.com/s/WZasC5TqaSgYiT7LjLGd0g
# 单独创建一个环境
# 如果是Mac推荐
CONDA_SUBDIR=osx-64 conda create -n cellbender python=3.7
# 其他
conda create -n cellbender python=3.7
# 激活环境
conda activate cellbender
pip install torch
conda install -c anaconda pytables
pip install numpy==1.21.6
git clone https://github.com/broadinstitute/CellBender.git
pip install -e CellBender
使用GSE188711数据集中的GSM5688706样本
cellbender remove-background \
--input filtered_feature_bc_matrix.h5 \
--output GSM5688706.h5
--checkpoint ./ckpt.tar.gz \
--force-use-checkpoint
# 如果有GPU资源可以加上cuda
cellbender remove-background \
--cuda \
--input filtered_feature_bc_matrix.h5 \
--output GSM5688706.h5
--checkpoint ./ckpt.tar.gz \
--force-use-checkpoint
此命令将生成9个文件:
如果想节省空间,则只需要存储 output_report.html 和 output.h5。特别是 ckpt.tar.gz 是一个大文件,可以删除它以节省磁盘存储空间。(但是,如果保留此检查点文件,则可用于使用不同的 --fpr 创建新的输出计数矩阵,而无需重新运行冗长的训练过程。只需使用不同的 --fpr 再次运行该命令并指定 --checkpoint ckpt.tar.gz。
网页版文件会给出详细的运行过滤信息,可以阅读一下。
使用起来整体流程非常简单,但不同于基于R语言的一些工具,Cellbender在使用时需要对最原始的.h5文件进行处理。
注:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多相关内容可关注公众号:生信方舟 。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。