首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SeekSoulTools — 单细胞转录组学一站式分析工具

SeekSoulTools — 单细胞转录组学一站式分析工具

作者头像
生信菜鸟团
发布于 2024-07-10 08:46:10
发布于 2024-07-10 08:46:10
63400
代码可运行
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团
运行总次数:0
代码可运行

工欲善其事必先利其器

SeekSoulTools

SeekSoulTools 是寻因生物自主开发的一套处理单细胞转录组数据的软件,用于识别细胞标签barcode,比对定量,得到可用于下游分析的细胞表达矩阵,之后进行细胞聚类和差异分析,产品不仅支持SeekOne系列试剂盒产出数据,还可通过对barcode的描述,支持各种自定义设计结构。软件使用教程已经写的很好了,这边仅仅是作为知识的搬运工,记录一下测试体验过程。

  • 官网:https://www.seekgene.com/fxrj
  • 文档:http://seeksoul.seekgene.com/zh/v1.2.2/index.html

如何安装

下载安装包,解压即可使用

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
mkdir seeksoultools.1.2.2
cd seeksoultools.1.2.2
wget -c -O seeksoultools.1.2.2.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/seeksoultools/seeksoultools.1.2.2.tar.gz"

tar -xf seeksoultools.1.2.0.tar.gz

source ./bin/activate #激活conda环境

##测试是否可用
./seeksoultools --version

下载

功能简述

SeekSoulTools 目前包含四个模块,功能如下:

使用测试

下载测试数据和参考基因组

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## rna模块测试数据
wget -c -O demo_dd.tar "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/demodata/demo_dd.tar"
#解压
tar xf demo_dd.tar -C demo_data
##下载参考基因组文件
wget -c -O GRCh38.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/GRCh38.tar.gz"
tar -zxvf GRCh38.tar.gz

##文件大小
 55G 815  2023 demo_dd.tar
 11G 58  2023 GRCh38.tar.gz

##解压后文件
28G 97  2022 demo_dd_S39_L001_R1_001.fastq.gz
27G 97  2022 demo_dd_S39_L001_R2_001.fastq.gz
##GRCh38
$tree -L 3
.
├── fasta
│   ├── genome.fa
│   └── genome.fa.fai
├── genes
│   └── genes.gtf
└── star
    ├── chrLength.txt
    ├── chrNameLength.txt
    ├── chrName.txt
    ├── chrStart.txt
    ├── exonGeTrInfo.tab
    ├── exonInfo.tab
    ├── geneInfo.tab
    ├── Genome
    ├── genomeParameters.txt
    ├── Log.out
    ├── SA
    ├── SAindex
    ├── sjdbInfo.txt
    ├── sjdbList.fromGTF.out.tab
    ├── sjdbList.out.tab
    └── transcriptInfo.tab

##fast模块测试数据
wget -c -O cellline.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/demodata/cellline.tar.gz"
#解压
tar zxf cellline.tar.gz -C fast_data
#下载rRNA参考基因组文件
wget -c -O hg38_rRNA.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/hg38_rRNA.tar.gz"
tar -zxvf hg38_rRNA.tar.gz

##文件大小
45G 1024  2023 cellline.tar.gz
11G 512  2023 hg38_rRNA.tar.gz

##解压后文件大小
22G 1023  2023 cellline_R1.fq.gz
23G 1023  2023 cellline_R2.fq.gz
##hg38_rRNA
$tree -L 3
.
├── genes
│   └── delete_rRNA5.8-18-28_in_rRNA45s.gtf
└── star
    ├── chrLength.txt
    ├── chrNameLength.txt
    ├── chrName.txt
    ├── chrStart.txt
    ├── exonGeTrInfo.tab
    ├── exonInfo.tab
    ├── geneInfo.tab
    ├── Genome
    ├── genomeParameters.txt
    ├── Log.out
    ├── SA
    ├── SAindex
    ├── sjdbInfo.txt
    ├── sjdbList.fromGTF.out.tab
    ├── sjdbList.out.tab
    └── transcriptInfo.tab


## vdj模块测试数据
wget -c -O PBMC_xin.tar "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/demodata/PBMC_xin.tar"
#解压
tar -xf PBMC_xin.tar -C vdj_data

##解压后文件大小
1.9G 34 15:14 PBMC_xin_BCR_S19_L1_R1_001.fastq.gz
1.8G 34 15:14 PBMC_xin_BCR_S19_L1_R2_001.fastq.gz
2.4G 34 15:15 PBMC_xin_TCR_S19_L1_R1_001.fastq.gz
2.1G 34 15:15 PBMC_xin_TCR_S19_L1_R2_001.fastq.gz

SeekSoulTools可以兼容CellRanger构建的参考基因组。可以直接使用10X的参考基因组,至于如何自己构建可参考:

RNA模块

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
###将以下运行代码写入脚本 seeksoul_rna_run.sh

#! /bin/bash -xe
#

bin=/home/data/t020559/biosoft/seeksoultools.1.2.2/seeksoultools
ref=/home/data/t020559/seekone/GRCh38
ls ${bin} ; ls ${ref}

id=${1}

/usr/bin/time -v ${bin} rna run \
--fq1 /home/data/t020559/seekone/demo_data/demo_dd_S39_L001_R1_001.fastq.gz \
--fq2 /home/data/t020559/seekone/demo_data/demo_dd_S39_L001_R2_001.fastq.gz \
--samplename ${id} \
--genomeDir ${ref}/star \
--gtf ${ref}/genes/genes.gtf \
--chemistry DDV2 \
--core 4 \
--include-introns

##参数释义
--fq1 #R1文件路径
--fq2 #R2文件路径
--samplename #样本名称。默认会在outdir创建以样本名命名的目录
--genomeDir #STAR构建的参考基因组路径, 版本需要与SeekSoulTools使用的STAR一致
--gtf #相应物种的gtf路径
--chemistry #试剂类型,每种对应一组--shift、--pattern、 --structure、--barcode和--sc5p的组合,可选值:DDV2DD5V1MMMM-D;
            # DDV2 对应SeekOne® DD单细胞3’转录组试剂盒;
            # DD5V1 对应SeekOne® DD单细胞5’转录组试剂盒;
            # MM 对应SeekOne® MM单细胞转录组试剂盒;
            # MM-D 对应SeekOne® MM大孔径高通量转录组试剂盒
--core #设置线程
--include-introns #不启用时,只会选择exon reads⽤于定量;启用时,intron reads也会⽤于定量
--outdir #设定输出文件路径,默认值:./
--expectNum #预估的捕获细胞数目
--forceCell #当正常分析得到的细胞数⽬不理想时,选⽤此参数,后⾯加⼀个预期的数值N,SeekSoulTools软件会按照UMI从⾼到低取前N个细胞
--star_path #指定其他版本的STAR路径进行比对,版本需要与`--genomeDir`版本兼容,默认的`--star_path`为环境下的STAR

##提交任务
nohup bash seeksoul_rna_run.sh basic_test 1>log_test1.txt 2>&1 &
其余用法

如果一个样本对应多个FASTQ数据集,则输入文件依次指定即可,例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
seeksoultools rna run \
--fq1 /path/to/demo_dd_S39_L001_R1_001.fastq.gz \
--fq1 /path/to/demo_dd_S39_L002_R1_001.fastq.gz \
--fq2 /path/to/demo_dd_S39_L001_R2_001.fastq.gz \
--fq2 /path/to/demo_dd_S39_L002_R2_001.fastq.gz \
--samplename demo \
--genomeDir /path/to/GRCh38/star \
--gtf /path/to/GRCh38/genes/genes.gtf \
--chemistry DDV2 \
--core 4 \
--include-introns

如果要使用SeekSoulTools自定义R1结构,则需使用--barcode 依次指定3段barcode,--linker依次指定2段linker ,例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
seeksoultools rna run \
--fq1 /path/to/demo_dd_S39_L001_R1_001.fastq.gz \
--fq2 /path/to/demo_dd_S39_L001_R2_001.fastq.gz \
--samplename demo \
--genomeDir /path/to/GRCh38/star \
--gtf /path/to/GRCh38/genes/genes.gtf \
--barcode /path/to/utils/CLS1.txt \
--barcode /path/to/utils/CLS2.txt \
--barcode /path/to/utils/CLS3.txt \
--linker /path/to/utils/Linker1.txt \
--linker /path/to/utils/Linker2.txt \
--structure B9L12B9L13B9U8 \
--core 4 \
--include-introns

barcode和UMI 以字母和数字描述Read1的基本结构,字母描述碱基含义,数字描述碱基长度

B: barcode部分碱基 L: linker部分碱基 U: UMI部分碱基 X: 其他任意碱基,用于占位

两种Read1结构示例

fast模块

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
###将以下运行代码写入脚本 seeksoul_fast_run.sh

#! /bin/bash -xe
#

bin=/home/data/t020559/biosoft/seeksoultools.1.2.2/seeksoultools
ref=/home/data/t020559/seekone/GRCh38
rRNA=/home/data/t020559/seekone/hg38_rRNA
ls ${bin} ; ls ${ref} ; ls ${rRNA}

id=${1}

/usr/bin/time -v ${bin} fast run \
--fq1 /home/data/t020559/seekone/fast_data/cellline_R1.fq.gz \
--fq2 /home/data/t020559/seekone/fast_data/cellline_R2.fq.gz \
--samplename ${id} \
--genomeDir ${ref}/star \
--gtf ${ref}/genes/genes.gtf \
--rRNAgenomeDir ${rRNA}/star \
--rRNAgtf ${rRNA}/genes/delete_rRNA5.8-18-28_in_rRNA45s.gtf \
--chemistry DD-Q \
--include-introns \
--core 4

### 参数释义
--rRNAgenomeDir #STAR构建的参考基因组路径,用于rRNA比例评估, 对于非人非鼠物种,该参数可以不指定,当不指定该参数时,用–genomeDir参数值进行核糖体信息统计。如果指定该参数吗,则版本需要与SeekSoulTools使用的STAR一致
--rRNAgtf #相应物种的gtf路径,用于rRNA比例评估,同样该参数可以不指定
--chemistry # 试剂类型;DD-Q 对应SeekOne® DD单细胞全序列转录组试剂盒
--scoremin #设置STAR比对时的`--outFilterScoreMinOverLread`参数,用于FFPE样本放宽比对要求
--matchnmin #设置STAR比对时的`--outFilterMatchNminOverLread`参数,用于FFPE样本放宽比对要求

##提交运行
nohup bash seeksoul_fast_run.sh fast_test 1>log_fast_test.txt 2>&1 &

如果是FFPE样本单细胞转录数据 ,可以添加参数 --scoremin 0.2 --matchnmin 0.33 使用

vdj模块

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## T细胞分析
###将以下运行代码写入脚本 seeksoul_vdj_tcr_run.sh

#! /bin/bash -xe
#

bin=/home/data/t020559/biosoft/seeksoultools.1.2.2/seeksoultools
ls ${bin} 

id=${1}
output_dir=/home/data/t020559/seekone/TCR_test

if [ ! -d ${output_dir} ];
then mkdir -p ${output_dir}
fi

/usr/bin/time -v ${bin} vdj run \
--fq1 /home/data/t020559/seekone/vdj_data/PBMC_xin_TCR_S19_L1_R1_001.fastq.gz \
--fq2 /home/data/t020559/seekone/vdj_data/PBMC_xin_TCR_S19_L1_R2_001.fastq.gz \
--chemistry DD5V1 \
--samplename ${id} \
--outdir ${output_dir} \
--chain TR \
--core 8  \
--organism human

## B细胞分析
###将以下运行代码写入脚本 seeksoul_vdj_bcr_run.sh

#! /bin/bash -xe
#

bin=/home/data/t020559/biosoft/seeksoultools.1.2.2/seeksoultools
ls ${bin} 

id=${1}
output_dir=/home/data/t020559/seekone/BCR_test

if [ ! -d ${output_dir} ];
then mkdir -p ${output_dir}
fi

/usr/bin/time -v ${bin} vdj run \
--fq1 /home/data/t020559/seekone/vdj_data/PBMC_xin_BCR_S19_L1_R1_001.fastq.gz \
--fq2 /home/data/t020559/seekone/vdj_data/PBMC_xin_BCR_S19_L1_R2_001.fastq.gz \
--chemistry DD5V1 \
--samplename ${id} \
--outdir ${output_dir} \
--chain IG \
--core 8  \
--organism human

###参数释义
--organism #设定物种。可选值:human,mouse, monkey,rabbit,rat
--chain #链类型,可选值:IGTRIG对应B细胞受体;TR对应T细胞受体


##提交运行
nohup bash seeksoul_vdj_tcr_run.sh PBMC_xin_TCR 1>log_test2_tcr.txt 2>&1 &
nohup bash seeksoul_vdj_bcr_run.sh PBMC_xin_BCR 1>log_test2_bcr.txt 2>&1 &

TCR结果

更多详细使用教程见:http://seeksoul.seekgene.com/zh/v1.2.2/2.tutorial.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
单细胞免疫组库基础介绍
免疫系统中主要包含两类淋巴细胞:B lymphocytes (B cells) 和 T lymphocytes (T cells)。B cells 和 T cells 的区别在于表达的 antigen receptor 的结构(structure),分别是B-cell receptor (BCR) 和 T-cell receptor (TCR)。
生信技能树jimmy
2022/11/24
2.1K0
单细胞免疫组库基础介绍
新格元的单细胞转录组软件CeleScope实战
于是安排学徒去到新格元的官方网站,有对这款试剂盒及其分析软件(celescope)的介绍,在github上有软件的使用说明及下载:https://github.com/singleron-RD/CeleScope
生信技能树
2022/03/03
2.8K1
新格元的单细胞转录组软件CeleScope实战
转录组—上游分析_如何拿到count矩阵
本文档记录GSE149638数据集中下载SRR11652578和SRR11652615原始数据
sheldor没耳朵
2024/08/12
6741
转录组—上游分析_如何拿到count矩阵
CeleScope — 新格元单细胞多组学分析工具箱
CeleScope是一款由新格元生物科技有限公司自主开发的,用于处理新格元单细胞系列产品测序数据的开源生信软件。可从二代测序下机的原始fastq数据开始,经过细胞标签提取、质控与校正,参考基因组比对,完成基因定量,最终得到质控报告和表达矩阵,以用于单细胞下游分析。
生信菜鸟团
2024/07/31
6400
CeleScope — 新格元单细胞多组学分析工具箱
DNBC4tools—华大DNBelab系列单细胞分析pipeline
DNBseq(DNA Nanoball Sequencing) 是华大基因自主研发的高通量测序技术,核心基于 DNA纳米球(DNA Nanoball,DNB)和高密度测序芯片。与传统NGS技术(如Illumina的桥式PCR扩增)不同,DNBseq避免了PCR扩增导致的重复误差,通过线性扩增生成单链DNA纳米球,结合联合探针锚定聚合(cPAS)技术进行测序。
生信菜鸟团
2025/05/21
1K0
DNBC4tools—华大DNBelab系列单细胞分析pipeline
单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析(1)
scTCR可以更细致的获取肿瘤免疫微环境的变化,比如单细胞转录组可以获取不同样本,不同分组(癌和癌旁,是否治疗,是否响应)的celltype组成,可以知道哪些celltype发生变化。
生信补给站
2023/08/25
2.4K0
单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析(1)
单细胞多组学数据分析不会分析
因为脂多糖(LPS)组成革兰氏阴性细菌的外膜,其暴露可导致牛的局部或全身炎症水平升高,所以本实验设计就是使用脂多糖(LPS)看LPS 作为慢性炎症的关键介质调节免疫应答。
生信技能树jimmy
2023/08/31
3200
单细胞多组学数据分析不会分析
CeleScope 教程 || FocuSCOPE™单细胞EB病毒基因检测数据分析
人类EBV(Epstein-Barr virus,EBV)是疱疹病毒科嗜淋巴细胞病毒属的成员,人群普遍易感,超过90%的正常人感染过EBV,多为无症状携带。传统EBV检测常用抗体检测,RNAScope,PCR技术等,然而单细胞层次上的靶向测序目前还相对空白。为了进行单细胞水平的靶向测序,提高EBV的检出率,新格元2021年推出了FocuSCOPE™ Single Cell mRNA × EBV Library Kit,该试剂盒主要针对EBNA1、EBNA2、EBER1、EBER2、ZEBRA等设计捕获靶点。我们知道EBER1/EBER2(EBERs)被认为是EBV潜伏感染的标志物。FocuSCOPE™单细胞EB病毒基因检测试剂盒可以在提高EB病毒检测分辨率的基础上给EB病毒基础研究提供单细胞水平的研究工具。
生信技能树jimmy
2022/06/13
1.2K0
CeleScope 教程 || FocuSCOPE™单细胞EB病毒基因检测数据分析
RNA-seq 保姆教程:差异表达分析(一)
RNA-seq 目前是测量细胞反应的最突出的方法之一。RNA-seq 不仅能够分析样本之间基因表达的差异,还可以发现新的亚型并分析 SNP 变异。本教程[1]将涵盖处理和分析差异基因表达数据的基本工作流程,旨在提供设置环境和运行比对工具的通用方法。请注意,它并不适用于所有类型的分析,比对工具也不适用于所有分析。此外,本教程的重点是给出一般的分析流程。对于更大规模的研究,强烈建议使用集群来增加内存和计算能力。
数据科学工厂
2023/02/27
2K0
RNA-seq 保姆教程:差异表达分析(一)
基于Kallisto或Salmon的转录组定量流程
Kallisto和Salmon在RNA-seq数据分析中,相比于包含hisat2和STAR等软件的流程,展现出更高的处理速度。这主要归因于它们基于转录组序列reference(即cDNA序列)的特性和k mer比对原理。以下是关于Kallisto和Salmon在RNA-seq流程中速度优势的关键点归纳:
生信学习者
2024/06/13
2280
基于Kallisto或Salmon的转录组定量流程
UMI-RNAseq—转录组绝对定量
UMI(Unique molecularidentifier)——特异性分子标签(UMI)为 8-10nt 的短序列,可看做“条形码”,在文库构建时通过连接接头引入UMI标签连接到cDNA分子中,标记原始样品中的每个分子,对同一来源扩增产物进行追踪和最终提取分组,用于排除 PCR 扩增偏好性和测序偏好性引入的定量偏差,便于获得足够的读数以进行分析。
生信菜鸟团
2025/06/19
1920
UMI-RNAseq—转录组绝对定量
单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵
cellranger count 管道将FASTQ文件中的测序结果与参考转录组进行比对,并生成一个.cloupe文件,用于在Loupe Browser中进行可视化和分析,同时还生成了一些与其他公开工具兼容的输出,用于进一步分析。
DoubleHelix
2022/06/13
3.5K0
单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵
cellranger更新到5啦(全新使用教程)
同样的,需要自己简单注册后就可以获取wget下载地址,因为版权的问题,我这里就不复制粘贴出来地址啦,反正简单填写邮箱即可注册拿到地址。
生信技能树
2021/02/03
2.1K0
cellranger更新到5啦(全新使用教程)
cellranger multi—手把手教你单细胞免疫组库定量
单细胞免疫组库 是一种基于单细胞测序技术的高精度研究方法,用于解析免疫细胞(如T细胞、B细胞)的抗原受体(TCR/BCR)序列及其转录组特征。传统bulk测序无法揭示细胞异质性,而单细胞技术可精准识别克隆型分布、分化轨迹及功能状态,为免疫机制研究提供分子级分辨率。
生信菜鸟团
2025/03/18
2660
cellranger multi—手把手教你单细胞免疫组库定量
学徒抽丝剥茧想搞清楚这个转录组数据问题出在哪里
这个CNP0002454数据集来源的文章:Identification of a 3-Gene Model as Prognostic Biomarker in Patients With Gastric Cancer ,大家可以自行阅读
生信技能树
2023/02/27
5000
学徒抽丝剥茧想搞清楚这个转录组数据问题出在哪里
单细胞实战(三) Cell Ranger使用初探
然后利用Filezilla下载其中SRR7722937的R1、R2的html,打开看下
生信技能树jimmy
2020/03/27
7.4K1
单细胞RNA速率(velocyto)分析学习(一)
该部分内容仅为从Cellranger到loom文件部分内容,使用的数据集是GSE188711。
凑齐六个字吧
2025/05/08
2310
单细胞RNA速率(velocyto)分析学习(一)
CeleScope 教程 || FocuSCOPE™单细胞肺癌靶向基因突变数据分析
随着单细胞技术的飞速进展,单细胞转录组,单细胞免疫受体,空间转录组技术等先后出现,从多种角度为我们提供细胞层面的表达信息。很多癌症常伴有一系列基因突变,如EGFR、BRAF、ALK、NRAS等。针对这些特定基因突变的靶向药物治疗因其副作用小、疗效显著而受到人们的普遍欢迎,在单细胞水平对这些基因进行靶向测序将有助于临床研究。
生信技能树jimmy
2022/06/13
8960
CeleScope 教程 || FocuSCOPE™单细胞肺癌靶向基因突变数据分析
都是百万单细胞起步了吗
也就是说,普通人其实并没有这个能力也不需要面临这样的130万这个数量级的单细胞转录组数据的烦恼!我们拿这个HRA002184数据集举例:
生信菜鸟团
2024/04/25
2530
都是百万单细胞起步了吗
单细胞转录组实战01: CellRanger7定量
10X提供人和鼠的基因组参考index,其他物种可以是用cellranger自行构建
生信探索
2023/02/09
8680
推荐阅读
相关推荐
单细胞免疫组库基础介绍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验