这次用到的数据集是GSE274995,里面包含了3个样本的头颈部鳞癌细胞系(Cal27细胞)数据。
数据上传者采用的上游分析软件:
使用了Trimmomatic进行了数据质控;Bowtie2进行了比对分析;SAMtools处理比对后的BAM文件;MACS2用于Peaks Calling;bamCoverage转换为二进制的BigWig文件; 使用了hg19作为参考基因组,现在基本上首先使用GRCh38。
再来看一下曾老师推文和B站视频中的分析流程,其中数据数据过滤环节使用了fastp或者trim-galore软件(替代Trimmomatic),其他的基本差不多。
总体的步骤可以参考既往mRNA/miRNA的步骤:环境部署——数据下载——查看数据(非质控)——数据质控清洗——数据比对——数据定量,基本逃不出这个框架,只是针对不同类型的数据稍有不同。
本次分析步骤包括:环境部署——数据下载——查看数据(非过滤)
尝试使用ARM架构(M1/M2芯片)去安装fastqc trim-galore hisat2 subread multiqc samtools salmon fastp,但这些软件中有几个是不兼容的。所以需要改回原来的x86_64架构(Intel芯片),如果非mac/M1/M2的不需要用这种方式。
# macbook
CONDA_SUBDIR=osx-64 conda create -n chipseq_x86_64 python=3.9
conda activate chipseq_x86_64
# 如果是在服务器中
conda create -n chipseq python=3.9
conda activate chipseq
如果安装软件很慢的话可以先安装mamba再安装软件,比如:只需要把conda修改成mamba即可
conda install -c conda-forge mamba
mamba install -y sra-tools trim-galore samtools deeptools homer meme macs2 bowtie bowtie2
conda install -y sra-tools trim-galore samtools deeptools
conda install -y homer meme macs2 bowtie bowtie2
# 建议在自己的服务器或者本地先建好相应的文件夹
# 然后需要先cd到目标文件夹下
# 不建议直接复制,因为可能会有不知名的空格hhh
nohup cat SRR_Acc_List.txt | while read id; do prefetch $id; done > download.log 2>&1 &
先看看样本的单双链信息,点击具体样本
从这里可以看到样本采用的测序方式是什么, Layout: SINGLE,说明是单端测序数据
此外在这里稍提一个概念,有时候我们在让公司帮忙做测序的时候,公司人员交流会提到“测多少个G”这个概念。这里的测多少个G是表示Gigabases(表示Giga碱基,10亿碱基)。
我们可以看到下面这个页面上最上面的这句话:1 ILLUMINA (Illumina NovaSeq 6000) run: 42.3M spots, 3.2G bases, 1.2Gb downloads。
我们用一种不太智能的方法验证一下是不是75bp,我们进入如下界面,点开reads。
数一数确实是75个碱基。
接下来正式开始进行fastq转换
# 由于笔者这里存储的有点乱,所以会比较复杂
# 使用者在自行使用的时候,如果觉得设置路径很麻烦就把文件全放一个文件夹下面,先学会再说
# 定义变量,指定工作目录路径
# path路径需要通过pwd确定
# 可以选择写一个shell脚本
# 把下面代码输入进去
#!/bin/bash
# 也可以直接复制这些代码进行运行
path="/home/lm/Z_Projects/chipseq"
list_file="${path}/SRR_Acc_List.txt" # 列表文件路径
sra_dir="${path}/sra/sra" # 输入的 .sra 文件所在路径
fastq_dir="${path}/fastq" # 输出的 .fastq 文件存储路径
# 创建 fastq 输出目录
mkdir -p "${fastq_dir}"
# 读取列表文件并处理
cat "${list_file}" | while read id; do
# 检查 .sra 文件是否存在
sra_file="${sra_dir}/${id}.sra"
if [ -f "${sra_file}" ]; then
echo "Processing ${id}..."
# 使用 fastq-dump 处理 .sra 文件,输出到 fastq 文件夹
fastq-dump --gzip -O "${fastq_dir}" "${sra_file}"
echo "Completed ${id}."
else
echo "File ${sra_file} not found, skipping..."
fi
done
# cd到fastq文件夹中
# 不整合,输出每一个样本的质控报告
# fastqc -t [线程数] [存储路径] [文件来源路径]
fastqc -t 6 -o ./ ./SRR*.fastq.gz
不整合,输出每一个样本的质控报告
fastqc运行 FastQC 软件; -t 6 运行6个线程,加快速度;./ 存在当前文件夹中; ./SRR*.fastq.gz 读取fastq.gz文件
可以打开html文件看一看,具体的质控报告细节可以看一下既往的转录组上游分析流程~ 也可以看看其他UP主的推文。
# 整合,输出一个总的质控报告
# 请注意,这里是先要进行单一质控,然后根据单一质控得到的zip文件结果进行整合!
multiqc ./*.zip -o ./
整合,输出一个总的质控报告。这里是先要进行单一质控,然后根据单一质控得到的zip文件结果进行整合!
致谢:感谢曾老师以及生信技能树团队全体成员。
注:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟
- END -
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。