需要预测肺炎链球菌的血清型,客户的分析需求是:
使用 SPNserotype(v2.0)和 PneumoCaT(v1.2)工具进行血清型注释。
首先 SPNserotype,找了一圈,愣是没找到下载地址,作罢。而 PneumoCaT 要求输入 FASTQ 文件,看其帮助信息可知:
usage: python PneumoCaT.py [-h] [--input_directory INPUT_DIRECTORY]
[--fastq_1 FASTQ_1] [--fastq_2 FASTQ_2]
[--variant_database VARIANT_DATABASE]
[--output_dir OUTPUT_DIR] [--threads THREADS]
[--bowtie BOWTIE] [--samtools SAMTOOLS] [--cleanup]但客户的数据是组装好的基因组,因此也无法使用这个软件。
通过搜索,PfaSTer 进入了视线,其 GitHub 地址:
https://github.com/pfizer-opensource/pfaster
pneumococcal fasta serotyping
虽然不清楚这工具效果如何,但好在是由大公司(辉瑞)开发,先尝试一波。
# 下载程序代码
git clone https://github.com/PfizerRD/pfaster.git
# 安装依赖软件
conda env create -p /pub/apps/biotools/pfaster -f environment.yml
# 移动程序文件至 bin 目录
mv pfaster /pub/apps/biotools/pfaster/bin/pfaster# 添加环境变量
PATH=/pub/apps/biotools/pfaster/bin:$PATH
# 切换目录
cd /pub/apps/biotools/pfaster/bin/pfaster
# 测试
python pfaster.py -f tests/Pn1_test_ERR1439829.fasta结果显示,测试样本的分型结果为:1
serotype prediction for tests/Pn1_test_ERR1439829.fasta 1 probability 1.0
cat lst:
/path/to/sample1.fasta
/path/to/sample2.fasta
/path/to/sample3.fasta
/path/to/sample4.fasta
/path/to/sample5.fasta
/path/to/sample6.fasta
/path/to/sample7.fasta
/path/to/sample8.fasta
/path/to/sample9.fasta
/path/to/sample10.fastacat run_batch.sh:
PATH=/pub/apps/biotools/pfaster/bin:$PATH
OUTDIR=/path/to/results
echo -e "Sample_name\tIn_silico_serotype\tprobability" > pfaster_predict_results.tsv
whileread fasta
do
cd /pub/apps/biotools/pfaster/bin/pfaster
python pfaster.py -f $fasta -o $OUTDIR
seq=$(sed -n '1 p'$OUTDIR/prediction.txt | sed 's#.*/##')
st=$(sed -n '2 p'$OUTDIR/prediction.txt)
prob=$(sed -n '3 p'$OUTDIR/prediction.txt)
cd -
echo -e "$seq\t$st\t$prob" >> pfaster_predict_results.tsv
done < lst结果展示:
Sample_name In_silico_serotype probability
sample1 3 0.89
sample2 15C 0.67
sample3 6E 1.0
sample4 19A 1.0
sample5 19A 1.0
sample6 19A 1.0
sample7 14 0.99
sample8 3 1.0
sample9 19F 1.0
sample10 19F 0.99吐槽一下,这软件每次运行都需要切换到其安装目录,如脚本中的:
cd /pub/apps/biotools/pfaster/bin/pfaster各位使用的时候需要注意。