首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >来自于跨国药企巨头的肺炎链球菌血清型预测工具

来自于跨国药企巨头的肺炎链球菌血清型预测工具

作者头像
简说基因
发布2025-05-10 11:24:18
发布2025-05-10 11:24:18
1460
举报
文章被收录于专栏:简说基因简说基因

需要预测肺炎链球菌的血清型,客户的分析需求是:

使用 SPNserotype(v2.0)和 PneumoCaT(v1.2)工具进行血清型注释。

首先 SPNserotype,找了一圈,愣是没找到下载地址,作罢。而 PneumoCaT 要求输入 FASTQ 文件,看其帮助信息可知:

代码语言:javascript
复制
usage: python PneumoCaT.py [-h] [--input_directory INPUT_DIRECTORY]
                    [--fastq_1 FASTQ_1] [--fastq_2 FASTQ_2]
                    [--variant_database VARIANT_DATABASE]
                    [--output_dir OUTPUT_DIR] [--threads THREADS]
                    [--bowtie BOWTIE] [--samtools SAMTOOLS] [--cleanup]

但客户的数据是组装好的基因组,因此也无法使用这个软件。

通过搜索,PfaSTer 进入了视线,其 GitHub 地址:

https://github.com/pfizer-opensource/pfaster

pneumococcal fasta serotyping

  • S. pneumoniae in-silico serotype prediction from assembled genome sequences (.fasta)
  • • Developed by Pfizer.inc

虽然不清楚这工具效果如何,但好在是由大公司(辉瑞)开发,先尝试一波。

安装

代码语言:javascript
复制
# 下载程序代码
git clone https://github.com/PfizerRD/pfaster.git

# 安装依赖软件
conda env create -p /pub/apps/biotools/pfaster -f environment.yml

# 移动程序文件至 bin 目录
mv pfaster /pub/apps/biotools/pfaster/bin/pfaster

测试

代码语言:javascript
复制
# 添加环境变量
PATH=/pub/apps/biotools/pfaster/bin:$PATH

# 切换目录
cd /pub/apps/biotools/pfaster/bin/pfaster

# 测试
python pfaster.py -f tests/Pn1_test_ERR1439829.fasta

结果显示,测试样本的分型结果为:1

serotype prediction for tests/Pn1_test_ERR1439829.fasta 1 probability 1.0

批量运行

  • • 先将所有要分析的基因组文件的路径放入一个列表中

cat lst:

代码语言:javascript
复制
/path/to/sample1.fasta
/path/to/sample2.fasta
/path/to/sample3.fasta
/path/to/sample4.fasta
/path/to/sample5.fasta
/path/to/sample6.fasta
/path/to/sample7.fasta
/path/to/sample8.fasta
/path/to/sample9.fasta
/path/to/sample10.fasta
  • • 批量运行脚本

cat run_batch.sh:

代码语言:javascript
复制
PATH=/pub/apps/biotools/pfaster/bin:$PATH

OUTDIR=/path/to/results

echo -e "Sample_name\tIn_silico_serotype\tprobability" > pfaster_predict_results.tsv

whileread fasta
do
    cd /pub/apps/biotools/pfaster/bin/pfaster
    python pfaster.py -f $fasta -o $OUTDIR

    seq=$(sed -n '1 p'$OUTDIR/prediction.txt | sed 's#.*/##')
    st=$(sed -n '2 p'$OUTDIR/prediction.txt)
    prob=$(sed -n '3 p'$OUTDIR/prediction.txt)
    cd -
    echo -e "$seq\t$st\t$prob" >> pfaster_predict_results.tsv
done < lst

结果展示:

代码语言:javascript
复制
Sample_name    In_silico_serotype    probability
sample1    3    0.89
sample2    15C    0.67
sample3    6E    1.0
sample4    19A    1.0
sample5    19A    1.0
sample6    19A    1.0
sample7    14    0.99
sample8    3    1.0
sample9    19F    1.0
sample10    19F    0.99
  • • Sample_name,样本名
  • • In_silico_serotype,预测的血清型
  • • probability,预测概率

最后

吐槽一下,这软件每次运行都需要切换到其安装目录,如脚本中的:

代码语言:javascript
复制
cd /pub/apps/biotools/pfaster/bin/pfaster

各位使用的时候需要注意。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安装
  • 测试
  • 批量运行
  • 最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档