首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >基准测试:DeepVariant进行WES变异检测

基准测试:DeepVariant进行WES变异检测

作者头像
简说基因
发布2025-04-02 14:25:26
发布2025-04-02 14:25:26
3250
举报
文章被收录于专栏:简说基因简说基因

本文以人 WES 测序数据为例,演示 DeepVariant 软件进行变异检测的基准测试过程。

工具地址:

usegalaxy.cn 网站,搜索工具:DeepVariant

数据下载

瓶中基因组基准数据

我们将使用瓶中基因组小变异基准数据集 v4.2.1 对 HG003 样本进行基准测试。

代码语言:javascript
复制
mkdir -p benchmark

FTPDIR=ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/AshkenazimTrio/HG003_NA24149_father/NISTv4.2.1/GRCh38

curl ${FTPDIR}/HG003_GRCh38_1_22_v4.2.1_benchmark_noinconsistent.bed > benchmark/HG003_GRCh38_1_22_v4.2.1_benchmark_noinconsistent.bed
curl ${FTPDIR}/HG003_GRCh38_1_22_v4.2.1_benchmark.vcf.gz > benchmark/HG003_GRCh38_1_22_v4.2.1_benchmark.vcf.gz
curl ${FTPDIR}/HG003_GRCh38_1_22_v4.2.1_benchmark.vcf.gz.tbi > benchmark/HG003_GRCh38_1_22_v4.2.1_benchmark.vcf.gz.tbi
HG003 BAM
代码语言:javascript
复制
mkdir -p input
HTTPDIR=https://storage.googleapis.com/deepvariant/exome-case-study-testdata

curl ${HTTPDIR}/HG003.novaseq.wes_idt.100x.dedup.bam > input/HG003.novaseq.wes_idt.100x.dedup.bam
curl ${HTTPDIR}/HG003.novaseq.wes_idt.100x.dedup.bam.bai > input/HG003.novaseq.wes_idt.100x.dedup.bam.bai
捕获目标 BED 文件

在本案例研究中,我们将使用idt_capture_novogene.grch38.bed作为捕获目标 BED 文件。为了进行评估,hap.py将使该 BED 与 GIAB 置信区域相交。

代码语言:javascript
复制
HTTPDIR=https://storage.googleapis.com/deepvariant/exome-case-study-testdata

curl ${HTTPDIR}/idt_capture_novogene.grch38.bed > input/idt_capture_novogene.grch38.bed
参数设置
  • • 参考基因组来源:GRCh38
  • • BAM 文件:HG003.novaseq.wes_idt.100x.dedup.bam
  • • 模型类型:WES
  • • 选择特定区域进行处理
    • • BED 文件:idt_capture_novogene.grch38.bed

基准测试

安装 hap.py

从网站 https://github.com/illumina/hap.py 下载测试软件。

测试
代码语言:javascript
复制
hap.py \
  ../benchmark/HG003_GRCh38_1_22_v4.2.1_benchmark.vcf.gz \
  deepvariant.vcf \
  -f ../benchmark/HG003_GRCh38_1_22_v4.2.1_benchmark_noinconsistent.bed \
  -T ../input/idt_capture_novogene.grch38.bed \
  -r /path/to/Homo_sapiens_assembly38.fasta \
  -o benchmark \
  --pass-only
结果

评估摘要:

  • • INDEL 真阳性率:0.9705,精确性:0.9914
  • • SNP 真阳性率:0.9884,精确性:0.9975
计算效率
  • • 4 线程:耗时 51 分钟,内存占用 13.3 GB。
  • • 8 线程:耗时 24 分钟,内存占用 14.7 GB。

参考资料

https://github.com/google/deepvariant/blob/r1.8/docs/deepvariant-exome-case-study.md

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 工具地址:
  • 数据下载
    • 瓶中基因组基准数据
    • HG003 BAM
    • 捕获目标 BED 文件
    • 参数设置
  • 基准测试
    • 安装 hap.py
    • 测试
    • 结果
    • 计算效率
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档