Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GATK的FilterMutectCalls如何才能成功呢

GATK的FilterMutectCalls如何才能成功呢

作者头像
生信技能树
发布于 2020-10-26 02:26:44
发布于 2020-10-26 02:26:44
1.9K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

因为有粉丝求助,他学习前面我分享的GATK的Mutect2流程都快奔溃了,总是各种报错。为了证明我教程没有错,所以我赶紧检查了代码,自己走了一遍,重新写了教程,了:最新最全的mutect2教程,提到了因为GATK的Mutect2流程更新太频繁,导致这个软件出现了一些无法解决的报错。走完了体细胞突变(somatic mutation)检测流程(Mutect2命令),这个时候拿到的文件仍然是需要过滤(走FilterMutectCalls命令)的,但是很多人就卡在了这一步。

比如我运行这个软件的FilterMutectCalls命令,测试了下面的几个情况:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
reference=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta  
GATK=$HOME/biosoft/GATK/gatk-4.1.8.1/gatk 
GATK=$HOME/biosoft/GATK/gatk-4.0.3.0/gatk
GATK=$HOME/biosoft/GATK/gatk-4.0.2.1/gatk
ls $reference $GATK 
ls  *_mutect2.vcf  |while read id
do
sample=$(basename "$id" _mutect2.vcf)
$GATK  FilterMutectCalls -R $reference  --java-options  -DGATK_STACKTRACE_ON_USER_EXCEPTION=true  \
   -V  $id \
   -O ${sample}_filtered.vcf 
done

如果是gatk-4.1.8.1,就会报错如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
A USER ERROR has occurred: Mutect stats table  _mutect2.vcf.stats not found.  
When Mutect2 outputs a file calls.vcf it also creates a calls.vcf.stats file.  
Perhaps this file was not moved along with the vcf, 
or perhaps it was not delocalized from a virtual machine while running in the cloud.

gatk官方论坛的意思是,在集群运行的过程中,会丢失后缀为.vcf.stats的文件,所以FilterMutectCalls 命令失败。

如果是Gatk-4.0.3.0,就会报错如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
java.lang.IllegalStateException: Key P_CONTAM found in VariantContext field INFO at chr1:14932 but this key isn't defined in the VCFHeader.  We require all VCFs to have complete VCF headers by default.

但是,我记得我以前写这个软件教程的时候,明明没有出现问题啊,所以就去检查了我的脚本,发现居然是 gatk-4.0.2.1 版本。

如果是是 gatk-4.0.2.1 版本

报错就更诡异了,运行到一半后戛然而止。仔细检查了vcf文件停止的地方,发现它对

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
chr2	112391072	.	GAAA	G,GA,GAA
chr2	131598742	.	CT	C,CTT,CTTT

所以我干脆仅仅是保留SNP吧:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
reference=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta   
GATK=$HOME/biosoft/GATK/gatk-4.0.2.1/gatk
ls $reference $GATK 
ls  *_mutect2.vcf  |while read id
do
sample=$(basename "$id" _mutect2.vcf)
cat $id  | perl -alne '{if(/^#/){print}else{ next if $F[0] =~ "_";print if (length($F[3])+length($F[4])) eq 2   } }'  >  ${sample}_snp.vcf 
$GATK  FilterMutectCalls -R $reference  --java-options  -DGATK_STACKTRACE_ON_USER_EXCEPTION=true  \
   -V ${sample}_snp.vcf   \
   -O ${sample}_filtered.vcf 
cat  ${sample}_filtered.vcf |perl -alne '{if(/^#/){print}else{next unless $F[6] eq "PASS";next if $F[0] =~/_/;print } }' >  ${sample}_pass.vcf 
done

讽刺的是,居然就看到了成功的log日志

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
18:10:54.132 INFO  ProgressMeter - Starting traversal
18:10:54.132 INFO  ProgressMeter -        Current Locus  Elapsed Minutes    Variants Processed  Variants/Minute
18:10:54.504 INFO  ProgressMeter -             unmapped              0.0                   792         128086.3
18:10:54.504 INFO  ProgressMeter - Traversal complete. Processed 792 total variants in 0.0 minutes.
18:10:54.657 INFO  FilterMutectCalls - Shutting down engine
[September 29, 2020 6:10:54 PM CST] org.broadinstitute.hellbender.tools.walkers.mutect.FilterMutectCalls done. Elapsed time: 0.04 minutes.
Runtime.totalMemory()=357564416
Tool returned:
SUCCESS

接下来这些后缀为_pass.vcf 的文件,就需要走vcf2maf流程啦!

vcf2maf流程我前些天在生信技能树已经分享过了,见:mskcc的vcf2maf极简解决方案代码分享

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GATK4完整流程
0定义变量 source activate wes #GATK=~/biosoft/gatk/gatk-4.1.2.0/gatk ref=/mnt/f/kelly/bioTree/server/wesproject/hg38/Homo_sapiens_assembly38.fasta snp=/mnt/f/kelly/bioTree/server/wesproject/hg38/dbsnp_146.hg38.vcf.gz indel=/mnt/f/kelly/bioTree/server/wesprojec
Y大宽
2019/06/13
6.8K0
GATK4的mutect2流程
本来以为肿瘤外显子教程分享完了,经粉丝提醒才发现原来是我在自己的生信菜鸟团博客连载完毕,却没有上传到微信公众号,给大家说一声抱歉,漏掉几个知识点。首先看看GATK4的mutect2和GATK3的相比有哪些改动,图片来源:https://gatkforums.broadinstitute.org/gatk/discussion/10911/differences-between-gatk3-mutect2-and-gatk4-mutect2
生信技能树
2018/07/27
3.1K0
GATK4的mutect2流程
最新最全的mutect2教程
也就是说我搜索到了一个4小时前的教程,取代了之前的一个月前的教程,这,生活太苦了。
生信技能树
2020/09/30
5.6K1
最新最全的mutect2教程
把vcf文件转换为maf格式,肿瘤外显子上游分析教程到此为止
可能还有一些教程我漏掉了,毕竟这些年发布了近万篇教程了,大家直接我去我博客,生信菜鸟团就可以搜索,去我们的论坛,生信技能树里面也可以搜到。
生信技能树
2018/07/27
6.1K0
把vcf文件转换为maf格式,肿瘤外显子上游分析教程到此为止
GATK4的gvcf流程
得到了它们的bam文件,也是走的GATK流程,这里就不多说了。本教程首发于生信技能树VIP论坛:https://vip.biotrainee.com/d/423-gatk4-gvcf
生信技能树
2018/07/27
3.7K0
最新版针对RNA-seq数据的GATK找变异流程
如果你简单谷歌搜索关键词:gatk best practices pipeline rna-seq 会搜索到大量过期的教程:
生信技能树
2019/11/10
2.8K1
使用SNVSniffer软件找somatic mutation
SNVSniffer and synthetic samples are publicly available at http://snvsniffer.sourceforge.net
生信技能树
2020/10/26
9290
使用SNVSniffer软件找somatic mutation
最新最全的varscan 软件找somatic mutation
我在生信技能树发布的很多关于varscan 软件找somatic mutation教程都过时了,如下:
生信技能树
2020/09/29
4.7K0
最新最全的varscan 软件找somatic mutation
WES,WGS等DNA测序数据找变异流程服务
肿瘤或者家系的WES,WGS等DNA测序样品的fastq数据,需要比对到参考基因组并且找变异并且注释,我们仅仅是收取一个计算机资源的费用,800-8000元人民币(根据样品数量不同收费不一样)即可,并且提供全套代码。不管是公共数据集还是你自己的实验测序数据,一样的费用!我们会代替你跑如下所示的流程:
生信技能树
2021/10/21
2.5K0
WES,WGS等DNA测序数据找变异流程服务
mskcc的vcf2maf极简解决方案代码分享
为了写这个教程,我特意在唐医生的共享云服务器上面测试了,从头到尾运行过,验证过,你一定可以follow成功的哈! 首先是安装miniconda https://mirrors.tuna.tsinghu
生信技能树
2020/09/29
3.5K0
mskcc的vcf2maf极简解决方案代码分享
CNVkit的使用方法--肿瘤基因组测序数据分析专栏
在进行肿瘤基因组数据分析时,拷贝数变异分析是常用的分析要点之一。CNVkit 则是用于基因组测序 WGS 和 WES 进行 call CNV 的工具之一,基于python 编写,给出的 CNV 结果相对可靠,操作起来也比较简单。
生信菜鸟团
2021/12/26
8.4K0
CNVkit的使用方法--肿瘤基因组测序数据分析专栏
GATK变异检测
准备的已知变异集作为训练集,可以是 Hapmap、OMNI,1000G,dbsnp,瓶中基因组计划等这些国际性项目的数据,然后利用训练集对每一个位点进行过滤。利用 VariantRecalibrator工具进行机器学习,ApplyVQSR 工具进行处理。VQSR 过滤 SNP 和 InDel 分别进行,首先处理 SNP,得到结果后,再进行 InDel 处理。
生信喵实验柴
2023/09/04
6290
GATK变异检测
体细胞突变的过滤方法--肿瘤基因组测序数据分析专栏
一般来说,肿瘤体细胞突变的分析都要求需要肿瘤与正常配对样本,采用如 MuTect2、MuSE、Varscan2、SomaticSniper、Strelka2 之类的工具来 call 体细胞突变。 对于得到的体细胞突变位点,以 vcf 文件的形式保存,需要进一步过滤,突变过滤主要有以下几种策略:
生信菜鸟团
2022/01/27
5K1
体细胞突变的过滤方法--肿瘤基因组测序数据分析专栏
Strelka2 call Somatic 流程--肿瘤基因组测序数据分析专栏
由 illumina 公司开发,用于突变检测,可以检测 somatic 和 germline ,通常来说,该软件对于小片段的 indel 检测效果比 Mutect2 更好,现在很多文章会使用 Mutect2 + Strelka2 取交集来检测 Somatic Mutation 的方法。这里简单介绍该软件的安装和使用方法。文章发表在 https://www.nature.com/articles/s41592-018-0051-x
生信菜鸟团
2021/11/23
3.9K0
最新的肿瘤突变查找神器lancet试用体验
名字跟大名鼎鼎的柳叶刀期刊撞车,软件主页在:https://github.com/nygenome/lancet
生信技能树
2018/12/14
1.6K0
GATK4 最佳实践-生殖细胞突变的检测与识别
本篇主要关注生殖细胞突变的分析流程Germline SNPs+Indels。示意图如下:
生信修炼手册
2020/05/11
2.5K0
GATK4 最佳实践-生殖细胞突变的检测与识别
把maf格式的somatic突变数据导入annovar去除人群频率变异
首先maf格式的somatic突变数据制作成为annovar软件的输入格式: cut -f 5-7,12,13,1,16 human_brca_all_mutect2.maf |cut -f 2-7 > 1 cut -f 5-7,12,13,1,16 human_brca_all_mutect2.maf |cut -f 1 > 2 paste 1 2 > for_annovar.input ### 共 13027 位点 然后运行annovar软件的批量注释功能 bin=/home/haitaowang/D
生信技能树
2018/09/21
2.2K0
开箱即用版本 满分室间质评之GATK Somatic SNV+Indel+CNV+SV(2024-04-30更新)
测试数据来自2017年卫计委室间质评提供的bed文件(pipeline会自动下载)和测试数据,修改命名以匹配pipeline输入端,也可以替换为自己的数据文件,因为室间质评目前参考基因组还停留在hg19版本,所以本流程仍然使用hg19(GRCH37),如果要切换到hg38,可以将version_reference变量值设置为hg38,project_bed设置为Illumina_pt2_hg38.bed。pipeline会使用hg38(GRCH38)版本和对应的bed文件。
SliverWorkspace
2023/10/07
1.4K0
开箱即用版本 满分室间质评之GATK Somatic SNV+Indel+CNV+SV(2024-04-30更新)
【WGS分析实战-02】从GenotypeGVCFs到获取SNP数据集
上一期见:WGS分析实战-01:从SRA数据下载到构建GenomicsDatabase
生信菜鸟团
2022/05/24
3.4K0
【WGS分析实战-02】从GenotypeGVCFs到获取SNP数据集
GATK4的CNV流程-hg38
至少gatk-4.0.2.1.zip无法走CNV流程,我重新下载了目前最新版的才能顺利运行:
生信技能树
2018/07/27
5.5K0
相关推荐
GATK4完整流程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验