工欲善其事必先利其器
Genome Analysis Toolkit (GATK) 是一套由Broad Institute开发的用于基因组分析的软件工具。其主要用于处理高通量测序数据,特别是从Illumina测序平台得到的数据。GATK的主要功能包括针对单核苷酸多态性(SNPs)和小型插入删除(indels)的变异检测,质量控制,以及数据处理和分析。
GATK以其强大的变异发现管道而闻名,特别是在人类基因组研究中。其流程通常包括几个步骤:原始数据的预处理,比对到参考基因组,变异检测,以及变异质量的校准和过滤。GATK还提供了一系列工具用于特定分析,如拷贝数变异(CNVs)分析和联合基因分型。
题目:The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing data 期刊:Genome Research 日期:2010/9 作者:Aaron McKenna(亚伦·麦肯纳);【通讯】Mark A. DePristo(马克·德普里斯托) DOI:10.1101/gr.107524.110 简述:介绍GATK初版的基础文章,详细描述了工具包的设计和一些主要功能
题目:A framework for variation discovery and genotyping using next-generation DNA sequencing data 期刊:Nature Genetics 日期:2011/5 作者:Mark A. DePristo DOI:10.1038/ng.806 简述:深入介绍了GATK的变异发现能力,并对质量分数校准和变异过滤进行了详细讨论
题目:From FastQ Data to High‐Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline 期刊:Current Protocols in Bioinformatics 日期:2018/3 作者:Geraldine A. Van der Auwera ;【通讯】Mark A. DePristo DOI:10.1002/0471250953.bi1110s43 简述:详细描述了GATK最佳实践工作流,为用户提供了一套标准的分析步骤,以确保高质量的变异检测
GATK是用Java编写的,通常在github以 zip 压缩包的形式提供可执行的 jar 文件。如果你的系统上安装有合适版本的Java,一般解压即可使用。
github网址
wget -c https://github.com/broadinstitute/gatk/releases/download/4.4.0.0/gatk-4.4.0.0.zip
unzip gatk-4.4.0.0.zip
## gatk4.4下载后文件大小六百多兆,如果网络太差下载不下来的话,可以选择先下载至电脑,然后上传到服务器
## 613M 1月 5 20:15 gatk-4.4.0.0.zip
安装示例
GATK (Genome Analysis Toolkit) 是一套功能强大的工具 ,用于分析高通量测序(HTS)数据,特别是用于变异发现和基因组分析。单单工具索引界面就有三百多个功能模块,其实大部分我们是用不到的,下面简单列举了GATK可以实现的一些主要分析:
在使用GATK进行全外显子测序(Whole Exome Sequencing, WES)分析之前,通常进行一系列准备工作以确保分析的顺利进行和结果的准确性,以人类样本为例,通常需要准备 参考基因组、基因组索引文件、参考基因组注释文件、已知变异位点资源(如:dbSNP数、1000 Genomes Project indels、Mills and 1000G gold standard indels、HapMap、OMNI 2.5M SNP array、ExAC或 gnomAD 等 )
之前可以通过Broad Institute 研究所提供的 ftp 链接下载,但是2020年1月之后已停止访问,目前需要通过有效的谷歌账号在谷歌云下载
资源示例
未完待续...