前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基因组研究和变异检测领域的重要工具—GATK初识

基因组研究和变异检测领域的重要工具—GATK初识

作者头像
生信菜鸟团
发布2024-01-06 14:45:45
6250
发布2024-01-06 14:45:45
举报
文章被收录于专栏:生信菜鸟团

工欲善其事必先利其器

1GATK

Genome Analysis Toolkit (GATK) 是一套由Broad Institute开发的用于基因组分析的软件工具。其主要用于处理高通量测序数据,特别是从Illumina测序平台得到的数据。GATK的主要功能包括针对单核苷酸多态性(SNPs)和小型插入删除(indels)的变异检测,质量控制,以及数据处理和分析。

GATK以其强大的变异发现管道而闻名,特别是在人类基因组研究中。其流程通常包括几个步骤:原始数据的预处理,比对到参考基因组,变异检测,以及变异质量的校准和过滤。GATK还提供了一系列工具用于特定分析,如拷贝数变异(CNVs)分析和联合基因分型。

2发表文章

题目:The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing data 期刊:Genome Research 日期:2010/9 作者:Aaron McKenna(亚伦·麦肯纳);【通讯】Mark A. DePristo(马克·德普里斯托) DOI:10.1101/gr.107524.110 简述:介绍GATK初版的基础文章,详细描述了工具包的设计和一些主要功能

题目:A framework for variation discovery and genotyping using next-generation DNA sequencing data 期刊:Nature Genetics 日期:2011/5 作者:Mark A. DePristo DOI:10.1038/ng.806 简述:深入介绍了GATK的变异发现能力,并对质量分数校准和变异过滤进行了详细讨论

题目:From FastQ Data to High‐Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline 期刊:Current Protocols in Bioinformatics 日期:2018/3 作者:Geraldine A. Van der Auwera ;【通讯】Mark A. DePristo DOI:10.1002/0471250953.bi1110s43 简述:详细描述了GATK最佳实践工作流,为用户提供了一套标准的分析步骤,以确保高质量的变异检测

3如何安装

GATK是用Java编写的,通常在github以 zip 压缩包的形式提供可执行的 jar 文件。如果你的系统上安装有合适版本的Java,一般解压即可使用。

github网址

  • https://github.com/broadinstitute/gatk/releases
代码语言:javascript
复制
wget -c https://github.com/broadinstitute/gatk/releases/download/4.4.0.0/gatk-4.4.0.0.zip
unzip gatk-4.4.0.0.zip

## gatk4.4下载后文件大小六百多兆,如果网络太差下载不下来的话,可以选择先下载至电脑,然后上传到服务器
## 613M 1月   5 20:15 gatk-4.4.0.0.zip

安装示例

4简要用途

GATK (Genome Analysis Toolkit) 是一套功能强大的工具 ,用于分析高通量测序(HTS)数据,特别是用于变异发现和基因组分析。单单工具索引界面就有三百多个功能模块,其实大部分我们是用不到的,下面简单列举了GATK可以实现的一些主要分析:

  1. 数据预处理
    • 序列读取质量控制(Quality score recalibration)
    • 重复序列标记(Marking duplicates)
    • 局部实时重排列(Local realignment around indels)
    • 基础质量分数校准(Base Quality Score Recalibration, BQSR)
  2. 变异发现
    • 单核苷酸多态性(SNPs)发现
    • 小型插入和删除(Indels)发现
    • 复杂变异的识别
    • 拷贝数变异(Copy Number Variations, CNVs)分析
  3. 变异处理与过滤
    • 变异质量分数校准(Variant Quality Score Recalibration, VQSR)
    • 硬过滤(Hard filtering)用于变异质量控制
  4. 变异注释
    • 注释变异的影响和功能
    • 识别已知的变异位点
  5. 基因分型和样本相关分析
    • 对单个样本或群体样本进行基因分型
    • 联合基因分型多个样本
    • 群体遗传学分析(如等位基因频率,杂合性等)
  6. 深度学习工具
    • 使用深度学习模型改善变异调用(如DeepVariant)
  7. 其他分析
    • 覆盖度分析
    • 遗传连锁不平衡分析
    • 结构变异检测

5资源准备

在使用GATK进行全外显子测序(Whole Exome Sequencing, WES)分析之前,通常进行一系列准备工作以确保分析的顺利进行和结果的准确性,以人类样本为例,通常需要准备 参考基因组、基因组索引文件、参考基因组注释文件、已知变异位点资源(如:dbSNP数、1000 Genomes Project indels、Mills and 1000G gold standard indels、HapMap、OMNI 2.5M SNP array、ExAC或 gnomAD 等 )

之前可以通过Broad Institute 研究所提供的 ftp 链接下载,但是2020年1月之后已停止访问,目前需要通过有效的谷歌账号在谷歌云下载

  • https://console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0/

资源示例

未完待续...

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1GATK
  • 2发表文章
  • 3如何安装
  • 4简要用途
  • 5资源准备
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档