前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >snpEff : 突变位点注释的又一利器

snpEff : 突变位点注释的又一利器

作者头像
生信修炼手册
发布2020-05-10 10:01:04
2.9K0
发布2020-05-10 10:01:04
举报
文章被收录于专栏:生信修炼手册

之前的文章中介绍了annovar软件的使用,除了annovar以外,snpEff 也是常用的一款突变位点注释工具。

这款软件基于java语言进行开发,安装过程相对简单,下载之后解压缩即可。本篇对该软件的使用进行一个简介。

1. 查询所有可用的数据库列表

命令如下

java -jar snpEff.jar databases > snpEff.databases.list.txt

目前共有42791个数据库,snpEff.databases.list.txt文件内容如下

给出了物种可用的数据库和对应的下载链接。

2. 下载数据库

human为例,首先查看有哪些数据库

grep -i “Homo_sapiens” snpEff.databases.list.txt | cut -f1

代码语言:javascript
复制
GRCh37.75                                                  
GRCh38.86                                                  
hg19                                                        
hg19kg                                                      
hg38                                                        
hg38kg                                                      
testHg19ChrM

GRCh38.86数据库为例,下载的命令如下

java -jar snpEff.jar download GRCh38.86

下载成功之后,在软件安装目录的data文件夹下,会有一个以数据库名字命名的文件夹,里面就是下载好的所有文件

代码语言:javascript
复制
GRCh38.86/
├── cytoBand.txt.gz
├── interactions.bin
├── motif.bin
├── nextProt.bin
├── pwms.bin
├── sequence.X.bin
├── sequence.Y.bin
└── snpEffectPredictor.bin
3. 进行注释

命令如下:

java -jar snpEff.jar GRCh38.86 examples/test.chr22.vcf > test.chr22.ann.vcf

GRCh38.86代表数据库的名字,test.chr22.vcf为输入文件,输入文件格式为VCF, 内容如下

输出文件test.chr22.ann.vcf内容如下

可以看到,就是在输入文件的INFO列新增了一个字段信息,字段的名字叫做ANN, 关于ANN中各个部分的详细信息可以参考VCF头部的注释部分。默认情况下会给出以下几种信息,以第一个突变位点为例进行说明

1. Allele

突变之后的碱基,第一个突变位点由T碱基突变成了C碱基,对应Allel的值为C

2.Annotation

sequence ontology定义的突变类型,第一个突变位点的downstream_gene_variant在SO系统中的定位如下

如果变异位点属于多个类型时,多个类型之间用&符号连接,比如

intron_variant&nc_transcript_variant

3. Annotation_Impact

对变异位点有害程度的简单评估,取值有HIGH, MODERATE, LOW, MODIFIER 4种,含义如下

4. Gene_Name

基因名称

5. Gene_ID

基因ID

6. Feature_Type

想要分析的特征类型,transcript, motif, miRNA 等

7. Feature_ID

根据Feature Type指定的特征,给出对应的ID

8. Transcript_BioType

转录本类型, 通常采用Ensembl数据库的转录本类型

9. Rank

只有当变异位点位于基因区域时才有值,会给出变异位点所处的exon/intron的编号和该基因的exon/intron的总数,比如一个突变位点位于基因的第3个exon上,该基因一共有12个exon, 对应的Rank的值为3/12 当变异位点位于基因区域以外时,该字段的值为空

10. HGVS.c

采用HGVS标准命名的基因水平的变异情况

11. HGVS.p

采用HGVS标准命名的蛋白质水平的变异情况,只有当突变位点位于编码区是才会有值

12. cDNA.pos/cDNA.length

突变位点在cDNA上的位置/cDNA的总长度

13. CDS.pos/CDS.length

突变位点在CDS上的位置/CDS的总长度

14. AA.pos/AA.length

突变位点在氨基酸序列上的位置/氨基酸序列的总长度

15. Distance

变异位点与最近的特征的距离,当变异位点位于基因间区时,会给出与最近的基因之间的距离;当变异位点位于exon区域时,会给出与最近的内含子边界的距离,不同的情况,距离的定义不同。

16. ERRORS/WARNINGS/INFO

对注释结果的可靠程度进行评估,各种取值代表的含义如下图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 查询所有可用的数据库列表
  • 2. 下载数据库
  • 3. 进行注释
    • 1. Allele
      • 2.Annotation
        • 3. Annotation_Impact
          • 4. Gene_Name
            • 5. Gene_ID
              • 6. Feature_Type
                • 7. Feature_ID
                  • 8. Transcript_BioType
                    • 9. Rank
                      • 10. HGVS.c
                        • 11. HGVS.p
                          • 12. cDNA.pos/cDNA.length
                            • 13. CDS.pos/CDS.length
                              • 14. AA.pos/AA.length
                                • 15. Distance
                                  • 16. ERRORS/WARNINGS/INFO
                                  相关产品与服务
                                  数据库
                                  云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
                                  领券
                                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档