很多实验室做基因组分析时,经常被 VCF 文件折磨!密密麻麻的列、看不懂的字段,想提取 “变异位置”“样本基因型” ,还在手动复制?
VCF(Variant Call Format)文件存储了染色体位置、突变类型、质量评分等信息。它包含三个部分:
##
开头):描述文件版本、参考基因组等;#
开头):定义各列含义(如CHROM、POS、REF、ALT等);但VCF文件的痛点是信息太分散!比如突变的功能注释(如氨基酸改变)可能隐藏在INFO
字段里,手动提取这些数据犹如大海捞针。
前面我们学习了SnpSift Variant Type,它能快速为VCF文件中的每个变异贴上"身份标签",即为INFO字段添加变异类型,并进行纯合/杂合状态标注。今天我们再来学习这款从从VCF文件一键提取关键数据的工具——SnpSift Extract Fields。 关于SnpSift Variant Type,可阅读文章: 基于VCF标准格式的变异类型注释:通过一键标注,快速筛选基因变异类型
SnpSift Extract Fields跟SnpSift Variant Type一样,是Galaxy云平台(网址:usegalaxy.cn)的独有功能,背后依赖的都是SnpSift、coreutils和perl脚本。
SnpSift Extract Fields能从VCF文件中精准提取指定字段,生成整洁的表格文件(TSV),方便导入Excel或R进行后续分析。
VCF 有 6 个必选字段: 染色体(CHROM)、位置(POS)、ID、参考碱基(REF)、突变碱基(ALT)、FILTER
工具已经默认填好,点击运行直接生成基础表格,再也不用记字段名!
VCF 的 INFO 区藏着耐药基因标记、群体频率等关键信息:
DP
(测序深度)、AF
(等位基因频率),而功能注释则需要EFF[*].IMPACT
(突变影响程度)如果 VCF 有 100 个样本,想单独提取 “样本 1” 的基因型? 输入 FORMAT/GT:Sample1,自动生成该样本的一列数据,做统计超方便!
支持SnpEff生成的ANN
、EFF
等字段的子字段,例如:
ANN[*].EFFECT
(突变效应类型,如错义突变)ANN[*].HGVS_P
(蛋白质水平的HGVS命名,如p.Met29Ser);用[*]
提取所有可能的注释值(例如多个转录本效应)。
提取QUAL
(质量评分)、FILTER
(过滤标签)、EFF[*].GENE
(基因名称),快速筛选高可信度的关联变异。
结合DP4
(测序支持读长数)和AF
(等位基因频率),识别肿瘤样本中的体细胞突变。
自动生成包含HGVS_P
(蛋白质变异命名)的表格,直接用于遗传咨询报告。
在植物基因组VCF中提取ID+FILTER
,筛选通过质量过滤的抗病相关SNP。
从多样本的VCF中提取CHROM+POS+Sample1:GT,Sample2:GT
,比较两个种群的基因型分布。
研究场景 | 典型提取字段 | 分析目标 |
---|---|---|
GWAS分析 | CHROM, POS, RSID, P-value | 定位显著性SNP |
临床诊断 | FILTER, AF, ClinVar_annotation | 筛选致病性变异 |
多组学整合 | ANN.gene_name, SIFT_score | 功能注释与通路分析 |
AF
,就不能输af
INFO/NS,INFO/DP
FORMAT/GT:"Sample Name"
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有