老司机带带你,refGene飞起来~
事情是这样的,由于一份基因诊断报告引发的讨论~
有个医生朋友一直问我为什么这个基因注释为A转录本,而没有注释为B转录本呢?明明B转录本在临床更有意义呀?
哈哈哈~我也好无辜,annovar就把这个位点注释到A转录本了,且只注释到A转录本,没有B转录本啥事儿。也许你会说是不是annovar参数的问题,只输出一个转录本结果?其实不然,该样本其他位点有注释到多个转录本的情况,所以这个情况就排除了。也许你又会问为什么annovar偏偏注释到A转录本呢?来,咱们庖丁解牛挖下annovar的注释原理。
等等,我被标题骗进来看refGene的,怎么变成annovar了呢?骚年~不要急,没annovar怎么注释的refGene吗?你似不似傻?哈哈哈~
采用annovar软件的refGene的运行参数是refGeneWithVer,按照gene过滤(-operation -g)。这时调用的refGene数据库就是如下格式的:
图 1. refGene数据库截图
哈哈,这下你看不懂了吧!因为没有表头~而如果想知道annovar是怎么注释的必须知道每例的意思。重点来了!refGene每例含义速查手册飞起来~
图 2. refGene每例含义
refGene来自UCSC,搜索UCSC进入官网,点击tools -> table browser选择human物种,版本hg38或hg19无所谓。Track选择NCBI Refseq,Table选择UCSC RefSeq(refGene)。点击旁边的describe table schema就可以看到上图的详细注释结果。
具体每例说明如下:
第1列bin:Indexing field to speed chromosome range queries,index查询作用。
第2列name:Name of gene (usually transcript_id from GTF),转录本号。
第3列chrom:染色体号
第4列strand:+ or - for strand,正负链
第5列txStart:Transcription start position (or end position for minus strand item),转录本起始位置(负链转录本终止位置)
第6列txEnd:Transcription end position (or start position for minus strand item),转录本终止位置(负链转录本起始位置)
第7列cdsStart:Coding region start (or end position for minus strand item),编码区起始位置
第8列cdsEnd:Coding region end (or start position for minus strand item),编码区终止位置
第9列exonCount:Number of exons,外显子数量
第10列exonStarts:Exon start positions (or end positions for minus strand item),外显子起始位置(负链是外显子终止位置)
第11列exonEnds:Exon end positions (or start positions for minus strand item),外显子终止位置(负链是外显子起始位置)
第12列score:得分(具体什么得分官网未说明)
第13列name2:Alternate name (e.g. gene_id from GTF),基因名
第14列cdsStartStat:enum('none','unk','incmpl','cmpl')
第15列cdsEndStat:同上
第16列exonFrames:Exon frame , or -1 if no frame for exon
为什么这个位点只注释到这个转录本呢?根据refGene查询结果,
结论:尽管NM_000047转录本有更多临床报道,但本次检测到的位点chrX:2878446-2878447并不在该转录本的编码区范围内,所以annovar只注释了NM_001282631这个转录本。
完美解决~~~~
如果大家有疑问或者更多问题,欢迎后台留言,我们一起切磋哟~记住,你不是一个人在战斗!
我是yyt,爱做白日梦但又付诸行动的双子座
有科研梦想,做项目、看paper
信息分析工程师一枚
专注人类遗传病、肿瘤及表观遗传学分析等
领取专属 10元无门槛券
私享最新 技术干货