Low pass CNV-seq、arrayCGH、SNParray等用于CNV分析时,通常会得到一些基因组区域(genomic intervals),通常遗传咨询师需要对这些区域的致病性做解读,需要把这些得到的区域注释到OMIM、ClinGen、Clinvar、ExAC cnv、DGV、Decipher等CNVdatabase,最基本的的需求就是得到这些区域的gene Symbol list
本人从ucsc golden path 下载到了hg19版本的refGene(http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/refGene.txt.gz),已经存储到了本地数据库(这不做具体描述)。然后用c语言实现了毫秒级的快速检索。以下是一个CNVseq segment Calling得到的两个copy number gain区间,经过短暂的运行,我们得到了这两个区间的所有gene Symbol list及其基因组坐标(如果一个gene Symbol 有多个refGene records,则取其基因组坐标的并集)。
本人有偿提供此工具,对于企业也可提供REST API
领取专属 10元无门槛券
私享最新 技术干货