在进行孟德尔随机化(Mendelian randomization, MR)研究时,我们最常使用的一个R包就是“TwoSampleMR”,这个包是由“MRCIEU”团队开发的。除此之外,该团队还开发了“PHESANT”这个使用非常广泛的R包以及“open GWAS”这个数据库。
在往期的推送中,米老鼠和大家简单介绍了“open GWAS“这个数据库的使用(如何获取完整的GWAS summary数据(2)------ MRCIEU GWAS数据库),今天我要和大家再介绍一个由”MRCIEU”开发的针对“open GWAS”数据库查询的R包“ieugwasr”。这个包的名字由“ieu”(代表机构),“gwas”(代表研究方法)和“r”(代表研究工具)这三部分组成。看名字我们就大概能知道这是MRCIEU开发的与GWAS研究相关的R包。
废话说了不少,接下来我就和大家先简单介绍一下这个R包的功能:
(1) 以GWAS研究为基本单位,查询单个或者多个GWAS研究(需要指定该研究在open GWAS里的ID号)的基本信息以及显著位点;
(2) 以SNP为基本单位,查询单个或多个SNP的基本信息以及其相关表型(类似于PheWAS技术);
(3) 对SNP进行连锁不平衡(LD)分析;
(4) 以给定的基因组区间为基本单位,查询该基因区间在GWAS中的显著位点或者相关SNP信息。
在具体使用之前,我想先和大家澄清两个概念:GWAS和PheWAS。
这两个概念同“函数与反函数”类似。“GWAS”是全基因组关联研究(genome-wide association study)的简称,主要是把数以万计个SNP作为自变量,单个表型作为因变量进行统计分析,寻找和表型相关的SNP,而“PheWAS”则是全表型组关联研究(phenome-wide association study)的简称,它是在GWAS的基础上去寻找所有和给定SNP相关的表型。简言之,”GWAS“是在大量SNP中寻找和表型相关的SNP,而”PheWAS“则是在大量表型中寻找和SNP相关的表型。
这里的“ieugwasr“包主要是帮助大家进行GWAS和PheWAS结果的查询,其中前者主要使用tophits()这个函数,而后者主要是phewas()函数。除此之外,这个包还有两个非常实用的功能:依据染色体和碱基的位置信息匹配SNP的rsid信息,主要使用variants_chrpos()函数;利用本地数据进行连锁不平衡分析,主要使用ld_clump_local()函数。
关于“ieugwasr”包的具体使用方法可以去官网教程上学习https://mrcieu.github.io/ieugwasr/,进入该网站后点击“Reference”即可查看所有函数及其使用方法,如下图所示:
点进去后如下图所示: