首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >文献导读(二):循环炎症细胞因子与五种癌症的风险:孟德尔随机分析

文献导读(二):循环炎症细胞因子与五种癌症的风险:孟德尔随机分析

作者头像
生信菜鸟团
发布2023-09-09 17:11:02
发布2023-09-09 17:11:02
2.5K0
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

上周是孟德尔随机化的实操,今天我们还是再回到文献中来学习学习——

为什么选这个题? 用了什么方法? 得到什么样的结果和结论?

接下来就以方法学部分为主来进行一个学习的大动作——

1孟德尔随机化,流程图必不可少

2如何选择细胞因子的工具变量

作者团队曾进行过一项研究:从北芬兰 1966 年出生队列(NFBC1966)、芬兰年轻人心血管风险研究(YFS)以及 1997 年和 2002 年的 FINRISK 研究的样本中获得了47种炎性因子的GWAS数据。

这个研究拥有13365个样本:

另外还有两个来源提供了几种炎症细胞因子的公开数据:分别来自Sun的3301个样本Folkersen的21758个样本

ps:这些文章的数据都在补充材料对应的表格里,是可以直接获取的哦~

现在数据源搞定了,该如何选取合适的SNPs呢?

为了获得任意一种细胞因子的最可靠估计值,当GWAS之间的估计值相关性良好时,将这些单核苷酸多态性(SNPs)与芬兰GWAS的估计值汇集在一起,以囊括从 3301 到 31 112 不等的个体。

过程大致如下:

  • 通过对 INTERVAL GWAS 的 beta 系数与芬兰 GWAS 的 beta 系数进行线性回归,检查了 INTERVAL GWAS 和芬兰 GWAS 中相同 SNP-Cytokine 对的 beta 系数之间的相关性重点关注 r 2<0.1 且在两个 GWAS 中至少有一个中 p<10-5 的 SNP
  • 对芬兰和 SCALLOP 全球基因组也进行了同样的分析。
  • 当相关性的 P 值≤0.05 时,估计值被视为相关性良好。
  • 在相关性较好的情况下,首先使用线性回归的截距和β系数将原始 GWAS 转换成与芬兰数据库相同的尺度,然后通过固定效应元分析将相应研究的估计值汇集起来,并用标准差进行权衡。
  • 由于 SCALLOP 和 INTERVAL 在大多数相关细胞因子方面存在重叠(SCALLOP GWAS 包含 INTERVAL 研究),因此没有对所有三个来源进行荟萃分析。

SCALLOP?又是新词儿啊—— [SCALLOP - genetic regulation of the proteome http://www.scallop-consortium.com/)

SCALLOP 联合会(Olink 蛋白质的系统和联合分析)是一个合作框架,旨在发现和跟踪与 Olink 蛋白质组学平台上蛋白质的遗传关联。目前包括来自 45 项队列研究的 7 万多名患者和对照的概括性数据

如果大家对蛋白相关的性状感兴趣的话,可以进一步去了解这个数据库看看~

接下来,为了尽量减少水平多效性(即工具变量通过相关细胞因子以外的性状影响结局)的可能性,我们使用了顺式工具变量,即与其他基因相比,位于编码基因内或靠近编码基因(顺式)的基因变异自然与该基因的表达(以及蛋白质浓度)更为相关。

反式工具变量(从整个基因组中获取)对特定细胞因子的特异性较低,更有可能因多效应功能而无效。因此,我们使用了 Karhunen 等人所描述的两种不同的顺式工具变量定义:

a 顺式蛋白定量性状位点(cispQTL),涉及在相应基因位点上下游延伸 500 kb 范围内存在遗传变异的细胞因子,这些细胞因子与循环细胞因子浓度的相关性 p <1×10-4,这就是我们的主要分析内容 b 顺式表达定量性状位点(cis-eQTL),选择相应基因位点上下游扩展 500 kb 范围内存在变异的细胞因子,这些变异与各组织的基因表达总量(p <1×10-4)和循环细胞因子浓度(p <0.05)均有关联,以复制我们的主要分析结果,并可能捕捉到更多关联.

顺式-eQTL 工具变量可通过基因表达捕捉 pQTL 的效应,但并非所有 pQTL 都由 eQTL 代表。

转录后效应可通过没有相应顺式-eQTL 的顺式-pQTL 工具变量来体现(如蛋白质降解、分泌、清除等),由于每种细胞因子有更多的 pQTL,因此工具变量强度更高。

此外,通过将该区域扩展 500 kb,可以捕获基因外的调控区域,从而提高工具变量强度。

参考基因组:通过UCSC基因组(2019 年 6 月 18 日访问)从人类基因组 19 中提取。

基因表达数据:GTEx Portal(第 8 版)。次要等位基因频率(MAF)>0.05 。

在顺式位点为主的 MR分析的背景下,使用极小的相关性阈值可能会导致因果变异的丢失;因此,使用 r2 <0.1 的成对连锁不平衡(LD)阈值进行了聚类。

3结局数据的来源

五种癌症的数据均来自于文献,可以通过对应的参考文献获取。

4MR分析

使用两套不同的工具变量(顺式-pQTL 和顺式-eQTL)分别进行了分析,以研究循环细胞因子浓度与每种癌症结局风险之间的关联。

当只有单个 SNP 可用于构建工具变量时,则使用系数比方法获得 MR 估计值,并使用一阶权重生成标准误差。

如果有一个以上的 SNP 可用于构建特定细胞因子的工具变量,则使用随机效应逆方差加权 (IVW) MR 方法对工具内单个 SNP 获得的 MR 估计值进行汇总。

为解决多重假设检验问题,我们在主要的 IVW MR 分析中使用 顺序 p 值法估算了经调整的误发现率 (FDR) p 值(q 值)。q 值不大于 10%即为显著。

效应估计值反映了每种细胞因子的自然标度每升高一个标度,癌症风险就会增加多少。

我们还使用了其他几种敏感性分析,即加权中值、ConMix、MR-Egger 和 MR-PRESSO 分析。

为了进一步评估 MR 分析中存在关联证据的工具的潜在多效性,我们使用了 Phenoscanner,这是一个包含基因型与表型关联的数据库。我们搜索了以前报道过的与我们分析中作为工具的任何 SNP 的关联,与炎症特征相关的任何次要表型的关联都被认为是垂直多效性。

5共定位分析

共定位分析评估两个性状之间共享的局部遗传结构,应用一系列算术运算,然后进行统计检验,以评估观察到的重叠或空间接近是否可能是偶然因素造成的。

共定位分析对于价钱MR分析中观察到的关联关系很有价值。

我们采用 Pickrell 等人提出的贝叶斯框架来检测 MR 分析中显著关联(FDR ≤ 10%)的共享因果变异。

对于每一对细胞因子-癌症,我们都使用了在主导细胞因子的遗传变异两侧延伸 25 kb 的基因组区域。

每一对的推定致病细胞因子基因座内的后验概率(PP)大于 0.8 的结果被视为共定位的证据。

在共定位分析中,我们使用组织特异性基因表达数据(例如,对于与肺癌相关的细胞因子,我们对 pQTL 遗传变异与肺组织 eQTL 数据进行了分析),进一步探讨了细胞因子与癌症的重要关联。

所有分析均使用默认先验。

利用英国生物银行(UK Biobank)中的结果数据复制了共定位分析中证实的显著关联(FDR < 10%)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1孟德尔随机化,流程图必不可少
  • 2如何选择细胞因子的工具变量
  • 3结局数据的来源
  • 4MR分析
  • 5共定位分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档