前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >蛋白组泛癌 | Cell | 精准蛋白质基因组学揭示种系变异的泛癌影响

蛋白组泛癌 | Cell | 精准蛋白质基因组学揭示种系变异的泛癌影响

作者头像
生信菜鸟团
发布于 2025-05-09 02:32:29
发布于 2025-05-09 02:32:29
830
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:Precision proteogenomics reveals pan-cancer impact of germline variants
  • 中文标题:精准蛋白质基因组学揭示种系变异的泛癌影响
  • 发表日期:1 May 2025
  • 文章类型:Article
  • 所属期刊:Cell
  • 文章作者:Fernanda Martins Rodrigues | Yige Wu
  • 文章链接:https://www.sciencedirect.com/science/article/pii/S0092867425003447

Highlights

Para_01
  1. 精确肽组学揭示了种系变异对癌症患者蛋白质组的影响
  2. 种系变异影响 PTM 和蛋白质稳定性,并具有等位基因特异性效应
  3. 数量性状位点分析揭示了癌症患者中受种系遗传控制的基因和蛋白质
  4. 多基因风险评分揭示了常见种系变异对癌症蛋白质组的累积影响

Summary

Para_01
  1. 我们研究了种系变异对癌症患者蛋白质组的影响,涵盖了10种癌症类型的1,064名个体。
  2. 我们引入了一种方法,"精准肽组学",将337,469个编码种系变异映射到患者质谱数据中的肽段上,通过利用相关的蛋白数据库,揭示了它们对翻译后修饰、蛋白质稳定性、等位基因特异性表达和蛋白质结构的潜在影响。
  3. 我们识别了可能影响蛋白质组特征的癌症基因中的罕见致病性和常见种系变异,包括改变蛋白质丰度和结构的变异以及影响磷酸化的激酶(ERBB2和MAP2K2)中的变异。
  4. 精准肽组分析预测了信号调节蛋白α(SIRPA)和胶质纤维酸性蛋白(GFAP)中的不稳定事件,分别与免疫调节和胶质母细胞瘤诊断相关。
  5. 全基因组关联研究鉴定了基因表达和蛋白质水平的数量性状位点,涉及数百万个SNP和数千种蛋白质。
  6. 多基因风险评分与风险变异的远端效应相关。
  7. 我们的研究结果强调了种系遗传对癌症异质性和高通量精准肽组学的贡献。

Graphical abstract

Keywords

  • pan-cancer; germline; proteogenomics; precision peptidomics; CPTAC

Introduction

Para_01
  1. 每个人的种系基因组都有数百万种影响生命过程中几乎所有生物学过程的独特遗传变异组合,包括癌症进化。
  2. 许多研究已经证明了种系基因组学从癌症风险评估到开发个性化治疗的重要性。
  3. 对具有高外显率风险基因的易患癌家族的最早期种系基因组学研究已经确定。
  4. 这些目标基因和连锁研究之后是基于阵列的全基因组关联研究(GWAS),这些研究确定了许多与特定组织或泛癌风险相关的常见变异(等位基因频率 [MAF] ≥ 1%)。
  5. 虽然单独来看,常见的风险变异通常具有较小的影响效应,但当它们作为多基因风险评分(PRS)组合时,可以区分出高风险个体。
  6. 此外,许多常见的种系变异在特定组织和肿瘤中调节基因的近端和远端表达,可能具有累加效应。
Para_02
  1. 随着测序技术的发展,现在可以识别出与组织特异性或总体癌症风险、肿瘤发生机制和通路、肿瘤免疫微环境、突变负荷、突变特征、杂合性丢失(LOH)以及癌症发病年龄和生存率等临床变量相关的罕见和低频变异(MAF < 1%),这些变异具有中等到高的穿透力。
  2. 然而,种系变异对癌症蛋白质组和翻译后修饰(PTM)图谱的影响知之甚少,特别是对致癌信号通路及其对癌症形成和演化的影响。
Para_03
  1. 我们分析了泛癌临床蛋白质组肿瘤分析联盟(CPTAC)的数据集,包括基因组学、转录组学、蛋白质组学、乙酰化组学和磷酸化蛋白质组学的数据,以生成精准的蛋白质基因组谱。
  2. 这些数据集为研究种系基因组对分子致癌过程的影响提供了独特的资源。
  3. 综合多组学分析揭示了癌症易感基因(CPGs)中的新疑似致病(P)稀有种系变异。
  4. 此外,这些基因中的常见变异与原发性肿瘤和正常邻近组织(NATs)中肿瘤抑制因子水平降低相关。
  5. 另外,特定蛋白磷酸化和乙酰化位点上的常见种系变异影响了磷酸化和乙酰化水平或导致了新的PTM位点的出现。
  6. 我们的精准肽组学数据还识别了与蛋白质稳定、不稳定或替代产物相关的等位基因特异性蛋白质和PTM(ASP)效应以及种系插入缺失。
  7. 最后,全基因组测序(WGS)和数量性状位点(QTL)分析确定了影响正常和肿瘤组织中蛋白质表达水平的常见变异,从而影响了与癌症相关的通路。
  8. 我们的结果突显了综合多组学方法的力量,可以阐明种系变异在整个癌症表型中的影响,揭示了关于种系基因组作用的重要生物学见解。
  9. 这些发现表明,精准蛋白质基因组学可能有助于患者的风险分层和预防及拦截策略。

Results

Precision peptidomic and PTM analysis of coding germline variants

编码种系变异的精确肽组学和PTM分析

Para_01
  1. CPTAC 提供了一个蛋白质基因组学数据集,其中包括跨越 10 种癌症类型的常见和罕见种系变异。
  2. 我们处理并分析了来自 1,064 份前瞻性收集的肿瘤和匹配血液样本的蛋白质基因组学、临床和人口统计数据,包括:所有 10 种癌症类型的全外显子组测序(WES)、RNA 测序(RNA-seq)、蛋白质组和磷酸化蛋白质组数据;七种癌症类型的全基因组测序(WGS);以及六种癌症类型的乙酰化蛋白质组数据(图 1A)。
  3. CPTAC 还包括来自八种癌症类型配对正常组织的蛋白质基因组学数据(n = 548/1,064 例病例)。
  4. 所有 1,064 份匹配血液样本通过了 WES 质量控制标准,并用于种系变异检测,目标区域的平均覆盖范围在 105× 到 357× 之间,而在优先考虑的 160 个 CPG 列表中的总体覆盖范围在 25× 到 280× 之间(STAR 方法;图 S1A 和 S1B;表 S1)。

图片说明

◉ 图1。CPTAC数据集概述和精确肽组学工作流程(A)CPTAC队列包含来自10种不同癌症类型的1,064名具有不同遗传祖先的个体以及可用的数据类型。顶部分布的颜色代表遗传祖先:非洲(AFR);混血美洲(AMR);东亚(EAS);欧洲(EUR);南亚(SAS)。◉ (B)我们的精确肽组学工作流程,表示在LC-MS/MS数据集上实施Spectrum Mill工作流程以产生肽谱匹配(PSMs),这些匹配检测到蛋白质组、磷酸化蛋白质组和乙酰化蛋白质组数据集中18,599个体细胞变异。◉ (C)基于精确肽数据,概述了癌症类型中受体细胞变异影响的磷酸化(上方)和乙酰化(下方)位点。变异发生在位点附近或直接位于位点,78%的磷酸化位点和84%的乙酰化位点上的体细胞变异位于PTM位点10个或更少的氨基酸以内。另请参见图S1。

图片说明

◉ 图 S1。样本和变异质量控制程序,与图 1 相关(A)整个 CPTAC 队列(n = 1,064)在全外显子组测序目标区域的覆盖分布。用于种系变异调用的外显子组测序样本覆盖度 ≥20×。◉ (B)整个队列中 160 个 CPG 的平均外显子组测序覆盖度。数据表示为平均覆盖度 ± 1 个标准差(平均值 ± 标准差)。◉ (C)在 CPTAC 外显子组测序数据的正常样本中检测到的外显子组种系变异的数量。个体由点表示,颜色根据我们管道预测的遗传祖先进行标记。每种癌症类型的平均变异数量 ± 一个标准差也显示(平均值 ± 标准差)。◉ (D)基于全外显子组测序的变异调用与 dbSnP(第 151 版)的一致性箱线图,显示一致性 >99%。整个队列的整体一致性为 97.43%,TiTv 比率为 2.74。◉ (E)来自外显子组测序和全基因组测序数据集的变异重叠率,针对七种癌症类型。◉ (F)主成分分析(PCA)图显示了基于外显子组测序和全基因组测序的 CPTAC 队列的遗传祖先预测。使用随机森林分类器从外显子组数据对所有 1,064 名个体进行祖先预测(STAR 方法)。在 GBM、HNSCC、LSCC、PDAC 和 UCEC 队列中,有 9 名斯拉夫起源的个体在外显子组测序预测中被错误地分类为 AMR,但在全基因组测序预测中被正确分类为 EUR,并进行了标注(参见 STAR 方法)。◉ (G)直方图展示了蛋白质组(左)、磷酸化蛋白质组(中)和乙酰化蛋白质组(右)中检测到的参考肽和替代肽的肽长度分布。

Para_01
  1. 总共从外显子组测序数据中检测到185,724,997个种系变异(STAR方法)。
  2. 经过筛选和注释,得到27,104,152个种系变异调用(563,036个独特变异)位于外显子区域(约每样本25,474个变异)。
  3. 非洲遗传祖先(AFR)个体显示出每个个体平均外显子种系变异数量最高(30,510个),而欧洲(EUR)血统个体的这一数值最低(25,205个;图S1C)。
  4. 种系外显子组表现出平均转换-颠换(TiTv)比率为2.74%,并与dbSNP的符合率超过99%(图S1D)。
  5. 我们获得了27,104,152个外显子种系变异的祖先(ANC)状态信息(STAR方法)。
  6. 在整个手稿中,我们根据它们的祖先状态,分别使用祖先(ANC)或衍生(DER)等位基因来指代各个变异,而不是分别使用主要和次要等位基因。
Para_02
  1. 我们还评估了非编码变异对来自七个癌症类型的779个CPTAC样本中的基因表达和蛋白质丰度的影响,这些样本具有可用的WGS数据(STAR方法)。
  2. 鉴于我们的WGS数据集的低通量性质,我们使用GLIMPSE27对基因型进行了单倍型分析和插补,使用了1,000基因组计划第三阶段的2,504个无关样本的一组高质量变异,这些样本由纽约基因组中心(NYGC)重新测序至高覆盖率28。
  3. 为了进行质量控制,对七种癌症类型的WGS和WES检测到的变异进行了比较(STAR方法)。
  4. 总体而言,WES和WGS重叠的变异中有94.6%在相同样本中具有相同的基因型(图S1E;表S1D)。
Para_03
  1. WGS数据还被用来确认通过WES获得的遗传祖先预测。首先使用随机森林分类器从WES预测所有个体的祖先(STAR方法),而WGS用于精炼来自胶质母细胞瘤(GBM)、头颈鳞状细胞癌(HNSCC)、肺鳞状细胞癌(LSCC)、胰腺导管腺癌(PDAC)和子宫内膜癌(UCEC)队列中9名斯拉夫血统个体的祖先,这些个体在基于WES的预测中被错误分类,但使用WGS正确分类为EUR(图S1F;STAR方法)。
Para_04
  1. 接下来,我们结合了蛋白质组学和基因组学数据集,使用蛋白质基因组整合工具Quantitative Integrated Library of Translated SNPs/Splicing(QUILTS)29(STAR方法)为每个个体创建了蛋白质序列数据库。
  2. 从WES的总共185,724,997个种系变异中,我们纳入了337,469个映射到Gencode v34参考蛋白质序列的独特患者特异性编码变异(图1B)。
  3. 使用这些数据库进行每个癌症队列的研究,通过Spectrum Mill工作流程(STAR方法)对蛋白质组学液相色谱串联质谱(LC-MS/MS)数据集进行了搜索,从而得到了与参考蛋白质组、种系变异或体细胞突变匹配的肽谱匹配(PSMs)。
  4. 我们在蛋白质组、磷酸化蛋白质组和乙酰化蛋白质组中检测到了18,599个独特的编码种系变异的肽段,其中大多数在队列水平上的频率较低。
  5. 在检测到的变异中,有1,828个存在于多个数据集中,而大多数仅存在于一个数据集中:12,330个在蛋白质组中,4,081个在磷酸化蛋白质组中,360个在乙酰化蛋白质组中(图1B)。
  6. 检查这些变异的位置显示,有8,046个PTM位点(7,353个磷酸化位点和693个乙酰化位点)受到种系变异的影响,其中150个在所有癌症中被检测到,5,459个在单一癌症中被检测到(图1C)。
  7. PTM位点的高度癌症类型特异性模式与我们之前的研究一致,并且表明PTM在组织/细胞特异性调控和信号传导中起着作用。
Para_05
  1. 查看参考等位基因和替代等位基因的肽长度分布(图S1G),无论具体的蛋白质组学数据集(蛋白质、磷酸化或乙酰化)如何,携带替代等位基因的肽倾向于比所有来自参考蛋白质组的肽更长。
  2. 虽然在蛋白质组数据集的子集特定错误发现率(ssFDR)过滤中采用的较高的最小评分阈值会偏向于较长的肽,因为为了保持适当的错误发现率(FDR)水平,较短的肽会被排除,但在蛋白质中的随机变异更可能发生在跨越该蛋白质较大比例的那一段肽中。

Proteogenomic modeling of rare pathogenic and common germline variants

稀有致病变体和常见种系变异的蛋白质基因组建模

Para_01
  1. 与癌症相关的种系变异在机制上可能因等位基因频率(AF)而异:罕见的有害变异通常比常见的有害变异对蛋白质功能的损害更大。
  2. 在这里,我们研究了CPTAC队列中罕见的有害和常见的种系变异的图谱,利用了来自肿瘤和匹配的正常组织样本的多组学信息。
Para_02
  1. 从总计 27,104,152 个外显子体细胞变异中,其中少数是罕见的(1,528,083 个变异;gnomAD AF ≤ 0.05%),其次是低频变异(993,176 个;0.05% < gnomAD AF < 1%),以及常见的变异(24,582,893 个,gnomAD AF ≥ 1%;图 2A)。这些比例与其他大规模的人群基因组数据库相似,例如英国生物样本库(UK Biobank, UKBB)。

图片说明

◉ 图2。稀有致病和常见种系变异对基因和蛋白质表达的影响(A)种系变异筛选和分类方案示意图。紫色框描述了稀有变异的优先处理程序;黄色框显示了常见变异的处理过程。(B)(左)10种癌症类型中稀有致病/可能致病(P/LP)变异的分布情况。(右)在TCGA、gnomAD和UKBB数据集中先前报道过的变异(浅蓝色)或本研究中新发现的变异(深蓝色)的分布情况。(C)P/LP变异携带者的蛋白质基因表达(x轴)和蛋白质丰度(y轴)的分位数。黄色和粉红色阴影表示影响蛋白质水平和基因表达的变异;灰色表示在两者中都有影响的变异。(D)常见种系变异对癌基因蛋白丰度(y轴)和RNA表达(x轴)的影响。效果通过回归模型中的斜率计算得出。点的大小反映了从回归模型中得到的FDR调整p值的-log10值。(E)根据基因型(x轴),在NAT或肿瘤样本中ATM、SDHA和ERCC2的蛋白质水平(y轴)。提供了基因型组之间成对Wilcoxon检验的p值,并以中位数和四分位间距表示数据。(F)ERCC2 K751位置在PDB:6RO4上的映射。蓝色表示残基,灰色表示ERCC2,粉色表示ERCC3,橙色突出显示DNA分子。另见图S2。

Para_02
  1. 考虑到罕见的 P 生殖系变异在癌症易感性中起着重要作用,我们旨在使用 CharGer33(STAR 方法;图 2A 和 S2)识别此类事件。
  2. 我们在 CPGs 中发现了 119 个 P 和可能致病(LP)的变异,影响了 115 名个体(占队列的 10.8%;图 2B)。
  3. 大多数 P/LP 变异很可能代表失活事件(即无义、移码、起始丢失和剪接位点变异;75%,n = 89),其余的为预测有害的错义变异(n = 30;表 S2)。
  4. 这些变异在其他队列(癌症基因组图谱 [TCGA]、gnomAD 和 UKBB)中也被观察到,但频率极低(平均 gnomAD 频率 = 0.0001,平均 UKBB 频率 = 0.0002)。
  5. 此外,34 个变异(29%)仅存在于 CPTAC 队列中(图 2B)。
  6. 我们还观察到,在乳腺癌(BRCA)、结直肠腺癌(COAD)和透明细胞肾细胞癌(ccRCC)队列中,携带者在诊断时比非携带者更年轻(图 S2A)。
  7. 考虑到罕见的 P 生殖系变异在癌症易感性中起着重要作用,我们旨在使用 CharGer33(STAR 方法;图 2A 和 S2)识别此类事件。
  8. 我们在 CPGs 中发现了 119 个 P 和可能致病(LP)的变异,影响了 115 名个体(占队列的 10.8%;图 2B)。
  9. 大多数 P/LP 变异很可能代表失活事件(即无义、移码、起始丢失和剪接位点变异;75%,n = 89),其余的为预测有害的错义变异(n = 30;表 S2)。
  10. 这些变异在其他队列(癌症基因组图谱 [TCGA]、gnomAD 和 UKBB)中也被观察到,但频率极低(平均 gnomAD 频率 = 0.0001,平均 UKBB 频率 = 0.0002)。
  11. 此外,34 个变异(29%)仅存在于 CPTAC 队列中(图 2B)。
  12. 我们还观察到,在乳腺癌(BRCA)、结直肠腺癌(COAD)和透明细胞肾细胞癌(ccRCC)队列中,携带者在诊断时比非携带者更年轻(图 S2A)。

图片说明

◉ 图 S2。致病稀有变异的影响,与图 2 相关 (A) 小提琴图显示了在 10 种癌症类型中携带和不携带罕见致病(P)和可能致病(LP)种系变异的诊断年龄分布情况。◉ (B) 热图显示了在 CPTAC 和 TCGA 队列的联合样本集中,10 种癌症类型中携带 P/LP 稀有变异的样本比例。◉ 具有显著(FDR ≤ 0.05)和提示性(FDR ≤ 0.15)富集 P/LP 变异的癌症基因对分别用黑色和灰色轮廓表示。◉ (C) 图显示了 P/LP 在肿瘤和正常样本中的变异等位基因频率(VAF)的比较,突出显示了在肿瘤中经历纯合丢失(LOH)的变异。◉ 每个点对应一个变异,对角线表示肿瘤和正常 VAF 相等(即中性选择)。绿色表示提示性 LOH(FDR ≤ 0.15);红色表示显著 LOH(FDR ≤ 0.05);蓝色表示统计上不显著的事件。◉ (D) 图显示了从种系 P/LP 变异携带者中提取的蛋白质在正常组织(x 轴)和肿瘤(y 轴)中的蛋白表达量四分位数。

Para_02
  1. 为了评估种系变异在体细胞环境中的影响,我们调查了LOH事件,使用肿瘤-正常数据的等位基因分数来识别基于两次打击假说(STAR方法)在肿瘤中正向选择的变异。
  2. 从119个P/LP变异中,我们观察到21个(17.6%)和11个(9.2%)变异在肿瘤中经历了显著的(错误发现率≤0.05)和提示性的(0.05<错误发现率≤0.15)LOH。
  3. 对于21个显著LOH中的15个(71%),我们观察到通过癌症中显著靶点基因组识别工具版本2(GISTIC2)检测到的相应基因的删除。
  4. 此外,119个P/LP变异中有6个(5%)与同一基因中的非沉默体细胞突变共存。
Para_03
  1. 接下来,我们利用蛋白质和RNA表达数据探索了这119个P/LP变异的分子后果,重点关注了其中65个P/LP变异,这些变异既有可用的RNA水平又有蛋白质水平。
  2. 与功能丧失表型一致,P/LP变异携带者显示出较低的RNA表达和蛋白质水平(相对于整个队列的0.5,癌症类型内的分位数均值分别为0.36和0.29;图2C和S2D)。
  3. 这种现象出现在影响错配修复(MMR)通路成员(PMS2、MSH2和MSH6)的变异上,这些变异与低RNA表达和蛋白质水平相关(表达分位数小于0.25)。
  4. 我们观察到,在那些基因(MSH2 L277∗、MSH6 E744fs、MSH2 Q518∗和PMS2 I611fs)中的5个携带者中有4个也被鉴定为微卫星不稳定性(MSI)高的样本(表S1来自Li等人37),这与核心MMR通路基因的P/LP变异携带者倾向于发展出MSI癌症表型的事实一致。
  5. 大多数变异在基因表达和蛋白质表达的分位数上表现出相似性(rho = 0.49,p = 3.08 × 10−5;图2C)。
  6. 有趣的是,我们还观察到了异常值,包括TP53 M1I、ERCC2 A717G和ATM L1283fs,这些变异与相应基因的高RNA表达但低蛋白质丰度有关,突显了蛋白质组学评估变异功能影响的重要性。
Para_04
  1. 接下来,我们探讨了在我们列出的160个CPG和299个癌症驱动基因中的常见种系变异(gnomAD AF ≥ 1%)的潜在影响(图2D)。
  2. 我们观察到ATM、SDHA和ERCC2中的变异对RNA表达没有可检测的影响,但在携带DER等位基因的肿瘤和匹配的NAT样本中蛋白质水平较低(图2E)。
  3. ERCC2 K751Q与体外较低的DNA修复活性相关,并且在接受化疗的患者中表现出更好的结果,这与DER等位基因降低DNA修复效率一致。
  4. AlphaFold2模型中ERCC2(蛋白质数据库[PDB]:6RO4)的结构比对表明K751可能位于ERCC2和ERCC3之间的结合界面(图2F)。
  5. 结合之前的体外和临床数据以及较低的蛋白质水平,这表明DER等位基因可能会损害复合物的稳定性。
  6. 需要进一步的实验来验证这一假设。
  7. 总之,核心DNA修复机制蛋白的整体较低水平表明,即使这些是常见的变异并且在RNA水平上没有可检测的影响,它们也可能具有重要的临床影响。

Direct, proximal, and distal effects of germline variants on PTM sites

种系变异对PTM位点的直接、近端和远端效应

Para_01
  1. 种系变异可能通过信号通路的失调来介导癌症风险。
  2. 例如,变异可能会改变一个PTM位点,使其失去磷酸化或乙酰化的功能,或者改变使酶能够识别它的基序,从而增加或减少其被修饰的可能性。
  3. 我们探讨了罕见/低频(gnomAD AF < 1%)和常见(gnomAD AF ≥ 1%)错义变异对线性距离上的PTM位点(图3A)共定位、邻近(在5个氨基酸以内)或远离(超过5个氨基酸)的影响。
  4. 对于直接重叠于PTM位点的种系变异,评估了三种情况:(1)PTM位点的丢失;(2)新位点的形成;或者,在磷酸化的情况下,(3)底物的变化,例如丝氨酸变为苏氨酸(图3B)。
  5. 为了专注于编码蛋白质的变异,我们评估了WES中的错义种系变异,以识别与整个队列中两个等位基因匹配的氨基酸相匹配的(磷酸化/乙酰化)蛋白质组学数据集中的参考肽(STAR方法)。
  6. 我们观察到涉及单个磷酸化位点的邻近、远离和直接命中事件共有532,142次,以及涉及乙酰化位点的42,014次事件。
  7. 其中,有1,706个变异直接重叠在一个位点上,4,660个变异邻近,567,790个变异位于同一蛋白质上的一个位点远处(图3C;表S3)。
  8. 大多数与PTM相关的遗传变异(92.6%)与磷酸化位点相关而非乙酰化位点,这反映了在我们的数据集中磷酸化PTM的更高丰度(图1A和图3C)。

图片说明

◉ 图3 基于线性距离的错义种系变异对PTM位点的影响(A) 错义变异基于线性距离可能影响PTM位点的描述:直接命中(与PTM位点共定位);邻近(在5个氨基酸以内);或远距离(位于超过5个氨基酸之外)。使用Biorender创建。(B) 直接命中根据其后果进行分类:丧失、改变和获得。使用Biorender创建。(C) 在CPTAC中检测到的直接、邻近和远距离事件的分布,以及总结了前30个癌症相关基因中直接命中的分布的条形图。◉ (D) 线性模型结果中直接命中事件对NATs(左)和肿瘤样本(右)中全局蛋白水平的影响显著性和效应。点的颜色表示变异后果,形状表示PTM类型。效应(x轴)是回归模型中的斜率,y轴反映了模型中经过FDR调整的p值的-log10值。(E) 邻近或远距离变异对癌症相关基因的磷酸化和乙酰化水平的影响显著性和效应,NATs(左)和肿瘤(右)。顶部和底部分别显示稀有/低频变异(gnomAD AF < 1%)和常见变异(gnomAD AF ≥ 1%)的结果。颜色代表变异距离PTM位点的距离;形状代表PTM类型;大小代表CPTAC队列(泛癌水平)中事件的频率。仅标记未观察到蛋白质丰度差异的事件。HLA-A和HLA-B中的事件从常见变异结果(底部)中移除(见表S3D中完整的测试事件列表和表S3E中的蛋白质丰度差异结果)。效应(x轴)是回归模型中的斜率,y轴反映了模型中经过FDR调整的p值的-log10值。◉ (F) 根据患者基因型状态,邻近(上)和远距离(下)变异位点的PTM水平。提供了基因型组之间成对Wilcoxon检验的FDR调整p值,数据表示为中位数和四分位间距。另见图S3。

Para_01
  1. 关于变异重叠的PTM位点,PTM丢失是最常见的事件:在所有蛋白质中检测到1,578次丢失,而120次获得和8次改变(图3C)。
  2. 其中,在160个CPG列表(表S1)、299个癌症驱动基因(表S3)和624个其他癌症基因(包括ATRX、BRCA1、TP53BP1和PARP4)中共观察到115次丢失和5次获得事件(图3C;表S3)。
  3. 影响这些蛋白质PTM的变体样本与具有参考等位基因的样本相比,在蛋白质丰度上显示出差异(STAR方法)。
  4. 具体而言,位于PTM位点上的16种蛋白质表现出显著的NAT失调,其中14种也在肿瘤中被观察到(广义线性模型[GLM] FDR ≤ 0.05;图3D;表S3)。
  5. 例如,在存在S389N磷蛋白位点丢失等位基因的情况下,我们注意到DEP包含的MTOR相互作用蛋白(DEPTOR)水平有轻微但统计学上显著的增加。
  6. DEPTOR与抑制雷帕霉素靶蛋白激酶(mTOR)复合物1/2(mTORC1/2)有关,S389N变异(rs4871827,gnomAD AF = 0.33)位于DEPTOR和mTOR之间的界面。
  7. 为了了解该变异是否对mTOR通路有更广泛的影响,我们在变异携带者和非携带者之间测试了通路成员蛋白或磷酸化蛋白的变化(STAR方法),因为即使适度的蛋白质丰度变化也可能引发下游效应(表S3)。
  8. 我们发现在HNSCC中MAP2K2 T25磷酸化水平略有下降(广义线性模型[GLM] FDR = 0.0163;Wilcoxon FDR = 0.00097,非携带者与杂合子个体之间;图S3A)。
  9. 在PDAC中,EIF4EBP1在S83/S101和T36/T37位点的磷酸化水平降低(GLM FDR分别为0.02和0.027)。
  10. 此外,DEPTOR S389N纯合子患者在两个EIF4EBP1位点的磷酸化水平最低(Wilcoxon FDR分别为0.018和0.036;图S3B和S3C;表S3)。
  11. EIF4EBP1中的T37位点参与了高磷酸化依赖性的eIF4E结合破坏。
  12. 除了DEPTOR外,还有几个其他重叠的PTM变异显示与通路成员的磷酸化水平相关,包括泛癌队列中的ERBB2 P1170A在PAK1 S220s/T225t磷酸化水平上的关联(GLM FDR = 0.043;图S3D),BRCA中的HLA-B V69A在HSP90AA1 S763s磷酸化水平上的关联(GLM FDR = 0.005;图S3E),以及GBM中的CASP8 D344H在SEPTIN4 S605s磷酸化水平上的关联(GLM FDR = 0.048;图S3F)。

图片说明

◉ 图S3。在含有直接、邻近和远离PTM位点变异的基因中生物通路的富集情况,与图3相关(A-F)邻近和远端PTM变异对属于同一信号通路的其他蛋白磷酸化水平的显著影响。上述数值对应于携带者组之间的成对Wilcoxon检验的FDR值。◉ (A-C) 箱线图显示了DEPTOR S389N种系变异携带者与非携带者在HNSCC(A)和PDAC(B和C)队列中的KEGG mTOR通路(hsa04150)成员磷酸化丰度差异。◉ (D) 箱线图显示了ERBB2 P1170A种系变异携带者与非携带者在泛癌中PAK1 S220/T225位点的磷酸化水平差异。◉ (E) 箱线图显示了HLA-B V69A种系变异携带者与非携带者在BRCA队列中HSP90AA1 S773位点的磷酸化水平差异。◉ (F) 箱线图显示了CASP8 D344H种系变异携带者与非携带者在GBM队列中SEPTIN4 S605位点的磷酸化水平差异。◉ (G) 从MiSigDB标志性集合获得的生物通路富集。◉ (H) 从WikiPathways获得的生物通路富集。

Para_01
  1. 接下来,我们在泛癌水平上量化了近端或远端变异与参考肽上磷酸化/乙酰化丰度差异之间的关联(STAR 方法)。
  2. 对于罕见/低频变异,为了增加统计功效,我们将所有携带近端或远端变异的个体在基因层面合并为一个单一变量(STAR 方法)。
  3. 我们确定了46个变异与近端或远端位点的磷酸化和乙酰化变化有关,其中9个位于癌症基因中(图3E;表S3D),包括MAP2K2 P298L(rs200371894,gnomAD AF = 9.2e-4)与肿瘤和正常组织中S295磷酸化位点的更高磷酸化相关(图3E和3F)。
Para_02
  1. 对于常见的种系变异,我们随后分别分析了每个变异,检测到815个常见的与携带者和非携带者之间磷酸化和乙酰化水平差异相关的近端或远端变异,其中78个事件发生在癌症基因中(图3E;表S3D)。
  2. 一个显著的近端事件是ATRX E929Q(rs3088074,gnomAD AF = 0.3747)变异,该变异与在泛癌水平上肿瘤和NAT样本中S925位点的磷酸化水平降低有关(图3F)。
  3. 这一事件在ccRCC、GBM、PDAC和UCEC中也具有显著性(表S3D)。
  4. 该变异最近被报道为黎巴嫩GBM队列中最频繁的突变之一。52
  5. 类似的效果也在ERBB2近端的T1166磷酸化位点观察到,该位点与P1170A变异(rs1058808,gnomAD AF = 0.60;图3F)相关。
  6. 这种变异的解释存在争议,一些研究报告称它与增加的癌症风险没有关联,53,54,55,56,57,58但其他研究则报告称它与BRCA中HER2蛋白表达的增加、韩国人群中肺癌的风险、60胃癌,61,62上皮卵巢癌以及宫颈癌的风险有关。63,64
Para_03
  1. 我们观察到与MGMT I174V变异相关的S216位点磷酸化减少(图3F)。MGMT在DNA损伤修复中发挥作用。
  2. 据报道,该基因在GBM、结直肠癌和胃癌中有表观遗传改变,65且其丢失与黑色素瘤风险增加有关。66
  3. 然而,这种变异在黑色素瘤中被认为是有害的。67
  4. 此外,S216磷酸化位点的作用尚不清楚。
  5. CASP8中的S315磷酸化程度相对于远端D344H变异(rs1045485,gnomAD AF = 0.091;图3F)表现出相似的模式,这种变异与乳腺癌和前列腺癌的风险降低有关。68,69
  6. 相比之下,具有SBDS I212T变异(rs79344818,gnomAD AF = 0.025)的患者在S233位点的磷酸化水平高于具有ANC等位基因的患者(图3F)。
  7. 在癌症基因中未观察到由于近端或远端事件引起的显著乙酰化差异。
  8. 虽然与癌症相关基因中的PTM-近端事件没有关联的全局蛋白质丰度变化,但52个远端事件表明蛋白质丰度存在显著差异,包括ATM中的D1853N变异、SDHA中的Y629F和V657I变异以及NQO1中的P187S变异(表S3E)。
Para_04
  1. 最后,我们确定了几条在携带PTM邻近事件的蛋白质中富集的癌症相关通路(STAR方法),包括氧化磷酸化和p53通路(图S3G),DNA损伤修复通路,以及特定于GBM、子宫内膜癌、BRCA和头颈癌的通路(图S3H)。
  2. 对于PTM远端事件,我们看到DNA损伤修复通路、Wnt beta-catenin通路以及磷脂酰肌醇3激酶(PI3K)/Akt/mTOR信号传导(图S3H)也有类似的富集现象。
Para_05
  1. 我们的研究结果表明,种系变异不仅与蛋白质水平无关,还可能由于氨基酸环境的变化影响特定蛋白残基上的PTM,从而介导致癌信号通路。
  2. ,

Spatially interacting germline variants, somatic mutations, and PTM sites

空间相互作用的生殖系变异、体细胞突变和PTM位点

Para_01
  1. 蛋白质结构提供了对基因变化功能后果的见解,因为在蛋白质三维(3D)空间中相邻的变异往往与相似的表型相关。
  2. 结构预测算法,如AlphaFold2,提供了所有人类蛋白质的三维模型,使我们能够探索整个蛋白质组中体细胞突变、种系变异和PTM位点在三维空间中的聚集情况。
Para_02
  1. 我们使用了HotSpot3D和HotPho来评估共聚簇事件,使用了来自研究合作结构生物学蛋白质数据库(RCSB PDB)的7,780个人类蛋白质实验结构以及AlphaFold蛋白质结构数据库(AFDB)v4中的19,966个人类蛋白质模型,以及总共123,676个磷酸化位点、23,648个乙酰化位点、183,503个错义体细胞突变和11,962,341个错义种系变异(图4A;STAR方法)。
  2. 我们关注的是位于前5%簇接近度(Cc)分数内的分子内簇,该指标用于评估所研究特征(即遗传变异和PTM位点)的富集程度。
  3. 我们在PDB中发现了210个杂合簇、509个仅突变簇和111个仅位点簇,在AFDB中发现了978个杂合簇、3,126个仅突变簇和731个仅位点簇(图4B和S4A;表S4;STAR方法)。

图片说明

◉ 图4。空间相互作用的错义种系变异、体细胞突变和PTM位点。◉ (A) 基于空间距离,展示错义种系变异和体细胞突变如何与PTM位点相互作用的示意图,显示了HotPho分析的概览,该分析将输入的突变和PTM位点映射到蛋白质结构上。使用Biorender创建。◉ (B) HotPho流程图。使用Biorender创建。◉ (C) (左)在癌症相关蛋白中检测到的AFDB和PDB中的分子内杂交簇的数量。(右)每个杂交簇中直接重叠同一簇内的PTM位点的种系变异和体细胞突变的数量,在线性距离(直接)、5个氨基酸以内(近端),或超过5个氨基酸(远端)。◉ (D) 参与杂交簇检测的样品在AlphaFoldDB结构与未检测到的样品之间的蛋白质水平差异。点表示一个簇,颜色根据涉及的事件类型进行区分。AFDB簇ID显示在蛋白质名称旁边。效果(x轴)是回归模型中的斜率,y轴反映了来自模型的FDR调整p值的-log10。◉ (E) AlphaFoldDB蛋白质结构,显示检测到的簇,用Pymol渲染。从左至右:TP53簇73,946(AFDB: AF-P04637-F1);NQO1簇46,877(AFDB: AF-P15559-F1);SDHA簇62,658(AFDB: AF-P31040-F1)。绿色球代表乙酰化位点;蓝色代表磷酸化位点;红色调球代表体细胞突变和种系变异。变异和位点注释随后是具有该位置事件的个体数量(x1表示一个人)。另见图S4。

图片说明

◉ 图S4。使用HotPho进行的空间聚类分析,与图4相关(A)(上)使用AlphaFoldDB(AFDB)和RCSB PDB数据库结构检测到的杂合、仅突变和仅位点聚类的簇闭合(Cc)分数密度分布。深灰色垂直线表示用于选择分子内聚类的前5% Cc阈值,而浅灰色垂直线表示用于选择分子间聚类的前20% Cc阈值(仅在PDB中检测到)。(下)癌症相关基因(从160个CPGs、299个驱动基因和624个其他癌症相关基因的独特集合)与其它基因的Cc密度分布。◉ (B)使用HotPho从AFDB和PDB结构中检测到的杂合、仅突变和仅位点聚类的数量。每种类别中具有最高聚类数量的蛋白质被标记。聚类类型根据所涉及的事件命名,Mut(G)表示存在种系变异,Mut(S)表示体细胞突变,Mut(G + S)表示同时存在两者。◉ (C)显示在AFDB和PDB中检测到的聚类数量以及每个数据集独有的聚类数量的维恩图。◉ (D)癌症相关蛋白中具有最高Cc分数的聚类在线性蛋白质坐标上的种系变异、体细胞突变和PTM位点(由于HLA-A和HLA-B聚类中的大量突变难以可视化,故未包括)。种系变异用红色突出显示,体细胞突变以灰色小字体表示。◉ (E)显示每种癌症类型中与杂合聚类中的共聚类突变相关的蛋白质显著降低或升高的水平的图表。点代表基因-癌症关联,颜色代表不同的癌症类型,不同的形状表示不同水平的显著性。效应是回归模型中的斜率。◉ (F)DEPTOR蛋白结构(AFDB:AF-Q8TB45-F1),显示涉及推测的PTM丢失种系变异(S389N)的簇18,277。蓝色调的球体表示磷酸化位点;红色调的球体表示体细胞突变和种系变异。变异和位点注释后跟该位置发生事件的个体数量(例如,x1表示一个个体)。

Para_02
  1. 总体而言,PDB和AFDB结构的结果是一致的(图S4B和S4C),在PDB中识别出的56.9%的聚类也在AFDB中被检测到(占AFDB和PDB共同检测到的所有聚类的9.1%)。鉴于AFDB中有更多的结构,该数据库观察到的聚类更多。
  2. AFDB和PDB中富集了具有最多聚类的蛋白质,这些蛋白质高度富集于人类白细胞抗原(HLA)分子中(HLA-DRB5、HLA-DRB1、HLA-A、HLA-B、HLA-DQA1和HLA-C;图S4B),这可能是因为HLA基因具有较高的种系和体细胞变异。
  3. 我们观察到,在前5%的Cc分数中,癌症相关基因中的聚类比其他基因更丰富(图S4A底部)。
  4. 这些蛋白质中的大多数杂交聚类至少涉及一个错义种系变异和磷酸化位点,少数涉及乙酰化位点(图4C),包括TP53、RET、BRCA1、PMS2、POLE、SDHA、IL7R、RBMX、ERBB2和CTNNB1中的聚类。
  5. CTNNB1中有一个与子宫内膜癌相关的聚类,涉及两个磷酸化位点(S33和S29)以及D32和G34位置的一些反复出现的体细胞突变。
Para_03
  1. 大多数杂合簇涉及与PTM位点线性邻近的种系变异。然而,我们的分析还确定了远离这些位点但在三维蛋白质结构中靠近的变异(图4C)。
  2. 我们发现,在簇内的155个种系变异重叠了PTM位点,1,136个靠近变异,以及458个与远端位点共簇的变异。
  3. 其中,一些远端例子出现在癌症蛋白的顶级簇中(图4C和S4D;表S4),包括一个TP53簇(图4E),涉及K132乙酰化位点,这个位点的一些体细胞突变(K132N、K132R)导致其丢失,以及远端种系变异如罕见的P R273H,它影响TP53-DNA结合,促进癌细胞存活。
  4. 这种获得功能的变异也增加了样本中的TP53水平,在泛癌水平上共簇事件的发生率(FDR = 8.75e-22;图4D;表S4C)。
  5. 在BRCA、COAD和GBM样本中,该簇内的变异也观察到TP53水平更高(图S4E;表S4D)。
Para_04
  1. 另一个例子是一个涉及常见P种系变异(P187S)和乙酰化位点K271的NQO1簇(图4E)。
  2. NQO1参与致癌物的解毒,其失调与许多癌症有关。
  3. P187S的存在可以通过降低黄素腺嘌呤二核苷酸(FAD)亲和力和损害蛋白质稳定性来显著降低NQO1活性,增加癌症风险。
  4. NQO1的稳定性与其C末端结构域相关,在那里K271位于。
  5. P187S加速了由K271和其他位点驱动的依赖泛素的蛋白酶体降解,影响多态性和野生型形式的蛋白质。
  6. K271乙酰化也会干扰FAD结合,降低蛋白质活性。
  7. 我们的分析揭示了在泛癌水平上共聚类样本中的NQO1丰度较低(FDR = 6.73e-35;图4D),以及在BRCA、ccRCC、COAD、GBM、HNSCC、肺腺癌(LUAD)和PDAC中存在该簇变异的样本相比非携带者中的NQO1丰度较低(图S4E;表S4D)。
Para_05
  1. 我们还确定了一个涉及种系变异 V657I 并靠近磷酸化位点 T656 的 SDHA 聚类(图 4E)。
  2. 尽管 V657I 在 ClinVar 中被分类为良性,但研究表明它可能在嗜铬细胞瘤/副神经节瘤、肾细胞癌和胃肠道肿瘤中的致病性。
  3. 支持这一点,我们在泛癌水平上观察到共聚类样本中的 SDHA 水平显著降低(图 4D 和 S4E;表 S4C)。
  4. 我们还观察到一个涉及种系变异重叠 DEPTOR 的 S389 磷酸化位点(S389N)的聚类,该变异也在我们对直接命中事件的分析中被检测到(图 3D 和 S4F)。
  5. 这个聚类优先考虑了一个附近的磷酸化位点(Y385)和体细胞突变(R386W、V388M 和 L393V),并且似乎与泛癌水平上共聚类样本中 DEPTOR 蛋白水平的小但具有统计学意义的增加有关(图 4D;表 S4C)。
  6. 功能研究将有助于进一步调查该变异的影响。
  7. 综上所述,我们的三维空间聚类分析可以帮助优先考虑可能影响癌症易感性的变异和 PTM 位点。

ASP effects revealed by precision peptidomics

通过精确肽组学揭示ASP效应

Para_01
  1. 遗传变异可能导致一个等位基因优先表达,这种现象称为等位基因特异性表达(ASE)与癌症和其他疾病有关。
  2. 尽管已经探索了等位基因对蛋白质的特异性影响,但对于种系变异的等位基因特异性表达在泛癌水平上尚未广泛使用蛋白质组学进行研究。
  3. 我们评估了ASP表达,重点关注癌症基因变异的杂合子携带者(图5A)。

图片说明

◉ 图5。等位基因特异性效应对基因、蛋白质和PTM表达的影响(A)从杂合子患者获取数据用于等位基因特异性表达(ASE)分析的示意图(GT,基因型;WES,全外显子组测序;MS,质谱)。◉ (B) 肿瘤和NAT样本中10个队列中频率大于50%的主要ASE事件。点的颜色表示频率,大小表示相应队列中的ASE事件数量。y轴表示数据类型(RNA或蛋白质组学),如果是RNA,则表示癌症和样本类型(肿瘤或NAT)。◉ (C-E) 评估ASE对基因、蛋白质和PTM表达的影响。(左)CHD4 D139E在肿瘤(C)和NAT(D)中的祖先(ANC)和衍生(DER)等位基因的读取计数,以及CHD4 D139E在肿瘤(E)中的TP53 P72R。◉ 点代表单个样本,颜色表示显著性(FDR≤0.05)对祖先(ANC)(红色)或衍生(紫色)等位基因的偏好。CHD4 D139E的祖先等位基因偏好高的样本用深红色表示。◉ (右) 衍生等位基因CHD4 E139(磷酸肽序列:RKEEEEEEDDDDDsKEPK),祖先等位基因CHD4 D139(磷酸肽序列:RKEEEEEDDDDDDsKEPK),以及衍生等位基因TP53 R72(肽序列:MPEAAPR和(R)VAPAPAAPTPAAPAPAPSWPLSSSVPSQK,只有在R72时才可能产生)。◉ (E)(右下)TP53 R72等位基因的RNA-seq VAFs。◉ (F) 影响相应基因的CNVs在具有ASE的样本中的分布。另见图S5。

Para_01
  1. 我们通过计算CPTAC中所有HET个体肿瘤和NAT RNA表达数据中的ANC和DER等位基因的读取计数,采用经典方法检测ASE,重点关注在蛋白质组、磷酸化蛋白质组或乙酰化蛋白质组数据集中检测到的17971个癌症相关基因中的变异(STAR方法;图1B)。
  2. 我们在肿瘤样本中检测到17,971个ASE实例,在NAT样本中检测到4,057个ASE实例(FDR < 0.05;表S5),分别影响了184个和101个基因(图5B)。
  3. 为了评估ASE对蛋白质组的影响,我们将每个ASE事件中偏好ANC与DER等位基因的样本之间的蛋白质和PTM丰度进行了比较。
  4. 从45个在不同癌症类型样本中频繁观察到的ASE实例(图5B)中,23个(51%)显示出蛋白质和/或PTM丰度的显著和提示性差异(FDR < 0.2)(图S5A和S5B;表S5E)。
  5. 为了探索生殖系变异ASE对蛋白质相互作用的影响,我们将具有ASE生殖系变异的蛋白质相互作用伙伴的蛋白质和PTM丰度在偏好ANC与DER等位基因的样本之间进行了比较。
  6. 总共,我们观察到7个PTM和7个蛋白质与那些ASE事件相关(FDR < 0.2;表S5)。

图片说明

◉ 图S5。ASE效果的蛋白质基因组特征,与图5相关(A)点图显示了对相应基因的蛋白质和/或PTM水平具有显著或暗示性影响(错误发现率<0.2)的ASE事件。大小对应于样品偏好ANC等位基因与偏好DER等位基因之间的log2(倍数变化)绝对值。颜色对应于两组样品之间观察到差异的错误发现率显著性水平。比较分别针对含有REF或ALT等位基因的磷酸化位点、含有ALT等位基因的肽段以及含有REF等位基因的蛋白质进行。(B)小提琴图显示了PARP4 S1306 P1328T(左)和TP53BP1 S371 E358D(右)变异的DER和ANC等位基因磷酸肽表达量(第一行和第二行)以及肿瘤中ANC等位基因的RNA测序VAF(第三行)。(C)密度图显示了在肿瘤和NAT样本中检测到的每份样品ASE数量分布。虚线对应于这两组每份样品平均ASE数量。(D和E)小提琴图显示了NAT(D)和肿瘤(E)中三组HET样品中ANC等位基因的RNA测序VAF:偏好ANC等位基因、偏好DER等位基因或对任一等位基因没有偏好。(F)CHD4磷酸肽RKEEEEEDDDDDDsKEPK在S145处被磷酸化,包含种系变异E139D(ENSP00000496634-E139D_S145s),在10/25个PDAC TMTplex中检测到的最佳评分代表性PSM的MS/MS光谱。(G)小提琴图显示了TP53 P72R变异的三组HET样品中磷酸化位点表达量分布:偏好ANC等位基因(P72)、偏好DER等位基因(R72)以及对这两个等位基因都没有偏好。(H和I)散点图显示了CHD4 D139E(H)和TP53 P72R(I)变异的ANC和DER等位基因的读取计数。每个点代表一个个体样本,颜色表示该样本是否具有CHD4(H)或TP53(I)的扩增(AMP)或缺失(DEL)。◉ ASE事件使用双侧二项检验检测,零成功的概率为0.5,在伯努利实验中。提供了错误发现率调整后的p值。◉ (H和I)散点图显示了CHD4 D139E(H)和TP53 P72R(I)变异的ANC和DER等位基因的读取计数。每个点代表一个个体样本,颜色表示该样本是否具有CHD4(H)或TP53(I)的扩增(AMP)或缺失(DEL)。

Para_01
  1. 我们观察到肿瘤中的ASE事件数量高于NAT,这与之前的发现一致。121,127
  2. 在考虑到NAT样本较少的情况下(图S5C),肿瘤中ASE的更高发生率可能是由于遗传因素,包括拷贝数变异(CNVs),而NAT ASE应该富集表观遗传调控的事件。128
  3. 肿瘤独有的ASE事件包括与DNA损伤反应和细胞周期相关的基因变异,例如AURKB T299M、MLH1 I219V、PARP4中的变异以及BRCA和卵巢高级别浆液性癌(HGSC)患者中的BRIP1 S919P变异。
  4. BRIP1参与同源重组途径,这两个癌症中该途径经常发生改变。129
Para_02
  1. 常见的人体遗传变异也可能导致等位基因特异性表达。
  2. 这就是 rs1639122(gnomAD AF = 0.4)中的 D139E,CHD4 是一种调节 DNA 损伤反应的染色质重塑酶(图5C和5D,左;图S5D–S5F)。
  3. D139E 影响了 CHD4 的高迁移率组(HMG)类结构域,该结构域对 DNA 结合和核小体重塑至关重要。
  4. 为了剖析其 ASP 效应,我们将杂合个体分为倾向于祖先(ANC)或衍生(DER)等位基因的组,以及根据基因表达数据没有等位基因倾向的组(STAR 方法)。
  5. 我们定义覆盖衍生等位基因的读取数小于等于 10 的个体为倾向于祖先等位基因的组(图5C和5D,深红色)。
  6. 我们的结果显示,在肿瘤样本中,含有衍生等位基因的 CHD4 S145 肽段相对于倾向于祖先等位基因的样本更丰富(|log2(倍数变化)| = 1.36,Wilcoxon 秩和检验 p = 0.001;图5C和5D,右;表S5E)。
  7. 在倾向于祖先等位基因与衍生等位基因的样本之间,这种差异甚至更大(|log2(倍数变化)| = 4.23,Wilcoxon 秩和检验 p = 1.91 × 10^-10;图5C和5D,右)。
Para_03
  1. 在仅肿瘤的ASEs中,我们观察到了TP53 P72R变异(rs1042522,gnomAD AF = 0.67;图5E),该变异在癌症研究中被广泛研究,并显示出影响细胞凋亡、细胞周期阻滞和DNA损伤修复的作用。
  2. 我们在肽段和磷酸化位点水平上识别了这一变异(图5B),并注意到ANC等位基因或DER等位基因的ASE频繁出现,分别占33%和20%。
  3. 我们还识别了几种TP53靶标蛋白的磷酸化位点,这些位点在样品中有显著(FDR < 0.05)和提示性(FDR < 0.1)的差异,倾向于P72等位基因而非R72等位基因,包括MAP4 N86nS94sT101t,WRAP53 S54s,以及ARFGEF2 S227s(图S5G;表S5F)。
  4. 最后,我们评估了在我们的队列中有多少ASE是由CNV事件驱动的(图S5H和S5I),并发现许多具有ASE的样品同时携带有相同基因的CNV(图5F),这可以解释为什么肿瘤中的ASE事件比NAT样品中的更高。
  5. 我们的发现突显了精准蛋白质组学在评估等位基因特异性事件的影响方面的强大作用。

The influence of germline indels on protein stability

种系插入缺失对蛋白质稳定性的影响

Para_01
  1. 精准蛋白质基因组学能够检测蛋白质破坏和稳定插入和缺失(indels),这是癌症中未被探索的种系效应。
  2. 我们在CPTAC中识别了103,428个"高影响"种系indels(STAR方法),其中最频繁出现的indels发生在非癌症基因中(例如SIGLEC12、ZNF598、ZAN和OR2T35;图6A)。
  3. 在癌症基因中,我们观察到KMT2C中有大量indels,这是一种与多种癌症类型相关的甲基转移酶,通常通过体细胞截短单核苷酸变异(SNVs)或indels发生(图6A)。
  4. 所有KMT2C indels都是杂合的,表明半合子不足。
  5. 在与癌症相关的基因中还发现了其他常见的indels,如SETBP1、TGIF1和CBWD3,这与已知的种系indel效应一致。

图片说明

◉ 图6. 生殖系插入和缺失变异对蛋白质表达的影响(A)每个基因的插入缺失总数,突出显示最常见的癌症基因(主图)以及所有可能基因中的前21个基因(内图)。蓝色和橙色分别表示纯合子(HOM)和杂合子(HET)突变计数。(B)两条密度曲线展示了生殖系插入缺失相对于外显子的位置和丰度。倒数第二外显子接头(EJ)图显示了相对于最后一个EJ的倒数第二外显子中的外显子突变:>50和<50 bps。注释的框内插入缺失用黑色表示,移码插入缺失用红色表示。(C)携带SIRPA插入缺失的样本与非携带者的Lolliplot和分面肽比较。Lolliplot左右两侧的箱线图分别对应突变上游和下游的肽段。数据以中位数和四分位距表示。仅显示LSCC样本。(D)类似于(C),但强调GBM患者的突变。(E)GBM队列中每个样本的基因表达和蛋白质丰度。点根据插入缺失突变状态着色。边缘显示蛋白质丰度和基因表达的数据密度。(F)类似于(C)和(D),但针对GBM队列中的GFAP插入缺失。另见图S6。

Para_01
  1. 提前终止密码子位于最后一个外显子接头(EJ)上游超过50个碱基对(bps)可能会通过EJ复合物(EJC)触发比那些距离最后一个EJ不到50个碱基对更高的无义介导衰变(NMD)。
  2. 与这一模型一致,我们观察到根据距离最后一个EJ的远近,在不同癌症类型中,同框和移框突变的数量发生了显著变化(图6B和S6所示)。
  3. 有趣的是,在距离最后一个EJ不到50个碱基对的范围内,没有观察到与癌症相关的基因发生移框事件,而在距离最后一个EJ最后50个碱基对内的34个与癌症相关的基因中存在同框插入缺失。
  4. 在这34个基因中,NCOR2(30个样本)频繁出现同框缺失。
  5. 作为预测的肿瘤抑制基因,NCOR2招募HDAC3以促进组蛋白去乙酰化。
  6. 在接近倒数第二个EJC的癌症基因中不存在种系移框事件,这表明这些变异在癌症基因中的耐受性较低。

图片说明

◉ 图 S6。与图 6 相关的 EJ 模型和 moLDA 概述(A)类似于主图 6,展示了每种癌症类型中首、中、末三个外显子的 EJ 模型。还显示了距离最后一个外显子 50 碱基对内的两个倒数第二个区域以及距离最后一个外显子超过 50 碱基对的区域。(B)每种癌症类型的 moLDA SVD 得分的平方根归一化分布。垂直阈值设定为泛癌中得分最高的前 2.5%。(C)超过 SVD 阈值且涉及多种癌症类型的基因。(D)CPNE1 在 LUAD 中的 moLDA 结果。x 轴为对数归一化的 RNA-seq 基因表达量,y 轴为蛋白质丰度。每个点代表该癌症类型的一个肿瘤。(E)与(D)相同,但针对 LSCC 中的 OAS1 基因。(F)与(D)相同,但针对 HNSCC 中的 ITIH1 基因。

Para_01
  1. 为了评估肽水平上的基因内变异性,我们开发了方法来检测具有可变稳定性的蛋白质。我们比较了常见插入缺失(indels)上下游聚集的肽表达,确定了45种在indel位点肽丰度有显著差异的蛋白质(STAR方法;表S6)。例如,信号调节蛋白α(SIRPA;编码CD47受体)中的插入缺失rs139878822改变了LSCC和GBM中的肽丰度(图6C和6D)。值得注意的是,在indel上游的ELIYNQK肽与SIRPβ和SIRPγ具有100%的蛋白质序列同一性,这可能有助于该单一肽在上游的更高丰度。SIRPα参与丝裂原活化蛋白激酶(MAPK)级联的负调控以及CD47介导的"别吃我"免疫信号级联。我们的结果表明,携带插入缺失rs139878822的个体可能获得了一个截断SIRPA第一个免疫球蛋白结构域的替代起始位点。
Para_02
  1. 使用多组学线性判别分析(moLDA),我们发现了与蛋白质丰度和RNA表达之间的预期关系存在强烈偏差的突变(STAR方法)。
  2. 这揭示了45个在各种癌症类型中具有异常moLDA评分的基因,例如CPNE1、OAS1、CARD8、CASP7和ITIH1(图S6)。
  3. 我们强调了GBM肿瘤中星形胶质细胞纤丝酸蛋白(GFAP)的3'非翻译区(3′UTR)中的常见变异与蛋白质表达之间的一种新关联(图6E,顶部x轴)。
  4. 在RNA表达水平上,插入缺失携带者与非携带者之间没有可检测到的关联,但在蛋白质丰度方面却发生了剧烈变化(图6E,右侧y轴,Welch’s t检验p值= 1.323 × 10−8)。
  5. 这种在GFAP的UTR中发现的关联以前未被报道过,可能是因为它对RNA水平没有影响,并且在这种疾病中蛋白质组学数据稀缺。
  6. GFAP是GBM的一个关键生物标志物145,也是一个‘有前景的治疗靶点’146。
  7. 肽水平上的携带者与非携带者分解表明整个蛋白质的丰度和稳定性都有所增加(图6F)。
  8. 此外,miRWalk,一种miRNA结合预测工具,表明在这个插入缺失位点上miR-137具有强烈的结合。
  9. 总的来说,这些分析强调了多组学整合在将基因组、表达和蛋白质组变化与癌症机制联系起来方面的实用性。

Omics-wide association of common germline variants and ANC variants with proteomics impacts

常见种系变异和ANC变异与蛋白质组学影响的全组关联分析

Para_01
  1. 大多数种系变异发生在基因组的非编码区域,这些区域调控细胞过程。
  2. 为了描述它们对基因表达和蛋白质丰度的调控影响,我们进行了数量性状位点(QTL)分析。
  3. 基于来自血液的全基因组测序(WGS)样本进行了种系变异调用,随后使用NYGC千人基因组项目基因组进行插补。
  4. 在ccRCC、HNSCC、LSCC、LUAD和PDAC的正常组织(NAT)和肿瘤中映射了影响转录物(eQTL)和蛋白质(pQTL)丰度的数量性状位点(图7A和7B;表S7A)。
  5. 我们观察到大约5%和10%的总测试基因(eGenes)的表达水平以及大约4%和5%的总测试蛋白质(pProteins)的丰度水平分别与肿瘤和正常组织中的WGS种系变异相关(表S7)。
  6. 此外,在肿瘤和正常组织中,分别约有12%和15%的pQTL也是eQTL。

图片说明

◉ 图7。使用WGS对肿瘤和正常样本进行eQTL、pQTL和多基因风险评估(A)共享的e基因数量(具有显著eQTL的基因)。◉ (B)不同癌症类型的正常组织和肿瘤组织中的p蛋白质(具有显著pQTL的蛋白质)由UpSetR图表示(前40名)。星号表示由于样本数量有限,未对正常样本进行eQTL分析。◉ (C)来自Pan-CPTAC(CCRCC、HNSCC、LSCC和LUAD)比较的正常组织和肿瘤之间的e基因和p蛋白质的交集。◉ (D)LUAD肿瘤样本中与ERAP2相关的所有顺式eQTL和-pQTL的p值。插图突出显示了rs2927608等位基因对ERAP2 RNA表达(顶部)和蛋白丰度(底部)的影响。◉ (E)不同癌症类型的正常组织和肿瘤中ERAP2的eQTL和pQTL的共定位结果(PP:支持每个假设的后验概率;H0:没有因果变异;H1:仅对RNA表达的因果变异;H2:仅对蛋白丰度的因果变异;H3:不同的因果变异;H4:eQTL和pQTL的共同因果变异)。◉ (F)GTEx肺部和CPTAC LSCC正常组织(顶部)以及LUAD正常组织(底部)之间常见顺式eQTL的β系数比较(1% FDR)。◉ (G)基于文献的多基因风险评分(PRS)在CPTAC PDAC样本上计算并与正交数据集进行比较。数据表示为中位数和四分位间距。与"癌症CPTAC"和"对照UK Biobank"相比的统计显著性p值(t检验)。◉ (H)估计复发自由生存率(顶部)和总体生存率(底部)的Kaplan-Meier图,针对高PRS和低PRS样本。◉ (I)与PRS相关的蛋白丰度变化,突出显示邻近基因(品红色)的变化小于远端基因。◉ (J)GSEA显示,高PRS样本富集于适应性免疫系统和RAF/MAPK级联中的基因。◉ (K)我们主要发现的gnomAD ANC等位基因频率(AF),按描述的部分分类。顶部注释显示总体gnomAD AF,按罕见和常见种系变异分类(左:gnomAD AF ≤ 0.05%,右:gnomAD AF > 0.05%)。y轴显示ANC人群。另见图S7。

Para_01
  1. 泛癌分析确定了237个在我们研究的所有正常组织和癌症中共享的e基因和47个p蛋白质,表明存在跨组织数量性状位点(图7C)。
  2. 有趣的是,ERAP2、HLA-DQB1和PPIL3在所有正常组织和癌症中,在基因表达和蛋白质水平上都受到种系遗传控制。
  3. 为了确定这三个基因的因果遗传变异是否相同,用于转录表达和蛋白质丰度,我们对所有eQTL-pQTL顺式配对进行了贝叶斯共定位测试。
  4. 我们发现对于ERAP2(图7D),相同的变异体驱动了eQTLs和pQTLs(图7E)。
  5. 我们也展示了最低p值顺式SNP(rs2927608)对ERAP2的影响(图7D)。
  6. 类似地,在HLA-DQB1和PPIL3中,我们观察到在大多数正常组织和肿瘤组织中,eQTLs和pQTLs共享相同的因果变异(表S7F)。
  7. 作为阳性对照,我们将LSCC和LUAD的正常组织和肿瘤组织的顺式eQTL与来自基因型-组织表达(GTEx)联盟的正常肺部eQTL数据进行了比较(图7F;表S7G),结果显示约60%的eQTLs(约65%的e基因)和约50%的eQTLs(约60%的e基因)在正常组织和肿瘤中也被GTEx在1%的假发现率下识别出来。
  8. 此外,在两个肺部GTEx和我们的肺部正常组织中,超过95%的常见顺式eQTL具有相同的等位基因效应(β方向)。
Para_02
  1. 鉴于它们在组织和组学数据集中的普遍性以及它们在其他与免疫相关的疾病中的疾病风险中的作用,我们测试了ERAP2、HLA-DQB1和PPIL3的表达是否与患者生存相关。
  2. 确实,ERAP2和HLA-DQB1的表达与HNSCC的整体生存率呈正相关。
  3. 请注意,110名HNSCC个体中有109名是HPV阴性的。
  4. 此外,我们在TCGA HNSCC队列中观察到了相同的趋势(图S7A)。

图片说明

◉ 图 S7。与图 7 相关的生存曲线和 PRS 分布(A)基于 ERAP2 和 HLA-DQB1 表达以及 CPTAC 和 TCGA 喉鳞状细胞癌队列中的总生存率的 Kaplan-Meier 生存曲线。(B)多基因风险评分(PRS)分布。对于 6 种癌症类型,我们使用每种特定癌症类型中最大规模的全基因组关联研究(GWAS)发现的常见风险变异,在 CPTAC 个体中计算了 PRS。这些值与三个其他组的 PRS 分布进行了比较,分别是(1)CPTAC 个体中剩余癌症类型的 PRS("CPTAC"),(2)UKBB 中被诊断为任何癌症类型的个体("Ukbb_cancer"),以及(3)其余 UKBB 个体("Ukbb_controls")。每个癌症类型分别提供了与 CPTAC 和 Ukbb_controls 进行比较的统计显著性 P 值(t 检验)。◉ For 6 cancer types, we calculated the PRS in the CPTAC individuals using common risk variants discovered by the largest GWAS available in each specific cancer type.

Para_02
  1. 我们使用先前全基因组关联研究(GWAS)发现的变异来计算PRSs,以评估CPTAC参与者中的个人风险的总体影响(表S7H)。
  2. 对于GBM、LSCC和PDAC,与CPTAC中的其他癌症类型以及来自UKBB的健康对照相比,PRSs与癌症诊断相关(图7G和S7B)。
  3. PRSs还通过疾病复发和总体生存率在PDAC中表明的疾病侵袭性对患者进行了分层(图7H;LSCC中观察到相同模式)。
  4. 考虑到PRSs的潜力,并且大多数来自GWAS的风险变异是非编码的,我们对其对肿瘤蛋白质组的调控影响进行了表征。
  5. 我们在控制临床、人口统计学和分子协变量的情况下,模拟了PRSs对蛋白质丰度的影响。
  6. 我们观察到少数蛋白质与PRS相关(图7I),这表明在CPTAC中单个蛋白质水平上的影响有限。
  7. 然而,通过基因集富集分析(GSEA)对这些结果进行基于通路的近似显示,几个生物学过程显著过表达(图7J;表S7I),
  8. 这表明遗传风险具有累积效应,这种效应在某些生物学过程中汇聚,而不是在特定蛋白质上产生大的改变。
  9. 抗原呈递是与PDAC常见风险相关的顶级通路之一,这与泛癌免疫研究估计的高遗传性一致,此外还包括血小板功能和L1细胞粘附分子(L1CAM)相关的神经微环境重塑。
  10. 常见变异也影响RAS/MAPK通路的蛋白质水平,该通路在96%的胰腺导管肿瘤中发生突变。
Para_03
  1. 我们还调查了该研究中的变异是否在不同遗传背景下的流行率上有所差异。
  2. 虽然我们的分析已经将祖先作为协变量进行了考虑(STAR 方法),但我们认识到某些变异在不同遗传背景的人群中的频率可能有所不同。
  3. 为了探讨这一点,我们从我们的分析中选择了大约150个统计显著的变异,并使用gnomAD比较了与CPTAC相关的各群体的祖先特异性等位基因频率:混合美洲血统(AMR)、东亚(EAS)、非芬兰欧洲(NFE)和南亚(SAS)。
  4. 我们观察到一些变异在五个祖先群体中有不同的等位基因频率,而另一些则在所有群体中表现出一致的等位基因频率(图7K)。
  5. 例如,截短的SIRPA插入缺失在东亚人群中更为常见,而表现出强烈ASE的CHD4 E139D变异在非洲人群中更为频繁。
  6. 相比之下,像QTL分析中HLA-DQB1的顶级SNP(rs9273472)和CASP8 D344H这样的变异,它们影响了一个远端磷酸化位点,在gnomAD中显示出所有祖先群体中相似的等位基因频率。

Discussion

Para_01
  1. 虽然大多数癌症基因组研究集中在体细胞突变上,但在癌细胞中,种系变异的数量远远超过了体细胞突变。
  2. 这些变异的组成是独特的,它们在致癌过程和癌症进化中的作用仍然知之甚少。
  3. 我们利用CPTAC队列中多种癌症类型来探索通过多组学层面(从DNA到RNA、蛋白质丰度和PTM)种系变异对与癌症相关基因的影响。
Para_02
  1. 为了评估编码变异及其与同源蛋白质(和PTMs)的关联,我们使用了精确肽组学,即从个体患者中量化携带遗传变异的肽。
  2. 整合大规模蛋白质组学和转录组学数据与种系变异,我们得出了关于编码变异效应的机制推断。
  3. 在肿瘤和NAT样本中,磷酸化位点附近或附近的点突变改变了下游生物过程。
  4. 对于远距离的线性突变,在空间距离上也观察到了类似的调控机制。
  5. 我们强调了一些例子,其中远端线性效应可能是由遗传变异和PTM位点在三维结构中接近所导致的,并受益于AlphaFold2预测的三维模型。
  6. 我们意识到这些模型并不完美,尤其是在同一蛋白质内不同结构域之间的相对空间排列方面。
  7. 最后,我们还展示了种系插入缺失可以通过无法在RNA水平上辨别的效应来塑造肽和蛋白质的丰度。
Para_03
  1. 我们探讨了非编码变异对基因表达和蛋白质丰度的影响(数量性状位点分析),报告了在不同正常组织和肿瘤中受种系遗传控制的基因和蛋白质(https://immuneregulation.mssm.edu)。
  2. 我们将我们的肺正常组织表达数量性状位点与GTEx的肺表达数量性状位点进行了比较,结果显示了广泛的重叠,验证了我们的方法。
  3. 除了从共定位和生存分析中突出的基因外,还有其他组织特异性或多种癌症的e基因和p蛋白质值得进一步研究。
  4. 近年来,像GTEx这样的大型联盟已经生成了全基因组范围的调控效应目录,这对理解通过全基因组关联研究识别的种系位点的分子后果至关重要。
  5. 在这里,我们提供了肿瘤和正常组织中匹配的基因表达和蛋白质丰度的泛组织目录,扩展了此类努力。
  6. 我们还观察到,已知GWAS风险变异体在胰腺导管腺癌中的集体效应,以多基因评分(PRS)衡量,与位于PRS组成部分远端的致癌途径中的蛋白质水平相关性更好。
  7. 这些结果表明,除了它们在顺式中的局部影响外,GWAS位点可以共同改变反式的全局蛋白质组调控。
  8. 尽管迄今为止进行的癌症发现GWAS采用了病例对照设计,但我们的结果证实,PRS可以根据疾病侵袭性和总体生存率将患者分层。
  9. 这些发现强调了蛋白质基因组学在解释种系变异对癌症表型和临床结局影响方面的价值。
Para_04
  1. 最后,遗传祖先可能会影响种系变异的效果。
  2. 虽然具有多样性,涵盖了五个主要的遗传祖先——EUR(n = 786),AFR(n = 40),EAS(n = 194),SAS(n = 5)和AMR(n = 39)——CPTAC队列在发现对特定遗传祖先(除EUR外)的癌症表型的新型贡献方面仍缺乏足够的统计能力。
  3. 此外,与较大的基因组研究相比,我们的队列相对较小。
  4. 尽管存在这一局限性,我们通过在分析中考虑遗传祖先,揭示了蛋白质组、磷酸化蛋白质组和转录组变异的祖先无关的关联。
Para_05
  1. 总而言之,生殖细胞基因组是癌症戏剧展开和描绘的基本舞台。
  2. 在突变的混乱中,生殖细胞发挥着关键作用,这种作用可以促进或限制癌症的进化,决定许多临床上相关现象的概率:从癌症驱动突变到针对癌细胞的免疫反应。
  3. 蛋白质组学提供的更深入的理解揭示了这一复杂性,展示了改变的蛋白质功能在致癌过程中的关键作用。

Limitations of the study

研究的局限性

Para_06
  1. 虽然我们的数据集是最大的多组学资源之一,但由于样本量不足,我们仍然缺乏足够的统计能力。
  2. 我们的队列主要包含EUR遗传谱系的患者,还包括较小比例的其他谱系患者。
  3. 未来的蛋白质基因组学研究需要纳入更多样化的群体。
  4. 所有组学数据集都来自整体分析物,限制了我们解析种系变异对特定细胞类型影响的能力。
  5. 我们只使用了从1,000基因组项目中推断出的常见变异,因为我们没有高覆盖率的全基因组测序数据。
  6. 当前的蛋白质组学流程依赖于通用肽参照来量化肽丰度。
  7. 我们通过识别个性化肽解决了这一局限性,但单一肽反映了来自不同人群和我们特定癌症队列的不同等位基因频率。
  8. 尽管通过聚合许多肽可以减轻蛋白质和基因水平的量化问题,但在处理单一肽的影响时,我们仍保持保守态度。
  9. AlphaFoldDB扩展了我们对所有人类蛋白质的结构分析,但其模型尚未经过实验验证。
  10. 最后,由于可比的综合数据集有限,验证我们的发现具有挑战性,因此随着更多样本的分析,我们的一些结果可能会发生变化。

Resource availability

Lead contact

主要联系人

Para_01
  1. 进一步的信息和资源及试剂的需求应直接联系李丁博士(lding@wustl.edu),并将由其提供满足。
  2. ,

Materials availability

材料可用性

Para_01
  1. 本研究没有产生新的独特试剂。

Data and code availability

数据和代码可用性

Para_01
  1. 原始和处理后的蛋白质组学数据以及开放获取的基因组数据,可以通过蛋白质组学数据中心(PDC)在 https://pdc.cancer.gov/pdc/cptac-pancancer 获取。
  2. 原始基因组和转录组数据文件可以通过基因组数据中心(GDC)数据门户在 https://portal.gdc.cancer.gov 获取,dbGaP 学习存取号:phs001287.v17.p6。
  3. 完整的 CPTAC 泛癌症受控和处理数据,包括本文档中生成的精确蛋白质基因组学数据,可以通过癌症数据服务(CDS)访问。
  4. CDS 中托管的 CPTAC 泛癌症数据是受控数据,可以通过 NCI DAC 批准、dbGaP 编制的白名单访问。
  5. 用户可以通过七桥癌症基因组云(SB-CGC)访问数据进行分析,SB-CGC 是一个由 NCI 资助的用于计算密集型分析的云资源/平台。
  6. 访问数据的说明如下:(1)在 CGC,七桥上创建一个账户(https://cgc-accounts.sbgenomics.com/auth/register;(2)获得 dbGaP 对访问受控研究的批准(https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs001287.v17.p6);(3)登录 CGC 以访问癌症数据服务(CDS)文件浏览器;(4)将数据复制到您自己的空间并开始分析和探索;(5)访问 CDS 页面查看可用的研究以及使用资源的说明和指南(https://dataservice.datacommons.cancer.gov/#/data)。
Para_02
  1. 本出版物中使用的数据由CPTAC生成,可通过dbGaP访问,登录号为phs000892.v6.p1("CPTAC蛋白质基因组确认研究")和phs001287.v17.p6("CPTAC蛋白质基因组研究")。
Para_03
  1. 我们专注于那些既有基因组数据又有蛋白质组数据的CPTAC样本,以研究癌症泛分析中致癌驱动因素的蛋白质基因组影响。
  2. DOI列在关键资源表中。如果需要重新分析本文报告的数据,任何附加信息和代码均可从主要联系人处请求获得。

Consortia

Para_01
  1. 国家癌症研究所临床蛋白质组肿瘤分析联合会的成员包括
  2. Eunkyung An, Meenakshi Anurag, Jasmin Bavarva, Chet Birger, Michael J. Birrer, Anna P. Calinawan, Michele Ceccarelli, Daniel W. Chan, Arul M. Chinnaiyan, Hanbyul Cho, Shrabanti Chowdhury, Marcin P. Cieslik, Daniel Cui Zhou, Corbin Day, Marcin J. Domagalski, Yongchao Dou, Brian J. Druker, Nathan Edwards, Matthew J. Ellis, Steven M. Foltz, Alicia Francis, Tania J. Gonzalez Robles, Sara J.C. Gosline, Runyu Hong, Galen Hostetter, Yingwei Hu, Tara Hiltke, Chen Huang, Emily Huntsman, Eric J. Jaehnig, Scott D. Jewell, Jiayi Ji, Wen Jiang, Lizabeth Katsnelson, Karen A. Ketchum, Iga Kolodziejczak, Jonathan T. Lei, Yuxing Liao, Caleb M. Lindgren, Tao Liu, Weiping Ma, Wilson McKerrow, Chelsea J. Newton, Robert Oldroyd, Gilbert S. Omenn, Amanda G. Paulovich, Francesca Petralia, Boris Reva, Karin D. Rodland, Henry Rodriguez, Kelly V. Ruggles, Dmitry Rykunov, Sara R. Savage, Eric E. Schadt, Michael Schnaubelt, Tobias Schraink, Zhiao Shi, Richard D. Smith, Xiaoyu Song, Yizhe Song, Jimin Tan, Ratna R. Thangudu, Nicole Tignor, Joshua M. Wang, Pei Wang, Ying Wang, Bo Wen, Maciej Wiznerowicz, Xinpei Yi, Bing Zhang, Hui Zhang, Xu Zhang, Zhen Zhang, David I. Heiman, Jared L. Johnson, Liang-Bo Wang, Lijun Yao, Mathangi Thiagarajan, Mehdi Mesri, Özgün Babur, Pietro Pugliese, Qing Zhang, Samuel H. Payne, Saravana M. Dhanasekaran, Shankara Anand, Shankha Satpathy, Stephan Schürer, Vasileios Stathias, Wen-Wei Liang, Wenke Liu, 和 Yige Wu。
  3. ,

Acknowledgments

Para_01
  1. 我们要感谢来自国家癌症研究所(NCI)临床蛋白质组肿瘤分析联盟(CPTAC)的参与者和调查员。
  2. 这项工作得到了NCI-CPTAC的支持,资助号为U24CA210955、U24CA210985、U24CA210986、U24CA210954、U24CA210967、U24CA210972、U24CA210979、U24CA210993、U01CA214114、U01CA214116和U01CA214125。
  3. 此外,这项工作还得到了NCI U24CA210972(D.F. 和 L.D.)、U24CA210979(G.G.)、U24CA270823(M.A.G.)以及合同编号GR0012005(L.D.)的支持。
  4. 这项工作还得到了NCI U24CA210972(D.F. 和 L.D.)、U24CA210979(G.G.)、U24CA270823(M.A.G.)以及合同编号GR0012005(L.D.)的支持。
  5. 这项工作还得到了NCI U24CA210972(D.F. 和 L.D.)、U24CA210979(G.G.)、U24CA270823(M.A.G.)以及合同编号GR0012005(L.D.)的支持。
  6. 这项工作还得到了NCI U24CA210972(D.F. 和 L.D.)、U24CA210979(G.G.)、U24CA270823(M.A.G.)以及合同编号GR0012005(L.D.)的支持。
  7. 这项工作还得到了NCI U24CA210972(D.F. 和 L.D.)、U24CA210979(G.G.)、U24CA270823(M.A.G.)以及合同编号GR0012005(L.D.)的支持。
  8. 这项工作还得到了NCI U24CA210972(D.F. 和 L.D.)、U24CA210979(G.G.)、U24CA270823(M.A.G.)以及合同编号GR0012005(L.D.)的支持。
  9. 这项工作还得到了NCI U24CA210972(D.F. 和 L.D.)、U24CA210979(G.G.)、U24CA270823(M.A.G.)以及合同编号GR0012005(L.D.)的支持。
  10. 这项工作还得到了NCI U24CA210972(D.F. 和 L.D.)、U24CA210979(G.G.)、U24CA270823(M.A.G.)以及合同编号GR0012005(L.D.)的支持。
  11. 这项研究使用了UK Biobank资源,申请编号分别为54343和74382(分别对应E.P.-P.和U.M.M.)。
Para_02
  1. 这个项目部分资金来自美国国家癌症研究所,美国国立卫生研究院,合同号为HHSN261201500003I,任务订单号为HHSN26100064。
  2. 本出版物的内容不一定反映卫生与公共服务部的观点或政策,提及商业名称、商业产品或组织并不意味着美国政府的认同。

Author contributions

Para_01
  1. 研究概念和设计,Z.H.G.、E.P.-P.、L.D.、M.H.B. 和 G.G.;进行实验或数据收集,F.M.R.、N.V.T.、Y.L.、Y.A.、A.I.R.、Y.G.、F.d.V.L. 和 A.I.N.;多组学和统计分析,F.M.R.、N.V.T.、K.J.I.、K.R.C.、M.M.、K.K.、M.E.S.、I.M.、Y.G.、Y.A.、T.M.Y.、S.C.、E.P.S.、Y.L.、O.S.G.、A.G.、E.A.K.、U.M.M.、Z.H.G.、M.H.B.、E.P.-P.、B.T. 和 R.J.K.;数据分析和生物学分析,F.M.R.、N.V.T.、K.R.C.、A.C.、K.-l.H.、C.K.-S.、F.A.、A.J.L.、L.C.C.、U.M.M.、Z.H.G.、M.H.B.、G.G.、E.P.-P. 和 L.D.;撰写,F.M.R.、N.V.T.、K.J.I.、K.R.C.、M.E.S.、I.M.、Y.G.、Y.A.、C.K.-S.、A.J.L.、U.M.M.、Z.H.G.、D.F.、M.A.W.、M.H.B、G.G.、E.P.-P. 和 L.D.;监督,D.R.M.、M.A.G.、D.F.、S.A.C.、Z.H.G.、M.H.B.、G.G.、E.P.-P. 和 L.D.;管理,G.G.、A.I.R. 和 L.D.

Declaration of interests

Para_01
  1. 作者声明不存在竞争性利益。

STAR★Methods

Key resources table

关键资源表

Experimental Model and Study Participant Details

实验模型和研究参与者详情

Human subjects

人类受试者

Para_01
  1. 这项研究包括来自总共1064名参与者的样本,这些样本是前瞻性收集的(尽可能包括肿瘤、种系血液和相邻正常样本)来自国内外超过30个组织来源站点。
  2. 所有样本均按照特定肿瘤类型的方案和标准操作程序(SOPs)由中央生物标本核心资源处理。
  3. 所有样本的病理学由一位普通病理学家验证,并由特定疾病专家病理学家使用组织病理学和免疫组化检测进行审查。
  4. 详细信息见我们的泛癌症数据和资源手稿160以及泛癌症驱动因素手稿37。
Clinical data annotation

临床数据标注

Para_01
  1. 临床数据包括出生性别、年龄以及自我报告的祖先、种族和民族信息可以从CPTAC数据门户和https://pdc.cancer.gov/pdc/cptac-pancancer获得。
  2. 完整详情见我们的泛癌数据和资源手稿160以及泛癌驱动因素手稿37。

Method details

方法细节

Harmonized genome alignment

协调的基因组比对

Para_01
  1. WGS、WES和RNA-Seq序列数据由NCI基因组数据共享平台(GDC)基于GDC的人类参考基因组GRCh38.d1.vd1进行了标准化处理,如泛癌数据和资源以及泛癌驱动论文所述。
  2. 37,160
Germline variant calling and filtering from WES

从外显子测序中进行种系变异调用和过滤

Para_01
  1. 该项目最初收集了来自所有10种癌症类型的1,093个正常样本的WES数据。
  2. 经过病理学和临床审查后,选择了1,064个病例,并使用FastQC(版本0.11.8,采用默认参数)评估了质量。
  3. 使用Mosdepth169(版本0.2.4,采用默认参数,除了-Q 20外)计算目标区域内的覆盖度。
  4. 覆盖度范围从105倍到357倍(图S1A)。
  5. 所有1,064个样本均通过了质量控制标准,并且在目标区域的平均覆盖度超过20倍(映射质量≥20)。
  6. 所有1,064个样本均通过了质量控制标准,并且在目标区域的平均覆盖度超过20倍(映射质量≥20)。
Para_02
  1. 正如我们在泛癌数据和资源以及泛癌驱动基因手稿中所述,37,160个通过质量控制标准的样本的种系变异是使用GermlineWrapper管道(v1.1;https://github.com/ding-lab/germlinewrapper)识别的,该管道集成了多种工具来识别种系SNV和indel。
  2. SNV是使用VarScan176(版本2.3.8,默认参数,除了–min-var-freq 0.08,–p值 0.10,–min-coverage 3,–strand-filter 1,-min-avg-qual 15,-min-reads2 2,-min-freq-for-hom 0.75)检测的,该工具在来自SAMtools(版本1.2,默认参数,除了-q 1 -Q 13)和GATK166(版本4.0.0.0,在单样本模式下使用其Haplotype Caller,排除重复和未映射读取,并保留最小质量为10的调用)的mpileup流上运行。
  3. 种系indel是使用VarScan(版本和参数如上),GATK(版本和参数如上)在单样本模式下以及Pindel171(版本0.2.5b9,默认参数,除了-m 6,-w 1,并排除了基因组.ucsc.edu中的着丝粒区域)识别的。
  4. 我们使用GRCh38参考基因组,并在BAM头部没有提供插入大小信息时指定了500的插入大小。
  5. 单核苷酸变异(SNV)基于原始GATK和VarScan调用的联合。
  6. 我们要求indel由Pindel或至少三个调用器(GATK、VarScan、Pindel)中的两个调用。
  7. 最后一步中使用了最低10X覆盖率和20% VAF的截止值来报告高质量的种系变异。
Para_03
  1. GermlineWrapper 调用的变异体需要等位基因深度(AD)≥ 5 用于替代等位基因。
  2. 此外,我们过滤掉了任何超过 100bp 的插入或缺失。
  3. 总共有 185,724,997 个变异体通过了这些过滤条件(图 2A)。
  4. 变异体还根据从 Ensembl 发布 100(Gencode v34)获得的全长转录本的编码区域以及每个外显子两侧额外的两个碱基对进行过滤,这些碱基对覆盖剪接供体/受体位点,最终得到 1,064 个样本中的 27,104,152 个种系外显子变异体,或者说是 563,036 个独特的变异体(图 2A)。
Para_04
  1. 最后,通过计算与dbSnP(发布151版)的一致性以及使用GATK的VariantEval工具(版本3.8-0,采用默认参数)计算平均转换颠换比,对通过过滤的变异进行了质量评估。
  2. 我们达到了与dbSnP的97.43%的一致性,我们的种系外显子组显示出了高质量,平均转换颠换比为2.74。
  3. 所有VCF文件使用vcf2maf和VEP Ensembl v100注释转换成了MAF格式。
Para_05
  1. 重要的是要澄清,最初为1,093名患者总共检测到27,838,075个种系外显子变异(570,645个独特变异),这些被用作生成精准肽组学数据集的输入,在队列减少到1,064名患者之前(有关更多详细信息,请参阅STAR方法:蛋白质组学LC-MS/MS数据分析部分)。这是手稿中唯一使用较大队列作为输入的部分。
  2. 然而,文中报告的所有结果仅关注最终1,064名患者的检测事件。
Somatic mutation and copy number variant calling from WES

从外显子测序中调取体细胞突变和拷贝数变异

Para_01
  1. 所有详细信息出现在泛癌症数据和资源以及泛癌症驱动研究手稿中。
Germline variant calling and filtering from WGS

种系变异调用和过滤来自全基因组测序

Para_01
  1. 我们使用 DNAScope 对来自 CCRCC、GBM、HNSCC、LSCC、LUAD、PDAC 和 UCEC 患者的血液衍生样本进行了种系变异调用。
  2. 简而言之,我们基于 GATK 最佳实践和功能等效性建议实施了一个流程。
  3. 我们首先使用 bwa-mem 将原始成对末端全基因组测序 FASTQ 文件与最新的人类基因组构建 GRCh38(GDC GRCh38.d1.vd1 版本)进行比对,然后执行重复标记。
  4. 接下来,我们使用 DNAScope Haplotyper 调用变异,每个样本生成一个 gVCF 文件,使用默认设置和 --emit_mode gvcf 参数。
  5. 接下来,我们在 1000 基因组计划第三阶段的 2,504 个无关样本的高质量变异位点上对样本进行了基因分型,这些样本由纽约基因组中心(NYGC)重新测序至 30X 深度。
  6. 最后,为了考虑 CPTAC 样本的低全基因组测序深度,我们使用 GLIMPSE 在默认设置下进行了基因型填补和单倍型分析,并使用相同的 NYGC 1000 基因组项目基因作为参考面板。
  7. 我们使用 DNAScope 对来自 CCRCC、GBM、HNSCC、LSCC、LUAD、PDAC 和 UCEC 患者的血液衍生样本进行了种系变异调用。
  8. 我们首先使用 bwa-mem 将原始成对末端全基因组测序 FASTQ 文件与最新的人类基因组构建 GRCh38(GDC GRCh38.d1.vd1 版本)进行比对,然后执行重复标记。
  9. 接下来,我们使用 DNAScope Haplotyper 调用变异,每个样本生成一个 gVCF 文件,使用默认设置和 --emit_mode gvcf 参数。
  10. 接下来,我们在 1000 基因组计划第三阶段的 2,504 个无关样本的高质量变异位点上对样本进行了基因分型,这些样本由纽约基因组中心(NYGC)重新测序至 30X 深度。
  11. 最后,为了考虑 CPTAC 样本的低全基因组测序深度,我们使用 GLIMPSE 在默认设置下进行了基因型填补和单倍型分析,并使用相同的 NYGC 1000 基因组项目基因作为参考面板。
Comparison of WES and WGS variant calls

WES和WGS变异调用的比较

Para_01
  1. 作为质量控制的一部分,我们比较了七个癌症类型(CCRCC、GBM、HNSCC、LSCC、LUAD、PDAC 和 UCEC)的 WES 和 WGS 遗传变异调用,这些癌症类型有可用的 WGS 数据。
  2. 为此,我们研究了 WES 和 WGS 在第 1 至 22 号染色体上共同区域中的变异。
  3. 在这些区域中,我们确定了 WES 变异的数量和 WGS 变异的数量,并最终估计了共享相同基因型的 WES 和 WGS 共同变异的数量(图 S1E;表 S1D)。
Ancestry prediction

ancestry 预测

Para_01
  1. 我们基于 WES 数据使用内部随机森林分类器对 CPTAC 数据集中每个个体的遗传祖先进行了识别(https://github.com/ding-lab/ancestry)。
  2. 通过使用参考基因型面板和基于主成分的聚类,我们从 1000 基因组计划178(http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/)中选择了107,765个次要等位基因频率(MAF)大于0.02的编码 SNP,并使用 bam-readcount(版本0.8,采用默认参数,https://github.com/genome/bam-readcount)测量了每个样本中的深度和等位基因计数。
  3. 随后,我们对每个样本进行如下基因分型:如果参考等位基因计数≥8且替代等位基因计数<4,则为0/0;如果参考等位基因计数≥4且替代等位基因计数≥4,则为0/1;如果参考等位基因计数<4且替代等位基因计数≥8,则为1/1;否则为./.(缺失)。
  4. 此外,我们过滤掉了缺失率>5%的标记,在此之后,剩余70,049个标记用于分析。
  5. 我们对1000基因组计划数据中的每组标记执行了主成分分析(PCA),以识别前20个主成分,并将我们的队列投影到代表1000基因组数据的20维空间。
  6. 然后,我们使用1000基因组数据集以及我们识别出的20个主成分训练了一个随机森林分类器,将1000基因组数据集分为80%用于训练,20%用于验证。
  7. 我们的分类器在使用选定标记训练的模型上,在验证数据集上的准确率为99.6%。
  8. 拟合后的分类器随后被用来将样本分类为非洲(AFR)、拉丁裔美洲(AMR)、东亚(EAS)、欧洲(EUR)或南亚(SAS)祖先。
  9. 由于训练数据集中缺少斯拉夫血统的个体,我们的模型错误地将GBM、HNSCC、LSCC、PDAC和UCEC队列中的9个个体归类为AMR祖先。
  10. 这通过使用这些样本的可用WGS数据得到了确认,在此过程中,我们使用EIGENSOFT软件和1000基因组参考数据集28执行PCA来估计祖先,如泛癌症数据和资源及泛癌症驱动者手稿所述。
  11. 简而言之,对于这项分析,我们使用了至少有99%调用率的常见变异,并通过可视化PCA图并选择对应于五大主要人口的前10个主成分上的截止值来推断每个参与者的祖先。
  12. 然后,我们成功地将9个个体归类为EUR群体(图S1F)。
  13. 为了下游分析的一致性,包括祖先的主成分值,我们排除了那些个体,以便始终使用基于WES数据的主成分。
Gene list curation for pathogenic variant classification

基因列表整理用于致病变体分类

Para_01
  1. 我们将黄等人先前编制的152个癌症易感基因(CPGs)列表扩展到了160个CPGs,通过增加基于文献回顾的8个与癌症易感性相关的基因。
  2. 这个包含160个基因的扩展基因列表被用作我们工具CharGer33(如下所述)的输入,使用了–inheritanceGeneList参数。
  3. 每个经过整理的易感基因的来源和参考文献在表S1C中提供。
  4. 在整个研究过程中,这份包含160个CPGs的列表用于多项分析。
Inference of the ancestral state of germline variants

生殖系变异祖先状态的推断

Para_01
  1. 为了避免由于主要等位基因和次要等位基因状态不明确可能引起的混淆,在许多变异位点上不同祖先的人类群体之间可能存在差异,我们已经从外显子组测序数据中的27,104,152个外显子体细胞变异调用中推导出祖先状态信息,以便根据保守性进行极化,并默认参照新等位基因分配它们的影响。
  2. 为了推断我们调用集中的每个体细胞变异的祖先状态,我们利用了Ensembl变异效应预测器(VEP)工具164(发布版本100)中的AncestralAllele.pm插件,该插件从FASTA文件中检索输入VCFs中每个碱基位置的祖先等位基因序列。
  3. 这些序列基于Ensembl发布100版对应于Ensembl GRCh38版本的人类(Homo sapiens)比较祖先序列,并使用Enredo-Pecan-Ortheus(EPO)多重序列比对方法,通过来自多种灵长类动物(包括人类(Homo sapiens)、黑猩猩(Pan troglodytes)、倭黑猩猩(Pan paniscus)、大猩猩(Gorilla gorilla gorilla)、猩猩(Pongo abelli)、长臂猿(Nomascus leucogenys)、 vervet-AGM(Chlorocebus sabaeus)、食蟹猴(Macaca fascicularis)、猕猴(Macaca mulatta)、小鼠狐猴(Microcebus murinus))的序列推断祖先的排列。
Para_02
  1. 我们随后解析并指定了我们的生殖系变异的祖先状态,包括三种不同的情况。
  2. 首先,对于那些没有祖先状态信息的变异,或者那些插入、删除和寡核苷酸变异中推断出的祖先等位基因与我们在研究中发现的两个等位基因都不匹配的情况,极化状态未确定。
  3. 其次,对于那些祖先序列与从《Homo sapiens》参考基因组中调用的参考等位基因相匹配的变异,所指定的祖先状态是祖先(即《Homo sapiens》参考等位基因与祖先等位基因相同,《Homo sapiens》的替代等位基因是衍生等位基因)。
  4. 第三,对于那些祖先序列与从《Homo sapiens》参考基因组中调用的替代等位基因相匹配的变异,所指定的祖先状态是衍生(即《Homo sapiens》的替代等位基因与祖先等位基因相同,《Homo sapiens》的参考等位基因现在是衍生等位基因)。
  5. 尽管参考等位基因通常对应于人类基因组中大多数变异的祖先等位基因和主要等位基因,但通过将我们的分析极化以描述所有变异的衍生(新)等位基因的影响而不是特定于我们队列的主要/次要状态,我们的程序确保了进化的解释并简化了未来在不同祖先队列中的可转移性。
  6. 总之,在我们的分析中,我们指的是祖先(ANC)和衍生(DER)等位基因,而不是主要和次要等位基因。

Quantification and Statistical Analysis

量化和统计分析

Pathogenicity assessment of rare germline variants

罕见种系变异的致病性评估

Para_01
  1. 种系变异使用 GermlineWrapper 被调用,并使用 Ensembl 变异效应预测器(VEP)164(版本100,默认参数,除非使用了--everything)进行了注释,其致病性通过我们的自动管道 CharGer33(版本0.5.4,默认 CharGer 分数,https://github.com/ding-lab/CharGer/tree/v0.5.4)确定,该管道根据美国医学遗传学和基因组学学院与分子病理学协会(ACMG-AMP)的指南优先考虑变异。
  2. CharGer 从 ClinVar(截至2019年8月15日发布的版本,使用来自 MacArthur 实验室 ClinVar 的代码解析,https://github.com/macarthur-lab/clinvar)和 gnomAD182(r2.1.1)数据库检索信息,以及计算工具,包括 SIFT183(v5.2.2)和 Polyphen184(v2.2.2),以告知种系变异分类的12个致病变异证据级别和4个良性证据级别的实施和评分。
  3. 每个证据级别的详细实施和评分,以及使用的参数如前所述。
Para_02
  1. 我们进一步选择了在 gnomAD(r2.1.1)或 1000 基因组中的等位基因频率(AF)不超过 0.05% 的稀有变异。
  2. 我们还使用了 bam-readcount(https://github.com/genome/bam-readcount;版本 0.8,参数为 -q 10,-b 15)进行读取计数分析,以评估每个变异的参考等位基因和替代等位基因的数量。
  3. 我们要求变异体在肿瘤样本和正常样本中至少有 5 个替代等位基因的计数,并且变异等位基因频率(VAF)至少为 20%。
  4. 经过这些过滤后剩余的变异体通过集成基因组查看器(IGV)软件(v2.8.2)进行了人工审查。
  5. 如果变异体是 ClinVar 中已知的致病变异体,则我们认为它是致病的(P);如果 CharGer 分数大于 8,则认为是可能致病的(LP);如果 CharGer 分数大于 4,则认为是意义未明的变异体(PVUS)。
  6. 所有通过人工审查的变异体及其信息列于表 S2 中。
Burden testing analyses of rare P/LP germline variants

稀有P/LP种系变异的负荷测试分析

Para_01
  1. 我们使用总频率检验(TFT)对罕见的P/LP变异进行了负荷测试,该检验通过单侧Fisher检验来检测在TCGA和CPTAC队列的合并样本集中富集了P/LP变异的基因,相对于对照组。
  2. 为此,我们将同一基因中检测到的P/LP种系变异合并,并使用上述CharGer流程在gnomAD(r2.1.1)非癌症队列(n=118,479)中识别出的P/LP变异的总等位基因计数作为对照。
  3. 我们还使用所有其他癌症类型对每种癌症类型和每个基因进行了负荷测试,对照组排除了gnomAD分析中显示出特定基因富集倾向的队列。
  4. 我们使用标准的Benjamini-Hochberg程序将得到的p值调整为FDR。
  5. 如果FDR≤0.05,则定义为显著事件;如果FDR≤0.15,则定义为提示性事件。
LOH analysis of rare P/LP germline variants

稀有P/LP种系变异的LOH分析

Para_01
  1. 分析等位基因丢失(LOH)事件有助于通过比较肿瘤中的变异等位基因频率(VAF)与正常组织中的VAF来识别在肿瘤中被正向选择的种系变异。
  2. 我们首先使用bam-readcount(https://github.com/genome/bam-readcount)(参数为-v0.8,-q 10,-b 15)估计了CPTAC病例中正常和肿瘤样本中每个变异的读取计数。
  3. 然后,通过在肿瘤和匹配的正常样本之间进行单尾Fisher精确检验来识别LOH事件,以检测肿瘤中VAF显著高于匹配正常样本中VAF的种系变异。
  4. 调整后的p值使用Benjamini-Hochberg过程转换为FDR。
  5. 我们认为如果FDR≤0.05,则LOH是显著的;如果FDR≤0.15,则LOH是提示性的。
Proteomics LC-MS/MS data interpretation

蛋白质组学LC-MS/MS数据分析

Para_01
  1. 所有组学的MS/MS谱图使用Spectrum Mill(SM)v7.08(proteomics.broadinstitute.org)进行了解读,以提供蛋白质、肽段以及翻译后修饰(PTM)位点(磷酸化和乙酰化)层面的鉴定和相对定量。
  2. (proteomics.broadinstitute.org)
Precision sequence databases
Para_02
  1. 为了使用来自所有ome的LC-MS/MS数据集,我们为每种肿瘤类型生成了一个队列级别的精确蛋白质序列数据库,从一个人类参考蛋白组开始,附加了每个约100名参与者/队列的非冗余体细胞突变和种系变异及插入缺失。
  2. 基础蛋白组由人类参考蛋白组Gencode v34(ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_34/)组成,其中包含47,429个非冗余蛋白质编码转录本生物类型映射到人类参考基因组GRCh38,602个常见的实验室污染物,2,043个经过整理的小开放阅读框(长链非编码RNA和uORFs),以及237,427个基于核糖体谱图nuORF DB v1.0186支持的新注释开放阅读框(nuORFs),总计287,501条记录。
  3. 个性化蛋白质序列条目是通过使用QUILTS v329处理每个参与者的体细胞和种系变异调用,上述方法描述了从全外显子测序数据中获得的信息,使用Ensembl v100参考蛋白组和参考基因组进行序列标识符的一致性,没有进一步的变异质量过滤。
  4. Gencode v34是Ensembl v100(2020年3月)的一个同期子集。
  5. 从最初队列中的1,093名参与者(570,645个独特的变异)在10个队列中(见上文STAR方法:从WES进行种系变异调用和过滤)最初调用的独特种系变异中,342,311个独特的编码、非同义种系SAAV和插入缺失被映射到Gencode v34参考蛋白组的蛋白质中用于肽搜索(与最终队列1,064名患者相关的独特变异为337,469个)。
  6. 类似地,232,228个独特的体细胞变异和插入缺失被映射到Gencode v34。
  7. 需要注意的是,本文档其他部分报告的独特种系变异数量与STAR方法这一部分所报告的数量略有不同,因为研究纳入的患者数量在临床和病理学审查后减少到了1,064名。
  8. 本文档其余部分仅报告关注这个最终队列的结果。
  9. 组织间种系变异计数范围(UCEC为75K至BRCA为108K)明显小于体细胞(PDAC为5K至UCEC为57K)。
  10. 种系变异在队列中多个参与者之间共享的频率也远高于体细胞(UCEC为4.6%至BRCA为51%,而PDAC为0.02%至COAD为0.37%)。
  11. 使用SM蛋白数据库工具,基础参考蛋白组和个别患者蛋白组被合并并去重,以生成队列级蛋白质序列数据库和变异总结表,从而能够将串联质谱标签(TMT)多重化的LC-MS/MS数据集中识别的序列变异追溯到个体患者。
  12. 在考虑了长度为8-40且无漏切的唯一胰蛋白酶肽之后,LUAD搜索空间由58%的Gencode v34参考蛋白组、39%的nuORFs和9%的种系/体细胞变异组成。
  13. 研究中其他队列的种系/体细胞含量与样本量成正比,有的更大,有的更小。
Para_03
  1. 每个体细胞和种系变异都通过其参考蛋白质序列的全长副本包含在数据库中,并且只有一个氨基酸改变以保留其在整个蛋白质中的位置。
  2. 在种系变异的驱动下,每个胰蛋白酶肽的平均冗余度从仅参考蛋白质组的1.9倍增加到这10个队列级精确数据库范围内的7到10倍。
Para_04
  1. 我们的 Spectrum Mill 工作流程包含了三个特性,以防止由于野生型肽段的冗余导致搜索过程变慢。
  2. 当某个包含单个 SAAV(特定氨基酸变异)的蛋白在同一队列中的多个患者中出现时,该蛋白的单一拷贝会被纳入序列数据库。
  3. 在个性化蛋白条目中匹配到的野生型肽段不会被报告,否则结果将被来自种系条目的所有蛋白标识符淹没。
  4. 虽然在搜索过程中处理数据库时,SM 的搜索引擎会对所有蛋白条目进行消化,但在与 MS/MS 谱图进行肽谱匹配时,只会对每种肽段的一个拷贝进行操作。
  5. 通过构建和查询所有胰蛋白酶肽段及其所在蛋白标识符的哈希表来实现这一点。
Spectrum quality filtering
Para_02
  1. 对于所有的omes,具有相同前体m/z并在相同的色谱峰内获取的相似MS/MS光谱被合并。
  2. 前体MH+包含范围是800-6,000,并且光谱质量过滤器是序列标签长度大于0(即,最少有两个由氨基酸链内质量分隔的峰)。
MS/MS search conditions
Para_02
  1. 使用 SM MS/MS 搜索模块进行所有组学参数搜索:胰蛋白酶允许 P 的酶特异性,最多允许 4 个未切割位点;前体和产物的质量容差为 ± 20 ppm;最小匹配峰强度为 30%。
  2. 评分参数为 ESI-QEXACTIVE-HCD-v2,适用于整个蛋白质组数据集,而 ESI-QEXACTIVE-HCD-v3 则适用于磷酸化蛋白质组和乙酰化蛋白质组。
  3. 允许的固定修饰包括半胱氨酸和硒代半胱氨酸的羧甲基化。
  4. 赖氨酸需要 TMT 标记,但肽 N 端可以是标记或未标记。
  5. 整个蛋白质组数据集允许的可变修饰为蛋白质 N 端的乙酰化、氧化的蛋氨酸、天冬酰胺的脱酰胺、PG 动机中的脯氨酸羟基化、肽 N 端谷氨酰胺的焦谷氨酸和肽 N 端半胱氨酸的焦羧甲基化,前体 MH+ 的移动范围为 -18 到 97 Da。
  6. 对于所有 PTM 组学的可变修饰进行了修订,删除了脯氨酸的羟基化,并只允许 NG 动机中的脱酰胺。
  7. 磷酸化蛋白质组进行了修订,允许丝氨酸、苏氨酸和酪氨酸的磷酸化,前体 MH+ 的移动范围为 -18 到 272 Da。
  8. 乙酰化蛋白质组进行了修订,允许赖氨酸的乙酰化,前体 MH+ 的移动范围为 -400 到 70 Da。
Para_03
  1. 我们使用了计算机模拟酶特异性,trypsin 允许 P,这排除了随后是 P 的例外情况,以适应我们的两种蛋白酶裂解/消化协议(Lys-C/Trypsin)。
  2. 虽然胰蛋白酶在赖氨酸(K)和精氨酸(R)之后裂解,但不包括当它们后面跟着脯氨酸(P)的情况,Lys-C 在赖氨酸(K)之后裂解,但在 KP 位置裂解的能力较低。
  3. 将允许的错失裂解位点数量扩展到 4 个(而不是胰蛋白酶单独使用时更常见的 2 个),以容纳那些在普通胰蛋白酶特异性下不会被计为错失裂解位点的 RP 位点。
Para_04
  1. 允许的修饰被包括是因为它们在这类研究中相当常见,如果不允许这些修饰,将会导致这些识别丢失,对于那些经过修饰的肽段,其光谱评分将降低为较低得分的假阳性识别,与未修饰肽段相比。
  2. 位置约束修饰对搜索空间大小的贡献微乎其微:对于肽段N端的焦谷氨酰化/谷氨酰胺环化,增加不到1.05倍;对于蛋白质N端乙酰化,增加不到1.01倍;对于PG位点的羟脯氨酸,通常仅在蛋白质的胶原域中检测到,增加不到1.05倍。
  3. 使用Spectrum Mill软件,在不考虑肽段N端缺乏TMT标签的情况下(这会使搜索空间大小增加两倍),无法单独考虑N端修饰。
  4. 在我们的研究中,TMT标记的完成度超过90%,由于这些位点上伯胺的反应性差异,未完全标记主要出现在N端而非赖氨酸。
  5. 每个丝氨酸(S)、苏氨酸(T)和酪氨酸(Y)的磷酸化,赖氨酸的乙酰化,甲硫氨酸(M)的氧化以及天冬酰胺(N)的脱酰胺作用都会使搜索空间大小增加超过两倍。
  6. 在磷蛋白组学和乙酰化蛋白质组学的研究中,由于化学上优选的位置约束NG基序的存在,脱酰胺作用的贡献减少至约1.05倍的增加。
PTM site localization
Para_02
  1. 使用SM自动验证和蛋白质/肽总结模块对PTM组学数据集进行过滤和报告,结果是在磷酸化和乙酰化位点水平上。
  2. 在计算变异修饰(VM)位点水平上的得分并报告识别出的VM位点时,SM解决了冗余问题,方法如下:
  3. 构建了一个VM位点表,列代表单个TMT复合实验,行代表单个VM位点。
  4. 将PSMs合并成一个单独的行,用于所有不冲突的特定VM位点观察(例如,不同的错过裂解形式、不同的前体电荷、自信和模糊定位以及不同的样品处理修饰)。
  5. 对于相关的肽段,不允许具有不同数量的VM位点或不同自信定位的观察结果被合并。
  6. 从合并的观察结果中选择VM位点的代表性肽段时,一旦建立了自信的VM位点定位,则优先选择更高的识别分数和更长的肽段长度。
  7. 虽然SM PSM识别分数基于匹配峰的数量、离子类型分配以及未匹配峰的相对高度,但VM位点定位分数是前两个定位之间识别分数的差值。
  8. 置信定位的分数阈值大于1.1,实质上相当于在两个候选位点之间至少有一个b或y离子,其峰高大于最高碎片离子峰高的10%(排除了前体的磷酸丢失离子及相关离子以及亚胺离子和TMT报告离子的相对高度计算)。
  9. b-H3PO4、y-H3PO4、b-H2O和y-H2O离子类型的离子类型分数均设置为0.5。
  10. 这防止了在光谱缺乏两个可能位点之间的主要b或y离子,但包含可以归类为一个定位的磷酸丢失离子或另一个定位的水丢失离子的情况下,错误地赋予自信定位。
  11. 这防止了不适当的自信定位分配。
Protein grouping of PSMs, peptides and PTM sites
Para_02
  1. 使用SM自动验证和蛋白质/肽总结模块,结果在蛋白质水平上进行了过滤和报告。
  2. 如果识别出的蛋白质共享序列长度大于8的肽,则将它们合并到同一蛋白质组中。
  3. 当存在独特的肽时,蛋白质组可以扩展为亚组(同工型或家族成员),这些肽唯一地代表了组内一部分蛋白质。
  4. 对于蛋白质组数据集,采用了蛋白质分组方法‘扩展亚组,顶级使用共享’(SGT),该方法仅将由蛋白质亚组共享的肽分配给包含该肽的最高评分亚组。
  5. 对于PTM-ome数据集,采用了蛋白质分组方法‘不扩展亚组’,该方法仅报告每个蛋白质组分配到的最高评分亚组中的VM位点一次。
  6. SM蛋白质得分为独特肽得分的总和。
  7. 独特肽是指通过MS/MS谱检测到的单个最高得分肽实例。
  8. 尽管可能多次记录特定肽的MS/MS谱(例如,作为不同的前体电荷状态、在相邻的bRP馏分中、由于天冬酰胺脱酰胺或甲硫氨酸氧化或具有不同的磷酸化位点定位),但仍然计为单一的独特肽。
Peptide spectrum match (PSM) filtering and false discovery rates (FDR)
Para_02
  1. 使用SM自动验证模块,通过应用基于目标-诱饵的FDR估计对单个光谱的肽谱匹配(PSM)进行了自信的分配,以实现PSM、肽、VM位点和蛋白质水平的<1.0% FDR。
  2. 对于整个蛋白质组数据集,阈值化分三步进行:在PSM水平,在每个TMT复合体的蛋白质水平,以及在两个TMT复合体队列的蛋白质水平。
  3. 对于PTM组(磷酸化蛋白质组和乙酰化蛋白质组数据集),阈值化分两步进行:在每个TMT复合体的PSM水平,以及在两个TMT复合体队列的VM位点水平。
  4. 在所有数据集的第一步中,首先分别针对每个TMT复合体实验进行了PSM水平的自动验证,采用自动阈值策略,最小序列长度为7;自动可变范围前体质量过滤;得分和排名1与排名2得分的阈值优化,以使每个多电荷状态的PSM水平FDR估计在每个LC-MS/MS运行中<0.8%。
  5. 为了在每个TMT复合体实验的所有运行中(而不是每个单独运行)对前体电荷5-6获得合理的统计量,阈值被优化以使每个TMT复合体实验的PSM水平FDR估计<0.4%,因为较高电荷状态下生成的光谱数量要少得多。
Para_03
  1. 在PTM磷酸化蛋白质组和乙酰化蛋白质组数据集的步骤2中:跨两个TMTplex应用了VM位点抛光自动验证,以保留所有具有最低识别分数为8.0或在n个TMTplex(n=4、3或2,如果分别超过20、7或1个plex/队列)中被观察到的VM位点识别。
  2. VM位点抛光步骤的目的是通过消除不可靠的VM位点水平识别,特别是那些仅作为低分肽被检测到且在研究中的TMTplex中不经常被发现的低分VM位点,来控制FDR。
  3. 使用SM蛋白/肽摘要模块生成VM位点报告时,泛素化蛋白质组和乙酰化蛋白质组数据集进一步过滤掉以正则表达式[ˆK][ˆK]k结尾的肽,因为胰蛋白酶和Lys-C不能在乙酰化的赖氨酸处切割。
  4. 这里的[ˆK]表示如果在最后两个位置之一存在未修饰的赖氨酸,则保留以允许错失的切割和模糊的PTM位点定位。
  5. C末端乙酰化的赖氨酸存在于乙酰化蛋白质组数据集中,但已显示它们是在胰蛋白酶消化后TMT标记过程中产生的艺术性修饰。
Para_04
  1. 在全蛋白质组数据集的步骤2中,蛋白质精炼自动验证被分别应用于每个TMT复合实验,以使用目标蛋白质水平FDR阈值为零进一步过滤PSM。
  2. 此步骤的主要目标是消除由单一肽段识别的低分PSM所代表的肽段,所谓的‘一击奇迹’。
  3. 在将蛋白质组从自动验证的PSM组装后,蛋白质精炼确定了完全由估计为假阳性鉴定(具有负向前进-反向分数的PSM)的独立肽段组成的蛋白质组的最大蛋白质水平得分。
  4. 如果PSM导致蛋白质组得分低于最大假阳性蛋白质得分,则从初始肽水平自动验证步骤获得的集合中移除这些PSM。
  5. 然后应用步骤3,包括使用蛋白质分组方法‘扩展子组,顶级使用共享’在整个队列的所有TMT复合物中进行蛋白质精炼自动验证,以保留蛋白质亚组,这些亚组具有至少25的最小蛋白质得分或在TMT复合物(如果超过20、7或1个复合物/队列,则分别为4、3或2个)中的观察。
  6. 此步骤的主要目标是消除在队列中很少被检测到的低分蛋白质。
  7. 由于这两个蛋白质精炼步骤,研究中报告的每种识别的蛋白质都包含多个肽段,除非一个得分极高的单一肽段是唯一匹配项,并且该肽段在多个TMT复合物中被观察到。
Subset-specific FDR filtering for germline variant containing peptides in the proteome
Para_02
  1. 蛋白质组数据集中与参考蛋白质组序列匹配的肽段经过上述多步骤、蛋白水平和队列水平的FDR过滤,而对于罕见观察类(低于总数的5%)的肽段子集,需要更严格的评分阈值以达到合适的子集特定FDR小于1.0%。为此,我们设计并应用了子集特定的过滤方法。
Para_03
  1. 在上述PSM过滤步骤1之后,使用SM蛋白质/肽总结模块提取了包含单氨基酸变异(SAAV)和插入缺失的肽子集,创建了一个蛋白质基因组学(PG)位点报告,并通过完全过滤的蛋白质组数据集中的累积蛋白质水平归一化因子来消除不同蛋白质装载差异的影响。
  2. 种系变异包含的肽被分为4个子集(SAAV和插入缺失,每个进一步按在队列中的多次或单次表示进行划分),并对每个子集进行了<1%FDR的过滤。
Para_04
  1. 子集在每个子集中独立进行阈值处理,采用两步方法。首先,PSM评分指标阈值以固定方式收紧,以便每个指标的分布得到改善,达到或超过综合分布。固定的阈值为:最低分数:7;最低百分比得分峰强度:50%;归一化前体质量误差:±5 ppm。
  2. 其次,FDR估计值仍高于1%的各个子集进一步接受网格搜索,以确定背部分割评分(序列覆盖率指标)和评分(碎片离子分配指标)的最低值,从而将每个子集的FDR提高到低于1%。
Quantitation using TMT ratios
Para_02
  1. 使用 SM 蛋白/肽摘要模块,通过蛋白质分组方法‘‘扩展子群,顶级共享’’(SGT)生成了蛋白质组数据集的蛋白质比较报告。
  2. 对于 PTM 组(磷酸化蛋白质组和乙酰化蛋白质组数据集),分别限于磷酸化位点或乙酰化位点的可变修饰位点比较报告是使用蛋白质分组方法‘‘不扩展子群’’生成的。
  3. 在 SM 中确定蛋白质和 VM 位点的相对丰度使用来自每个 PSM 的 TMT 报告离子对数强度比。
  4. 在 SM 蛋白/肽摘要模块中,使用 afRICA 校正方法校正了 TMT 报告离子强度,该方法根据克拉默法则进行决定因素计算,并根据每个队列的试剂制造商分析证书获得校正因子。
  5. 每个蛋白质水平或 PTM 位点水平的 TMT 比率被计算为贡献于蛋白质亚组或 PTM 位点的所有 PSM 水平比率的中位数。
  6. 如果 PSM 缺少 TMT 标签,前体离子纯度小于 50%(MS/MS 中存在显著的前体分离污染,因为共洗脱的肽段),或者具有负的向前向后识别分数(一半的假阳性识别),则这些 PSM 将从计算中排除。
  7. 使用 SM 过程报告模块去除了不可量化蛋白质和 PTM 位点(例如,未标记的肽段包含一个乙酰化的蛋白质 N 端且以精氨酸而不是赖氨酸结束),并对每个组学中的每个 TMT 通道进行了中位数/MAD 归一化处理。
  8. 通过对蛋白质水平或 PTM 位点水平的对数比率分布进行居中和缩放,以零为中心,以便消除蛋白质负载差异和/或系统性 MS 变异的影响。
  9. 当组学的子集(如 nuORF 或 SAAVs 等)时,使用相应组学的分布归一化因子对 TMT 比率进行归一化处理。
Para_03
  1. 值得注意的是,目前的精确数据库方法分别量化了肽的不同形式(参考序列、包含变异体的、磷酸化的、非磷酸化的等),这些肽在TMT标记比值型LC-MS/MS实验中具有不同的肽质量和保留时间。
  2. TMT标记实验专门用于测量单个肽形式在不同样本中的比例,这些比例被组合在一起,使得每个TMT复合样本在每次MS/MS谱中产生一个独特的m/z报告离子。
  3. 由于MS/MS光谱会在相应色谱峰的不同点短暂采样,因此不能直接将参考序列和包含变异体形式的肽的TMT报告离子强度结合起来形成代表整体肽丰度的单一数值。
  4. 蛋白质或基因水平的定量可以通过依赖多个仅含野生型(WT)的肽来缓解这种影响。
  5. 相反,PTM测量可能受到更大影响,因为它们通常是以单个肽的形式进行测量的。
Germline Variants Co-localizing with or Around PTM sites

与或靠近PTM位点的种系变异

Input data
Para_01
  1. 从总计 27,104,152 个来自外显子组测序数据的种系变异中,我们选择了 11,962,341 个错义种系变异,这些变异跨越了我们在 10 种癌症类型的 1,064 个样本中的位置,以找到与 PTM 位点直接共定位或附近的种系变异。
Para_02
  1. 根据 PTM 数据,我们在 CPTAC 队列中的样本检测到了总计 141,330 个独特的磷酸化位点(134,244 个位于参照肽上,7,086 个位于受种系 SAAV 影响的变异肽上)和 23,756 个独特的乙酰化位点(23,190 个位于参照肽上,566 个位于受种系 SAAV 影响的变异肽上)。
  2. 在同一肽序列上检测到的位点被视为单独的个体位点,这导致参照肽上的磷酸化位点总数为 168,423 个,变异肽上的磷酸化位点为 9,018 个;参照肽上的乙酰化位点总数为 24,109 个,变异肽上的乙酰化位点为 639 个。
Calculation of linear distances
Para_01
  1. 错义变异与PTM位点共定位,涉及丝氨酸(S)、苏氨酸(T)、酪氨酸(Y)或赖氨酸(K)密码子,在PTM数据中进行了交叉引用。
  2. 根据PTM层面的三种后果类型,将与PTM相关的种系变异分组:(1)氨基酸改变导致PTM位点丢失;(2)变异导致非参考等位基因编码的PTM位点获得;或(3)一个磷酸化残基变为另一个(例如从丝氨酸变为酪氨酸,并且两种都有磷酸化检测到)。
  3. 所有共定位变异的祖先和衍生等位基因被编译。
  4. 在三个特定案例中:AHNAK S4516N、FAM83B S729T和FLG S3174C,PTM数据中检测到的参考关联磷酸化丝氨酸来自祖先注释(分别为T4516N、P729T和G3174C)。
  5. 因此,这些变异被排除在分析之外。
Para_02
  1. 我们还通过计算错义种系变异相对于PTM位点的线性距离(基于从参考肽中提取的氨基酸位置)来检测PTM位点周围的变异,将事件分为两类:影响距PTM位点5个氨基酸以内的氨基酸的错义变异被归类为近端事件;影响距PTM位点超过5个氨基酸的氨基酸的变异被归类为远端事件。
  2. 我们进一步确认了从种系变异信息预测的氨基酸变化是否与在变异肽信息中检测到的一致(如果存在的话)。关于位于某个位点附近或远处的变异,由于大多数位于PTM位点远处的变异和一部分位于近端的变异超出了所讨论的PTM位点的肽捕获范围,因此我们不期望在这种情况下检测到由变异衍生的肽。
  3. 这些直接、近端和远端事件被用于下游分析。
Analyses of Direct, Proximal, and Distal Impact of Germline Variants on Protein and PTM Levels

种系变异对蛋白质和PTM水平的直接、近端和远端影响分析

Para_01
  1. 我们使用广义线性模型方法评估了种系变异对PTM位点直接、邻近或远离该位点的整体蛋白质丰度水平的潜在影响。
  2. 我们也使用相同的方法测试了种系变异对参考肽磷酸化和乙酰化水平的影响,但只针对那些位置落在所讨论的PTM位点捕获肽范围之外的变异,以限制质谱测量中的偏倚可能性(详见研究局限性和使用TMT比率进行定量的STAR方法部分)。
  3. 因此,对于直接重叠PTM位点的变异,我们仅测试了它们对整体蛋白质丰度的影响,而不是对PTM水平的影响。
  4. 常见的种系变异(gnomAD AF ≥1%)被单独测试。
  5. 对于低频和罕见的种系变异(gnomAD AF <1%),为了增加统计功效,我们将所有携带一个低频/罕见变异的个体(在PTM位点附近,即在5个氨基酸以内)或所有携带一个低频/罕见变异的个体(距离PTM位点超过5个氨基酸)合并为一个单一变量,在基因水平上。
  6. 为了测试具有特定种系变异的携带者与非携带者之间蛋白质、磷酸化或乙酰化水平的泛癌差异,我们运行了以下模型来学习β系数:Y = β0 + β1Mv + β2P1 + β3P2 + β4P3 + β5C + ϵ
  7. 其中Y是一个(n x 1)向量,代表感兴趣位点感兴趣的蛋白质的蛋白质、磷酸化或乙酰化丰度;M是一个二元向量,表示每个样本感兴趣位点的种系变异状态(v);P1-3表示用于患者遗传祖先确定的第一个三个主成分(基于WES);C是样本的一热编码癌症类型。
  8. 误差(ϵ)假定服从具有常数方差的正态分布。
  9. 肿瘤样本和匹配的NAT样本分别进行了测试。
  10. 还进行了癌症类型特异性分析。
  11. 所有得到的p值都使用标准Benjamini-Hochberg程序调整为FDR。
  12. 这些测试的结果见表S3。
Para_02
  1. 我们同样使用上述方法,测试了来自直接/邻近/远端分析的高亮变异对它们在京都基因与基因组百科全书(KEGG)通路中的伙伴蛋白质和磷酸化蛋白质丰度的影响。
  2. 具体来说,我们评估了"mTOR信号传导"对于DEPTOR S389N(hsa04150),"ErbB信号传导"对于ERBB2 P1170A(hsa04012),"MAPK信号传导"对于MAP2K2 P298L(hsa04010),"抗原加工和呈递"对于HLA-B V69A(hsa04612),"细胞凋亡"对于CASP8 D344H(hsa04210),以及"细胞周期"对于ATRX E929Q(hsa04110)。
  3. 由于MGMT不是任何KEGG通路的成员,因此未对其进行测试。
  4. 类似地,我们也未测试SBDS,因为其仅属于通用的"真核生物核糖体生物发生"通路。
  5. 分析是在泛癌症和特定癌症水平上进行的,在这两种情况下,我们都需要至少在变异携带者和非携带者中各有5次观察才能进行测试。
  6. 得到的p值使用标准的Benjamini-Hochberg程序进行了FDR调整,并且所有来自一般线性模型且FDR≤0.05的命中结果均根据携带状态优先用于绘图。
  7. 对携带者组之间的成对Wilcoxon检验也进行了执行以供绘图,FDR调整后的p值包含在箱形图中。
Para_03
  1. 为了确定携带影响PTM的种系变异的基因是否表现出任何生物学偏倚,我们对MiSigDB Hallmark集合和Wiki Pathways中的精选通路进行了过度表达分析。
  2. 对于直接重叠于导致磷酸化丢失和获得的PTM位点的基因中的变异,背景基因集被定义为在磷蛋白组数据中检测到的所有基因。
  3. 所有在PTM数据中检测到的乙酰化蛋白质同样用于调整经历乙酰化位点丢失或获得的基因的背景。
  4. 使用R包clusterProfiler v4.4.2分别对每种PTM类型和后果组单独进行这些分析。
  5. 结果限制在一个0.05的FDR调整p值截止值和一个0.1的q值截止值。
  6. 对邻近和远端事件进行了类似的分析。
  7. 在这种情况下,携带位于PTM位点附近或远端变异的基因被用作测试基因集,每个组单独测试。
  8. 背景基因集和显著性截止值如上所述定义。
HotSpot3D / HotPho analyses

HotSpot3D / HotPho 分析

Input PTM data
Para_01
  1. 在这里,我们收集了在我们的CPTAC队列中至少一个样本的参考肽和变异肽上检测到的每一种PTM位点的信息,通过对我们蛋白质组学LC-MS/MS数据的分析(更多详情见蛋白质组学LC-MS/MS数据分析STAR方法部分)。
  2. 总共,我们检测到了8,046个PTM位点(7,353个磷酸化位点和693个乙酰化位点)位于受影响的种系SNV或插入缺失突变的变异肽上。
  3. 然而,为了进行HotSpot3D/HotPho分析,我们排除了受影响的种系插入缺失突变的变异肽上的PTM位点。
Para_02
  1. 我们获得了在我们的CPTAC队列中至少一个样本中检测到的141,330个独特的磷酸化位点,其中134,244个位于参照肽上,7,086个位于受种系SAAV影响的变异肽上。
  2. 至于乙酰化位点,我们获得了23,756个独特的乙酰化位点,其中23,190个位于参照肽上,566个位于受种系SAAV影响的变异肽上。
  3. 此外,由于HotSpot3D72工具所需格式的原因,对同一肽序列上检测到的位点视为单独的个体位点,这使得总的磷酸化位点数量变为168,423个(在参照肽和变异肽上分别为123,676个),乙酰化位点数量变为24,109个(在参照肽和变异肽上分别为23,646个和639个)。
  4. 在这之中,123,676个磷酸化位点和23,646个乙酰化位点是唯一的,并被用作HotSpot3D/HotPho的输入。
  5. 为了在UniProt知识库(UniProtKB,版本2023_01)79和我们的数据集之间映射不同蛋白质异构体上的氨基酸残基,我们使用了Transvar175,这使我们能够将它们映射到其独特的基因组位置。
Input somatic mutation and germline variant data
Para_01
  1. 从上述通过全外显子组测序检测到的体细胞突变和种系变异中,我们筛选了错义单核苷酸事件。
  2. 因此,从全外显子组测序数据中分别检测到的总计345,653个体细胞突变和27,104,152个种系变异中,我们选择了183,503个错义体细胞突变和11,962,341个错义种系变异作为输入,用于HotSpot3D/HotPho分析,这些样本来自10种癌症中的1,064个样本。
PDB and AlphaFoldDB structures
Para_01
  1. 我们使用了GRCh38组装和Ensembl发布100(Gencode v34)来预处理两个数据库中所有人类蛋白质的残基对数据:(1)截至2021年6月24日的RCSB蛋白质数据库(RCSB PDB - 77,78),其中包含7,780种蛋白质的PDB结构;以及(2)截至2023年3月16日的AlphaFold蛋白质结构数据库(AlphaFoldDB - AFDB - 75,76)v4版,其中包含来自UniProt中的19,966种蛋白质的预测蛋白质结构。
  2. 对于PDB,我们根据以前的描述过滤掉了由于人工制品导致的链或结构。
  3. 对于AFDB,HotSpot3D的算法从数据库网页版本中提取信息,该版本为最长可达2700个氨基酸的蛋白质提供信息。
  4. 对于那些超过2700个氨基酸的蛋白质,AFDB提供了重叠片段,每个片段长度为1400个氨基酸,在这里使用的网页版本中仅提供前1400个氨基酸的信息。
Quality control
Para_01
  1. 正如之前所述,HotSpot3D/HotPho 需要输入一个文件,该文件包含所有感兴趣的PTM位点信息,每个位点包括以下信息:HUGO基因符号、对应的Ensembl转录本ID、蛋白质残基位置以及该位点的总结描述(例如磷酸丝氨酸、乙酰赖氨酸等)。然后,这些信息连同输入的种系变异和体细胞突变信息一起通过软件,用于发现突变与位点之间的成对关系。
  2. 为了这些分析的目的,我们使用"突变"这个词来描述体细胞和种系事件。
  3. 对于PDB,因为数据库中上传者提供的结构并不总是直接映射到相关的Uniprot条目,HotSpot3D/HotPho计算了PDB结构和转录本中的残基数偏移。
  4. 对于AFDB,因为我们处理的是计算预测的结构,数据库结构和Uniprot条目中相同位置的残基可能并不总是完全匹配。
  5. 因此,我们过滤掉了任何PDB或AFDB结构中提供的残基与输入磷酸化或乙酰化位点数据中提供的残基不匹配的位点,最终得到以下结果:(1) PDB:41,748个突变-突变对,13,072个突变-位点对(排除4,625个),11,328个位点-位点对(排除5,414个);(2) AFDB:110,255个突变-突变对;29,888个突变-位点对(排除3,282个),32,946个位点-位点对(排除4,972个)。
Cluster discovery and filtering
Para_01
  1. 我们实施了HotSpot3D和HotPho来允许错义种系变异体和体细胞突变与蛋白质结构上的磷酸化和乙酰化位点进行共聚类(图4A),正如之前所描述的那样。
  2. 简而言之,我们使用HotSpot3D通过PDB中的结构以及来自AFDB的预测结构计算突变和PTM位点之间的三维距离。
  3. 在此过程中,错义变异体和PTM位点被视为节点,它们之间的三维距离视为无向图中的边。
  4. 然后使用Floyd-Warshall最短路径算法和递归作为顶点类型,以及HotSpot3D中实现的聚类距离为10Å来计算这些簇。
  5. 这些分析产生了总计15,132个未过滤的簇,跨越4,409个独特的蛋白质,使用PDB结构(2,084个仅位点簇,9,558个仅突变簇,3,490个混合簇),以及在15,655个独特蛋白质中使用AFDB结构产生的96,719个未过滤的簇(14,788个仅位点簇,62,437个仅突变簇,19,494个混合簇)。
Para_02
  1. 我们进一步根据聚类紧密度得分(Cc)筛选了聚类,高得分表示在三维蛋白质结构上富集突变和PTM位点的聚类。这里我们使用阈值为前5%来选择高置信度的分子内聚类进行下游分析,如先前的HotSpot3D和HotPho研究所述。72,73
  2. 这生成了最终的210个杂交聚类,509个仅突变聚类,以及111个仅位点聚类来自PDB,并且978个杂交聚类,3126个仅突变聚类,以及731个仅位点聚类来自AFDB。这些结果在表S4中提供。
Impact on protein abundance analyses
Para_01
  1. 我们应用了一个线性模型来评估在同一分子内簇中共定位突变和/或PTM位点的携带者与非携带者之间的蛋白质丰度水平差异。
  2. 我们运行了该模型以学习β系数如下:Y=β0+β1Mv+β2P1+β3P2+β4P3+β5C+β5N+ϵ
  3. 其中Y是一个(n x 1)向量,代表感兴趣簇中感兴趣蛋白的蛋白质丰度;M是一个二进制向量,表示每个样本的共定位状态(v),即如果一个样本在特定簇中有任何事件共定位,则将其归入此处;P1-3表示用于确定患者遗传祖先的第一到第三个主成分(基于WES);C是样本的一热编码癌症类型,N是通过GISTIC2确定的被测试基因的CNV值。
  4. 误差(ϵ)假定为具有常数方差的正态分布。
Para_02
  1. 同样地,我们对不同癌症类型进行了特定分析,在这些分析中,我们评估了参与杂交簇的种系和体细胞变异对携带者与非携带者之间蛋白质丰度水平的影响,以发现可能与某种癌症类型相关的遗传改变。
Para_03
  1. 由于本文档中提到的限制,没有进行磷酸化和乙酰化水平的分析(参见研究局限性)。
Allele specific expression analysis using RNA-seq data

使用RNA测序数据进行等位基因特异性表达分析

Para_01
  1. 为了基于RNA测序识别等位基因特异性表达(ASE)事件,我们使用了1,057个肿瘤样本和340个正常邻近组织(NAT)样本的可用RNA测序数据。
  2. 在这些分析中,我们仅使用了与癌症相关的基因中的单核苷酸变异(SNVs)(624个癌症相关基因17)。
  3. 首先,种系变异被过滤到在以下三个数据集中检测到的那些:蛋白质组、磷酸化蛋白质组或乙酰化蛋白质组。
  4. 接下来,我们使用bam-readcount(版本0.7.4,参数-q 10,-b 15和-i,使得重叠插入的读取不包括在每碱基计数中)计算每个样本RNA测序BAM文件中每个变异的读取次数。
  5. 我们只保留了至少有10次读取次数覆盖参考和替代等位基因的变异用于此分析。
  6. 然后,为了识别ASE事件,我们在伯努利实验中进行了双侧二项式检验,成功的零假设概率为0.5。
  7. 使用BH过程调整所得的p值,并且如果达到FDR<0.05,则将ASE事件称为显著。
Indel variant analysis

插入缺失变异分析

Para_01
  1. 根据种系 MAF 文件(上述方法部分)测量了插入缺失计数的汇总统计,并且仅限于以前描述的大组与癌症相关的基因。
Para_02
  1. 通过将变异映射到外显子并根据位置(第一、中间或最后一个外显子)进行标记来执行插入缺失定位。
  2. 当一个基因仅由1或2个外显子组成时,则将其标记为第一个和最后一个,而不会收到中间标签。
  3. 基于Ensembl v100.191所记录的外显子大小,计算了每个基因中外显子内部突变的相对位置。
  4. 测量了靠近最后一个外显子连接处的倒数第二区域(距离最后一个外显子连接点[EJC] <50bp)。
  5. 这适用于框架移位突变以及在种系MAF文件中标注的预测框内突变(参见上文STAR方法-从WES的种系变异调用和过滤)。
  6. 再次使用Ensembl基因注释,根据相对于最后一个外显子起始位置的相对位置确定突变是否被分配到倒数第二位置。
  7. 估计并绘制了核密度信息,以识别框内突变和框架移位突变的基因位置差异(图6B)。
Para_03
  1. 我们还开发了两种简单的算法来发现这些种系变异对蛋白质丰度的影响。
  2. 第一种方法旨在通过观察上游和下游肽水平的丰度来确定插入缺失的影响。
  3. 简单地说,我们在第一次分析中使用t检验作为核心。
  4. 其次,我们试图找出相对于RNA表达对蛋白质丰度有影响的突变。
  5. 下面我们将概述多组学线性判别分析(moLDA)的实施,以实现这一目标。
Para_04
  1. 我们使用了以下标准来发现那些具有可变上游和下游插入缺失后果的变异。
  2. 首先,我们将插入缺失变异限制在那些根据VEP注释预测为移码、剪接区或蛋白质改变的变异(详见上述STAR方法中的种系变异调用和过滤)。
  3. 接下来,我们将搜索范围限制在至少在20个样本中观察到的变异。
  4. 我们确保只包括那些上游和下游至少有6个测量肽段的变异。
  5. 然后,我们基于t检验的结果将数据分为两组,显著区别于上游肽段丰度与下游肽段丰度。
  6. 所有满足这些标准的插入缺失和基因的p值和95%置信区间见表S6。
Para_05
  1. 我们实施的第二种策略是利用假设的RNA表达与蛋白质丰度之间的关系来找到突变明显符合预期关系的例子。
  2. 为了实现这一目标,我们实施了多组学线性判别分析(LDA)来根据RNA和蛋白质丰度对插入缺失状态进行分类。
  3. 简而言之,LDA是一种用于基于一组预测变量对观察对象进行分类或预测的方法。
  4. 它的目的是找到一个预测变量的线性组合,最大限度地分离两个不同的群体。
  5. 在这里,群体被定义为插入缺失携带者和非携带者,而预测变量是蛋白质丰度和RNA表达。
  6. 首先,我们确保对于给定基因(在同一染色体上),超过30个样本同时具有RNA和蛋白质丰度测量。
  7. 接下来,排除所有没有至少6个带有突变的样本且至少6个不带有突变的样本的突变。
  8. 在数据整合步骤之后,我们将RNA表达与蛋白质丰度合并,然后使用MASS R库中的lda函数来找到基于突变状态分离的蛋白质和RNA的线性组合(图6E)。
  9. 根据奇异值分解(SVD)得分对基因和突变进行了优先排序,该得分提供了更高的分数以改善预测变量之间的分离(表S6)。
Identification of expression and protein quantitative trait loci (eQTLs and pQTLs)

表达和蛋白质定量性状位点(eQTLs 和 pQTLs)的识别

Para_01
  1. 我们进行了数量性状位点(QTL)映射,利用MatrixeQTL中的线性回归模型来识别影响肿瘤和正常组织中基因表达(eQTL)和蛋白质丰度(pQTL)的常见生殖系遗传变异。
  2. 为此,我们使用了WGS生殖系SNP,其MAF≥5%,并包括性别和十个主成分作为协变量以调整种群分层。
  3. 我们分别分析了每种癌症和每种组织的数据。
  4. 具体而言,我们对ccRCC、HNSCC、LSCC、LUAD和PDAC的肿瘤和正常组织进行了eQTL和pQTL分析,这些癌症既有基因表达数据又有蛋白质丰度数据(由于PDAC患者的正常数据样本数量有限,不包括PDAC患者正常组织的eQTL分析)。
  5. 对于eQTL分析,我们利用了来自RNA-Seq数据的FPKM标准化基因表达,如泛癌数据和资源及泛癌驱动论文中所述,并进一步进行了TPM转换、分位数标准化和逆正态变换以去除技术噪音并允许跨样本比较。
  6. eQTL分析包括那些基因型和基因表达数据可用且至少在20%的样本中TPM > 0.1的个体(表S7A)。
  7. 为了消除表达数据中的隐藏决定因素,我们还使用PEER软件选择了15个PEER因子作为协变量。
  8. pQTL分析包括那些基因型和蛋白质丰度数据可用且至少在20%的样本中有数据的蛋白质(表S7A)。
  9. 我们认为FDR≤1%的QTL是显著的,并将距离基因转录起始位点1Mb内的变异视为顺式QTL。
  10. 显著的eQTL可以在https://immuneregulation.mssm.edu/上查看。
  11. 此外,我们基于ccRCC、HNSCC、LSCC和LUAD CPTAC队列中有趣基因(ERAP2、HLA-DQB1和PPIL3)的表达进行了总体生存分析,使用了最佳截止值和Kaplan-Meier Plotter。
  12. 我们还使用Kaplan-Meier Plotter评估了TCGA队列中表达与总体生存之间的相关性。
Colocalization Analysis of eQTLs and pQTLs
Para_02
  1. 我们进行了共定位分析,以确定在某些感兴趣的基因中,顺式-eQTLs和pQTLs中的领先变异是否相同,使用的是'coloc' R包的coloc.Abf函数。我们使用了默认先验概率值,即单个SNP仅与基因表达相关、仅与蛋白质丰度相关以及与两者都相关的概率。
  2. 我们应用了默认值作为SNP与基因表达相关、与蛋白质丰度相关或同时与两者相关的先验概率。
Polygenic Risk Scores and associations with protein abundance

多基因风险评分与蛋白质丰度之间的关联

Para_01
  1. 总结统计包括风险等位基因、保护性等位基因、比值比(OR)和注释基因,这些是从每个癌症类型的最大全基因组关联研究中获得的。这包括ccRCC、PDAC、UCEC、GBM、LUAD和LSCC,总计133个风险变异(表S7H)。
  2. 对于LUAD和LSCC使用了相同的全基因组关联研究,因为这项发现研究包含了两种肺癌亚型病例的平衡混合。
  3. 每种癌症类型的多基因风险评分(PRS)是通过PLINK 2.0中的评分程序计算的,通过效应大小对每个变异位点的等位基因剂量进行加权。
Para_02
  1. 首先,我们通过整合CPTAC和UKBB数据集检查了PRS的辨别能力。为了控制人口结构,对于这些特定分析,我们在两个数据集中都选择了欧洲血统的个体。
  2. 对于每种癌症类型,我们将相应亚型的PRS与以下进行了比较:a) CPTAC中其他癌症类型的患者;b) UKBB中被诊断为癌症的个体;c) UKBB中未被诊断为癌症的个体。
  3. 在五种测试的癌症中有三种,即PDAC、GBM和LSCC,在相应的CPTAC患者中的PRS显著高于对照组(图S7B)。
  4. 在后续分析中,我们重点关注这三种癌症。
Para_03
  1. 我们使用线性模型确定了与PRS有显著关联的肿瘤蛋白。
  2. 为了避免隐藏变量导致蛋白质丰度矩阵中的协方差效应,我们首先进行了主成分分析。
  3. 考虑到研究中样本量相对于潜在协变量数量相对较大,我们进行了监督选择,以确定纳入线性模型的协变量。
  4. 我们测试了PRS以及蛋白质丰度的前十个主成分(PCs)与相关临床、人口统计和分子变量之间的相关性,包括:遗传祖先(前10个PCs)、诊断时年龄、性别、肿瘤纯度以及对于肺癌患者还包括吸烟情况。
  5. 在线性模型中,我们仅将那些显示出与相应PRS和/或蛋白质组学PCs显著相关的协变量作为协变量。
  6. 鉴于我们对种系变异的兴趣(这些变异存在于不同的肿瘤区域),尽管肿瘤纯度与相应的PRS有显著相关性,但并未将其纳入任何模型。
  7. 我们排除了在个体之间超过20%的数据缺失的蛋白质。
  8. 我们使用R中的lm()函数,采用以下设计估计每个蛋白质的PRS效应:lm(蛋白∼PRS_GMB+祖先PC1+祖先PC2+祖先PC3+祖先PC5+祖先PC7+祖先PC10+年龄+蛋白质PC1+蛋白质PC2+蛋白质PC3+蛋白质PC4+蛋白质PC8)
  9. lm(蛋白∼PRS_LSCC+祖先PC6+蛋白质PC1+蛋白质PC3+蛋白质PC7+蛋白质PC9)
  10. lm(蛋白∼PRS_PDAC+祖先PC1+祖先PC2+祖先PC4+祖先PC5+年龄+蛋白质PC2+蛋白质PC3+蛋白质PC4+蛋白质PC5+蛋白质PC6)
Para_04
  1. 错误发现率通过使用 fdrtool R 包从 p 值中估计得出。
  2. STRINGdb R 包(版本 11.5;https://www.string-db.org)用于推断蛋白质-蛋白质相互作用网络,并计算与 PRS 相关的顶级蛋白质之间的相互作用富集度。该数据库包含 19,566 种蛋白质和超过 290 万种相互作用。
  3. 超过 93% 的查询蛋白质存在于 STRING 数据集中。
  4. 我们使用 ReactomePA R 包(版本 19.7)对 Reactome 通路进行了基因集富集分析(GSEA),进行了 10,000 次置换,并采用 0.05 的显著性阈值和 BH FDR 调整。
  5. 根据 PRS 得分的中位数,使用 survminer 和 survival R 包生成了无病生存期和总体生存期图。
  6. (未翻译部分:survminer 版本 0.4.9;https://github.com/kassambara/survminer 和 survival;https://github.com/therneau/survival)。

Additional Resources

额外资源

Para_01
  1. CPTAC项目的综合信息,包括项目计划、研究人员和数据集,在CPTAC项目网站上均可获得:https://proteomics.cancer.gov/programs/cptac。
  2. ,
Para_02
  1. 对于泛癌症蛋白质基因组学集合论文,以及与这些出版物相关的数据和补充材料链接,请访问蛋白质数据公共平台(PDC)https://pdc.cancer.gov/pdc/cptac-pancancer 和癌症研究数据公共平台 https://dataservice.datacommons.cancer.gov/#/data。

Supplemental information

Para_01
  1. 下载:下载压缩文件(12MB)
  2. 文档 S1。表格 S1-S7。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CancerCell | 多组学癌症分子分型,可惜没公开代码
◉ 图1. NF-PanNETs的蛋白基因组景观 (A) 示意图展示了通过全外显子测序(WES)、RNA-seq以及基于质谱的定量蛋白质组学和磷酸化蛋白质组学分析,在发现和验证队列中分析的样本数量和分子特征。WES分析中标注了总的非沉默体细胞简单突变的数量。样本选择程序见图S1A。◉ (B) Oncoplot展示了NF-PanNETs的基因组图谱,包括PanNET癌症基因的体细胞简单突变(按突变频率排序)以及频繁的大范围缺失。每个病例的肿瘤突变负荷(TMB,每兆碱基体细胞简单突变的数量)显示在顶部,右侧边栏标注了个别基因组改变的频率,底部显示了临床变量。◉ (C) 箱线图展示了通过使用大块组织样本(上两部分)和激光捕获显微切割(LCM)获得的显微切割样本(下部)分析,NF-PanNET肿瘤(T)中典型神经内分泌标志物的上调情况。NAT表示正常邻近组织。p值通过双侧Wilcoxon符号秩检验计算。∗p < 0.05, ∗∗p < 0.01, ∗∗∗p < 0.001 和 ∗∗∗∗p < 0.0001。◉ (D) 气泡图展示了通过使用大块样本(左)和显微切割样本(右)的蛋白质组学数据比较肿瘤和配对NAT的GSEA结果。显著上调的癌症标志性通路(FDR < 0.25)在任意一种比较中均被展示,颜色按照显著通路的标准化富集分数(NES)进行缩放。◉ (E) 在NF-PanNETs中mRNA水平与蛋白质丰度之间的基因相关性分布(顶部),以及富集的癌症标志性通路、KEGG和Reactome通路的相关系数指示(底部)。◉ (F) 分别展示了肿瘤(红色)和NAT(蓝色)中基因层面的mRNA-蛋白质相关性的分布。另见图S1。
生信菜鸟团
2025/04/18
1120
CancerCell | 多组学癌症分子分型,可惜没公开代码
Genome Biology | 药物基因组学数据库
近日来自Genome Biology的一项研究中提出了一个综合数据库:My Personal Mutanome (MPM),用于加速精准癌症医学方案的开发。MPM提供了基于网络的诊断和药物基因组学方法,用来了解临床环境中复杂的基因型-表型关系和治疗反应,有望促进肿瘤发生的可操作突变的鉴定和人类相互作用组水平的个体化治疗。
智能生信
2021/03/03
7840
Genome Biology | 药物基因组学数据库
CPTAC蛋白质组学数据库中的海量资源
引言:蛋白质组是生命活动的物质基础,对蛋白质的研究能为疾病机制、治疗探究提供较基因组研究更加直接的证据。CPTAC(clinical proteomic tumor analysis consortium ,临床蛋白质组肿瘤分析协作组) 整合基因组和蛋白组的数据,为从蛋白质层面进行探究提供了丰富的资源。
科研菌
2020/07/02
5.7K0
Cell:人肺腺癌的综合蛋白组学特征
肺腺癌(LUAD)的基因组研究提高了我们对疾病生物学的理解,加速了靶向治疗。然而,人们对LUAD的蛋白质组学特性知之甚少。本研究通过对蛋白质组、磷酸化蛋白质组、转录组和全外显子组测序数据进行综合分析来揭示癌症相关特征,并指出三个亚型(S-I、S-II和S-III)与不同的临床和分子特征有关。
作图丫
2022/03/29
9150
Cell:人肺腺癌的综合蛋白组学特征
一文全面了解蛋白质组学,从单细胞到临床应用 | Nature 综述
◉ 蛋白质从包括单细胞、组织和体液在内的样品中提取,并使用特定的蛋白水解酶消化成肽。◉ 在多重分析时,这些肽通过化学方法用稳定同位素标记的标签进行标记。◉ 样本制备过程的自动化提高了蛋白质组学分析的稳定性和通量。◉ 然后,标记或非标记的肽混合物经过先进的LC分离,包括微柱阵列柱(µPAC)和预形成梯度的LC。◉ 分离后的肽在不同的保留时间(RT)从LC系统中洗脱出来,并进行DDA或DIA分析用于发现应用,或者针对非发现应用如临床检测进行靶向MS分析。◉ 所描述的质谱硬件包括最新的混合仪器,如timsTOF和Astral仪器,它们结合了被困离子迁移率分离或Orbitrap与飞行时间质量分析器,以促进增强的蛋白质鉴定和定量。◉ 该工作流程应用于探索蛋白质相互作用网络并实现全面的生物体蛋白质组研究,将分子数据与生物学功能和疾病机制联系起来。
生信菜鸟团
2025/03/06
5200
一文全面了解蛋白质组学,从单细胞到临床应用 | Nature 综述
太全面了!顶刊综述教你如何从 PPIs 角度研究癌症 | Nat.Rev.Cancer
◉ a–c,肿瘤驱动基因AKT1(a)、PIK3CA(b)和IDH1(c)中的热点突变在相关蛋白质结构上显示出来。翻译为表面暴露残基的氨基酸替换突变在相关晶体结构上进行了注释和标记(蛋白质数据库(PDB)ID:4EJN(AKT1),7PG5(PIK3CA)和5YFN(IDH1))。主要突变在晶体结构上以红色突出显示并标记。◉ AKT1中的E17K替换导致增强的质膜关联和mTORC1信号传导,促进乳腺癌细胞的增殖和生长(a)。同一个驱动基因中的多个热点突变可以存在于不同的结构域中,导致多条通路的改变(b)。◉ PIK3CA在螺旋结构域内的E542或E545处的替换突变以RAS依赖的方式促进宫颈癌和头颈癌的生长。在激酶结构域内,H1047R突变通过增强膜募集促进RAS非依赖性PIK3CA激活,从而促成乳腺癌转移。◉ 同一热点位置的不同替换可能对蛋白质结构和生化活性产生相似或不同的影响(c)。由突变引起的IDH1(R132C)通过R132C上调的新酶活性促进急性髓系白血病(AML)和其他携带R132C癌症的肿瘤发生,并大幅增加R(2)-2-羟基戊二酸(2HG)致癌代谢物。◉ 相反,IDH1(R132H)突变是胶质瘤中最常见的突变,与抑制细胞增殖和下调WNT–β-catenin信号传导有关,导致侵袭性较低的表型。这些图谱是使用cBioPortal基于癌症基因组图谱泛癌图谱数据创建的。PIP3,磷脂酰肌醇3,4,5-三磷酸。
生信菜鸟团
2025/03/28
1350
太全面了!顶刊综述教你如何从 PPIs 角度研究癌症 | Nat.Rev.Cancer
Cell | 蛋白质-蛋白质相互作用在健康和疾病中的发现及其意义
生信菜鸟团
2024/11/23
2410
Cell | 蛋白质-蛋白质相互作用在健康和疾病中的发现及其意义
Broad 研究所刚发表网页工具,一个将遗传筛选结果与蛋白质序列和结构相连接的资源与发现工具
生信菜鸟团
2024/11/23
2350
Broad 研究所刚发表网页工具,一个将遗传筛选结果与蛋白质序列和结构相连接的资源与发现工具
对35种癌症的10,478名患者基因组进行候选驱动基因识别,英国10万基因组项目
生信菜鸟团
2024/11/23
1250
对35种癌症的10,478名患者基因组进行候选驱动基因识别,英国10万基因组项目
癌症的表观遗传标志,CancerDiscov招牌Hallmarks系列最新综述
生信菜鸟团
2024/11/23
2400
癌症的表观遗传标志,CancerDiscov招牌Hallmarks系列最新综述
综述 | 肿瘤缺氧促进基因组不稳定性和肿瘤进化
◉ 缺氧条件会导致细胞代谢的改变,从氧化磷酸化转向糖酵解(方框 1)。肿瘤内的缺氧亚区域也引发了一系列对基因组完整性的细胞内效应(左侧)。这包括减少 DNA 修复、DNA 复制压力和核苷酸突变(方框 2)。缺氧水平的增加伴随着拷贝数变异的增加、染色体不稳定性和表观遗传修饰的增加。肿瘤微环境由多种细胞类型(免疫细胞、基质细胞和内皮细胞)组成,并且在常氧与缺氧区之间可能有所不同。◉ 动态的缺氧梯度的存在引发了一系列细胞和组织反应,包括在严酷的低氧(O2)环境中细胞适应与细胞死亡之间的平衡、变化的免疫监视、不同的血管生成和灌注以及侵袭性和转移性表型的获得(中间)。这些过程共同驱动了患者内部的异质性。在具有相似肿瘤类型的患者群体中,缺氧的存在与否将决定对局部治疗(手术或放疗)、化疗、靶向治疗和免疫治疗的相对患者间异质性(右侧)。◉ 考虑到这些各种各样的细胞、肿瘤和宿主效应,缺氧伴随着更差的临床预后并不令人惊讶,因为这是由于在适应低 O2 水平期间出现的突变和侵略性表型。CAF,癌症相关成纤维细胞。
生信菜鸟团
2025/04/18
1380
综述 | 肿瘤缺氧促进基因组不稳定性和肿瘤进化
做科研,蛋白磷酸化修饰是研究的重点之一
蛋白修饰是蛋白质功能调控的重要机制,对于生物学研究和药物开发具有重要意义。以下是一些与蛋白修饰相关的数据库资源:
cytotry
2024/12/15
1580
做科研,蛋白磷酸化修饰是研究的重点之一
现在发在NG上的癌症全面基因组分析跟几年前的有什么不同?
生信菜鸟团
2025/02/18
1250
现在发在NG上的癌症全面基因组分析跟几年前的有什么不同?
Cell | 蛋白质-蛋白质相互作用的发现及其在健康与疾病中的重要意义
蛋白质-蛋白质相互作用(PPIs)的研究始于40多年前,通过蛋白质亲和层析和抗体共免疫沉淀等方法逐步展开。随着技术的进步,PPIs的分析从单个相互作用扩展到基因组范围,得益于细胞内标记技术、亲和纯化-质谱(AP-MS)以及共分级质谱(CF-MS)的应用。目前,结合交联质谱(XL-MS)和冷冻电子显微镜(cryo-EM)等方法,可以更精确地区分直接和间接的蛋白质相互作用。这些先进技术,加上人工智能工具(如AlphaFold)的应用,预示着未来对PPIs及蛋白质复合物的深入理解将为基础生物学和疾病研究带来全新洞见。
DrugAI
2024/11/26
3100
Cell | 蛋白质-蛋白质相互作用的发现及其在健康与疾病中的重要意义
图解表观遗传学 | 组蛋白修饰
细心的你们一定会发现在每种组蛋白结构都会伸出来一小段“线头”,这是蛋白质的N端,也叫尾巴(tail)。
生信菜鸟团
2021/01/05
1.7K0
全基因组测序分析鉴定出与循环蛋白水平相关的罕见、大效应非编码变异和调控区域
◉ 显示顺式变异与循环蛋白水平相关性的曼哈顿图,调整了相关的常见变异和同源基因的所有编码变异后。◉ a-e,x轴表示基因组位置,y轴显示我们所有蛋白质的顺式结果的-log10P双侧值,分为单个变异(a),编码聚合体(b),以基因为中心的调控(近端)聚合体(c),基因间和内含子调控聚合体(d)以及滑动窗口聚合体(e)。◉ 红线代表Bonferroni显著性阈值(单个变异为P ≤ 2.95 × 10−10,聚合测试为P ≤ 8.71 × 10−9)。◉ P值来自混合线性模型的双侧检验。
生信菜鸟团
2025/04/04
1300
全基因组测序分析鉴定出与循环蛋白水平相关的罕见、大效应非编码变异和调控区域
几项泛癌基于突变的网络模块分析汇总
今天为大家介绍2013年Nature Methods、SCIENTIFIC REPORTS、nature structural & molecular biology、Nature Genetics发布的几项关于泛癌网络模块分析的研究。
作图丫
2022/03/29
3520
几项泛癌基于突变的网络模块分析汇总
综述 | 乳酸:免疫反应的关键调节因子
图片说明◉ 图1. 乳酸相关出版物和里程碑的趋势 这张图表显示了专注于乳酸的科学出版物数量的增加,突出了多年来显著的增长。关键时间点被标记出来,以表明我们对乳酸生物功能理解的重要进展。◉ 具体年份标有出版物数量,以强调研究兴趣加速的时期。值得注意的里程碑包括瓦博格效应的最初发现,随后是乳酸对免疫调节影响的发现,以及最近关于乳酸信号作用的见解及其作为疾病治疗靶点的潜力。
生信菜鸟团
2025/05/09
1300
综述 | 乳酸:免疫反应的关键调节因子
读书笔记 | 癌症计算系统生物学 | Chapter 02 癌症分子生物学的基本原理
人体由数千种细胞类型和数十亿个不同的细胞组成,这些细胞构成了许多组织。这些细胞根据信息流的程序完成其特定功能,该信息流由 Crick (1970) 在分子生物学中心法则 (central dogma of molecular biology) 中提出(参见附录)。癌细胞由这些正常细胞演变而来。癌症被分为四个主要类别,依据的是癌细胞来源的正常细胞类型。
生信菜鸟团
2024/11/23
1440
读书笔记 | 癌症计算系统生物学 | Chapter 02 癌症分子生物学的基本原理
新思路!27分Nature子刊教你分析肿瘤线粒体基因组
今天和大家分享的是2020年3月发表在Nature genetics(IF:27.603)上的一篇文章Comprehensive molecular characterization of mitochondrial genomes in human cancers,作者使用pan-cancer研究的WGS和RNA-seq数据,对癌症线粒体基因组进行了全面的分子表征。
生信菜鸟团
2020/11/19
3.9K0
新思路!27分Nature子刊教你分析肿瘤线粒体基因组
推荐阅读
CancerCell | 多组学癌症分子分型,可惜没公开代码
1120
Genome Biology | 药物基因组学数据库
7840
CPTAC蛋白质组学数据库中的海量资源
5.7K0
Cell:人肺腺癌的综合蛋白组学特征
9150
一文全面了解蛋白质组学,从单细胞到临床应用 | Nature 综述
5200
太全面了!顶刊综述教你如何从 PPIs 角度研究癌症 | Nat.Rev.Cancer
1350
Cell | 蛋白质-蛋白质相互作用在健康和疾病中的发现及其意义
2410
Broad 研究所刚发表网页工具,一个将遗传筛选结果与蛋白质序列和结构相连接的资源与发现工具
2350
对35种癌症的10,478名患者基因组进行候选驱动基因识别,英国10万基因组项目
1250
癌症的表观遗传标志,CancerDiscov招牌Hallmarks系列最新综述
2400
综述 | 肿瘤缺氧促进基因组不稳定性和肿瘤进化
1380
做科研,蛋白磷酸化修饰是研究的重点之一
1580
现在发在NG上的癌症全面基因组分析跟几年前的有什么不同?
1250
Cell | 蛋白质-蛋白质相互作用的发现及其在健康与疾病中的重要意义
3100
图解表观遗传学 | 组蛋白修饰
1.7K0
全基因组测序分析鉴定出与循环蛋白水平相关的罕见、大效应非编码变异和调控区域
1300
几项泛癌基于突变的网络模块分析汇总
3520
综述 | 乳酸:免疫反应的关键调节因子
1300
读书笔记 | 癌症计算系统生物学 | Chapter 02 癌症分子生物学的基本原理
1440
新思路!27分Nature子刊教你分析肿瘤线粒体基因组
3.9K0
相关推荐
CancerCell | 多组学癌症分子分型,可惜没公开代码
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档