前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Cell:对亚细胞蛋白质组进行全局表征,发现许多蛋白质是通过其空间分布的变化而非丰度变化来调节的

Cell:对亚细胞蛋白质组进行全局表征,发现许多蛋白质是通过其空间分布的变化而非丰度变化来调节的

作者头像
生信菜鸟团
发布2025-02-27 14:27:52
发布2025-02-27 14:27:52
1150
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:Global organelle profiling reveals subcellular localization and remodeling at proteome scale
  • 中文标题:全细胞器谱分析揭示了亚细胞定位及蛋白质组规模的重塑
  • 发表日期:20 February 2025
  • 文章类型:Resource
  • 所属期刊:Cell
  • 文章作者:Marco Y. Hein | Manuel D. Leonetti
  • 文章链接:https://www.sciencedirect.com/science/article/pii/S0092867424013448

Highlights

Para_01
  1. 用于细胞范围内的细胞器集合的天然免疫沉淀蛋白质组学
  2. 在19个亚细胞结构和器官界面解析了7600多种蛋白质
  3. 使用HCoV-OC43病毒感染重塑全局亚细胞组织
  4. 亚细胞重塑揭示了丰度变化未捕捉到的关键反应

Summary

Para_01
  1. 定义所有人类蛋白质的亚细胞分布及其在不同细胞状态下的重塑仍然是细胞生物学中的一个核心目标。
  2. 在这里,我们提出了一种高分辨率策略,使用细胞器免疫捕获结合质谱来绘制亚细胞组织图谱。
  3. 我们将这一工作流程应用于广泛收集的膜状和无膜细胞区室。
  4. 基于图的方法为超过7,600种蛋白质分配了亚细胞定位,定义了空间网络,并揭示了细胞区室之间的相互连接。
  5. 我们的方法可以部署用于全面分析细胞扰动期间的蛋白质组重塑。
  6. 通过表征HCoV-OC43病毒感染后的细胞景观,我们发现许多蛋白质是通过其空间分布的变化而非丰度变化来调节的。
  7. 我们的结果表明,对亚细胞重塑进行蛋白质组范围的分析为阐明细胞反应提供了关键见解,揭示了铁死亡在OC43感染中的重要作用。
  8. 我们的数据集可以在organelles.czbiohub.org上查询。

Graphical abstract

Keywords

  • spatial proteomics; cell biology; protein localization; native organelle IP; mass spectrometry; HCoV-OC43 coronavirus; viral infection; subcellular remodeling; k-NN graph; ferroptosis; CRISPR

Introduction

Para_01
  1. 内部区隔是人类细胞组织的一个基本特征。
  2. 在细胞内,膜结合的和非膜结合的细胞器提供了空间支架,将细胞功能分区,从线粒体中的氧化ATP生产到核仁中的核糖体生物发生。
  3. 这种分区将细胞划分为独特的化学环境,浓缩反应物并为广泛的生化活动创造适当的条件。
  4. 区隔进一步使细胞能够保护自身免受反应中间体和副产品的侵害(例如,过氧化物酶体将产生有毒氧化物种的代谢反应分离出来)。
  5. 并通过细胞成分的动态重新定位来控制细胞过程提供了一个核心机制。
  6. 获得细胞内细胞器是真核生物进化中的决定性事件,赋予了细胞大幅扩展的能力来重塑其组成并与环境互动。
Para_02
  1. 鉴于空间分区对于细胞功能的中心重要性,定义细胞器的分子组成以及这种组成如何在细胞状态之间进行重塑仍然是人类细胞生物学的主要目标。
  2. 因此,已经开发了多种方法来定义单个细胞区室的蛋白质组。
  3. 可以通过使用免疫荧光的显微镜成像或通过表达荧光蛋白融合物来敏感且精确地表征细胞内定位。
  4. 然而,这些分析通常是针对每种蛋白质使用定制试剂或细胞系依次进行的。
  5. 因此,基于图像的方法仍然难以实现全蛋白质组覆盖,限制了它们用于分析全局细胞结构及其重塑的能力。
  6. 另一方面,已经开发了许多策略来利用质谱法(MS)表征细胞器蛋白质组及其动态。
  7. 通过标记酶如APEX或BioID标记的标记物使用邻近连接可以定义局部蛋白质环境。
  8. 可以在免疫沉淀(IP)、连续溶解或生化分馏后进一步测量整个区室的蛋白质组成。
  9. 分馏可用于纯化特定细胞器以进行深入分析,或者使用蛋白质相关性分析来表征来自给定样品的所有细胞区室。
  10. 在相关性分析中,来自给定区室的蛋白质分布于几个分数中,其方式对该区室来说是独特的。
  11. 然后,统计方法被用来聚类表现出相似富集模式的蛋白质,从而识别属于同一区室的蛋白质。
Para_03
  1. 在这里,我们提出了一种实验和分析策略,用于对亚细胞蛋白质组进行全局表征。
  2. 我们使用基于CRISPR-Cas9的内源性标记技术来生成一个HEK293T人类细胞系文库,该文库表达覆盖所有主要亚细胞区室(包括无膜细胞器)的表位标记标志物。
  3. 我们的方法建立在最初为温和细胞匀浆后快速免疫沉淀溶酶体和线粒体的方法上。
  4. 我们将细胞器免疫沉淀与液相色谱-质谱联用(LC-MS)结合,以定量定义亚细胞蛋白质组。
  5. 通过将广泛的亚细胞结构覆盖与基于图的分析框架相结合,我们可以绘制蛋白质定位的全局细胞尺度图。
  6. 除了为特征不明确的蛋白质分配定位外,我们的策略还定义了连接相邻区室的互连网络。
  7. 最后,我们证明了我们的方法可以全面分析HCoV-OC43 β冠状病毒感染后动态蛋白质组重塑。
  8. 我们的结果显示,许多蛋白质是通过空间分布的变化而不是总丰度的变化来调节的,这表明对亚细胞重塑的全蛋白质组分析提供了关于细胞反应的关键见解。
  9. 特别是,我们确定了铁死亡作为一种对OC43感染至关重要的促病毒反应。
  10. 总体而言,我们提供了一套协议、开源代码(github.com/czbiohub-sf/Organelle_IP_analyses_and_figures)以及可在线访问的数据资源(organelles.czbiohub.org),用于系统级表征人类蛋白质组在不同细胞状态下的架构。

Results

IP under native conditions provides rich organellar proteomes

在自然条件下,IP 提供丰富的细胞器蛋白质组

Para_01
  1. 全细胞核免疫沉淀法使通过液相色谱-质谱分析线粒体蛋白质组、代谢物组和脂质组成为可能。
  2. 在原生工作流程中,细胞通过机械破碎,暴露细胞器的同时保持其结构完整性和内部组成。
  3. 开创性研究主要集中在单个膜结合细胞器上,包括线粒体、溶酶体、过氧化物酶体、早期内体和高尔基复合体。
  4. 在这里,我们将这一策略应用于给定细胞类型的各个隔室,以获得亚细胞人类蛋白质组图谱(图1A-1E)。
  5. 对于每个隔室,我们在HEK293T细胞中使用CRISPR-Cas9内源性标记参考蛋白标记物("诱饵"),生成工程细胞系阵列库(图1A和1B)。
  6. 标记盒包括一个102个氨基酸的无序连接子,以最大化捕获3xHA表位的暴露,并且荧光EGFP允许通过流式细胞术选择工程细胞以及使用标记细胞系进行成像(图S1A)。
  7. 所有标记物都标记在面向胞浆的末端,除了质膜标记物使用了细胞外末端(表S1)。
  8. 为了全面覆盖亚细胞隔室,我们标记了定位在14个膜结合或无膜细胞器和5个细胞质组装体中的37个独立标记物(图1D)。
  9. 我们根据三个标准选择了标记物:(1)标记物应该集体覆盖所有已知的细胞隔室,包括分泌和循环细胞器;
  10. (2)基于OpenCell集合的数据,每个标记物的预期定位和蛋白质-蛋白质相互作用谱可以在内源性标记后保持不变;
  11. (3)标记物应在广泛的细胞系中良好表达,以便同一套标记物可以用于不同的实验环境(图S1B)。
  12. 为了增加高效捕获每个细胞器的机会,我们对某些隔室使用了多个标记物(图1D)。
  13. 我们使用共聚焦荧光显微镜验证了最终库中每个标记标记物的亚细胞定位(图S1C;数据S1)。

图片说明

◉ 图1。天然免疫沉淀提供了丰富的富集谱,保留了细胞器的连接(A)内源性标记策略。(B)阵列化细胞库。(C)天然免疫沉淀工作流程。(D)用于全面覆盖亚细胞区室的37个标记物。(E)台式离心分离用于核、细胞器和胞质的富集。(F)基于洗涤剂(1%洋地黄皂苷)与天然IP的线粒体标记TOMM20的富集谱。火山图显示了单个蛋白质在TOMM20 IP中的对数2富集程度相对于对照(见STAR方法)。p值:t检验来自三重测量。(G)在天然与基于洗涤剂条件下TOMM20 IP中的富集命中物(对数2富集≥1且p值≤0.01)。(H)注释为位于不同亚细胞区室的蛋白质在TOMM20天然IP中的富集。除了线粒体蛋白外,过氧化物酶体和ER蛋白也显著富集(∗p≤0.05,t检验)。箱形图显示了第25/50/75百分位;须表示1.5倍四分位距。(I-K)同(F-H),显示EDC4的IPs,EDC4是一个p-身体标记物(无膜细胞器)。(L)热图显示了注释为位于不同亚细胞区室的蛋白质在不同天然IP中的对数2富集。另见数据S1。图1中使用的所有注释数据均为文献整理(表S2)。另见图S1。

图片说明

◉ 图 S1。与图 1 相关的标记蛋白质文库 (A) 线粒体免疫沉淀用的 N 端和 C 端标记盒。详见表 S1 中的序列。◉ 所有标记目标蛋白在 377 种癌症细胞系中的蛋白丰度,以每个细胞系表达的蛋白质组中百分位数值表示。◉ 37 个目标蛋白中有 35 个(95%)表达良好(中位数高于第 40 个百分位)。◉ 请注意,自噬标志物 ATG101 和 MAP1LC3B 只在部分细胞系中表达,我们将其归因于自噬体并非普遍存在于细胞中,而是仅在需要时特异性产生。◉ 箱线图显示了第 25、50 和 75 个百分位;须状图显示了 1.5 倍四分位距。◉ 图 S1(C) 标记的细胞器标记物的代表性共聚焦荧光显微镜图像。有关完整的标记库,请参见数据 S1 中的图像。◉ 图 S1(D) 显示单个免疫沉淀中蛋白质富集的火山图。有关完整的免疫沉淀库,请参见数据 S1 中的图。◉ 图显示了相对于无关对照的对数 2 富集倍数(STAR 方法)。p 值:t 检验。◉ 注释为定位于特定亚细胞区室的蛋白质被突出显示(基于图形的注释,详见表 S4)。◉ 免疫沉淀也可能富集来自其他未被突出显示区室的蛋白质。◉ 请注意,在我们的注释中,每个区室的定义不依赖于任何单一的免疫沉淀,而是由在整个高维数据集中表现出相同总体富集模式的蛋白质定义。◉ 因此,不应期望单个免疫沉淀会富集给定区室内注释的所有蛋白质。◉ 图 S1(E) 在 TOMM20 原生免疫沉淀中,特定类别的线粒体蛋白的对数 2 富集倍数。◉ MOM,线粒体外膜;IMS,膜间空间;MIM,线粒体内膜;基质:线粒体基质。◉ 图 S1(F) 在 RTN4(内质网)和 LAMP1(溶酶体)免疫沉淀中,膜蛋白与腔内蛋白的对数 2 富集倍数对比。

Para_01
  1. 每种标记细胞系的天然匀浆是通过注射器(23G针头)制备的,随后使用抗血凝素(HA)磁珠快速免疫沉淀(10分钟),并通过无标记LC-MS进行蛋白质定量(图1C;STAR方法)。
  2. 为了捕获可能因免疫沉淀程序而被排除的核蛋白和胞质蛋白,我们使用了一个简单的离心协议来富集未标记匀浆中的核(1,000 × g 沉淀物)、膜结合器官器(20,000 × g 沉淀物)和胞质(上清液)(N/O/C)部分(图1E)。
  3. 所有免疫沉淀和N/O/C分离均使用每个重复107个细胞进行了三次实验。
Para_02
  1. 定量分析揭示了每种细胞器免疫沉淀的丰富的蛋白质富集谱(图1F–1L;图S1D;STAR方法)。
  2. 线粒体外膜蛋白TOMM20的天然免疫沉淀显示982种蛋白质的富集(富集≥2倍,p值≤0.01,在三次实验中;图1F和1G),其中线粒体蛋白质的富集最大(图1H)。
  3. 这与在温和洗涤剂和核酸酶存在的缓冲液中的富集谱形成鲜明对比(图1G)。
  4. 天然TOMM20免疫沉淀显示跨所有线粒体亚结构的蛋白质富集(图S1E),验证了我们的工作流程保留了细胞器的结构完整性。
  5. 内质网和溶酶体免疫沉淀获得了类似的结果,显示膜和腔内成分的类似富集(图S1F)。
  6. 我们的数据显示,一些细胞器之间的接触在天然免疫沉淀条件下得以保持。
  7. 事实上,TOMM20免疫沉淀显示过氧化物酶体和内质网蛋白的适度但显著的富集,这两种细胞器在细胞中直接接触线粒体(图1H)。
  8. 相比之下,不接触线粒体的其他细胞器(如溶酶体或高尔基体)在TOMM20免疫沉淀中未见富集(图1H)。
  9. 对于无膜区室的免疫沉淀也得到了类似的结果。
  10. 例如,p体标记物EDC4的免疫沉淀显示已知p体蛋白的强烈富集,以及压力颗粒或胞质核糖体蛋白的较弱但统计上显著的富集,这两种区室已知与p体直接相互作用(图1I–1K)。
  11. 总体而言,在细胞中显示出相互作用的区室之间观察到了共富集(图1L和数据S1),表明器官器共富集具有特异性。
  12. 所有免疫沉淀目标的富集图见数据S1,并可在organelles.czbiohub.org/Native_organelle_IP_-_volcano_plots上进行探索。

Graph-based analysis provides subcellular resolution to human proteome maps

基于图的分析为人类蛋白质组图谱提供了亚细胞分辨率

Para_01
  1. 我们从我们收集的37种细胞器标记物中进行了58次三重免疫沉淀(16种免疫沉淀标记物被多次分析)。
  2. 我们的数据集总共包括8,192个独特的表达基因("猎物",在至少一次免疫沉淀的所有重复实验中被检测到;STAR方法)和8,538个总蛋白质,包括相同基因产物的异构体。
  3. 每个蛋白质通过其在所有58次三重免疫沉淀中的富集程度以及其在N/O/C自旋分数中的标准化丰度来定义(图2A)。
  4. 这构成了一个61维的细胞器富集谱,反映了蛋白质的亚细胞定位。
  5. 文献中标注位于同一细胞器内的蛋白质具有高度相关的富集谱(图2B)。
  6. 反映了在天然免疫沉淀中保留的细胞器间连接,位于直接相互作用的细胞区室内的蛋白质的富集谱也表现出中等的相关性(例如,在内质网和线粒体之间,图2B的非对角信号)。
  7. 最高富集谱相关性出现在参与高化学计量比相互作用的蛋白质对之间(图S2A),反映了强相互作用蛋白质在细胞内的共定位。
  8. 最后,我们测量了一个富集熵值,该值量化了每种蛋白质在多个免疫沉淀中被富集的倾向。
  9. 注释为参与膜接触位点的蛋白质显示出比非接触位点蛋白质更高的熵(图S2B),表明它们在多种细胞器中的富集。

图片说明

◉ 图2。基于图的分析提供了人类蛋白质组的亚细胞图谱(A)整体数据结构。我们的数据集确定了8,538种蛋白质,它们通过其在各个单一天然细胞器免疫沉淀和自旋级分中的富集来定义。◉ (B)文献整理的标记蛋白每种隔室富集特征之间的成对皮尔逊相关性(表S2)。同一种隔室内的蛋白质之间观察到高度的相关性(对角线突出显示),而在细胞中已知相互作用的隔室(例如,内质网和线粒体)之间的蛋白质之间也有一定程度的相关性。◉ (C)基于图的数据驱动注释蛋白质定位的策略。将富集矩阵转换为k-最近邻图(1),然后使用Leiden聚类识别共富集的蛋白质(2)。基因本体论富集允许注释对应于单独亚细胞隔室的簇(3和4)。最后的正则化步骤将每个蛋白质分配给与其直接邻居中最常表示的标签一致的标签(5)。◉ (D)二维UMAP展示了通过(C)中的富集分析确定的20个亚细胞隔室。每个点代表一种蛋白质。另见图S2和S3。

图片说明

◉ 图S2。蛋白质富集特征和注释验证,与图2相关(A)对于每一对参与直接蛋白质-蛋白质相互作用的蛋白质,图表显示了相互作用计量学(x轴,来自OpenCell数据库的数据)与整个细胞器免疫沉淀数据集中的富集特征相似性(y轴,显示Pearson相关性)之间的关系。两幅图显示了相同的数据;右图突出显示了在CORUM中注释的稳定蛋白复合物。◉ 接触位点蛋白和非接触位点蛋白的富集熵分数分布。(B)接触位点蛋白来自MCSdb。46。接触位点蛋白的熵比非接触位点蛋白更高(Mann-Whitney U检验;p = 4.27 × 10^-67)。◉ 三元密度图显示单个蛋白质在N/O/C自旋分数中的分数丰度(参见图1E)。不同组的蛋白质显示在不同的面板中(从左到右):注释定位在胞质溶胶中的蛋白质(绿色),核中的蛋白质(蓝色),膜状细胞器中的蛋白质(橙色),以及未分类的蛋白质(灰色)。虽然胞质溶胶、核或器官蛋白质在N/O/C分数中显示出非常明显的富集特征,但未分类的蛋白质并未特异性地富集在任何分数中(出现在三元图的中心),这表明它们广泛分布在多个隔室中。◉ 基于图的亚细胞定位注释的受试者工作特征(ROC)曲线,使用XGBoost分类器的结果作为参考"真实情况"。相应的曲线下面积(AUC)值显示如下。◉ 去除YWHAB和YWHAQ免疫沉淀后的基于图的注释。(E)k-NN图在没有YWHAB和YWHAQ免疫沉淀的富集数据的情况下重新计算,并且通过直接邻居获得基于图的共识注释(参见图2C,第5部分)。完整的蛋白质和注释列表可以在表S3中找到。◉ 基于图的注释与OpenCell中的基于图像的注释的比较。在此比较中,仅考虑在OpenCell中注释为定位于单一隔室的蛋白质。完整的蛋白质和注释列表可以在表S5中找到,附加的比较数据可以在Data S1中找到。

Para_01
  1. 为了进一步利用每种蛋白质富集谱中包含的丰富特征,我们开发了一种分析策略,灵感来源于单细胞RNA测序(scRNA-seq)。在那里,细胞之间的关系通常用一个k近邻(k-NN)图来表示,在这个图中,边对应于两个个体细胞在基因表达空间中的相似性,考虑每个细胞的k个最相似邻居。这种图是降维算法如UMAP47和独立地,用于使用经常用于细胞类型注释的Leiden算法进行无监督聚类的基础。这反映了基于图的表示能够从高维数据中封装复杂关系的能力。
  2. 这反映了基于图的表示能够从高维数据中封装复杂关系的能力。
Para_02
  1. 我们构建了一个k-NN图,将数据集中8,538种蛋白质中的每一种连接到它的20个最近邻,边权重来源于蛋白质在61维富集空间中的欧几里得距离(图2C;STAR方法)。
  2. 为了识别来自相同亚细胞区室的蛋白质,我们使用Leiden算法进行了无监督基于图的聚类。
  3. 然后,我们根据COMPARTMENTS数据库和GO-Cellular组件数据库中最富集的基因本体术语客观地对每个蛋白质簇进行标记,并合并共享相同本体标签的簇。
  4. 最后,我们通过局部邻域一致性来细化注释:一种蛋白质被标注为在其直接邻居中最常见的基于簇的标签(图2C)。
  5. 这一过程有助于更好地定义簇之间的边界。
  6. 完整的富集和注释数据可以在表S3中找到。
  7. 我们获得了7,666种蛋白质的确切基于本体的注释(占数据集的90%),剩下875种未分类。
  8. 后者主要对应于缺乏明显N/O/C自旋分数富集的可溶性蛋白质(图S2C),反映了核、胞质和膜区室之间广泛的多定位。
  9. 这反映了核、胞质和膜区室之间的广泛多定位。
Para_03
  1. 图2D展示了从该分析得出的二维UMAP,代表了HEK293T蛋白质组的空间图(另见表S3和organelles.czbiohub.org/Subcellular_UMAP)。
  2. 我们区分了20个独立的亚细胞区室,大小从18(P体)到1836种蛋白质(细胞质)不等(数据S1)。
  3. 地图中区室的排列遵循已知的生物关系;例如,膜结合的细胞器按从内质网到高尔基体再到内体最后到质膜的顺序排列(图2D)。
  4. 除了经典定义的区室外,我们的注释还包括一个由130种蛋白质组成的定义明确的簇("14-3-3支架"),这些蛋白质在14-3-3蛋白YWHAB和YWHAQ的免疫沉淀物中表现出强烈的富集。
  5. 该簇中73%的蛋白质也在最近的一项关于HEK293T细胞中14-3-3客户蛋白的蛋白质组学研究中被鉴定出来,支持了这一注释。
  6. 重新计算亚细胞图而不包括YWHAB和YWHAQ的免疫沉淀物表明,大多数14-3-3支架蛋白是胞质的(图S2E;表S3)。

Validation and comparison to existing datasets

与现有数据集的验证和比较

Para_01
  1. 为了使用正交方法验证注释,我们训练了一个XGBoost52监督机器学习分类器,根据参考数据(表S4)预测单个蛋白质的细胞器归属。
  2. 我们将分类限制在15个隔室上,这些隔室有足够的文献整理的参考数据可供使用(表S2;不包括例如跨高尔基或回收内体,大多数其他数据集无法区分这些隔室)。
  3. 然后,我们进行了受试者工作特征曲线(ROC)分析,以量化基于图和基于分类器的注释之间的协议程度(图S2D)。
  4. 所有情况下,ROC曲线下的面积值均高于或等于0.93,支持了我们的基于图的注释。
  5. 基于图的注释通过与OpenCell项目中整理的基于图像的注释进行比较得到了进一步的支持(图S2F;数据S1;表S5)。
Para_02
  1. 接下来,我们将我们的注释与使用多种分级、超速离心和邻近连接方法的蛋白质组规模亚细胞质谱数据集进行了比较。
  2. 我们的基于图的注释比所有其他研究都更清晰地分辨出了更多的亚细胞区室(图S3A,特别是在分泌、循环和无膜区室中),同时覆盖了更大的蛋白质组比例(图S3B和S3C)。
  3. 所有数据集中的所有注释总结在表S5中(另见数据S1)。
  4. 由于不存在客观的真实蛋白质亚细胞定位基准,因此很难解决数据集之间的差异。
  5. 然而,线粒体作为一个区室,已经存在大量的整理工作。
  6. 特别是,MitoCarta和MitoCoP数据集对不同细胞类型和细胞状态下的多模态数据源进行整理,以定义线粒体蛋白质组。
  7. 结合MitoCarta和MitoCoP来定义一个客观的真实基准,我们对不同蛋白质组规模数据集中注释的线粒体蛋白列表进行了精确度/召回率分析(图S3D;表S5)。
  8. 我们的注释在所有数据集中达到了最高的召回率(77%,比平均召回率高1.45倍),同时是仅有的两个估计假发现率低于5%的数据集之一(3.2%)。

图片说明

◉ 图S3。与图2的比较(A)使用不同蛋白质组学方法的大规模基于质谱的数据集中解析的亚细胞区室类别的比较:Itzhak等人,36 Schessner等人,37 Geladaki等人,53 Go等人,18和Orre等人。27(B)不同数据集中注释的蛋白数量比较。◉ "膜细胞器"指任何核外的膜结合区室。在此分析中,仅考虑了对特定亚细胞区室的注释。这排除了所有完全未分类的蛋白,"大型蛋白复合物"注释在Itzhak等人和Schessner等人中的注释,以及SubCellBarcode中的"分泌、未分类"注释。◉ 此外,不考虑蛋白异构体:对于共享相同基因名的蛋白,只考虑一个注释。没有明确基因名的蛋白(即非规范蛋白产物)未被包括。◉ Geladaki等人中的"精心策划"的注释用于53(LOPIT-DC/HyperLOPIT)。◉ (C)不同数据集中注释的蛋白数量。◉ 在此分析中,仅考虑了对特定亚细胞区室的注释,如(B)所示。◉ SubCellBarcode数据集的注释由于其有限的亚细胞分辨率未被包括。◉ (D)线粒体蛋白注释分析。◉ 估算不同大规模数据集中线粒体注释的召回率和错误发现率(FDR)。◉ 使用MitoCarta和MitoCOP数据库定义线粒体蛋白的真实参考(见正文详细信息)。◉ 对于每个数据集,使用了所有报告的线粒体注释(在可能使用MitoCarta或MitoCOP进行任何筛选之前),HPA除外,其中不考虑"不确定"抗体注释。◉ 有关数据,请参见表S5。◉ 在此分析中,我们将同时在MitoCarta和MitoCOP数据库中被注释为线粒体的蛋白集合定义为"明确的线粒体蛋白"(n = 990)。◉ 估计的召回率是这990种蛋白在不同大规模数据集中被注释为线粒体的比例。◉ 我们还将同时不在MitoCarta和MitoCOP数据库中的蛋白集合定义为"非常可能不是线粒体蛋白"。◉ 估计的FDR是这些蛋白在不同大规模数据集中被注释为线粒体的比例。◉ (E)聚类评分。◉ 我们测量了两种聚类评分,捕捉不同尺度上的蛋白共定位(见STAR方法)。◉ 一种是使用文献中精心策划的注释(表S2)的细胞器水平评分,另一种是使用CORUM中的注释的蛋白复合物评分。◉ 55聚类评分衡量了共享给定真实标签的蛋白形成良好界定的聚类的程度(见Data S1中的单个UMAP)。◉ 仅考虑在所有数据集中都有注释的蛋白用于聚类评分计算。◉ 我们还报告了我们数据集的一个简化版本中的聚类评分,在该版本中仅使用了来自19个单一免疫沉淀的数据(图1D中每类区室一个IP)。◉ 误差线代表使用10个UMAP随机种子在200个类别平衡集上计算的聚类评分的标准误(STAR方法)。◉ 一些比符号小。◉ (F)UMAP比较我们的完整数据集与其简化版本(每类区室一个IP)。◉ 从文献中精心策划的细胞器标记蛋白(表S2)被标注。

Para_02
  1. 为了在一个一致的框架内进一步比较不同基于质谱的方法在亚细胞分辨率上的能力,我们使用上述描述的k-NN图策略重新分析了已发表的数据。
  2. 对于每个数据集,我们计算了一个二维的UMAP(数据S1),并计算了分数来衡量共享给定真实标签的蛋白质在这些图中形成界定清晰的簇的程度(STAR方法)。
  3. 我们测量了两个聚类评分,捕捉不同尺度下的蛋白质共定位:一个使用从文献中整理的注释(表S2)的细胞器水平评分,以及一个使用CORUM注释的蛋白复合物评分。
  4. 我们的数据集在其他方法之上获得了更高的聚类评分(图S3E)。
  5. 计算聚类评分还使我们能够量化我们基于免疫沉淀的方法的亚细胞分辨率能力随着包含的不同数量的免疫沉淀的变化。
  6. 当我们使用一个仅限于每个亚细胞区室一个免疫沉淀的减少的免疫沉淀集合(共19个免疫沉淀)时,我们观察到聚类评分略有下降(图S3E和S3F),但仍高于其他方法。

Subcellular protein networks define functional signatures and quantify cellular organelle connections

亚细胞蛋白质网络定义了功能特征并量化了细胞器之间的联系

Para_01
  1. k-NN图表示法包含超出细胞器成员身份的信息。
  2. 图3A和图3B显示了以WASHC5(斯特伦佩林)为中心的k-NN图,WASHC5是调节从内体到反面高尔基网络(TGN)、质膜或溶酶体的货物运输的肌动蛋白成核WASH复合物(WASHC)的一个亚基。
  3. 反映了它的功能,WASHC5在k-NN图中定位在内体、TGN和溶酶体簇之间的交汇点(图3A)。
  4. 此外,WASHC通过分别与Retromer和Commander复合物结合来发挥其作用,这两个复合物都控制内体管化但调节不同的货物运输。
  5. 概括这些复杂的相互关系,WASHC亚基在k-NN图中连接到Retromer和Commander,而Retromer和Commander占据不同的区域(图3B)。
  6. 在另一个例子中,核孔亚基NUP205位于核孔簇和ER簇之间的界面上在k-NN图中(数据S1),并与其它核孔亚基以及核纤层或核输入机制的关键组分一起。
  7. 核膜和ER在细胞中是连续的,在我们的天然IP工作流程中不能直接解析:我们期望在温和匀浆后,这两个隔室仍然保持物理连接。
  8. 然而,k-NN图包含了解析这些相邻隔室的信息。
  9. 总之,这些例子说明了如何挖掘k-NN图的详细结构进行功能探索。
  10. 蛋白质k-NN连接被编制在表S6中,并且可以在organelles.czbiohub.org/Protein_network_graph上进行探索。

图片说明

◉ 图3 蛋白质空间网络识别共功能蛋白和细胞器界面(A)围绕WASH复合体亚基WASHC5的局部k-NN网络,该复合体调控内体、溶酶体和反向高尔基体之间的蛋白质转运。◉ (B)注释的WASHC5 k-NN网络,突出显示WASH、Retromer和Commander蛋白复合体的各个亚基。◉ (C)细胞器簇之间k-NN连接密度量化了细胞器间的串扰。簇的排列方式复制了图2D中的排列。◉ (D)界面上的蛋白被定义为整个数据集中Jaccard系数分布中的高值异常值。箱线图显示第25/50/75百分位;须表示1.5倍四分位距。◉ (E)在界面上蛋白集中最常代表的界面。◉ (F)囊泡通路中界面上蛋白的例子。详情见正文。

Para_01
  1. 细胞生理学的一个重要部分是细胞器之间的通讯。
  2. 我们量化了由两个注释簇之间通过k-最近邻连接的数量定义的连接密度,并将其归一化到簇的大小。
  3. 这揭示了已知的细胞器之间的功能关系,其中最强的连接是内质网-高尔基体中间区(ERGIC)与高尔基体、质膜与肌动蛋白皮层,或者翻译机制与应激颗粒之间的连接(图3C)。
  4. 许多蛋白质作用于细胞器之间的界面,确保货物运输、信号传播或代谢协调。
  5. 为了进一步注释器官间的连接性,我们在k-最近邻图谱中识别了‘界面’蛋白质。
  6. 我们采用了图论中使用的Jaccard系数的一种版本来量化给定节点倾向于与其他两个分离簇建立连接的倾向性(STAR方法)。
  7. 我们使用基于图的注释簇量化了所有蛋白质的Jaccard系数分布(图3D和3E)。
  8. 大多数蛋白质的值都很低(中位数= 0.0075),但有一长串系数较高的蛋白质(图3D)。
  9. 我们将这些分布中的高值异常值定义为界面蛋白质(值高于第三四分位数+ 1.5倍四分位距;图3D)。
  10. 950种界面蛋白质的列表(表S6)包括共享高连接密度的细胞器之间界面的过度表示(例如,高尔基体/ERGIC或质膜/肌动蛋白皮层,参见图3C和3E)。
Para_02
  1. 我们的以数据为驱动的分析正确识别了许多专门从事界面上运输或调节的蛋白质,这些蛋白质存在于囊泡系统内(图3F)。
  2. 其中包括AP1、AP2和AP3包被蛋白,它们分别在内吞体/反式高尔基体、质膜/肌动蛋白皮层以及内吞体/溶酶体界面上支撑网格蛋白介导的运输61,62(图3F,所有面板)。
  3. 围绕AP2亚单位的局部k-NN网络反映了肌动蛋白皮层在将内吞质膜货物转运至内吞系统中的核心作用62(图3F,左下角)。
  4. 其他例子包括(1)M6PR和IGF2R甘露糖-6-磷酸受体63,以及Retromer复合物58,它们介导内吞体与反式高尔基体之间的循环(图3F,左上角);
  5. (2)在内吞体/溶酶体界面上,HOPS复合物64负责内吞体和溶酶体的锚定,以及小GTP酶ARL8B65和RAB7A66(图3F,右侧);
  6. (3)连接肌动蛋白细胞骨架与质膜效应器的catenin(CTNN)和filamin(FLN)蛋白家族,在这个界面上还包括小GTP酶RAC1和RHOA,它们调节膜肌动蛋白聚合来控制细胞迁移69(图3F,左下角)。

Annotating protein subcellular localization

注释蛋白质的亚细胞定位

Para_01
  1. 亚细胞定位的注释总结在表 S4 中。
  2. 我们报告了基于图的聚类分析(包括界面蛋白)的结果,以及来自 XGBoost 机器学习分类器的高置信度(分类概率 > 80%)预测。
  3. 这两种策略为全面的蛋白质定位综合提供了互补的见解。
  4. 无监督的基于图的聚类能够进行从头注释,即使没有足够的参考数据来训练分类器(例如,允许我们解析 TGN 或循环内体)。
  5. 另一方面,当有足够的真实数据可用时,基于分类器的方法可能更精确。
  6. 使用线粒体蛋白质组作为参考,基于图的注释比基于分类器的注释具有更高的召回率(77% 对 69%),但代价是略微增加的错误发现率(3.2% 对 1.5%)。
  7. 基于图的方法的另一个定义优势在于它提供了一个明确的框架来识别作用于不同隔室之间的界面的蛋白质。
  8. 这产生了一层注释,分类方法无法捕捉到,因为分类方法只为每个蛋白质分配一个标签。
Para_02
  1. 我们的最终注释集包括对数据集中 7,666 种蛋白质的基于图的注释(占数据集的 90%)和对数据集中 6,348 种蛋白质的基于高置信度分类器的注释(占数据集的 74%)。
  2. 在这两组定义的 15 个隔间中,基于图的注释和基于分类器的注释匹配率为 89%(数据见 S1 附录)。

De-orphaning protein localization

去除蛋白质定位的孤立体

Para_01
  1. 为了验证注释,我们进行了基于显微镜的分析来确定定位不明确的膜相关蛋白的位置(图4A)。
  2. 我们通过筛选COMPARTMENTS数据库中标注最少的蛋白质(评分≤3,表示低可信度或缺失标注),并且在Uniprot中没有‘亚细胞位置’信息的蛋白质,从我们的数据集中识别出82种‘孤儿’跨膜或脂化蛋白。
  3. 我们使用CRISPR-Cas9技术分别在82种蛋白质的N端或C端进行内源性标记,使用分裂型mNeonGreen荧光盒(表S1)。
  4. 31个细胞系表现出足够的荧光信号,可以通过流式细胞术选择(与更高的蛋白质丰度相关,图S4A),并通过活细胞共聚焦荧光显微镜成像(图4B)。

图片说明

◉ 图4。去孤儿化亚细胞定位(A)识别和表征公共数据库中亚细胞定位注释最少的蛋白质的策略。(B)31个最终蛋白质靶标代表性图像,HEK293T细胞内源性标记为split-mNeonGreen,并通过共聚焦荧光显微镜进行表征。图解(蓝色)和分类器(棕色)定位注释报告。星号表示界面蛋白。缩写如下:ER,内质网;ERGIC,ER-高尔基中间区室;PM,质膜;TGN,反式高尔基网络。(C)汇总结果:内源性标记支持94%的亚细胞定位注释(31个目标中有29个)。另见图S4。

图片说明

◉ 图 S4。去孤儿化亚细胞定位——与图 4 相关 (A) 标签蛋白的蛋白质丰度。从 31 个细胞系中选择出的荧光强度足以通过流式细胞术被选中的标签蛋白("检测到")显示出了显著高于无法检测到荧光的 51 个细胞系中的标签蛋白的表达水平(见图 4A)。箱线图显示了第 25、50 和 75 百分位数;须表示 1.5 倍四分位距。p 值:学生 t 检验。◉ (B) 定量图像分析策略:将每个标记的孤儿蛋白的亚细胞分布与开放细胞图像集合中的细胞器标志物进行比较(使用文献整理的标志物列表,参见表 S2)。使用细胞自噬深度学习模型将图像编码到潜在空间嵌入中。对于每一对孤儿蛋白与标志物蛋白的比较,嵌入之间的皮尔逊相关性提供了一个评分,量化了这两种蛋白亚细胞分布的相似性。◉ (C) 孤儿蛋白 NAT14 与开放细胞细胞器标志物集合之间相似度得分的分布。最高的相似度得分是与内质网蛋白 CERS5 的得分(0.76),验证了我们对 NAT14 作为内质网蛋白的注释(右侧)。◉ (D) 热图表示,对于每个孤儿蛋白,发现的最大相似度得分与特定细胞器类别的标志物之间的得分。仅报告得分超过 0.6 的情况。缩写如下:ER,内质网;PM,质膜;EE,早期内体;lyso,溶酶体;RE,回收内体;Nuc. Mb.,核膜;ERGIC,内质网-高尔基复合体中间隔室。◉ (E) k-NN 图谱中 TMEM209 的连接支持其定位于核膜。显示的是 k-NN 图谱中 TMEM209 的 20 个最近邻的归一化边权重。◉ (F) 孤儿蛋白(mNeonGreen 内源标签,绿色)与回收内体标志物 RAB14(mScarlet-RAB14 暂时转染,洋红色)在共聚焦显微镜下的共定位。右侧面板显示了绘制在单个图像上的白线上各点的荧光强度。

Para_01
  1. 为了定量表征亚细胞分布,我们使用了cytoself深度学习模型将蛋白质定位图像编码到潜在空间嵌入中,并将31种孤儿蛋白与OpenCell集合中的细胞器标记物进行了比较(图S4B)。
  2. 每个孤儿蛋白与标记蛋白对之间的潜在空间嵌入的皮尔逊相关性量化了它们亚细胞分布的相似性。
  3. 相似性得分高于0.6反映了亚细胞分布之间的紧密匹配,14,而孤儿蛋白与特定细胞器标记物之间的高得分验证了其定位。
  4. 例如,孤儿蛋白NAT14与ER蛋白CERS5的最高相似性得分为0.76,证实了NAT14被注释为ER蛋白(图S4C)。
  5. 在31种孤儿蛋白中有22种发现了高得分匹配,验证了它们的注释定位(图S4D)。
  6. 其中,TMEM209定位于核膜,这在原始IP中没有明确区分ER。
  7. 在k-NN图中,TMEM209的最近邻居是已知的核膜成分(图S4E),突显了k-NN信息如何有助于精确定义功能注释。
  8. 另外,通过测量与回收区室标记物RAB14的共定位,我们确认了孤儿蛋白SCAMP3、CMTM4、CMTM7、SCAMP4、SLC35F1和SLC35F2定位于回收内体(图S4F)。
  9. 无法识别SFT2D3、KIAA1522和MPZL1的高得分匹配,但它们的注释定位得到了文献数据的支持。
  10. SFT2D3(高尔基体)和MPZL1(质膜)在使用超速离心的亚细胞蛋白质组学研究中被定位在相应的区室36,以及邻近连接中18,而KIAA1522(肌动蛋白皮层)是多个WAVE复合体亚基的直接相互作用者,调节质膜处的肌动蛋白动态74。
Para_02
  1. 总体而言,标记的孤儿蛋白的成像亚细胞分布与我们的基于蛋白质组学的注释在31个案例中的29个相匹配(94%匹配,图4B和4C)。
  2. 在剩下的两个案例中,TPRA1在溶酶体表面显示了不均匀的分布,而我们的数据集将其注释为界面TGN/回收内体。
  3. 最后,内源性标记的GLT8D1显示核仁定位,尽管被注释为高尔基体/TGN蛋白。
  4. 对于像GLT8D1这样的II型跨膜蛋白来说,核仁定位将是出乎意料的。
  5. 此外,文献数据显示GLT8D1定位于高尔基体得到了支持。75,76
  6. 因此,我们假设我们观察到的核仁定位可能是标记造成的假象。

Pan-cellular remodeling during HCoV-OC43 infection

HCoV-OC43感染期间的泛细胞重塑

Para_01
  1. 为了捕捉细胞内全局重塑,我们在感染了HCoV-OC43(一种包膜、正链RNA β冠状病毒)的细胞中进行了分析。通常情况下,HCoV-OC43在人类中引起轻微的呼吸道症状,它属于与SARS-CoV-1和SARS-CoV-2相同的家族,但只需要生物安全二级防护。
  2. 我们以0.25的感染复数(MOI)感染了HEK293T细胞,并在感染后48小时(48 hpi;>80%的细胞被感染:图S5A)对其蛋白质组进行了分析。
  3. 我们选择了25种带有细胞器标签的细胞系(图S5B)进行免疫沉淀(IP)和核/胞质/膜分离(N/O/C spin fractionation),分别在未感染和感染条件下,随后进行液相色谱-质谱分析(LC-MS)。
  4. 对于两种条件,蛋白质富集矩阵被转化为k-NN图(图5A)。然后,我们使用对齐的UMAP算法将图数据投影到一个共享的10维欧几里得空间中,从这个空间可以计算出它们在感染与未感染条件下的距离(图5A;STAR方法)。
  5. 对于每种蛋白质,这种距离代表了一个亚细胞重定位得分,衡量了该蛋白质在HCoV-OC43感染后在基础k-NN图中的重新定位情况。
  6. 总体分布显示,大多数蛋白质得分较低(表明它们的k-NN邻域总体上保持不变),而高分异常值则形成了长尾(图5B;异常值定义为超过第三四分位数加上1.5倍四分位距)。
  7. 这633个异常值定义为"感染命中"(表S7):在感染期间其亚细胞环境发生显著变化的蛋白质。
  8. 感染命中占我们数据集中测量的蛋白质组的8%,表明病毒感染时发生了广泛的全细胞重塑。
  9. 为了更直观地展示各个感染命中如何分布在亚细胞区室中,我们生成了未感染和感染条件下的对齐二维UMAP图。
  10. 一个变形轨迹之间的电影捕捉到了各个蛋白质的重塑行为(视频S1)。我们进行了低分辨率Leiden聚类,将UMAP图分为10个宽泛的亚细胞区域(图5C-5E;表S7)。
  11. 感染命中出现在所有区域内,并表现出广泛的重塑行为(图5E,对角线轨迹)。
  12. 感染地图还揭示了21种病毒表达蛋白的亚细胞定位(图S5C和S5D)。
  13. 大多数病毒蛋白被注释为ER定位(图S5D),包括与复制相关的蛋白,如RNA聚合酶RDRP、病毒解旋酶HEL以及非结构蛋白NS8、NS9和NS10。
  14. 这与OC43复制复合体在ER相邻的双层膜囊泡中的定位相吻合。

图片说明

◉ 图S5。OC43感染期间的亚细胞重塑,与图5相关(A)OC43感染细胞百分比随时间(小时,感染后小时数)的变化。实验开始时以0.25的MOI感染细胞。通过使用单克隆抗OC43抗体541-8F(确切表位未知)的免疫荧光流式细胞术检测感染细胞。◉ (B)包含在OC43感染实验中的细胞器IP标记物组。每个标记物对未感染和感染(48小时,MOI = 0.25)样本进行了三重IP处理。N/O/C自旋分数也在未感染和感染条件下进行了处理。◉ (C)显示低分辨率Leiden聚类定义的亚细胞区域的OC43感染器官谱数据的二维UMAP图。地图上显示了病毒编码蛋白的位置。◉ (D)使用图2C面板5所示的邻域一致性注释方法,对病毒编码蛋白的亚细胞定位进行注释。◉ (E)感染后,在对齐嵌入空间中高尔基体和溶酶体蛋白之间的距离显著减小(p < 0.01,t检验)。这表明高尔基体和溶酶体蛋白的器官富集谱在感染后变得更加相似。箱线图显示第25、50和75百分位;须形图显示1.5倍四分位距。◉ (F)在我们数据集中检测到的COP-I亚单位的亚细胞重塑谱。

图片说明

◉ 图5。HCoV-OC43感染期间的泛细胞重塑(A) 基于图形的亚细胞重塑定量策略。每个蛋白质都会量化一个分数,代表局部亚细胞环境的重塑。详见文本。(B) 数据集中亚细胞重塑评分的分布。界面蛋白被定义为分布在该分布中的高值异常值。箱线图显示第25、50和75百分位数;须表示1.5倍四分位距。(C) 未感染器官器数据集的二维UMAP,显示了通过低分辨率Leiden聚类定义的亚细胞领土。(D) 对齐的未感染(蓝色)和感染(三文鱼色)UMAP,显示感染命中点的单个二维轨迹。黑色星号:未感染UMAP中原始位置。另请参见视频S1。(E) 流向图显示感染命中点(对角线)在未感染和感染条件下跨亚细胞领土的分布。与(C)和(D)相关。(F) 个体隔室内的蛋白质组重塑,显示感染命中点占每个隔室内总蛋白质数量的比例。(G) 内源标记细胞系的活细胞共聚焦显微镜成像显示,OC43感染后高尔基体、内质网和微管网络发生了显著重塑。(H) 内源标记的COP-I亚单位的活细胞共聚焦显微镜成像。荧光信号在未感染细胞中集中在核周区域,但感染后则分散在整个细胞中(MOI = 1;48 hpi)。使用单个细胞中COP-I荧光信号与核边界之间的距离来量化分散程度(p值:学生t检验)。箱线图显示第25、50和75百分位数;须表示1.5倍四分位距。另请参见图S5。

Para_01
  1. 量化感染打击在各个细胞器内的比例提供了亚细胞重组的更精细图景(图5F)。
  2. ERGIC、高尔基体、中心体和内质网表现出一些最高的重塑程度(图5F)。
  3. 这与冠状病毒在内质网/高尔基体界面复制和组装的已知细胞生物学相匹配:结构蛋白首先插入内质网膜,并转运至ERGIC到达复杂的复制/组装区室,在其中形成成熟的病毒颗粒。
  4. 病毒颗粒随后转运至高尔基体进行糖基化和其他翻译后修饰(PTMs)。
  5. 我们通过活细胞显微镜验证了高尔基体、内质网和中心体的显著重塑。
  6. HEK293T细胞在三个独立标记上进行了内源性荧光报告子标记:GOLGA2(GM130,顺面高尔基体)、BCAP31(内质网)和MAP4(微管细胞骨架)。
  7. 感染后,我们观察到高尔基体显著分裂,伴随着内质网的凝缩(图5G)。
  8. 这也伴随着感染细胞中微管分布的巨大变化,与中心体重塑后微管组织中心的丧失一致。
  9. 在SARS-CoV-2中,NSP13病毒蛋白直接与参与中心体和高尔基体组织的宿主蛋白相互作用,表明这两个区室重塑之间可能存在联系。
  10. 虽然深入阐明OC43感染驱动内质网/高尔基体重塑的机制超出了我们目前的研究范围,但我们观察到在器官富集空间中高尔基体和溶酶体蛋白之间的距离在感染期间显著减小(图S5E)。
  11. 这可能反映了β冠状病毒逃逸所提出的非常规溶酶体胞吐途径,据信涉及从高尔基体直接将蛋白质转运至溶酶体。
  12. 此外,COP-I复合物的所有亚基(一种介导高尔基体内和高尔基体与内质网之间货物运输的囊泡衣壳)都被鉴定为感染打击(图S5F)。
  13. 内源性标记的COPE和COPB2亚基的荧光成像显示了它们在OC43感染后的亚细胞重分布:在未感染的细胞中,亚基集中在核周区域,但在感染后发现分散在整个细胞中(图5H)。
  14. COP-I调节SARS-CoV-2刺突糖蛋白的转运,COPB2敲低最近被证明可以显著降低SARS-CoV-2病毒滴度,表明COP-I在β冠状病毒生命周期中起重要作用。

Subcellular remodeling reveals cellular responses not captured by abundance changes and identifies ferroptosis as an essential pro-viral response

亚细胞重构揭示了丰度变化未捕捉到的细胞反应,并确定铁死亡是一种关键的促病毒反应。

Para_01
  1. 为了将我们的细胞器分析结果与整体基因表达进行关联,我们测量了OC43感染条件与对照条件下转录物和蛋白质的整体丰度变化(图S6A和S6B;表S7)。
  2. 我们观察到,根据亚细胞重构定义的感染命中与不同丰度的蛋白质或转录物之间的重叠非常小(图6A和6B;图S6A和S6B)。
  3. 这表明功能调节的正交模式:许多蛋白质在其空间环境水平上动态调节,而不是通过细胞内丰度的变化来调节。
  4. 相反,许多蛋白质在丰度水平上受到调节,而它们的亚细胞位点保持不变。
  5. 对不同组感染调节的蛋白质或转录物进行通路富集分析(85,86)表明,分析亚细胞重构可以识别出由丰度变化未捕捉到的细胞反应(图6A和6B)。
  6. 具体而言,亚细胞感染命中富含参与糖胺聚糖(GAGs,包括肝素硫酸聚糖的一类表面暴露多糖)代谢以及铁死亡、自噬和细胞衰老的蛋白质(图6A)。
  7. 多项证据支持这些反应对OC43感染的细胞生物学的直接相关性:(1)GAGs是细胞培养条件下OC43进入的表面受体,因此调节其代谢(目前尚不完全理解)可能有益于病毒生命周期或先天免疫反应;
  8. (2)自噬在多种冠状病毒的复制和致病过程中发挥重要作用,包括OC43;
  9. (3)衰老是许多病毒感染宿主细胞的主要反应之一,例如SARS-CoV-2。

图片说明

◉ 图 S6。OC43 感染期间的丰度变化和铁死亡激活,与图 6 相关。◉ (A) OC43 感染后全细胞蛋白质丰度的变化。顶部:火山图显示感染与未感染全细胞样本中单个蛋白质的对数富集。使用每个样本的三次重复观察进行 t 检验计算 p 值。底部:以亚细胞重构分数(参见图 5A 和 5B)为函数绘制感染与未感染全细胞样本中单个蛋白质的对数富集。◉ (B) OC43 感染后全细胞转录物丰度的变化。顶部:火山图显示感染与未感染全细胞样本中单个转录物的对数富集。使用每个样本的三次重复观察进行 t 检验计算 p 值。底部:以相应蛋白质的亚细胞重构分数(参见图 5A 和 5B)为函数绘制感染与未感染全细胞样本中单个转录物的对数富集。◉ (C) 流式细胞术定量 OC43 蛋白水平(抗 OC43 单克隆抗体 541-8F,确切表位未知)和 FeRhoNox-1(5 μM,铁死亡报告分子)。用铁螯合剂硝唑啉(12 μM)处理导致同时表达 OC43 和 FeRhoNox-1 的细胞数量显著减少(用星号标记的亚群)。感染:MOI = 1,48 hpi。◉ (D) 细胞活力测量。符号表示独立的三次实验,条形表示 SEM(有些可能比符号小)。◉ (E) 通过大规模蛋白质组学测量的全细胞蛋白质丰度。◉ (F) 以 NCOA4 为中心的局部 k-NN 网络,在感染和未感染条件下。另见图 6F。

图片说明

◉ 图6。OC43感染后的亚细胞重塑揭示了未被整体丰度变化捕捉到的细胞反应(A)亚细胞重塑感染命中物的KEGG途径富集分析(蓝色)与表现出显著全细胞丰度变化的蛋白质(包括125种上调蛋白,绿色,和304种下调蛋白,红色)。p值:t检验。◉ (B)同(A),显示差异调节的转录物(包括1,020种上调转录物,绿色,和257种下调转录物,红色)。p值:t检验。◉ (C)OC43感染细胞中的铁死亡诱导(MOI = 1;48 hpi)。用5 μM FeRhoNox-1(洋红色)处理细胞以检测铁死亡。用12 μM硝唑啉螯合Fe2+离子。◉ (D)通过流式细胞术检测OC43感染细胞(抗OC43抗体541-8F)。用铁死亡抑制剂liproxstatin-1和ferrostatin-1处理引起剂量依赖性的感染减少(MOI = 1;48 hpi)。相反,用铁死亡激活剂RSL3处理引起剂量依赖性的感染增加。对于RSL3实验,使用低MOI以使感染动态范围增大(MOI = 0.05;48 hpi)。p值:t检验。符号表示独立的三重复实验,条形表示SEM。◉ (E)ACSL4、NCOA4和GPX4的亚细胞重塑评分(参见图5B)。◉ (F)在感染和未感染条件下,以NCOA4为中心的局部k-NN网络。所有自噬相关蛋白都被突出显示。参见图S6F以获取完全注释的网络。◉ (G)NCOA4和ATG5之间的共定位在OC43感染后显著增加(MOI = 1;48 hpi)。比较了四个单独携带双CRISPR介导的内源标签(mNeonGreen-NCOA4;mScarlet-ATG5)的细胞克隆。在每个克隆中,mNeonGreen阳性像素中也是mScarlet阳性的百分比测量共定位。p值:t检验。另见图S6。

Para_01
  1. 铁死亡是亚细胞重塑感染命中最富集的过程之一(图6A)。
  2. 铁死亡是一种非凋亡和非坏死性的依赖于细胞铁的程序性细胞死亡,93,94最近被认为与OC43和其他正链RNA病毒的复制调控有关。
  3. 在铁死亡过程中,铁(主要是Fe2+)催化不受控制的脂质过氧化,导致氧化应激和细胞内膜逐渐破坏。
  4. 在正常条件下,细胞内的铁储存在铁蛋白中,这是一种高分子量的蛋白质笼。
  5. 自噬介导的铁蛋白降解(铁蛋白自噬)会导致细胞质中游离铁的释放,并驱动铁死亡。
  6. 多种蛋白质通路在细胞中铁死亡的诱导和调控中起着核心作用,包括ACSL4(一种酰基转移酶,将多不饱和脂肪酸结合到脂质中,产生过氧化底物99),GPX4(一种清除有毒过氧化物的过氧化物酶,对抗铁死亡94)以及NCOA4(铁蛋白自噬的自噬适配器100)。
Para_02
  1. 我们验证了模型中铁死亡的诱导:OC43感染导致细胞内Fe2+增加,通过荧光探针FeRhoNox-1检测到这一点,并且这种增加可以通过铁螯合剂硝氧唑啉逆转(图6C;图S6C)。
  2. 引人注目的是,在非毒性浓度下,用liproxstatin-1101或ferrostatin-1101抑制铁死亡会导致感染显著减少,而用RSL3102激活铁死亡则会增加感染率(图6D;图S6D)。
  3. 这些结果表明,铁死亡既有利于病毒又对OC43感染在人类HEK293T细胞中是必不可少的。
  4. 最近的研究显示,ferrostatin-1还可以抑制恒河猴LLC-MK2细胞中的OC43复制。
  5. 虽然后续工作将需要更好地描述铁死亡与病毒生命周期之间的机制性相互作用,但我们的数据提供了对该机制某些方面的见解。
  6. ACSL4、GPX4和NCOA4均表现出高亚细胞重塑评分(图6E),这表明感染后可能会调节多种铁死亡途径。
  7. 这种重塑并未伴随蛋白质丰度的变化(图S6E)。
  8. 此外,局部k-NN网络揭示了感染后NCOA4亚细胞环境的特定变化(图6F和图S6F)。
  9. 在未感染的细胞中,NCOA4的最近邻包括ATG101和ATG13,它们是ULK激酶复合物的一部分,该复合物调节前自噬体结构和自噬起始。
  10. 相比之下,感染后的NCOA4最近邻包括ATG5和ATG16L1,它们是ATG12结合系统的关键成分,标记活跃伸长的自噬体。
  11. 这表明感染后NCOA4与活跃自噬体之间的关联增加,我们通过成像技术验证了这一点,即在内源性标记的细胞系中观察到NCOA4和ATG5的共定位(图6G)。
  12. 这确立了活性铁蛋白吞噬在OC43感染细胞生物学中的作用。
Para_03
  1. 我们的分析总体上展示了如何通过剖析亚细胞重构来补充全细胞蛋白质组学或转录组学检测,以捕捉由特定扰动触发的全部细胞反应景观。

Interactive data sharing at organelles.czbiohub.org

细胞器 czbiohub 网站上的交互式数据共享

Para_01
  1. 为了便于访问和探索,我们在organelles.czbiohub.org构建了一个交互式网络应用程序。这个门户提供了一个直观的界面来探索和下载来自单个细胞器IP的富集数据、蛋白质水平的k-NN网络、亚细胞定位UMAP以及OC43感染引起的亚细胞重塑(图7)。
  2. ,

图片说明

◉ 图7。在细胞器.czbiohub.org进行交互式数据分析◉ 探索

Discussion

Para_01
  1. 在这里,我们描述了一个综合实验和分析框架,以推进亚细胞蛋白质组及其动态特性的表征。
  2. 我们结合了三个主要特征。首先,我们将天然免疫沉淀工作流程应用于整个细胞器标记物集合。
  3. 其次,我们开发了一种基于图的方法来定义蛋白质之间的功能关系,并标注它们的亚细胞定位。
  4. 第三,我们将这一策略扩展到分析蛋白质组动力学,并识别在细胞扰动过程中其亚细胞环境发生重塑的蛋白质。
  5. 将我们的方法应用于研究HCoV-OC43感染的细胞生物学,我们证明了分析亚细胞重塑可以揭示由丰度变化无法捕捉到的细胞反应。
Para_02
  1. 我们的策略使用基于CRISPR-Cas9的内源标记,并规避了过表达可能影响细胞器IP中蛋白质富集的风险。
  2. 我们展示了天然IP为膜结合和无膜细胞器提供了丰富的组成谱图,证明了该策略有助于表征各种细胞区室。
  3. 通过使用广泛的细胞器标志物,我们的数据集为每种蛋白质提供了在许多不同IP中的复杂富集特征。
  4. 这种广泛的覆盖对于处理细胞器之间的显著共富集特别有益。
  5. 例如,单个IP可能无法提供足够的信息来完全区分ER与线粒体蛋白。
  6. 然而,这两种细胞器在整个拉下实验中的独特富集模式使得能够明确区分。
  7. 类比于梯度或差异分离研究,每个天然IP都可以被视为一种产生细胞靶向"部分"的手段。
  8. 这些"部分"不必是纯净的,而是因为它们的蛋白质在整个IP集合中共享独特的富集模式而得以定义。
  9. 可以根据相关性分析原则进行识别。
  10. 9,10,38
Para_03
  1. 我们的基于IP的策略扩展了用于蛋白质组范围的亚细胞定位表征的方法集合。
  2. 一项专注于线粒体蛋白质组的分析揭示了我们注释的高度精确性和召回率。
  3. 此外,我们的数据集能够区分来自紧密相邻区室的蛋白质,例如,高尔基体与反式高尔基体,或早期内吞体与回收内吞体,这可能很难使用基于离心的方法来解决,因为它们具有相似的生物物理特性和因此相似的分级行为。
  4. 空间上相邻的区室也可能难以通过邻近连接法来区分;例如,在最近基于BioID的蛋白质组图谱中,线粒体外膜蛋白和过氧化物酶体蛋白聚集在一起。
  5. 我们基于IP的工作流程的另一个优势是,样品制备不需要复杂的仪器(如超速离心机),使其相对简单地实施和扩展。
  6. 鉴于最近质谱技术的发展(例如,离子迁移率仪器提供的灵敏度增加,或数据无关获取方法),用于IP的输入材料的数量可能会显著微型化。
  7. 这将进一步提高可扩展性,并应用于难以进行大规模细胞培养的细胞模型,如由干细胞分化而来的细胞。
  8. 基于IP的方法还使脂质组学或代谢组学的分析成为可能,为超越蛋白质的亚细胞组织表征铺平了道路。
Para_04
  1. 除了提供大量的数据资源和亚细胞定位注释汇编之外,我们还提出了一种基于数据驱动的图分析框架。
  2. 这一框架能够从头识别亚细胞隔室及其相互连接,并提供一种无监督的形式来描述亚细胞重塑。
  3. 我们的方法补充了已开发用于使用真实标记物表征亚细胞定位和动态的监督方法。
  4. 此外,我们证明了我们数据集的k-NN表示对于每种蛋白质都封装了可以挖掘出特定功能假设的具体信息。
  5. 我们基于数据驱动的界面蛋白定义,包括难以解析的隔室(例如,反向高尔基体和早期内体)之间的界面,展示了如何利用我们的方法进行细胞器间通讯的分析。
Para_05
  1. 最后,我们提供了对HCoV-OC43感染诱导的普遍亚细胞重塑的丰富表征,涉及许多不同的细胞区室和途径。
  2. 通过捕捉整个细胞的响应,我们的工作和其他人的工作提供了理解病毒为了同时劫持多种细胞功能而开发的复杂策略的一个窗口。
  3. 至关重要的是,我们的结果表明宿主蛋白质存在两种正交的调控模式,一类是通过改变其亚细胞环境来调节的一组蛋白质,另一类是通过改变其总体丰度来调节的一组蛋白质。
  4. 在酵母细胞周期期间,基于定位和基于丰度的调控之间也观察到了类似的正交性。
  5. 这强调了空间调控对于控制细胞功能的重要性,这也由信号转导中的蛋白重新定位普遍存在所体现。
  6. 总体而言,就像空间方法正在改变基于转录组的分析一样,能够解析不同细胞状态下蛋白质组空间组织的可扩展方法有可能极大地扩展我们对正常生理和疾病中细胞功能的理解。

Limitations of the study

研究的局限性

Para_06
  1. 因为细胞器在天然免疫沉淀过程中被整体捕获,我们的方法无法解析亚细胞区室。
  2. 例如,我们的数据无法区分膜蛋白与腔内蛋白,也无法区分不同的线粒体或核亚区室,这些可以通过邻近连接方法更好地鉴别。
  3. 我们目前的工作流程还需要工程化的表位标记细胞系。
  4. 开发针对特定细胞器的抗体面板用于捕获可以绕过这一限制,并扩展我们的方法应用于未标记样本的可能性,例如临床标本。
  5. 此外,我们的方法并不涵盖亚细胞定位的所有方面。
  6. 首先,许多蛋白质可能定位于多个区室,这在我们目前的注释中没有被捕获。
  7. 在未来,可以在我们的数据上训练多标签模型来预测多定位。
  8. 其次,亚细胞蛋白质组在不同细胞类型之间可能会发生变化。
  9. 系统地将我们的方法应用于不同细胞类型,例如利用基于干细胞的分化系统,可以提供解决方案。
  10. 第三,我们尚未直接分析剪接或PTMs如何影响不同蛋白质形式的亚细胞定位。
  11. 可以在天然免疫沉淀下游进行PTM富集,以提供更多见解。
  12. 最后,我们的质谱实验是在大量细胞群体中进行的,无法解析单细胞水平上的蛋白质定位变化。
  13. 随着细胞进入不同的状态(例如,通过细胞周期),亚细胞定位可能会发生变化,而这些变化在我们的人群平均和稳态测量中没有被区分。
  14. 基于图像的方法可能更适合于捕捉活细胞中的单细胞定位异质性和动态重塑。
  15. 总体而言,这些例子说明了全面表征亚细胞结构可能需要并行应用的互补方法。

Resource availability

Lead contact

主要联系人

Para_01
  1. 进一步的信息和资源请求应转至首席联系人Manuel Leonetti(manuel.leonetti@czbiohub.org),并将由其提供满足。
  2. ,

Materials availability

材料可用性

Para_01
  1. 标记质粒已存放在Addgene(参见关键资源表)。使用细胞器标志物内源性标记的工程HEK293T细胞系可应要求向主要联系人索取。
  2. ,

Data and code availability

数据和代码可用性

  • 原始的质谱数据已提交至ProteomeXchange Consortium并通过PRIDE合作伙伴仓库。RNA测序数据已提交至基因表达综合数据库(GEO)。所有数据均公开可用;详见关键资源表中的访问编号。
  • 所有原始代码已存入GitHub和Zenodo,并且自发布之日起公开可用。DOIs列在关键资源表中。
  • 重新分析本文报道的数据所需的任何附加信息可应要求从主要联系人处获得。

Acknowledgments

Para_01
  1. 我们衷心感谢R. Zoncu和他的团队教授我们原生免疫沉淀协议。
  2. 我们要感谢N. Neff和他的团队在高通量测序方面的帮助;H. Huang, M. Logan, G. Yun, N. Narez, J. Gadiane和J. Mann在操作支持方面的帮助;J. DeRisi和J. Olzmann关于铁死亡的讨论;以及S. Schmid的宝贵反馈。
  3. M.D.L.感谢C.L. Tan的持续讨论。
  4. 一些图示元素是在BioRender.com上创建的。
  5. M.D.L., C.J., R.B.-N., 和 M.V. 得到了CZI神经退行性疾病挑战网络DAR2022-316729号资助的支持。
  6. 我们要感谢Chan Zuckerberg Biohub及其捐赠者Priscilla Chan和Mark Zuckerberg对这项工作的资助。
Para_02
  1. S. Y.-L. 是 Chan Zuckerberg Biohub – San Francisco 的研究员。

Author contributions

Para_01
  1. 概念化:M.Y.H.、D.P.、K.K.、C.L.、D.N.I.、J.E.E.和M.D.L.;方法论:M.Y.H.、D.P.、V.T.、F.M.、K.K.、C.L.、L.S.、J.B.、D.N.I.、J.E.E.和M.D.L.;软件:D.P.、K.K.、Y.A.和J.B.;调查和验证:M.Y.H.、D.P.、V.T.、F.M.、K.K.、C.L.、L.S.、C.J.、R.B.-N.、M.S.、S.V.、S.B.、M.V.、J.B.、L.N.、E.W.、I.E.I.、J.R.B.、S.P.、C.G.G.、Y.A.、J.S.C.、A.H.M.、S.S.、B.C.D.、D.N.I.、J.E.E.和M.D.L.;原始草稿撰写:M.Y.H.、D.P.、C.L.、J.E.E.和M.D.L.;审查与编辑:M.Y.H.、D.P.、J.E.E.和M.D.L.;监督和资金获取:S.Y.-L.、S.B.M.、D.N.I.、J.E.E.和M.D.L.

Declaration of interests

Para_01
  1. 作者声明不存在竞争性利益。

STAR★Methods

Key resources table

关键资源表

Experimental model and study participant details

实验模型和研究参与者详情

Cell culture

细胞培养

Para_01
  1. HEK293T 细胞(ATCC CRL-3216)使用含有 10% 胎牛血清(Omega Scientific,货号 FB-11)的高糖 DMEM 培养基(Gibco,货号 11965118)进行培养,并补充了 2mM 谷氨酰胺(Gibco,货号 25030081),青霉素和链霉素(Gibco,货号 15140163)。
  2. 所有细胞系均维持在 37°C 和 5% CO2 条件下,并定期检测支原体的缺失。

Method details

方法细节

Cell culture & CRISPR/Cas9 engineering

细胞培养 & CRISPR/Cas9 工程

Cell culture
Para_01
  1. HEK293T细胞(ATCC CRL-3216)用高葡萄糖DMEM培养基(Gibco,货号#11965118)培养,其中包含10%胎牛血清(Omega Scientific,货号#FB-11),2mM谷氨酰胺(Gibco,货号#25030081),青霉素和链霉素(Gibco,货号#15140163)。
  2. 所有细胞系均在37°C和5%CO2条件下保存,并定期检测支原体的不存在。
Cell line engineering – tagged organelle markers
Para_01
  1. CRISPR/Cas9方法用于通过同源定向修复(HDR)进行基因编辑,遵循既定协议。
  2. 预先在体外组装了酿脓链球菌Cas9和指导RNA的核糖核蛋白(RNP)复合物,
  3. 将双链(dsDNA)HDR供体与之混合,并通过电穿孔传递到HEK293T细胞中,在96孔板中进行(见下文)。
  4. 每次电穿孔使用0.2x10^6个细胞、70皮摩尔RNP和2皮摩尔HDR模板。
  5. 电穿孔后的细胞在含有1 μM nedisertib(M3814;Selleckchem # S8586)的条件下培养两天,以提高HDR效率。
  6. 包括带有标签序列且两侧由基因特异性同源臂包围的双链DNA HDR供体,是通过PCR从相应质粒模板扩增得到的,扩增引物的5'端用生物素标记,如前所述。
  7. RNP复合物在电穿孔前新鲜组装,并与HDR模板混合至最终体积为10 μL。
  8. 首先,向2.2 μL高盐RNP缓冲液{580 mM KCl,40 mM Tris-HCl pH 7.5,20% v/v甘油,2 mM TCEP-HCl pH 7.5,2 mM MgCl2,无RNA酶"}中加入0.7 μL gRNA(130 μM溶液;来源:Integrated DNA Technologies),并在70°C下孵育5分钟。
  9. 然后加入1.8 μL纯化的Cas9蛋白(40 μM溶液,即70 pmol)进行RNP组装,37°C孵育10分钟。
  10. 最后,加入HDR模板(2 pmol)和无RNA酶的灭菌H2O,使总体积达到10 μL。
  11. 电穿孔在Amaxa 96孔穿梭Nucleofector装置(Lonza)中进行,使用SF溶液(Lonza),按制造商的说明操作。
  12. 细胞用PBS洗涤,并在电穿孔前立即用SF溶液(+补充剂)重悬至10,000个细胞/μL。
  13. 对于每个样品,向10 μL RNP/模板混合物中加入20 μL细胞(即200,000个细胞)。
  14. 细胞立即使用CM130程序电穿孔,之后向每个电穿孔孔板中的孔中加入100 μL预热的培养基(含1 μM nedisertib),以便将25,000个细胞转移到含有150 μL预热培养基(含1 μM nedisertib)的新96孔培养板中。
  15. 电穿孔后的细胞培养超过5天,并在荧光激活细胞分选(FACS)筛选前转移至12孔板中。
  16. 对于每个靶标,从最顶部的1%荧光细胞池中分离出1,200个细胞,使用SH800仪器(Sony Biotechnology)进行分离,并收集在96孔板中。
Cell line engineering – localization de-orphaning
Para_01
  1. HEK293T 细胞系在图4中展示的分析中使用,采用先前描述的 mNeonGreen2(1-10/11) 分裂荧光蛋白系统进行工程化。
  2. 简而言之,使用 CRISPR/Cas9 方法通过同源定向修复(HDR)进行基因编辑,采用 RNP 电穿孔方法,如前一节所述,但使用单链脱氧寡核苷酸(ssODN)供体(Ultramer ssODN,Integrated DNA Technologies;每次电穿孔使用 120 pmol 供体)。
Sample generation for proteomics analysis

用于蛋白质组学分析的样本生成

Input material
Para_01
  1. 所有实验均使用每组约10^7个细胞,从生长至80-90%融合度的10厘米培养皿中收获细胞,并进行了三重重复实验。
  2. ,
Cell homogenization
Para_01
  1. 在细胞器免疫沉淀或亚细胞分离前,HEK293T细胞通过反复通过钝头23G针头在低渗缓冲液中进行机械破碎。
  2. 在10厘米培养皿中生长的细胞用冷PBS洗一次,并用5毫升冷PBS刮取收集。
  3. 所有后续步骤均在4℃或冰上进行。
  4. 首先,刮取的细胞在4℃下以500×g轻轻离心并重新悬浮于950微升低渗裂解缓冲液中,该缓冲液含有:25 mM Tris-HCl pH 7.5,50 mM蔗糖,0.2 mM EDTA,0.5 mM MgCl2,并加入蛋白酶和磷酸酶抑制剂混合物(赛默飞科学公司,#PI78443)。
  5. 重新悬浮后的细胞立即通过23G钝头1英寸针头(SAI输液技术公司#B23-100)连接到1毫升注射器(Air-Tite NormJ-ect-F #NJ-9166017-02)中机械破碎四次。
  6. 然后立即充分混合89微升浓缩蔗糖缓冲液(2.5 M蔗糖,0.2 mM EDTA,0.5 mM MgCl2)以恢复渗透压。
  7. 细胞匀浆通过1000×g离心10分钟(4℃)澄清,得到主要含核物质的沉淀物和主要含细胞器和胞质蛋白的上清液。
Subcellular fractionation and whole cell extract preparation
Para_01
  1. 为了粗略的细胞器亚分馏("N/O/C"组分,参见正文和图1E),澄清的匀浆上清液进一步在4°C下以20,000 ×g离心45分钟,得到主要包含细胞器蛋白的沉淀物和可溶性胞质上清液。
  2. 两个沉淀物,1,000 ×g("核")和20,000 ×g("膜结合的细胞器")均用SDS裂解缓冲液{5% SDS,50 mM三乙基铵碳酸氢盐(TEAB)pH 7.55}重新悬浮,分别为750 μl和500 μl。
  3. 胞质上清液补充了20%的SDS,最终达到5%的SDS浓度。
  4. 这三个组分都煮沸了5分钟。
  5. 同时,通过直接从一个10厘米培养皿刮取细胞来生成全细胞提取物(WCE)。
  6. 所有N/O/C和WCE样品进一步通过探针超声处理(德国海氏乐UP200St),然后在14,000 xg下离心15分钟以澄清。
  7. 使用BCA测定法根据制造商的说明(Pierce,赛默飞世尔科技)定量蛋白质裂解液。
  8. 通过加入4.5体积的冰冷丙酮提取100 μg蛋白质,于-20°C下孵育1小时,然后在4°C下以21,000 xg离心10分钟。
  9. 蛋白质沉淀物随后用{2.5%牛磺胆酸钠,50 mM EPPS,pH 8.5}缓冲液重新悬浮。
  10. 通过加入1 mM二硫苏糖醇(赛默飞世尔科技,A39255)将蛋白质样品还原,并在37°C下孵育20分钟。
  11. 半胱氨酸侧链通过加入5 mM碘乙酰胺(IAA,赛默飞世尔科技#A39271)烷化,并在室温下暗处孵育20分钟。
  12. 样品通过加入Lys-C(富士胶片武田#NC9223464)在酶与蛋白质比例为1 mAU每50 μg的情况下过夜消化。
  13. 第二天继续通过加入胰蛋白酶(赛默飞世尔科技,90057)在酶与蛋白质比例为1:100的情况下消化3小时。
  14. 所有四个步骤都在德国Eppendorf公司的热混合器上进行。
  15. 通过酸化至1%三氟乙酸停止消化,接着在冰上孵育5分钟,并在21,000 xg下离心15分钟以去除不溶性物质。
Organellar IPs
Para_01
  1. 细胞匀浆步骤中描述的澄清的细胞器/胞质 Supernatant(1,000 xg)被用作细胞器IPs的输入材料,该材料是用于表达标记的细胞器标志蛋白的细胞准备的。
  2. 所有步骤都在4°C或冰上进行。
  3. 为了捕获细胞器,将750 μL这种Supernatant与20 μL Anti-HA磁珠(赛默飞科学公司#PI88836)混合在一个96孔深孔板(1 mL孔)中,并在热混合器中以1,000 rpm的转速振荡孵育10分钟。
  4. 捕获后,磁珠被绑定到一个浸入式磁铁(V&P Scientific #VP 407AM-N1),并通过逐次转移到96孔板中,用150 μL冷的不含二价离子的D-PBS(赛默飞科学公司#14190144)洗涤三次。
  5. 磁珠在96孔板中释放到含有150 μL冷D-PBS的平板底部磁铁(赛默飞科学公司#AM10027)上,然后去除D-PBS Supernatant。
  6. 磁珠在30 μL尿素-DTT缓冲液(2 M尿素,12.5 mM Tris-HCl pH 7.5,1 mM DTT)中重新悬浮。
  7. 通过向每个样品中加入3.3 μL的50 mM碘乙酰胺(IAA,赛默飞科学公司#A39271),结合的蛋白质被烷基化,随后在室温下于热混合器中以1,400 rpm的转速振荡30分钟。
  8. 通过添加0.5 μg的LysC(富士胶片武田#NC9223464)消化蛋白质,并在室温下过夜振荡保持。
  9. 最后,加入1 μg胰蛋白酶(赛默飞科学公司#PI90058),随后在室温下振荡4小时。
  10. 移除磁珠,肽酸化至最终浓度为1%三氟乙酸(TFA)。
Peptide desalting and mass spectrometry

肽脱盐和质谱分析

Para_01
  1. 细胞器IP、N/O/C和WCE肽在自制的Styrenedivinylbenzene反相磺酸盐填充的StageTip上进行了脱盐。
  2. 简而言之,StageTip用100%甲醇激活,用80%乙腈/0.1%TFA(三氟乙酸)预处理,并用0.2%TFA平衡,然后加载样品,用99.9%异丙醇/0.1%TFA洗涤,并进行额外的洗涤:两次用0.2%TFA和一次用0.1%甲酸。
  3. 细胞器IP肽用60%乙腈/0.5%氨水洗脱。
  4. 然而,为了达到蛋白质组学深度,N/O/C和WCE肽通过首先用含有0.5%TFA和100mM氨基甲酸铵的40%乙腈洗脱,接着用含有0.5%TFA和150mM氨基甲酸铵的60%乙腈洗脱,最后用含有1%氨水的80%乙腈洗脱,进行了三次分级分离。
  5. 脱盐后的肽被快速冷冻,然后通过离心蒸发干燥并重新悬浮在2%乙腈/0.1%TFA中。
  6. 肽在配备有Thermo EASY-nLC 1200 LC系统的Fusion Lumos质谱仪(赛默飞世尔科技,加利福尼亚州圣何塞)上进行了分析,并使用了nanoFlex ESI源。
  7. 肽通过毛细管反相色谱法在一根25厘米长的柱子(内径75微米,填充有1.6微米C18树脂,AUR2-25075C18A,Ionopticks,澳大利亚维多利亚)上分离。
  8. 电喷雾电离电压设置为2000伏。
  9. 肽通过两步线性梯度引入到Fusion Lumos质谱仪。
  10. 对于细胞器IP样品,3-27%缓冲液B(0.1%(体积比)甲酸在80%(体积比)乙腈中)持续52.5分钟,随后27-40%缓冲液B持续14.5分钟。
  11. 对于N/O/C和WCE样品,3-27%缓冲液B持续105分钟,随后27-40%缓冲液B持续15分钟。
  12. 两种样品均以300 nL/min的流速运行。
  13. 整个过程中柱温保持在50°C。
  14. 数据以每秒一个循环的速度在依赖模式下采集。
  15. 在Orbitrap质量分析器(FTMS)中获得了全MS扫描,细胞器IP样品分辨率为120,000(FWHM),而N/O/C和WCE样品分辨率为240,000(FWHM)。
  16. 两种样品的m/z扫描范围均为375-1500 m/z。
  17. 选定的前体离子使用高能碰撞解离(HCD)进行碎裂,四极杆隔离窗口为0.7 m/z,归一化碰撞能量为31%。
  18. HCD片段在设置为Turbo扫描速率的离子阱质量分析器(ITMS)中进行分析。
  19. 碎片离子在一个时间段内被动态排除,细胞器IP样品为60秒,而N/O/C和WCE样品为45秒。
  20. 自动增益控制(AGC)目标设置为1,000,000和10,000,分别用于全FTMS和ITMS扫描。
  21. 最大注入时间设置为全FTMS扫描和ITMS扫描的Auto模式。
HCoV-OC43 infection

HCoV-OC43 感染

Virus stocks
Para_01
  1. OC43从ATCC(VR-1558)获得,并在Huh7.5.1细胞中于34°C的DMEM培养基中繁殖。
  2. 通过使用BHK-T7细胞的标准蚀斑测定法确定病毒滴度。
  3. 简而言之,BHK-T7细胞以每孔800,000个细胞的密度接种在6孔板中,并在34°C的DMEM培养基中生长24小时。
  4. 第二天,使用病毒储备液进行连续10倍稀释,在34°C下感染细胞2小时,之后去除培养基,覆盖一层含1.2% Avicel RC-591的DMEM培养基。
  5. 感染的细胞在34°C下孵育6天,随后用4%甲醛固定,结晶紫染色,并计算蚀斑数量。
  6. 所有实验均在二级生物安全实验室中进行。
Infection – organelle IPs
Para_01
  1. 对于来自感染细胞的细胞器IP,表达标记细胞器标志物的HEK293T细胞在感染前约18小时以大约每10厘米平板5*10^6的数量接种,导致感染时汇合度约为80%。
  2. 通过将病毒接种物直接加入培养基中进行感染,感染复数(MOI)为0.25,在37°C下进行。
  3. 这个MOI经过优化,可以在48小时后使感染群体均匀感染,同时尽量减少所需接种物的量。
  4. 然后,细胞被收获并处理,就像上面描述的未感染细胞一样。
Microscopy imaging

显微成像

Sample preparation
Para_01
  1. 活细胞成像在涂有50μg/ml纤连蛋白(Corning,货号#356008)的96孔玻璃底板(Greiner Bio One,货号#655891)上进行。
  2. 细胞在成像前约30小时以每孔15,000个细胞的密度接种。
  3. 成像前,细胞用活细胞DNA染料Hoechst 33342(Invitrogen,货号#H3570)通过在150 μl含有稀释至1μg/mL的Hoechst的培养基中于37°C下孵育30分钟进行反染。
  4. 然后将培养基替换为不含酚红的DMEM(Gibco,货号#21063029),其中含有10% FBS。
  5. Hoechst染色在成像前三到四小时进行,以便细胞有时间从因培养基更换引起的机械应力中恢复。
  6. 在涉及FeRhoNox-1(Sigma-Aldrich,货号#SCT030)的实验中,根据制造商的协议重新悬浮FeRhoNox-1,并以最终浓度为5 μM与Hoechst一起使用。
  7. 然后细胞在无血清成像介质中于37ºC下孵育1.5小时,随后用无血清成像介质洗涤并成像。
Live-cell fluorescence microscopy
Para_01
  1. 细胞使用倒置显微镜(Leica)进行成像,该显微镜配备了Dragonfly旋转盘共聚焦系统(Andor),63x 1.47NA油浸物镜(Leica)和16位iXon Ultra 888 EMCCD相机(Andor,像素大小:13x13 μm²)。
  2. 使用了40 μm的针孔尺寸和400的电子增益。
  3. 在图像采集过程中,通过台式培养箱(Okolab,H101-K-框架)将细胞保持在37°C和5% CO2。
  4. 显微镜使用开源显微镜控制软件MicroManager(版本1.4.22)进行控制。
Para_02
  1. 一个包含在N端融合了mCherry的RAB14的cDNA构建体被克隆到了在CMV启动子控制下的表达质粒中。
  2. 该构建体使用FuGENE-HD按照制造商的协议(Promega cat. #HD-1000;转染试剂与DNA的比例为3:1;培养72小时)进行了细胞转染。
  3. 共定位使用ImageJ中的ROI管理器进行了量化。
Infection – imaging
Para_01
  1. 感染前一天,细胞被接种在涂有50 μg/mL纤连蛋白(Corning,货号#356008;制造商协议)的96孔玻璃底板(Greiner Bio One,货号#655891)上。
  2. 对于未感染条件,每孔接种4000至8000个细胞;对于感染条件,每孔至少接种8000个细胞。
  3. 感染当天,病毒样本在冰上解冻,用生长培养基稀释,并按指示的MOI和最终体积为每孔100 μL施加到细胞上。
  4. 在计算MOI时,假定细胞数量增加了三倍。
  5. MOI 0条件下仅更换了培养基。
  6. 除非另有说明,感染成像实验在48小时后进行活体成像。
  7. 所有成像实验均遵循上述样品制备协议。
Para_02
  1. HEK293T 细胞内源性标记了 NCOA4(N 端 mNeonGreen;gRNA 序列 TTTCTTTTAAAGGAGCAGTG)和 ATG5(N 端 mScarlet;gRNA 序列 GTATGTACTGCTTTAACTCC)。
  2. 通过流式细胞术基于双阳性 mNeonGreen 和 mScarlet 荧光筛选出单细胞克隆。
  3. 四个独立克隆在 OC43 感染后进行培养并成像,如上所述。
  4. 共定位通过确定 NCOA4 阳性像素中也是 ATG5 阳性的百分比来量化。
Para_03
  1. 细胞在感染OC43后进行了成像,如上所述。使用Otsu方法对COP-I亚基的最大强度投影进行了分割。然后计算了每个细胞中每个荧光物体的质心到核边界平均距离。
  2. 每个细胞中每个荧光物体的质心到核边界平均距离被计算出来。
Flow cytometry

流式细胞术

Para_01
  1. 每孔接种了70000个细胞,在感染前一天使用12孔塑料板。
  2. MOI 1感染后48小时(终体积为每孔1毫升),细胞用胰蛋白酶处理,淬灭,并在室温下用4%多聚甲醛固定15分钟。
  3. 在涉及FeRhoNox-1的实验中(参见"样品制备"部分以获取方案),细胞在固定前用FeRhoNox-1处理。
  4. 然后细胞被洗涤、通透化并用Perm/Wash缓冲液(BD Biosciences,货号#554723;室温下超过30分钟)封闭。
  5. 对于抗体染色,细胞用1:200的OC43抗体(Millipore Sigma,货号#MAB9012;室温下超过1小时)处理,洗涤,用1:500的Alexa Fluor二抗(Thermo Fisher Scientific;室温下超过30分钟)处理,并洗涤(所有步骤均在此Perm/Wash缓冲液中)。
  6. 最后,细胞用FACS缓冲液(HBSS无离子(Gibco,货号#14175095)含1%胎牛血清(Omega Scientific,货号#FB-11)和25 mM HEPES(Gibco,货号#15630080))重新悬浮,并使用CytoFLEX(Beckman Coulter)进行分析。
Para_02
  1. 用铁死亡抑制剂和活化剂处理:在感染实验中,与Ferrostatin(赛乐克化学公司,货号#S7243)或Liproxstatin(赛乐克化学公司,货号#S7699)共同处理时,12孔板中的细胞首先用500 μL/孔的病毒在所需MOI下处理,然后立即用500 μL/孔的2倍所需药物浓度处理,以达到每孔最终体积为1 mL。
  2. 在RSL3实验中(RSL3由James Olzmann博士从UC伯克利赠送),RSL3在感染后24小时加入。细胞在感染后48小时被固定并检测OC43。
  3. 为了测量药物处理后的细胞活力,细胞用PBS洗涤,用胰蛋白酶消化,并重新悬浮于1 mL生长培养基中。然后使用Cytoflex计数每孔的100 μL细胞液。
Transcriptomics

转录组学

Para_01
  1. 为了进行OC43感染细胞的转录组分析,我们基本上按照所有蛋白质组学实验的方法,在37°C下在10厘米培养皿中培养和感染细胞。
  2. 细胞在约80%汇合度时以1.0的MOI感染。
  3. 我们错开了一系列感染,以便样本在未感染状态下以及在16、24和48小时后分别平行收获。
  4. 细胞通过胰蛋白酶化收获,淬灭并在PBS中洗涤。
  5. 然后我们在将所有细胞混合之前使用MULTI-seq113对实验条件(即未感染或16、24、48小时后)进行编码,目标是回收20,000个细胞。
  6. 我们使用5'工作流程来区分不同的病毒亚基因组RNA。
  7. 我们遵循制造商的建议进行文库制备和测序,在每个细胞约50,000个读取中将MULTI-seq扩增子以约8%的比例混入基因表达文库。
  8. 我们使用cellranger v. 5.0.1处理原始数据,使用结合了GRCh38人类基因组和手动编译的OC43参考的自定义转录组参考。
  9. 除了默认的cellranger过滤外,我们去除了UMI数量小于2,000的细胞、线粒体转录物含量超过5%的细胞,以及MULTI-seq条形码指示多聚体或无法明确分配到一个实验条件的细胞,最终数据集中有12,910个细胞。
  10. 我们使用Leiden聚类定义了三种主要的细胞状态,分别对应未感染细胞、低病毒载量细胞和高病毒载量细胞。
  11. 为了评估未感染细胞和呈现高病毒载量的感染细胞之间的差异基因表达,我们从每种细胞状态中随机抽取100个细胞生成伪批量转录组。
Data analysis – mass spectrometry proteomics

数据分析 – 质谱蛋白质组学

Data availability
Para_01
  1. 质谱原始数据和相关的MaxQuant输出表格已通过PRIDE合作伙伴仓库提交至蛋白质组学交换联盟(访问编号PXD046440)。
  2. ,
Raw Data Processing
Para_01
  1. 原始数据在 MaxQuant115 v. 2.2.0.0 中进行了处理。
  2. 我们为细胞器免疫沉淀定义了单独的参数组,并在这些组内使用了运行匹配功能和 MaxLFQ122 进行无标签定量(使用 1 分钟的 LFQ 比率计数)。
  3. 光谱被搜索到人类蛋白质序列(从 Uniprot 下载于 2021 年 7 月 17 日,包含规范和异构体序列)以及 23 个手动编译的 HCoV-OC43 蛋白质序列(基于 ATCC 提供的 HCoV-OC43 菌株 1588 基因组组装而成)。
  4. 简而言之,将肽谱和蛋白质匹配的假发现率设置为 1%,最小肽长度为 7,允许 2 次漏切,并将酶设置为胰蛋白酶。
  5. 甲硫氨酸的氧化和蛋白质 N 端乙酰化被设置为可变修饰,而半胱氨酸的羧基甲基化被设置为固定修饰。
Protein identification in native immunoprecipitation
Para_01
  1. 蛋白质鉴定经过筛选,去除了常见的污染物、反向数据库中的命中结果以及仅通过特定位置的翻译后修饰识别的蛋白质。
  2. 我们在所有分析中使用了 MaxQuant LFQ 强度的对数值。
  3. 我们要求每种蛋白质在至少一个天然免疫沉淀-质谱(IP-MS)样本的所有重复中都被定量,并且在全蛋白质组质谱样品的两个重复中也被定量。
  4. 缺失值通过使用高斯分布进行插补处理,该分布的中心位于全局 LFQ 强度分布的左尾。
  5. 具体而言,这个高斯分布的平均值偏移量是全局标准差的 1.8 倍,而其标准差固定为全局标准差的 0.3 倍。
Protein enrichment analysis using affinity-enrichment mass spectrometry
Para_01
  1. 我们的富集分析策略使用了已确立的亲和力富集质谱法(AE-MS)概念。
  2. 在AE-MS中,不是使用单一的阴性对照来测量给定免疫沉淀质谱(IP-MS)样品的蛋白质富集谱,而是将富集程度相对于更大数量的不相关的IP-MS样品进行计算(也就是说,相对于更大数量的不特异性捕获与目标样品相同蛋白质组的样品)。
  3. 如先前所述,这种方法能够更好地估计背景结合物的零分布,并导致更稳健的相互作用识别。
Sample grouping
Para_01
  1. 对于当前的研究,所有三重重复的IP-MS样本是在17个独立的实验批次中产生的,每个批次平均包含8个三重复样本(或24个单独的IP)。
  2. 对于每一批次,我们首先定义了与IP珠结合或吸附的蛋白质背景,这种背景不是3xHA标签特异性的;这种非特异性背景是由在每个批次中包括的三重复阴性对照IP-MS中的LFQ强度测量定义的,使用野生型(未标记)细胞获得。
  3. 为了最小化批次效应,然后我们使用这些阴性对照的层次聚类将具有相似背景强度谱的批次分组在一起(有关Github上的详细信息)。
  4. 此分析定义了5个总体样本组。
Enrichment calculation
Para_01
  1. 所有富集计算使用三重测量集合,这些集合将随后描述为"样本"。
  2. 在每个五个样本组内,首先使用队列匹配的未标记阴性对照作为零分布来计算原始蛋白质富集值。
  3. 计算了同一组内所有样本之间的原始蛋白质富集的成对相关性,并识别出不相关的样本(相关系数<0.35)。
  4. 然后,对于每个样本,使用来自同一组的所有其他不相关样本的完整集合来定义零分布,从而计算最终的蛋白质富集值。
  5. 每种蛋白质的最终富集值通过计算重复实验和零分布之间的中位数log2 LFQ值之差得出。
  6. 使用t检验比较重复实验和零分布之间的log2 LFQ值均值来测试最终富集值的显著性。
  7. 使用香农熵公式计算每种蛋白质富集谱的熵,在计算前对谱进行总和归一化。
Calculation of protein proportions in N/O/C spin-fractions
Para_01
  1. 蛋白质在离心分级质谱样品中的鉴定采用了与免疫沉淀质谱样品相同的方法。我们要求每种蛋白质在至少三个离心分级中的一个中被定量。
  2. 每种蛋白质的N/O/C比例(来自三次重复实验)通过将中位数N、O或C的LFQ值除以从所有三个离心分级中获得的所有中位数LFQ值之和来定义。
Graph-based analyses

基于图的分析

k-nearest neighbor (k-NN) graph
Para_01
  1. 为了构建k-NN图,我们将蛋白质富集数据矩阵与N/O/C比例数据矩阵结合。
  2. 这种整合需要两个矩阵中存在相同的蛋白质(也就是说,缺失于其中一个矩阵中的蛋白质将被排除分析)。
  3. 我们使用scanpy包125来构建k-NN图。
  4. 在这个过程中,首先将组合的数据矩阵缩放以实现零均值和单位方差,并将值限制在10以内。
  5. 随后,我们应用UMAP算法47,使用20个最近邻和欧几里得距离度量,生成一个加权邻接矩阵来描述k-NN图的边。
Protein pairwise correlation/distance
Para_01
  1. Pearson相关系数通过缩放后的组合矩阵计算了每一对蛋白质之间的相关性。
  2. 使用从缩放后的组合矩阵通过主成分分析得到的30个主成分,计算了每一对蛋白质之间的余弦距离。
Dimension reduction
Para_01
  1. 富集值和N/O/C比例的组合矩阵被缩放以实现零均值和单位方差,并将值限制在10以内。
  2. UMAP算法47用于使用20个最近邻、欧几里得距离度量和最小嵌入距离0.1将缩放后的矩阵嵌入到二维或三维空间中。
Clustering and protein-level compartment annotation
Para_01
  1. 蛋白质组的聚类是通过scanpy包中实现的Leiden算法计算的。
  2. k-NN图被用作输入,参数"partition_type"设置为"leidenalg.RBConfigurationVertexPartition"。
  3. 通过本体富集分析获得了蛋白质水平的区域注释。
  4. 该分析使用Enrichr116 API在https://maayanlab.cloud/speedrichr上进行。
  5. 对于每个Leiden簇,富集是相对于背景列表计算的,其中包括我们数据集中检测到的所有蛋白质。
  6. 富集分析使用COMPARTMENTS39和GO-细胞成分50数据库进行计算,p值截止点为0.01。
  7. 然后将每个Leiden簇中最显著富集的基因本体术语分配为该簇内蛋白质的注释。
  8. 具有相同注释的Leiden簇被合并。
Clustering score
Para_01
  1. 我们使用 Caliński 和 Harabasz 指数(CHI)来衡量具有特定真实标签的蛋白质是否形成了界限分明的聚类。
  2. CHI 是分离簇之间距离(在图中不同簇彼此分离的程度)与每个簇内部离散程度(每个簇内的紧密程度)之比的归一化度量。
  3. 较高的 CHI 值表示更好的聚类分辨率。
  4. 真实标签是平衡的,并且通过计算 200 个随机平衡类别集的平均 CHI 值来考虑过程中引入的变化。
  5. 所有数据集观察到的并且包含在真实标签集合中的蛋白质被用来计算 CHI。
  6. 对于每个数据集,使用了十个随机种子生成 UMAP 嵌入。
  7. 然后根据细胞器和蛋白质复合物级别的真实标签计算 CHI。
  8. 最后,我们报告了在类别平衡集和 UMAP 随机种子之间的指数的均值和标准误差(SEM)。
  9. 真实标签是平衡的,并且通过计算 200 个随机平衡类别集的平均 CHI 值来考虑过程中引入的变化。
  10. 所有数据集观察到的并且包含在真实标签集合中的蛋白质被用来计算 CHI。
Graph-based annotation
Para_01
  1. 蛋白质级别的分区注释通过k-NN图进行了细化。对于每种蛋白质,该蛋白质在其图中所有邻居中最常观察到的分区注释被采用为其基于图的注释。
  2. 这种方法排除了"未分类"类别作为最频繁注释的选择。
Jaccard coefficient
Para_01
  1. 为了计算杰卡德系数,必须定义两个部分,一个给定的节点可能与之相连。
  2. 因此,对于给定的蛋白质,我们确定了在其k-最近邻图的直接邻居列表中最常出现的两个隔室注释(部分)。
  3. 包含大量蛋白质的隔室总体上在这个计算中可能具有优势。
  4. 因此,为了在考虑不同隔室大小的情况下对每个蛋白质的前两名部分进行排名,将该蛋白质的邻居数量标注为属于给定隔室的数量除以该隔室的总大小进行了标准化。
  5. 还设定了一个最低阈值:要作为前两名隔室之一进行排名,隔室必须包含给定蛋白质的三个或更多直接k-最近邻。
  6. 杰卡德系数通过将两个选定隔室中的邻居总数除以这两个隔室的大小之和减去邻居总数来计算。
Cluster connectivity
Para_01
  1. 任意两个给定的基于图的标注聚类在k-NN图中的连接性通过计算两个聚类之间的连接占它们之间可能存在的总连接数的百分比来量化。
Classifier-based analysis

基于分类器的分析

Para_01
  1. 我们使用了基于梯度提升的分类器XGBoost,它结合了多棵决策树以提高预测性能。
  2. 分隔符分类器是使用eXtreme Gradient Boosting (XGBoost)算法构建的。
  3. 该算法通过XGBoost包实现。
  4. 训练数据集包含富集值和N/O/C比例的组合矩阵。
  5. 在预处理阶段,这个矩阵被缩放以达到零均值和单位方差,并将值限制在10以内。
  6. 训练数据集由61个IP-MS/自旋分数-MS样本作为特征和2412个文献整理的细胞器标记物(表S2)作为观察实例组成。
  7. 为了进一步解决类别不平衡问题,我们采用了一种称为SMOTENN的混合重采样技术,该技术结合了过采样和欠采样。
  8. XGBoost模型的超参数调优是通过贝叶斯优化算法进行的,该算法通过scikit-optimize包实现(https://zenodo.org/records/5565057)。
  9. 优化过程调整了以下参数:"max_depth","learning_rate","gamma"和"grow_policy",使用"f1_weighted"作为主要评分指标。
  10. 在所有模型训练过程中(包括超参数调优),应用了三折交叉验证,以减少随机分割训练数据为训练集和测试集的影响。
  11. 在训练期间,使用从测试子集中计算出的"mlogloss","merror"和"auc"指标来监控模型性能。
  12. 配置了"early_stopping_rounds"为50以防止模型过拟合。
  13. 最终评估是在不在训练数据集中的5183个蛋白质上进行的。
  14. 基于分类器的注释是利用一个使用优化后的超参数训练的XGBoost模型得到的。
  15. "objective"参数设置为"multi:softprob",以允许为每个隔室生成概率预测。
  16. 对于每组蛋白质,识别与最高预测概率相关的隔室,并将其指定为基于分类器的注释。
Subcellular remodeling analysis

亚细胞重构分析

Aligned-UMAP
Para_01
  1. 蛋白质鉴定来自IP-MS和N/O/C自旋级分MS样品的处理是分别针对未感染对照条件和感染条件进行的,并遵循上述相同的方法。
  2. 处理后,两个组合矩阵被过滤,仅保留两个矩阵共有的蛋白质。
  3. 因此,生成了两个组合矩阵:一个代表未感染对照条件,另一个代表感染条件。
  4. 这些矩阵随后用于构建各自的k-NN图谱。
  5. 使用umap包中实现的AlignedUMAP方法,这两个图谱同时被嵌入到共享的低维空间中,且以对齐的方式进行。
  6. 嵌入配置参数如下:20个最近邻点,欧几里得距离度量,最小嵌入距离0.1,300个周期,以及对齐正则化因子0.002。
  7. 为了将病毒蛋白映射到对齐UMAP的感染侧,使用包括病毒蛋白的感染富集矩阵生成了一个单独的UMAP。
  8. 然后通过Procrustes分析将病毒蛋白的坐标投影到对齐UMAP的感染侧。
Subcellular remodeling score
Para_01
  1. 未感染和感染的k-NN图使用上述描述的AlignedUMAP方法嵌入到一个共享的10维空间中。
  2. 为了最小化随机性,我们重复了200次嵌入过程。
  3. 对于每个蛋白质组,重构评分定义为200次重复中感染坐标和未感染坐标之间的平均欧几里得距离。
Visualization of protein subcellular remodeling
Para_01
  1. 未感染和感染的k-NN图被嵌入到一个共享的二维空间中,以便进行比较视觉表示。
  2. 使用上述方法生成了蛋白质水平的分区注释,一个显著的修改是:调整了Leiden算法中的分辨率参数为1。
Image analysis – deep learning with cytoself

图像分析 – 使用 Cytoself 的深度学习

Para_01
  1. 一个修改版本的基于图像的细胞器定位预测方法Cytoself被用来确定孤儿蛋白的定位(代码在github.com/jmhb0/cytoself发布)。
  2. 具体来说,一个使用OpenCell数据集中的图像训练的表征学习模型被用来识别具有与孤儿蛋白相似亚细胞定位的OpenCell中的蛋白质。
  3. 简而言之,使用最大强度投影,利用Cellpose用默认设置分割了细胞核,并且围绕每个细胞核取了高度和宽度为200像素的图像裁剪,丢弃直径小于50像素的裁剪。
  4. 每个裁剪都包含了细胞核通道、蛋白质通道以及第三个通道,该通道中的每个像素是到最近细胞核边界的归一化距离(距离对于在细胞核内的像素为负值)。
  5. 每个裁剪中的蛋白质和细胞核通道独立地被归一化到范围[0,1]。
  6. 然后使用官方存储库的分支(2023年10月10日分叉),使用默认参数训练了一个cytoself模型,并在损失没有减少的12个周期后选取了检查点。
  7. 由于OpenCell中某些细胞器类别代表性不足,实施了数据重采样,使得每个细胞器类别至少出现在5%的样本中。
  8. 这提高了对代表性不足的类别如线粒体和溶酶体的表征质量。
  9. 然后提取了所有OpenCell和孤儿图像的‘vqvec2’向量(向量量化第二阶段捕捉细微特征)。
  10. 这种方法也适用于每个裁剪的90度旋转和翻转,以提高特征的鲁棒性。
  11. 然后通过取所有裁剪嵌入的逐元素平均得到了每个蛋白质的‘共识嵌入’,之后使用主成分分析将其降维至200维。
  12. 然后使用皮尔逊相关系数计算了每个孤儿蛋白的嵌入空间距离到文献中整理的细胞器标记基因的距离,并按细胞器分组。
  13. 对于每个细胞器标记基因组,使用最接近非异常基因的相关距离(异常定义为超过四分位间距1.5倍的四分位数)进行跨细胞器比较。
  14. 为了可解释性,将相关距离转换成了相关分数。
Figure generation and general code availability

图形生成和通用代码可用性

Para_01
  1. 本研究的数据分析使用了Python编程语言。
  2. 图表是使用Python中的matplotlib、seaborn、plotly、networkx、pysankey、python-ternary或upsetplot包生成的。
  3. 所有用于进行分析和生成本文档图表的计算机代码和参考数据都可以在GitHub上找到,网址是github.com/czbiohub-sf/Organelle_IP_analyses_and_figures。
  4. 代码已在Zenodo上归档,DOI为:https://doi.org/10.5281/zenodo.14000085。

Quantification and statistical analysis

量化和统计分析

Para_01
  1. 每个实验的统计方法在相应的STAR方法部分或图例中有所描述。

Supplemental information

Para_01
  1. 下载:下载电子表格(25KB)表S1。与图1和图4相关的细胞工程相关信息和序列。
  2. 下载:下载电子表格(65KB)表S2。从文献中整理的真实细胞器蛋白标记物列表,与图1和图2相关。
  3. 下载:下载电子表格(1MB)表S3。与图2相关的Leiden聚类和UMAP坐标。
  4. 下载:下载电子表格(2MB)表S4。与图2、图3和S6相关的蛋白质亚细胞定位总结注释。整合了基于图的、界面的和分类器的注释。
  5. 下载:下载电子表格(1MB)表S5。与图2和S7相关的与公共空间蛋白质组学数据集注释的比较。
  6. 下载:下载电子表格(3MB)表S6。与图3相关的整个数据集的k-NN连接列表和定义界面蛋白的Jaccard系数分析。
  7. 下载:下载电子表格(1MB)表S7。与图5和图6相关的HCoV-OC43感染后的亚细胞重塑、蛋白质组学和转录组学。
  8. 下载:下载Acrobat PDF文件(6MB)数据S1。与图1、图2、图3和图4相关的补充数据。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Highlights
  • Summary
  • Graphical abstract
  • Keywords
  • Introduction
  • Results
    • IP under native conditions provides rich organellar proteomes
    • Graph-based analysis provides subcellular resolution to human proteome maps
    • Validation and comparison to existing datasets
    • Subcellular protein networks define functional signatures and quantify cellular organelle connections
    • Annotating protein subcellular localization
    • De-orphaning protein localization
    • Pan-cellular remodeling during HCoV-OC43 infection
    • Subcellular remodeling reveals cellular responses not captured by abundance changes and identifies ferroptosis as an essential pro-viral response
    • Interactive data sharing at organelles.czbiohub.org
  • Discussion
    • Limitations of the study
  • Resource availability
    • Lead contact
    • Materials availability
    • Data and code availability
  • Acknowledgments
  • Author contributions
  • Declaration of interests
  • STAR★Methods
    • Key resources table
    • Experimental model and study participant details
      • Cell culture
    • Method details
      • Cell culture & CRISPR/Cas9 engineering
      • Sample generation for proteomics analysis
      • Peptide desalting and mass spectrometry
      • HCoV-OC43 infection
      • Microscopy imaging
      • Flow cytometry
      • Transcriptomics
      • Data analysis – mass spectrometry proteomics
      • Graph-based analyses
      • Classifier-based analysis
      • Subcellular remodeling analysis
      • Image analysis – deep learning with cytoself
      • Figure generation and general code availability
    • Quantification and statistical analysis
  • Supplemental information
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档