Basic Information 英文标题:A genome-wide atlas of human cell morphology 中文标题:人类细胞形态全基因组图谱 发表日期:27 January 2025 文章类型:Resource 所属期刊:Nature Methods 文章作者:Meraj Ramezani | James T. Neal 文章链接:https://www.nature.com/articles/s41592-024-02537-7 Abstract Para_01 现代基因组学时代的一个关键挑战是开发基于实证的数据驱动的基因功能表征。 我们在此提出了人类细胞中首个无偏形态学为基础的全基因组扰动图谱,包含了三个全基因组基因型-表型图谱,其中包括了对超过20,000个基因使用CRISPR-Cas9进行敲除的实验,涉及超过3000万细胞。 我们的光学混合细胞分析平台(PERISCOPE)结合了一种可褪色的高维表型分析面板(基于Cell Painting),分子条形码的光学测序以及一个可扩展的开源分析管道,以促进大规模并行筛选混合扰动文库。 这个扰动图谱包括单个细胞的高维表型特征轮廓,具有足够的分辨率来聚类数千个人类基因,重构已知的途径和蛋白质-蛋白质相互作用网络,探究亚细胞过程,并识别特定培养基的响应。 利用这个图谱,我们识别了疾病相关但研究较少的TMEM251/LYSET作为一种高尔基体驻留跨膜蛋白,该蛋白对于溶酶体酶的甘露糖-6-磷酸依赖性运输至关重要。 总之,这个扰动图谱和筛选平台代表了一个丰富且易于访问的资源,用于大规模地将基因与细胞功能联系起来。 Main Para_01 大规模的DNA测序已经改变了我们识别和分类各种基因型信息的能力,但也产生了一个新的瓶颈:描述基因型对人类生物学的多种影响。 因此,系统地将人类基因和基因型与与疾病和特征相关的表型联系起来仍然是生物医学的一个重大挑战。 Para_02 汇集的CRISPR筛选技术已被证明是解决这一挑战的强大工具,但通常需要在表型内容或规模上做出妥协。 全基因组汇集的CRISPR筛选使系统性评估基因功能成为可能,但兼容的表型,如增殖或细胞死亡,通常是简单的或需要靶向检测,这使得它们不适合评估人类细胞中的许多生物学相关过程,这些过程往往是微妙、渐变和/或复杂的。 相比之下,高通量分析方法,如成像、转录组学、蛋白质组学和代谢组学可以为每个样本捕获数百个定量表型,提供丰富的表型概况,但通常与全基因组扰动不兼容。 一个值得注意的例外是Perturb-seq,它最近被应用于分析CRISPR干扰(CRISPRi)对人慢性髓性白血病细胞系K562表达基因组的敲低(KD)效应。 该研究展示了利用一种新的(目前尚未广泛可用)DNA测序技术和资源密集型数据生成努力,在全基因组尺度上生成丰富、高维度的细胞状态表征的巨大价值。 Para_03 光学混合筛选结合了基于图像的表型分析与基于图像的扰动条形码测序,已成为一种有前途且互补的方法,能够在单细胞分辨率下进行高维基因型-表型映射,这种方法可扩展且成本效益高。 光学混合筛选能够定量评估分子谱系方法无法检测到的表型,如细胞形态和亚细胞定位,其通量高于阵列式图像筛选方法。 与基于富集的成像方法不同,光学混合筛选不需要对物理选择或表型进行预先定义。 Para_04 在这里,我们将无偏的高维图像细胞形态分析与大规模并行光学汇集CRISPR筛选相结合,构建了人类细胞形态表型的第一个全基因组扰动图谱。 我们报告了一种优化的细胞形态分析面板的设计,该面板基于流行的基于图像的细胞绘画(Cell Painting)19,20分析方法,该方法能够对细胞形态进行五色荧光显微镜观察,然后通过合成测序的原位测序(ISS)进行四色测序,以将扰动分配给细胞。 我们还建立了一个可扩展的、开源的、基于云的流程,用于从全基因组扰动数据集中生成条形码图像分析特征。 我们使用这项技术在人类宫颈癌细胞(HeLa)中执行了两个全基因组汇集光学CRISPR筛选实验,这些细胞要么在传统的细胞培养基中培养,要么在生理条件下培养21,以非偏向的方式分析超过20,000个单基因敲除(KO)的效果,并绘制全基因组基因-环境相互作用图谱。 此外,我们在人类肺癌细胞(A549)中应用了我们的方法。 总之,这项工作建立了一个人类基因型与大规模基于图像的细胞表型连接的重要资源。 Results High-dimensional optical CRISPR screens at genome scale 高维光学CRISPR全基因组筛选
Para_01 为了评估全基因组敲除对细胞形态的影响,我们首先构建了一个优化用于光学筛选的全基因组CRISPR引导RNA文库。 为了构建这个文库,我们从现有的文库中平均每个基因选择了四个单导向(sg)RNA22,23,确定了sgRNA序列,这些序列允许在ISS的12个循环中完全解卷积sgRNA文库,同时还允许sgRNA序列之间存在2个Levenshtein距离,以便进行错误检测24,最终形成了一个包含80,408个sgRNA的文库,靶向20,393个基因(补充表1)。 我们将sgRNA文库克隆到CRISPR液滴测序(CROP-seq)载体中,使其能够表达和直接ISS sgRNA序列(此后称为条形码),并将其包装用于慢病毒传递。 Para_02 为了全面绘制全基因组基因敲除效应到高维图像表型,我们建立了一个高通量的数据生成和分析管道,即原位扰动效应读出结合单细胞光学表型(PERISCOPE),该管道包含一系列高度可扩展的湿实验室和干实验室协议,能够通过光学轮廓分析轻松筛选全基因组扰动文库。 我们首先开发了一种优化的、可褪色的Cell Painting面板变体,通过荧光成像细胞结构收集形态学数据,然后通过sgRNA的原位杂交(ISS)将其分配给细胞(图1a)。 这种方法为每个细胞产生五张表型图像——肌动蛋白(鬼笔环肽)、线粒体(抗TOMM20抗体)、高尔基体和细胞膜(小麦胚凝集素)、内质网(伴刀豆球蛋白A)和细胞核(4,6-二氨基-2-苯基吲哚)——以及12张用于识别顺序sgRNA碱基的测序图像(图1b和扩展数据图1)。 为了克服荧光表型标记物与荧光测序信号之间的光谱重叠,我们使用二硫键连接物将表型探针偶联到荧光染料上。 这一策略允许五色标记,随后用三(2-羧乙基)膦(TCEP)处理,这是一种还原剂,导致连接器裂解和连接的荧光染料释放,从而为ISS腾出荧光通道(图1c)。 为了分析这些数据,我们修改了开源图像分析软件CellProfiler中的标准Cell Painting图像分析工作流程,以处理混合扰动带来的额外复杂性,包括不同分辨率图像的对齐和条形码调用(图1d)。 同样地,我们基于开源Pycytominer库(方法)调整了我们的数据分析流程,以处理单细胞分析而非阵列数据。 Fig. 1: Pooled optical screens with PERISCOPE.
- 图片说明
◉ 这是 PERISCOPE 筛选的实验流程。◉ 这是五种表型染色和荧光 ISS 的示例图像。◉ 这是一个示意图,展示了消色策略,以便在表型染色的荧光成像后进行 ISS。◉ SS 是二硫键连接的荧光团;SH 是还原的二硫键。◉ 这是 PERISCOPE 分析管道的概述,包括表型特征的提取、条形码的解卷积以及基因型-表型的相关性。◉ 该图是使用 BioRender.com 制作的。
Morphology-based genome-wide perturbation maps in HeLa cells 基于形态学的全基因组扰动图谱在HeLa细胞中的应用
Para_01 我们首先旨在展示PERISCOPE管道的可扩展性和鲁棒性,通过在人宫颈癌细胞(HeLa)中分别使用两种不同的生长培养基(Dulbecco改良型鹰培养基(DMEM)和人血浆样培养基(HPLM),详情如下)执行两个全基因组混合光学CRISPR筛选来实现。 对于HeLa DMEM筛选,我们使用了六个培养皿中的30个相同准备的孔,并从12,312,520个单个细胞中收集形态学特征,从而得到20,421个基因水平特征,每个基因平均有491个细胞(标准差为655),每个引导序列有125个细胞(标准差为327)(细胞覆盖率数字不包括非靶向对照,这些对照过量;扩展数据图2a)。 同样地,HeLa HPLM筛选是24个孔,9,111,690个细胞,20,420个基因水平特征,每个基因有366个细胞(标准差为364),每个引导序列有93个细胞(标准差为181)。 正如预期的那样,PERISCOPE管道报告说,TOMM20的扰动(抗体染色线粒体的直接目标)影响了预期的线粒体特征(扩展数据图2c、d)。 至关重要的是,光学生物素RNA计数与从扰动细胞的下一代测序(NGS)中获得的计数高度相关(扩展数据图2e、f),验证了ISS准确性,并且在生物学筛选重复之间确认了筛选的鲁棒性(扩展数据图2g、h)。 Para_02 我们接下来应用了一个我们设计的击中调用管道,用于使用基于图像的特征来识别基因扰动信号,超过背景噪声。 光学分析收集空间信息,因此我们的管道能够识别两类筛选命中:‘全细胞’命中基因,这些基因是根据所有细胞区室的总信号量定义的,类似于基于图像的分析实验;以及‘区室’命中基因,通过从五个标记的亚细胞区室中的一个子集进行成像测量来识别(方法)。 使用1%的错误发现率(FDR),我们识别了891/956个全细胞命中基因和1,039/597个区室命中基因,总计1,930/1,553个命中(DMEM/HPLM)(图2a和补充表2)。 由于FDR截止点的选择是任意的,我们展示了较宽松的FDR会产生更大的命中列表(扩展数据图3a),伴随着平均轮廓强度的相应降低(扩展数据图3b),该强度是使用一种检测扰动信号与背景(包含阴性对照)的方法计算出来的(mAP)29。 不出所料,全轮廓命中显示出比区室命中更高的轮廓强度,因为完整的轮廓信息可用性增强了信号检测。 Fig. 2: Summary of the results from two PERISCOPE screens at the whole-genome scale performed in HeLa cells in two growth media (DMEM and HPLM).
- 图片说明
◉ 柱状图代表被识别的击中基因数量。绿色代表基于单个区室(内质网、线粒体(线粒体)、肌动蛋白、DNA 和高尔基/膜)的击中基因,蓝色代表基于整体轮廓的击中基因。◉ 基于单个区室的击中基因分布(来自a)。一个基因可能在多个区室中被击中但不构成全细胞击中,请参阅扩展数据图4c-f以了解详细信息。◉ 饼图显示了指示集合中基因在每个表型通道中显著不同于对照的数量的平均归一化比例。填充的楔形表示已知蛋白质产物存在的通道。◉ 光学轮廓相关性随机击中基因对(蓝色)与CORUM4.0蛋白复合物中基因对之间的相关性(红色)的分布。◉ 箱型图(字母值图)代表根据基因对之间的PERISCOPE轮廓相关性将STRING评分分为不同的区间。DMEM的n=1,930个基因,HPLM的n=1,553个基因。◉ HeLa DMEM(f)或HPLM(g)数据集中的击中基因轮廓的UMAP嵌入。每个点代表一种遗传扰动,距离表示二维嵌入中轮廓的相关性。基于GO数据集的手动注释集群功能展示在突出显示的集群上。示例插图展示了相关基因的连贯聚类。◉ HeLa DMEM和HPLM数据集中所有扰动下必需基因和非必需基因(DepMap基因效应阈值为-0.5)的形态信号评分分布。
Para_03 我们接下来对我们的命中基因进行了描述性分析,以展示这些筛选中的生物信号。我们发现在每个亚细胞区室中都有区室命中基因,这表明每个通道都在提供有用的信息(图2b和扩展数据图4a-d)。重要的是,我们还观察到敲除已知在明确界定的细胞区室特异性作用中起作用的基因会产生那些区室中的强烈形态表型。 具体来说,我们选择了编码五个与区室相关的蛋白复合物成员的基因,并按复合物分组了它们的形态谱系。对于这些复合物中的每一个,我们都观察到了从预期的细胞区室提取的表型特征的富集(图2c)。例如,虽然靶向外线粒体膜蛋白的扰动在整个细胞中产生形态表型,但大部分信号(54% DMEM/52% HPLM)集中在线粒体中。 同样地,针对参与蛋白质甘露糖基化的基因的sgRNA显示从ER中提取的表型特征的富集,在那里发生甘露糖基供体底物的合成以及蛋白质的甘露糖基转移30。不出所料,参与高度多效性过程(例如,皮质细胞骨架)的基因会在细胞区室之间产生效应。 Para_04 我们接下来将基于图像的基因敲除谱与现有的基因功能数据库进行了比较。 首先,我们使用基因敲除谱之间的轮廓相关性作为基因之间功能相似性的代理指标,将我们的筛选数据与蛋白质-蛋白质相互作用数据库CORUM31和STRING32进行了比较。 在总共1930/1553个命中中,我们确定了属于1350/953个独特复合体的877/671个基因,这些复合体存在于CORUM4.0数据库(DMEM/HPLM,分别)中。 集群内命中基因对的轮廓显示出比所有可能的命中基因对背景分布更高的相关值(图2d)。 此外,具有更高相关性的形态学轮廓对从STRING数据库获得了更高的蛋白质-蛋白质相互作用置信评分(图2e)。 Para_05 我们基于形态相似性对筛选命中物进行了无偏聚类,并通过二维均匀流形近似和投影(UMAP)嵌入可视化了形态轮廓之间的高层次相似性(图2f,g)。 我们在一系列过程中观察到了按生物功能的逻辑聚类,例如DNA复制、溶酶体酸化、高尔基囊泡运输、信使RNA加工、核糖体生物发生、蛋白质N-连接糖基化、甘露糖基化、需氧呼吸等。 基于完整的高维轮廓对所有命中基因进行层次聚类也揭示了针对相关基因的扰动的生物学上合理的聚类(扩展数据图5a,b)。 例如,在DMEM条件下对层次聚类进行针对性探索显示,编码各种类型核糖体蛋白的基因主要被分到三个不同的聚类中(扩展数据图6a)。 最大的聚类富集了编码线粒体核糖体大亚基和小亚基的基因,这对线粒体基因的翻译至关重要33,而另外两个聚类分别富集了成熟80S真核核糖体大60S亚基和小40S亚基的成分34。 这一例子突显了光学混合筛选能够捕获结构信息的能力,如最近所证明的那样10。 我们还发现,信号通路通常得到了很好的捕捉:例如,靶向磷脂酰肌醇3-激酶/丝氨酸-苏氨酸蛋白激酶(PI3K/AKT)信号通路的扰动主要分为两个不同的聚类(扩展数据图6b)。 该通路涉及细胞周期、生长和增殖,并且与多种癌症的发展有关35。 有趣的是,对通路具有刺激作用的成分,如RPTOR、MTOR或MYC,彼此之间表现出强烈的正相关,并且也显示出与抑制因子PTEN、TSC1或TSC2之间的显著负相关。 形态轮廓区分信号因子方向性的能力是理解底层生物学的一个有用工具。 Para_06 我们随后评估了基于图像的基因敲除谱与基因敲除生长表型影响之间的相关性,使用的是博德研究所的依赖图谱(DepMap)数据库。 虽然从平均来看,必需基因更有可能产生较高的信号得分(方法部分),但大多数筛选命中(DMEM/HPLM分别为80.4%和75.6%)是非必需基因,这与大多数基因敲除会产生超出单纯细胞毒性的光学表型一致(图2h和扩展数据图7a-c)。 先前的研究表明,细胞绘画可以检测许多特定的细胞健康读数,包括细胞活力和细胞周期,因此即使是对细胞有毒的扰动,如敲除必需基因,也能产生独特的形态学特征。 此外,形态学信号得分与基线基因表达的相关性并不强,因为许多低水平表达的基因在受到干扰时仍能产生显著的形态学信号(扩展数据图7d-e)。 Comparing gene-by-environment interactions at genome scale 比较基因与环境在全基因组尺度上的相互作用
Para_01 细胞代谢受到基因和环境刺激之间大量相互作用的影响,因此,在传统的细胞培养基中进行的体外遗传筛选可能无法捕捉到与代谢相关的表型,因为这些培养基难以重现生理环境。 最近,与典型的实验室培养基DMEM相比,诸如Plasmax38或HPLM39等‘生理培养基’被开发出来作为工具,用于研究在设计得更准确地模拟体内人类生理条件下的基因扰动效果。 在最近的一项研究中,HPLM被证明可以极大地改变K562细胞中的基因必需性谱系。 此类研究表明,在生理相关条件下进行筛选的有用性,但这些研究仅限于生长测定,从而阻碍了对基因扰动对高维细胞表型系统性评估的能力。 Para_02 除了它们在光学筛选工作流程中的实验可操作性和先前验证外10,11,12,HeLa细胞还被证明对代谢环境线索敏感,例如改变的葡萄糖水平40,41。 为了研究这些差异,我们使用基因集富集分析(GSEA)对HeLa筛选进行了分析,这是一种通过排名列表确定两种生物状态之间是否存在统计学上显著差异的计算方法42,43。 我们的列表是根据每个基因相对于对照谱系的‘形态信号得分’来排名的(方法部分)。 基于GSEA分析,DMEM筛选中有391个基因集被富集,HPLM筛选中有321个基因集被富集(补充表3)。 其中,两个筛选中共有275个是共同的,116个是DMEM筛选特有的,46个是HPLM筛选特有的。 我们将GSEA结果可视化在一个基因富集图中(图3a)。 Fig. 3: PERISCOPE identifies media-specific perturbation signatures.
- 图片说明
◉ 基于HeLa DMEM和HPLM筛选之间轮廓信号强度的生物过程富集图。该富集图是通过使用预先排名的GSEA分析生成的,分析列表中的所有基因根据计算出的信号强度进行排序,如方法部分所述。用于富集分析的基因组:生物学过程(GO:BP)基因集。◉ LSU rRNA、大型亚基核糖体RNA;snRNA,小核RNA。◉ b,比较对角线合并热图生成的示意图。◉ c-f,热图显示了来自两个HeLa筛选的基因谱之间的皮尔逊相关性,并且使用Ward方法在一个筛选中进行层次聚类,姐妹筛选以相同顺序绘制:我们观察到在两个筛选中均富集的基因簇(例如,小亚基RNA成熟(c)和PI3K AKT mTOR信号传导(d)),以及仅在DMEM条件下富集的基因簇(例如,铁硫簇装配(e))或仅在HPLM条件下富集的基因簇(例如,细胞对伽马辐射的响应(f))。◉ 热图展示了GO:BP小亚基核糖体核糖核酸(SSU rRNA)基因集(GO:0030490)中的命中基因(c),标志性PI3K AKT mTOR信号传导基因集(d)中的命中基因,GO:BP铁硫簇装配基因集(GO:0016226)(e)中的命中基因以及GO:BP细胞对伽马辐射的反应(GO:0071480)(f)中的命中基因。
Para_03 为了进一步可视化屏幕之间的相似性,我们生成了比较对角合并热图,在这些热图中,仅绘制两个屏幕中的命中点,集群顺序由一个臂设定,并且第二个臂按照相同的顺序绘制(图3b-f)。 我们观察到许多基因扰动在两种培养基类型中产生了相似的形态学影响。 例如,与小亚基核糖体RNA成熟相关的基因(图3c)和PI3K AKT mTOR信号传导(图3d)在DMEM和HPLM中显示出相似的相关模式和强度。 这些在相同细胞系中涉及各种核心过程的相关模式和强度的相似性表明共享的中心生物学和筛选方法的一致性。 我们还观察到铁硫簇装配(图3e),这是线粒体呼吸所必需的,线粒体RNA代谢过程和线粒体转录过程在DMEM筛选中选择性富集。 综上所述,与中心碳代谢相关的命中点在DMEM筛选中的整体富集可能反映了高(>25 mM)葡萄糖水平引起的代谢差异,该水平存在于DMEM中21。 相反,我们还观察到与DNA损伤修复相关的HPLM筛选过程选择性富集,例如细胞对伽马辐射的反应(图3f)、DNA重组的正向调控以及双链断裂修复。 这种过程富集也可能是由于在HPLM培养条件下葡萄糖和谷氨酰胺大幅减少引起的代谢重布线所致,因为已知HeLa细胞在这些营养物质浓度降低的情况下表现出DNA损伤的特征45。 Morphology-based genome-wide perturbation maps in human lung cancer cells 基于形态学的全基因组扰动图谱在人类肺癌细胞中的应用
Para_01 在成功完成我们的前两个全基因组筛选后,我们希望通过使用A549人肺癌细胞来最大化下一个全基因组数据集的扩展性,这是一种常用于细胞绘画的细胞系。 这一决定是基于形态谱分析领域正在进行的对细胞绘画数据集的主动整理,以及其它实验室正在开发的对齐方法。 通过使用54个相同制备的六孔板中的孔,我们从11,211,357个单细胞中收集了形态谱,这产生了20,393个基因水平的谱图,每个基因平均有460个细胞(标准差为707),每个指导序列有117个细胞(标准差为354)(不包括非靶向对照)。 技术质量指标,如代表性、条形码调用和NGS一致性以及生物重复一致性与HeLa筛选的结果相当(扩展数据图8)。 我们再次对命中目标进行阈值处理(图4a),并从所有亚细胞区室中识别出区室命中目标(图4b和扩展数据图4e,f)。 正如在HeLa筛选中发现的那样,物理相互作用的蛋白质(根据CORUM和STRING)比随机命中基因对更有可能具有相似的形态谱。 图4c,d显示了这一点。 Fig. 4: A genome-wide perturbation map in A549 cells.
- 图片说明
◉ 全基因组 PERISCOPE 筛选在 A549 细胞中的概述。◉ 筛选中鉴定出的命中基因包括一些单一隔室的基因和一些影响多个隔室的基因。◉ 绿色代表基于一组细胞隔室(内质网、线粒体、肌动蛋白、DNA 和高尔基/膜)的命中基因,蓝色代表基于整体轮廓的命中基因。◉ 基于单一隔室的命中基因分布在所有五个测量隔室中。◉ 一个基因可能在多个隔室中成为命中基因,但不一定是整个细胞的命中基因,请参阅扩展数据图 3a 和 b 以获取更多详细信息。◉ 所有可能的基因对之间的光学轮廓相关性分布与代表至少包含复合物亚基三分之一的 CORUM4.0 蛋白复合体的基因对之间的相关性相比。◉ 弦乐评分的箱型图表示,根据基因对之间的 PERISCOPE 轮廓相关性分为不同的区间,n = 1,089 个基因。◉ 箱型图显示数据作为分布,其中中心线表示中位数,中央框表示从第 25 到第 75 百分位的四分位范围,随后的框表示越来越窄的分位数,计算剩余数据的一半。◉ A549 数据集中命中基因的 UMAP 嵌入。◉ 每个点代表一个遗传扰动,距离表示二维嵌入中轮廓的相关性。◉ 基于 GO 数据集的手动注释集群功能显示突出集群的功能。◉ 示例插图展示了相关基因的连贯聚类。◉ 使用沃德方法进行层次聚类后,基因轮廓之间的皮尔逊相关性的热图。◉ 基于 preranked GSEA 分析,A549 数据集中富集的基因复合体/过程。◉ 显示属于 GO:BP 微管核基因集合 (GO:0007020) 的命中基因的热图(图 f)。◉ 显示属于 GO:BP 组蛋白修饰 (GO:0016570) 的命中基因的热图(图 g)。
Para_02 基于形态相似性的屏幕命中物无偏聚类揭示了按生物功能的逻辑分组,涵盖了如糖基化、自噬、蛋白酶体蛋白质分解代谢过程、mRNA 加工、核糖体 RNA 代谢过程、非编码 RNA 代谢过程和有丝分裂细胞周期等过程(图 4e)。 基于高维谱系的层次聚类也揭示了针对相关基因的干扰的生物学上一致的聚类,例如涉及微管成核(图 4f)和组蛋白修饰(图 4g)的基因。 Para_03 尽管我们能够从A549数据集中提取有意义的生物学信息,但最初我们惊讶地发现,与HeLa数据集相比,它的总体信号明显较低,尽管细胞覆盖率(每个sgRNA的细胞数)相似。 进一步检查显示,与HeLa相比,我们的A549 Cas9细胞系中的CRISPR效率降低(通过indel测序测量约为60%对90%),导致该筛选中的有效细胞覆盖率降低。 为了进一步调查细胞覆盖率与信号之间的关系,我们从Funk等人10的研究中抽取了数据,这是一个高度采样的(每个sgRNA超过1,000个细胞)光学混合CRISPR筛选,并发现指导水平的代表性强烈影响了特征强度29(扩展数据图9)。 尽管这项研究与PERISCOPE筛选在筛选时间点和表型读出方面存在差异,这一观察结果表明,我们的筛选尚未达到信号饱和状态,增加细胞覆盖率可以增强我们检测扰动表型的能力。 Genome-wide screens for subcellular phenotypes of interest 全基因组范围内对感兴趣的亚细胞表型进行筛选
Para_01 高维轮廓由PERISCOPE生成,包含数千个独立的表型特征,捕捉每个通道(例如,相关性、颗粒度、强度、径向分布和纹理特征)中标记物的全面信息(对于识别的对象,包括细胞、细胞质和细胞核),其中一部分也在每张图像的基础上进行测量。 附加特征描述对象(面积形状特征)及其与附近对象(邻居特征)的关系。 鉴于完整的形态轮廓捕获了有意义的生物模式,我们接下来探索了这些数据集是否可以用于对感兴趣的单个形态表型进行全基因组筛选。 为了探索单一特征筛选空间,我们分析了我们所选特征数据集中每个特征,生成了一个最扰动的基因列表,并评估了该列表中的基因本体(GO)富集。 具有GO富集的特征分布在两种HeLa筛选的成像通道中(图5a),这并不令人惊讶,因为每个通道对基于轮廓的命中列表(图2b和图3b)的贡献相似,并且所有规范通道在Cell Painting测定中对轮廓强度的贡献相对均匀。 具有GO富集的特征在特征类别中分布不均(图5b)。 纹理类拥有最多特征,其特征中有最高比例(37%:1001个特征中有370个)被富集到一个GO术语。 然而,很可能许多这些特征之间存在某种程度的相关性,因为我们特征选择步骤仅去除了高度相关的特征。 值得注意的是,面积形状和强度特征虽然在其他研究中经常因其生物学解释性而受到重视,但在特定性方面不如易于理解的类别(如纹理和相关性)丰富。 Fig. 5: Identifying biological pathways using individual subcellular image features.
- 图片说明
◉ GO 富集在许多单个特征中,分布相对均匀,涵盖了 PERISCOPE 成像的细胞结构(即通道)。◉ 外环是我们在特征选择数据集中总特征的数量。◉ 内环是显示 GO 富集的特征数量。◉ b, 单个特征中的 GO 富集在特征类别中分布不均。◉ 外环是我们在特征选择数据集中总特征的数量。◉ 内环是显示 GO 富集的特征数量。◉ c, 给定基因组,其蛋白质产物预期专门在 PERISCOPE 成像的细胞结构中起作用,在这些隔室的特征命中列表中特别富集。◉ 外环表示预期富集的通道。◉ 内环是实际显示富集的通道细分。◉ d, 扰动液泡 ATP 酶(无论是 V0 还是 V1 亚基)会导致屏幕特征 WGA 颗粒度 1 特异性降低,并在更大颗粒度上出现补偿性增加。◉ 每个轨迹代表一个单独的基因。◉ 粗线表示该组所有基因的平均值。◉ 只绘制了命中基因。◉ e, 显示了在 WGA 通道中单个细胞在各个颗粒度测量到的信号的一个示例可视化。
Para_02 为了支持单特征筛选数据集的有效性,我们查看了那些蛋白质产物已知在PERISCOPE中标记的隔室中起作用的基因组,并确定了哪些特征的命中列表富集了这些组。 图2c显示,扰动这些基因组会产生跨通道信号,而图5c则展示了我们命中列表中对于蛋白甘露糖基化、液泡型ATP酶、皮层细胞骨架和线粒体外膜(OMM)蛋白复合物预期类别的特征的特定富集。 不出所料,DNA聚合酶的扰动产生了更具有多效性的表型。 HeLa DMEM筛选和HPLM筛选之间的特征富集相似(图5a-c),但A549筛选相对较弱的力量导致了可忽略不计的富集。 Para_03 每个屏幕数据集包括我们改进的细胞绘画测定中的3,973个特征。 尽管存在相当大的冗余,特别是在纹理和颗粒度指标之间,现在可以探索和追求对生物界感兴趣的数十种形态表型,而不管这些特征的人类可解释性或先验假设。 作为一个例子,我们关注的是改变了WGA通道中颗粒度特征50的扰动。 颗粒度测量的是与总信号相比,随着连续侵蚀信号的损失。 因此,一个尺寸的颗粒度测量值的增加必须对应于另一个或多个尺寸的减少。 虽然概念上描述为一种测量不同大小的细胞内结构中存在的信号的方法,但我们量化侵蚀之前对图像进行了降采样,使得我们的颗粒度特征不太具有人类可解释性(如图5e所示)。 在WGA通道中出现在我们特征选择数据集中的颗粒度特征中富集的GO术语主要与内吞途径的酸化有关。 这启发我们在八个颗粒度侵蚀中系统地查看细胞对象(即特征‘Cells_Granularity_1_WGA’等)中的WGA通道测量值。 我们发现,溶酶体ATP酶(V0或V1亚基)的破坏导致第一个颗粒度特征中的WGA信号减少,并伴随所有数据集中较大颗粒度特征的增加(图5d)。 这个例子突显了如何通过形态轮廓之外,我们数据集中的单个特征也可以用于假设生成,尽管需要有针对性的后续实验来进行生物学解释。 基于图像的轮廓分析相对于传统显微镜的主要优势在于定量和自动化的表型特征评估,克服了通过肉眼分析图像的主观性。 尽管如此,我们的图谱包含了超过3000万个单独的细胞图像,可以通过训练的眼睛来评估感兴趣的表型。 为了增强这些数据集的实用性,我们开发了一种图谱细胞检索工具(方法),使能够检索包含感兴趣扰动的单个细胞图像(扩展数据图10)。 使用这个工具,我们展示了可以找到基于图像的表型的易于解释的例子,例如含有针对TOMM20的sgRNA的细胞中TOMM20信号的耗竭(扩展数据图10e)。 然而,大多数单基因敲除表型,即使具有强烈的形态轮廓,也具有肉眼不易识别的表型(扩展数据图10b-d,f),这证明了计算特征提取和轮廓分析在简单视觉检查之外的有用性。 TMEM251/LYSET is essential for lysosomal enzyme trafficking TMEM251/LYSET对于溶酶体酶的转运至关重要。
Para_01 观察到基因按功能聚类后,我们接下来试图根据轮廓相似性确定未表征基因的功能。 我们将重点放在表征不足的基因TMEM251上,该基因在我们的HeLa DMEM筛选中与参与溶酶体酸化的基因聚集在一起。 对HeLa DMEM数据集中按与TMEM251敲除(KO)轮廓相似性排序的基因进行GSEA分析,揭示了V-ATP酶亚基和高尔基体成分的富集,尤其是与糖基化相关的成分(图6a、b)。 基于这些术语富集,我们在HT1080细胞中比较了TMEM251相对于高尔基体和溶酶体的亚细胞定位,这些细胞被选为其相对TMEM251生长依赖性(图6c)。 TMEM251主要定位于高尔基体,溶酶体中的定位可以忽略不计(图6c)。 使用CRISPRi的TMEM251敲低(KD)在WGA通道中产生了强烈的表型(图6d),这是由于WGA荧光在LAMP1阳性溶酶体中的显著积累引起的(图6d)。 这种表型在大多数具有强烈轮廓相似性的扰动中都能看到,但有一个值得注意的例外是SLC35A2,它在HeLa细胞中与TMEM251在轮廓水平上最相似,这表明了细胞类型特异性对溶酶体中糖蛋白积累的影响(图6e和补充图1a)。 Fig. 6: TMEM251 is essential for M6P-dependent trafficking of lysosomal enzymes.
- 图片说明
◉ a, 按照与TMEM251敲除形态的余弦相似性排序的基因的GSEA。◉ b, 分布的瀑布图,显示与TMEM251形态的余弦相似性。◉ 代表参与糖基化、运输和溶酶体酸化的基因被突出显示。◉ c, 在表达荧光报告蛋白GALNT2(高尔基体)或TMEM192(溶酶体)的细胞中检查TMEM251的定位,并对TMEM251进行染色。◉ d, 用KD基因的细胞进行WGA和LAMP1共染色。参见补充图1了解其他干扰。◉ e,f, 在TMEM251、SLC35A2、UNGP2、GNPTAB、WDR7、VPS11、ATP6V1G1、ATP6AP1、ATP6V1E1(e)以及IGF2R和M6PR(f)的CRISPRi KD后,溶酶体WGA染色的定量。绘制了两个生物学重复中的每个细胞溶酶体WGA强度的上四分位数。◉ g, 表明干扰的LAMP1–mScarlet荧光寿命箱线图,这与溶酶体pH值相关。每个点表示图像中溶酶体荧光的中位寿命(GNPTAB和TMEM251为n = 30;其余条件为n = 15;框和中线表示Q1、Q2和Q3,须标记距离Q3-Q1的1.5倍内的最接近的数据点)。◉ h,i, 相对于非靶向对照的CRISPRi KDs的葡糖脑苷脂酶和β-半乳糖苷酶活性的对数10倍变化。每个点表示两个生物学重复中的每个细胞的总MFI。◉ c中的共定位实验进行了一次,在每个条件下每种情况在20个视野中对约150个细胞进行了成像。◉ d中的共聚焦图像代表两个生物学重复。◉ 统计分析:双尾t检验与非靶向对比(e-i)。◉ βGal:β-半乳糖苷酶;LFC:对数值倍数变化;NES:归一化富集评分。
Para_02 如何理解一种定位在高尔基体的蛋白会影响溶酶体中的糖类储存? 我们推测溶酶体的WGA表型是由于高尔基体内溶酶体蛋白的生物发生受损所致。 值得注意的是,GNPTAB/GPNTG在PERISCOPE中与TMEM251表现出强烈的表型相似性,并且TMEM251的人体功能丧失会导致临床表现类似于GNPTAB/GNPTG的功能丧失51。 因此,我们假设TMEM251可能参与了甘露糖-6-磷酸(M6P)途径。 在这个途径中,N-乙酰氨基葡萄糖-1-磷酸转移酶(由GNPTAB编码)将UDP-GlcNac上的磷酸-GlcNac连接到最终形成M6P的末端甘露糖上52。 M6P被两种受体之一识别,即M6PR和IGF2R,并且以pH依赖的方式在溶酶体中释放。 为了进一步证实这一假设,我们比较了单或双敲低M6PR和IGF2R的细胞的表型。 在双敲低细胞中,我们观察到了显著增加的溶酶体WGA积累,而单敲低细胞与野生型细胞无明显区别,这与初步筛选结果一致(图6f和补充图1b)。 Para_03 由于TMEM251与V-ATP酶亚单位之间存在强烈的形态相似性,我们使用荧光寿命传感器检查了TMEM251 KD对溶酶体pH的影响。 而用巴弗洛霉素A1处理或ATP6V1E1 KD能强烈使溶酶体碱化,但GNPTAB或TMEM251 KD并未显著改变溶酶体pH(图6g和补充图1c)。 因此我们认为酸性的溶酶体pH可能对于TMEM251的高尔基体功能下游的溶酶体酶的适当转运和功能是必需的,而且由V-ATP酶扰动引起的光学特征主要受此功能支配。 我们测试了两种需要M6PR进行正确定位的溶酶体酶的活性。 葡萄糖脑苷脂酶被SCARB2识别,而SCARB2又与M6PR相互作用以转运到溶酶体。 TMEM251、GNPTAB、ATP6V1E1以及M6PR/IGF2R双KD均降低了葡萄糖脑苷脂酶的活性。 β-半乳糖苷酶的活性受到这些KD的更大程度抑制。 在准备这篇手稿期间,两个独立的研究小组报告了TMEM251在M6P生物发生中的功能,并将该蛋白重新命名为LYSET。 我们的结果独立支持并验证了TMEM251在通过M6P系统进行溶酶体蛋白质转运中的作用。 Discussion Para_01 池化光学屏幕是一种强大的新方法,可以生成具有单细胞分辨率的高维基因型-表型图谱。 我们的研究表明,现在可以大规模生成这些图谱,从而使用标准实验室设备(宽场荧光显微镜)和可扩展、分布式的开源分析管道来研究全基因组扰动效应。 值得注意的是,每个细胞的分析成本非常低:对于所描述的HeLa数据集,每个细胞的成本约为0.001美元(包括人工、材料和分析,但不包括设备)。 这种易用性和成本效益的结合使PERISCOPE风格的筛选成为一种民主化的平台技术,用于将基因型与细胞程序联系起来。 Para_02 PERISCOPE 除了具有实用性外,还生成了丰富的、基于数据的基因功能表示。 大规模平行遗传筛选的主要目标之一是理解基因如何协同作用以产生复杂的细胞表型。 在这方面,PERISCOPE 作为一种分析技术是有价值的,因为它可以生成细胞状态的高维表示。 此外,它还可以通过子细胞生物参数(例如,细胞大小和细胞器大小、形状和数量)进行高度并行化的筛选。 我们展示了使用全细胞光学轮廓重构生物通路中的基因关系和复合体中的蛋白质的能力。 此外,我们还演示了通过空间受限的亚细胞表型(TMEM251)获得基因功能的机制性见解。 同时,我们通过单个形态特征对基因进行分类(V-ATPase 装配)展示了这种潜力。 Para_03 大规模平行CRISPR修饰筛选已被证明是非常有用的,可以大规模地绘制基因与环境的相互作用。 通过实现简便、成本效益高的全基因组规模筛选,并结合高维细胞分析,我们展示了如何轻松地将遗传扰动与环境扰动结合起来,生成丰富且高分辨率的地图,以系统地探究全基因组范围内的基因-环境相互作用。 例如,我们展示了这样的地图如何揭示培养基对细胞程序的特定效应,但我们还设想使用该平台执行全基因组筛选,以识别治疗性化合物诱导表型的修饰因子,或者进行基于遗传锚定的CRISPR筛选,以阐明遗传互作网络。 Limitations, improvements and future applications 局限性、改进和未来应用
Para_01 现在 PERISCOPE 技术已经确立,可以做很多事情来进一步优化工作流程,使其成为常规检测。 目前所需的劳动力与处理的平板数量密切相关。 酶促、染色和成像步骤需要大约两周时间,两位科学家使用两台显微镜完成九个平板的 A549 全基因组筛选。 图像分析和轮廓生成至少还需要两周的时间,即使现有的并行化。 平板的数量受细胞大小的影响(例如,A549 筛选所需的平板数量大约是 HeLa 筛选的两倍)。 以及目标细胞覆盖率(更高的代表性可以提高信噪比,从而能够检测到更微妙的扰动,较低的 Cas9 效率需要更高的代表性)。 实验室湿实验室和计算工作流程的自动化有可能对吞吐量产生深远影响。 如果需要减少吞吐量的实验修改,例如为了成像表型而提高放大倍数,我们建议进行补偿性修改,如只关注表达基因或使用减少所需向导数量的载体系统。 如果需要减少吞吐量的实验修改,例如为了成像表型而提高放大倍数,我们建议进行补偿性修改,如只关注表达基因或使用减少所需向导数量的载体系统。 Para_02 除了提高细胞覆盖率外,PERISCOPE 屏幕中的信号还可以通过仔细筛选阴性对照扰动来改进背景分布。 在这里,我们使用非靶向 sgRNA 来识别产生显著形态信号的基因靶向 sgRNA(这是 CRISPR 筛选的标准做法2), 然后进一步使用所有针对未表达基因的 sgRNA(DepMap 数据库中的 Zero-TPM)对我们的命中列表应用严格的 FDR 校正。 虽然这种保守的方法试图减少与 CRISPR 切割相关的各种非特异性形态效应的信号(与基因特异性 KO 效应相反), 但它依赖于基础表达数据的准确性。 正如我们观察到的,表达量非常低的基因在受到干扰时仍可能产生形态表型,此外,基因独立的活性也可以由针对扩增基因的 sgRNA 引起,从而减弱屏幕信号。 使用经过精心挑选的非编码区切割 sgRNA 集合可以减轻这种影响,同时仍然减少 CRISPR 活动产生的非特异性信号。 顺便提一下,尽管我们已经将严格 1% 的 FDR 阈值应用于数据,但我们鼓励这些开源数据的用户根据他们特定的应用(例如,发现与验证)自行判断选择 FDR 来平衡假阳性和假阴性的比例。 Para_03 超出了目前的范围,还有几个改进可以建立在这个工作所呈现的基础之上。 以目前的形式,PERISCOPE 平台可以被部署来探索其他基于 CRISPR 的扰动的效果,例如 CRISPR-a59,60、CRISPR-i61,62 或碱基编辑63,64,65,其中 sgRNAs 可以作为 RNA Pol II 转录物表达(如 CROP-seq 所示)。 在这项研究中,我们分析了两种癌细胞系,HeLa 和 A549,但我们的流程适用于广泛的各种二维细胞模型筛选,包括细胞系和原代细胞,尽管测定规模和数据质量取决于细胞密度。 我们的筛选表明,在每个测量的细胞区室中都存在显著信号,高度多重化的成像技术,如 CODEX66 和 CyCIF67,可以通过捕获更广泛的扰动效果或允许纳入真实地标以锚定生物解释来提高 PERISCOPE 的灵敏度和稳健性。 从荧光多色图像中提取生物信号是一个引人注目的机器学习问题,可能会通过各种深度学习形式,如自监督学习,来改进特征提取。 尽管这些特征缺乏内在的可解释性,这对于某些应用来说很重要,但在某些情况下,它们已经被证明比经过工程设计的特征更能捕捉相似性。 Para_04 尽管我们能够从我们的数据集中提取有意义的生物学信息,但很明显,我们目前的细胞覆盖率在某种程度上限制了可以从我们的原理验证数据集中提取的生物学信息,并且应该考虑在未来PERISCOPE筛选中增加细胞取样,包括改进计算工作流程,以便改进的条形码调用和细胞分配导致被过滤掉的细胞更少。 也就是说,在我们报告的生物验证之外,用于大规模筛选中量化信号的新方法验证了我们在HeLa数据集中有清晰的信号,并且它们可以作为预测Perturb-seq实验结果的先验信息来源,胜过许多其他数据集,从而支持这一资源的实用性。 Para_05 总之,本研究为大规模构建基于高维形态的扰动图谱奠定了基础,并提出了人类细胞形态的第一个全基因组规模图谱。 该图谱包含超过3000万张分配了扰动的细胞图像,是一个用于生物探究以及开发和测试新的计算图像分析方法的有用资源。 所有数据和分析工具都是开源且免费提供的(代码可用性和数据可用性)。 Methods Library design 图书馆设计
Para_01 全基因组文库旨在针对20,393个基因,每个基因使用约4个sgRNA,总共包含80,408个sgRNA。 这些引导序列是从一个更大的集合(每个基因20个sgRNA)中选择的,该集合由博德研究所的遗传扰动平台通过计算设计,以优化预测的编辑效率,同时确保单个引导序列在其前12个核苷酸中有至少两个碱基的区别(以便在ISS期间进行错误检测)。 在80,408个sgRNA中,有47,792个sgRNA存在于Brunello CRISPR文库(Addgene, 73179)中,20,520个sgRNA存在于TKO V3 CRISPR文库(Addgene, 90294)中。 此外,还包括了601个非靶向sgRNA作为阴性对照。 所有sgRNA序列的选择/设计均旨在保持每个碱基位置上的核苷酸分布平衡,这有助于光学条形码调用。 CRISPR文库的设计目的是为了使用11个碱基实现完整的文库解卷积,并且使用12个碱基进行Levenshtein误差校正。 Library cloning 图书馆克隆
Para_01 为了准备混合质粒文库,首先使用正交引物对单独扩增目标和非目标引导亚池。 74.PCR产物使用QIAquick PCR纯化试剂盒(Qiagen,28104)进行纯化。 扩增后的文库通过Golden Gate组装克隆到CROP-seq载体(Addgene,86708)中,使用BsmBI限制位点,如先前所述13。 为了防止Golden Gate反应中的自连事件,预先用QIAquick凝胶提取试剂盒(Qiagen,28706)消化并纯化了CROP-seq载体以去除填充序列。 得到的质粒文库通过固相可逆固定珠子纯化浓缩,然后转化到电感受态细胞(Lucigen Endura,VWR International,71003-038)中进行质粒文库扩增。 转化后,细菌细胞在30°C下液态培养18小时后提取质粒DNA。 质粒文库通过NGS验证,如NGS中所述。 Tissue culture 组织培养
Para_01 A549 细胞使用含有 2 mM L-谷氨酰胺、100 U ml−1 青霉素-链霉素和 10% 灭活胎牛血清的高糖 DMEM 培养基培养。 HEK293FT 细胞使用含有 10% 灭活胎牛血清和 100 U ml−1 青霉素-链霉素以及 2 mM L-谷氨酰胺的 DMEM–GlutaMax 和丙酮酸培养基培养。 HEK293FT 细胞在包装慢病毒前 24 小时不使用抗生素培养。 在常规培养基筛选中,HeLa 细胞使用含有 10% 透析胎牛血清的 DMEM 培养基培养。 在生理培养基筛选中,HeLa 细胞使用含有 10% 透析胎牛血清的 HPLM 培养基培养。 Lentivirus production 慢病毒生产
Para_01 在慢病毒生产前,针对和非针对sgRNA的质粒混合物被组合在一起,导致非针对sgRNA占10%(质量/质量比,m/m),而针对sgRNA占90%(m/m)。 在转染前24小时,HEK293FT细胞以每平方厘米100,000个细胞的密度接种在10平方厘米的培养皿中,使用不含抗生素的培养基。 慢病毒是使用Lipofectamine 3000(赛默飞世尔科技,L3000015)转染试剂盒和包装质粒pMD2.G(Addgene,12259)和psPAX2(Addgene,12260)产生的。 HEK293FT细胞分别以pMD2G、psPAX2和质粒文库2:3:4的质量比例进行转染。 转染后4小时更换培养基。 培养基更换后48小时收集慢病毒,并通过0.45 µm醋酸纤维素滤膜(康宁,431220)过滤。 病毒上清液在干冰中冷冻直至冻结,并储存在-80°C下。 Lentivirus titering 慢病毒滴度测定
Para_01 分别测定了A549和HeLa细胞的病毒滴度。 A549细胞以每平方厘米100,000个细胞的密度接种,而HeLa细胞则以每平方厘米150,000个细胞的密度接种,在6孔板中进行。 将接种的细胞通过向培养基中补充8 μg ml−1的聚凝胺(Sigma-Aldrich,TR-1003)和添加不同体积的病毒(范围从0 μl到50 μl)来进行病毒感染,然后在33°C下以1,000g离心2小时。 离心后,细胞在37°C下孵育4小时,随后更换培养基。 感染后24小时,将细胞分为含有0 μg ml−1或2 μg ml−1嘌呤霉素(Life Technologies,A1113803)的培养基。 两种条件下的细胞都在37°C下孵育72小时。 孵育结束后,计数细胞,并通过在2 μg ml−1嘌呤霉素条件下存活的细胞数量与无嘌呤霉素条件下的细胞数量之比来估算感染复数(MOI)。 通过将MOI乘以原始细胞接种密度,再除以加入的病毒体积,计算出每微升感染单位(ifu μl−1)。 对每种病毒体积的ifu μl−1值取平均,并用于估计达到0.1至0.3 MOI所需的病毒体积。 Lentivirus transduction 慢病毒转导
Para_01 为了进行筛选,细胞以6孔板的形式用全基因组病毒文库转导,加入8 μg ml−1聚凝胺,并根据MOI为0.2计算病毒上清液体积,同时设置不感染的对照组,加入0 μl病毒上清液。 细胞在33 °C下以1,000g离心2小时。 感染后4小时,更换培养基。 感染后24小时,将感染的细胞传代到含有补充了2 μg ml−1嘌呤霉素的培养基的T-225烧瓶(VWR International, 47743-882)中。 对于感染和未感染条件,分别保留固定数量的细胞(约300,000个),并在含有0 μg ml−1或2 μg ml−1嘌呤霉素的培养基中以6孔板形式接种。 所有细胞在37 °C下孵育72小时。 经过72小时的选择后,计算6孔板中接种的细胞数并按上述方法计算MOI。 A549 screen A549细胞系筛选
Para_01 A549-TetR-Cas9细胞通过在三个生物学重复中以每平方厘米150,000个细胞的密度接种在6孔板中,并按上述方法进行慢病毒转导。 总共240,000,000个细胞以0.2的MOI(感染复数)转导,转导后每个sgRNA(单导向RNA)对应的细胞库表示为300个细胞。 经过抗生素选择后,细胞在常规DMEM培养基中培养了两天。 在诱导Cas9表达前,每个生物学重复中25,000,000个细胞被裂解并准备用于NGS测序。 这些样品用于确认目标表示。 Cas9表达通过在常规DMEM培养基中添加2 μg ml−1多西环素来诱导。 在整个Cas9表达过程中,细胞在T-225烧瓶中培养,并在烧瓶达到70%汇合度时传代一次。 传代之间,每个生物学重复至少重新接种24,000,000个细胞,从而保持每个sgRNA对应300个细胞的比例。 每两天通过更换培养基向细胞补充2 μg ml−1的多西环素。 在Cas9表达的第5天,细胞以每平方厘米19,800个细胞的密度接种到九个玻璃底6孔板(Cellvis, P06-1.5H-N)中。 在三个生物学重复中共接种了13,000,000个细胞,期望细胞群体至少在固定前翻倍。 其余细胞继续在T-225烧瓶中培养直至Cas9表达的第7天,在该时间点从每个生物学重复中裂解13,500,000个细胞并准备用于NGS分析。 在细胞接种到光学板48小时后,使用4%多聚甲醛在1× PBS中固定30分钟,然后如下面所述进行ISS。 在ISS中的滚环扩增(RCA)之后,细胞用特定于细胞区室的探针染色,如‘表型标记’部分所述,并获取表型图像。 通过在室温下用50 mM TCEP(Thermo Fisher Scientific, 363830100)在2×盐水-柠檬酸钠(SSC)中处理45分钟,切断探针与其荧光团之间的二硫键,去除二硫键连接的探针。 Para_02 显色后,用1× PBS-T(1× PBS + 0.05% Tween-20)清洗细胞三次,然后进行12轮ISS循环。 HeLa screens HeLa筛选
Para_01 HeLa-TetR-Cas9 在三个生物学重复中通过以每平方厘米 210,000 个细胞的密度接种在 6 孔板中,并按照上述方法进行慢病毒转导。 总共 240,000,000 个细胞以 0.2 的 MOI 被转导,转导后每个 sgRNA 的细胞库表示为 300 个细胞。 经过抗生素选择后,转导的细胞在常规 DMEM 培养基中培养,直到每个 sgRNA 的表示达到 600 个细胞。 为了确认目标表示,从每个生物学重复中裂解了 20,000,000 个细胞,并按如下所述准备用于 NGS 分析。 然后将细胞库分为两种培养条件:常规 DMEM 和生理 HPLM 培养基(培养基配方如上所述)。 同时加入这两种培养基条件时,用 2 μg ml−1 的强力霉素(Sigma-Aldrich, D5207)诱导 Cas9 表达 7 天。 在整个 Cas9 表达过程中,每种条件下每个细胞都在 T-225 烧瓶中培养,当烧瓶达到 70% 汇合度时传代一次。 在传代之间,每个生物学重复至少重新接种 24,000,000 个细胞,从而保持每种培养基条件下每个 sgRNA 的表示为 300 个细胞。 每隔两天通过更换培养基补充 2 μg ml−1 的强力霉素。 在 Cas9 表达第 5 天,两种培养条件下细胞库被接种到五个玻璃底 6 孔板(Cellvis, P06-1.5H-N)中,密度为每平方厘米 42,000 个细胞。 在三种生物学重复中,每种培养条件下共接种了 14,000,000 个细胞,预期在固定前细胞群体至少会翻倍。 其余细胞继续在 T-225 烧瓶中培养,直到 Cas9 表达第 7 天,在此期间从每个生物学重复中裂解了 20,000,000 个细胞并准备用于 NGS 分析。 在光学板中接种后 48 小时,用 1× PBS 中的 4% 多聚甲醛固定细胞 30 分钟,然后按如下所述进行 ISS。 在 ISS 放大后,细胞使用如‘表型标记’部分所述的细胞区室特异性探针染色,并获取表型图像。 通过在 2× SSC 中用 50 mM TCEP(Thermo Fisher Scientific, 363830100)在室温下切割探针和荧光团之间的二硫键,去除二硫键连接的表型探针。 去除探针后,用 1× PBS-T(1× PBS + 0.05% Tween-20)洗涤细胞三次,然后进行 12 轮 ISS。 Synthesis of destainable phenotyping probes 可持续表型探针的合成
Para_01 由于用于ISS的荧光dNTPs和可用的表型标记荧光素之间的光谱重叠,用于标记线粒体和内质网的探针是在内部合成的,包括探针与其荧光素之间的一个二硫桥,这将在成像后允许切割荧光素。 对于线粒体标记,次级抗TOMM20抗体,F(ab')2-山羊抗兔IgG(H+L)(赛默飞,31239)与Alexa Fluor 594-叠氮化物(赛默飞,A10270)缀合。 对于内质网标记,蛋白质ConA(西格玛奥德里奇,C2010)与Cy5-叠氮化物(Lumiprobe,B3030)缀合。 在这些探针的合成过程中,我们利用了二苯并环辛炔(DBCO)和叠氮基团之间点击化学反应的热稳定性和高特异性。 因此,抗TOMM20抗体和ConA蛋白通过添加一个NHS-SS-DBCO分子(西格玛奥德里奇,761532)进行了点击化学功能化,该分子随后与连接到其相应荧光素的叠氮基团反应。 在功能化探针之前,将抗TOMM20抗体和ConA蛋白稀释至1.1 mg ml−1和2 mg ml−1,在分别pH 8.5和6.8的新鲜配制的0.1 M磷酸钠溶液中。 DBCO新鲜溶解于无水二甲亚砜(西格玛奥德里奇,227056)中,浓度为10 mg ml−1。 稀释后的蛋白质和DBCO按以下摩尔比混合(8抗TOMM20:1 DBCO和3 ConA:1 DBCO),然后在4°C下振荡孵育2小时。 孵育后,用2 M Tris-HCl(pH 7.4)在10%反应体积中终止反应。 使用Zeba柱(赛默飞,89883)纯化所得产物,柱纯化后产物保留率约为90%。 将叠氮基团连接的荧光素稀释至10 mg ml−1,在无水二甲亚砜中,并以3:1的摩尔比与相应的功能化探针反应。 这种反应在4°C下振荡进行20小时;反应瓶在此孵育期间避光。 最终产品通过每个反应通过三个Zeba柱运行进行纯化,以将缓冲液最终交换到1×PBS中。 合成后的可脱色探针储存在−20°C下。 ISS 国际空间站
Para_01 sgRNA所需的ISS需要三个酶促步骤,靶向逆转录(RT)的sgRNA,形成环状DNA模板(缺口填充和连接)以及通过RCA扩增该模板。 在酶促反应之前,细胞用4%的多聚甲醛( Electron Microscopy Sciences,15714)在1×PBS中固定30分钟,室温下,然后用70%的乙醇(VWR International,76212-358)在室温下透化30分钟。 为了防止透化后样品脱水,乙醇通过六次连续稀释用PBS-T(1×PBS+0.05%吐温-20)去除。 透化后,准备RT溶液,并根据以下配方应用于细胞:1×RevertAid RT缓冲液(Thermo Fisher,EP0452),250μM dNTPs(NEB,N0447L),0.2mg ml−1BSA(NEB,B9000S),1μM RT引物(G+AC+TA+GC+CT+TA+TT+TTAACTTGCTAT),0.8U μl−1Ribolock RNase抑制剂(Thermo Fisher,EO0382)和4.8U μl−1RevertAid H减逆转录酶(Thermo Fisher,EP0452)。 含有细胞的RT溶液在37°C下孵育过夜。 Para_02 随后,细胞用 PBS-T 洗涤五次,并在室温下用 3% 甲醛和 0.1% 戊二醛(Electron Microscopy Sciences, 16120)在 1× PBS 中固定 30 分钟。 固定后,细胞用 PBS-T 洗涤三次。 准备并添加间隙填充和连接溶液到细胞中,配方如下:1× Ampligase 缓冲液(Lucigen, A3210K),50 nM dNTPs(NEB, N0447L),0.2 mg ml−1 BSA(NEB B9000S),10 nM 锁探针(/5Phos/ GTTTTAGAGCTAGAAATAGCA AGCTCCTGTTCGACACCTACCCACCTCATCCCACTCTTCAAAAGGACGAAACACCG),0.4 U μl−1 RNase H(Qiagen, Y9220L),0.002 U μl−1 TaqIT 聚合酶(Qiagen, P7620L)和 0.5 U μl−1 Ampligase(Lucigen, A1905B)。 Para_03 细胞经过缺口填充和连接后,用 PBS-T 洗涤了三次。 随后,根据以下配方准备 RCA 溶液:1× Phi29 缓冲液(Thermo Fisher,EP0094),250 μM dNTPs(NEB,N0447L),0.2 mg ml−1 BSA(NEB B9000S),5% 甘油和 1 U μl−1 Phi29 DNA 聚合酶(Thermo Fisher,EP0094)。 含有细胞的 RCA 溶液在 30 °C 下孵育过夜。 孵育后,细胞再次用 PBS-T 洗涤了三次。 Phenotypic labeling 表型标记
Para_01 RCA后,细胞用含有1% BSA(Seracare Life Sciences,1900-0016)的封闭缓冲液在1× PBS中室温孵育10分钟进行表型标记准备。 封闭后,制备了一种主要染色溶液,该溶液包含兔抗TOMM20抗体(Abcam,ab78547)、Alexa Fluor 488鬼笔环肽(Thermo Fisher,A12379)、ConA-SS-A647和WGA-A750(WGA蛋白由Vector Labs提供,L-1020-20,由Arvys Proteins定制偶联到A750荧光素),该溶液在1× PBS中,并将其应用于细胞,室温下孵育45分钟。 在与主要染色溶液孵育后,用1× PBS-T清洗细胞三次,然后制备一种次级染色溶液,该溶液包含F(ab′)2山羊抗兔IgG(H + L)-SS-A594,在封闭缓冲液中配制,并在室温下应用于细胞30分钟。 主要和次级染色溶液中的表型探针根据补充表4中列出的稀释因子进行稀释。 每种探针的稀释因子在筛选前通过逐级稀释单个染料确定。 Para_02 在与二级染色溶液孵育后,细胞用1× PBS-T清洗三次,每次清洗之间让平板在室温下放置5分钟。 最后,细胞被置于新鲜配制的DAPI染色溶液中,该溶液含有200 ng ml−1的DAPI(西格玛奥德里奇,D9542-10MG),溶于2× SSC中。 细胞在室温下于DAPI染色溶液中孵育10分钟后进行成像。 Sequencing by synthesis 合成测序
Para_01 染色后,细胞用测序引物(CACCTCATCCCACTCTTCAAAAGGACGAAACCCG)在含有10%甲酰胺的2×SSC中于室温下孵育30分钟,浓度为1μM。 随后,在引物杂交后,细胞用PR2缓冲液(Nano kit PR2)清洗三次,然后在60℃下与掺入混合物(Nano kit试剂1)孵育5分钟。 接着,使用PR2缓冲液进行六次连续稀释去除掺入混合物。 为了减少背景荧光,细胞再次用新鲜的PR2缓冲液清洗,并在60℃下孵育5分钟。 这个洗涤过程重复了五次,然后在2×SSC中加入200 ng ml−1的DAPI(Sigma-Aldrich, D9542-10MG),最后进行成像。 Fluorescence microscopy 荧光显微镜
Para_01 表型和ISS图像是使用带有自动XYZ阶段控制的尼康Ti-2Eclipse倒置荧光显微镜、Iris 9科学互补金属氧化物半导体(sCMOS)相机(Teledyne Photometrics)和硬件自动对焦系统获取的。 所有硬件由NIS-Elements AR控制,CELESTA光源引擎(Lumencor)用于荧光照明。 表型图像是使用20× 0.75数值孔径(NA)无铬无限校正(CFI)Plan Apo Lambda物镜(Nikon, MRD00205)获得的,并且每个表型探针使用了以下Semrock滤光片:肌动蛋白(鬼笔环肽)发射ET530/30 nm,二向色性495 nm;线粒体(TOMM20)发射615/24 nm,二向色性565 nm;内质网(ConA)发射680/42 nm,二向色性660 nm;高尔基体和质膜(WGA)发射820/110 nm,二向色性765 nm;细胞核(DAPI)双带发射408/473 nm,二向色性408/473 nm。 ISS循环图像是使用10× 0.45 NA CFI Plan Apo Lambda物镜(Nikon)获得的,并且对于每个碱基,使用了以下Semrock滤光片:Miseq G激发543/4 nm,发射575/30 nm,二向色性555 nm;Miseq T发射615/24 nm,二向色性565 nm;Miseq A发射680/42 nm,二向色性660 nm;Miseq C发射732/68 nm,二向色性660 nm。 所有采集的激光功率保持在30%。 ISS循环的曝光时间是通过平衡每个荧光通道中ISS点的平均像素强度来选择的。 NGS NGS
Para_01 NGS用于验证质粒文库、细胞文库和筛选细胞系中的Cas9活性。 对于Cas9活性测定和细胞文库验证,通过将细胞沉淀悬浮在裂解缓冲液(10 mM Tris pH 7.5,1 mM CaCl2,3 mM MgCl2,1 mM EDTA,1% Triton-X100和0.2 mg ml−1蛋白酶K)中并在65°C下加热10分钟,然后在95°C下加热15分钟来裂解细胞样本。 细胞裂解物中的目标序列未经细胞裂解纯化直接扩增,PCR反应如下:PCR 1:1× Kappa HiFi,0.15 µM CROP-seq-puro P5(CTGGAGTTCAGACGTGTGCTCTTCCGATCaagcaccgactcggtgccac),0.15 µM CROP-seq-puro P7(ACACGACGCTCTTCCGATCTtcttgtggaaaggacgaaac),2 ng µl−1细胞裂解物基因组DNA,28个PCR循环。 PCR 2:1× Kappa HiFi,0.25 µM P5 Truseq Indexing Primer FWD,0.25 µM P7 Truseq Indexing Primer RVD,4 ng µl−1 PCR 1产物,18个PCR循环。 PCR反应的温度条件为:初始变性95°C 5分钟,随后变性95°C 20秒,退火55°C 30秒,延伸72°C 30秒。 PCR 2产物通过使用Qiaquick凝胶提取试剂盒(Qiagen,28706×4)进行凝胶提取纯化,并根据Illumina的文库变性和稀释手册准备测序。 PhiX Control文库以10%(v/v)的比例掺入测序样品中(Illumina,FC-110-3001)。 Cell lines 细胞系
Para_01 A549-TetR-Cas9 细胞系是通过同时转染 A549 细胞与猪牛二型结核杆菌转座酶(HP137)和携带四环素诱导型 Cas9 的猪牛二型结核杆菌载粒质粒(Addgene,134247),并在含有 500 µg ml−1 G418 的条件下筛选 7 天后创建的。 单细胞被分选到 96 孔板(索尼,SH800)中,并扩展成菌落。 根据 Cas9 活性选择了一个最优克隆,目标是在存在和不存在多西环素的情况下分别实现高活性和低活性。 Cas9 活性通过基于荧光的报告载体 pXPR011(Addgene,59702)进行评估,该载体表达 GFP 和相应的 sgRNA,用于评估成功 CRISPR 活动后的 GFP 抑制。 通过荧光激活细胞分选和插入缺失序列分析检测到了 Cas9 活性的荧光读数。 A549 原始细胞是从美国典型培养物保藏中心(CCL-185)获得的。 用于病毒包装的 HEK293FT 细胞是从赛默飞世尔科技公司(R70007)获得的。 HeLa-TetR-Cas9 细胞系是 Iain Cheeseman 赠送的;该细胞系是一个单细胞克隆,通过转导上述 eGFP 报告载体(pXPR011)并使用荧光激活细胞分选来读取蛋白抑制效率而选出的,表现出高水平的 Cas9 活性。 Image processing 图像处理
Para_01 我们使用了 CellProfiler 生物图像分析软件(版本 4.1.3)来处理图像,采用了经典算法。 同时使用 Fiji(带有 openjdk-8)进行图像拼接和裁剪。 对于 ISS 图像,我们纠正了背景强度的变化,对周期内的通道进行了对齐,并执行了通道补偿。 对于表型图像,我们纠正了背景强度的变化。 然后,我们独立地将 ISS 和 Cell Painting 图像拼接成全井视图,并将其裁剪为相应的伪位点,以适应它们在不同放大倍数下被拍摄的事实。 经过校正的 ISS 和表型图像的伪位点图像进入了我们的最终分析流程,在此过程中它们被对齐。 如果存在的话,检测并屏蔽了汇合区域。 使用表型图像分割出了细胞核和细胞。 识别了 ISS 焦点,并为每个焦点调用了条形码。 然后,在捕获的各种通道中,我们测量了多个类别的细胞的各种特征,包括荧光强度、纹理、颗粒度、密度和位置。 我们从大约 2680 万(A549)和 4640 万(HeLa)个细胞中获得了 3,973 项特征测量。 我们通过亚马逊网络服务中的 Lambda 函数并行化了图像处理工作流。 使用的实际 CellProfiler 流程可以在 Cell Painting 画廊中找到。 不断改进的流程和 Lambda 函数脚本可在 https://github.com/broadinstitute/pooled-cell-painting-image-processing 获得。 对象分割参数可能需要图像分析专家根据不同的数据集进行调整,但特征提取是不变的。 Image-based profiling 基于图像的画像技术
Para_01 我们将 CellProfiler 的输出处理成了基于图像的特征文件,使用了 https://github.com/broadinstitute/pooled-cell-painting-profiling-recipe 上提供的脚本。这个过程可以根据需要进行高度配置。 第一步生成了关于图像获取、修改后的 Cell Painting 和 ISS 的多种质量控制指标的摘要。 第二步使用了 Pycytominer 工作流来处理通过 Cell Profiler 提取的单细胞特征。 我们独立地对每个平板上的单细胞特征文件进行了中位数聚合,按引导序列(guide)进行。 接下来,我们定义了中心和尺度参数为 Pycytominer 标准化方法中的特征值均值和标准差,并独立地对每个平板上的平均特征文件进行了归一化,方法是减去中心值并缩放到标准差。 我们进一步处理了每个平板上的引导序列级别的特征文件,以创建我们在分析中使用的屏幕级别的特征文件。 我们独立地为每个屏幕执行了特征选择,以消除噪声特征并保留最具有信息量的特征,方法是过滤掉冗余特征(所有与给定特征皮尔逊相关系数大于 0.9 的特征),低方差特征以及跨所有平板缺失值的特征,这是基于图像的特征处理工作流程的标准做法。 然后,我们将每个实验的特征选择后的平板级别特征文件进行了中位数聚合,以获得每个实验中每条引导序列的独特特征文件。 对于扰动级别(基因级别)的特征文件,每个实验的引导序列级别的特征文件进行了中位数聚合。 Para_02 每个数据集独立地焊接到了配方上,有效地版本化了配方,使用了一个模板,可在https://github.com/broadinstitute/pooled-cell-painting-profiling-template获取。 我们关于A549的数据集包含了版本化的配方,可以在https://github.com/broadinstitute/CP186-A549-WG获取。 我们关于HeLa的数据集包含了版本化的配方,可以在https://github.com/broadinstitute/CP257-HeLa-WG获取。 用于进一步处理轮廓代码的代码在这个论文仓库中,可在https://github.com/broadinstitute/2022_PERISCOPE获取。 Hit calling, statistical analysis and distribution of hits 击中呼叫、统计分析和分布
Para_01 为了确定具有显著信号高于噪声的基因(命中呼叫),我们开发了一种算法,通过曼-惠特尼U检验比较针对同一基因的所有引导序列的特征值分布与一组非靶向对照引导序列的分布。 根据统计检验(P值为0.001)显著不同于非靶向对照的特征数量被累加以计算每个扰动的轮廓评分。 然后,为了确保被称为显著的扰动确实不是零扰动,我们定义了一个称为每百万零转录子(TPM)基因的对照组。 零TPM基因是没有在给定细胞系中显著表达的基因,并且是基于布罗德研究所依赖图谱门户报告的RNA表达水平确定的。 为了获得1%的FDR,轮廓评分高于99%零TPM基因的扰动被确定为具有显著高于噪声的信号。 术语‘全细胞命中’和‘隔室命中’用于区分整体轮廓特征中有显著信号的扰动或来自特定细胞隔室(基于五种荧光标记之一)的特征中有目标信号的扰动。 对于全细胞命中,上述命中呼叫过程中使用了所有收集到的特征,但对于隔室命中,只使用了来自一个细胞隔室的特征子集(包括该隔室的纹理、强度、相关性、径向分布和颗粒度测量)。 上述命中呼叫流程还在FDR水平2%、3%、4%和5%处被利用,以突出不同严格程度下识别的命中数(扩展数据图3a)。 需要注意的是,单一扰动可以是一个隔室命中,同时靶向两个或极少数情况下三个隔室,但仍不是一个全细胞命中(扩展数据图4a、c、e)。 mAP calculations mAP计算
Para_01 均方平均精度(mAP)用于评估针对同一基因的不同引导序列的表型谱之间的相似性。 mAP是机器学习中常用的性能指标,特别是在信息检索任务中,并且已被证明是在验证大规模、高吞吐量的生物谱数据方面有价值的工具。 从一组N个对照谱和一组M个查询谱(每种针对同一基因的引导序列有4个查询谱),对于每个查询谱,我们通过以下步骤计算非插值平均精度(AP): [ol]- (1) Select a single profile i from M query profiles. - (2) Calculate similarity of the profile i to all other (M − 1) + N profiles; we have used cosine similarity as the metric. - (3) Sort (M − 1) + N profiles by decreasing similarity to the profile i. - (4) At each rank k going down the list, if k is a correct match, calculate the precision at rank k for this rank. - (5) AP can be be calculated via relative change in recall using the following formula:
{\mathrm{AP}}{i}=\mathop{\sum }\limits{k=1}^{(M-1)+N}({R}{k-1}-{R}{k}){P}{k}, in which (,{P}{k}) is precision and TPk is true positive at rank k,
{P}{k}=\frac{{{TP}}{k}}{k} and ({R}{k}) is recall at rank k,
{\mathrm{mAP}}=\frac{1}{M}\mathop{\sum }\limits {i=1}^{M}{\mathrm{AP}}_{i}.$$ More details and the code used to calculate mAP is available on the GitHub repository.
Distribution of significant features based on gene sets targeting each compartment 基于每个区域的目标基因集的重要特征分布
Para_01 饼图展示了显著不同于对照组的特征数量的归一化比例,根据目标区室进行分类(图2c)。这些数值是参与突出显示的基因组的多个基因的平均值。 Comparison between pairwise correlation of perturbations to other databases 扰动之间的成对相关性与其它数据库的比较
Para_01 为了评估表型谱系回忆已知生物关系的能力,我们计算了谱系之间的相关性作为相似性的度量,并用它来进行两项全局评估。 考虑到每个谱系中的特征数量众多(A549中有1,520个,HeLa DMEM中有1,597个,HeLa HPLM中有1,709个),并且为了提高信噪比,对数据集进行了主成分分析(PCA)以捕获至少90%的变化,从而产生了新的特征:A549有334个,HeLa DMEM有325个,HeLa HPLM有231个。 然后使用这些新的特征来计算所有命中扰动谱系(基因水平)之间的皮尔逊相关系数。 首先,从2022年11月28日的CORUM4.0数据库31中获取注释的蛋白质簇。 使用两个数据集中基因符号识别出包含至少33%的命中基因的簇(A549中有645个簇,HeLa HPLM中有953个簇,HeLa DMEM中有1,350个簇)。 然后计算簇内每对基因之间所有相关性的分布。 将簇内所有谱系之间的相关性分布与来自所有命中基因的所有谱系之间的相关性分布绘制在图2d中。 其次,我们基于STRING数据库(v11.5,'9606.protein.links.v11.5.txt.gz')32预测的蛋白连接得分进行了类似的分析。 首先,使用从'9606.protein.info.v11.5.txt.gz'文件中提取的preferred_name将STRING中的蛋白ID映射到基因符号。 计算STRING数据库中报告连接得分的所有命中基因谱系之间的所有可能的成对相关性。 接下来,相关性被分成八个等间距的区间,并使用Python中的seaborn.boxenplot81绘制每个区间的STRING连接得分分布。 Comparison to cancer dependency map data 与癌症依赖图谱数据的比较
Para_01 根据DepMap数据,我们根据DEMETER2基因依赖性评分使用阈值-0.5对HeLa细胞中表达的基因分为必需基因和非必需基因两类,并绘制了必需基因和非必需基因与它们的形态信号评分的分布图(详见下文定义)。 From DepMap data, we divided genes expressed in HeLa cells into essential and nonessential categories based on DEMETER2 gene dependency scores58 using a threshold score of −0.5 for gene essentiality and plotted the distributions of essential and nonessential genes versus their morphological signal score (see below for the definition). UMAP clustering of the hit perturbation profiles 击中扰动谱系的UMAP聚类
Para_01 为了评估和展示形态学谱系揭示生物相关相互作用和结构的能力,使用了UMAP算法将命中基因谱系投影到二维平面上。 在应用UMAP算法之前,对数据集进行了PCA分析,以捕捉至少90%的变化,如上所述。 使用Python库UMAP,通过参数'metric'设置为'cosine'来应用UMAP算法。 使用的参数详情可以在GitHub仓库中找到。 一些由此产生的聚类被手动标记,以突出一些潜在的有趣的生物学,使用GO术语(生物过程和细胞成分)如GSEA-MSigDB网页门户上列出的(http://www.gsea-msigdb.org/gsea/msigdb/human/collections.jsp#C5)。 Hierarchical clustering of hit perturbation profiles and representative heat maps 击中扰动谱系的分层聚类和代表性热图
Para_01 形态学轮廓之间的相关性是提取数据集中生物学见解的强大工具。 例如,相似性(或不相似性)包含了有关功能簇、蛋白质结构、信号通路及其方向性的信息。 为此目的,首先对数据集进行了PCA分析,如上所述捕获至少90%的变化,然后选择了与每种情况中指定的功能基因集相关的扰动子集。 接着,使用Python中的pandas库的corr函数计算了每个数据集的扰动轮廓之间的成对皮尔逊相关系数。 使用Python中的seaborn的clustermap函数对相关性进行了层次聚类并绘制了热图。 基于‘欧几里得’作为距离度量,采用了ward方差最小化算法作为聚类算法(‘方法’)。 Para_02 为了比较DMEM和HPLM筛选的组合热图(如图3e,f所示),对其中一个筛选过程执行了上述步骤(此时不生成热图)。然后,从一个筛选过程中提取聚类顺序,并将其应用于另一个筛选过程,以便进行两种类型的比较:两个筛选之间的相关性直接比较以及聚类相关性的高级结构比较。为了有效展示结果,将两组有序的相关性合并到一个热图中,左下部分代表一个筛选,右上部分代表另一个筛选,使用Python中的seaborn.clustermap81函数。 为了比较DMEM和HPLM筛选的组合热图(如图3e,f所示),对其中一个筛选过程执行了上述步骤(此时不生成热图)。然后,从一个筛选过程中提取聚类顺序,并将其应用于另一个筛选过程,以便进行两种类型的比较:两个筛选之间的相关性直接比较以及聚类相关性的高级结构比较。为了有效展示结果,将两组有序的相关性合并到一个热图中,左下部分代表一个筛选,右上部分代表另一个筛选,使用Python中的seaborn.clustermap81函数。 Preranked GSEA analysis of perturbations based on morphological signal strength or similarity 基于形态信号强度或相似性的扰动的预排名GSEA分析
Para_01 为了更好地理解每个HeLa筛选中突出的生物过程,并比较环境对细胞的表型下游效应,进行了 preranked GSEA 分析。 该分析是在 GSEA v.4.2.3 Mac 软件上进行的,基因根据形态信号评分使用‘c5.go.bp.v2022.1.Hs.symbols.gmt [基因本体]’基因集数据库进行排序,进行了2000次排列。 形态信号评分是通过这个公式计算的,适用于每种扰动。 Para_02 P值的计算如命中调用部分所述,n指的是与非靶向对照显著不同的特征(P值为0.001)。用于计算形态信号评分的代码以及每个数据集的扰动评分列表可在GitHub存储库中获取。 基于Cytoscape v3.9.1软件平台的EnrichmentMap应用程序被用来可视化富集图(节点截止q值为0.05)。 , Para_03 基于形态特征谱与目标基因相似性的分析进行了预先排名的GSEA分析,以确定生物术语的富集。 根据目标基因特征谱的余弦相似性对基因进行排序,然后使用GSEApy包和‘GO_细胞组分_2021’数据库进行GO术语富集分析。 Single feature screen analysis 单一特征屏幕分析
Para_01 对于特征选择数据集中的每个特征,基因根据P值(在命中调用过程中生成)进行排序,并为每个特征创建了一个包含前20名及更多基因的列表,这些基因的P值小于或等于第20个基因的P值。 使用Python GOATOOLS库82(默认Benjamini–Hochberg FDR校正)对前20+列表进行了GO术语富集分析。 如果GO术语经过额外的Bonferroni校正后的P值小于0.05,则认为这些术语是富集的。 使用Python SciPy库83中的Fisher精确检验和Benjamini–Hochberg FDR校正,对特定隔室的基因列表在前20+列表中的富集情况进行检测。 使用Python库Matplotlib84绘制图表。 为了探索粒度特征,使用了Pycytominer聚合未进行特征选择但已标准化的数据集,并使用Seaborn81绘制。 基因列表来自代谢图谱85。 粒度特征使用Python SciPy和scikit-image86库可视化,如CellProfiler中实现的那样。 Atlas cell retrieval tool Atlas细胞检索工具
Para_01 Example 单细胞图像切片可以从任一屏幕通过我们论文存储库中包含的检索脚本获取,该存储库位于 https://github.com/broadinstitute/2022_PERISCOPE。 这些图像是可以通过基因名称或sgRNA条形码序列检索到的。 示例图像可以随机选择,或者根据scikit-learn87中使用的最近k-means聚类方法设置为每个条形码最具代表性的细胞。 单通道切片来自最终分析测量所用的校正图像。 掩膜切片来自分析管道期间生成的分割,并填充浅灰色以显示感兴趣的细胞,填充深灰色以显示同一切片内分配到相同扰动的其他细胞。 TMEM251 localization assay TMEM251定位测定
Para_01 HT1080 细胞被转导表达 TagBFP 标签的 GALNT2(高尔基体)或 mRFP1 标签的 TMEM192(溶酶体)的慢病毒载体,并用抗生素筛选。 稳定整合的细胞使用 4% 甲醛固定(4°C 下 15 分钟),用 20 μg ml−1 洋地黄皂苷透化(室温下 30 分钟),用 1% BSA 封闭(室温下 30 分钟),然后与针对 TMEM251 的一抗(HPA048559,Sigma-Aldrich;1:200,4°C 下过夜)孵育,随后与 Alexa Fluor 488 偶联的二抗(1:1,000,室温下 2 小时)孵育。 样品在 Phenix 成像仪(Perkin-Elmer)上使用 63× 物镜以共聚焦模式成像。 WGA/LAMP1 costaining and quantification of lysosomal glycan accumulation followed by CRISPRi perturbations WGA/LAMP1共染色和溶酶体糖积累的定量随后进行CRISPRi扰动
Para_01 HT1080 CRISPRi 细胞用含有 sgRNA 的慢病毒载体进行了转导,并使用抗生素进行了筛选。 对于双重靶向样本,细胞同时被两种载体转导,并使用两种抗生素共同筛选。 在 sgRNA 转导后 8 天和最终重铺板后 2 天,细胞被固定、通透化、封闭并染色,方法如上所述,使用针对 LAMP1(ab25630,Abcam;1:50)的一抗和 Alexa Fluor 647 偶联的二抗。 在二抗孵育期间,加入了浓度为 1.5 µg ml−1 的 Alexa Fluor 555 偶联的 WGA 和浓度为 5 µg ml−1 的 Hoechst 33342。 样品在 Phenix 成像仪(Perkin-Elmer)上使用 63× 物镜以共聚焦模式进行成像。 Para_02 图像分析使用了Harmony软件(珀金埃尔默),其中图像进行了平场校正,并且识别出了对应于细胞核、细胞质和溶酶体的区域。 WGA信号与溶酶体共定位的部分通过每细胞的中位荧光强度(MFI)进行量化。 每个生物学重复(每种条件两个)由所有分割细胞的每细胞MFI的上四分位数表示。 Lysosomal pH measurement 溶酶体pH值测量
Para_01 HT1080 CRISPRi 细胞稳定表达带有 mScarlet(位于腔面)的大鼠 Lamp1。 这些细胞用含有 sgRNA 的慢病毒载体转导,并用抗生素进行选择。 细胞在环境控制室(OKO)中于 37°C 和 5% CO2 条件下进行活体成像,成像时间为 sgRNA 转导后 8 天,并且在重新接种到成像介质的载玻片上的 1 天后。 成像使用 Leica SP8 扫描显微镜,在 FLIM 模式下进行,使用 100× 物镜。 样品通过白光激光在 561 nm 波长和 40 MHz 下激发,收集的发射光谱在 590 到 700 nm 之间。 成像介质由 FluoroBrite DMEM(Life Technologies, A1896701)+ 10% FBS + 1% GlutaMax(Gibco, 35050061)组成。 Para_02 图像分析使用内部脚本进行,这些脚本识别了溶酶体区域以及每个像素内光子的平均到达时间(寿命)。 计算每个视野中所有溶酶体像素的中位寿命(每个视野包含一到两个细胞,每种条件至少15个视野),并将其表示为每个视野的一个数据点。 初次成像后,在非靶向样本中添加了100纳摩尔的巴弗洛霉素A1作为阳性对照,处理后5小时重新成像。 Lysosomal hydrolase activity assay 溶酶体水解酶活性测定
Para_01 HT1080 CRISPRi 细胞用含有 sgRNA 的慢病毒载体进行了转导,并使用抗生素进行了筛选。 在 sgRNA 转导后第 9 天以及最后一次铺板后的第 1 天,细胞通过与 0.2 微克每毫升的 Hoechst 33342 和要么 200 微摩尔 PFB-FDGlu(用于葡萄糖脑苷脂酶;Invitrogen,P11947)或 33 微摩尔 C12FDG(用于 β-半乳糖苷酶;Invitrogen,I2904)在成像培养基中共孵育 1 小时,温度为 37 摄氏度,在 37 摄氏度下进行孵育。 然后在 Phenix 成像仪(Perkin-Elmer)上使用 63 倍物镜以共聚焦模式进行成像。 Para_02 使用Perkin-Elmer的Harmony软件进行了图像分析,在该软件中对校正过的平坦视野图像进行了细胞核和细胞质的分割。 从每个细胞提取了总荧光强度,并且每个生物学重复(每种条件两个)通过所有分割细胞的每细胞荧光强度中位数(MFI)来表示,相对于非靶向对照,以log10倍数变化表示。 Reporting summary 报告摘要
Data availability Para_01 所有数据均可公开获取。 表型和ISS图像以及基于图像的特征文件可在AWS开放数据注册中心的细胞绘画画廊80上获取(https://registry.opendata.aws/cellpainting-gallery/),访问编号为cpg0021-periscope。 获取图像和特征文件的说明可在GitHub上的细胞绘画画廊文档中找到(https://github.com/broadinstitute/cellpainting-gallery)。 基于图像的特征文件通过GitHub上的模板与各个数据集焊接在一起(https://github.com/broadinstitute/pooled-cell-painting-profiling-template)。 使用GitHub上的配方进行处理(https://github.com/broadinstitute/pooled-cell-painting-profiling-recipe)。 我们报告的数据集的配方输出可通过GitHub获取(https://github.com/broadinstitute/CP186-A549-WG 和 https://github.com/broadinstitute/CP257-HeLa-WG)。 使用2022年11月28日版本的CORUM4.0数据库(https://mips.helmholtz-muenchen.de/corum/download)和STRING v11.5的'9606.protein.links.v11.5.txt.gz'(https://version-11-0.string-db.org/cgi/download.pl?)对扰动之间的成对相关性与其他数据库进行了比较。 Code availability Para_01 所有代码均可公开获取。 配方输出进一步处理以生成本文档中分析的配置文件。 本文档最终处理和所有图表创建的代码可通过GitHub获取,网址为https://github.com/broadinstitute/2022_PERISCOPE。 屏幕中使用的具体CellProfiler管道可在Cell Painting画廊中获取80,而用于触发它们的持续改进的图像分析管道和AWS Lambda脚本可通过GitHub获取,网址为https://github.com/broadinstitute/pooled-cell-painting-image-processing。