BioJournal Link
【优质期刊】文献【泛读,精读】笔记。关注癌症,生信,多组学,数据库 ,科研工具,精准医学,临床研究,生物技术,计算机技能,大语言模型的应用。
326篇原创内容
公众号
Basic Information 英文标题:Tri-omic single-cell mapping of the 3D epigenome and transcriptome in whole mouse brains throughout the lifespan 中文标题:全小鼠大脑在整个生命周期中三维表观基因组和转录组的三组学单细胞图谱 发表日期:29 April 2025 文章类型:Article 所属期刊:Nature Methods 文章作者:Haoxi Chai | Yijun Ruan 文章链接:https://www.nature.com/articles/s41592-025-02658-7 Abstract Para_01 探索转录程序的基因组基础一直是长期的研究重点。 在这里,我们报告了一种单细胞方法 ChAIR,用于同时绘制染色质可及性、染色质相互作用和 RNA 表达。 在培养细胞中验证后,我们将 ChAIR 应用于整个小鼠大脑,并描绘了在成熟和衰老过程中表观基因组、三维(3D)基因组和转录组的协同动态。 特别是,以基因为中心的染色质相互作用和开放染色质状态提供了细胞类型特异性转录的 3D 表观遗传机制,并揭示了空间分辨的特异性。 重要的是,单个细胞中短程和超长染色质接触的组成与转录活性、开放染色质状态和基因组折叠密度显著相关。 这种基因组特性,以及相关的细胞特性,在整个生命周期的不同解剖区域的神经元和非神经元细胞中有所不同,暗示了大脑细胞中存在不同的核机械基因组机制。 我们的结果证明了 ChAIR 在揭示复杂组织中细胞类型特异性转录的单细胞 3D 表观基因组状态方面的稳健性。 Main Para_01 三维(3D)基因组折叠以及表观基因组状态在塑造基因组功能中起着关键作用,包括转录。 然而,现有的大部分知识主要来自 于群体细胞数据,这些数据只能提供基本但平均的视角。 单细胞技术的最新发展,特别是多组学方法,已显著推动了对3D基因组、表观基因组、转录组及其复杂相互作用的研究。 然而,目前的单细胞多组学方法面临一些限制。 例如,将小细胞质RNA测序(scRNA-seq)与scATAC-seq结合的方法无法捕捉染色质连接性,而其他将scRNA-seq与scHi-C结合的方法则缺乏识别顺式调控元件(CREs)的能力,并且由于分辨率低和背景噪声高,难以绘制增强子-启动子相互作用。 因此,开发能够同时检测调控元件之间特定相互作用的新方法是非常有必要的,这对于理解转录调控的3D表观基因组机制至关重要。 Para_02 在本文中,我们报告了一种基于微滴的高通量单细胞三组学方法,即染色质可及性、相互作用和RNA图谱(ChAIR),该方法可以同时绘制转录组、表观基因组和三维基因组。 我们在K562(一种人类髓系白血病细胞系)和Patski(一种杂交小鼠成纤维细胞系)细胞中验证了ChAIR协议,并将ChAIR应用于整个生命周期的小鼠脑细胞,追踪分化、成熟和衰老过程中转录和三维染色质折叠以及表观基因组状态的同步动态变化。 我们的分析提供了单细胞水平上的证据,支持一种时间顺序的三维表观基因组机制,该机制调节转录激活。 我们还发现,超长距离染色质巨接触的比例反映了关键的基因组特性,包括基因组折叠密度和转录活性,并且与核体积和细胞特异性高度相关,这表明在塑造核形态、细胞活动和脑细胞功能方面可能存在一种潜在的机械基因组机制。 Results ChAIR captures tri-omic data in single cells ChAIR 在单个细胞中捕获三组学数据
Para_01 为了同时分析染色质相互作用和表观基因组状态,我们之前建立了一种批量细胞多组学方法 ChIATAC11。它能够高效地绘制开放染色质位点之间的染色质可及性和相互作用,同时保留相同样本中的高级染色质折叠结构。 通过将 ChIATAC 应用于微流控系统,我们开发了一种协议,可以在单个细胞中同时捕获染色质可及性、相互作用和 RNA 图谱(ChAIR)。 在 ChAIR 中,交联的细胞通过原位限制性酶切、邻近连接和 Tn5 标签化进行处理。 处理后的细胞随后使用 10x Genomics Multiome 系统单独封装到液滴中,该系统可以同时对 DNA 和 RNA 分子进行条形码标记。 通过 DNA 测序可以获得相应的 DNA 和 RNA 信息(图 1a)。 每个微流控通道中的 ChAIR 实验可以生成来自 6,000–10,000 个细胞的单细胞数据集 ,而在满载情况下,一个 16 通道设备可以生成超过 100,000 个细胞的数据集 。 每个数据集 提供三组学信息:ChAIR-RNA 用于基因表达,ChAIR-ATAC 用于染色质可及性,ChAIR-PET(配对末端标签)用于染色质接触。 Fig. 1: ChAIR captures comprehensive 3D epigenome and transcriptome landscapes in single cells.
- 图片说明
◉ a,生成ChAIR-RNA、ChAIR-ATAC和ChAIR-PET数据集 的ChAIR程序示意图,用于单细胞。E,增强子;P,启动子。◉ b,K562 ChAIR单细胞轨道、集成ChAIR数据以及批量细胞ChIATAC和RNA-seq数据的基于浏览器的可视化。绿色基因为5′–3′方向,蓝色基因为3′–5′方向。显示区域内具有最多染色质接触且三种模态均可用的前800个细胞被可视化。这些细胞根据ChAIR-PET数据的层次聚类排序。每个簇分配的颜色用于区分相邻簇。◉ c,Patski ChAIR-RNA数据的PCA(PC1和PC2)图,显示细胞周期特异性(左)以及按细胞周期伪时间排序的42个元细胞(右)。◉ d,通过标准化的ChAIR-RNA数据、启动子处的ChAIR-ATAC和与启动子相关的ChAIR-PET,对Patski细胞中的S期特异(上)和G2/M期特异(下)基因进行表征。◉ e,基因组折叠结构的3D模型 示例视图,突出显示染色质区室A和B、开放染色质、基因表达以及Xist和Flna在chrXa和chrXi中的单倍型解析核定位。面板a使用BioRender.com创建。来源 数据
Para_02 在使用K562和Patski细胞的谷仓实验中,我们证明了ChAIR在生成高质量三组学单细胞数据方面的有效性(补充表1和补充图1a),并且具有高可重复性(补充图1b,c)。 尽管ChAIR-RNA和ChAIR-ATAC数据在捕捉基因转录本和映射开放染色质位点方面表现出相似的稳健性,但ChAIR-PET数据中每个细胞的染色质接触数量低于scHi-C检测结果(扩展数据图1a–e)。 这是可以预见的,因为ChAIR旨在靶向开放染色质区域,这些区域约占基因组的1–5%。 事实上,超过40%的ChAIR-PET数据中的染色质接触连接到开放染色质位点(扩展数据图1f),表明与转录相关的相互作用有显著富集。 Para_03 为了可视化单个细胞的ChAIR数据,我们开发了ChAIR-viewer(方法)以在三个单细胞轨道中显示ChAIR-RNA、ChAIR-ATAC和ChAIR-PET数据(图1b)。 观察到了明显的差异,尤其是在不同簇之间的ChAIR-PET数据中,这反映了可能对应于不同细胞周期阶段的细胞时间异质性。 此外,集成的ChAIR数据表现出与批量细胞数据一致的特征(图1b和补充图2)。 Para_04 ChAIR-RNA测序数据主要映射到外显子,并且在转录本的3′端表现出偏向性(扩展数据图2a)。 ChAIR-ATAC数据在开放染色质位点和转录起始位点(TSSs)显示出与ChIATAC11、ATAC-seq12和scATAC-seq6数据中观察到的信号相似(扩展数据图2b)。 值得注意的是,sci-Hi-C数据13在ATAC峰和TSSs处没有信号富集,这突显了ChAIR数据在映射开放染色质方面的有效性。 此外,ChromHMM14分析显示,ChAIR识别的开放染色质位点和染色质环与ATAC-seq和ChIATAC中观察到的表观基因组特性相同,具体表现为启动子相关特征的富集(扩展数据图2c,d)。 ChAIR-PET数据和ChIATAC接触数据共享相同的染色质环谱(扩展数据图2e)。 此外,二维(2D)接触谱(补充图3)显示,ChAIR-PET和ChIATAC数据中的高级染色质结构与Hi-C数据高度相似。 值得注意的是,ChAIR-PET数据在开放染色质位点之间的染色质环处表现出比基于Hi-C的单细胞方法10,13更强的信号(补充图4)。 因此,我们的结果证明了ChAIR在鉴定CREs以及连接基因启动子与CREs的染色质相互作用方面的优越能力,同时保留了Hi-C数据中观察到的高级别谱图。 Three-dimensional epigenome–transcription interplay during the cell cycle 细胞周期中三维表观基因组与转录的相互作用
Para_01 细胞周期是一个基本的细胞过程,包括G1、S、G2和M期,各期特异性基因已经被很好地表征。 尽管在细胞周期中高级染色质结构的动态变化已被广泛研究,但各期特异性转录与染色质折叠动态之间的精确相互作用仍然知之甚少。 因此,从K562和Patski细胞中获得的三组学ChAIR数据提供了一个解决这个问题的机会。 Para_02 基于ChAIR-RNA数据中的阶段特异性基因15(扩展数据图3a),我们注释了处于G1、S和G2/M期的细胞(图1c左图和扩展数据图3b–f)。 随后,我们进行了主成分分析(PCA),并将具有相似RNA特征的紧密相邻细胞分组为元细胞,这些元细胞根据细胞周期伪时间依次排列,跨越G1、S和G2/M期(图1c右图,以及扩展数据图3b右图)。 每个元细胞内的染色质接触提供了稳健的伪批量数据,用于表征细胞周期进展过程中的染色质折叠,同时减少了单个细胞的随机性。 此外,ChAIR-PET数据也可直接用于单细胞分析,以评估遵循既定方法19的个体细胞中的细胞周期染色质接触特征。 正如预期的那样,在K562和Patski细胞中均鉴定出了五个细胞周期阶段(M后期、G1、早期S、晚期S到G2和M前期)(补充图5)。 在K562和Patski细胞中均鉴定出了五个细胞周期阶段(M后期、G1、早期S、晚期S到G2和M前期)(补充图5)。 Para_03 为了研究转录、染色质折叠和染色质可及性在整个细胞周期中的动态关系,我们分析了从G1到S期再到G2/M期的细胞周期伪时间轴上的Patski元细胞,评估了S期特异性基因的表达(RNA水平)、启动子可及性(ATAC信号)和启动子相关染色质相互作用(PET计数)(图1d,顶部)。 RNA水平在大部分G1期保持基础水平,在晚期G1期开始增加,进入S期后加速上升并在S期末达到峰值,然后在进入G2/M期时开始下降。 相比之下,配对末端标签(PET)计数从早期G1期到中期S期迅速上升,并在进入G2/M期时开始下降。 同样地,尽管有所延迟,ATAC信号在G1期表现出缓慢而逐渐的增加,随后在S期加速增加,并在G2/M期下降。 同样的模式也观察到了G2/M期特异性基因(图1d,底部)。 这些时间和顺序的动态变化表明了一种分步的转录激活因果机制,其中远端增强子和启动子首先建立联系,可能由先驱因子20促进,随后导致启动子开放,最终实现转录激活。 Para_04 利用来自 具有高杂合单核苷酸多态性(SNPs)频率的F1杂交小鼠的Patski细胞21,我们获得了单倍型解析的ChAIR数据,并通过分析chrXi特异的Xist和chrXa特异的Flna验证了结果(补充图6)。 使用在元细胞中获得的单倍型解析的ChAIR-PET数据,我们重建了整个细胞周期中的3D基因组模型 (补充图7),并揭示了典型的全基因组构象,其中常染色质朝向核内,异染色质位于外围(图1e)。 来自 不同细胞周期阶段的3D模型 和2D接触矩阵都显示了不同的染色质构象,这与之前的研究结果一致8,19。这些在三个细胞周期阶段中的构象变化进一步得到了基因组折叠密度和体积显著变化的支持(方法)22(补充图8),这是通过3D建模 估计得出的。 综上所述,我们证明了ChAIR在实现高效的单细胞分析方面的强大能力,以阐明转录调控的基因组框架。 Tri-omic landscapes in mouse brain cells 小鼠脑细胞中的三组学图谱
Para_01 尽管基因表达研究已经为小鼠大脑复杂的细胞组成和功能提供了大量见解,但其多样化细胞特性的基因组框架仍然知之甚少。 这一知识缺口使小鼠大脑成为ChAIR研究细胞类型特异性转录潜在基因组调控机制的理想系统。 为了全面了解细胞类型特异性三维表观基因组如何与转录相协调,我们分析了整个小鼠大脑,而不是离散的大脑区域,以全面描绘不同脑区细胞组成的改变在整个生命周期中的变化。 我们从婴儿期到成年早期再到老年小鼠选择了五个关键发育阶段:出生后第2天(P2)、第11天、第95天、第365天和第730天(图2a)。 Fig. 2: Single-cell 3D epigenomic and transcriptomic landscapes of whole-brain cells during mouse maturation and aging.
- 图片说明
◉ 在不同出生日后收集全脑组织的研究设计。◉ 结合ChAIR-RNA数据的UMAP图,用不同颜色突出显示主要的脑细胞类型。Ast,室管膜细胞;VAS,血管细胞。◉ 来自 五个年龄点的ChAIR-RNA数据的UMAP图。提供了细胞数量(n)。◉ 通过转录组(d)和3D表观基因组特征(e)计算的细胞群特异性信号矩阵,覆盖了ChAIR数据中属于七种细胞类型的23个细胞群。信号通过计算细胞群特异性特征信号与所有细胞群特异性特征总信号的比值进行归一化。然后提供了一个CIS来评估细胞群特异性特征在区分不同细胞群中的有效性。◉ Cbln1位点的集成ChAIR数据浏览器视图,显示Cbln1相关增强子(Es)、染色质环以及相对于其他神经元细胞在CBGRC细胞中特有的表达。◉ 左图:Etv1位点及其相关增强子(Es)的ChAIR集成数据和单细胞数据的详细浏览器视图。右上角:一个CBGRC特异性增强子通过VISTA32得到验证。右下角:Etv1位点的ChAIR-PET和ChAIR-ATAC数据的相应二维接触热图。◉ 17个特定细胞群(包括ExNs、InhNs和非神经元细胞)的染色质接触距离谱以及巨接触百分比、全局染色质可及性、全局转录活性和基因组折叠密度的箱线图。中心线表示中位数,箱体代表四分位距(25%–75%分位数),须线延伸至1.5倍四分位距。◉ 代表各种脑细胞核的重建三维基因组结构示例,MGL具有最高的染色质密度,TEGLU细胞具有最低的染色质密度。面板a使用BioRender.com创建。来源 数据
Para_02 通过ChAIR的高通量能力,我们从小鼠大脑中生成了具有生物和实验重复的高度可重复的ChAIR数据(补充表1和补充图9)。 使用ChAIR-RNA和ChAIR-ATAC数据进行无监督降维分析,有效地分离了主要的大脑细胞类型。 尽管ChAIR-PET数据效果较差,可能是由于数据稀疏性,但与活跃基因相关的ChAIR-PET表现出显著改进的细胞聚类结果。 此外,三组学ChAIR数据的整合进一步增强了细胞类型的区分(扩展数据图4a–g)。 尽管有这些改进,scRNA-seq仍然是细胞聚类和注释最方便的数据集 。 Para_03 通过严格的质量控制(方法),我们从总共222,698个细胞中收集了高质量的ChAIR数据(补充表1和2以及图2b,c)。 通过与广泛使用的鼠脑单细胞RNA测序数据集 整合,ChAIR-RNA数据识别出了121种细胞类型,这些细胞类型由199种已明确的鼠脑细胞类型的典型标记基因表达特征所定义(扩展数据图4h和补充图10)。 这些细胞属于七个主要脑细胞类别的45种细胞组:兴奋性神经元(ExN)、抑制性神经元(InhN)、星形胶质细胞/室管膜细胞、少突胶质祖细胞(OPC)、少突胶质细胞(Oligo)、小胶质细胞(MGL)和血管细胞(图2b)。 同时,ChAIR-ATAC和ChAIR-PET数据与相关数据集 高度匹配,显示了预期的表观基因组状态和染色质结构(扩展数据图4i和补充图11和12)。 Para_04 为了分析ChAIR-RNA、ChAIR-ATAC和ChAIR-PET数据之间的相关性,我们重点关注了45个细胞群体中的23个,这些细胞群体具有足够的三组学数据以进行深入分析。 鉴于单细胞RNA测序数据能够通过细胞类型特异性标记基因有效定义细胞身份,我们认为与标记基因相关的三维表观基因组特征将表现出相当程度的特异性。 为了定量评估这一点,我们制定了一个‘细胞身份评分’(CIS)来衡量各种分子特征在细胞身份中的独特性。 这些特征包括转录(RNA)、基因活性(基因体上的ATAC信号)、启动子强度(TSS处的ATAC)、增强子强度(增强子位点的ATAC)以及染色质环(PET)。 本质上,CIS是通过将特定细胞类型的独特分子信号除以其他细胞类型的背景信号来计算的(方法和补充图13)。 所有单模态CIS都表现出可观察到的细胞类型特异性,其中转录CIS和染色质环CIS处于同一水平,而ATAC相关的CIS则相对较低。 值得注意的是,尽管转录CIS和染色质环CIS仅存在微小差异,但它们在23个细胞群体中的信号模式在视觉上是不同的,这表明染色质接触可能为细胞身份提供了一种与基因表达略有独立的视角。 此外,将染色质环特异性与基于ATAC的开放染色质特异性相结合,统称为三维表观基因组特异性,显著增强了个体CIS(图2d,e)。 例如,在OPC、髓鞘形成少突胶质细胞(MFOL)和成熟少突胶质细胞(MOL)中,复合三维表观基因组CIS(分别为4.04、12.18和6.4 0)明显高于转录CIS(分别为2.17、2.38和3.56)。 综上所述,我们的结果表明,三维表观基因组景观比基因转录更能提供对细胞身份的更稳健区分。 Cell-type-specific enhancers of brain cells 脑细胞的细胞类型特异性增强子
Para_01 在大脑中鉴定细胞类型特异性增强子对于功能神经科学研究和治疗开发具有巨大价值。 通过ChAIR-ATAC和ChAIR-PET数据的组合定义的3D表观基因组景观极大地促进了与脑细胞中特定标记基因相关的细胞类型特异性增强子的鉴定。 通过应用严格的筛选标准对与标记基因相关的一组大量远端CRE候选物进行分析(方法),我们鉴定了562个细胞类型特异性增强子(补充表3),并系统地分析了它们的特征(扩展数据图5)。 其中一个例子涉及12个显著的增强子,这些增强子专门与Cbln1启动子相连(图2f和补充图14),该基因编码小脑蛋白-1,这对于小脑颗粒细胞(CBGRC)的突触完整性和可塑性至关重要。 另一个例子是与Etv1相连的增强子(图2g)。Etv1已知在调控CBGRC终末成熟过程中神经活动依赖的基因调节中起关键作用。 有趣的是,其中一个增强子通过LacZ报告基因实验在小鼠胚胎中得到验证,显示出在小鼠后脑中的特异性。 其他例子包括Epha4、Gabra6和其他几个基因的增强子,并显示在补充图15中。 此外,最近的一项研究报道了Epha4特异性的启动子-增强子相互作用,其中GAGE-seq数据(单细胞RNA测序+单细胞Hi-C)必须结合外部的单细胞ATAC测序数据来辅助检测这种连接。 相比之下,三组学的ChAIR数据直接检测到了这种相互作用,突显了其在鉴定细胞类型特异性增强子方面的优势。 有趣的是,Gabra6特异性的增强子具有年龄特异性,在成年后才出现(P95–P730),这与老年小鼠中Gabra6表达的增加相吻合。 因此,通过ChAIR数据鉴定的小鼠脑细胞的细胞类型特异性增强子代表了一种有价值的资源,可用于进一步探索。 Megacontacts associated with nuclear properties of different brain cells 与不同脑细胞核特性相关的巨型联系
Para_01 认识到超长距离的巨型接触(>2 Mb)在揭示小鼠和人类大脑中细胞类型特异性的基因组折叠图谱中的潜在意义,我们系统地研究了巨型接触如何影响成年小鼠(P95)后分裂期脑细胞中的全局染色质可及性、转录活性和基因组折叠密度。 我们选择了17种代表ExNs、InhNs和非神经元细胞主要细胞群的细胞类型,并且这些细胞有足够的ChAIR数据以进行深入分析。 总体而言,ExNs的巨型接触比例最低(25–30%),其中CBGRC是一个异常值。 InhNs的比例略高,而非神经元细胞,尤其是MOL和MGL,具有最高的比例(图2h)。 短距离接触(20 kb到1 Mb)与全局染色质可及性增加、更高的转录活性和较低的基因组折叠密度相关。 相反,较高的巨型接触比例与全局染色质可及性降低、转录活性减少和基因组折叠密度增加相关(图2h),这与之前的研究一致。 我们的观察表明,增加的巨型接触与基因组压缩和转录减少有关。 重要的是,估计的基因组折叠密度与巨型接触比例密切相关(图2h,i)。 总体而言,除了CBGRC之外,神经元表现出较低的巨型接触比例、较高的染色质可及性和较高的转录活性,相较于非神经元细胞。 Para_02 然后我们研究了通过测序数据揭示的基因组构型是否能反映细胞核体积。 为了探索这一点,我们将基于测序的发现与基于成像的测量结果进行了比较。 值得注意的是,以前的小鼠大脑显微镜数据显示,MOL 和 CBGRC 的细胞核尺寸比齿状回颗粒细胞(DGGRC)更小,这表明基因组压缩程度较高的细胞往往具有较小的细胞核体积,反之亦然。 这一结论进一步得到了最近的顺序 DNA/RNA 荧光原位杂交结果的支持。 令人信服的是,我们利用基于测序的 ChAIR 数据,在不同脑细胞中建立了细胞核体积、全局转录活性和染色质可及性之间的强巨接触相关性。 这一发现得到了多种基于成像的测量结果的验证。 Spatially resolved 3D epigenomic specificity 空间分辨的三维表观基因组特异性
Para_01 尽管ChAIR能够有效生成三组学单细胞数据,但它缺乏空间分辨率。 为了解决这个问题,我们使用ChAIR-RNA数据作为桥梁,将ChAIR数据与成年小鼠脑切片的空间转录组数据(Stereo-seq)进行了整合。 我们通过高特异性将Stereo-seq数据中的20个解剖区域与ChAIR-RNA数据定义的19种细胞类型进行了关联。 这种ChAIR-Stereo数据对齐通过评估在Allen Brain Atlas(atlas.brain-map.org)相邻组织切片的组织学染色中经典标记基因的空间分布进行了验证。 结果,这种整合为ChAIR数据提供了空间解析的细节,特别是将解剖特异性分配给了ChAIR-ATAC和ChAIR-PET数据中的相应三维表观基因组状态。 Fig. 3: Regional-specific 3D epigenomic features in mouse brain cells revealed by ChAIR.
- 图片说明
◉ 将 Stereo-seq(bin50)数据与 ChAIR-RNA 数据整合,将 Stereo-seq 定义的冠状半脑切片区域(左图)与 ChAIR 识别的相应细胞类型(右图)联系起来。◉ 特定细胞类型和位置的空间分布(第一列)以及来自 ChAIR 数据的标记基因转录信号强度(第二列)、标记基因相关染色质环(第三列)和三维表观基因组特征(第四列)。信号通过计算细胞类型特异性特征信号与所有细胞类型特异性特征总信号的比值进行归一化。提供了一个 CIS 来评估细胞类型特异性特征在区分不同细胞类型中的有效性。
Para_02 值得注意的是,如新皮层TEGLU细胞所示(图3b,第一列),染色质环和复合三维表观基因组特征的信号特异性显著高于由转录所代表的特征(图3b,第二至第四列,以及扩展数据图7e),这与我们早期在分析ChAIR数据时的观察结果一致(图2d,e)。 例如,TEGLU7(皮层第2/3层的特定细胞)的标记基因转录谱在皮层第2/3层和齿状回均表现出信号富集,而与标记基因相关的染色质环以及特别是三维表观基因组特征在皮层第2/3层表现出显著增强的信号强度和特异性,但在齿状回中则不明显。 同样的模式也在TEGLU4/8(第4层)和TEGLU2/3/10(第5/6层)中被观察到。 此外,齿状回DGGRC细胞的标记基因在齿状回中的表达信号略高于在皮层各层中的信号,而相关的染色质环和三维表观基因组特征则表现出对齿状回的高度特异性。 补充图16和17中还展示了与细胞类型特异性标记基因相关的三维表观基因组特征的其他示例和单细胞分辨率的浏览器视图。 Para_03 到目前为止,我们的结果表明,将空间转录组数据与ChAIR结合,使用ChAIR-RNA作为桥梁,可以为ChAIR数据中捕获的3D表观基因组状态提供空间分辨率。 此外,我们观察到与标记基因相关的3D表观基因组特征特异性增强,这为3D基因组折叠、表观基因组状态和基因转录之间存在紧密联系提供了有力证据。 Concerted interplays between 3D epigenome and transcription during brain cell differentiation 脑细胞分化过程中三维表观基因组与转录之间的协同作用
Para_01 研究表明,小鼠脑细胞在神经元发育过程中转录和基因组结构会发生显著变化。 然而,我们之前大部分的知识都是基于将不相关的单细胞单模态数据集 与先验假设结合的研究得出的。 在此,我们利用单细胞三组学 ChAIR 数据,研究不同细胞谱系中转录组、染色质可及性和三维基因组结构的同时关系。 错误!!! cannot unpack non-iterable NoneType object
Fig. 4: Chromatin architecture reorganization during cell differentiation.
- 图片说明
◉ OPCs 和 Oligos 的染色质接触距离的光谱。顶部:按 megacontacts 的范围从最小到最大排序的单个细胞(垂直线,n = 23,904)。底部:OPCs 及其亚型 Oligo 与染色质接触距离排序的协调性。接触频率被归一化为 0–1。◉ b,ChAIR 数据的 UMAP 图(从左到右):从 OPCs 到 Oligos 的细胞谱系轨迹、RNA 假时间、megacontact 假时间、OPC 特异性 Pdgfra 表达、MOL1 特异性 Mal 表达以及年龄点的细胞分布。◉ c,OPC 和 MOL1 亚群的重建 3D 基因组模型 的示例视图。特定标记基因和染色体的核位置被标明。嵌入球的大小反映了基因表达的相对水平。◉ d,在过渡过程中单个细胞中基因表达(RNA)、启动子染色质可及性(ATAC)和染色质连接性(PET)的归一化信号(比例范围从 0 到 1)。虚线表示从 OPC 到 MOL 的转折点。细胞按照 megacontacts 的范围从低到高排序,与 a 中相同。◉ e,齿状回中神经母细胞 DGNBL1/2 到 DGGRC1/2(n = 8417)的染色质接触距离(顶部)和细胞组成(底部)的光谱。接触频率被归一化为 0–1。◉ f,从 DGNBL1/2 到 DGGRC1/2 分化轨迹的 ChAIR 数据的 UMAP 图(从左到右)、RNA 假时间和 megacontact 假时间。◉ g,从 DGNBL1、DGNBL2 和 DGGRC2 亚群重建的核架构的 3D 模型 。特定标记基因的核位置被标明。嵌入球的大小反映了基因表达的相对水平。◉ h,单个细胞中基因表达(RNA)、启动子染色质可及性(ATAC)和染色质连接性(PET)的归一化信号(比例范围从 0 到 1)。细胞按照 megacontacts 的范围从低到高排序,与 e 中相同。◉ 来源 数据
Para_03 接下来,我们试图研究从OPC到MOL分化过程中基因转录、表观基因组状态和3D基因组折叠之间的相互作用。 具体来说,我们测量了MOL特异性标记基因(n = 50)的表达(补充表4),基因启动子区域的ChAIR-ATAC信号,以及沿着分化轨迹和megacontact伪时间与标记基因相关的染色质相互作用(图4d)。 结果表明,三种模式都从相同的起点开始稳步增加,最终达到平台期。 值得注意的是,在OPC向MOL过渡的时刻,ChAIR-PET信号高于ChAIR-ATAC和ChAIR-RNA信号,这表明MOL特异性的染色质相互作用是在启动子开放和MOL特异性转录激活之前建立的。 Para_04 除了非神经元细胞,我们还分析了齿状回中ExNs的megacontacts,追踪它们从神经母细胞(DGNBL1/2)分化为成熟颗粒细胞(DGGRC1/2)的过程。 有趣的是,大多数DGNBL1细胞的染色质接触主要表现出高水平的megacontacts,而DGNBL2位于中间位置,DGGRC1/2则主要表现出短程接触(图4e),这与非神经元细胞在OPC到MOL分化过程中观察到的模式相反。 我们通过证明RNA和megacontact伪时间之间的高相关性来验证这一轨迹(图4f)。 三维建模结果进一步显示,具有较高megacontact比例的DGNBL表现出更紧密的基因组结构。相比之下,主要表现出短程接触的DGGRC细胞显示出更松散的基因组构象,表明核尺寸更大(图4g)。 在DGNBL分化为DGGRC的阶段,与DGGRC特异性基因相关的染色质相互作用显示出比标记基因启动子可及性和基因表达更高的信号水平(n = 51)(图4h),这与OPC到MOL分化中的观察结果相似。 我们还将对megacontact动态的研究扩展到了小脑(CB)中从CBNBL到CBGRC的细胞分化,以及嗅球(OB)中从OBNBL到OBINH的分化(扩展数据图8)。 Para_05 我们发现,位于不同脑区的神经元在分化过程中似乎表现出相同的染色质重塑模式,从祖细胞中的主要大范围接触逐渐转变为成熟神经元中的大部分短距离接触。 值得注意的是,神经元和非神经元细胞似乎具有不同的基因组特性,并似乎采用不同的基因组机制来调控其分化并支持其多样化的功能。 Chromatin rewiring and transcriptional changes across the lifespan 生命周期中染色质的重新配置和转录变化
Para_01 脑细胞功能随年龄增长而下降,这有助于退行性神经元疾病的发展。 大多数研究集中在孤立的脑区,缺乏全脑视角。 利用来自 整个小鼠大脑的ChAIR数据,我们探讨了细胞组成在生命过程中的动态变化。 值得注意的是,神经元和非神经元细胞的前体细胞在生命早期更为丰富,而成熟的兴奋性神经元(ExNs)逐渐比成熟的抑制性神经元(InhNs)更占优势(图5a)。 此外,细胞组成的动态变化也发生在不同的脑区,其中最显著的变化出现在端脑(TE)和小脑(CB)的兴奋性神经元中。 令人惊讶的是,我们在P2的小脑兴奋性神经元仅占所有兴奋性神经元的10%,但这一比例在P11时迅速增加到40%,最终超过80%,使其在生命后期成为主要的兴奋性神经元。 相反,在TE中的兴奋性神经元从P2的50%以上持续下降至成年(P95)和老年小鼠中的25%以下(图5b,左图)。 相反,所有抑制性神经元的比例保持相对稳定(图5b,右图)。 这种来自 TE和CB的兴奋性神经元的剧烈变化可能暗示了大脑发育和衰老过程中重要的结构和功能转变。 Fig. 5: The remodeling of chromatin folding in mouse brain cells throughout the lifespan.
- 图片说明
◉ a,b, 从婴儿期(P2/P11)到成年期(P95)和老年期(P365 和 P730)的成熟和衰老过程中,主要脑细胞类群及其祖细胞的细胞组成动态变化。不同年龄点的主要脑细胞类型的细胞组成(a)以及来自 不同解剖区域的 ExNs(左)和 InhNs(右)在不同年龄点的细胞组成(b)。mExN,成熟兴奋性神经元;ExNBL,兴奋性神经母细胞;mInhN,成熟抑制性神经元;InhNBL,抑制性神经母细胞;Ast,星形胶质细胞;VAS,血管细胞;OB,嗅球;DE,间脑;DG,齿状回;HB,后脑(桥脑和延髓);ME,中脑。◉ c, 不同细胞在五个年龄点的染色质接触距离谱(顶部)以及 A/B 相区和 TAD 信号的综合强度(底部)。线条通过广义线性模型 进行平滑处理,阴影表示置信区间。◉ d, 来自 TEGLU(顶部)和 CBGRC(底部)细胞的 ChAIR-PET 数据伪批量分析得到的二维接触热图和特征向量图示例。Ank1(1)和 Zmat4(2)基因位点在框内标出。◉ e, 单细胞浏览器视图显示了具有 ChAIR-PET 数据连接 A–A(顶部)和 B–B(底部)相区的个体 CBGRC 细胞,覆盖婴儿期(P2/P11)、成年期(P95)和老年期(P365 和 P730)阶段。中间:也提供了特征向量值作为参考。每个年龄点上具有相区间接触的细胞数量(按每个年龄点总细胞数归一化)已提供。值得注意的是,在 Zmnt4 所在区域发生了从 A 相到 B 相的转变。
Para_02 我们随后检查了小鼠脑细胞在五个年龄点的染色质接触分布。 尽管成熟神经元和非神经元细胞在P95时通常分别表现出主要的短程接触和巨接触(图2h,i),但在婴儿期(P2/P11)它们主要表现出短程接触。 然而,随着时间推移,它们都显著增加了巨接触。 相反,InhNs在长时间内保持短程接触(图5c和补充图19a–c)。 进一步分析显示,ExNs中染色质接触范围的变化特异性地发生在CB中,而TE中的变化则保持不变。 值得注意的是,尽管转录组在P95后稳定下来,但随着年龄增长,巨接触有所增加(补充图19d–f),这表明巨接触形成与CBGRC的衰老之间存在强相关性。 这表明,即使没有转录变化,染色质折叠仍会随着衰老继续重塑,这与最近关于人类CBGRCs的报告一致。 在非神经元细胞中,只有Oligos从早期生命的主要短程接触转变为后期阶段的巨接触(图5c)。 相反,OPCs始终表现出短程接触,而血管细胞和MGLs则长期保持稳定的巨接触(补充图19a–c)。 额外分析显示,以短程接触为主的细胞与活跃转录呈正相关,与反式接触呈负相关,而具有广泛巨接触的细胞则呈现相反趋势(补充图19g),这与我们之前对巨接触的研究结果一致。 Para_03 为了更详细地表征与接触距离相关的染色质构象变化,我们使用来自 不同细胞组的ChAIR-PET数据检查了染色质区室、拓扑关联结构域(TADs)和环(Fig. 5d)。 例如,TEGLU(TE中的ExN)在衰老过程中保持了短程染色质接触和稳定的TAD结构,而CB中的CBGRC则从短程染色质接触转变为巨接触,并从以TAD为主的状态转变为以区室为主的状态,呈现出清晰的格子状模式。 我们的研究结果表明,短程染色质接触通常与TAD结构占主导地位相关,而巨接触则与大脑细胞老化时的区域化程度增加有关。 更具体地说,来自 大脑皮层的ExN的染色质构象表现出一致的TAD和区室信号,而小脑ExN则表现出随时间推移从以TAD为主的状态向区域化程度增加的状态显著转变(补充图20和21)。 此外,我们的三维建模结果显示,TEGLU的基因组折叠密度始终低于CBGRC,并且核体积更大。 此外,尽管TEGLU的基因组折叠密度和转录活性保持不变,但在衰老过程中,CBGRC的基因组折叠密度逐渐增加,同时伴随转录活性的降低(扩展数据图9)。 Megacontact is a reliable indicator of aging Megacontact 是衰老的可靠指标
Para_01 受基因组中巨接触比例在生命周期中随细胞群体变化的观察启发,我们研究了它们与日历年龄的相关性。 值得注意的是,CB中的ExNs(CBGRC)和InhNs(CBINH)以及非神经元ACMB显示巨接触与日历年龄之间存在显著正相关,这一结果进一步通过使用SCALE模型 45进行的转录组年龄分析得到支持(图6a–c)。 其他细胞群体中也观察到了类似趋势(补充图22)。 总体而言,分析的45个细胞群体中有80%(36个)显示巨接触与日历年龄和转录组年龄之间存在正相关,其中大多数(29个)表现出显著的正相关(皮尔逊相关系数>0.5)(图6d)。 显示出负相关的细胞中,大多数是前体细胞,如CBNBL、OBNBL和OPC,以及胆碱能神经元,如HBCHO和TECHO,这可能是因为它们在生命早期更为常见。 有趣的是,两种新皮层神经元(TEGLU和TEINH)未显示出与衰老相关的改变,而许多其他神经元,主要是进化上较古老的区域的神经元(例如嗅球、间脑、齿状回、中脑、后脑和CB)则与衰老有很强的相关性。 这种差异可能表明,与衰老相关的巨接触动态可能更与古老的大脑结构相关,而不是新皮层。 Fig. 6: Chromatin megacontacts in brain cells as a marker of aging.
- 图片说明
◉ a–c,单细胞巨接触分析的示例视图,检查巨接触比率(Mega,蓝色)与年龄(CA,紫色)和转录组年龄(TA,橙色)之间的相关性,分别在CBGRC(a)、CBINH(b)和ACMB(c)中(顶部)。细胞按巨接触比率从低到高排序。展示了巨接触比率、年龄和转录组年龄信号的拟合曲线(底部)。还提供了单细胞的数量。◉ d,45个细胞群中巨接触比率、年龄和转录组年龄之间的皮尔逊相关性。阴影区域表示巨接触比率与年龄和转录组年龄之间相关性有限的数据点(从+0.5到-0.5)。◉ e,图5d中CBGRC特异性ChAIR-PET数据的二维接触热图的放大视图,显示了Ank1(绿色点1)所在的扩展区室A,以及随着年龄增长,Zmat4(绿色点2)周围TAD结构的解体和从A区室到B区室的转变。每个年龄点的CBGRC细胞数量也提供了。◉ f,CBGRC单细胞的ChAIR-PET数据的单细胞浏览器视图,以及Ank1(顶部)和Zmat4(底部)在婴儿期(P2/P11)、成年期(P95)和老年期(P365和P730)的整合ChAIR-RNA数据的基因表达情况。提供了表现出与所研究基因相关的三种ChAIR数据模式的细胞数量(通过每个年龄点调查的相同数量的细胞随机抽样进行归一化)。◉ g,一个广义模型 ,描述了染色质折叠特征(包括短程接触和超长巨接触)在不同小鼠脑细胞中的作用以及在分化和衰老过程中的作用。面板g使用BioRender.com创建。来源 数据
Para_02 接下来,我们试图探索调控本研究中鉴定的与衰老相关基因的潜在3D表观基因组框架(补充表5)。 一般来说,3D表观基因组状态与与衰老相关基因的转录活性高度相关。 例如,Ank1是一种CBGRC特异性基因,编码锚蛋白-1,这对于维持细胞稳定性至关重要,在五个年龄点中一直处于活跃区室中,成熟后其TAD结构扩展并形成明显的条带,尤其是在衰老的CBGRC中(图6e)。 同时,Ank1的表达和启动子相关的染色质接触随着时间的推移稳步增加(图6f,顶部)。 相反,附近的Zmat4基因,已知在阿尔茨海默病中起作用,从生命早期的区室A(活跃)转变为后期的区室B(抑制)。 这一转变伴随着TAD结构的解体、启动子相关的染色质相互作用的丧失以及表达水平的降低(图6f,底部)。 这些染色质构象变化表明了高等级染色质景观和局部染色质相互作用的变化可能通过调节基因表达来影响衰老过程的基因组机制。 总体而言,我们的结果表明,megacontact比率的动态变化可以作为监测细胞衰老进程的指标。 Discussion Para_01 在本文中,我们介绍了ChAIR,这是一种三组学单细胞方法,可以同时绘制染色质可及性、染色质相互作用和转录图谱。 我们展示了其在细胞系和原代小鼠脑细胞中的应用,以研究细胞生长、分化成熟和衰老过程中三维基因组折叠、表观基因组状态和转录调控的同步动态。 Para_02 ChAIR 在多个方面相比当前的双组学单细胞方法具有独特的技术优势。 除了三组学特性外,ChAIR 特异性地富集开放染色质位点之间的染色质相互作用,从而有助于识别可及区域中的顺式调控元件,并捕获参与活跃转录的染色质相互作用。 此外,从 ChAIR-PET 和 ChAIR-ATAC 数据中整合的三维表观基因组特征与标记基因相关,提高了定义细胞特异性的能力。 此外,ChAIR 的高通量能力使得能够分析复杂组织中的广泛细胞类型。 此外,通过 ChAIR-RNA 将 ChAIR 数据与空间转录组数据整合,为 ChAIR 数据增加了解剖特异性。 Para_03 当前ChAIR版本的一个技术限制是每个细胞的染色质接触数量相对较少,这主要是因为它专注于开放染色质区域(约占基因组的1–5%)。 然而,与活跃转录相关的以基因为中心的ChAIR-PET数据增强了区分不同细胞类型的能力。 此外,ChAIR的高通量能力通过合并相似细胞进行伪批量分析来弥补每个细胞接触数量较少的问题。 随着进一步改进,我们设想ChAIR可能能够同时针对开放染色质和异染色质,并对每个区域具有特异性,从而实现更全面的基因组覆盖。 Para_04 应用ChAIR,我们解决了转录调控中的长期问题,特别是基因组结构与基因转录之间的因果关系。 最近的功能扰动实验耗尽了黏连蛋白,这削弱了全局基因组折叠结构,但对转录的影响很小,这引发了关于基因组结构如何影响转录的问题。 我们的单细胞三组学ChAIR数据提供了证据,支持细胞生长和分化过程中转录激活的时间性和因果机制。 这一过程始于基因启动子与远端调控元件之间的染色质相互作用,随后是启动子区域的染色质开放,最终导致基因转录的激活。 Para_05 我们还发现,短程和超长程染色质接触的相对丰度与核和细胞特性高度相关。 基因组中megacontacts的比例可作为不同细胞类型和发育阶段基因组状态的有效指标(图6g)。 在小鼠脑细胞中,神经元倾向于具有较低的megancontact比例、较大的核体积、增加的染色质可及性和较高的转录活性,而非神经元细胞则表现出相反的模式。 这种差异表明,神经元和非神经元细胞可能采用不同的机械基因组机制来组织其核结构并调控基因组功能,最终塑造其独特的细胞特性。 此外,大多数脑细胞中的megacontacts含量显著增加,这与细胞衰老期间转录活性的降低有关,使其成为衰老的潜在标志。 Methods Cell culture 细胞培养
Para_01 K562细胞在含10%胎牛血清的RPMI-164 0培养基(ThermoFisher)中培养。 Patski细胞是从携带HprtBM3突变的BL6雌性小鼠与Mus spretus雄性小鼠交配的胚胎肾脏中分离出的成纤维细胞。 这些细胞在HAT培养基中进行筛选,以确保BL6的X染色体始终处于失活状态。 Patski细胞在含10%胎牛血清(Gibco)和1%青霉素-链霉素的Dulbecco改良Eagle培养基中培养。 所有细胞均在37°C和5% CO2条件下培养。 Animals 动物
Para_01 P2、P11、P95(n = 2)、P365(n = 2)和P730的C57BL/6J小鼠购自上海斯莱克实验动物有限公司。 动物房的温度控制在18–23 °C,湿度为40–60%,并保持12–12小时的光照-黑暗周期。 所有实验程序均经浙江大学动物护理和使用委员会批准。 小鼠全脑被解剖后立即在液氮中冷冻,并保存在−80 °C。 ChIATAC (bulk cell) ChIATAC(批量细胞)
Para_01 使用50,000个FA-EGS交联的K562和Patski细胞按照已建立的方案制备了ChIATAC文库。 ChIATAC文库通过Illumina NovaSeq 6000进行双端测序(2 × 150 bp)。 , ChAIR 椅子
Para_01 总共使用了50,000至300,000个FA-EGS交联的细胞或细胞核作为ChAIR测定的起始材料(有关更多细节,请参见补充信息)。 细胞首先在4°C下用100 μl 0.1% SDS FA缓冲液(50 mM HEPES-KOH,pH 7.5,150 mM NaCl,1 mM EDTA缓冲液,1% Triton X-100,0.1%去氧胆酸钠,0.1% SDS)裂解1小时(细胞核省略此步骤)。 细胞/细胞核在4°C下以600g离心5分钟,然后在室温下用10 μl 0.1% SDS渗透处理2小时。 通过加入2.5 μl 20% Triton X-100并37°C孵育20分钟来终止反应。 随后,通过添加2 μl AluI/1 μl AluI + 1 μl HpyCH4V、5 μl 10× Cutsmart缓冲液(NEB; B7204S)、25.5 μl双蒸水(ddH2O),在37°C下对细胞/细胞核进行原位消化至少2小时或过夜,使用的限制性内切酶为AluI(NEB; R0137L)或AluI + HpyCH4V(NEB; R0620L)。 限制性内切酶消化后的染色质DNA通过0.6 μl 1 mM dATP、1 μl Klenow片段(3′ → 5′ exo-)(NEB; M0212M)和1 μl重组白蛋白(2 mg ml−1)(NEB; B9200S)在37°C下进行A末端修饰1小时。 通过在65°C下孵育20分钟终止反应。 然后通过添加20 μl 5× Quick Ligation Buffer(NEB; B6058S)、1 μl T4 DNA连接酶(NEB; M0202L)、3 μl(2 ng μl−1)桥接接头(正链:5′-/5Phos/CGTGATATT/iBIOdT/CACGACTCT-3′;反链:5ʹ-/5Phos/GAGTCGTGAAATATCACGT-3′)和23.4 μl ddH2O,在室温下至少孵育4小时或在16°C下过夜进行原位连接。 细胞在4°C下以500g离心5分钟,并用ATAC-RSB缓冲液(含RNase抑制剂)洗涤一次(10 mM Tris–HCl pH 7.4,10 mM NaCl,3 mM MgCl2,0.1% Tween-20,1% BSA)。 细胞/细胞核在4°C下以500g离心5分钟,然后用1×重悬缓冲液重悬,该缓冲液由10x Genomics提供。 细胞/细胞核随后被超声处理1秒以分散细胞团块。 经过20-μm pluriStrainer过滤去除聚集体后,对细胞/细胞核进行计数以确认其浓度。 接下来,样品在37°C下进行标签化处理1小时,并按照制造商的说明加载到10x Genomics Chromium控制器中,使用Chromium Next GEM Single Cell Multiome ATAC + Gene Expression Reagent Kits(10x Genomics; 1000283)。 在乳液破裂后,向混合物中加入10 μl蛋白酶K(ThermoFisher; AM2548),并在65°C下孵育2小时以去除交联。 核酸回收后,使用M280磁珠纯化生物素化的双链DNA,上清液用于纯化互补DNA。 从捕获的mRNA生成的双链DNA和cDNA均用于构建ChAIR-DNA和ChAIR-RNA文库。 这些文库按照制造商的指南进行制备和测序。 测序读段通过bcl2fastq转换为FASTQ格式并进行去多重分析。 Nuclei isolation 核分离
Para_01 用于小鼠大脑ChAIR数据的细胞核是根据Corces等人的方法51进行分离的,但进行了修改。 简要来说,脑组织在液氮环境中被剪碎以保持组织完整性,然后在室温下用2%甲醛固定20分钟。 交联后的组织通过机械破碎(通过Dounce匀浆)和随后的密度梯度离心进行细胞核分离。 分离出的细胞核在室温下用2 mM乙二醇双(琥珀酰亚胺基琥珀酸酯)进一步交联45分钟,并储存在−80 °C。 ChAIR data processing ChAIR数据处理
Para_01 本研究中,hg38 和 mm10 被用作参考基因组。 ChAIR-RNA 数据通过 10x Cell Ranger 进行处理,生成 RNA 计数矩阵,每一行代表一个细胞,每一列代表一个基因。 同时,ChAIR-DNA 数据通过我们内部的管道 ChAIR-PIPE 进行处理,该工具可在 https://github .com/fengchuiguo1994/ChAIR-PIPE 获取。 ChAIR-PIPE 从 ChAIR 的 DNA 测序数据的批量处理开始,通过 ChIA-PIPE52 进行处理,包括连接子修剪和比对等步骤。 随后,使用来自 10x Cell Ranger ARC 的细胞条形码为每个读段添加单细胞标识符。 基于比对坐标和细胞条形码进行去重。 对于 ChAIR-ATAC 数据,通过 MACS2(参考文献 53)从集成数据中调用峰。 ChAIR-ATAC 信息被整理成片段矩阵,每一行代表一个细胞,每一列代表一个峰。 对于 ChAIR-PET 数据,每个 PET 读段被识别,并生成一个接触矩阵,每一行代表一个细胞,列中包含总 PET 数和染色体内 PET 数,并根据指定的接触距离区间进行分类:1–20 kb、20 kb 到 1 Mb、1–2 Mb 以及超过 20 Mb。 计算染色体内 PET 在总数中的百分比,作为总体文库质量评估的指标。 RNA 计数矩阵和 DNA 片段矩阵分别作为 Seurat54 和 Signac55 进一步分析的输入。 在物种混合实验中,如果来自 ChAIR-RNA、ChAIR-ATAC 和 ChAIR-PET 数据的映射读段中,少于 80% 被归因于 hg38 或 mm10,则将细胞识别为双胞胎。 Para_02 我们使用了以下细胞调用的截止值: [ol]- 1. K562: nCount_RNA >500, nCount_ATAC >200, mitochondrial percentage (percent.mt) <20% and ribosomal RNA percentage (percent.ribo) <50%. - 2. Patski: nCount_RNA >1,200, nCount_ATAC> 1,200, percent.mt <20% and percent.ribo <50%. - 3. Mouse brain P2, P11: nCount_RNA >800, nCount_ATAC >600, percent.mt <20% and percent.ribo <50%. - 4. Mouse brain P95, P365 and P730: nCount_RNA >200, nCount_ATAC >100, percent.mt <20% and percent.ribo <50%. - 5. The potential doublet cells were identified by DoubletFinder56 with parameters (pN = 0.25, pK = 0.09, nExp = 0.054, PCs = 1:30) and removed from downstream analysis.
ChAIR data visualization ChAIR数据可视化
Para_01 ChAIR数据可视化工具ChAIR-Viewer是在内部开发的,可在https://github.com/fengchuiguo1994/ChAIR-Viewer获取。 ChAIR-viewer能够将集成的ChAIR-PET、ChAIR-ATAC和ChAIR-RNA数据与ChromHMM状态和基因注释轨道一起进行可视化。 ChAIR-PET、ChAIR-ATAC和ChAIR-RNA数据的单细胞可视化也可以通过四种可视化模式实现。 [ol]- 1. ALL mode: display unselected DNA, RNA and PET signals within a specified region, providing a holistic overview of genomic activity. - 2. CLEAN mode: focus on displaying all RNA, ATAC and a subset of PET signals related to the promoter region (TSS ± 5 kb), for a more targeted visualization. - 3. GENE mode: focus on showing a subset of RNA and ATAC and PET signals only associated to a specific gene, offering a gene-centric view of genomic interactions. - 4. REGION mode: display all PET signals for a predefined list of regions within a specific area, filtering out unrelated PET signals, which is useful for focused studies on specified genomic locations.
Normalization for interaction frequency of chromatin loops defined by ChAIR-PET data 基于ChAIR-PET数据的染色质环相互作用频率的归一化方法
Para_01 对于集成的ChAIR-PET数据,我们识别出至少有三个PET支持且由ChAIR-ATAC峰支持的显著染色质环。 为了考虑测序深度进行归一化,我们应用了VC_sqrt方法,基于ChAIR-PET环集数据对染色质环进行归一化,考虑测序深度,使用公式 Para_02 其中,n 表示每个环的相互作用频率(PET 计数),x 表示与环锚点 1 相关的堆积读数计数,y 表示与环锚点 2 相关的读数计数。 Reproducibility assessment 可重复性评估
Para_01 deepTools57 中的 'multiBigwigSummary' 函数用于评估 ensemble ChAIR-RNA(bin 大小为 10 kb)和 ChAIR-ATAC(bin 大小为 10 kb)数据中的读数相关性。 对于 ensemble ChAIR-PET 数据,我们使用 HiCRep58 计算了数据集 之间的分层调整相关系数(bin 大小为 50 kb,hsmooth = 5,dBPMax = 2,500,000)。 Bulk RNA-seq, ATAC-seq and ChIATAC data processing 批量RNA测序、ATAC测序和ChIATAC数据处理
Para_01 原始测序数据通过FastQC进行评估,低质量数据和接头序列通过Trimmomatic去除。 修剪后的数据通过HISAT2对RNA-seq数据进行比对,通过BWA对ATAC-seq数据进行比对。 ChIATAC数据使用ChIA-PIPE进行处理。 MACS2用于调用峰,MACS2输出的峰强度通过‘-SPMR’选项(每百万读数信号)进行归一化。 显著的环结构首先通过ChIASig调用,要求PET≥3(PET距离>8 kb)且假发现率(FDR)<0.05。 通过锚点支持进一步筛选环结构;仅保留两个锚点均被峰支持的显著环结构。 Benchmark analysis 基准分析
Para_01 为了将ChAIR与已发表的多组学(scRNA-seq + scATAC-seq)方法进行比较,从ISSAAC-seq6的源数据中选取了来自 相同细胞(K562)的scRNA-seq和scATAC-seq数据集 。 dsciATAC25数据从GSM3507342下载。sci-Hi-C21数据从GSE84920下载。 Aggregate analysis of ChAIR-ATAC signal at peaks and TSS loci ChAIR-ATAC信号在峰值和TSS位点的汇总分析
Para_01 为了评估集合ChAIR-ATAC数据中开放染色质位点(±3 kb)和TSS位点的ATAC信号及相关方法,ChAIR-ATAC峰位点和TSS区域按照强度从高到低排序,并将这些位点作为参考,与所有其他数据集 也按强度从高到低进行匹配。 Aggregate compartment and TAD analysis 聚类区室和TAD分析
Para_01 使用 cooltools63 和 HiCExplorer64 分别计算了特征向量值(bin 大小为 100 kb)和绝缘分数(bin 大小为 25 kb)。 使用 cooltools 中的 'saddle' 函数进行了聚合区室分析。 区室强度根据之前的研究定义,并归一化到从 -1 到 1 的范围。 TAD 的聚合信号是基于中心 4 × 4 像素区域的平均信号值(代表聚合的 TAD 信号)与接触热图右上角 15 × 15 像素区域的平均信号值(作为背景噪声)的比值来量化。 Aggregate chromatin loop analysis 染色质环分析
Para_01 我们在Patski细胞和小鼠大脑的细胞群标记基因(log2倍数变化>0.5)中鉴定了与S期和G2/M期标记基因相关的染色质内环(PET≥3,VC_sqrt_score≥0.001)。 对于一个锚点与标记基因启动子重叠的染色质环,我们检查了在VCSQRT归一化的二维接触热图(5 kb分箱大小)中的聚集信号,使用FAN -C66中的‘aggregate’功能。 为了评估180×180像素矩阵内TSS-增强子相互作用的强度,我们计算了中心4×4像素区域(代表TSS-增强子相互作用)的平均信号与位于右上角的57×57像素背景区域的平均信号的比值。 ChromHMM analysis ChromHMM 分析
Para_01 人类K562细胞和小鼠脑细胞的染色质状态分别从GSM936088和https://github.com/gireeshogu/chromatin_states_chromHMM_mm9下载。 使用LiftOver将染色质状态的坐标转换到K562的hg38和小鼠脑细胞的mm10。 染色质状态的富集度通过以下公式计算。 Para_02 其中,n 表示一种染色质状态中的峰的数量,N 表示所有峰的总数,l 表示一种染色质状态的总长度,L 表示所有染色质状态的总长度。 Haplotype analysis 单倍型分析
Para_01 小鼠品系 C57BL/6J 和 SPRET/EiJ 的 SNP 信息来自 小鼠基因组网站 (https://ftp.ebi.ac.uk/pub/databases/mousegenomes/REL-1505-SNPs_Indels/strain_specific_vcfs/)。 所有杂合 SNP 均被去除,两个品系之间碱基不同的 SNP 被定义为单倍型 SNP。 与单倍型 SNP 不重叠的 ChAIR 序列被去除。 包含超过 80% 特异性于任一品系的单倍型 SNP 的序列被分配到其对应的品系来源 。 Cell-cycle phasing by chromatin contact 染色质接触的细胞周期阶段划分
Para_01 K562和Patski细胞根据染色质接触情况被分为不同的细胞周期阶段,方法参考了之前的研究。 简而言之,细胞根据近接触(所有有效区间中38–89 区间的接触)比例和有丝分裂接触(所有有效区间中90–109区间的接触)比例被分为五个细胞周期组。 然后根据近接触比例对细胞进行排序:后M期(≥30%有丝分裂接触且≤50%近接触),G1期(≤63%近接触),早到中S期(>63%到≤78.5%近接触),中S期到G2期(>78.5%近接触)以及前M期(>50%近接触且近接触比例 + 1.8 × 有丝分裂比例 > 100%)。 Cell-cycle pseudotime analysis 细胞周期伪时间分析
Para_01 为了通过基因表达数据探索K562和Patski细胞的细胞周期动态,我们首先根据Seurat细胞周期教程中的方法(https://satijalab.org/seurat/articles/cell_cycle_vignette.html)为每个细胞分配了细胞周期评分。 然后,我们进行了PCA分析,并在PCA空间中使用前两个主成分确定了每个细胞周期阶段(G1、S和G2/M)的中心点。 在我们的计算中,我们将细胞周期阶段的中心点定义为 Para_02 其中xi表示细胞i的PC1,yi表示细胞i的PC2,n表示特定细胞周期阶段中的细胞数量。 Para_03 此外,我们计算了给定细胞(例如,S细胞)到其前一细胞周期阶段(例如,G1)质心的欧几里得距离,并将其与到后一细胞周期阶段(例如,G2/M)质心的距离进行比较,以确定差异距离(DD),如下所示 Para_04 其中{xlater, ylater"}表示后续细胞周期阶段的中心点,{xpre, ypre"}表示前一个细胞周期阶段的中心点。 Para_05 这些细胞随后根据其DD值进行排序,按每个阶段从高到低排列。 DD值较高的细胞更靠近前一阶段,而DD值较低的细胞则更接近后续阶段,这表明它们在细胞周期中的进展。 对于元细胞分析,我们从同一阶段中汇集单个细胞,从最低排名到最高排名,以形成元细胞,每个元细胞包含100万个PETs。 Three-dimensional genome modeling 三维基因组建模
Para_01 我们把Patski细胞不同周期阶段的细胞以及各种类型的小鼠脑细胞分组成元细胞,每个元细胞包含一百万个PET,以使用dip-c包22进行单倍型反转的3D建模。 对于小鼠脑数据集 ,我们使用nuc_dynamics67版本:1.3(参数:' -m 5 -f n3d -s 8.0 4.0 2.0 0.4 0.2 0.1 ')重建3D基因组结构,并生成五个重复结构。 输出格式为'3D基因组'格式(制表符分隔:染色体名称、基因组坐标(bp)、x、y、z),因为原始PDB格式不支持超过99,999个原子。 每个重复结构都从不同的初始坐标开始,并涉及多次随机采样。 那些接触较少的粒子,如着丝粒和异染色质重复序列,被从最终的3D结构中移除。 对于每个粒子,记录在0.5 Mb范围内的接触数量,并移除所有粒子中底部6%的粒子。 在移除重复区域后,从重复结构中提取共享的基因组粒子,并使用Kabsch算法逐对进行对齐。 我们使用dip-c包22将'3D基因组'转换为mmCIF格式,以便在PyMol中进行可视化(加载前运行'set connect_mode, 4')。 Para_02 使用连续片段对染色质体积进行了估算,采用类似于先前工作19的惯性椭球拟合方法。 利用协方差矩阵特征值的平方根来估计椭球的半轴。 然后我们使用公式 V = 4/3πabc,其中 a、b 和 c 表示椭球的半轴长度,以计算椭球体积。 在此,我们使用拟合的惯性椭球体积而不是半轴比值,因为我们的重点在于评估内部紧密度,而不是评估染色体的伸长。 最终使用的指标是体积估算,这是通过高斯核密度估计实现的。 该方法涉及通过求和所有超过指定截止值的模型 珠子的高斯密度来计算染色体占据的体积。 这些计算是通过 Chimera 软件68 的 'molmap' 命令完成的,参数为 'resolution=3' 和 'cutoffRange=5'。 染色体密度根据公式 d = n/V 计算,其中 d 表示密度估计值,n 是染色体的碱基对大小,V 是从多元核密度估计器中得出的体积。 这种密度测量与通过椭球方法和回转半径获得的体积估计成反比,并且与这些方法高度一致。 它以碱基对或结构所占据体积内的聚合物珠子数量来量化染色质浓度。 Para_03 为了提供更多的细节,我们分析了Patski细胞中X染色体的活性(chrXa)和非活性拷贝(chrXi),研究了chrXa和chrXi之间的基因组折叠密度、体积和回转半径的相关性。 先前的研究表明,两条X染色体(活性与非活性)表现出不同的紧密程度,且chrXi已被证明比其活性拷贝更紧密(约1.2倍)。 我们的表征结果显示,与chrXi相比,chrXa具有较低的染色质密度、较大的体积和更大的回转半径,并且这些模式在整个细胞周期中保持不变(补充图8a–c),正如预期的那样。 这一结果验证了我们使用基因组折叠密度和体积来估计染色质紧缩的方法的准确性。 Diffusion-based CTG enhancement 基于扩散的CTG增强
Para_01 为了增强Patski元细胞的细胞周期分析,我们采用了CTG方法71,这是一种基于扩散的方法,默认参数在1 M分辨率下进行。 CTG将Hi-C接触矩阵转换为CTG距离矩阵,短的CTG距离表示在物理空间中接近,反之亦然。 Unsupervised cell clustering, annotation and trajectory inference 无监督细胞聚类、注释和轨迹推断
Para_01 ChAIR-RNA 数据的维度首先通过 PCA(30 个组件)进行降维,然后通过统一流形近似和投影(UMAP)进行处理,接着使用 Seurat 进行 Louvain 聚类。 我们应用 Harmony72 来整合不同年龄点的小鼠脑细胞的 ChAIR-RNA 数据,以减轻批次效应。 Para_02 为了标注细胞,我们将ChAIR-RNA与已发表的单细胞RNA测序小鼠大脑数据(http://www.mousebrain.org/adolescent/downloads.html)进行了整合。 然后我们使用Seurat v4中的‘FindTransferAnchors’和‘TransferData’函数对细胞进行注释。 随后我们使用Seurat v4中的‘FindAllMarkers’函数识别细胞类型标记基因。 细胞数量少于100个的细胞类型被从后续分析中移除。 Para_03 发育轨迹是通过特定细胞群的UMAP学习得到的,并根据https://cole-trapnell-lab.github.io/monocle3/docs/trajectories/提供的示例,使用Monocle3中的‘learn_graph’和‘order_cells’函数构建的。 Dimensionality reduction analysis for gene-centric ChAIR-PET data 基因中心ChAIR-PET数据的降维分析
Para_01 使用所有PET进行降维分析是通过BandNorm74完成的。 然后我们考虑了ChAIR-PET数据的基因中心特性,并基于与启动子和基因体相关的调整后的基因中心PET计数进行了降维分析。 每个细胞中每个活跃基因的PET计数通过标准化基因表达进行调整,如下所示 Para_02 其中,RNA 是基因的归一化独特分子标识符(UMI)计数,RNAmin 是所有细胞中归一化的 UMI 非零最小值。PET_count 是启动子区域(TSS ± 3 kb)和基因体中的 PET 计数。 Para_03 所有PETs和调整后的基因中心PET的维度首先通过PCA(30个组件)进行降低,然后使用Seurat进行UMAP处理。 CIS analysis CIS 分析
Para_01 当前单细胞数据中的细胞类型注释几乎完全依赖于scRNA-seq数据。 为了使用多组学数据全面界定细胞身份,我们通过额外的基因组特征对细胞进行了表征。 基于标记基因(log2倍数变化>0.5),我们在每个ChAIR-RNA定义的细胞群体中提取了与标记基因相关的3D表观基因组特征,包括启动子相关的染色质接触数据(染色体内PETs≥3,VC_sqrt_score≥0.001且距离<2 Mb)、与基因体(编码区)重叠的ATAC信号、以及连接到标记基因启动子的远端增强子。 因此,分析的特征包括以下内容: [ol]- (1) Transcription (T) - (2) Gene body ATAC signal (A) - (3) Promoter ATAC signal (P) - (4) Enhancer ATAC signal (E) - (5) Marker gene-associated promoter–enhancer loops (L)
Para_02 然后我们关注了45个细胞群体中的23个,这些细胞群体具有足够的数据来进行匹配特征的定量分析。 为了评估每种基因组特征在细胞身份特异性方面的效力,我们设计了一个CIS来评估区分不同细胞群体的关键细胞特征的独特性。 首先,我们为每个单模态特征和多模态特征生成了归一化的细胞群特异性特征信号矩阵(NFM)。 细胞群特异性特征信号相对于所有细胞群特异性特征的总信号进行了归一化。 我们使用以下公式生成单模态(例如,T)NFM。 Para_03 为了生成多模态特征(例如,L × A × P × E)的NFM,我们使用了公式 Para_04 其中,'mn' 中的 m 表示矩阵的行,每一行对应来自 23 个细胞群之一的信号,n 表示矩阵的列,每一列对应与细胞身份相关的特定特征。 例如,Tmn 表示标记基因表达矩阵中的第 m 行第 n 列。i 表示矩阵的第 i 行,因此 i 表示矩阵的第 i 行第 n 列。 Para_05 为了衡量个体细胞群特异性特征的区分能力,我们使用NFM和以下公式计算了个体CIS Para_06 为了衡量所有细胞群特异性特征的区分能力,我们使用公式评估了每种细胞类型的独特信号(由NFM的对角线元素反映)与一般背景(由非对角线元素表示)之间的差异 Para_07 其中,'mn' 中的 m 表示矩阵的行,每一行对应来自 23 个细胞群之一的信号,n 表示矩阵的列,每一列对应与细胞身份相关的特定特征。 例如,NFMmn 表示 NFM 的第 m 行第 n 列。ij 表示矩阵的第 i 行第 j 列。 Para_08 每种单模态基因组特征可能有其自身的CIS值,单模态特征可以整合以通过乘以前述特征的信号生成复合3D表观基因组特征(即L × A,L × P,L × E,L × A × E,L × P × E,L × A × P × E),如补充图13b,c所示。 Cell-type-specific enhancer identification 细胞类型特异性增强子的鉴定
Para_01 为了鉴定小鼠脑细胞中转录激活的潜在细胞类型特异性增强子,我们检查了23个数据充分的细胞组。 我们首先通过利用2 Mb范围内的染色体内相互作用,识别出细胞特异性峰,并将其连接到目标基因,要求至少有三个PET支持的启动子-增强子相互作用并有ATAC峰支持。 结果,我们鉴定了562个高质量的增强子位点,这些位点表现出高度的细胞类型特异性(扩展数据图5a)。 总体而言,该集合中的大多数细胞类型特异性CRE位于基因组的非编码区域:约58%位于远端基因间区,17%位于内含子,18%位于其他基因的启动子区域,仅有5%位于外显子(扩展数据图5b)。 ChromHMM分析进一步表明,这些位点与转录活跃状态相关,其中强增强子的富集程度最高(扩展数据图5c;详见扩展数据图5d–j以获取更多细节)。 Signal enhancement by HICSR 通过HICSR进行信号增强
Para_01 由于某些细胞类型在小鼠脑数据集 中的可用读数相对较少,难以准确识别和可视化关键的3D基因组特征,因此我们使用HiCSR75这一基于深度学习 的框架生成了原始接触图的增强版本,该框架旨在当测序深度有限时计算增强Hi-C接触信号。 Para_02 具体而言,从多分辨率的cool文件(.mcool)中提取了不同分辨率下的原始接触图(10、25、50、100、250和500 kb以及1 Mb)。 然后,使用以下公式对每条染色体的这些接触信号进行归一化处理,使其范围为[−1, 1]。 Para_03 其中, 表示染色体 c 的原始接触矩阵, 表示转换后的矩阵。 Data availability Para_01 本研究中生成的所有数据集 ,包括ChAIR和ChIATAC数据,已提交至国家基因组科学数据中心 的基因组序列档案库,存取编号为PRJCA024774。 本研究中使用的组织学染色结果可从Allen脑图谱(atlas.brain-map.org)获取。 本文附有原始数据。 Code availability Para_01 处理ChAIR数据的流程(ChAIR-PIPE)可通过GitHub获取,地址为https://github.com/fengchuiguo1994/ChAIR-PIPE。 ChAIR数据可视化工具ChAIR-Viewer可通过GitHub获取,地址为https://github.com/fengchuiguo1994/ChAIR-Viewer。