ATAC-seq的学习有一段时间没有更新了,今天学习的文献为《Best practices for the ATAC-seq assay and its data analysis》,来自这里https://www.sciencedirect.com/science/article/abs/pii/B9780128172186000164,这篇文献解决了我之前做实战分析的时候的一些疑惑。下面看看里面的内容~
以核小体为其基本构建单元,真核生物的核DNA被分层包装成染色质,而基因组的不同区域则以不同程度被压缩。根据其紧密程度,染色质被分为两种主要的功能状态:包装较为松散、具有转录活性的常染色质,以及高度压缩、转录不活跃的异染色质。
常染色质区域中的一部分,由于缺乏组蛋白和其他与染色质相关的因子,因而能够被转录机制接近,这些区域被称为可接近染色质区域。尽管在任何特定细胞类型中,可接近染色质DNA仅占基因组的一小部分,但它包含了大多数基因调控元件,如启动子、增强子、绝缘子、沉默子和位点控制区,这些元件共同调控基因表达以维持细胞的身份和功能:
在真核细胞中,大约146个碱基对的DNA缠绕在一个组蛋白八聚体上,形成核小体核心颗粒(NCP)。相邻的核小体核心颗粒通过大约20-90个碱基对的连接DNA相连,形成核小体阵列,这些核小体阵列可以进一步卷曲并堆叠在一起,形成紧密包装的染色质。有些染色质区域包装较为松散,甚至根本没有被组蛋白八聚体占据,因此它们能够被转录机制接近。这些区域被称为“开放”染色质。大多数转录因子(TF)主要结合到没有核小体的DNA区域。然而,基因组的大部分区域以一种紧密包装的形式存在,这种形式被称为“闭合”染色质,甚至无法被接近。
这个图解决了我一直对无核小体区域的半解!非常清晰~
染色质可及性分析方法:
ATAC-seq的优势:
这个地方在前面也提到过,曾老板的B站视频:https://www.bilibili.com/video/BV1C7411C7ez 也讲解了:
如图13.2所示,这个图放大的部分显示了“标签化”(tagmentation)过程的细节、由此产生的特征性片段、读取覆盖范围以及核小体的占据情况。简版的操作步骤:
ATAC-seq已成功应用于多种细胞/组织类型,并针对不同物种定制了细胞核制备方案。此外,与其他ATAC-seq方案相比,Omni-ATAC[27]在显著提高细胞通透性的同时,极大地减少了线粒体DNA污染,并提高了信噪比。
图中缩写:nucleosome core particle (NCP),核小体核心颗粒。
这个图解决了我一直对无核小体区域,一个核小体区域,两个核小体区域的半解!非常清晰~
上次那个图在这里:在R语言中的 ATACseq 数据分析全流程实战(二)。根据原文中的方法,对无核小体(小于100bp)、单核小体(180bp-247bp)和双核小体(315bp-437bp)区域
https://pubmed.ncbi.nlm.nih.gov/24097267/#&gid=article-figures&pid=figure-2-uid-1
我当时的疑问:
尽管ATAC-seq实验方案已经很成熟,但缺乏标准化的生物信息学流程常常使ATAC-seq分析变得复杂。本章旨在描述设计和进行ATAC-seq实验的当前最佳实践,并推荐用于全面数据分析的生物信息学软件。这个部分的收获如下:
Tn5转座酶(Tnp)在转座位点切割双链DNA,并在5′端产生一个9个碱基的突出端,转座接头就附着在这个突出端上。因此,在进行峰值呼叫(peak calling)和转录因子足迹分析时,分别将映射到正链和负链的reads的坐标向右移动+4和向左移动-5,使得读取的起始位点对应于转座事件的中间位置[21,86]。
处于活跃或待启动状态的启动子的转录起始位点(TSSs)通常位于无核小体区域(NFRs)内,这些区域被定位良好的核小体所包围。因此,高质量的ATAC-seq数据应在TSSs周围显示出富集的信号。TSS富集分数以及显示NFRs片段分布和TSSs(TSS±1kb)周围单核小体结合片段分布的密度图可以作为重要的质量控制指标。
被非组蛋白(如转录因子)紧密占据的基因组区域在局部受到Tn5转座酶(Tnp)标签化(tagmentation)的保护。这种保护导致在高切割频率的开放染色质区域中出现特征性的切割频率降低的狭窄区域,通常被称为“足迹”。凭借高质量的ATAC-seq数据,人们应该能够检测到高亲和力DNA结合因子的足迹。因此,CTCF或其他稳定结合的转录因子(TFs)的聚合足迹也是一项有价值的指标,表明ATAC-seq数据的质量[65]。
这个软件在前面也有过介绍:在R语言中的 ATACseq 数据分析全流程实战(二),我后面还会再学习一下加强理解~
这个软件提供ATAC-seq特定的质量控制指标和可视化工具,例如:
这张图展示的是来自淋巴母细胞系GM12878(SRR891269)和小鼠肝脏样本(ENCSR609OHJ,两个重复)的ATAC-seq数据分别使用BWA-mem比对到人类和小鼠参考基因组。
使用ATACseqQC软件包进行比对后的质量控制。(A和C)分别显示数据集SRR891269和ENCSR609OHJ的插入片段大小分布的密度图。(B和D)分别显示数据集SRR891269和ENCSR609OHJ在转录起始位点(TSSs)周围的聚合信号、核小体自由信号和单核小体信号富集的热图。比较表明,前者的文库质量高于后者。
其他质量控制工具:
这里文章总结每一个步骤分析的各种方法:
1
这个文献真的一级棒,我的收获很大!