在前面学习 使用 大佬William J. Greenleaf团队开发的ArchR软件分析scATAC-seq数据时,发现他使用的输入数据跟 Signac 软件的输入数据不一样,使用的是名字为 fragments.tsv.gz的文件,下面看看这个文件的内容~
fragment 在 ArchR 软件页面中的定义如下:
参考:https://www.archrproject.com/bookdown/a-brief-primer-on-atac-seq-terminology.html
In ATAC-seq, a fragment refers to a sequenceable DNA molecule created by two transposition events. Each end of that fragment is sequenced using paired-end sequencing. The inferred single-base position of the start and end of the fragment is adjusted based on the insertion offset of Tn5.
in ArchR, “fragments” refers to a table or genomic ranges object containing the chromosome, offset-adjusted single-base chromosome start position, offset-adjusted single-base chromosome end position, and unique cellular barcode ID corresponding to each sequenced fragment.
在帖子:scATAC-seq分析之CellRanger-ATAC定量,我们跑完了上游,来看下 Cellranger ATAC 结果的输出!
具体的说明如下:https://www.10xgenomics.com/support/software/cell-ranger-atac/latest/analysis/outputs/understanding-output
outs/ 文件夹的内容如下,就包含 fragments.tsv.gz
和 fragments.tsv.gz.tbi
文件,所以,我们现在知道了这个结果来自Cellranger ATAC软件的运行结果!
analysis
cloupe.cloupe
cut_sites.bigwig
filtered_peak_bc_matrix
filtered_peak_bc_matrix.h5
filtered_tf_bc_matrix
filtered_tf_bc_matrix.h5
fragments.tsv.gz
fragments.tsv.gz.tbi
peak_annotation.tsv
peak_motif_mapping.bed
peaks.bed
possorted_bam.bam
possorted_bam.bam.bai
raw_peak_bc_matrix
raw_peak_bc_matrix.h5
singlecell.csv
summary.csv
summary.json
web_summary.html
再回顾一下 Signac 软件输入数据:
1.Peak/Cell matrix:矩阵的每一行代表基因组的一个区域(一个peak),该区域被预测为开放染色质的区域。矩阵中的每个值表示每个barcode(即一个细胞)映射到每个峰值内的Tn5整合位点的数量;
对应的文件为filtered_peak_bc_matrix
,也可以是 filtered_peak_bc_matrix.h5
:
filtered_peak_bc_matrix
├── barcodes.tsv
├── peaks.bed
└── matrix.mtx
2.singlecell.csv
3.fragments.tsv.gz
关于这个文件的说明,官方文档见:https://www.10xgenomics.com/support/software/cell-ranger-atac/latest/analysis/outputs/fragments-file,特点如下:
cellranger-atac count
命令生成,类似于BED格式的表格文件;看下标准的:
chr1 10073 10186 ACGGATTCATGCGACC-1 1
chr1 10085 10203 TAATCGGCATACTGCA-1 1
chr1 10091 10285 GGTGCTGAGTGATAAC-1 2
chr1 10120 10126 CACCTTGGTCGCTACG-1 1
chr1 10138 10273 CACAACACAGAAAGAG-1 1
chr1 10144 10216 GCTTAAGCATCAGAAA-1 1
chr1 10151 10180 ATCCAGAAGGATGTCG-1 1
chr1 10151 10190 CTTAATCTCCTCCAGT-1 5
chr1 10151 10191 GCACCTTTCCGGAAAG-1 2
chr1 10151 10192 TTGTTCAGTCCTCAGG-1 1
chr1 10151 10196 AACTGGTAGCTCCATA-1 2
chr1 10151 10202 TCAGTCCTCCAACCTC-1 3
chr1 10151 10210 TGACAACCAACGAGGT-1 5
chr1 10151 10216 TTGCGAAAGGTAGGCT-1 1
chr1 10155 10210 AACGAGGGTATCGCGC-1 2
chr1 10155 10210 TATTGCTCAGTCCTGG-1 1
chr1 10157 10190 CAGCTAAGTTTGCCCT-1 1
每一列的具体含义:
表头会使用 # 进行注释
片段的 BED 间隔是通过调整测序 read-pair 的BAM比对间隔获得的。间隔的起始位置从最左侧比对位置向前移动4个碱基对(bp),从最右侧比对位置向后移动5个碱基对。转座酶在两条DNA链上各切出一个9个碱基对的突出端,调整后的位置代表了这两个切口的中点。这个位置被记录为一个 cut site 切口位点,代表了一个染色质可及性事件。
通过调整测序读对的BAM比对间隔来获得片段的BED间隔。调整的目的是为了确定转座酶在DNA链上切割的中点位置,这个位置被记录为切口位点,用于表示染色质的可及性事件。
fragments.tsv.gz.tbi 文件是一个片段区间的 tabix 索引,便于从任意基因组区间随机访问记录。tabix 索引是通过使用 --preset=bed 创建的。
GSE173682数据中的 fragments.tsv.gz 内容如下:
# zless -S GSM5276944_3533EL_ATAC_fragments.tsv.gz
chr1 10157 10184 GCCAGACGTGTCCCAG-1 1
chr1 10345 10519 TGCTATTCAGGTCCTG-1 1
chr1 10594 11036 AGCTATGAGTGTCCCG-1 1
chr1 13292 13534 AGCCTCTGTGGGTAGT-1 1
chr1 13936 13998 CAATCCCAGACCTATC-1 2
chr1 13937 14003 GCGGTGTCATCCGTAA-1 1
chr1 13940 13998 ACTAACGTCGCTAGTA-1 2
chr1 13951 13997 ACCCAAACATCATAGC-1 1
chr1 13960 13993 GAATCTGAGTGAAGGA-1 3
chr1 13978 14009 CTCAACCAGATTAGAC-1 1
chr1 13978 14016 AACTGTGGTTTCCACC-1 1
chr1 15809 15922 TTAGCTTTCCAGGGAA-1 1
chr1 15895 16053 TTCTGTATCCTTCGAC-1 3
chr1 16091 16303 TTGCGGGAGGCAAGCT-1 5
chr1 16205 16241 ACCCAAAAGATCTAAG-1 1
chr1 16211 16272 TCAGGTACAGGCAAGT-1 2
chr1 16241 16339 ACCCAAAAGATCTAAG-1 1
chr1 17194 17521 CCAATGAGTTCATTTC-1 1
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有