前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >10X scATAC-seq的结果 fragment files 含义

10X scATAC-seq的结果 fragment files 含义

作者头像
生信技能树
发布于 2025-05-26 00:58:46
发布于 2025-05-26 00:58:46
11800
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

在前面学习 使用 大佬William J. Greenleaf团队开发的ArchR软件分析scATAC-seq数据时,发现他使用的输入数据跟 Signac 软件的输入数据不一样,使用的是名字为 fragments.tsv.gz的文件,下面看看这个文件的内容~

fragment 定义

fragment 在 ArchR 软件页面中的定义如下:

参考:https://www.archrproject.com/bookdown/a-brief-primer-on-atac-seq-terminology.html

In ATAC-seq, a fragment refers to a sequenceable DNA molecule created by two transposition events. Each end of that fragment is sequenced using paired-end sequencing. The inferred single-base position of the start and end of the fragment is adjusted based on the insertion offset of Tn5.

in ArchR, “fragments” refers to a table or genomic ranges object containing the chromosome, offset-adjusted single-base chromosome start position, offset-adjusted single-base chromosome end position, and unique cellular barcode ID corresponding to each sequenced fragment.

fragments.tsv.gz 如何生成

在帖子:scATAC-seq分析之CellRanger-ATAC定量,我们跑完了上游,来看下 Cellranger ATAC 结果的输出!

具体的说明如下:https://www.10xgenomics.com/support/software/cell-ranger-atac/latest/analysis/outputs/understanding-output

outs/ 文件夹的内容如下,就包含 fragments.tsv.gzfragments.tsv.gz.tbi文件,所以,我们现在知道了这个结果来自Cellranger ATAC软件的运行结果!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
analysis
cloupe.cloupe
cut_sites.bigwig
filtered_peak_bc_matrix
filtered_peak_bc_matrix.h5
filtered_tf_bc_matrix
filtered_tf_bc_matrix.h5
fragments.tsv.gz
fragments.tsv.gz.tbi
peak_annotation.tsv
peak_motif_mapping.bed
peaks.bed
possorted_bam.bam
possorted_bam.bam.bai
raw_peak_bc_matrix
raw_peak_bc_matrix.h5
singlecell.csv
summary.csv
summary.json
web_summary.html

再回顾一下 Signac 软件输入数据:

1.Peak/Cell matrix:矩阵的每一行代表基因组的一个区域(一个peak),该区域被预测为开放染色质的区域。矩阵中的每个值表示每个barcode(即一个细胞)映射到每个峰值内的Tn5整合位点的数量;

对应的文件为filtered_peak_bc_matrix,也可以是 filtered_peak_bc_matrix.h5

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
filtered_peak_bc_matrix
├── barcodes.tsv
├── peaks.bed
└── matrix.mtx

2.singlecell.csv

3.fragments.tsv.gz

fragments.tsv.gz 的内容

关于这个文件的说明,官方文档见:https://www.10xgenomics.com/support/software/cell-ranger-atac/latest/analysis/outputs/fragments-file,特点如下:

  • cellranger-atac count命令生成,类似于BED格式的表格文件
  • 每一行代表由该检测方法捕获的独特的ATAC-seq片段 fragment, tab键分割;
  • 每个 fragment 是由两个独立的转座事件创建的,这些事件形成了观察到的 fragment 的两端;
  • 每个独特的 fragment 可能会产生多个重复 reads,这些重复 reads 会被合并成一个单独的fragment 记录;
  • fragment 文件的的前三列定义与BED格式相同,因此在很多情况下可以将 fragment 文件视为BED文件;
  • 在 fragments.tsv.gz 文件中的位置,与 BED 文件中的位置一样,是以 0 为基准的。

看下标准的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
chr1    10073   10186   ACGGATTCATGCGACC-1      1
chr1    10085   10203   TAATCGGCATACTGCA-1      1
chr1    10091   10285   GGTGCTGAGTGATAAC-1      2
chr1    10120   10126   CACCTTGGTCGCTACG-1      1
chr1    10138   10273   CACAACACAGAAAGAG-1      1
chr1    10144   10216   GCTTAAGCATCAGAAA-1      1
chr1    10151   10180   ATCCAGAAGGATGTCG-1      1
chr1    10151   10190   CTTAATCTCCTCCAGT-1      5
chr1    10151   10191   GCACCTTTCCGGAAAG-1      2
chr1    10151   10192   TTGTTCAGTCCTCAGG-1      1
chr1    10151   10196   AACTGGTAGCTCCATA-1      2
chr1    10151   10202   TCAGTCCTCCAACCTC-1      3
chr1    10151   10210   TGACAACCAACGAGGT-1      5
chr1    10151   10216   TTGCGAAAGGTAGGCT-1      1
chr1    10155   10210   AACGAGGGTATCGCGC-1      2
chr1    10155   10210   TATTGCTCAGTCCTGG-1      1
chr1    10157   10190   CAGCTAAGTTTGCCCT-1      1

每一列的具体含义:

  • 第1列:chrom, fragment 的参考基因组染色体;
  • 第2列:chromStart,调整的 fragment 在染色体上的起始位置;
  • 第3列:chromEnd,染色体上 fragment 的调整后末端位置,末端位置是排他的;
  • 第4列:barcode,这个 fragment 的10x细胞条形码。这对应于该 fragment 对应BAM文件记录附加的CB标签;
  • 第5列:readSupport,与此fragment相关的reads对的总数,包括标记为唯一的reads对以及所有重复的reads;
  • 第6列:strand,使用R1 (+)和R2 (-)接头序列确定片的 fragment 起源。(这一列好像在上面的数据中没有看到)

表头会使用 # 进行注释

Fragment interval

片段的 BED 间隔是通过调整测序 read-pair 的BAM比对间隔获得的。间隔的起始位置从最左侧比对位置向前移动4个碱基对(bp),从最右侧比对位置向后移动5个碱基对。转座酶在两条DNA链上各切出一个9个碱基对的突出端,调整后的位置代表了这两个切口的中点。这个位置被记录为一个 cut site 切口位点,代表了一个染色质可及性事件。

通过调整测序读对的BAM比对间隔来获得片段的BED间隔。调整的目的是为了确定转座酶在DNA链上切割的中点位置,这个位置被记录为切口位点,用于表示染色质的可及性事件。

fragments.tsv.gz.tbi

fragments.tsv.gz.tbi 文件是一个片段区间的 tabix 索引,便于从任意基因组区间随机访问记录。tabix 索引是通过使用 --preset=bed 创建的。

实战数据GSE173682

GSE173682数据中的 fragments.tsv.gz 内容如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# zless -S GSM5276944_3533EL_ATAC_fragments.tsv.gz
chr1    10157   10184   GCCAGACGTGTCCCAG-1      1
chr1    10345   10519   TGCTATTCAGGTCCTG-1      1
chr1    10594   11036   AGCTATGAGTGTCCCG-1      1
chr1    13292   13534   AGCCTCTGTGGGTAGT-1      1
chr1    13936   13998   CAATCCCAGACCTATC-1      2
chr1    13937   14003   GCGGTGTCATCCGTAA-1      1
chr1    13940   13998   ACTAACGTCGCTAGTA-1      2
chr1    13951   13997   ACCCAAACATCATAGC-1      1
chr1    13960   13993   GAATCTGAGTGAAGGA-1      3
chr1    13978   14009   CTCAACCAGATTAGAC-1      1
chr1    13978   14016   AACTGTGGTTTCCACC-1      1
chr1    15809   15922   TTAGCTTTCCAGGGAA-1      1
chr1    15895   16053   TTCTGTATCCTTCGAC-1      3
chr1    16091   16303   TTGCGGGAGGCAAGCT-1      5
chr1    16205   16241   ACCCAAAAGATCTAAG-1      1
chr1    16211   16272   TCAGGTACAGGCAAGT-1      2
chr1    16241   16339   ACCCAAAAGATCTAAG-1      1
chr1    17194   17521   CCAATGAGTTCATTTC-1      1
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • fragment 定义
  • fragments.tsv.gz 如何生成
  • fragments.tsv.gz 的内容
  • Fragment interval
  • fragments.tsv.gz.tbi
  • 实战数据GSE173682
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档