Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CUT&Tag 数据处理和分析教程(7)

CUT&Tag 数据处理和分析教程(7)

作者头像
数据科学工厂
发布于 2025-04-23 03:20:56
发布于 2025-04-23 03:20:56
7800
代码可运行
举报
运行总次数:0
代码可运行

过滤

某些项目可能需要对比对质量分数进行更严格的过滤。本文细讨论了bowtie如何分配质量分数,并举例说明。

MAPQ(x) = -10 * log10log10(P(x is mapped wrongly)) = -10 * log10(p)

其范围从0到37、40或42。

使用samtools view -q minQualityScore命令将剔除所有低于定义的minQualityScore的对齐结果。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
##== linux command ==##
minQualityScore=2
samtools view -q $minQualityScore ${projPath}/alignment/sam/${histName}_bowtie2.sam >${projPath}/alignment/sam/${histName}_bowtie2.qualityScore$minQualityScore.sam

文件格式转换

本节是为峰值调用和可视化做准备所需的内容,其中需要进行一些过滤和文件格式转换。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
##== linux command ==##
## Filter and keep the mapped read pairs
samtools view -bS -F 0x04 $projPath/alignment/sam/${histName}_bowtie2.sam >$projPath/alignment/bam/${histName}_bowtie2.mapped.bam

## Convert into bed file format
bedtools bamtobed -i $projPath/alignment/bam/${histName}_bowtie2.mapped.bam -bedpe >$projPath/alignment/bed/${histName}_bowtie2.bed

## Keep the read pairs that are on the same chromosome and fragment length less than 1000bp.
awk '$1==$4 && $6-$2 < 1000 {print $0}' $projPath/alignment/bed/${histName}_bowtie2.bed >$projPath/alignment/bed/${histName}_bowtie2.clean.bed

## Only extract the fragment related columns
cut -f 1,2,6 $projPath/alignment/bed/${histName}_bowtie2.clean.bed | sort -k1,1 -k2,2n -k3,3n  >$projPath/alignment/bed/${histName}_bowtie2.fragments.bed

评估可重复性

为了研究重复样本之间以及不同条件下的可重复性,将基因组分成500 bp的片段,并计算每个片段中读取计数的log2转换值在重复数据集之间的皮尔逊相关性。多个重复样本和IgG对照数据集以层次聚类相关性矩阵的形式展示。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
##== linux command ==##
## We use the mid point of each fragment to infer which 500bp bins does this fragment belong to.
binLen=500
awk -v w=$binLen '{print $1, int(($2 + $3)/(2*w))*w + w/2}' $projPath/alignment/bed/${histName}_bowtie2.fragments.bed | sort -k1,1V -k2,2n | uniq -c | awk -v OFS="\t" '{print $2, $3, $1}' |  sort -k1,1V -k2,2n  >$projPath/alignment/bed/${histName}_bowtie2.fragmentsCount.bin$binLen.bed
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
##== R command ==##
reprod = c()
fragCount = NULL
for(hist in sampleList){

if(is.null(fragCount)){
    
    fragCount = read.table(paste0(projPath, "/alignment/bed/", hist, "_bowtie2.fragmentsCount.bin500.bed"), header = FALSE) 
    colnames(fragCount) = c("chrom", "bin", hist)

  }else{
    
    fragCountTmp = read.table(paste0(projPath, "/alignment/bed/", hist, "_bowtie2.fragmentsCount.bin500.bed"), header = FALSE)
    colnames(fragCountTmp) = c("chrom", "bin", hist)
    fragCount = full_join(fragCount, fragCountTmp, by = c("chrom", "bin"))
    
  }
}

M = cor(fragCount %>% select(-c("chrom", "bin")) %>% log2(), use = "complete.obs") 

corrplot(M, method = "color", outline = T, addgrid.col = "darkgray", order="hclust", addrect = 3, rect.col = "black", rect.lwd = 3,cl.pos = "b", tl.col = "indianred4", tl.cex = 1, cl.cex = 1, addCoef.col = "black", number.digits = 2, number.cex = 1, col = colorRampPalette(c("midnightblue","white","darkred"))(100))
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 冷冻工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CutRun and CutTag——Linux篇
Cut &Run 和 Cut & Tag的常规流程多数步骤是一致的,我的全部流程主要参考了三篇教程,在此致谢。
生信菜鸟团
2023/10/30
1.9K0
CutRun and CutTag——Linux篇
CUT&amp;Tag 数据处理和分析教程(6)
CUT&Tag 技术会在靠近固定酶的染色质颗粒两侧加上接头,不过染色质颗粒内部的标签化反应也有可能发生。所以,当 CUT&Tag 针对组蛋白修饰时,得到的主要是核小体长度(大约 180 bp)或其倍数的片段。而如果目标是转录因子,就会生成核小体大小的片段,同时混杂一些较短的片段,这些短片段分别来自旁边的核小体和转录因子结合的位置。此外,核小体表面的 DNA 也会被标签化。通过绘制片段长度分布图(精确到单个碱基对),可以观察到 10 bp 的锯齿形周期变化,这是成功的 CUT&Tag 实验的一个典型标志。
数据科学工厂
2025/04/13
840
CUT&amp;Tag 数据处理和分析教程(6)
数据分析-cuttag分析流程分享1-linux代码流程分析
老板最近比较痴迷于各种seq,由于俩师姐外加一师妹的chip-seq建库老不成功,于是改成了CUTTAG建库,其实读了文献,发现都是相似的原理,只不过是CUTTAG用的细胞起始量远低于chip-seq,同时用的酶不同,建库的时间相对少很多。具体可以参考一下这篇文献CUT&Tag for efficient epigenomic profiling of small samples and single cell(doi:10.1038/s41467-019-09982-5)。
小胡子刺猬的生信学习123
2022/04/03
7.9K1
数据分析-cuttag分析流程分享1-linux代码流程分析
CUT&Tag 数据处理和分析教程(3)
CUT&Tag 插入文库的构造,采用 Tn5 适配器和带有条形码的 PCR 引物,具体如下所示:
数据科学工厂
2025/03/14
1500
CUT&Tag 数据处理和分析教程(3)
CUT&amp;Tag 数据处理和分析教程(8)
SEACR(用于 CUT&RUN 的稀疏富集分析工具包)专为从染色质分析数据中识别峰值和富集区域而设计。这类数据通常背景信号极低(即某些区域完全没有读数覆盖),这在 CUT&Tag 染色质实验中尤为常见。 SEACR 以双末端测序生成的 bedGraph 文件为输入,将峰值定义为连续的碱基对覆盖区域,这些区域不会与 IgG 控制数据中标记的背景信号区域重叠。 SEACR 能有效识别转录因子结合位点形成的窄峰,以及某些组蛋白修饰特有的较宽广区域。由于已根据 大肠杆菌 读数对片段计数进行了归一化,因此在 SEACR 中将归一化选项设为“non”。如果未进行此类归一化,建议选择“norm”选项。
数据科学工厂
2025/04/30
1120
CUT&amp;Tag 数据处理和分析教程(8)
CUT&amp;Tag 数据处理和分析教程(9)
通常会使用基因组浏览器来查看特定区域的染色质景观。整合基因组查看器有两种版本:一个是网络应用程序版本,另一个是本地桌面版本,这两种版本都很容易操作。UCSC 基因组浏览器则提供了最为全面的基因组补充信息。
数据科学工厂
2025/05/10
980
CUT&amp;Tag 数据处理和分析教程(9)
CUT&amp;Tag 数据处理和分析教程(4)
本系列[1] 将开展全新的CUT&Tag 数据处理和分析专栏。想要获取更多教程内容或者生信分析服务可以添加文末的学习交流群或客服QQ:941844452。
数据科学工厂
2025/03/31
1100
CUT&amp;Tag 数据处理和分析教程(4)
数据分析-cuttag分析流程分享2-R代码可视化流程处理
在进行R语言的可视化的时候,建议也是把该用的包都提前安装上,这样可以省去后面报错的心累。
小胡子刺猬的生信学习123
2022/04/04
3.1K0
数据分析-cuttag分析流程分享2-R代码可视化流程处理
CUT&amp;Tag 分析教程 | 完结撒花
在高通量测序实验中,分析计数数据的方差与均值之间的关系,并利用负二项分布模型来检测基因表达的差异。
数据科学工厂
2025/05/15
1180
CUT&amp;Tag 分析教程 | 完结撒花
CUT&Tag 数据处理和分析教程(5)
CUT&Tag 技术会将接头序列插入到抗体连接的 pA-Tn5 附近的 DNA 中,而插入的具体位置会受到周围 DNA 可及性的影响。因此,那些起始和结束位置完全相同的片段是比较常见的,但这些所谓的“重复项”可能并不是由于 PCR 过程中的复制产生的。实际上,发现高质量的 CUT&Tag 数据集的表观重复率通常很低,即使是看起来像是“重复”的片段,也可能是真实的片段。因此,不建议删除这些重复项。不过,在实验样本量极少,或者怀疑存在 PCR 扩增重复的情况下,可以考虑删除重复项。以下命令展示了如何使用 Picard 来检查重复率。
数据科学工厂
2025/04/04
1580
CUT&Tag 数据处理和分析教程(5)
数据分析-cuttag分析流程分享3-个性化分析内容
在进行了前面两次的流程分析,目前已经得到了bedgarph文件和peak文件,需要在后面对peak文件进行相关的分析,主要有差异peak分析、peak的注释、注释基因的富集分析以及motif分析,我做了几次,发现里面的坑还是很多的。
小胡子刺猬的生信学习123
2022/04/06
5.7K6
数据分析-cuttag分析流程分享3-个性化分析内容
一个优秀的ATAC-seq数据分析资源实战(二)
之前我们给大家介绍了两篇ATAC-Seq数据分析pipeline的优秀综述:综述:ATAC-Seq 数据分析工具大全 和 Omni-ATAC:更新和优化的ATAC-seq协议(NatProtoc),我们今天就来实战介绍!
生信技能树
2025/02/28
2830
一个优秀的ATAC-seq数据分析资源实战(二)
给学徒ChIP-seq数据处理流程(附赠长达5小时的视频指导)
本次给学徒讲解的文章是 : Brookes, E. et al. Polycomb associates genome-wide with a specific RNA polymerase II variant, and regulates metabolic genes in ESCs. Cell Stem Cell 10, 157–170 (2012). 查看文章发现数据是: Polycomb associates genome-wide with a specific RNA polymerase
生信技能树
2018/09/21
12.8K1
给学徒ChIP-seq数据处理流程(附赠长达5小时的视频指导)
给学徒的ATAC-seq数据实战
本次给学徒讲解的文章是 :The landscape of accessible chromatin in mammalian preimplantation embryos. Nature 2016
生信技能树
2018/09/21
6.3K0
给学徒的ATAC-seq数据实战
一篇文章学会miRNA-seq分析
第一讲:文献选择与解读 前阵子逛BioStar论坛的时候看到了一个关于miRNA分析的问题,提问者从NCBI的SRA中下载文献提供的原始数据,然后处理的时候出现了问题。我看到他列出的数据来自iron torrent测序仪,而且我以前也没有做过miRNA-seq的数据分析, 就自学了一下。因为我有RNA-seq的基础,所以理解学习起来比较简单。 在这里记录自己的学习过程,希望对需要的朋友有帮助。 这里选择的文章是2014年发表的,作者用ET-1刺激human iPSCs (hiPSC-CMs) 细胞前后,观察
生信技能树
2018/03/08
16.1K0
一篇文章学会miRNA-seq分析
ATAC-seq或者ChIP-seq等表观测序数据处理服务
ATAC-seq或者ChIP-seq等表观测序数据,需要比对到参考基因组并且找其峰值(peaks)并且进行基因功能元件注释或者motif注释,我们仅仅是收取一个计算机资源的费用,800-1600元人民币(根据样品数量不同收费不一样)即可,并且提供全套代码。不管是公共数据集还是你自己的实验测序数据,一样的费用!我们会代替你跑如下所示的流程:
生信技能树
2021/10/21
1.9K0
ATAC-seq或者ChIP-seq等表观测序数据处理服务
给你bam文件,你会画插入片段长度分布图吗?
对于ATAC文库而言,其插入片段的长度分布有着非常典型的规律,示意如下 每200bp会存在一个峰,这个周期性波动反应的是核小体的个数。在ATAC_seq的数据分析中,会对插入片段长度分布进行可视化,观
生信修炼手册
2020/05/07
5.4K0
CUT&Tag 数据处理和分析教程(1)
在真核细胞的核里,DNA 上发生的所有动态活动,比如基因表达调控,都离不开一个由核小体(包括它们的化学修饰)、转录因子和相关蛋白复合物组成的染色质环境。不同的染色质特征会标记出激活或抑制基因表达的调控区域,以及那些在细胞类型间有差异、在发育过程中会变化的染色质区域。
数据科学工厂
2025/02/27
2500
CUT&Tag 数据处理和分析教程(1)
ATAC-seq实操
本实操完全学习了:给学徒的ATAC-seq数据实战(附上收费视频) 的代码及流程,首先致谢!
生信技能树
2018/11/05
7.2K2
Peaks 筛选过滤策略
ChIP-Seq 实验中,不同的 callpeak 策略和过滤选择能有多少影响呢?我们这里探索一下。
生信菜鸟团
2025/04/09
790
Peaks 筛选过滤策略
相关推荐
CutRun and CutTag——Linux篇
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验