介绍
本文介绍了如何使用Sentieon Genomics工具去除PCR重复序列。该步骤使用两个单独的命令来收集读段信息并执行去重操作。LocusCollector工具的选项--consensus用于控制是否输出PCR重复序列的共识结果。如果适用唯一分子标识符(UMI)标签,请使用LocusCollector的选项--umi_tag来启用基于分子条码的去重。
非共识的去重
通过非共识的去重方法,从一组重复读段中,选择一个代表性的读段作为主要读取。
非共识的去重(无UMI)
该工作流程与Picard MarkDuplicates的默认输出结果相匹配。
sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo Dedup [--rmdup] --score_info SCORE.gz \--metrics DEDUP_METRIC_TXT DEDUPED_BAM
有一种特殊的3次流程去重,可以标记主要读段和非主要读段。然而,这种流程仅适用于非共识的去重(无UMI)。
基于分子条码的非共识去重(带有UMI)
该工作流程利用UMI信息以及读段和读段对的5'位置来确定PCR重复序列。在LocusCollector中使用选项--umi_tag来指定UMI标签。
sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --umi_tag XR --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo Dedup [--rmdup] --score_info SCORE.gz \--metrics DEDUP_METRIC_TXT DEDUPED_BAM
基于共识的去重
通过基于共识的去重,可以从一组重复的读段中生成单个共识读段。该过程可以纠正PCR和测序引入的错误。它还可以估计每个位置的碱基质量分数,以反映共识读段中碱基错误的概率。在基于共识的去重之后,不应执行额外的碱基质量调整步骤。
在LocusCollector中设置选项--consensus以启用基于共识的去重功能。此外,Dedup需要提供参考基因组的FASTA文件。
不带有UMI的基于共识的去重
在没有UMI的情况下,此工作流程仅使用比对坐标来对测序读段进行聚类。
sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --consensus --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -r REFERENCE -i SORTED_BAM \ --algo Dedup [--rmdup] --score_info SCORE.gz \--metrics DEDUP_METRIC_TXT DEDUPED_BAM
基于UMI的共识去重
基于UMI的共识去重工作流程使用比对坐标和UMI(分子条码)来对测序读段进行聚类。
sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --consensus --umi_tag XR --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -r REFERENCE -i SORTED_BAM \ --algo Dedup [--rmdup] --score_info SCORE.gz \--metrics DEDUP_METRIC_TXT DEDUPED_BAM
(1)UMI条码错误纠正
UMI条码会根据与其他条码之间的编辑距离进行自动的错误纠正。若要禁用此功能,请在LocusCollector中使用选项--umi_ecc_dist 0。
(2)RNA序列数据
当使用STAR对RNA序列数据进行比对时,在LocusCollector中设置选项--rna。
sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --rna [--consensus] [--umi_tag XR] --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -r REFERENCE -i SORTED_BAM \--algo Dedup [--rmdup] --score_info SCORE.gz DEDUPED_BAM
领取专属 10元无门槛券
私享最新 技术干货