好的书籍是人类进步的阶梯,但有些人却找不到优秀的阶梯,为此我们开设了书籍翻译这个栏目,作为你学习之路的指路明灯;分享国内外优秀书籍,弘扬分享精神,做一个知识的传播者。
希望大家能有所收获!
目录
⊙引言—关于课程
⊙scRNA-seq简介
⊙scRNA-seq原始数据的质控
⊙scRNA-seq数据处理—文件格式小结
⊙scRNA-seq数据处理—demultiplexing
⊙scRNA-seq数据的处理—STAR
正文
处理原始scRNA-seq数据
3.6
Kallisto和伪比对
STAR是reads比对器,而Kallisto是伪比对器(Bray等人,2016)。比对器和伪比对器之间的主要区别在于,比对器将reads映射到参考,而伪比对器将k-mers映射到参考。
3.6.1 什么是K-mer?
k-mers是从reads得到的长度为k的序列。例如,假设我们读取序列为ATCCCGGGTTAT,我们想从中制作7-mer。为此,我们将通过计算读数的前七个碱基找到第一个7-mer。移动一个碱基后,我们会找到第二个7-mer,然后计算接下来的七个碱基。图2显示了可以从我们的阅读中得到的所有7-mers:
3.6.2 为什么要比对k-mers而不是reads?
主要有两个原因:
3.6.3 Kallisto的伪模式
Kallisto有一个专门设计的模式,用于从单细胞RNA-seq实验中进行伪比对reads。与STAR不同,Kallisto与参考转录组而不是参考基因组比对。这意味着Kallisto将reads比对到剪接isoform而不是基因。由于以下原因,对单细胞RNA-seq,将read比对到isoform而不是基因是有挑战性的:
Kallisto的伪模式采用略微不同的伪比对方法。Kallisto不是与isoform比对,而是与等价类(equivalence classes)比对。本质上,这意味着如果read比对到多个isoform,Kallisto将read记录为比对到一个包含所有此read比对到的isoform的等价类。不是在下游分析中使用基因或isoform表达估计,例如聚类,而是可以使用等价类计数。下图显示了一个有助于解释这一点的图表。
今天我们将只对一个细胞执行伪比对,但Kallisto还能够同时伪对齐多个细胞并使用来自UMI的信息。有关详细信息,请参阅https://pachterlab.github.io/kallisto/manual。
对于STAR,您需要在伪比对步骤之前为Kallisto生成索引。
任务6:使用以下命令生成Kallisto索引。使用Kallisto手册(https://pachterlab.github.io/kallisto/manual)找出此命令中的选项。
mkdir indices/Kallisto
kallisto index -i indices/Kallisto/transcripts.idx Share/2000_reference.transcripts.fa
任务7:使用Kallisto手册确定用于执行伪比对的命令。你认为你知道答案,检查它是否与下一节中的解决方案匹配并执行伪比对。
3.6.4 Kallisto伪比对的解决方案
使用以下命令执行伪比对
mkdir results/Kallisto
kallisto pseudo -i indices/Kallisto/transcripts.idx -o results/Kallisto -b batch.txt
有关创建batch.txt的说明,请参阅https://pachterlab.github.io/kallisto/manual,如果遇到问题,请咨询教师。
3.6.5 了解Kallisto伪比对的输出
上面的命令应该产生4个文件 - matrix.cells,matrix.ec,matrix.tsv和run_info.json。