好的书籍是人类进步的阶梯,但有些人却找不到优秀的阶梯,为此我们开设了书籍翻译这个栏目,作为你学习之路的指路明灯;分享国内外优秀书籍,弘扬分享精神,做一个知识的传播者。
希望大家能有所收获!
目录
⊙引言—关于课程
⊙scRNA-seq简介
⊙scRNA-seq原始数据的质控
⊙scRNA-seq数据处理—文件格式小结
⊙scRNA-seq数据处理—demultiplexing
正文
处理原始scRNA-seq数据
3.5
使用STAR比对reads
现在我们已经trim了我们的reads并确定它们质量很好,我们希望将它们比对(map)到参考基因组。此过程称为比对(alignment)。如果我们想要量化基因表达或找到在样品之间差异表达的基因,则通常需要某种形式的比对。
已经开发了许多用于read必对的工具,但今天我们将关注两个。我们将考虑的第一个工具是STAR。对于reads数据中的每个read,STAR试图找到可以与参考基因组中的一个或多个序列匹配的最长可能序列。例如,在下图中,我们有一个read(蓝色),它跨越两个外显子和一个可选的剪接点(紫色)。STAR发现read的第一部分与第一外显子的序列相同,而read的第二部分与第二外显子中的序列匹配。因为STAR能够以这种方式识别拼接事件,所以它被描述为“拼接感知(splice aware)”的比对器。
通常,STAR将read与参考基因组比对,可能导致其检测出新的剪接事件或染色体重排。然而,STAR的一个问题是它需要大量的RAM,特别是如果你的参考基因组很大(例如鼠和人类)。为了加速我们今天的分析,我们将使用STAR将reads与2000个转录本的参考转录组进行比对。请注意,这不是正常或推荐的做法,我们只是出于时间原因这里做。我们建议您通常应该与参考基因组比对。
执行STAR对齐需要两个步骤。在第一步中,用户向STAR提供参考基因组序列(FASTA)和注释(GTF),STAR用它来创建基因组索引。在第二步中,STAR将用户的reads数据比对到基因组索引。
我们现在创建索引。请记住,由于时间的原因,我们正在调整转录组而不是基因组,这意味着我们只需要向STAR提供我们将比对reads的转录组序列。您可以从Ensembl(https://www.ensembl.org/info/data/ftp/index.html)获取许多模型生物的转录组
任务1:执行以下命令创建索引:
mkdir indices
mkdir indices/STAR
STAR --runThreadN 4 --runMode genomeGenerate --genomeDir indices/STAR --genomeFastaFiles Share/2000_reference.transcripts.fa
任务2:我们使用的每个参数有什么作用?提示:使用STAR手册为您提供帮助(https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf)
任务3:如果我们比对时使用基因组而不是转录组,我们在任务1中使用的命令将如何不同?
现在我们已经创建了索引,我们可以执行比对步骤。
任务4:为了将我们的trim后的read(从ERR522959)比对到您创建的索引,尝试找出应该使用哪个命令。使用STAR手册来帮助您。你认为你知道答案,检查它是否与下一节中的答案匹配一致并执行比对。
任务5:尝试理解比对结果的输出结果。
3.5.1 STAR比对的答案
您可以使用以下命令执行比对:
mkdir results
mkdir results/STAR
STAR --runThreadN 4 --genomeDir indices/STAR --readFilesIn Share/ERR522959_1.fastq Share/ERR522959_2.fastq --outFileNamePrefix results/STAR/