现在NGS测序已经很便宜了,单测序一直以来都是按base数收费,导致目前Single End模式的测序提供商已很少出现,目前市场上大多都已是Pair End测序模式。
我们再来复习一下(illumina的文库结构吧)[
http://seqanswers.com/forums/showthread.php?t=198&highlight=GAIIx] 。在RNA-seq,miRNA-seq建库过程中,通常会有Reads测通,测到可能的3’end adapter序列,在这本人推荐(flexbar)[https://github.com/seqan/flexbar] 和(trimmomatic)[http://www.usadellab.org/cms/?page=trimmomatic] 两款软件。
然而有的时候,比如当我们用的是fastx-toolkit的fastx_clipper对read1 read2分别截取adapter处理的时候,有的read1/read2其中一条因为截取adapter序列之后 太短,或者这条序列的质量值过低而被整条过滤掉了,而另一条保留了。这种情况read1和read2的read 那么就不一一对应了。这时候 我推荐github上一个好用的工具,fastq_pair(https://github.com/linsalrob/fastq-pair)。他能将read1和read2中read name能配对上的成对的输出到两个文件,不能匹配上的输出到另外的 单端未匹配文件中。例如下面的例子将输出test_R1.fastq.paired.fq,test_R2.fastq.paired.fq,test_R1.fastq.single.fq,test_R2.fastq.single.fq。这样你后面的bwa/bowtie/tophat2/hisat2等都可顺利比对而不会报错了
领取专属 10元无门槛券
私享最新 技术干货