本文是来自Stanford Compression Workshop 2019的演讲,作者是来自斯坦福大学的博士毕业生,Shubham Chandak,他致力于基因组数据压缩和DNA存储方面的研究。本次演讲主要讲述了用于FASTQ数据的新一代压缩器SPRING。
Shubham首先介绍了基因组测序方面的工作,人体基因序列长度高达三十亿,并且由于序列长度过长,所以只能将其划分成许多片段进行存储,但是最基本的构成单元只有ACGT,所以每个基因序列片段中存在着大量的重复。此外,由于基因测序覆盖范围的逐步扩大和测序成本的迅速下降,产生了大量的基因序列数据。基于以上两个原因,Shubham提出了基因组数据压缩的必要性。
接着Shubham介绍了FASTQ格式数据具体的存储结构,并解释了存储原始数据的必要性。然后,他从读取压缩的角度了几种压缩工具的性能:未压缩的数据使用一个字节表示一个碱基,所以数据量非常大;gzip将其降低到使用2个字节表示一个碱基,但这仍不是最佳选择;Fastore压缩性能大大增强,可以将79G的原始数据压缩到20G;但SPRING相比于这些压缩器拥有更优越性的性能:压缩率相较于gzip提高了10倍,相较于Fastore提高了2-3倍。接下来Shubham介绍了SPRING压缩器的一些核心思想和压缩流程。
最后,Shubham介绍了SPRING作为一个实用压缩器的多种模式,它可以支持多种压缩模式,包括无损和有损压缩,保留配对的压缩,长读取访问和随机访问等。