本文是来自Stanford Compression Workshop 2019的演讲,作者是来自斯坦福大学的博士毕业生,Shubham Chandak,他致力于基因组数据压缩和DNA存储方面的研究。本次演讲主要讲述了用于FASTQ数据的新一代压缩器SPRING。
Shubham首先介绍了基因组测序方面的工作,人体基因序列长度高达三十亿,并且由于序列长度过长,所以只能将其划分成许多片段进行存储,但是最基本的构成单元只有ACGT,所以每个基因序列片段中存在着大量的重复。此外,由于基因测序覆盖范围的逐步扩大和测序成本的迅速下降,产生了大量的基因序列数据。基于以上两个原因,Shubham提出了基因组数据压缩的必要性。
接着Shubham介绍了FASTQ格式数据具体的存储结构,并解释了存储原始数据的必要性。然后,他从读取压缩的角度了几种压缩工具的性能:未压缩的数据使用一个字节表示一个碱基,所以数据量非常大;gzip将其降低到使用2个字节表示一个碱基,但这仍不是最佳选择;Fastore压缩性能大大增强,可以将79G的原始数据压缩到20G;但SPRING相比于这些压缩器拥有更优越性的性能:压缩率相较于gzip提高了10倍,相较于Fastore提高了2-3倍。接下来Shubham介绍了SPRING压缩器的一些核心思想和压缩流程。
最后,Shubham介绍了SPRING作为一个实用压缩器的多种模式,它可以支持多种压缩模式,包括无损和有损压缩,保留配对的压缩,长读取访问和随机访问等。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有