前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SPRING—用于FASTQ数据的下一代压缩器

SPRING—用于FASTQ数据的下一代压缩器

作者头像
用户1324186
发布于 2019-12-06 04:43:09
发布于 2019-12-06 04:43:09
8810
举报
文章被收录于专栏:媒矿工厂媒矿工厂

本文是来自Stanford Compression Workshop 2019的演讲,作者是来自斯坦福大学的博士毕业生,Shubham Chandak,他致力于基因组数据压缩和DNA存储方面的研究。本次演讲主要讲述了用于FASTQ数据的新一代压缩器SPRING。

Shubham首先介绍了基因组测序方面的工作,人体基因序列长度高达三十亿,并且由于序列长度过长,所以只能将其划分成许多片段进行存储,但是最基本的构成单元只有ACGT,所以每个基因序列片段中存在着大量的重复。此外,由于基因测序覆盖范围的逐步扩大和测序成本的迅速下降,产生了大量的基因序列数据。基于以上两个原因,Shubham提出了基因组数据压缩的必要性。

接着Shubham介绍了FASTQ格式数据具体的存储结构,并解释了存储原始数据的必要性。然后,他从读取压缩的角度了几种压缩工具的性能:未压缩的数据使用一个字节表示一个碱基,所以数据量非常大;gzip将其降低到使用2个字节表示一个碱基,但这仍不是最佳选择;Fastore压缩性能大大增强,可以将79G的原始数据压缩到20G;但SPRING相比于这些压缩器拥有更优越性的性能:压缩率相较于gzip提高了10倍,相较于Fastore提高了2-3倍。接下来Shubham介绍了SPRING压缩器的一些核心思想和压缩流程。

最后,Shubham介绍了SPRING作为一个实用压缩器的多种模式,它可以支持多种压缩模式,包括无损和有损压缩,保留配对的压缩,长读取访问和随机访问等。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档