作者:Li Ke Zhao
数据降维(Data Reduction),也叫做数据缩减技术,是一系列降低数据存储空间技术的总称。通用的精简卷,传统RACE (Random Access Compression Engine)压缩卷技术也都包含在广义的Data Reduction的范畴之内。随着IBM Spectrum Virtualize 8.1.3 版本的发布,去重(Deduplicated)卷正式加入到了SVC产品系列中,至此Dedupe,Data Reduction Compression(8.1.2引入),UNMAP空间回收(Space Reclamation) 等新技术组成了新一代的Data Reduction解决方案。本文章着重介绍新一代的Data Reduction技术。
数据降维(Data Reduction)技术可以提高存储效率和性能,并极大地降低存储单位成本。它通过回收主机系统不再需要的存储空间,减少外部存储系统和内部驱动器上存储的数据量。它可以达到2~5倍的空间节省,这对于AFA用户来说非常重要,使他们能在享受高性能的存储同时极大的降低单位存储的成本。就拿Storwize AFA系列存储来讲,每GB的闪存价格可以控制在$0.5/GB到$0.3/GB之内。
在这里我们只介绍新一代的Data Reduction技术,也就是基于数据降维池(Data Reduction Pool, aka DRP)的数据降维。DRP支持SCSI UNAMP和空间回收(Space Reclamation)功能。如果数据删除,覆写或者被标记为可回收,主机会通过执行SCSI UNMAP命令来告诉存储来释放空间,这些称为可回收容量(Reclaimable capacity, 也叫做unmapped capacity)。可回收容量可以被其他卷继续使用,以达到节省空间的目的。除了空间的节省之外,UNMAP还可以节省很多存储系统的工作和负载,比如RAID Arrays在rebuild的时候,不需要重建unmapped capacity的空间,Flash drive可以提前对这些空间进行一些与擦除的操作等。另外,通过SVC等存储管理软件也可以直接向后端存储(后端存储需要支持UNMAP)发送UNMAP命令来删除或者回收数据。
DRP中的卷类型包含普通(Full Allocated)卷和精简(Thin-Provisioned)卷。压缩卷,去重卷以及去重压缩卷,都是建立在精简卷的基础之上的,关系如下图所示。目前IBM Virtualize产品线都已经支持Data Reduction和Dedupe功能(详细支持清单可参考文章尾附图)。
去重卷(Deduplication volume)是在IBM Spectrum Virtualize v8.1.3版本首次引入的。去重卷在精简卷或者压缩卷之上提供了额外的数据消除功能。在去重卷中,通过计算基于哈希算法的签名来识别数据。比如,在SVC中,当有新的数据需要写入,系统通过比较签名来判断数据是否为重复数据,如果已经存在相同的签名,那么即将写入的新数据是重复数据,可以写入一个指向数据位置的链接来代替写入,这样便达到了重复数据的在线实时删除。这样在线的实时数据删除技术极大的节省了时间和空间。
在处理签名比对的过程中,SVC通过一个数据库来储存签名与实际数据地址的映射,让查找和处理数据的速度更高效快捷。例如:有新的写操作需要处理,系统会先查找数据库中的签名,如找到则写入连接地址,如未找到,则数据写入存储,并更新签名。这个数据库的记录可以在整个DRP中所有的去重卷,和所有的包含去重卷的节点上共享。下图是去重的示意图
最后就是要回答如何迁移已有的客户数据到Data Reduction Pool的问题了。由于DRP与传统RACE压缩方法的不兼容,使得RACE压缩卷和DR压缩卷不可以共存在同一个Pool内,RACE压缩卷也不能和去重卷共存在一个IOGRP内(更多详细限制请参考附图)。要在线迁移数据,可以通过添加新的iogrp来完成,或者先将RACE压缩卷转换成普通精简卷,然后在使用以下添加副本的方式做迁移。通过副本迁移的大致做法都是在DRP中创建一个新的副本,等同步结束后移除原先的副本即可,具体步骤可参考https://www.ibm.com/support/knowledgecenter/ST3FR7_8.1.3/com.ibm.storwize.v7000.813.doc/svc_icmigratedataredtoreg.html,示意图可参考下图动画
附图:IBM 虚拟化产品线不同产品对去重卷的支持表格
领取专属 10元无门槛券
私享最新 技术干货