数据压缩：AFA成本优化金钥匙

数据存储前沿技术

发布于 2025-10-09 10:40:23

990

全文概览

在当今高速发展的数字化时代，企业数据量呈爆炸式增长，对存储系统的性能和效率提出了前所未有的挑战。全闪存存储（AFA）以其卓越的IOPS和极低延迟，已成为高性能应用的首选。然而，仅仅追求原始性能就足够了吗？

随着闪存介质成本的居高不下，以及数据中心空间和能耗的日益紧张，如何以更低的成本存储更多数据，并延长昂贵闪存介质的使用寿命，成为了摆在所有技术决策者面前的难题。数据缩减技术，正是解决这些痛点的关键。它不再是可有可无的附加功能，而是决定企业存储系统总拥有成本（TCO）、物理足迹和介质耐久性的核心支柱。

以日立 Vantara VSP 5600 宣称的“高达 69PB 的裸闪存容量”和“4:1‘无形’数据缩减保证”为例，这些惊人的数字是如何实现的？现代高端存储系统究竟采用了哪些复杂而精密的工程技术，才能在不牺牲性能的前提下，将数据有效压缩和去重？本文将深入剖析支撑这些承诺背后的数据缩减技术，带您一探究竟。

阅读收获

掌握核心算法与应用场景： 理解哈夫曼编码、LZ77和LZW等无损压缩算法的原理及特性，明确它们在现代存储系统（尤其是全闪存阵列）中如何被选择和应用，以实现高效的数据缩减。
洞悉数据缩减的深层价值： 认识到数据缩减技术（包括重复数据删除、压缩、模式检测和数据压实）不仅能显著降低全闪存存储的TCO和物理空间占用，更能有效延长昂贵闪存介质的使用寿命，优化企业IT投资。
理解硬件加速的关键作用： 掌握在线数据缩减与后处理模式的性能权衡，并理解专用硬件加速器（如ASIC和FPGA）如何将计算密集型任务从主CPU卸载，确保在极致性能要求下实现高效数据缩减。
前瞻未来存储技术趋势： 了解Zstandard等新兴压缩算法、AI/ML赋能的智能自适应压缩策略，以及计算存储等革命性架构，为规划和部署下一代企业存储解决方案提供前瞻性视角。

引言

在全闪存存储时代，原始性能——以每秒输入/输出操作数（IOPS）和延迟来衡量——已成为基本配置。

另一项备受存储解决方案供应商关注的是-数据缩减技术。这项技术不再是可有可无的附加功能，而是决定企业存储系统总拥有成本（TCO）、物理足迹和耐久性的基础架构支柱。

以日立 Vantara VSP 5600 为例，其宣称的“高达 69PB 的裸闪存容量”和“4:1‘无形’数据缩减保证” 1，正是这一行业趋势的具体体现。这些引人注目的数字背后，是复杂而精密的工程实现。

本文将以这一具体产品为切入点，对支撑现代高端存储的数据缩减技术进行全面而深入的剖析。

本文将遵循以下路线图，系统性地探讨该主题：

解构数据压缩的核心算法基础。
分析为何数据缩减在全闪存时代不可或缺，并对比领先供应商的实现方案。
剖析数据缩减的性能影响以及硬件加速的关键作用。
探索从下一代算法到革命性存储架构的未来发展轨迹。

数据压缩的算法基础

要理解现代存储系统如何实现数据缩减，首先必须探究其核心——无损压缩算法。

这些算法构成了所有高级数据缩减技术的基础，其根本目标是在不丢失任何信息的前提下，用更少的数据位来表示相同的信息 3。

核心原理：无损冗余消除

所有用于主数据存储的压缩技术都必须是无损的，这意味着解压后的数据必须与原始数据逐位完全相同 3。无损压缩通过两种主要方式识别并消除数据中的冗余：统计冗余和序列冗余。

统计压缩：哈夫曼编码

哈夫曼编码（Huffman Coding）是一种经典的统计压缩技术，其核心思想是为数据中不同频率出现的符号（如字节）分配不同长度的编码。出现频率越高的符号，其编码越短，反之亦然 5。这种编码是“前缀码”，即任何一个符号的编码都不是另一个符号编码的前缀，这保证了解码时的无歧义性 6。

其实现过程通常包括三个步骤：

频率分析：扫描输入数据，为每个唯一的符号创建一个频率统计表 5。
构建哈夫曼树：这是一个自底向上的过程。首先，将每个符号视为一个独立的叶子节点，并根据其频率放入一个优先队列（通常用最小堆实现）。然后，重复从队列中取出两个频率最低的节点，将它们合并成一个新的父节点，新节点的频率是两个子节点频率之和。将新父节点放回优先队列。此过程不断重复，直到队列中只剩下一个节点，即为哈夫曼树的根节点 5。
生成编码：从根节点开始遍历哈夫曼树。通向左子节点的路径记为‘0’，通向右子节点的路径记为‘1’。从根到每个叶子节点的路径就构成了该叶子节点所代表符号的唯一哈夫曼编码 6。

下图演示了根据一组字符频率构建哈夫曼树的过程：

字典压缩：LZ家族

与基于单个符号频率的哈夫曼编码不同，Lempel-Ziv（LZ）系列算法通过建立一个“字典”来记录数据中出现过的字符串。当再次遇到这些字符串时，就用一个指向字典条目的简短引用（指针）来代替，从而实现压缩 3。

LZ77 (滑动窗口)：LZ77算法及其变种是现代压缩领域应用最广泛的技术之一。它使用一个“滑动窗口”来处理输入数据流。这个窗口被分为两部分：已处理数据构成的“搜索缓冲区”（作为动态字典）和待处理数据构成的“前瞻缓冲区”。算法在前瞻缓冲区中寻找能在搜索缓冲区中匹配到的最长字符串，并将其编码为一个三元组：<offset, length, next_character>，分别表示匹配项在搜索缓冲区中的偏移量、匹配的长度以及匹配字符串后的第一个字符 8。像 GZIP 和 ZIP 中使用的 DEFLATE 算法就是基于 LZ77 的。
LZW (Lempel-Ziv-Welch)：LZW是LZ78的一个变种，它在压缩和解压过程中动态地建立一个明确的字符串字典。该字典初始时包含所有可能的单个字符（例如，ASCII码 0-255）。算法在处理数据时，会不断将“已知字符串 + 下一个字符”构成的新字符串添加到字典中，并输出代表已知字符串的编码。LZW的实现比LZ77更简单，并且由于其单遍处理和无需预先分析数据的特性，非常适合硬件实现 3。

基础算法对比分析

虽然现代存储系统中的压缩引擎可能融合了多种技术，但理解这些基础算法的特性和权衡至关重要。

特性	哈夫曼编码 (Huffman Coding)	LZ77 (如 DEFLATE)	LZW
核心原理	统计学（符号频率）	字典（滑动窗口）	字典（显式表）
模型	构建静态的前缀码树	使用最近的数据作为动态字典	构建全局的字符串字典
所需遍数	两遍（或自适应变体的一遍）	一遍	一遍
解压速度	快	快	非常快
主要优势	对基于符号概率分布的数据压缩最优 5	对通用数据有良好的压缩率	简单、快速、无需先验信息 3
主要劣势	需预知频率数据；对小文件效果不佳	寻找最长匹配可能计算密集	对无重复字符串的数据效果差 3
典型应用	JPEG, MP3, GZIP 的组成部分 6	GZIP, ZIP, PNG 9	GIF, TIFF, Unix 'compress' 3

对于实时存储I/O而言，算法的选择并非随意。经典的哈夫曼编码需要两次遍历（一次构建频率表，一次编码），这会给存储写入操作带来显著的延迟 5。相比之下，LZ系列算法被设计为单遍操作 3，它们在处理数据流的同时构建其模型（字典）。

这种“边处理边学习”的特性使其在架构上更适合高性能存储系统所要求的“在线（inline）”处理模式。因此，企业级存储供应商普遍采用LZ系列算法，有时会结合哈夫曼编码对最终的指针和字面量进行二次压缩，正如DEFLATE标准所做的那样。

数据缩减：闪存基石

在高端存储领域，数据缩减早已不是一个可选功能，而是必备的核心能力。数据缩减的必要性源于全闪存阵列（AFA）在经济性、物理密度和介质耐久性三个方面的内在需求。

为何不可或缺：超越成本节省

经济可行性 (TCO)：全闪存阵列使用的固态硬盘（SSD）介质成本高昂。数据缩减技术通过大幅提升每美元可获得的“有效容量”，使得大规模部署闪存变得经济上可行 12。供应商提供的4:1或5:1等数据缩减率保证，正是对这一经济现实的直接回应 1。
物理密度：通过在相同的物理空间内存储更多的逻辑数据，数据缩减显著降低了数据中心的占地面积、电力消耗和冷却成本，这对于构建绿色、高效的数据中心至关重要 13。
闪存耐久性：SSD中的NAND闪存单元具有有限的编程/擦除（P/E）周期。数据缩减通过减少实际需要物理写入到闪存单元的数据量，直接延长了存储介质的使用寿命，降低了写放大效应 16。

如何实现：多技术协同的系统工程

现代高端存储所说的“数据缩减”并非单一技术，而是一个协同工作的技术套件，通常包括以下几种：

重复数据删除 (Deduplication)：识别并消除重复的数据块，用指向唯一副本的指针取而代之 18。这项技术对于虚拟化环境（大量相同的操作系统镜像）和虚拟桌面基础架构（VDI）尤其有效 12。
压缩 (Compression)：在重删之后，对剩余的唯一数据块应用第一节中讨论的压缩算法。
模式检测/零块消除 (Pattern Detection/Zero-Block Elimination)：一种简单高效的技术，用于识别并避免存储全零的数据块，仅记录元数据即可 16。
数据压实 (Compaction)：在数据被缩减后，智能地将多个较小的数据块打包到SSD的单个物理页或块中，以避免因数据块小于闪存物理写入单元而造成的空间浪费 16。

竞争格局：主流供应商架构对比

各大主流存储供应商都在其高端产品中集成了复杂的数据缩减引擎，但其实现理念和技术侧重点各有不同。

特性	日立 Vantara (VSP 5000 系列)	戴尔 (PowerMax 2500/8500)	Pure Storage (Purity OS)
保证缩减率	4:1 1	5:1 (开放系统); 3:1 (大型机) 14	基于工作负载的“规模适当保证” 21; 提供典型值 (如VDI为5-10:1) 13
核心技术	压缩、重删	在线压缩 (GZIP)、在线重删 (SHA-256)、模式检测、数据压实 15	五阶段技术：模式移除、可变块重删、在线压缩、深度缩减、副本缩减 13
硬件辅助	压缩加速模块 2	集成的硬件辅助，用于压缩与哈希计算 20	专用架构；DirectFlash模块直接管理闪存 17
独特功能	专注于通过专用硬件实现性能和可用性保证	基于活动的缩减 (ABR)：通过机器学习，对约20%的最繁忙数据不进行压缩，以优化延迟 20	可变块 (512字节粒度) 重删：比固定块系统能发现更多重复数据 13。全局跨卷重删 25。
实现方式	在线 (Inline)	在线 (Inline)	在线 (Inline) 与后处理 (Post-Process) 结合（用于深度缩减） 13

供应商提供的数据缩减率保证，既是市场营销的有力工具，更是其架构自信的体现。只有当供应商对其软硬件栈有深度、协同的设计和控制时，才能确保在各种客户数据模型下，既能达到承诺的缩减率，又不会牺牲核心的性能指标。这背后必然是在线（inline）处理和硬件加速能力的支撑。日立的“压缩加速模块”和戴尔的“集成硬件辅助”都证明了这一点 2。因此，缩减率保证本身就是高端存储系统深度集成、硬件加速设计的一个标志。

更进一步看，戴尔和Pure Storage的精细化策略揭示了一个更成熟的设计理念：“最大化压缩”并非总是最优目标，真正的目标是为特定工作负载实现效率与性能的最佳平衡。一个朴素的策略是尽可能压缩所有数据。然而，读取压缩数据需要解压，这会增加延迟 26。对于频繁访问的“热”数据，这种延迟惩罚可能变得无法接受。戴尔的ABR技术正是为了解决这个问题：它利用机器学习识别出这部分热数据，并有意地使其保持未压缩状态，以容量效率换取极致的读取性能 20。Pure Storage的可变块重删则解决了另一种效率问题：固定块系统可能会因为数据未与块边界对齐而错失重删机会。通过以更细的粒度（512字节）扫描数据，Pure Storage能发现更多冗余，从而在混合工作负载下实现更高的缩减率 23。这些高级特性表明，领先的供应商正在从简单的“开/关”式压缩，转向高度智能、感知工作负载的数据管理策略。

性能演算：硬件加速

数据缩减算法，无论是压缩还是重删中的哈希计算，本质上都是计算密集型任务。如果在主CPU上以纯软件方式执行，将消耗大量计算周期，直接影响应用性能并增加I/O延迟 26，这是高端存储必须解决的核心矛盾。

架构选择：在线处理 vs. 后处理

为应对性能开销，存储系统设计者面临一个根本性的架构选择。

后处理 (Post-Processing)：数据首先以原始状态写入存储介质，之后由一个后台进程在系统空闲时扫描并进行缩减 18。
- 优点：初始写入延迟极低，因为写入路径上没有额外计算。缩减任务可以安排在业务低峰期执行 19。
- 缺点：需要预留足够的“落地空间”来缓存未缩减的数据。数据无法立即享受缩减带来的空间和耐久性优势。后台扫描会占用系统资源，可能影响其他后台任务。这种方式在现代主存储中已较少见。
在线处理 (Inline)：数据在从主机流向存储介质的过程中被实时缩减，在写入闪存之前就已完成 16。
- 优点：立即节省容量。减少了对闪存的实际写入量，提升了耐久性 16。
- 缺点：如果实现不当，会在写入路径上引入延迟，这是其关键挑战。

下图直观地对比了两种处理方式的I/O数据流：

解决方案：硬件加速

现代全闪存阵列之所以能普遍采用在线处理，关键在于它们将计算密集型任务从主CPU卸载到了专用的硬件加速器上 28。

ASIC (专用集成电路)：为特定任务（如执行GZIP压缩或SHA-256哈希）定制的芯片，能以极高的速度和极低的功耗完成该任务。它们提供顶级性能，但缺乏灵活性，一旦设计完成便无法修改 28。日立和戴尔的系统很可能采用了ASIC。
FPGA (现场可编程门阵列)：一种可以在制造后进行重新编程的芯片。它们在高性能和灵活性之间取得了良好平衡，允许供应商通过固件更新来升级算法或添加新功能 28。

通过使用这些专用硬件，存储系统可以在主I/O路径旁并行执行复杂的压缩和重删计算，对写入延迟的影响降至最低（通常在微秒级别），同时几乎不占用主控制器CPU的资源 15。

数据缩减架构的性能权衡

指标	在线处理 (硬件加速)	后处理
写入延迟	极低，因CPU卸载而接近原生延迟 15	初始延迟最低，但会产生后续系统负载
读取延迟	有轻微解压开销，可通过戴尔ABR等技术缓解 20	取决于数据是否已被处理
CPU利用率	对主机/存储控制器CPU影响极小 28	在计划的处理窗口期间占用率高
存储效率	即时生效，所有写入的数据都经过缩减	延迟生效，需要为未缩减数据预留暂存空间 19
闪存耐久性	最大化，减少了总的写放大 16	效果较差，初始的未缩减写入仍然发生
典型用例	现代全闪存阵列的标准配置 16	备份一体机、二级存储、传统系统

硬件加速的在线数据缩减成为行业主流，是闪存介质性能特性发展的必然结果。传统硬盘（HDD）的机械延迟高达数毫秒 17，增加一点软件压缩的延迟通常会被磁盘本身的缓慢所掩盖，因此后处理很常见。而SSD的延迟极低，仅为微秒级 2，任何在I/O路径上的软件处理都会成为显著的性能瓶颈 27。为了在不破坏闪存性能优势的前提下获得数据缩减带来的经济效益，供应商必须将计算任务从主CPU上移开。这直接推动了专用于数据缩减的ASIC和FPGA的广泛应用。因此，全闪存存储的兴起与硬件加速在线数据缩减的普及并非两个孤立的趋势，而是同一技术演进过程的两个方面，互为因果。

未来趋势与架构

数据缩减技术正沿着算法演进、智能自适应和架构革新三个方向不断前进。

算法演进：Zstandard

Zstandard（简称 zstd）是由Facebook（现Meta）开发的现代开源压缩算法，它在压缩率和压缩速度之间提供了卓越的平衡，尤其以其极快的解压速度而著称 32。与GZIP/DEFLATE等传统标准相比，zstd能在相似的CPU消耗下提供更高的压缩率，或在相似的压缩率下提供快得多的压缩速度 32。其极高的解压性能对于读取密集型应用是一个巨大的优势。

zstd正被业界迅速而广泛地采用，这标志着行业正在从传统算法向更高效的现代算法迁移。其应用案例包括：

操作系统与文件系统：Linux内核中的Btrfs和OpenZFS文件系统已支持zstd 32。
数据库与应用：微软SQL Server 2025、Aerospike数据库等已集成zstd作为压缩选项 34。
互联网与超大规模数据中心：亚马逊、Twitter等公司已采用zstd来降低存储成本和网络负载 36。

AI/ML智能压缩

未来的数据缩减将不再是应用单一、静态的压缩策略，而是利用人工智能/机器学习（AI/ML）根据上下文动态调整。

当前实践：戴尔的ABR技术是这一趋势的先驱，它使用机器学习根据I/O活动来决定压缩什么 20。
未来愿景：基于学术研究和行业探索 38，未来的智能存储系统将具备以下能力：
- 自动数据分类：系统能自动识别数据类型（如文本、图像、已加密数据），并为其匹配最优的压缩算法。
- 实时策略调整：根据系统负载、网络状况或应用服务等级协议（SLA），实时调整压缩级别。例如，在系统繁忙时降低压缩级别以保证低延迟，在空闲时提高压缩级别以最大化空间效率。
- 强化学习优化：使用强化学习来寻找压缩率、速度甚至数据保真度（在有损压缩场景下，如机器学习模型训练）之间的最佳平衡点 39。
- 数据为中心的压缩：随着分布式AI/ML训练的普及，压缩的焦点正从存储的静态数据扩展到传输中的动态数据（如梯度），以降低网络带宽需求，这一新范式被称为“以数据为中心的压缩” 41。

架构转变：计算存储

计算存储（Computational Storage）是一种革命性的架构，它将传统上由主机CPU执行的计算任务（如压缩/解压）直接下推到存储设备本身去执行 42。

这一概念正在被行业标准组织（如SNIA和NVM Express）快速标准化，旨在构建一个开放、可互操作的生态系统 44。SNIA定义了计算存储架构与编程模型，而NVM Express则发布了相应的计算程序命令集 44。

在计算存储模型中，主机不再是简单地“读取数据、处理数据、写回数据”，而是向计算存储设备（CSD）发送一个操作指令，例如“将这个数据块压缩后存储”或“找到并返回符合此模式的解压后数据”。这种模式极大地减少了数据在PCIe总线上的来回搬运，释放了主机CPU资源以专注于应用逻辑，降低了系统整体功耗，并能显著改善特定工作负载的性能 42。

这三大趋势是相互关联的，共同描绘了存储行业走向成熟的演进路径。其逻辑进程是：从静态算法（如GZIP）到更优的静态算法（如zstd），再到管理这些算法的动态策略（AI/ML），最终发展到执行这些策略的全新物理位置（计算存储）。随着数据量的爆炸式增长，仅仅移动数据本身已成为性能和效率的主要瓶颈。因此，未来的数据缩减将不仅仅是一个更好的算法，而是一种在系统架构中最有效位置运行的、智能且自适应的数据服务。

结论

数据压缩技术已经从一个简单的节省磁盘空间的软件工具，演变为一种复杂的、深度集成的、由硬件加速的系统级核心功能。它是现代高端存储实现卓越性能、高密度和经济可行性的关键赋能者。

本次分析的历程，从哈夫曼编码和Lempel-Ziv等基础算法出发，到当今主流供应商提供的包含重删、压缩、压实等多层次技术的数据缩减套件，清晰地揭示了硬件加速在促成高效在线处理中的决定性作用。

展望未来，行业正朝着更高效的算法（如Zstandard）、更智能的自适应策略（由AI/ML驱动）以及更高效的系统架构（计算存储）迈进。这一演进对于应对下一代应用带来的数据洪流，并持续降低信息存储和访问的真实成本至关重要。数据缩减不再仅仅是关于“缩小”数据，而是关于以最智能、最高效的方式管理数据的整个生命周期。

参考资料

Enterprise Block Storage Array | VSP 5000 Series - Hitachi Vantara, accessed on July 27, 2025, https://www.hitachivantara.com/en-us/products/storage-platforms/block-storage/enterprise
Hitachi Virtual Storage Platform (VSP) 5200 and ... - Hitachi Vantara, accessed on July 27, 2025, https://www.hitachivantara.com/en-us/pdf/specifications/virtual-storage-platform-vsp-5200-5600-spec-table.pdf
LZW (Lempel–Ziv–Welch) Compression technique - GeeksforGeeks, accessed on July 27, 2025, https://www.geeksforgeeks.org/computer-networks/lzw-lempel-ziv-welch-compression-technique/
A Comparative Analysis of Lossless Compression Algorithms on Uniformly Quantized Audio Signals - MECS Press, accessed on July 27, 2025, https://www.mecs-press.org/ijigsp/ijigsp-v14-n6/IJIGSP-V14-N6-5.pdf
Huffman Coding: The Ultimate Algorithm Guide - Number Analytics, accessed on July 27, 2025, https://www.numberanalytics.com/blog/ultimate-huffman-coding-guide
Huffman Coding | Greedy Algo-3 - GeeksforGeeks, accessed on July 27, 2025, https://www.geeksforgeeks.org/dsa/huffman-coding-greedy-algo-3/
Data compression (Part 1) : Lossless Compression - DEV Community, accessed on July 27, 2025, https://dev.to/binoy123/data-compression-part-1-lossless-compression-3o83
How LZ77 Data Compression Works - HackerNoon, accessed on July 27, 2025, https://hackernoon.com/how-lz77-data-compression-works-yk113te0
Mastering LZ77: A Comprehensive Guide - Number Analytics, accessed on July 27, 2025, https://www.numberanalytics.com/blog/ultimate-guide-to-lz77-algorithm-design
Mastering LZ77 Compression - Number Analytics, accessed on July 27, 2025, https://www.numberanalytics.com/blog/ultimate-guide-lz77-compression-data-structures
Introduction to data compression, accessed on July 27, 2025, https://www.cs.cmu.edu/~guyb/real-world/compress/gutmann.html
What Is Data Deduplication? - Pure Storage, accessed on July 27, 2025, https://www.purestorage.com/knowledge/what-is-data-deduplication.html
What Is Data Reduction | Pure Storage, accessed on July 27, 2025, https://www.purestorage.com/knowledge/what-is-data-reduction.html
PowerMax - Enterprise NVMe Storage | Dell USA, accessed on July 27, 2025, https://www.dell.com/en-us/shop/storage-servers-and-networking-for-business/sf/powermax
Maximize Storage Efficiency with Dell PowerMax Data Reduction, accessed on July 27, 2025, https://www.delltechnologies.com/asset/en-us/products/storage/industry-market/esg-data-reduction-report-dell-powermax.pdf.external
NetApp Inline vs Postprocess Storage Efficiency Tutorial - FlackBox, accessed on July 27, 2025, https://www.flackbox.com/netapp-inline-vs-postprocess-storage-efficiency
How Flash Changes Everything - Pure Storage, accessed on July 27, 2025, https://www.purestorage.com/content/dam/purestorage/pdf/whitepapers/Pure_Storage_Whitepaper_How_Flash_Changes_Everything.pdf
Exploring Data Deduplication For The Enterprise | StoneFly, accessed on July 27, 2025, https://stonefly.com/blog/exploring-data-deduplication-for-the-enterprise/
Types of Deduplication: Inline vs. Post-Process - DataCore Software, accessed on July 27, 2025, https://www.datacore.com/blog/inline-vs-post-process-deduplication-compression/
Dell PowerMax: Data Reduction, accessed on July 27, 2025, https://www.delltechnologies.com/asset/en-hk/products/storage/industry-market/h19254-dell-powermax-data-reduction.pdf
Evergreen Program Description - Pure Storage, accessed on July 27, 2025, https://www.purestorage.com/legal/evergreen-program-description.html
Data Storage Capacity Optimization - Purity, accessed on July 27, 2025, https://www.purestorage.com/products/storage-software/purity/store.html
Software Powering Next-Gen Shared Accelerated Storage - Purity - ePlus, accessed on July 27, 2025, https://www.eplus.com/docs/default-source/default-document-library/ps-purity-datasheet.pdf?sfvrsn=600947b1_2
h17072 Data Reduction With Dell Emc Powermax - Scribd, accessed on July 27, 2025, https://www.scribd.com/document/636143051/h17072-data-reduction-with-dell-emc-powermax
Pure Storage Purity, accessed on July 27, 2025, https://rhino-dragonfly-kdjt.squarespace.com/s/ds-pure-storage-purity.pdf
I/O Performance Analysis - SQL Server on Azure VMs - Learn Microsoft, accessed on July 27, 2025, https://learn.microsoft.com/en-us/azure/azure-sql/virtual-machines/windows/storage-performance-analysis?view=azuresql
An explanation of IOPS and latency - HPE Community, accessed on July 27, 2025, https://community.hpe.com/t5/around-the-storage-block/an-explanation-of-iops-and-latency/ba-p/6986617
Hardware-Assisted Compression 101 - Number Analytics, accessed on July 27, 2025, https://www.numberanalytics.com/blog/hardware-assisted-compression-101
FPGA-based Acceleration for Convolutional Neural Networks: A Comprehensive Review, accessed on July 27, 2025, https://arxiv.org/html/2505.13461v1
Advanced FPGA Hardware Acceleration Techniques - Number Analytics, accessed on July 27, 2025, https://www.numberanalytics.com/blog/advanced-fpga-hardware-acceleration-techniques
Open source hardware accelerator subsystem for FPGA/ASICs - Antmicro, accessed on July 27, 2025, https://antmicro.com/blog/2022/06/open-source-hardware-accelerator-subsystem-for-fpga-asics/
Zstandard - Real-time data compression algorithm - Meta Open Source, accessed on July 27, 2025, http://facebook.github.io/zstd/
New standards for a faster and more private Internet - The Cloudflare Blog, accessed on July 27, 2025, https://blog.cloudflare.com/new-standards/
ZSTD compression in SQL Server 2025 - Microsoft Community Hub, accessed on July 27, 2025, https://techcommunity.microsoft.com/blog/azuresqlblog/zstd-compression-in-sql-server-2025/4415418
Configure storage compression | Aerospike Documentation, accessed on July 27, 2025, https://aerospike.com/docs/database/manage/namespace/storage/compression/
Amazon Switched Compression from Gzip to Zstd for Own Service Data - InfoQ, accessed on July 27, 2025, https://www.infoq.com/news/2022/09/amazon-gzip-zstd/
Feature request: Zstandard compression for sinks · Issue #2302 · vectordotdev/vector - GitHub, accessed on July 27, 2025, https://github.com/vectordotdev/vector/issues/2302
[2506.16235] NetSenseML: Network-Adaptive Compression for Efficient Distributed Machine Learning - arXiv, accessed on July 27, 2025, https://arxiv.org/abs/2506.16235
Data Compression Strategies for AI Workloads: Can ML Reduce Storage and Compute Costs? - CIO Influence, accessed on July 27, 2025, https://cioinfluence.com/machine-learning/data-compression-strategies-for-ai-workloads-can-ml-reduce-storage-and-compute-costs/
Adaptive Compression-Aware Split Learning and Inference for Enhanced Network Efficiency - arXiv, accessed on July 27, 2025, https://arxiv.org/pdf/2311.05739
Shifting AI Efficiency From Model-Centric to Data-Centric Compression - arXiv, accessed on July 27, 2025, https://arxiv.org/html/2505.19147v1
What Is Computational Storage? - Arm, accessed on July 27, 2025, https://www.arm.com/glossary/computational-storage
Computational Storage Drives Compute Where The Data Is - NewMaxx's SSD Page, accessed on July 27, 2025, https://borecraft.com/PDF/FMS_2023/20230807_PRECON_SEMINAR_F_Oberg.pdf
NVMe consortium polishes its specs to support computational storage - The Register, accessed on July 27, 2025, https://www.theregister.com/2024/01/17/nvme_specs_get_an_update/
SNIA Computational Storage Standards, accessed on July 27, 2025, https://www.sniadeveloper.org/sites/default/files/SDC/2023/presentations/SNIA-SDC23-Martin-Molgaard-SNIA-Computational-Storage-Standards.pdf
SNIA Computational Storage Standards - YouTube, accessed on July 27, 2025, https://www.youtube.com/watch?v=PViipaMGjj8
Standardizing Computational Storage | SDC 2025 - SNIA Developer Conference, accessed on July 27, 2025, https://www.sniadeveloper.org/austin/agenda/session/483