全文概览
随着生成式AI的快速发展,数据的指数级增长对存储系统提出了前所未有的挑战。在这一背景下,硬盘驱动器(HDD)因其低成本、大容量和高能效的特点,仍然在数据中心中占据重要地位。本文将探讨HDD在生成式AI时代的优化策略,分析其在存储架构中的角色,以及如何通过技术创新提升存储效率和可持续性。
阅读收获
- 了解分级存储架构在生成式AI中的应用,掌握如何通过优化数据放置和智能缓存提升存储效率。
- 理解HDD在成本、容量和可持续性方面的优势,及其在生成式AI中的核心作用。
- 掌握NAND产业的投入产出比,分析HDD替代的经济性。
- 认识生成式AI对数据增长的推动作用,以及对存储技术的未来挑战。
分级存储架构图
图展示了生成式AI在内存和存储架构中的不同层次,从性能和容量的角度来看。性能高的层次如CPU / GPU缓存、高带宽内存和动态RAM位于上方,而容量更大的存储设备,如NAND SSD和硬盘驱动器则位于底部。同时,图中也指出了AI工作负载和创新的方向,如优化数据放置和智能缓存等。
===
左侧文字:
- 不同的AI使用与工作负载模型
- 软件架构师的工作负载创新
- 智能突发缓冲区(Intelligent burst-buffer)
- 优化数据放置缓存或分层(Optimized-data-placement Caching or Tiering)
- 简化的顺序数据在硬盘驱动器和SSD上的优势
- 写放大(Write Amplification)
- 机械驱动器寻道(Mechanical Actuator Seeks)
Note
分级存储概念在数据中心并不陌生,为了更高效利用计算单元时间片,数据被分级存放在不同规格介质上,因此有了上面这张图,不同存储层的主要差异还是硬件介质,随着存储技术的不断发展,软件/算法定义的数据分层将成为下一个创新的重点,这激发了计算型存储与智能缓存的需求。
AI 场景对存储带宽的需求
图介绍了AI分层存储在带宽和容量的配比方面的要求,强调了分层存储中的延迟、带宽以及容量匹配的需求。特别是在更高容量(如超过30TB)时,采用双驱动器硬盘可以帮助保持性能稳定。此外,图表展示了在不同容量下,SA-HDD和DA-HDD的带宽和比率的变化。
===
- 分层可能造成更高的延迟和较低的带宽
- 分层必须保持相同的总带宽,以确保100%非阻塞的双向流
- 利用“小法则”帮助吸收写入顺序化差异,通过计算缓冲区比率
- 读取顺序化更为复杂,需要软件数据放置控制
- 硬盘驱动器(HDD)必须保持GB/s/TB的带宽/容量比,随着单位容量的增加
- 在带宽匹配应用中为1比20
- 在云存储应用中为1比10
- 分层存储栈中典型的SSD与HDD的带宽匹配比例:
- 双驱动器HDD帮助保持大于30TB容量时的比率稳定
注:SA 为 单驱动器,DA 为 双驱动器。
如何理解高带宽和云存储应用中的匹配比例?
分层存储栈中,SSD和HDD之间的带宽匹配比例在不同类型的应用中有所不同:
- 在带宽匹配应用中为1比20:这意味着,对于需要高带宽的应用,SSD和HDD之间的带宽比例应该是1:20。也就是说,1单位的SSD带宽需要配备20单位的HDD带宽。在这种情况下,HDD的带宽远低于SSD。
- 在云存储应用中为1比10:在云存储应用中,SSD与HDD之间的带宽比例为1:10,表示SSD的带宽是HDD的10倍。相比带宽匹配应用,云存储对带宽的要求较低,因此比例较小。
更简单的理解:高带宽应用中,SSD与HDD的配比更大,旨在更充分跑满介质层的带宽;而云存储这类以容量为核心需求的场景,配置可以稍微降下来。
AI 数据工作流
图描述了AI数据管理的工作流,其中展示了数据从收集、清理到训练、推理和结果生成的各个阶段。
大部分数据(90%)存储在硬盘驱动器(HDD)上,而接近计算资源的10%数据存储在NAND闪存或固态硬盘(SSD)上,以提高读取和处理效率。最终,经过处理的结果会被归档并进行数据保护,确保数据的安全和长期可访问性。
Note
有多少数据存在哪里并不是核心问题,因为存储的真正价值是支撑数据流动的性能,就如同货币价值在于流通性而不是储蓄。硬盘厂商惯于讨论有多少数据存储在HDDs上,这是个危险信号,至于究竟是多大比例,在之前整理的文章中,WD(西部数据)曾说是80%。
WD:HDDs 一直都在
- 该文章详细探讨了硬盘驱动器(HDD)在数据中心中的地位,指出尽管固态驱动器(SSD)在某些应用中逐渐替代HDD,但HDD仍然是主要的存储设备。文中提到,HDD的安装容量继续增长,并预计在未来几年内仍将占据主导地位。具体数据表明,2028年HDD的市场份额将略微下降至80%,而SSD的占比预计会增长到13%
存储的容量场景
图中展示了企业数据存储的不同类型,
- 90%的数据主要用于一般目的的工作负载,如分析、文件服务、对象存储等,这些数据通常在较大的存储容量下进行传输;
- 10%的数据则与电子商务、虚拟桌面、游戏等更偏向实时处理的任务相关;
- 最少量的1%的数据则集中在超高实时数据传输场景下,如AI/机器学习训练、实时图形渲染等。这些不同类别的数据分别对应着不同的存储需求和处理方式。
从业务场景 论证 HDDs 具备海量存储的实力。
HDDs 的价格优势
图表强调了硬盘驱动器(HDD)在价格上仍然相对于固态硬盘(SSD)具有明显的优势。即使随着时间的推移,SSD的价格逐渐下降,但HDD的每TB价格仍然保持低于SSD,分析师预测这种差距将持续到2027年,HDD和SSD之间的价格比将持续保持在6:1以上。
图中的价格波动说明了市场变化,但总体趋势是HDD依然会维持比SSD便宜的价格优势。
NAND 产业的投入产出比
图表中的数据表示:
- 蓝色NAND产业目前生产的总容量(单位:EB,即艾克萨字节)。2023年为333 EB。
- 灰色NAND产业预计生产的容量。预计2027年为963 EB。
- 橙色NAND产业需要生产的容量,如果要完全替代硬盘驱动器(HDD)。2027年需要生产2,723 EB。
资金需求:
- 预计成本
- 2027年:替代HDD所需的资金为2060亿美元。
- 2023年:NAND产业现有的生产总值为72.9亿美元。
HDD 在 AI 场景的价值
- 规模经济:
- 硬盘的收购成本比固态硬盘(SSD)低6倍,能够优化AI的总拥有成本(TCO)。
- 大规模生产:
- 可持续性:
- 硬盘的运行功率比SSD低4倍,每TB的碳排放(EB/TB)低10倍。
- 生成型AI专家预测数据的指数级增长:
- 数据创作与消费的反馈循环将极大地增长,且对所有数据中心资源有着巨大的需求。
- 这样的增长无法实现:
- 没有一个以可持续性为重点的供应链策略,要求我们重新设计每一个日益增长的关键组件。
- 今天的云和超大规模存储堆栈:
- 虽然已经非常平衡,但生成型AI生态系统将随着规模的增长,教会我们一些新的经验教训。
Note
随着AI进入人们生活,海量存储的数据从之前的企业沉默成本摇身一变成为“算命先生”,大家在惊叹其神奇的同时,也不能忽略AI智能的数据基座,中长期来看,HDDs 仍将是市场的经典选择。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
- 在生成式AI时代,HDD是否会被SSD完全取代?为什么?
- 如何在存储成本与性能之间找到平衡点,以满足生成式AI的需求?
- 随着生成式AI的普及,数据的指数级增长对存储技术提出了哪些新的要求?
---【本文完】---