前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Seagate:HDD在AI时代的价值

Seagate:HDD在AI时代的价值

作者头像
数据存储前沿技术
发布2025-02-25 10:10:21
发布2025-02-25 10:10:21
1170
举报

全文概览

随着生成式AI的快速发展,数据的指数级增长对存储系统提出了前所未有的挑战。在这一背景下,硬盘驱动器(HDD)因其低成本、大容量和高能效的特点,仍然在数据中心中占据重要地位。本文将探讨HDD在生成式AI时代的优化策略,分析其在存储架构中的角色,以及如何通过技术创新提升存储效率和可持续性。

阅读收获

  1. 了解分级存储架构在生成式AI中的应用,掌握如何通过优化数据放置和智能缓存提升存储效率。
  2. 理解HDD在成本、容量和可持续性方面的优势,及其在生成式AI中的核心作用。
  3. 掌握NAND产业的投入产出比,分析HDD替代的经济性。
  4. 认识生成式AI对数据增长的推动作用,以及对存储技术的未来挑战。
20250214-1254-3.png
20250214-1254-3.png

分级存储架构图

图展示了生成式AI在内存和存储架构中的不同层次,从性能和容量的角度来看。性能高的层次如CPU / GPU缓存、高带宽内存和动态RAM位于上方,而容量更大的存储设备,如NAND SSD和硬盘驱动器则位于底部。同时,图中也指出了AI工作负载和创新的方向,如优化数据放置和智能缓存等。

===

左侧文字:

  • 不同的AI使用与工作负载模型
  • 软件架构师的工作负载创新
    • 智能突发缓冲区(Intelligent burst-buffer)
    • 优化数据放置缓存或分层(Optimized-data-placement Caching or Tiering)
  • 简化的顺序数据在硬盘驱动器和SSD上的优势
    • 写放大(Write Amplification)
    • 机械驱动器寻道(Mechanical Actuator Seeks)

Note

分级存储概念在数据中心并不陌生,为了更高效利用计算单元时间片,数据被分级存放在不同规格介质上,因此有了上面这张图,不同存储层的主要差异还是硬件介质,随着存储技术的不断发展,软件/算法定义的数据分层将成为下一个创新的重点,这激发了计算型存储与智能缓存的需求。


20250214-1254-4.png
20250214-1254-4.png

AI 场景对存储带宽的需求

图介绍了AI分层存储在带宽和容量的配比方面的要求,强调了分层存储中的延迟、带宽以及容量匹配的需求。特别是在更高容量(如超过30TB)时,采用双驱动器硬盘可以帮助保持性能稳定。此外,图表展示了在不同容量下,SA-HDD和DA-HDD的带宽和比率的变化。

===

  • 分层可能造成更高的延迟和较低的带宽
  • 分层必须保持相同的总带宽,以确保100%非阻塞的双向流
    • 利用“小法则”帮助吸收写入顺序化差异,通过计算缓冲区比率
    • 读取顺序化更为复杂,需要软件数据放置控制
  • 硬盘驱动器(HDD)必须保持GB/s/TB的带宽/容量比,随着单位容量的增加
    • 在带宽匹配应用中为1比20
    • 在云存储应用中为1比10
    • 分层存储栈中典型的SSD与HDD的带宽匹配比例:
    • 双驱动器HDD帮助保持大于30TB容量时的比率稳定
20250214-1254-5.png
20250214-1254-5.png

注:SA 为 单驱动器,DA 为 双驱动器。

如何理解高带宽和云存储应用中的匹配比例?

分层存储栈中,SSD和HDD之间的带宽匹配比例在不同类型的应用中有所不同:

  • 在带宽匹配应用中为1比20:这意味着,对于需要高带宽的应用,SSD和HDD之间的带宽比例应该是1:20。也就是说,1单位的SSD带宽需要配备20单位的HDD带宽。在这种情况下,HDD的带宽远低于SSD。
  • 在云存储应用中为1比10:在云存储应用中,SSD与HDD之间的带宽比例为1:10,表示SSD的带宽是HDD的10倍。相比带宽匹配应用,云存储对带宽的要求较低,因此比例较小。

更简单的理解:高带宽应用中,SSD与HDD的配比更大,旨在更充分跑满介质层的带宽;而云存储这类以容量为核心需求的场景,配置可以稍微降下来。


20250214-1254-6.png
20250214-1254-6.png

AI 数据工作流

图描述了AI数据管理的工作流,其中展示了数据从收集、清理到训练、推理和结果生成的各个阶段。

大部分数据(90%)存储在硬盘驱动器(HDD)上,而接近计算资源的10%数据存储在NAND闪存或固态硬盘(SSD)上,以提高读取和处理效率。最终,经过处理的结果会被归档并进行数据保护,确保数据的安全和长期可访问性。

Note

有多少数据存在哪里并不是核心问题,因为存储的真正价值是支撑数据流动的性能,就如同货币价值在于流通性而不是储蓄。硬盘厂商惯于讨论有多少数据存储在HDDs上,这是个危险信号,至于究竟是多大比例,在之前整理的文章中,WD(西部数据)曾说是80%。

WD:HDDs 一直都在

  • 该文章详细探讨了硬盘驱动器(HDD)在数据中心中的地位,指出尽管固态驱动器(SSD)在某些应用中逐渐替代HDD,但HDD仍然是主要的存储设备。文中提到,HDD的安装容量继续增长,并预计在未来几年内仍将占据主导地位。具体数据表明,2028年HDD的市场份额将略微下降至80%,而SSD的占比预计会增长到13%

20250214-1254-7.png
20250214-1254-7.png

存储的容量场景

图中展示了企业数据存储的不同类型,

  • 90%的数据主要用于一般目的的工作负载,如分析、文件服务、对象存储等,这些数据通常在较大的存储容量下进行传输;
  • 10%的数据则与电子商务、虚拟桌面、游戏等更偏向实时处理的任务相关;
  • 最少量的1%的数据则集中在超高实时数据传输场景下,如AI/机器学习训练、实时图形渲染等。这些不同类别的数据分别对应着不同的存储需求和处理方式。

从业务场景 论证 HDDs 具备海量存储的实力。


20250214-1254-8.png
20250214-1254-8.png

HDDs 的价格优势

图表强调了硬盘驱动器(HDD)在价格上仍然相对于固态硬盘(SSD)具有明显的优势。即使随着时间的推移,SSD的价格逐渐下降,但HDD的每TB价格仍然保持低于SSD,分析师预测这种差距将持续到2027年,HDD和SSD之间的价格比将持续保持在6:1以上。

图中的价格波动说明了市场变化,但总体趋势是HDD依然会维持比SSD便宜的价格优势。


20250214-1254-9.png
20250214-1254-9.png

NAND 产业的投入产出比

  • 每投资10美元,才能获得1美元的回报

图表中的数据表示

  • 蓝色NAND产业目前生产的总容量(单位:EB,即艾克萨字节)。2023年为333 EB。
  • 灰色NAND产业预计生产的容量。预计2027年为963 EB。
  • 橙色NAND产业需要生产的容量,如果要完全替代硬盘驱动器(HDD)。2027年需要生产2,723 EB。

资金需求:

  • 预计成本
    • 2027年:替代HDD所需的资金为2060亿美元。
    • 2023年:NAND产业现有的生产总值为72.9亿美元。

20250214-1254-10.png
20250214-1254-10.png

HDD 在 AI 场景的价值

  • 规模经济:
    • 硬盘的收购成本比固态硬盘(SSD)低6倍,能够优化AI的总拥有成本(TCO)。
  • 大规模生产:
    • 硬盘的资本支出效率比NAND行业高9倍。
  • 可持续性:
    • 硬盘的运行功率比SSD低4倍,每TB的碳排放(EB/TB)低10倍。

20250214-1254-11.png
20250214-1254-11.png
  • 生成型AI专家预测数据的指数级增长:
    • 数据创作与消费的反馈循环将极大地增长,且对所有数据中心资源有着巨大的需求。
  • 这样的增长无法实现:
    • 没有一个以可持续性为重点的供应链策略,要求我们重新设计每一个日益增长的关键组件。
  • 今天的云和超大规模存储堆栈:
    • 虽然已经非常平衡,但生成型AI生态系统将随着规模的增长,教会我们一些新的经验教训。

Note

随着AI进入人们生活,海量存储的数据从之前的企业沉默成本摇身一变成为“算命先生”,大家在惊叹其神奇的同时,也不能忽略AI智能的数据基座,中长期来看,HDDs 仍将是市场的经典选择。

延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

  1. 在生成式AI时代,HDD是否会被SSD完全取代?为什么?
  2. 如何在存储成本与性能之间找到平衡点,以满足生成式AI的需求?
  3. 随着生成式AI的普及,数据的指数级增长对存储技术提出了哪些新的要求?

---【本文完】---

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 分级存储架构图
  • AI 场景对存储带宽的需求
  • AI 数据工作流
  • 存储的容量场景
  • HDDs 的价格优势
  • NAND 产业的投入产出比
  • HDD 在 AI 场景的价值
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档