首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Meta使用Hammerspace构筑其GenAI存储基础架构 - 为2万4千张GPU卡提供12.5TB/秒带宽

Meta使用Hammerspace构筑其GenAI存储基础架构 - 为2万4千张GPU卡提供12.5TB/秒带宽

作者头像
Hammerspace
发布2025-07-27 12:49:39
发布2025-07-27 12:49:39
1340
举报
文章被收录于专栏:NFSNFS

客户简介

Meta公司(原名Facebook),是世界著名的互联网科技公司之一,2024年8月,Meta入选2024年《财富》世界500强,排名第66位。

2024年7月,Meta正式发布最新的开源大模型Llama 3.1系列,进一步缩小了开源模型与闭源模型的差距。Llama 3.1包含8B、70B和450B 3个参数规模,其中450B参数的模型在多项基准测试中超过了OpenAI的GPT-4o,与Claude 3.5 Sonnet等领先的闭源模型相媲美。

业务挑战

Meta每天需要处理数百万亿个人工智能模型的执行,这些需求需要高度先进和灵活的基础设施。定制设计我们自己的许多硬件、软件和网络结构使我们能够优化人工智能研究人员的端到端体验,同时确保我们的数据中心高效运行。

存储在人工智能培训中发挥着重要作用,但却是最不被谈论的方面之一。随着GenAI训练工作随着时间的推移变得更加多模态,消耗大量图像、视频和文本数据,对数据存储的需求迅速增长。然而,如何可以让工程师能够使用数千块GPU对作业进行交互式调试,使得集群中(两个集群,共49,152块Nvidia H100 GPU)所有节点都可以立即访问更改后的代码?而且必须严格控制功耗和机柜空间的增加。这是一个相当有挑战的工作!

解决方案

在对市场上所有存储供应商进行评估后,最终选择与Hammerspace合作,“因为只有Hammerspace不需要在其服务器集群安装客户端,要知道,安装任何程序都会导致系统不稳定,带来无法估量的损失;同时Hammerspace具有无可比拟的性能扩展能力。” Hammerspace使工程师们能够使用数千块GPU对作业执行交互式调试,因为环境中的所有节点都可以立即访问代码更改。同时,我们的Tectonic分布式存储解决方案和Hammerspace的组合可以在不影响规模的情况下实现快速迭代。

“Hammerspace所做的就是纯粹的魔法。” (Paul Saab,Meta首席工程师)

  • 一切都基于业界标准且即插即用,无需安装客户端
  • 没有任何一家存储供应商可以与Hammerspace相提并论
  • 1,000+节点Hammerspace存储集群
  • 当前为24,000块GPU提供数据,很快将达到35万块,然后是100万块
  • 卓越的可靠性(允许数百个存储节点发生故障)
  • 总吞吐为:12.5TB/秒(100Tb/秒)
  • 可以使用现有OCP存储服务器

Meta:https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

《架构示意图》

到2024年底,我们的目标是继续发展我们的基础设施建设,其中包括35万块NVIDIA H100,作为投资组合的一部分,该组合最终将具有相当于近60万块H100的计算能力。

当我们展望未来时,我们意识到昨天或今天有效的东西可能不足以满足明天的需求。这就是为什么我们不断评估和改进基础设施的各个方面,从物理和虚拟层到软件层及更高层次。我们的目标是创建灵活可靠的系统,以支持快速发展的新模型和研究。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 悍亩尔空间 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档