客户简介
Meta公司(原名Facebook),是世界著名的互联网科技公司之一,2024年8月,Meta入选2024年《财富》世界500强,排名第66位。
2024年7月,Meta正式发布最新的开源大模型Llama 3.1系列,进一步缩小了开源模型与闭源模型的差距。Llama 3.1包含8B、70B和450B 3个参数规模,其中450B参数的模型在多项基准测试中超过了OpenAI的GPT-4o,与Claude 3.5 Sonnet等领先的闭源模型相媲美。
业务挑战
Meta每天需要处理数百万亿个人工智能模型的执行,这些需求需要高度先进和灵活的基础设施。定制设计我们自己的许多硬件、软件和网络结构使我们能够优化人工智能研究人员的端到端体验,同时确保我们的数据中心高效运行。
存储在人工智能培训中发挥着重要作用,但却是最不被谈论的方面之一。随着GenAI训练工作随着时间的推移变得更加多模态,消耗大量图像、视频和文本数据,对数据存储的需求迅速增长。然而,如何可以让工程师能够使用数千块GPU对作业进行交互式调试,使得集群中(两个集群,共49,152块Nvidia H100 GPU)所有节点都可以立即访问更改后的代码?而且必须严格控制功耗和机柜空间的增加。这是一个相当有挑战的工作!

解决方案
在对市场上所有存储供应商进行评估后,最终选择与Hammerspace合作,“因为只有Hammerspace不需要在其服务器集群安装客户端,要知道,安装任何程序都会导致系统不稳定,带来无法估量的损失;同时Hammerspace具有无可比拟的性能扩展能力。” Hammerspace使工程师们能够使用数千块GPU对作业执行交互式调试,因为环境中的所有节点都可以立即访问代码更改。同时,我们的Tectonic分布式存储解决方案和Hammerspace的组合可以在不影响规模的情况下实现快速迭代。
“Hammerspace所做的就是纯粹的魔法。” (Paul Saab,Meta首席工程师)
Meta:https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

《架构示意图》
到2024年底,我们的目标是继续发展我们的基础设施建设,其中包括35万块NVIDIA H100,作为投资组合的一部分,该组合最终将具有相当于近60万块H100的计算能力。
当我们展望未来时,我们意识到昨天或今天有效的东西可能不足以满足明天的需求。这就是为什么我们不断评估和改进基础设施的各个方面,从物理和虚拟层到软件层及更高层次。我们的目标是创建灵活可靠的系统,以支持快速发展的新模型和研究。