首页
学习
活动
专区
圈层
工具
发布

一文读懂马斯克10万卡xAI Colossus超级AI集群组网!

PART 01 算力引擎:解构Colossus的计算核心 1.1 GPU计算节点:定制化Supermicro液冷系统 有点让人意外的是xAI Colossus集群并没有采用新房交钥匙产品——NVIDIA...图1: xAI Colossus数据中心大规模部署的计算集群 图2: xAI Colossus数据中心单个POD模块(8个计算柜+1个网络柜) Colossus最小模块化构建单元是定制化的Supermicro...Colossus为此构建了一套多供应商、分阶段演进的EB级存储集群。...图5: xAI Colossus数据中心内的Supermicro 1U NVMe存储节点 2.2 软件定义:VAST与DDN的双雄战略 Colossus的存储软件层采用了业界领先的软件定义存储方案,其核心是...xAI的长期目标是将Colossus 2的规模扩展到100万个GPU,将Colossus 2打造成AI领域发展最快、算力最强的数据中心,为Grok大模型、下一代特斯拉全自动驾驶系统和Optimus机器人训练提供支持

58810
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

    Colossus 2的用电,要比旧金山全市用电峰值还要高。 预计在今年4月,升级到1.5GW,约等于一座大型核电站的输出。...更夸张的,是他们的执行速度: Colossus 1:从零到全面上线,只用了122天 Colossus 2:刚突破1GW门槛,目标直接冲着总共2GW去 Epoch AI此前一份报告称,Colossus...外界对于Colossus 1的了解,要比Colossus 2系统得多。 从0开始仅用122天就拔地而起,拥有大约20万张H100/H200,以及约3万张GB200 NVL72。...据介绍, Colossus 2造价高达数百亿美元。而xAI现在基本没外部收入,主要靠母公司X输血。...这栋新建筑——MACROHARDRR,延续了Macrohard命名,位于Colossus 2旁,占地面积超80万平方英尺。

    31610

    一套用了 70 年的计算机架构 —— 冯·诺依曼架构

    到了 1943 年,Colossus Mark I 计算机(巨人 1 号)在英国 Bletchley 公园(二战时的密码破译机构)被建造出来,以破解纳粹通信,好家伙一口气造了 10 台。...Colossus Mark I 被认为是第一台可编程的电子计算机,编程方法就是使用大量的开关和插线板(PlugBoards)。...但 Colossus Mark I 并不是通用计算机,它只被设计用于执行密码分析相关的计算。...Colossus Mark I —— 图片引用自 Wikipedia 直到 1945 年,John Mauchly 和 J....但是,ENIAC 和 Colossus Mark I 一样都使用插线板编程,虽然不需要拆掉整台计算机来重新编程,但是编程效率依然非常低,据说一个简单程序在 ENIAC 上编程最多要花费三个星期。

    3.2K82

    【译】如何通过 Google Spanner 实现万亿级数据存储与5个九的高可用性

    Colossus 文件系统Tablets 存储在 Colossus 上,这是 Google 的分布式文件系统。...Colossus 提供了容错性和高性能存储,使得 Spanner 能够实现存储与计算资源的独立扩展。 Splits表中的数据依据连续的键值范围进行划分,这些范围称为 splits。...所有数据均存储在 Colossus 上,该系统为分布式、复制的文件存储而设计,通过在多台物理机器间复制数据来确保高耐久性,从而在硬件故障时能够恢复数据。...所有写操作的数据均存储于 Google 的 Colossus 分布式文件系统中,该系统通过将数据复制到多台物理机器上,即使部分机器或区域出现故障,也能从其他副本中恢复数据。

    53600

    浅析三款大规模分布式文件系统架构设计

    这里不得不提一下,GFS 的下一代产品: Colossus。由于 GFS 的架构设计存在明显的扩展性问题,所以 Google 内部基于 GFS 继续研发了 Colossus。...Colossus 不仅为谷歌内部各种产品提供存储能力,还作为谷歌云服务的存储底座开放给公众使用。Colossus 在设计上增强了存储的可扩展性,提高了可用性,以处理大规模增长的数据需求。...下面即将介绍的 Tectonic 也是对标 Colossus 的存储系统。篇幅关系,这篇博客不再展开介绍 Colossus,有兴趣的朋友可以阅读官方博客 [2] 。...wiki/File_system [2] 官方博客: https://cloud.google.com/blog/products/storage-data-transfer/a-peek-behind-colossus-googles-file-system

    87120

    Google Spanner原理:地球上最大的单一数据库

    Colossus(GFS II) Colossus也是一个不得不提起的技术。他是第二代GFS,对应开源世界的新HDFS。GFS是著名的分布式文件系统。 ? 初代GFS是为批处理设计的。...Colossus是第二代GFS。Colossus是Google重要的基础设施,因为他可以满足主流应用对FS的要求。...Colossus的重要改进有: · 优雅Master容错处理 (不再有2s的停止服务时间) · Chunk大小只有1MB (对小文件很友好) · Master可以存储更多的...Metadata(当Chunk从64MB变为1MB后,Metadata会扩大64倍,但是Google也解决了) Colossus可以自动分区Metadata。...每个数据中心会运行一套Colossus (GFS II) 。每个机器有100-1000个tablet。Tablet概念上将相当于数据库一张表里的一些行,物理上是数据文件。

    13.3K92
    领券