首页
学习
活动
专区
圈层
工具
发布

#gpu

Meta AI网络架构深潜:30倍跨园区长尾延迟下,NCCLX如何支撑Llama 4 十万卡GPU集群线性扩展?

AGI小咖

本文作为Meta AI网络架构系列第五篇,深度剖析Meta为支撑Llama 4训练构建的10万卡级分布式AI集群:物理层依托 ATSW汇聚层、76个正交平面与...

7210

ESUN诞生记:OCP 2025下,博通、英伟达与吉瓦(GW)级GPU买家的“新阳谋”

AGI小咖

OCP 2025惊天变局!Oracle、OpenAI、Meta和Anthropic等吉瓦级(GW)数据中心建设如火如荼,吉瓦(GW)级GPU买家“新阳谋”——...

3410

媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡集群网络?

AGI小咖

当AI模型的参数量跨越万亿和训练集群的规模迈向数万GPU时,连接它们的网络便从幕后英雄变成了性能的“主战场”。传统网络方案在如此巨大的“数据洪流”面前遇到了前所...

3310

Nvidia SCADA:GPU如何驾驭数据,突破内存墙?

数据存储前沿技术

ChatGPT的横空出世,不仅引爆了全球AI热潮,更悄然改变了数据中心的计算支出结构。曾几何时,CPU主导着绝大部分投入,但如今,GPU等加速器的支出正以前所未...

8910

GPU存储I/O瓶颈:三星AiSiO如何破局?

数据存储前沿技术

在AI大模型和高性能计算(HPC)的浪潮下,GPU作为算力核心,其惊人的计算能力正面临一个日益凸显的瓶颈:数据I/O效率低下。您的GPU是否也常常处于“饥饿”状...

5900

打破GPU存储孤岛,构建开放数据高速公路

数据存储前沿技术

随着大模型训练和推理任务的日益复杂,一个严峻的挑战浮出水面:我们是否被“孤岛化”的存储架构所束缚,限制了GPU的真正潜能? 传统的GPU服务器本地NVMe存储虽...

4610

NVIDIA cuTile这么好,你的GPU支持么?

GPUS Lady

2025年,NVIDIA推出CUDA 13.1版本,其中最引人注目的创新是NVIDIA CUDA Tile(简称Cutile)。这一技术标志着自2006年CUD...

10010

刚刚,国产GPU赛道又跑出一个 2700 亿估值独角兽!“中国AMD”沐曦股份完成 IPO,开盘大涨超 500%

深度学习与Python

继摩尔线程 2025 年 12 月 5 日登陆科创板,并在首日经历股价暴涨之后,国产 GPU 行业迎来第二位重量级选手——沐曦集成电路(上海)股份有限公司(以下...

8110

ollama v0.13.1 发布:全新 Ministral-3 与 Mistral-Large-3 模型,增强工具调用与GPU

福大大架构师每日一题

Ollama 2025年12月3日发布了 v0.13.1 版本更新,本次更新重点引入了两个新的模型家族,并带来了多项功能增强、错误修复及底层改进,进一步提升了模...

15610

ollama v0.12.11 发布:支持Logprobs与WebP图片,性能与GPU优化全面升级

福大大架构师每日一题

2025年11月14日,Ollama 正式发布了 v0.12.11 版本,并在 11 月 12 日进行了预发布。本次更新为 Ollama 的 API、应用程序和...

7910

ollama v0.12.9 发布:修复 CPU Only 系统性能回退并优化 GPU 与 ROCm 支持

福大大架构师每日一题

2025年11月2日,ollama 发布了 v0.12.9 最新版本,本次更新主要针对 CPU-only 系统的性能回退问题进行了修复,同时在 GPU 设备检测...

11110

装机量超2000万、全球主流GPU与AI框架“开箱即用”!OpenCloudOS成AI时代优先选项

深度学习与Python

在大模型训练的高速迭代背景下,算力需求约每六个月翻一番,远超基础设施建设和摩尔定律的增速,同时数据中心能耗急剧攀升。

9710

在Elasticsearch中使用NVIDIA cuVS实现高达12倍速度提升的向量索引:GPU加速

点火三周

今年早些时候,Elastic宣布与NVIDIA合作,为Elasticsearch引入GPU加速,集成NVIDIA cuVS[1]。有关详细信息,可以参考NVID...

13110

AI时代底层技术链:GPU、云原生与大模型的协同进化全解析

音视频牛哥

GPU 像一个训练有素的万人方阵: 并行爆炸强 → 执行海量简单位运算(矩阵加乘)

22910

298| AI工厂GPU寿命:折旧迷思与价值重估

数据存储前沿技术

在AI技术飞速发展的今天,图形处理单元(GPU)已成为驱动AI工厂的核心引擎。然而,关于GPU的实际使用寿命及其折旧周期的讨论,正引发业界广泛关注。一种普遍的看...

17010

360环视实时性评估:GPU加速性能与AI拓展潜力-基于米尔RK3576

用户10591265

本次360环视系统原型基于米尔电子MYD-LR3576开发板进行构建与评估。该开发板所搭载的瑞芯微RK3576芯片,集成了4核Cortex-A72、4核Cort...

13510

还在拼命加 GPU?AI 应用规模化的下半场,拼的是这五大软件“新基建”

深度学习与Python

过去十年,我们通过中间件、数据库与容器技术,奠定了云原生应用基础设施(Application Infra)的基石。我们利用消息队列、实时计算与分布式存储,铺设了...

13610

如何为 GPU 提供充足存储:AI 训练中的存储性能与扩展性

深度学习与Python

在 AI 训练中,业界往往将关注点集中在计算资源上,但如果存储性能不足,GPU 无法被充分利用,计算效率将会大幅受限。因此,存储系统的性能对于提升整体训练效率至...

12510

MAC使用MPS进行GPU深度模型训练(MPS替代CUDA)

老周聊架构

随着深度学习的广泛应用,硬件加速成为了模型训练的重要因素。GPU凭借其强大的并行计算能力,已经成为深度学习训练的首选设备。然而,在不同的操作系统上,由于硬件厂商...

34110
领券