首页
学习
活动
专区
圈层
工具
发布

#gpu

LLM分布式推理终极方案——以GPU为中心的云原生架构

皮振伟

这三级缓存架构依然遵循“速度越快,单位成本越高,容量越小”的金字塔型结构。例如,NVMe的性能远低于DDR,但1TB内存的成本约为NVMe的30~100倍,因此...

3300

大厂裁员17万人的真相:你的年薪,只值8张GPU

老周聊架构

Meta 本周启动了首轮大规模裁员,砍掉约 8000 个岗位,占员工总数的 10%。Amazon 近几个月裁掉约 3 万人。Microsoft 向约 12.5 ...

4510

手撕 GPT#01:五分钟上手,手把手带你用CPU 原生训练中文GPT模型,“我没有 GPU”的问题解了!!!

烟雨平生

问:什么是注意力机制? 答:注意力机制通过计算查询和键的相关性分配权重,让模型动态关注最相关的部分。 问:RoPE 是什么? 答:RoPE 是旋转位置编码,...

7810

陈立武:Intel 18A良率狂飙,CPU与GPU配比将转向4:1

芯智讯

5月20日消息,英特尔CEO 陈立武近日在接受CNBC 的《Mad Money》 节目采访时强调,英特尔的晶圆制造工厂“非常重要”,并且称其为美国的“国家宝藏”...

11510

Elasticsearch 向量索引速度提升 12 倍:在 GPU 和 CPU 层部署 NVIDIA cuVS

点火三周

NVIDIA cuVS 在 GPU 上构建 HNSW 图,使 Elasticsearch 中的向量索引速度最高提升 12 倍。本文将介绍两种生产部署模式:模式 ...

8610

读懂CUDA流:解锁GPU并行计算的核心关键

GPUS Lady

在入门GPU编程,尤其是基于CUDA的并行开发时,大多数开发者会重点关注核函数、显存拷贝、算力调度等核心内容,却常常忽略一个决定GPU计算效率的核心细节——CU...

15510

别再只堆 GPU 了!RAG 扛不住高并发,是因为你没懂这三件事

java金融

报警群里疯狂刷屏:“RAG 服务 P99 延迟超过 30s!”“GPU 利用率 100% 但请求全在排队!”“客服那边炸了,用户投诉进不来了!”

9710

CPU vs. GPU - 一个诸葛亮顶不住一万个臭皮匠

Crossin先生

如今大家聊起电脑,第一句问的不再是“你 CPU 几核的?”,而是“显卡是什么型号?显存多大?够跑大模型吗?”

12310

我给一个推理服务做 K8s 上线前预检

goodgood_live

服务用 vLLM 跑,目标是放到 K8s 里给内部测试环境用。接口在单机上能返回结果,但我不想直接把 Deployment 扔进集群里等报错,所以先按几层拆开看...

12710

Java AI 框架,让 YOLO 在 JVM 里原生跑 GPU

javpower

你团队的技术栈是 Java,老板突然说:"加个 AI 检测功能,识别产线上的缺陷。"

11810

打破认知:GPU Warp的“分工革命”——从SIMT到最优调度

GPUS Lady

提到GPU的并行计算,很多人都知道一个基础概念:GPU会将线程分成32个一组的“线程束”(warp)来执行。但今天我们要聊的,远不是这个入门知识点——而是一个更...

12810

打破刻板印象:JAX 早已全面适配 NVIDIA GPU,轻松微调 Llama 3.1

GPUS Lady

在大模型高速发展的当下,PyTorch、TensorFlow 是大众最熟悉的深度学习框架,但还有一款高性能科学计算与 AI 框架JAX,长期笼罩在一层认知迷雾里...

12810
领券