
从算力和芯片看AI大模型:从训练到推理,重心已经改变
Google 推出了专为云计算工作负载设计的第七代芯片 Ironwood(V7)张量处理单元(TPU)。Ironwood标志着向 "推理时代" 的战略转变,专为高吞吐量、低延迟的AI服务和复杂的代理工作负载而设计。这一转变的有效性得到了市场验证,包括 Anthropic 在内的AI领导者已承诺部署多达一百万个TPU,主要原因是TPU在每代币成本方面提供了更高的经济效率。这些芯片被整合到谷歌的 AI超级计算机 平台中,该平台结合了定制的Arm架构 Axion CPU,以及利用 光学电路开关 (OCS) 实现的、可扩展至9,216个芯片的超大规模集群。此外,谷歌通过推出 vLLM TPU后端,显著简化了软件生态系统,允许开发者在TPU上运行PyTorch模型进行推理,直接挑战了 英伟达CUDA 的市场主导地位。
















原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。