首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密

英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密

作者头像
量子位
发布于 2024-03-20 06:10:36
发布于 2024-03-20 06:10:36
1890
举报
文章被收录于专栏:量子位量子位

整个AI圈最想知道的秘密,被老黄在PPT某页的小字里写出来了?

时隔两年,英伟达官宣新一代Blackwell架构,为AI带来30倍推理加速。定位直指“新工业革命的引擎” 。

老黄PPT中拿了一个1.8万亿参数MoE的GPT系列大模型测试结果来证明。

眼尖的网友当场就盯上了这行不起眼的小字,截图发出神秘暗号。‍‍‍‍‍‍‍

1.8万亿参数、MoE架构,与初代GPT-4的细节传闻一毛一样,32k序列长度也能对得上。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

刚升任研究经理不久的英伟达科学家Jim Fan,甚至直接摊牌了。

表达摩尔定律已经限制不住英伟达了的同时,直接点破了这层窗户纸。‍‍‍‍‍

不过个秘密之所以能以这种形式半官方确认,很可能说明对OpenAI来说已经无关紧要了。

很多人相信,最新版gpt-4-turbo经过一轮轮的优化,已经蒸馏到更小规模。

说回到英伟达GTC大会本身,作为架构更新的大年,老黄的主题演讲亮点颇多:

  • 宣布GPU新核弹B200,超级芯片GB200
  • Blackwell架构新服务器,一个机柜顶一个超算
  • 推出AI推理微服务NIM,要做世界AI的入口
  • 新光刻技术cuLitho进驻台积电,改进产能。 ……

8年时间,AI算力已增长1000倍。

老黄断言“加速计算到达了临界点,通用计算已经过时了”。

我们需要另一种方式来进行计算,这样我们才能够继续扩展,这样我们才能够继续降低计算成本,这样我们才能够继续进行越来越多的计算。

老黄这次主题演讲题目为《见证AI的变革时刻》,但不得不说,英伟达才是最大的变革本革。

GPU的形态已彻底改变

我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。

Blackwell新架构硬件产品线都围绕这一句话展开。

通过芯片,与芯片间的连接技术,一步步构建出大型AI超算集群。

4nm制程达到瓶颈,就把两个芯片合在一起,以10TB每秒的满血带宽互联,组成B200 GPU,总计包含2080亿晶体管。

内存也直接翻倍,高达192GB的HBM3e高速内存。‍‍‍‍‍‍‍‍

没错,B100型号被跳过了,直接发布的新架构首个GPU就是B200。

两个B200 GPU与Grace CPU结合就成为GB200超级芯片,通过900GB/s的超低功耗NVLink芯片间互连技术连接在一起。

两个超级芯片装到主板上,成为一个Blackwell计算节点。

18个这样的计算节点共有36CPU+72GPU,组成更大的“虚拟GPU”。

它们之间由今天宣布的NVIDIA Quantum-X800 InfiniBand和Spectrum™-X800以太网平台连接,可提供速度高达800Gb/s的网络。

在NVLink Switch支持下,最终成为“新一代计算单元”GB200 NVL72

一个像这样的“计算单元”机柜,FP8精度的训练算力就高达720PFlops,直逼H100时代一个DGX SuperPod超级计算机集群(1000 PFlops)。

与相同数量的72个H100相比,GB200 NVL72对于大模型推理性能提升高达30倍成本和能耗降低高达25倍

把GB200 NVL72当做单个GPU使用,具有1.4EFlops的AI推理算力和30TB高速内存。

再用Quantum InfiniBand交换机连接,配合散热系统组成新一代DGX SuperPod集群。

DGX GB200 SuperPod采用新型高效液冷机架规模架构,标准配置可在FP4精度下提供11.5 Exaflops算力和240TB高速内存。

此外还支持增加额外的机架扩展性能。

最终成为包含32000 GPU的分布式超算集群。

老黄直言,“英伟达DGX AI超级计算机,就是AI工业革命的工厂”。

将提供无与伦比的规模、可靠性,具有智能管理和全栈弹性,以确保不断的使用。

在演讲中,老黄还特别提到2016年赠送OpenAI的DGX-1,那也是史上第一次8块GPU连在一起组成一个超级计算机,当时只有0.17 PFlops。‍

从此之后便开启了训练最大模型所需算力每6个月翻一倍的增长之路。

GPU新核弹GB200

过去,在90天内训练一个1.8万亿参数的MoE架构GPT模型,需要8000个Hopper架构GPU,15兆瓦功率。

如今,同样给90天时间,在Blackwell架构下只需要2000个GPU,以及1/4的能源消耗。

在标准的1750亿参数GPT-3基准测试中,GB200的性能是H100的7倍,提供的训练算力是H100的4倍。

Blackwell架构除了芯片本身外,还包含多项重大革新:

  • 第二代Transformer引擎

动态为神经网络中的每个神经元启用FP6和FP4精度支持。

  • 第五代NVLink高速互联

为每个GPU 提供了1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通信。

  • Ras Engine(可靠性、可用性和可维护性引擎)

基于AI的预防性维护来运行诊断和预测可靠性问题。

  • Secure AI

先进的加密计算功能,在不影响性能的情况下保护AI模型和客户数据,对于医疗保健和金融服务等隐私敏感行业至关重要。

  • 专用解压缩引擎

支持最新格式,加速数据库查询,以提供数据分析和数据科学的最高性能。

在这些技术加持下,一个GB200 NVL72就最高支持27万亿参数的模型

假如初代GPT-4真是1.8万亿参数,一台GB200 NVL72就能跑15个GPT-4。‍‍‍‍‍‍‍‍

英伟达要做世界AI的入口

老黄官宣ai.nvidia.com页面,要做世界AI的入口。

任何人都可以通过易于使用的用户界面体验各种AI模型和应用。

同时,企业使用这些服务在自己的平台上创建和部署自定义应用,同时保留对其知识产权的完全所有权和控制权。

这上面的应用都由英伟达全新推出的AI推理微服务NIM支持,可对来自英伟达及合作伙伴的数十个AI模型进行优化推理。

此外,英伟达自己的开发套件、软件库和工具包都可以作为NVIDIA CUDA-X™微服务访问,用于检索增强生成 (RAG)、护栏、数据处理、HPC 等。

比如通过这些微服务,可以轻松构建基于大模型和向量数据库的ChatPDF产品,甚至智能体Agent应用。

NIM微服务定价非常直观,“一个GPU一小时一美元”,或年付打五折,一个GPU一年4500美元。

从此,英伟达NIM和CUDA做为中间枢纽,连接了百万开发者与上亿GPU芯片。

什么概念?

老黄晒出AI界“最强朋友圈”,包括亚马逊、迪士尼、三星等大型企业,都已成为英伟达合作伙伴。

最后总结一下,与往年相比英伟达2024年战略更聚焦AI,而且产品更有针对性。

比如第五代NVLink还特意为MoE架构大模型优化通讯瓶颈。

新的芯片和软件服务,都在不断的强调推理算力,要进一步打开AI应用部署市场。

当然作为算力之王,AI并不是英伟达的全部。

这次大会上,还特别宣布了与苹果在Vision Pro方面的合作,让开发者在工业元宇宙里搞空间计算。

此前推出的新光刻技术cuLitho软件库也有了新进展,被台积电和新思科技采用,把触手伸向更上游的芯片制造商。

当然也少不了生物医疗、工业元宇宙、机器人汽车的新成果。

以及布局下一轮计算变革的前沿领域,英伟达推出云量子计算机模拟微服务,让全球科学家都能充分利用量子计算的力量,将自己的想法变成现。

One More Thing

去年GTC大会上,老黄与OpenAI首席科学家Ilya Sutskever的炉边对谈,仍为人津津乐道。

当时世界还没完全从ChatGPT的震撼中清醒过来,OpenAI是整个行业绝对的主角。

如今Ilya不知踪影,OpenAI的市场统治力也开始松动。在这个节骨眼上,有资格与老黄对谈的人换成了8位——

Transformer八子,开山论文《Attention is all you need》的八位作者。

他们已经悉数离开谷歌,其中一位加入OpenAI,另外7位投身AI创业,有模型层也有应用层,有toB也有toC。

这八位传奇人物既象征着大模型技术真正的起源,又代表着现在百花齐放的AI产业图景。在这样的格局中,OpenAI不过是其中一位玩家。

而就在两天后,老黄将把他们聚齐,在自己的主场。

要论在整个AI界的影响力、号召力,在这一刻,无论是“钢铁侠”马斯克还是“奥特曼”Sam Altman,恐怕都比不过眼前这位“皮衣客”黄仁勋。

……‍

最后,再来欣赏一段英伟达为Blackwell架构制作的精彩动画短片。‍‍‍‍

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代
就在刚刚结束的GTC人工智能大会上,英伟达的新一代性能巨兽Backwell诞生了!
新智元
2024/03/25
1670
老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代
英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
「这不是演唱会。你们是来参加开发者大会的!」老黄出场时,现场爆发出了巨大的欢呼声。
机器之心
2024/03/19
3340
英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达黄仁勋发布GB200,比H100推理能力提高30倍,能耗降低25倍,将AI4S能力做成微服务
「AI 的 iPhone 时刻已经到来。」黄仁勋在英伟达 GTC 2023 上的金句言犹在耳,这一年,AI 的发展也印证了其所言非虚。
HyperAI超神经
2024/03/25
5250
英伟达黄仁勋发布GB200,比H100推理能力提高30倍,能耗降低25倍,将AI4S能力做成微服务
全新“核弹”!英伟达B200发布:2080亿个晶体管,FP4算力高达40PFlops!
当地时间3月18日,人工智能(AI)芯片龙头厂商英伟达在美国加州圣何塞召开了GTC2024大会,正式发布了面向下一代数据中心和人工智能应用的“核弹”——基于Blackwell架构的B200 GPU,将在计算能力上实现巨大的代际飞跃,预计将在今年晚些时候正式出货。同时,英伟达还带来了Grace Blackwell GB200超级芯片等。
芯智讯
2024/03/19
3K0
全新“核弹”!英伟达B200发布:2080亿个晶体管,FP4算力高达40PFlops!
英伟达GTC与黄仁勋的“新故事”
今天的GTC大会上,黄仁勋拿出了全新的Blackwell Ultra GPU,以及在此基础上衍生的应用于推理、Agent的服务器SKU,也包括基于Blackwell架构的RTX全家桶,这一切都与算力有关,但接下来更重要的是,如何将源源不断算力,合理有效地消耗掉。
小腾资讯君
2025/03/24
1820
英伟达B200成本约6000美元,售价或高达4万美元!
3月20日消息,据CNBC报道,英伟达(Nvidia)CEO黄仁勋在接受其采访时表示,英伟达计划以 3 万至 4 万美元的价格出售用于 AI 和 HPC 工作负载的全新Blackwell GPU B200。不过,这只是一个大概的价格,因为英伟达更倾向于销售面向数据中心的整体解决方案,而不仅仅是芯片或加速卡本身。与此同时,Raymond James 分析师认为英伟达 B200 芯片的硬件成本约为 6,000 美元。
芯智讯
2024/03/26
3200
英伟达B200成本约6000美元,售价或高达4万美元!
专为DeepSeek类强推理加速,老黄拿出Blackwell Ultra,下代架构性能还要翻倍
「因为 AI 技术爆发,GTC 大会的规模每年都在扩大,以前人们说 GTC 是 AI 的伍德斯托克音乐节,今年我们搬进了体育场,我觉得 GTC 已经成了 AI 的超级碗,」英伟达 CEO 黄仁勋说道。「唯一的不同在于每个人都是『超级碗』的赢家。」
机器之心
2025/03/20
1160
专为DeepSeek类强推理加速,老黄拿出Blackwell Ultra,下代架构性能还要翻倍
重磅!英伟达官宣全球最强AI芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈
北京时间凌晨 4:00,大洋彼岸的美国加利福尼亚州圣何塞的圣何塞会议中心,被称为英伟达技术盛宴的 GTC 2024 大会正如火如荼地进行着。作为英伟达 2024 的开年大戏,身着标志性皮夹克的万亿富豪黄教主站在舞台中央,平静地甩出继 H100、A100 后的又一系列“核弹”级超级芯片。
深度学习与Python
2024/03/20
2320
重磅!英伟达官宣全球最强AI芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈
英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表
尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。
新智元
2025/02/15
1030
英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表
英伟达 GTC 大会携万亿参数 GPU「炸裂」 AI 行业
北京时间3月19日凌晨4点,英伟达公司创始人兼CEO黄仁勋踏上了美国加州圣何塞SAP中心的舞台,开始讲述 2024 GTC 主题演讲《见证AI的变革时刻》。
AI科技评论
2024/03/25
1590
英伟达 GTC 大会携万亿参数 GPU「炸裂」 AI 行业
【AI系统】GPU 架构回顾(从2018年-2024年)
2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的专门执行单元,深度学习计算核心)、CUDA 和 CuDNN 库的不断改进,更好地应用于深度学习推理。RT Core(Ray Tracing Core)提供实时的光线跟踪渲染,包括具有物理上精确的投影、反射和折射,更逼真的渲染物体和环境。支持 GDDR6 内存,与 GDDR5 内存相比,拥有 14 Gbps 传输速率,实现了 20%的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽,使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。
用户11307734
2024/11/27
4280
刚刚,老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世
更令人瞩目的是,DeepSeek R1推动的推理时Scaling,让Scaling Law出现了全新的发展路线。
新智元
2025/03/20
1030
刚刚,老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世
均价300万美元?英伟达GH200超级芯片落地9个超算中心,每秒两百亿亿次flop
英伟达用Grace Hopper的实力证明,它可以成为AI超算的首选硬件,未来将不再局限于GPU。
新智元
2024/05/22
3480
均价300万美元?英伟达GH200超级芯片落地9个超算中心,每秒两百亿亿次flop
英伟达DGX SuperPOD超级计算解决方案
DGX SuperPOD是英伟达推出的一种高度集成的超级计算解决方案,旨在为企业和研究机构提供高性能的人工智能计算能力。这种解决方案允许用户快速构建和部署大规模的GPU集群,以应对复杂的AI和机器学习挑战。
用户7353950
2024/11/23
4010
英伟达DGX SuperPOD超级计算解决方案
英伟达GTC | 见证AI的变革时刻
2016 年,发明了一种全新类型的计算机,我们称之为 DGX1,170 teraflops,八个 GPU 首次连接在一起,交付了第一台 DGX1 给一家位于旧金山的初创公司,名为 OpenAI。
AIGC新知
2024/10/08
1520
英伟达GTC | 见证AI的变革时刻
老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题
8年内,1.8万亿参数GPT-4的训练能耗,直接疯狂降到1/350;而推理能耗则直接降到1/45000
新智元
2024/06/05
1930
老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题
英伟达开卷价格!最新Blackwell GPU架构/成本揭秘,彰显老黄的「仁慈」
下面就让我们从规格参数、工艺节点、封装设计等方面来深入分析一下新一代Blackwell GPU的系统、定价、利润,以及Jensen's Benevolence(老黄的仁慈)
新智元
2024/04/12
3030
英伟达开卷价格!最新Blackwell GPU架构/成本揭秘,彰显老黄的「仁慈」
全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律
昨晚,英伟达创始人、CEO 黄仁勋在 2024 年 COMPUTEX 科技大会上又为全球发烧友们、显卡买家们带来了一场重磅演讲。
机器之心
2024/06/04
1970
全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律
NVLink1.0~5.0: 高速互联的架构演进之路
NVLink 的工作原理类似高速公路网络:每个 GPU 或 CPU 是“城市”,链接是“车道”,NVSwitch 则像“交通枢纽”,确保数据流畅无阻。这种设计特别适合需要大规模并行计算的场景,如 AI 模型训练和科学模拟。
通信行业搬砖工
2025/04/30
7001
NVLink1.0~5.0: 高速互联的架构演进之路
一夜暴富50亿,老黄新晋「流量明星」!英伟达市值破3万亿,超越苹果成全球第二
当地时间周三,股价涨超5%。现在的英伟达,已经成为全球第二大市值最高的公司,超越苹果,仅次微软。
新智元
2024/06/17
1430
一夜暴富50亿,老黄新晋「流量明星」!英伟达市值破3万亿,超越苹果成全球第二
推荐阅读
老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代
1670
英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
3340
英伟达黄仁勋发布GB200,比H100推理能力提高30倍,能耗降低25倍,将AI4S能力做成微服务
5250
全新“核弹”!英伟达B200发布:2080亿个晶体管,FP4算力高达40PFlops!
3K0
英伟达GTC与黄仁勋的“新故事”
1820
英伟达B200成本约6000美元,售价或高达4万美元!
3200
专为DeepSeek类强推理加速,老黄拿出Blackwell Ultra,下代架构性能还要翻倍
1160
重磅!英伟达官宣全球最强AI芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈
2320
英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表
1030
英伟达 GTC 大会携万亿参数 GPU「炸裂」 AI 行业
1590
【AI系统】GPU 架构回顾(从2018年-2024年)
4280
刚刚,老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世
1030
均价300万美元?英伟达GH200超级芯片落地9个超算中心,每秒两百亿亿次flop
3480
英伟达DGX SuperPOD超级计算解决方案
4010
英伟达GTC | 见证AI的变革时刻
1520
老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题
1930
英伟达开卷价格!最新Blackwell GPU架构/成本揭秘,彰显老黄的「仁慈」
3030
全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律
1970
NVLink1.0~5.0: 高速互联的架构演进之路
7001
一夜暴富50亿,老黄新晋「流量明星」!英伟达市值破3万亿,超越苹果成全球第二
1430
相关推荐
老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档