在2025年的CES大会上,英伟达CEO黄仁勋在拉斯维加斯 CES 2025 展会上发表了主题演讲(keynote),涉及到的话题包括 GPU、AI、游戏、机器人等等。
演讲开篇,黄仁勋回顾了英伟达 GPU 的发展史。从 2D 到 3D,CUDA 的诞生到 RTX。而到了人工智能时代,GPU 又推动了 AI 从感知进化到生成,接下来将会是智能体,未来还很快将要有进入物理世界的人工智能。
黄仁勋的这次发布会再次震撼了科技界,带来了RTX 5090和mini算力盒子Project Digits等重磅产品。
1、新一代N卡 RTX 5090
RTX 5090是基于Blackwell架构的新一代GPU。其内置920亿个晶体管,拥有3352 TOPS的AI算力、380 RT TFLOPS的光线追踪性能以及125 Shader TFLOPS的着色单元。配备32GB GDDR7显存,显存位宽512位,CUDA核心数量达21760,内存带宽高达1.8TB/s,拥有 32 GB GDDR7 显存,功耗 575W。
在游戏领域,RTX 5090可在全光追和最高画质下,于4K 240Hz/FPS下流畅运行《赛博朋克2077》《心灵杀手2》和《黑神话:悟空》等游戏。在生成式AI方面,FP4加速使图像生成速度达到RTX 4090的2倍,同时内存使用量减半。此外,新加入的NVLink72技术,在55Gbps的传输速率下,带宽可达300GB/s。RTX 5090将于1月30日上市,起售价1999美元。
2、AI超级计算机Project Digits Project Digits是全球最小的个人AI超级计算机。它搭载GB10 Grace Blackwell超级芯片,在FP4精度下可提供高达1千万亿次的浮点运算性能。每台配备128GB的统一内存和4TB的NVMe存储,仅需标准电源插座即可运行。
该设备支持2000亿参数的大模型,两台连接在一起可支持高达4050亿参数的模型。它能与AWS、Azure以及Google Cloud等八大平台的云服务无缝连接。还附带函数应用程序软件Model Garden,其NIM微服务平台让构建AI项目变得简单易行。Project Digits预计5月左右上市,起售价3000美元。
3、发布会的深远意义 RTX 5090和Project Digits的发布,不仅展示了英伟达在GPU和AI领域的强大实力,也为未来的科技发展指明了方向。RTX 5090为游戏玩家和AI开发者提供了顶级的性能支持,而Project Digits则让AI技术更加普及,使个人和小型企业也能轻松涉足AI领域。随着这些产品的上市和应用,预计将在游戏、人工智能、自动驾驶等多个领域引发新的变革,推动科技的进一步发展。
接下来我们将从人工智能大模型角度解读新的N卡RTX4090卡在大模型领域的意义:
性能方面,拥有 920 亿晶体管、3352 AI TOPS(每秒执行万亿次运算次数)、380 RT TFLOPS(每秒执行万亿次浮点运算次数)以及 125 Shader TFLOPS(着色单元)。配备 32GB GDDR7 显存,显存位宽 512 位,CUDA 核心数量是 21760,功耗 575W。在 Blackwell 架构创新和 DLSS 4 的加持下,性能比 RTX 4090 高出了 2 倍。
新技术上,新一代超分辨率 DLSS 4 将性能提升了 8 倍,首次推出多帧生成功能提高帧速率,DLSS 4 与其他技术协同工作,性能可提高到传统渲染的 8 倍,同时保持响应速度。引入图形行业首个 Transformer 模型架构的实时应用,提供更高稳定性、更好重影、更高细节和增强抗锯齿效果。
中国区的 RTX 5090D 卡,其游戏性能基本没有阉割,依然有 21760 个 CUDA 核心,基础、加速频率也和 RTX 5090 一样,分别为 2.01GHz、2.41GHz,显存也是 32GB GDDR7,其他参数的对比如下图所示:
对标国产摩尔线程卡: 目前国产摩尔线程的显卡中,如“春晓”GPU,配备 4096 个可编程 MUSA 核心,在 1.8GHz 的主频下提供 14.4TFLOPS 的单精度浮点算力。
与 RTX 5090 相比,在一些关键性能参数上存在较大差距。例如晶体管数量、AI TOPS、光线追踪 TFLOPS 等方面,RTX 5090 都具有显著优势。
对于本地部署大模型的个人玩家: 虽然摩尔线程等国产显卡在性能上与英伟达的高端显卡还有一定差距,但在一些特定场景下,也可以作为一种可替代的选择。
例如,对于一些对算力要求不是极高的个人人工智能大模型项目,国产显卡可能能够满足基本需求。然而,要完全替代英伟达的高端显卡,目前可能还面临一些挑战。英伟达在 GPU 领域具有深厚的技术积累和广泛的软件生态支持。
不过,国产 GPU 也在不断发展和进步。例如,摩尔线程的产品在不断更新迭代,性能也在逐步提升。此外,一些国产显卡可能具有价格优势,对于预算有限的个人用户来说,也是一个考虑因素。
而且,在大模型领域,除了硬件之外,模型的优化、算法的改进以及数据的处理等方面也非常重要。通过这些方面的努力,可以在一定程度上弥补硬件性能的不足。虽然目前完全替代英伟达高端显卡可能存在困难,但国产显卡的发展为个人进行人工智能大模型的研究和开发提供了更多的选择和可能性。随着技术的不断进步,未来或许会有更具竞争力的国产替代方案出现。同时,在实际应用中,需根据具体需求和预算来综合考虑选择合适的显卡。