首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >有人拿当今最强GPU A6000和3090做了性能对比,网友:都买不起

有人拿当今最强GPU A6000和3090做了性能对比,网友:都买不起

作者头像
机器之心
发布于 2023-03-29 09:30:28
发布于 2023-03-29 09:30:28
4.8K0
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:泽南

又到了人们喜闻乐见的显卡对决时间。

虽然如今人们用来训练深度学习的 GPU 大多出自英伟达,但它旗下的产品经常会让人在购买时难以抉择。

去年 12 月,英伟达将专业图形加速显卡产品线更新至安培架构,其中最高端的 RTX A6000 是最被人关注的一款。

在基本规格上,A6000 基于完整的 GA102 GPU 核心打造,内建 10752 个 CUDA 核心和第三代 Tensor Core,单精度浮点性能达到了 38.7 TFLOPs。它的显存容量达到 48GB,类型是 GDDR6(16Gbps,GDDR6X 因为单芯片容量低而未使用),支持 ECC 校验。

A6000 采用了传统涡轮直吹风扇设计,可搭建 96GB 显存的双卡系统,PCIe 4.0 x16 插槽,提供 4 个 DP 1.4 接口(没有 HDMI),额定功耗 300W。这款显卡的定价为 5500 美元(约合 3.6 万元)。

而更早推出的旗舰消费级显卡 RTX 3090 无论是从性能还是能效都达到了前代产品的两倍,在开始出售的一段时间因为芯片产能受限等问题而一卡难求。

作为游戏玩家和深度学习从业者眼中目前最强大的显卡,3090 拥有 10496 个 CUDA 核心,FP32 浮点性能为 35.6 TFLOPs。它的显存容量为 24GB,材质也是最贵的 GDDR6X,又因为支持 HDMI 2.1 而可以实现 4k 高刷新率或 8k 游戏,额定功耗 350W。RTX 3090 的售价是 1500 美元(国行公版 11999 元)。

 对这两款显卡进行评测的 Lambda 是一家构建深度学习服务器的公司,他们提供专用的 AI 训练计算机,也经常发布深度学习硬件的测评。在这次评测中,人们对这些顶级 GPU 在深度学习框架 PyTorch 上的模型训练速度进行了对比。

A6000 对 3090,这是英伟达两条产品线上最强显卡的对决,身处深度学习实验室的你当然希望知道它们孰优孰劣。不过讲道理,看到这个标题第一反应还是买不起:

听君一席话如同听君一席话,总之还是买不起。

从评测结果上来看,买 RTX A6000 花上三倍的钱并不能让你在深度学习的任务上获得多少优势:

  • 使用 PyTorch 训练图像分类卷积神经网络时,在 32-bit 精确度上,一块 RTX A6000 的速度是 RTX 3090 的 0.92 倍;如果使用混合精度则是 1.01 倍。
  • 使用 PyTorch 训练语言模型 transformer 时,在 32-bit 精确度上,一块 RTX A6000 的速度是 RTX 3090 的 1.34 倍;使用混合精度也是 1.34 倍。
  • 在并联多卡时,使用 PyTorch 训练图像分类卷积神经网络,在 32-bit 精确度上,八块 RTX A6000 的速度是八块 RTX 3090 的 1.13 倍;如果使用混合精度则是 1.14 倍。
  • 使用 PyTorch 框架训练语言模型 transformer,在 32-bit 精确度上,八块 RTX A6000 的速度是八块 RTX 3090 的 1.36 倍;如果使用混合精度则是 1.33 倍。

所以,看来如果想在深度学习任务上展现 A6000 的能力,还需要多买几块 GPU。

3090 和 A6000 在 PyTorch 卷积神经网络训练上的能力对比

如图所示,使用单块 RTX A6000 进行图像模型的 32 位训练时要比使用单块 RTX 3090 稍慢。但由于 GPU 之间的通信速度更快,显卡越多则 A6000 优势越明显。视觉模型的测试成绩是在 SSD、ResNet-50 和 Mask RCNN 上取平均值得出的。

3090 和 A6000 在 PyTorch 框架上训练语言模型的能力对比

与图像模型不同,对于测试的语言模型,RTX A6000 始终比 RTX 3090 快 1.3 倍以上。这可能是由于语言模型对于显存的需求更高了。与 RTX 3090 相比,RTX A6000 的显存速度更慢,但容量更大。语言模型的测试结果是 Transformer-XL base 和 Transformer-XL large 的平均值。

请注意,在这里 GPU 的并联都使用了 NVLink 而不是 SLI。不过根据硬件本身的机制,如果使用 SLI 性能损失会更大,所以并没有理由使用后者。

Lambda 开放了此次测评的代码:https://github.com/lambdal/deeplearning-benchmark

看到这里,你应该能找到自己的 GPU 选择了。未来,这家公司还将计划使用和本次测试同样的内容,研究 3080Ti 的深度学习能力。

参考内容:

https://lambdalabs.com/blog/nvidia-rtx-a6000-vs-rtx-3090-benchmarks/

NVIDIA对话式AI开发工具NeMo的应用

开源工具包 NeMo 是一个集成自动语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)的对话式 AI 工具包,便于开发者开箱即用,仅用几行代码便可以方便快速的完成对话式 AI 场景中的相关任务。

8月12日开始,英伟达专家将带来三期直播分享,通过理论解读和实战演示,展示如何使用 NeMo 快速完成文本分类任务、快速构建智能问答系统、构建智能对话机器人

直播链接:https://jmq.h5.xeknow.com/s/how4w(点击阅读原文直达)

报名方式:进入直播间——移动端点击底部「观看直播」、PC端点击「立即学习」——填写报名表单后即可进入直播间观看。

交流答疑群:直播间详情页扫码即可加入。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RTX 40时代,给深度学习买的显卡居然能保值9年?仔细一算绷不住了
选自timdettmers.com 作者:Tim Dettmers 机器之心编译 编辑:泽南 FP8 训练带来的速度提升可能要一统 AI 领域,但这是我要考虑的问题吗? 深度学习对于算力的要求很高,对于个人来说,GPU 的选择很大程度上决定了你的工作、学习体验。显卡既贵又复杂,如果想购买新的 GPU,哪些功能最重要?内存、核心、Tensor Core 还是缓存?如何做出性价比高的选择?每出一代新 GPU 这些问题就要重新审视一番。 近日,华盛顿大学在读博士 Tim Dettmers 通过一篇长文在 RTX
机器之心
2023/03/29
1.5K0
RTX 40时代,给深度学习买的显卡居然能保值9年?仔细一算绷不住了
8张3090,1天压缩万亿参数大模型!3.2TB骤降至160GB,压缩率高达20倍
随着GPT-4的架构被知名业内大佬「开源」,混合专家架构(MoE)再次成为了研究的重点。
新智元
2023/11/02
3640
8张3090,1天压缩万亿参数大模型!3.2TB骤降至160GB,压缩率高达20倍
NVIDIA消费级显卡4060/4090 AI训练能效比较
NVIDIA GeForce RTX 4060 是基于Ada Lovelace架构的一款显卡,它被设计为中端市场的产品,旨在提供高性能的同时保持相对较低的功耗和价格点。
用户7353950
2024/07/05
4K0
NVIDIA消费级显卡4060/4090 AI训练能效比较
英伟达A100 GPU的核心数,Tesla系列
GeForce RTX是英伟达(NVIDIA)公司旗下的一个高端显卡系列。其中,“GeForce”是英伟达推出的显卡品牌,广泛应用于游戏、图形设计、视频编辑等多个领域,以其出色的图形处理能力和性能而著称。“RTX”则代表了该系列显卡所具备的特殊技术和功能,具体来说,“RTX”是Ray Tracing Texel eXtreme的缩写,意味着光线追踪技术的极致表现。
zhangjiqun
2024/07/31
7360
深度学习的显卡对比评测:2080ti vs 3090 vs A100
显卡大幅降价了但是还可以再等等,新的40系列显卡也要发售了,所以我们先看看目前上市的显卡的性能对比,这样也可以估算下40显卡的性能,在以后购买时作为参考。
deephub
2022/04/14
5.4K0
深度学习的显卡对比评测:2080ti vs 3090 vs A100
民间大神魔改 4090 48G 秒杀 5090!老黄显卡炒作被打脸,“最失败 50 系显卡”也支棱起不来了?
近期,淘宝和闲鱼上很多厂家在出售至少 2.2 万的 4090 48G 显卡,这是一款“全新”、非官方规格的显卡。淘宝厂家甚至给出了基础款和升级款两种选择,其中基础款用的是拆机进口颗粒(19000 频率)和非定制全新 PCB 板,耐久度略低,升级版则用的是全新进口颗粒(21000 频率)和全新定制 PCB 板,耐久度高。不过厂家保证这两款都在前期性能稳定,并质保三年。
深度学习与Python
2025/03/10
1K0
民间大神魔改 4090 48G 秒杀 5090!老黄显卡炒作被打脸,“最失败 50 系显卡”也支棱起不来了?
如何为深度学习选择最佳 GPU ?
Hello folks,我是 Luga,今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。
Luga Lee
2024/11/18
7990
如何为深度学习选择最佳 GPU ?
英伟达发布4090超级核弹!台积电4nm,顶配12999元起,性能暴涨4倍
---- 新智元报道   编辑:编辑部 【新智元导读】英伟达40系显卡终于来了,看完发布会的发烧友们,纷纷表示自己30系还能再战三年。 在全球DIY玩家们喜迎矿难、30系显卡价崩之际,在「你,我,200,飞」成真的大喜氛围中,英伟达矿业集团(bushi)一年一度的盛会GTC 2022如期而至! 昨天晚上,老黄穿着那件万年不变的皮衣,发布了玩家们期盼已久的40系显卡: 24GB显存的RTX 4090,以及16GB和12GB显存的RTX 4080,代号「Ada」。 不用说,发烧友们最先关心的就是卖多少钱
新智元
2022/09/22
8030
英伟达发布4090超级核弹!台积电4nm,顶配12999元起,性能暴涨4倍
英伟达新卡皇3090Ti:功耗飙至450W换来性能涨11%
就在正在召开的CES 2022上,英伟达推出了比“性能猛兽”3090更强悍的新一代旗舰显卡GeForce RTX 3090 Ti。
量子位
2022/01/14
1K0
英伟达新卡皇3090Ti:功耗飙至450W换来性能涨11%
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
关键词:M2芯片;Ultra;M1芯片;UltraFusion;ULTRAMAN;RTX4090、A800;A100;H100;LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、大型语言模型、通用人工智能、GPU服务器、GPU集群、大模型训练GPU集群、大语言模型
液冷服务器
2023/07/28
2.3K0
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
【AI系统】GPU 架构回顾(从2018年-2024年)
2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的专门执行单元,深度学习计算核心)、CUDA 和 CuDNN 库的不断改进,更好地应用于深度学习推理。RT Core(Ray Tracing Core)提供实时的光线跟踪渲染,包括具有物理上精确的投影、反射和折射,更逼真的渲染物体和环境。支持 GDDR6 内存,与 GDDR5 内存相比,拥有 14 Gbps 传输速率,实现了 20%的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽,使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。
用户11307734
2024/11/27
4420
【玩转 GPU】初探大模型、Stable Diffusion所需GPU配置(根据需求提供不同选择)
部署Falcon-40B、MPT-30B 和 Stable Diffusion 应该使用哪些 GPU 方案?本文将对每一种模型部署所需GPU提供多种方案——性能型、均衡型、经济型。
Regan Yue
2023/07/30
3.5K0
英伟达一大波硬件来袭:今日GTC发布专业GPU与DPU,为收购ARM将在英国建超算
英伟达今天在线上召开了2020年GPU技术大会(GTC)。黄仁勋又一次在自家厨房发布了多款新硬件:
量子位
2020/10/26
6550
英伟达一大波硬件来袭:今日GTC发布专业GPU与DPU,为收购ARM将在英国建超算
大年三十炼丹么?这里有900张GPU,快来白嫖
杨净 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 在学校里学AI最头疼的是什么? 排第一的肯定是组里算力不够,而且是永远不够,即使春节都不够。 我一个师妹最近就向我吐槽: 找导师吵了架终于在春节前回了老家,但过年时间也得炼丹! 实验室的显卡还不够用,现在家里只有个笔记本,根本跑不动! 我去问了一圈,发现AI学子春节也要炼模型这种事,还挺普遍。 比如投国际会议的,ECCV今年截止日期是3月7日,时间很紧张。 CVPR更要命,Rebuttal截止到2月1日大年初一早上8点,大年三十晚上写论文,真·难
量子位
2022/03/04
4.5K0
深度学习最佳 GPU,知多少?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景中一个至关重要的解决方案:如何选型高效、灵活的 GPU 方案。
Luga Lee
2025/01/07
7680
深度学习最佳 GPU,知多少?
深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?
---- 新智元报道   编辑:Joey David 【新智元导读】最近,曾拿到斯坦福、UCL、CMU、NYU博士offer、目前在华盛顿大学读博的知名测评博主Tim Dettmers在自己的网站又上线了深度学习领域的GPU深度测评,到底谁才是性能和性价比之王? 众所周知,在处理深度学习和神经网络任务时,最好使用GPU而不是CPU来处理,因为在神经网络方面,即使是一个比较低端的GPU,性能也会胜过CPU。 深度学习是一个对计算有着大量需求的领域,从一定程度上来说,GPU的选择将从根本上决定深度学习的体
新智元
2023/02/24
2.3K0
深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?
【玩转 GPU】英伟达GPU架构演变
1999年,英伟达发布第一代GPU架构GeForce 256,标志着GPU时代的开始。随后,英伟达推出了Tesla、Fermi、Kepler、Maxwell、Pascal、Volta、Turing和Ampere等GPU架构,不断增强GPU的计算能力和程序性,推动GPU在图形渲染、人工智能和高性能计算等领域的应用。
疯狂的KK
2023/06/08
11.8K0
【玩转 GPU】英伟达GPU架构演变
2021年该如何选择深度学习工具?这款数据科学工作站了解一下
机器之心发布 机器之心编辑部 6 月 12 日机器之心 CVPR 2021 论文分享会上,惠普将展示一款强大的数据科学工作站。 AI 研发者们想要找到一台能够稳定跑深度学习算法的电脑,其实是一件有点挑战性的事。 DIY 是一个常见的思路,不过对于那些选择自行搭建系统的人来说,从主板到电源一切细节都要慢慢学起,还经常会遇到这样那样的问题;同时,如何保证各硬件都能协调运行,达到所需的性能,也是一大难题;另一方面,在全球芯片短缺的当下,要获得一块能满足 AI 研发需求的显卡也并非易事。在此基础上,研发者还需要自己
机器之心
2023/03/29
3630
2021年该如何选择深度学习工具?这款数据科学工作站了解一下
7199元起,英伟达RTX 40系显卡终于来了:基础性能翻倍,光追翻4倍
机器之心报道 编辑:泽南、杜伟 最高端的 RTX4090 性价比最高,你没想到吧? 虽然因为产品太贵而被吐槽,但提起最强 AI 芯片、高端游戏 GPU,人们还是首先要看英伟达。9 月 20 日晚,GTC 大会在线上召开,万众期待的 RTX 40 系列显卡终于正式发布了。 与以往稍有不同,这场重要的 Keynote 显得朴实无华而且「简短」,黄仁勋直接站在空旷的元宇宙里开讲: ‍ 一个半小时收工。 在这场活动中,英伟达展示了 RTX、AI 芯片和元宇宙产品线 Omniverse 的最新进展,还包括它们对人
机器之心
2022/09/22
1.1K0
7199元起,英伟达RTX 40系显卡终于来了:基础性能翻倍,光追翻4倍
各花入各眼,一文看尽英伟达GTC 2022
在今年的秋季 GTC 上,英伟达展示了 RTX、AI、Omniverse的最新进展,还包括其在人工智能领域的新突破。下面我们一起看看今年又有哪些新花样吧。 Ada Lovelace GPU 在GTC 2022上,英伟达推出了第3代RTX架构——Ada Lovelac。据介绍,Ada GPU可实现2倍的传统光栅化游戏性能提升,对光线追踪游戏的性能提升可以高达4倍。相较上一代Ampere架构,Ada在相同功耗下可带来超过2倍的性能提升。 英伟达在 Ada 架构中引入了 DLSS 3,其可以在分辨率提升的同时
SDNLAB
2022/09/22
9310
各花入各眼,一文看尽英伟达GTC 2022
推荐阅读
相关推荐
RTX 40时代,给深度学习买的显卡居然能保值9年?仔细一算绷不住了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档