前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品

A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品

作者头像
机器之心
发布于 2023-09-08 01:45:18
发布于 2023-09-08 01:45:18
1.4K00
代码可运行
举报
文章被收录于专栏:机器之心机器之心
运行总次数:0
代码可运行

机器之心报道

编辑:泽南

英伟达 GPU 买不到的问题,就这样解决了?

最近,科技领域有很多人都在为算力发愁。

OpenAI CEO 奥特曼:我整天在都想着 flops。

自预训练大模型兴起以来,人们面临的算力挑战就变得越来越大。为此,人们为大语言模型(LLM)提出了许多训练和推理的解决方案。显然,大多数高性能推理解决方案都基于 CUDA 并针对英伟达 GPU 进行了优化。

但在动辄千亿参数的模型体量,多家科技公司激烈竞争,以及单一供应商的合力作用下,想抢到 GPU 又变成了一件难事。

最近,微软、OpenAI 等公司都表示正在采取必要措施来缓解用于 AI 任务的 H100、A100 专用 GPU 的短缺问题。微软正在限制员工访问 GPU 的时间,Quora 首席执行官表示,硬件短缺掩盖了人工智能应用程序的真正潜力。伊隆・马斯克还开玩笑说,企业级 GPU 比买「药」还难。

马斯克预测 GPT-5 大概需要三到五万块 H100 来训练。

旺盛的需求除了推动英伟达的股价,使其改变生产计划之外,也让人们不得不去寻求其他替代方式。好消息是,图形芯片市场上并不只有 N 卡一家。

昨天,卡耐基梅隆大学博士生侯博涵(Bohan Hou)放出了使用 AMD 显卡进行大模型推理的新方案,立刻获得了机器学习社区的关注。

在 CMU,侯博涵的导师是 TVM、MXNET、XGBoost 的作者陈天奇。对于这项新实践,陈天奇表示,解决 AI 硬件短缺问题的方法还是要看软件,让我们带来高性能、通用部署的开源大模型吧。

在知乎上,作者对于实现高性能 LLM 推理进行了详细介绍:

通过这种优化方法,在最新的 Llama2 的 7B 和 13B 模型中,如果用一块 AMD Radeon RX 7900 XTX 速度可以达到英伟达 RTX 4090 的 80%,或是 3090Ti 的 94%。

除了 ROCm 之外,这种 Vulkan 支持还允许我们把大模型的部署推广到其他 AMD 芯片类型上,例如具有 AMD APU 的 SteamDeck。

如果粗略的比较一下规格,我们可以看到 AMD 的 RX 7900 XTX 与英伟达的 RTX 4090 和 RTX 3090 Ti 处于相近级别。

它们的显存都在 24GB,这意味着它们可以容纳相同尺寸的模型,它们都具有相似的内存带宽。

但是在算力上,RTX 4090 的 FP16 性能比 7900 XTX 高两倍,而 3090 Ti 的 FP16 性能比 7900 XTX 高 1.3 倍。如果只考虑延迟敏感的大模型推理,其性能主要受内存限制,因此 FP16 性能不是这里的瓶颈。

而看价格的话,RX 7900 XTX 比 RTX 4090 便宜 40% 还多(京东上看甚至有 50%),在消费级领域里前者几乎是和 RTX 4080 对标的。

3090Ti 的价格则很难比较,毕竟那是上一代产品。但从纯硬件规格的角度来看,AMD 7900 XTX 似乎与 RTX 3090 Ti 相当。

我们知道,硬件层的算力并不一定是 AMD 长期以来在机器学习上落后的原因 —— 主要差距在于缺乏相关模型的软件支持和优化。从生态角度来看,有两个因素已开始改变现状:

  • AMD 正在努力在 ROCm 平台上增加投入。
  • 机器学习编译等新兴技术现在有助于降低跨后端的,更通用软件支持的总体成本。

研究人员深入讨论了 AMD GPU 体系与目前流行的英伟达 GPU 上高性能 CUDA 解决方案相比的表现如何。

用 ROCm 进行机器学习编译

机器学习编译

机器学习编译是一种用于编译和自动优化机器学习模型的新兴技术。MLC 解决方案不是为每个后端(如 ROCm 或 CUDA)编写特定的算子 ,而是自动生成适用于不同后端的代码。在这里,作者利用 MLC-LLM,一种基于机器学习编译的解决方案,提供了 LLM 的高性能通用部署。MLC-LLM 建立在 Apache TVM Unity 之上,后者是一个机器学习编译软件栈,提供了基于 Python 的高效开发和通用部署。MLC-LLM 为各种后端(包括 CUDA、Metal、ROCm、Vulkan 和 OpenCL)提供了最先进的性能,涵盖了从服务器级别 GPU 到移动设备(iPhone 和 Android)。

整体而言,MLC-LLM 允许用户使用基于 Python 的工作流程获取开源的大语言模型,并在包括转换计算图、优化 GPU 算子的张量 layout 和 schedule 以及在感兴趣的平台上本地部署时进行编译。

面向 ROCm 的机器学习编译技术栈。

针对 AMD GPU 和 APU 的 MLC

人们对于 A 卡用于机器学习的探索其实并不鲜见,支持 AMD GPU 有几种可能的技术路线:ROCm、OpenCL、Vulkan 和 WebGPU。ROCm 技术栈是 AMD 最近推出的,与 CUDA 技术栈有许多相应的相似之处。Vulkan 是最新的图形渲染标准,为各种 GPU 设备提供了广泛的支持。WebGPU 是最新的 Web 标准,允许在 Web 浏览器上运行计算。

虽然有这么多可能的路线,但很少有解决方案支持除了 CUDA 之外的方法,这在很大程度上是因为复制新硬件或 GPU 编程模型的技术栈的工程成本过高。MLC-LLM 支持自动代码生成,无需为每个 GPU 算子重新定制,从而为以上所有方法提供支持。但是,最终性能仍然取决于 GPU 运行时的质量以及在每个平台上的可用性。

在这个案例中,作者选择 Radeon 7900 XTX 的 ROCm 和 Steamdeck 的 APU 的 Vulkan,可以发现 ROCm 技术栈是开箱即用的。由于 TVM unity 中具有高效的基于 Python 的开发流程,花费了若干小时来进一步提供 ROCm 的性能优化。具体来说,研究人员采取了以下措施来提供 ROCm 支持:

  • 重用现有后端(如 CUDA 和 Metal)的整个 MLC 流水线,包括内存规划、算子融合等。
  • 重用 TVM TensorIR 中的通用 GPU 算子优化空间,并将其后端选为 AMD GPU
  • 重用 TVM 的 ROCm 代码生成流程,通过 LLVM 生成 ROCm 代码。
  • 最后,将生成的代码导出为可以由 CLI、Python 和 REST API 调用的共享或静态库。

使用 MLC Python 包进行性能测试

作者使用 4 bit 量化对 Llama 2 7B 和 13B 进行了性能测试。通过设置 prompt 长度为 1 个 token 并生成 512 个 token 来测量 decoding 的性能。所有结果都是在 batch size=1 的情况下测试。

AMD RX 7900 XTX 与 NVIDIA RTX 4090 和 3090 Ti 的性能对比。

基于 ROCm5.6,AMD 7900 XTX 可以达到 NVIDIA 4090 速度的 80%。

关于 CUDA 性能说明:在这里 CUDA baseline 的性能如何?据我们所知,MLC-LLM 是 CUDA 上大语言模型推理的最优解决方案。但作者相信它仍然有改进的空间,例如通过更好的 attention 算子优化。一旦这些优化在 MLC 中实现,预计 AMD 和 NVIDIA 的数据都会有所改善。

如果这些优化仅在 N 卡那里实施,将使差距从 20% 增加到 30%。因此,在查看这些数字时,作者建议放置 10% 的误差。

自行尝试

该项目提供了预构建的安装包和使用说明,以便用户在自己的设备上复现新的结果。要运行这些性能测试,请确保你的 Linux 上有安装了 ROCm 5.6 或更高版本的 AMD GPU。按照这里的说明(https://mlc.ai/mlc-llm/docs/get_started/try_out.html)安装启用了 ROCm 的预构建 MLC pacakge。

运行以下 Python 脚本,需要使用 MLC package 来复现性能数据:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from mlc_chat import ChatModule
# Create a ChatModule instance that loads from `./dist/prebuilt/Llama-2-7b-chat-hf-q4f16_1`cm = ChatModule(model="Llama-2-7b-chat-hf-q4f16_1")
# Run the benchmarksoutput = cm.benchmark_generate("Hi", generate_length=512)
print(f"Generated text:\n{output}\n")
print(f"Statistics: {cm.stats()}")
# Reset the chat module by
# cm.reset_chat()

MLC-LLM 还提供了一个命令行界面 CLI,允许用户与模型进行交互式聊天。对于 ROCm,需要从源代码构建 CLI。请按照这里的说明(https://mlc.ai/mlc-llm/docs/deploy/cli.html#option-2-build-mlc-runtime-from-source)从源代码构建 CLI。

使用统一内存在 SteamDeck 上运行 Vulkan

作者表示,还将考察更广泛的 AMD 设备,更具体地说,是搭载了 AMD APU 的 Steam Deck。虽然在 BIOS 中,ROCm 中可用的 GPU VRAM 被限制为 4GB,但 Mesa Vulkan 驱动程序具有强大的支持,允许缓冲区超越上限,使用统一内存最多可达 16GB,足以运行 4 位量化的 Llama-7B。

在 Steam Deck 上与大语言模型进行交互。

这些结果为支持更多不同类型的消费者提供了一些启示。

讨论和未来的方向

身处生成式 AI 的时代,硬件可用性已经成为一个迫切需要解决的问题。ML 编译可以通过在硬件后端之间提供高性能的通用部署,从而提高硬件的可用性。

鉴于本文所展现的数据,作者认为在适当的价格和可用性条件下,AMD GPU 可以开始用于 LLM 推理。

在陈天奇团队,研究目前的重点关注消费级 GPU。作者表示,根据过往经验,针对消费级 GPU 型号的 MLC 优化通常可以推广到云 GPU(例如从 RTX 4090 到 A100 和 A10g),有信心让该解决方案在云和消费级 AMD 和 NVIDIA GPU 之间具有普适性,并将在获得更多 GPU 访问权限后更新研究。与此同时,作者期待研究社区在 MLC 通用部署流程的基础上构建解决方案。

本文是通过 MLC 来支持高效通用的机器学习部署的研究的一个阶段性努力,研究人员也正积极地在以下几个方向上努力推广成果:

  • 启用 batching 和多 GPU 支持(对服务器端推理尤为重要);
  • 与 PyTorch 生态系统集成;
  • 支持更多量化和模型架构;
  • 在更多硬件后端上进行更多自动优化。

机器学习系统工程是一个持续的问题,在持续创新方面,英伟达仍然处于领先地位,作者预计随着新硬件(如 H100)以及更重要的软件演变,整个领域将发生变化。因此,关键问题不仅是现在构建正确的解决方案,还包括如何不断赶上并将机器学习工程引入新平台。在这个过程中,机器学习工程的生产力是关键。

由于基于 Python 的 ML 编译开发流程,我们可以在几小时内获得 ROCm 优化的支持。预计此次提出的新方法,在探索更多关于通用部署的想法并解决硬件可用性问题时会变得更加有用。

相关资源

该项目已经在 GitHub 上发布。有关如何尝试 MLC LLM 部署的详细指南,请参阅项目页面。MLC LLM 的源代码可在官方 GitHub 上找到。

  • 项目页面:https://mlc.ai/mlc-llm/docs/
  • GitHub:https://github.com/mlc-ai/mlc-llm/

参考内容:

https://blog.mlc.ai/2023/08/09/Making-AMD-GPUs-competitive-for-LLM-inference

https://zhuanlan.zhihu.com/p/649088095

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
机器之心报道 机器之心编辑部 从此,大模型可以在任何设备上编译运行。 「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」 五一假期还没过半,大模型领域的技术就已经发展到了这种程度。 对于陈天奇等人开源的新技术,大家一致的评论是「Amazing」。 最近人们都在研究 ChatGPT,大语言模型(LLM)彻底改变了科技领域的格局,但对于 AI 开发者来说,并不是人人都有上万块 A100 的。为了跑得起大模型,就要寻找各种优化方法。 在让大模型变小这条路上,人们做了很多尝试,先是 Meta 开源了
机器之心
2023/05/09
4170
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
MLC LLM——本地应用程序上原生部署任何语言模型
在AI浪潮风起云涌的当下,AI正在不断地重塑着每一个行业。在各大厂先后争先恐后地推出一系列大模型的同时,也不断出现了很多开源的大模型。今天介绍的这个出现在GitHub热榜上的项目是MLC LLM。它是一种通用解决方案,可以在各种硬件后端和本地应用程序上原生部署任何语言模型,同时为所有人提供一个高效的框架,以进一步优化模型性能以适应其自身的用例。 一切都在本地运行,无需服务器支持,并且可以在手机和笔记本电脑上通过本地GPU加速。
山行AI
2023/06/14
3.5K0
MLC LLM——本地应用程序上原生部署任何语言模型
英伟达RTX 5070评测解禁:老黄承诺4090级性能?不存在的
昨晚,英伟达 GeForce RTX 5070 显卡正式解禁,各种评测开始进入人们的视线。
机器之心
2025/03/06
2530
英伟达RTX 5070评测解禁:老黄承诺4090级性能?不存在的
如何为深度学习选择最佳 GPU ?
Hello folks,我是 Luga,今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。
Luga Lee
2024/11/18
7120
如何为深度学习选择最佳 GPU ?
英伟达发布4090超级核弹!台积电4nm,顶配12999元起,性能暴涨4倍
---- 新智元报道   编辑:编辑部 【新智元导读】英伟达40系显卡终于来了,看完发布会的发烧友们,纷纷表示自己30系还能再战三年。 在全球DIY玩家们喜迎矿难、30系显卡价崩之际,在「你,我,200,飞」成真的大喜氛围中,英伟达矿业集团(bushi)一年一度的盛会GTC 2022如期而至! 昨天晚上,老黄穿着那件万年不变的皮衣,发布了玩家们期盼已久的40系显卡: 24GB显存的RTX 4090,以及16GB和12GB显存的RTX 4080,代号「Ada」。 不用说,发烧友们最先关心的就是卖多少钱
新智元
2022/09/22
7980
英伟达发布4090超级核弹!台积电4nm,顶配12999元起,性能暴涨4倍
MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s)
我的 ChatRWKV 学习笔记和使用指南 这篇文章是学习RWKV的第一步,然后学习了一下之后决定自己应该做一些什么。所以就在RWKV社区看到了这个将RWKV World系列模型通过MLC-LLM部署在各种硬件平台的需求,然后我就开始了解MLC-LLM的编译部署流程和RWKV World模型相比于MLC-LLM已经支持的Raven系列模型的特殊之处。
BBuf
2023/09/08
1K0
MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s)
GPU的2023:短缺缓解,但价格似乎仍将上涨
选自arstechnica 作者:Andrew Cunninghan 机器之心编译 编辑:袁铭怿 2022 年,随着加密货币的崩溃和 PC 销量的下降,此前 GPU 供不应求的局面有所好转,但目前看来,价格没有回落的迹象。 近日,英伟达新发布的几款中高端 GPU 的价格较之前均有上涨,高端 GPU 的价格更是超出 1000 美元,但新一代 GPU 的性能似乎没有跟上飞涨的价格,已经有很长一段时间没有出现像 1060 那样高性价比的 GPU 了。 从左到右,从大到小分别是:GeForce RTX 4080(
机器之心
2023/03/29
7920
GPU的2023:短缺缓解,但价格似乎仍将上涨
英伟达中文官网删除4090,芯片出口禁令范围扩大,A40、A6000赫然在列
当地时间 11 月 16 日,由美国商务部工业与安全局 (BIS) 发布的芯片和半导体设备出口限制新规(下文简称芯片出口限令)正式生效。
HyperAI超神经
2023/11/22
2.7K0
英伟达中文官网删除4090,芯片出口禁令范围扩大,A40、A6000赫然在列
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 现在,只需一个浏览器,就能跑通“大力出奇迹”的大语言模型(LLM)了! 不仅如此,基于LLM的类ChatGPT也能引进来,而且还是不需要服务器支持、WebGPU加速的那种。 例如这样: 这就是由陈天奇团队最新发布的项目——Web LLM。 短短数日,已经在GitHub上揽货3.2K颗星。 一切尽在浏览器,怎么搞? 首先,你需要下载Chrome Canary,也就是谷歌浏览器的金丝雀版本: 因为这个开发者版本的Chrome是支持WebGPU的,否则就
量子位
2023/05/06
3990
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
MLC LLM - 手机上的大模型
MLC LLM 是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上,此外还提供了一个高效的框架,供每个人根据自己的用例进一步优化模型性能。
用户1758543
2023/05/07
8450
MLC LLM - 手机上的大模型
AMD的1美元>英伟达的1.8美元!农企首席架构师整出个「AMD不等式」
---- 新智元报道   编辑:LRS 【新智元导读】显卡等等党们终于要熬出头了?最近AMD首席架构师发推,表示AMD的主战场其实是「性价比」,在AMD花一美元买到的高端显卡,在老黄那可能得花1.8美元以上。 在显卡价格飞涨的时候,竟然有人开始打价格战了? AMD游戏解决方案的首席架构师Frank Azor发了一条推特:「作为一个长期游戏玩家,我很高兴AMD在高端显示领域全面获胜。而作为AMD的一员,我对Radeon团队取得的成就感到自豪!」 再一细看内容,好家伙,AMD不光价格比友商便宜,性能还吊
新智元
2022/05/18
4300
AMD的1美元>英伟达的1.8美元!农企首席架构师整出个「AMD不等式」
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
昨天凌晨,相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」
机器之心
2023/08/08
5360
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
英伟达A100 GPU的核心数,Tesla系列
GeForce RTX是英伟达(NVIDIA)公司旗下的一个高端显卡系列。其中,“GeForce”是英伟达推出的显卡品牌,广泛应用于游戏、图形设计、视频编辑等多个领域,以其出色的图形处理能力和性能而著称。“RTX”则代表了该系列显卡所具备的特殊技术和功能,具体来说,“RTX”是Ray Tracing Texel eXtreme的缩写,意味着光线追踪技术的极致表现。
zhangjiqun
2024/07/31
7050
深度学习GPU最全对比,到底谁才是性价比之王? | 选购指南
张量核心、显存带宽、16位能力……各种纷繁复杂的GPU参数让人眼花缭乱,到底怎么选?
量子位
2019/04/22
1.6K0
深度学习GPU最全对比,到底谁才是性价比之王? | 选购指南
【深度学习】英伟达RTX 4080 12G换壳4070 Ti,性能接近上代旗舰3090 Ti
2022 年 10 月,英伟达决定推出 RTX 4080 12GB 显卡,但与性能更强大的 16GB 有很大差距。据相关数据显示,RTX 4080 12GB 基于 AD104 GPU,而非 16GB 的 AD103 GPU,导致 12GB 显卡的着色器或张量吞吐量仅为 16GB 的 82%、内存带宽仅为 16GB 的 70%。
黄博的机器学习圈子
2023/01/10
2.6K0
【深度学习】英伟达RTX 4080 12G换壳4070 Ti,性能接近上代旗舰3090 Ti
比英伟达便宜4000元、功耗更低、游戏性能相同,AMD发布RX 6900 XT旗舰显卡
晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI AMD全新Radeon RX 6000系列显卡来了! 今天凌晨,苏妈携RX 6800、RX 6800 XT、RX 6900 XT三款新显卡登台亮相,A卡与N卡的新一轮竞争再次拉开序幕。 AMD三款显卡分别对标英伟达RTX 3070、3080和3090,售价分别为4599元、5099元和7999元 其中旗舰显卡RX 6900 XT在4K分辨率下和RTX 3090有相同的游戏帧率,售价还比后者低1/3。是不是感觉3090顿时不香了? AMD表示,
量子位
2023/03/10
6990
比英伟达便宜4000元、功耗更低、游戏性能相同,AMD发布RX 6900 XT旗舰显卡
英伟达RTX 5090评测解禁,天赋都点在了 AI 上
本周三,各路媒体对英伟达 GeForce RTX 5090 的评测宣告解禁。基于最新 Blackwell 架构,新一代旗舰显卡无疑将成为未来几年你能买到的最好的显卡。
机器之心
2025/02/03
4300
英伟达RTX 5090评测解禁,天赋都点在了 AI 上
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
关键词:M2芯片;Ultra;M1芯片;UltraFusion;ULTRAMAN;RTX4090、A800;A100;H100;LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、大型语言模型、通用人工智能、GPU服务器、GPU集群、大模型训练GPU集群、大语言模型
液冷服务器
2023/07/28
2.3K0
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
这个夏天,跟陈天奇学「机器学习编译」中英文课程,6月17日开课!
机器之心报道 机器之心编辑部 陈天奇:「因为世界上还没有关于这个方向的系统性课程,所以这一次尝试应该会是和小伙伴们共同的探索」。 随着机器学习框架和硬件需求的发展,机器学习 / 深度学习编译正成为一个越来越受关注的话题。 在去年 12 月的一篇文章中,TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇探讨了「新一代深度学习编译技术的变革和展望」。他指出,现在深度学习编译生态正围绕四类抽象展开:计算图表示、张量程序表示、算子库和运行环境、硬件专用指令。 不过,由于篇幅受
机器之心
2022/06/07
7600
这个夏天,跟陈天奇学「机器学习编译」中英文课程,6月17日开课!
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
在图形处理器(GPU)领域,英伟达、AMD 和英特尔占据主导地位已有一段时间了。虽然中国还有其他相关企业,但他们要打入美国市场一直以来都困难重重。
深度学习与Python
2025/03/24
1220
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
推荐阅读
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
4170
MLC LLM——本地应用程序上原生部署任何语言模型
3.5K0
英伟达RTX 5070评测解禁:老黄承诺4090级性能?不存在的
2530
如何为深度学习选择最佳 GPU ?
7120
英伟达发布4090超级核弹!台积电4nm,顶配12999元起,性能暴涨4倍
7980
MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s)
1K0
GPU的2023:短缺缓解,但价格似乎仍将上涨
7920
英伟达中文官网删除4090,芯片出口禁令范围扩大,A40、A6000赫然在列
2.7K0
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
3990
MLC LLM - 手机上的大模型
8450
AMD的1美元>英伟达的1.8美元!农企首席架构师整出个「AMD不等式」
4300
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
5360
英伟达A100 GPU的核心数,Tesla系列
7050
深度学习GPU最全对比,到底谁才是性价比之王? | 选购指南
1.6K0
【深度学习】英伟达RTX 4080 12G换壳4070 Ti,性能接近上代旗舰3090 Ti
2.6K0
比英伟达便宜4000元、功耗更低、游戏性能相同,AMD发布RX 6900 XT旗舰显卡
6990
英伟达RTX 5090评测解禁,天赋都点在了 AI 上
4300
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
2.3K0
这个夏天,跟陈天奇学「机器学习编译」中英文课程,6月17日开课!
7600
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
1220
相关推荐
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验