首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#cuda

CUDA编程革命:cuTile分块计算赋能高效GPU开发

GPUS Lady

当遇到库中缺少所需功能的情况时(这种情况可能占开发时间的10%甚至1%),或者需要将不同代码模块粘合时,我们提供了多个解决方案。

12710

GPU 编程“改朝换代”:英伟达终为 CUDA 添加原生 Python 支持,百万用户变千万?

深度学习与Python

今年,英伟达可谓是全力押注,明确表示要确保 Python 成为 CUDA 并行编程框架中的“一等公民”。

14410

最初只有12个人!英伟达早期架构师首次亲述CUDA发展全过程

Datawhale

最近,在 NVIDIA 的一次内部对话中,英伟达的三位员工 Nader、Stephen 和 Carter 三位员工分享了他们对 CUDA 技术的发展历程及其在计...

12710

CUDA工具集合与Python深度集成:重塑GPU编程新体验

GPUS Lady

实际上,CUDA的奥秘在于它并非单一工具,正如Jensen几小时前在主题演讲中提到的,它是我们长期积累的庞大工具集合,可灵活应用于各类问题。过去一两年,我们重点...

17510

如何解决 RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling cublasCreate(handle) 错误

猫头虎

如何解决 RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling cublasCre...

36800

什么是cuDNN?如何安装CUDA和cuDNN

CloudStudio

cuDNN 是什么?为什么要安装 cuDNN ?本文将介绍nvidia硬件和驱动(包含 nvidia driver ), cuda 工具包( cuda tool...

59200

12 人小团队如何成就英伟达万亿市值?CUDA 架构师首次亲述真正的算力“壁垒”形成过程

深度学习与Python

最近,在 NVIDIA 的一次内部对话中,英伟达的三位员工 Nader、Stephen 和 Carter 三位员工分享了他们对 CUDA 技术的发展历程及其在计...

11110

cuda runtime/driver API解析

tankaro

12410

DeepSeek-R1自写CUDA内核跑分屠榜!斯坦福学霸狂飙GPU编程自动化挑战人类

新智元

近日,来自斯坦福和普林斯顿的研究者发现,DeepSeek-R1已经能生成自定义CUDA内核了,而且还在一众推理模型中,直接拿下了TOP 1!

8100

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

新智元

此前,该公司宣称开发出「AI CUDA工程师」,能将特定模型训练速度提升最高达100倍,引发行业关注。

7600

全球首个AI CUDA工程师来了!将PyTorch原生实现提速10-100倍

机器之心

我们的大脑只用了 20 瓦的能量就能完成复杂思考,而现代 AI 系统却需要成排的高功率 GPU 和惊人的电力消耗。这种差距如何缩小?

9710

RTX4060+ubuntu22.04.3+cuda12.4.1+Miniconda3+pytorch2.6 安装验证

tankaro

PyTorch是一个用于机器学习和深度学习的开源深度学习框架,由Facebook于2016年发布,其主要实现了自动微分功能,并引入动态计算图使模型建立更加灵活。...

11412

CV -- 基于GPU版显卡CUDA环境+Pycharm YOLOv8 检测

用户11404404

我这里是12.0,进入 CUDA 官网:https://developer.nvidia.com/cuda-toolkit-archive

21410

NVIDIA PTX指令集大揭秘:非CUDA替代品,而是底层控制语言

GPUS Lady

最近,DeepSeek采用了NVIDIA PTX指令集(Parallel Thread Execution ISA)来提升执行效能。然而,这一举动却导致了一些新...

1.7K30

英伟达股价下跌背后:DeepSeek绕过CUDA,PTX语言能否颠覆GPU生态?

朱卫军 AI Python

DeepSeek仅用557万美元训练出了R1,远低于OpenAI、Claude等同类模型,有人说DeepSeek绕过CUDA,使用更底层的PTX语言进行训练,这...

13510

为什么很多大模型训练都离不开CUDA?而DeepSeek却选择绕过CUDA直接使用PTX?

用户7353950

CUDA(Compute Unified Device Architecture)是由NVIDIA公司开发的一种通用并行计算平台和编程模型,旨在充分利用其GPU...

1.5K20

NVIDIA Blackwell RTX GPU与CUDA 12.8框架更新指南

GPUS Lady

随着NVIDIA Blackwell RTX GPU的发布,为了确保应用程序与这些新一代GPU的兼容性和最佳性能,应用开发者必须更新到最新的AI框架。NVIDI...

1.3K10

安装 Cuda Toolkit

1AI

你可以前往 /usr/local 下,ls 查看是有有 cuda-xxx 的文件夹。

22910

该需要多少 NVIDIA CUDA Cores ?

Luga Lee

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 资源的核心基础设施-CUDA 核心(...

14910

CUDA版本查看指南:轻松掌握你的GPU性能

默 语

🌵 掌控GPU性能的第一步! 是否曾经疑惑过如何查看自己的CUDA版本?🤔 了解CUDA版本不仅对深度学习项目至关重要,还关系到代码的兼容性和性能优化。本指南将...

71810
领券
首页
学习
活动
专区
圈层
工具