社区首页 >专栏 >CUDA工具集合与Python深度集成：重塑GPU编程新体验

CUDA工具集合与Python深度集成：重塑GPU编程新体验

GPUS Lady

发布于 2025-04-02 05:35:36

2050

接上一篇：

实际上，CUDA的奥秘在于它并非单一工具，正如Jensen几小时前在主题演讲中提到的，它是我们长期积累的庞大工具集合，可灵活应用于各类问题。过去一两年，我们重点推进的一项工作是将加速Python深度集成到CUDA堆栈中。因为CUDA本身并非孤立工具，Python也不能仅停留在表面——我们不仅需要内核编写能力，更需要完整的工具链支持，从上到下无缝衔接。例如，你既需要能将内核嵌入PyTorch，也需调用Python生态的各类库。

从许多角度看，所有组件必须协同工作，如同传统平台一样，在Python生态中实现从顶层到底层的完整支持。有趣的是，编译层在此图中未显式出现，因为Python本质依赖即时编译（JIT），其语言设计围绕动态性展开，无需传统构建系统（如Makefile）。你只需导入依赖项即可运行，但这也使得Python的依赖管理变得复杂。

用户反馈中常听到的声音是：在使用Python时，他们安装了各种包，但理清依赖关系却异常困难。因此，在Python生态中，保持各层之间的互操作性将极大地提升生产力，让Python的易用性得以充分发挥。今年在CUDA技术大会（GTC）上，我们精心策划了一系列关于CUDA与Python的专题演讲。我在本次演讲的末尾也会提供一个索引，方便大家查看即将呈现的内容。

如果你对GPU的原生Python编程感兴趣，我们准备了大量资料，逐步指导你完成不同阶段的任务。不过，我先为大家简要总结一下我们已完成的工作、我们的思考方式，以及我们正在进行的关键投资。

在我看来，Python化的CUDA 绝不仅仅是将C语言翻译成Python语法。它必须让Python开发者感到自然，符合他们的直觉。我在设计CUDA的任何功能时，都遵循一个基本原则：如果用户不完全了解其工作原理，仅凭猜测也应该大致正确，而不会感到意外。因此，Python化的CUDA不应看起来像C语言，而应保持Python的风格。

几年前，我们从初始的Python绑定代码开始，例如CuPy，它可与我们的底层驱动进行接口交互，实现了Python绑定与底层的一一映射。但过去一年中，我们构建了更强大的工具——CUDA Core。CUDA Core是对CUDA运行时的Python化重塑，旨在实现自然且原生的Python集成。这意味着不仅仅是接口层面的改变，更包括执行流程和运作方式的全面革新。Python完全基于JIT（即时编译）构建，你无需退出进程或使用命令行编译器，即可实现全流程的Python操作。

这种改变的一个有趣之处在于，它显著减少了GPU编程中的Python依赖树数量，从而助力我们之前展示的“上下技术栈”图景。当然，没有工具支持的软件是不完整的。如果你无法检测、识别和分析代码中的行为，那么一切努力都将付诸东流。因此，我们在过去几年中大力投入，并持续为Python开发者添加更多开发工具，包括性能分析器、代码分析器，以及代码注释功能，使注释内容能显示在编译器中（例如通过NVTX）。

上图顶部展示的就是其中一个示例，我们甚至集成了对PyTorch层的支持。你可以直接从PyTorch程序中获取低层级的Python跟踪信息。除了核心的Python基础功能外，关键在于如何用Python编程GPU。这正是我们的目标——让你的程序和代码在Python环境中实现GPU加速，而无需退出Python环境。为此，我们提供了一系列不同的解决方案。