PyTorch 2.7 发布，进一步助力 NVIDIA 技术生态加速产业智能化转型

GPUS Lady

发布于 2025-04-28 05:18:39

3010

全球领先的开源深度学习框架 PyTorch 正式发布 2.7 版本。此次版本不仅在性能、稳定性和开发体验方面进行了重要升级，更进一步强化了与 NVIDIA 全栈技术平台的深度协作，为生成式AI、大模型部署、自动驾驶、智慧医疗等产业应用提供了更强有力的技术支撑。

PyTorch 作为 AI 领域最活跃的开源项目之一，与 NVIDIA 长期保持紧密合作。随着 PyTorch 2.7 的发布，双方在模型训练加速、推理部署优化、多精度计算等方面的协同能力再上新台阶，有力支撑了 NVIDIA 技术生态在多个行业的创新落地。

主要更新亮点：全面赋能 NVIDIA 加速计算平台

1. 深度集成 TensorRT-LLM，大模型推理性能大幅提升 本次 PyTorch 2.7 显著加强了与 NVIDIA TensorRT-LLM 的兼容性和易用性。TensorRT-LLM 是 NVIDIA 面向大语言模型（LLM）推理优化推出的重要引擎。通过原生支持 Transformer 架构、自动分段推理（tensor parallelism）、以及动态量化（如 FP8）等技术，PyTorch 2.7 让用户可以在不改动模型代码的情况下，直接通过 TensorRT 获得最高数倍的推理加速。

这对于企业在生产环境中部署像 GPT-4、Llama 3、Mistral 7B 等大型模型，具有直接的商业价值。

2. 全面支持 CUDA 12.x，释放新一代GPU极限性能 随着 NVIDIA H100、L40S 等 Hopper 架构 GPU 的普及，PyTorch 2.7 针对 CUDA 12.1/12.2 引擎进行了优化，特别在多流（multi-stream）并发、异步内存拷贝、异构计算调度等方面带来显著性能提升。这使得训练复杂的多模态模型、超大规模语言模型（SLMs）变得更为高效可靠，显著缩短了从模型研发到落地部署的周期。

3. Triton Inference Server 集成体验升级 PyTorch 2.7 优化了模型的导出、序列化（serialization）和格式兼容性，能更加顺畅地对接 NVIDIA Triton Inference Server。无论是批量推理（batching）、多模型并发（ensemble models），还是自定义后处理逻辑，用户都可以快速部署 PyTorch 模型，极大降低线上推理部署和维护的复杂度，为企业级AI系统建设提供了可靠支撑。

4. 多实例GPU（MIG）支持增强，弹性计算资源管理更灵活 面向数据中心应用场景，PyTorch 2.7 在调度引擎（torch.distributed）中引入了更灵活的资源管理能力，支持 A100、H100 上基于 MIG 的细粒度资源划分。这让企业可以在同一块 GPU 上同时部署推理、训练、小规模微调（fine-tuning）等不同工作负载，有效提升 GPU 投资回报率。

5. torch.compile 默认启用，模型优化流程简化 自 PyTorch 2.0 引入动态图编译器以来，torch.compile 极大地简化了性能优化工作。2.7 版本进一步成熟，正式将 torch.compile(model) 作为默认推荐方式，在不改变用户代码的基础上，自动应用图优化、内核融合（kernel fusion）、低级别内存调优等，普遍带来 20%-50% 的性能加速。

6. 低精度计算（FP8）支持强化，适配大规模训练需求 为了适应 LLM 训练过程中对计算资源的极致需求，PyTorch 2.7 加强了对 FP8 数据格式的支持，配合 NVIDIA Transformer Engine，可以在保证数值稳定性的前提下，将训练吞吐量提高1.5倍以上，且进一步降低显存占用，为超大模型训练（>10B参数量）提供了坚实基础。

NVIDIA 与 PyTorch：共建AI产业未来

作为深度学习框架的重要推动者，NVIDIA 一直以来都是 PyTorch 社区的重要贡献者。从最底层的 CUDA 加速，到 TensorRT、cuDNN、cuBLAS、NCCL 等组件的适配，再到企业级推理部署工具如 Triton Server 和 TensorRT-LLM，NVIDIA 与 PyTorch 的深度协作正在为全球开发者与企业创造源源不断的价值。

本次 PyTorch 2.7 的发布，标志着双方合作进入了更高效能、更高可用性、更易部署的新阶段，为下列应用领域带来广阔前景：