Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >PyTorch 2.7 发布,进一步助力 NVIDIA 技术生态加速产业智能化转型

PyTorch 2.7 发布,进一步助力 NVIDIA 技术生态加速产业智能化转型

作者头像
GPUS Lady
发布于 2025-04-28 05:18:39
发布于 2025-04-28 05:18:39
1540
举报
文章被收录于专栏:GPUS开发者GPUS开发者

全球领先的开源深度学习框架 PyTorch 正式发布 2.7 版本。此次版本不仅在性能、稳定性和开发体验方面进行了重要升级,更进一步强化了与 NVIDIA 全栈技术平台的深度协作,为生成式AI、大模型部署、自动驾驶、智慧医疗等产业应用提供了更强有力的技术支撑。

PyTorch 作为 AI 领域最活跃的开源项目之一,与 NVIDIA 长期保持紧密合作。随着 PyTorch 2.7 的发布,双方在模型训练加速、推理部署优化、多精度计算等方面的协同能力再上新台阶,有力支撑了 NVIDIA 技术生态在多个行业的创新落地。

主要更新亮点:全面赋能 NVIDIA 加速计算平台

1. 深度集成 TensorRT-LLM,大模型推理性能大幅提升 本次 PyTorch 2.7 显著加强了与 NVIDIA TensorRT-LLM 的兼容性和易用性。TensorRT-LLM 是 NVIDIA 面向大语言模型(LLM)推理优化推出的重要引擎。通过原生支持 Transformer 架构、自动分段推理(tensor parallelism)、以及动态量化(如 FP8)等技术,PyTorch 2.7 让用户可以在不改动模型代码的情况下,直接通过 TensorRT 获得最高数倍的推理加速。

这对于企业在生产环境中部署像 GPT-4、Llama 3、Mistral 7B 等大型模型,具有直接的商业价值。

2. 全面支持 CUDA 12.x,释放新一代GPU极限性能 随着 NVIDIA H100、L40S 等 Hopper 架构 GPU 的普及,PyTorch 2.7 针对 CUDA 12.1/12.2 引擎进行了优化,特别在多流(multi-stream)并发、异步内存拷贝、异构计算调度等方面带来显著性能提升。 这使得训练复杂的多模态模型、超大规模语言模型(SLMs)变得更为高效可靠,显著缩短了从模型研发到落地部署的周期。

3. Triton Inference Server 集成体验升级 PyTorch 2.7 优化了模型的导出、序列化(serialization)和格式兼容性,能更加顺畅地对接 NVIDIA Triton Inference Server。 无论是批量推理(batching)、多模型并发(ensemble models),还是自定义后处理逻辑,用户都可以快速部署 PyTorch 模型,极大降低线上推理部署和维护的复杂度,为企业级AI系统建设提供了可靠支撑。

4. 多实例GPU(MIG)支持增强,弹性计算资源管理更灵活 面向数据中心应用场景,PyTorch 2.7 在调度引擎(torch.distributed)中引入了更灵活的资源管理能力,支持 A100、H100 上基于 MIG 的细粒度资源划分。 这让企业可以在同一块 GPU 上同时部署推理、训练、小规模微调(fine-tuning)等不同工作负载,有效提升 GPU 投资回报率。

5. torch.compile 默认启用,模型优化流程简化 自 PyTorch 2.0 引入动态图编译器以来,torch.compile 极大地简化了性能优化工作。2.7 版本进一步成熟,正式将 torch.compile(model) 作为默认推荐方式,在不改变用户代码的基础上,自动应用图优化、内核融合(kernel fusion)、低级别内存调优等,普遍带来 20%-50% 的性能加速。

6. 低精度计算(FP8)支持强化,适配大规模训练需求 为了适应 LLM 训练过程中对计算资源的极致需求,PyTorch 2.7 加强了对 FP8 数据格式的支持,配合 NVIDIA Transformer Engine,可以在保证数值稳定性的前提下,将训练吞吐量提高1.5倍以上,且进一步降低显存占用,为超大模型训练(>10B参数量)提供了坚实基础。

NVIDIA 与 PyTorch:共建AI产业未来

作为深度学习框架的重要推动者,NVIDIA 一直以来都是 PyTorch 社区的重要贡献者。从最底层的 CUDA 加速,到 TensorRT、cuDNN、cuBLAS、NCCL 等组件的适配,再到企业级推理部署工具如 Triton Server 和 TensorRT-LLM,NVIDIA 与 PyTorch 的深度协作正在为全球开发者与企业创造源源不断的价值。

本次 PyTorch 2.7 的发布,标志着双方合作进入了更高效能、更高可用性、更易部署的新阶段,为下列应用领域带来广阔前景:

  • 生成式AI应用(AI内容生成、智能客服、辅助编程)
  • 智慧医疗(医疗影像分析、疾病辅助诊断)
  • 智能制造与质检(缺陷检测、流程优化)
  • 自动驾驶与智能交通(感知、规划、控制系统)
  • 金融科技(风控、量化投资、智能客服)

在未来,随着 PyTorch 和 NVIDIA 持续推进如分布式大规模训练、低能耗推理、跨模态AI等方向的创新,我们有理由相信,AI 技术将在更广泛的产业场景中释放巨大的商业潜力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
随着生成式AI模型规模的爆炸式增长,企业面临推理成本激增、分布式部署复杂度高、资源利用率低等挑战。传统推理框架在跨多节点扩展时,常因KV缓存重复计算、GPU负载不均、通信延迟等问题导致性能瓶颈。NVIDIA Dynamo作为新一代开源推理框架,专为大规模分布式环境设计,通过解耦式服务、智能路由、动态资源调度等创新技术,将推理吞吐量提升30倍以上。本文将深入解析其核心架构、技术优势及实际应用场景,帮助开发者高效部署生成式AI模型,降低推理成本并释放GPU潜能。
数据存储前沿技术
2025/03/29
6940
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型
刚刚,英伟达发布了一款开源软件TensorRT-LLM,能够加速H100上大型语言模型的推理。
新智元
2023/09/19
7080
H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型
NVIDIA TensorRT 10.0大升级!可用性、性能双飞跃,AI模型支持更强大!
仿佛昨日还在探讨NVIDIA TensorRT 8.5版本的新颖特性,而本周,NVIDIA已然推出了全新的TensorRT 10.0。这次也是大版本更新,让我们来扒一扒有哪些让人耳目一新的功能
GPUS Lady
2024/05/27
1.6K0
NVIDIA TensorRT 10.0大升级!可用性、性能双飞跃,AI模型支持更强大!
老黄给H100“打鸡血”:英伟达推出大模型加速包,Llama2推理速度翻倍
GPU的运算能力一直影响着大模型的表现,无论是硬件提供者还是使用者都希望能算得更快些。
量子位
2023/09/19
4040
老黄给H100“打鸡血”:英伟达推出大模型加速包,Llama2推理速度翻倍
GPU实战:低成本运行多模态大模型
随着多模态大模型(如视觉-语言模型、文本-音频生成模型等)的快速发展,企业对高效、低成本的算力需求日益迫切。 无服务器 GPU 服务结合其弹性扩展和按需付费的特性,为开发者提供了部署多模态大模型的理想平台。本文将从实战角度,探讨如何基于 无服务器 GPU 基础设施,低成本运行多模态大模型。
Michel_Rolle
2025/01/16
8830
推理性能超H100十倍!21岁华裔小哥哈佛辍学开发AI加速芯片「Sohu」,2人公司估值3400万刀
两位哈佛退学的年轻人,想要制造一款专用于大语言模型加速的AI加速器芯片,将于2024年第三季度交付,推理性能达H100的10倍。
新智元
2023/12/20
3500
推理性能超H100十倍!21岁华裔小哥哈佛辍学开发AI加速芯片「Sohu」,2人公司估值3400万刀
NVIDIA与Mistral AI合作,Mistral NeMo 12B模型震撼发布
Mistral AI和NVIDIA联合发布了一种尖端语言模型Mistral NeMo 12B。该模型易于定制和部署,适用于企业应用程序,支持聊天机器人、多语言任务、编码和摘要。
GPUS Lady
2024/07/25
2680
NVIDIA与Mistral AI合作,Mistral NeMo 12B模型震撼发布
业界分享 | NVIDIA大语言模型落地实践
大家好,这里是 NewBeeNLP。 今天分享 NVIDIA 在大语言模型领域的解决方案。
NewBeeNLP
2024/03/25
4780
业界分享 | NVIDIA大语言模型落地实践
入门生成式语言模型(Generative Language Models)
训练策略和模型之间有着密切的联系,尤其是在自然语言处理(NLP)和机器学习领域。以下是训练策略和模型的简要介绍:
857技术社区
2024/05/20
7740
入门生成式语言模型(Generative Language Models)
PyTorch 2.0正式版发布!一行代码提速2倍,100%向后兼容
---- 新智元报道   编辑:Britta 桃子  【新智元导读】PyTorch 2.0正式发布。 PyTorch 2.0正式版终于来了! 去年12月,PyTorch基金会在PyTorch Conference 2022上发布了PyTorch 2.0的第一个预览版本。 跟先前1.0版本相比,2.0有了颠覆式的变化。在PyTorch 2.0中,最大的改进是torch.compile。 新的编译器比以前PyTorch 1.0中默认的「eager mode」所提供的即时生成代码的速度快得多,让PyTor
新智元
2023/03/29
1.2K0
PyTorch 2.0正式版发布!一行代码提速2倍,100%向后兼容
DeepSeek开源周首日放大招,我和它进行了一次“深度思考”的采访
FlashMLA是 DeepSeek 开源的一个高性能 MLA(Multi-Layer Attention)解码内核,专为英伟达 Hopper 架构 GPU(如 H100)优化设计,旨在加速大语言模型(LLM)推理过程中的注意力计算。它是针对 Transformer 模型中的 Multi-Head Attention(MHA) 或 Multi-Layer Attention(MLA) 机制的底层实现优化,特别适用于生成任务(如文本生成、对话系统)中的自回归解码阶段。
算力之光
2025/02/24
1970
DeepSeek开源周首日放大招,我和它进行了一次“深度思考”的采访
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择,含架构技术和性能对比带你解决疑惑
近期,AIGC领域呈现出一片繁荣景象,其背后离不开强大算力的支持。以ChatGPT为例,其高效的运行依赖于一台由微软投资建造的超级计算机。这台超级计算机配备了数万个NVIDIA A100 GPU,并利用60多个数据中心的数十万个GPU辅助,为ChatGPT提供了强大的算力支持。这种规模的算力部署不仅体现了AIGC技术的先进性,也预示着人工智能技术未来的发展趋势。这种集成了高性能计算、大数据处理和人工智能算法的超级计算机,将成为推动科技进步的重要引擎。
汀丶人工智能
2024/01/29
8K0
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择,含架构技术和性能对比带你解决疑惑
使用FP8加速PyTorch训练的两种方法总结
在PyTorch中,FP8(8-bit 浮点数)是一个较新的数据类型,用于实现高效的神经网络训练和推理。它主要被设计来降低模型运行时的内存占用,并加快计算速度,同时尽量保持训练和推理的准确性。虽然PyTorch官方在标准发布中尚未全面支持FP8,但是在2.2版本中PyTorch已经包含了对FP8的“有限支持”并且出现了2个新的变量类型,torch.float8_e4m3fn和 torch.float8_e5m2 ,而H100也支持这种类型,所以这篇文章我们就来介绍如何使用FP8来提高训练效率
deephub
2024/06/03
7810
使用FP8加速PyTorch训练的两种方法总结
NVIDIA GTC 2022 发布了啥
NVIDIA不按套路出牌,取消了之前规划的车端芯片Orin的继任者Atlan,而让雷神重磅出场,其性能相当剽悍,单颗性能达到2,000 TOPS(FP8)是当前SOC orin的8倍。而Atlan规划是1000 TOPS(INT8).也让其他玩家慌得一比。另外一个玩家Qualcommon在随后的“汽车投资者日“上表示其推出了”业界首个集成式汽车超算SOC"Snapdragon Ride Flex.然而并没有宣布其计算能力。
用户9732312
2022/12/05
7230
NVIDIA GTC 2022 发布了啥
超越AITemplate,打平TensorRT,SD全系列模型加速框架stable-fast隆重登场
来源丨https://zhuanlan.zhihu.com/p/669610362
BBuf
2023/12/13
9180
超越AITemplate,打平TensorRT,SD全系列模型加速框架stable-fast隆重登场
使用FP8加速PyTorch训练
现代的人工智能硬件架构(例如,Nvidia Hopper, Nvidia Ada Lovelace和Habana Gaudi2)中,FP8张量内核能够显著提高每秒浮点运算(FLOPS),以及为人工智能训练和推理工作负载提供内存优化和节能的机会。
deephub
2023/11/20
6180
使用FP8加速PyTorch训练
NVIDIA关于AI部署的最新技术(附资料)
不得不相信英伟达总能给我们惊喜,老潘作为一名深度学习从业者以及游戏爱好者,对于这种与AI、GPU、并行计算相关的话题一直都是比较感兴趣。作为深度学习第一大硬件平台的英伟达,我们自然熟悉的不能再熟悉了。
老潘
2021/08/22
1.6K0
【NVIDIA GTC2022】NVIDIA Jetson 软件: 将 NVIDIA 加速技术带到边缘
本次讲座整理自NVIDIA GTC2022讲座[SE2245]: 今天讲座的目录: 自主机器和机器人技术的世界正在经历一场革命。这些自主机器和机器人不再孤立地工作,它们正在进入人类世界,随着这种转变,自主机器需要更智能、更快、更安全。这些机器需要在现实世界中在我们之间导航,检测人们避开障碍物,规划其移动路径,执行其他视频分析任务,并以人们理解的语言与人们交流。下一代AIOT和机器人变革将需要下一代软件堆栈。 Jetson 软件旨在为下一代 AI 提供动力,该软件堆栈不仅提供预训练模型、训练和性能优化工
GPUS Lady
2022/03/25
1.2K0
使用TensorRT-LLM进行高性能推理
LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。
deephub
2023/10/23
2.1K0
使用TensorRT-LLM进行高性能推理
【AI系统】GPU 架构回顾(从2018年-2024年)
2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的专门执行单元,深度学习计算核心)、CUDA 和 CuDNN 库的不断改进,更好地应用于深度学习推理。RT Core(Ray Tracing Core)提供实时的光线跟踪渲染,包括具有物理上精确的投影、反射和折射,更逼真的渲染物体和环境。支持 GDDR6 内存,与 GDDR5 内存相比,拥有 14 Gbps 传输速率,实现了 20%的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽,使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。
用户11307734
2024/11/27
3470
推荐阅读
相关推荐
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档