首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >lmdeploy v0.10.1 发布:新增 ROCm 支持、GLM-4.5 兼容,以及众多优化与修复

lmdeploy v0.10.1 发布:新增 ROCm 支持、GLM-4.5 兼容,以及众多优化与修复

作者头像
福大大架构师每日一题
发布2025-12-18 13:46:45
发布2025-12-18 13:46:45
980
举报

2025年9月26日,lmdeploy v0.10.1 正式发布。本次更新为开发者带来了包括 ROCm 支持、FP8(B)F16 GEMM、GLM-4.5 兼容* 在内的一系列新功能,同时在性能优化、Bug 修复等方面也有明显提升。以下是本次版本的详细更新内容。


🚀 新功能

  1. 1. 新增 ROCm 支持
    • • 增加安装指南,支持 AMD GPU 与 FlashAttention 兼容。
    • • 为使用 AMD 硬件的用户提供更多部署选择。
  2. 2. 支持 gpt-oss 基本输出
    • • 简化 gpt-oss 模型的输出使用流程。
  3. 3. 新增 FP8(B)F16 GEMM*
    • • 支持 FP8 与混合精度计算,提升模型推理性能。
  4. 4. 支持 GLM-4.5
    • • 新增 GLM-4.5 模型兼容,进一步丰富支持的模型类型。
  5. 5. 重构:构建引擎时移除 tokenizer
    • • 优化引擎构建流程,减少不必要的依赖加载。
  6. 6. 支持 InternVL3.5-Flash
    • • 为 InternVL 模型提供 FlashAttention 版本支持。
  7. 7. 支持 gpt-oss 在 /v1/chat/completions 中的函数调用与推理
    • • 提高与 OpenAI 接口格式的兼容性与功能丰富度。
  8. 8. 支持输出 stop_str
    • • 模型输出中可返回 stop_str,方便控制输出边界。
  9. 9. 支持 SDAR
    • • 增加对 SDAR 功能的支持,扩展处理能力。

💥 性能与功能优化

  1. 1. 针对 GeForce RTX 50 系列优化安装说明
    • • 明确安装流程,提高新显卡用户的部署体验。
  2. 2. 返回 token_id
    • • 在推理结果中增加 token ID 返回,方便后处理。
  3. 3. 优化 AsyncEngine 生成方法
    • • 提升异步引擎生成效率,减少延迟。
  4. 4. 在 TP 引擎空闲时使用阻塞同步
    • • 提升多卡推理稳定性。
  5. 5. 增加 openai_harmony 依赖
    • • 以兼容部分 OpenAI 接口功能。

🐞 Bug 修复

  1. 1. 修复与 triton 3.4.0 版本的兼容问题。
  2. 2. 修复 longrope 功能异常。
  3. 3. 修复 xtuner 中 tm rl 的使用问题。
  4. 4. 禁用在服务 VLM 模型时的前缀缓存功能。
  5. 5. 移除 NCCL_LAUNCH_MODE。
  6. 6. 当请求 include_stop_str_in_output 时,返回最后一个 token 的 logprobslogitslast_hidden_states
  7. 7. 修复在使用 PyTorch 引擎时,chat CLI 命令行中 device 参数异常的问题。
  8. 8. 修复 InternVL 相关问题,包括 Flash 长上下文精度错误。
  9. 9. 修复 SequenceManager::Erase 中未返回迭代器的问题。
  10. 10. 修复 cudagraph 未进行预热的问题。

🌐 其他更新

  1. 1. 更新每日 CI 测试用例。
  2. 2. 将 KV 布局从 pagedattn 更改为 flashattn。
  3. 3. 移除 cuDNN 依赖。
  4. 4. 在 PyPI 构建中增加 CUDA 12.8 支持。
  5. 5. 增加 Ascend 硬件测试流程。
  6. 6. 更新部署服务依赖要求。
  7. 7. 增加 H800 功能测试工作流。
  8. 8. 版本号更新至 v0.10.1。

总结

lmdeploy v0.10.1 在新功能扩展、性能优化和兼容性方面均有显著提升。特别是新增了 ROCm 支持,让 AMD GPU 用户也能高效使用,同时针对 GLM-4.5、InternVL3.5-Flash 等最新模型的兼容为开发者提供了更多选择。本次更新还修复了多个潜在问题,并完善了安装指南与依赖配置,进一步提升了部署与推理的稳定性与易用性。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🚀 新功能
  • 💥 性能与功能优化
  • 🐞 Bug 修复
  • 🌐 其他更新
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档