首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ollama v0.12.6 更新详解:搜索支持、性能优化与 Vulkan 实验性支持

ollama v0.12.6 更新详解:搜索支持、性能优化与 Vulkan 实验性支持

作者头像
福大大架构师每日一题
发布2025-12-18 14:40:22
发布2025-12-18 14:40:22
3750
举报

一、版本发布时间

  • • 预发布日期:2025 年 10 月 15 日
  • • 正式发布日期:2025 年 10 月 17 日

二、主要更新内容

  1. 1. 模型搜索功能扩展
    • • 在运行 DeepSeek-V3.1、Qwen3 等支持工具调用的模型时,Ollama 应用现在支持搜索功能,大幅提升了模型交互和数据检索效率。
  2. 2. 性能优化
    • • 对 Gemma 3 模型默认启用 Flash Attention,提高了推理性能并优化了内存使用率。
    • • 修复了生成响应过程中偶发的卡死问题。
    • • 改进了模型驱逐逻辑,当 num_gpu 参数设置时能够正确清理未使用模型。
  3. 3. 模型相关修复与改进
    • • 修复了 Qwen3-Coder 在使用 /api/generateollama run qwen3-coder <prompt> 时进入原始模式的问题。
    • • 修复了 Qwen3-Embedding 返回无效结果的情况。
    • • 修复了 tool_index 值为 0 时未正确传递给模型的问题。
    • • Qwen3-Coder 增加了在解析工具调用时对 anyOf 的支持。
  4. 4. Vulkan 实验性支持
    • • 新增本地构建时的 Vulkan 实验性支持,允许运行在目前不支持的 AMD 和 Intel GPU 上,为更广泛的硬件环境提供可能性。
    • • 构建步骤:安装 Vulkan SDK,并在环境变量中设置 VULKAN_SDK,然后按照开发者指南进行本地编译。未来版本将会把 Vulkan 支持集成到二进制发行版中。
  5. 5. 其他改进
    • • NVML 实现支持 Linux 系统。
    • • 增加 NVML 对统一内存 GPU 的降级支持。
    • • 改进 CUDA 对 iGPU 调度的性能。
    • • 默认连接到 ollama.com 时使用端口 443。
    • • 重新启用 CUDA CC 5.2 支持。
  6. 6. Bug 修复
    • • 修复日志中错误显示 “0 MiB free” 的问题。
    • • 修复部分 API 生成器在渲染时的内置渲染器问题。
    • • 修复文件系统与 ggml 中的注释函数名错误。
    • • 修复 Qwen3 模型的 distill 问题。

三、总结

Ollama v0.12.6 是一次以功能增强与性能优化为核心的更新版本,尤其在模型搜索、Flash Attention 默认开启以及 Vulkan 实验性支持方面为用户带来了更高的运行效率与更广的硬件兼容性。同时,一系列针对 Qwen3 系列模型和 GPU 支持的修正,让该版本更加稳定、适用范围更广。对于开发者而言,本次更新不仅改善了现有工作流程,还为未来硬件适配提供了新的可能。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、版本发布时间
  • 二、主要更新内容
  • 三、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档