Elasticsearch Service 推理服务概述

ES 推理服务（Inference Service）是 Elasticsearch 8 以上版本引入的核心 AI 能力，它允许您在 ES 集群中直接部署模型进行推理，或者通过统一的inference API 调用已部署好的在线推理服务，为语义搜索、向量检索和 RAG（检索增强生成）应用提供原生支持。
核心优势
方式多样：可通过机器学习节点部署自有模型，直接调用开箱即用的原子服务，或者直接调用第三方推理服务
原生集成：与 ES 的 ingest pipeline、向量字段、搜索 API 体验无缝集成
准备工作
环境要求
Elasticsearch 版本：8.16 及以上，建议尽量采用最高的稳定版本。
机器学习节点：如果通过机器学习节点部署模型，请确保集群中至少配置一个机器学习节点（专用于模型推理）
模型准备
根据业务需求选择合适的模型类型，如：
文本嵌入模型：用于生成文本向量（如bge-m3, .multilingual-e5-small）
重排序模型：用于搜索结果精排
大模型：用于文本生成和问答
说明：
选择模型时，您应该关注模型的参数，例如不同的 embedding 模型决定了向量的维度，支持的语言等。
﻿
推理服务概述

本页目录：

核心优势

准备工作