ES 推理服务(Inference Service)是 Elasticsearch 8 以上版本引入的核心 AI 能力,它允许您在 ES 集群中直接部署模型进行推理,或者通过统一的inference API 调用已部署好的在线推理服务,为语义搜索、向量检索和 RAG(检索增强生成)应用提供原生支持。
核心优势
方式多样:可通过机器学习节点部署自有模型,直接调用开箱即用的原子服务,或者直接调用第三方推理服务
原生集成:与 ES 的 ingest pipeline、向量字段、搜索 API 体验无缝集成
准备工作
环境要求
Elasticsearch 版本:8.16 及以上,建议尽量采用最高的稳定版本。
机器学习节点:如果通过机器学习节点部署模型,请确保集群中至少配置一个机器学习节点(专用于模型推理)
模型准备
根据业务需求选择合适的模型类型,如:
文本嵌入模型:用于生成文本向量(如bge-m3, .multilingual-e5-small)
重排序模型:用于搜索结果精排
大模型:用于文本生成和问答
说明:
选择模型时,您应该关注模型的参数,例如不同的 embedding 模型决定了向量的维度,支持的语言等。