其中 Embedding,Rerank,LLM 等类型的原子服务可以通过ES的inference创建为推理端点。

通过原子服务创建推理端点
您可以将原子服务创建为一个 ES 的 inference 推理端点,这样在 ES 中需要通过 inference API 调用时(例如通过 ingest pipeline 写入、通过 knn 或者 semantic 方式搜索)可以直接调用。
PUT /_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5"{"service": "tencent_cloud_ai_search","service_settings": {"secret_id": "AKIDI***********************","secret_key": "BQa*************************","url": "https://es.internal.tencentcloudapi.com","model_id": "bge-base-zh-v1.5","region": "ap-beijing","language": "zh-CN","action": "GetTextEmbedding","version": "2025-01-01"}}备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用。备注2:url 需要以http/https 开头,默认不用修改备注3:model_id 填模型名称,例如bge-base-zh-v1.5,Conan-embedding-v1 ,后续支持自定义模型备注4:region 可填ap-beijing,当前原子服务暂部署在北京地域备注5:其他字段一般不用改
参考:原子服务一览
Embedding 服务
Embedding 是一种将高维数据映射到低维空间的技术,通常用于将非结构化数据,如文本、图像或音频转化为向量表示,使其更容易输入机器模型进行处理,并且向量之间的距离可以反映对象之间的相似性。
原子服务 | token限制 | 维度 | 语言 | 备注 |
bge-base-zh-v1.5 | 512 | 768 | 中文 | bge 经典模型 |
KaLM-embedding-multilingual-mini-v1 | 131072 | 896 | 多语言 | 微信自研具有优质训练数据的自回归 LLM 的嵌入模型,适合超长文本、中英混合查询与多语言文档匹配场景 |
bge-m3 | 8194 | 1024 | 多语言 | bge经典模型 |
conan-embedding-v1 | 512 | 1792 | 中文 | 腾讯自研,中文场景去年在MTEB 榜单一度综合排第一 |
Rerank 服务
重排是指在 RAG 过程中,通过评估文档与查询之间的相关性,将最相关的文档放在前面,确保语言模型在生成回答时优先考虑排名靠前的上下文,提高生成结果的准确性和可信度,也可以通过这种方式进行过滤,减少大模型成本。
原子服务 | token限制 | 语言 | 备注 |
bge-reranker-large | 514 | 中文、英文 | bge 经典模型 |
bge-reranker-v2-m3 | 8194 | 多语言 | bge 经典模型 |
LLM 服务
本服务支持一系列高性能的大语言模型,包括DeepSeek以及腾讯自主研发的混元大模型,结合混合搜索等先进搜索技术,快速高效实现RAG,有效解决幻觉和知识更新问题。
模型类型 | 模型名称(model) | Tokens | 特性 |
DeepSeek (支持Sogou/Bing/Baidu联网) | deepseek-r1 | 最大输入128k 最大输出8k | 擅长复杂需求拆解、技术方案直译,提供精准结构化分析及可落地方案,实现了与GPT-4o和Claude Sonnet 3.5等模型相媲美的性能 |
| deepseek-v3 (v3-0324) | 最大输入128k 最大输出8k | 通用型AI模型,拥有庞大参数规模及强大多任务泛化能力,擅长开放域对话、知识问答、创意生成等多样化需求 |
| deepseek-r1-distill-qwen-32b | 最大输入128k 最大输出8k | r1-36b参数蒸馏版,效果没有r1好,但响应速度更快,资源成本更低 |
混元 | hunyuan-turbo | 最大输入28k 最大输出4k | 腾讯新一代旗舰大模型,混元Turbo模型,在语言理解、文本创作、数学、推理和代码等领域都有较大提升,具备强大的知识问答能力 |
| hunyuan-large | 最大输入28k 最大输出4k | 腾讯开发的开源业界参数规模最大、效果最好的 Transformer 结构的 MoE 模型,适用于对模型效果、复杂指令有较高的要求的场景 |
| hunyuan-large-longcontext | 最大输入128k 最大输出6k | 基于开源的hunyuan-large模型进一步增训,特别优化了对长文任务的处理能力,与元宝C端文档阅读场景使用的是同款模型 |
| hunyuan-standard | 最大输入30k 最大输出2k | 在通用效果提升的基础上,训练数据中融合了医疗、金融领域的长文数据、长文翻译数据和长文多文档问答等高质量精标数据 |
| hunyuan-standard-256K | 最大输入250k 最大输出6k | 256k极长窗口特化版,复用7B-MoE框架压缩显存占用,支持百页文献级处理,适用于绝大部分场景,同时兼顾效果及推理性能 |
参考:Inference API 调用指引
Embedding API
在ES 中创建原子服务Embedding模型,举例,名字为tencentcloudapi_bge_base_zh-v1.5 (支持全量覆盖修改密钥) | curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" -d '{ "service": "tencent_cloud_ai_search", "service_settings": { "secret_id": "AKIDI***********************", "secret_key": "BQa*************************", "url": "https://es.internal.tencentcloudapi.com", "model_id": "bge-base-zh-v1.5", "region": "ap-beijing", "language": "zh-CN", "action": "GetTextEmbedding", "version": "2025-01-01" } }' 备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用。 备注2:url 需要以http/https 开头,默认不用修改 备注3:model_id 填模型名称,例如bge-base-zh-v1.5,Conan-embedding-v1 ,后续支持自定义模型 备注4:region 可填ap-beijing,当前原子服务暂部署在北京地域 备注 5:其他字段一般不用改 |
调用原子服务模型 单独执行向量化 | curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" -d '{ "input": ["中国","美国","英国"] }' |
查看模型 | 获取全部模型: GET /_inference/_all 或获取单个模型: curl -XGET "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" 返回如下信息:(会隐藏api_key) { "models" : [ { "model_id" : "tencentcloudapi_bge_base_zh-v1.5" "task_type" : "text_embedding", "service" : "tencent_cloud_ai_search", "service_settings" : { "model_id" : "bge-base-zh-v1.5" "url" : "https://aisearch.test.tencentcloudapi.com", "Language" : "zh-CN" "region": "ap-guangzhou", "action" : "GetTextEmbedding" "version": "2025-01-01" }, "task_settings" :{ } } ] } |
创建基于原子服务模型的pipeline | curl -X PUT "localhost:9200/_ingest/pipeline/tencentcloudapi_bge_base_zh-v1.5_embeddings?pretty" -H 'Content-Type: application/json' -d' { "processors": [ { "inference": { "model_id": "tencentcloudapi_bge_base_zh-v1.5", "input_output": { "input_field": "content", "output_field": "content_embedding" } } } ] } ' |
调用原子服务进行bulk写入 | curl -u "elastic:changeme" -H "Content-Type: application/x-ndjson; charset=UTF-8" -XPOST "127.0.0.1:9200/vector_index/_bulk?pipeline=tencentcloudapi_bge_base_zh-v1.5_embeddings" -d ' { "index" : {} } { "title" : "value1","content": "good day" } ' |
调用原子服务进行向量相似度检索 | curl -H "Content-Type: application/x-ndjson; charset=UTF-8" -XPOST "127.0.0.1:9200/vector_index/_search" -d '{ "knn": { "field": "content_embedding", "query_vector_builder": { "text_embedding": { "model_id": "tencentcloudapi_bge_base_zh-v1.5", "model_text": "您需要向量化的原始文本" } }, "k": 10, "num_candidates": 100 }}' |
Rerank API
创建 原子服务rerank 模型 (支持全量覆盖修改密钥) | curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/rerank/tencentcloudapi_bge-reranker-large" -d '{ "service": "tencent_cloud_ai_search", "service_settings": { "secret_id": "AKIDI***********************", "secret_key": "BQa*************************", "url": "https://es.internal.tencentcloudapi.com", "model_id": "bge-reranker-large", "region": "ap-beijing", "language": "zh-CN", "action": "RunRerank", "version": "2025-01-01" }, "task_settings": { "top_n": 10, "return_documents": true } }' 备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用 备注2:url 需要以http/https 开头,默认不用修改 备注3:model_id 填模型名称,例如bge-reranker-large ,后续支持自定义模型 备注4:region 可填ap-beijing,当前原子服务暂时只部署在北京地域 |
调用原子服务rerank 模型进行重排 | curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/rerank/tencentcloudapi_bge-reranker-large" -d '{ "query": "中国", "input": ["美国","中国","英国"] }' |
查询+rerank 一体化请求 | curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/vector_index/_search?pretty" -d ' { "retriever": { "tencent_cloud_ai_reranker": { "retriever": { "standard": { "query": { "match_all": { // 查询条件 } } } }, "model_id": "tencentcloudapi_bge-reranker-large", "rank_field": "content", "rank_text": "nice day", "rank_window_size": 10, "min_score": 0.6 } } }' curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/vector_index/_search?pretty" -d ' ' |
Completion API
创建 原子服务completion 模型 (支持全量覆盖修改密钥) | curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/completion/tencentcloudapi_deepseek" -d '{ "service": "tencent_cloud_ai_search", "service_settings": { "secret_id": "AKIDI***********************", "secret_key": "BQa*************************", "url": "https://es.ai.internal.tencentcloudapi.com", "model_id": "deepseek_v3", "region": "ap-beijing", "language": "zh-CN", "action": "ChatCompletions", "version": "2025-01-01" } }' 备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用 备注2:url 需要以http/https 开头,默认不用修改 备注3:model_id 填模型名称,例如deepseek_v3 ,后续支持自定义模型 备注4:region 可填写ap-beijing,当前原子服务暂部署在北京地域 |
调用原子服务completion 模型对话(非流式) | curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/completion/deepseek?timeout=300s" -d '{ "input": "您是谁?" }' |
调用原子服务completion 模型对话(流式) | curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/completion/deepseek/_stream?timeout=300s" -d '{ "input": "您是谁?" }' |
参考:Inference 批量获取、更新 API (8.16)
批量能力 | 基础使用方法:基于官方的获取、更新 API,参考上方官方文档 批量能力使用:自研增加批量的能力,参考下方示例 |
批量获取 Inference 示例 | curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/_inference/completion/a*,b*" curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/_inference/a*,b*" |
批量更新 Inference 示例 | curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/rerank/a*,b*/_update" -d '{ "service_settings": { "secret_id": "AKI3*************", "secret_key": "GZ4*********" } }' 备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用 |