Elasticsearch Service 调用原子服务推理

腾讯云 ES 提供了丰富的原子服务（参阅这里），在ES控制台左侧导航栏的“智能搜索开发”下，点击“原子服务”即可看到，它们可以通过 API 直接调用。
其中 Embedding，Rerank，LLM 等类型的原子服务可以通过ES的inference创建为推理端点。
﻿
通过原子服务创建推理端点
您可以将原子服务创建为一个 ES 的 inference 推理端点，这样在 ES 中需要通过 inference API 调用时（例如通过 ingest pipeline 写入、通过 knn 或者 semantic 方式搜索）可以直接调用。
PUT /_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" 
{
    "service": "tencent_cloud_ai_search",  
    "service_settings": {
        "secret_id": "AKIDI***********************",
        "secret_key": "BQa*************************", 
        "url": "https://es.internal.tencentcloudapi.com",
        "model_id": "bge-base-zh-v1.5",
        "region":  "ap-beijing",   
        "language":  "zh-CN",
        "action":  "GetTextEmbedding",
        "version":  "2025-01-01"
    }
}
 
备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用。
备注2：url 需要以http/https 开头，默认不用修改
备注3：model_id 填模型名称，例如bge-base-zh-v1.5，Conan-embedding-v1 ，后续支持自定义模型
备注4：region 可填ap-beijing，当前原子服务暂部署在北京地域
备注5：其他字段一般不用改
参考：原子服务一览
Embedding 服务
Embedding 是一种将高维数据映射到低维空间的技术，通常用于将非结构化数据，如文本、图像或音频转化为向量表示，使其更容易输入机器模型进行处理，并且向量之间的距离可以反映对象之间的相似性。
接口文档请参见 获取特征向量。
原子服务
token限制
维度
语言
备注
bge-base-zh-v1.5
512
768
中文
bge 经典模型
KaLM-embedding-multilingual-mini-v1
131072
896
多语言
微信自研具有优质训练数据的自回归 LLM 的嵌入模型，适合超长文本、中英混合查询与多语言文档匹配场景
bge-m3
8194
1024
多语言
bge经典模型
conan-embedding-v1
512
1792
中文
腾讯自研，中文场景去年在MTEB 榜单一度综合排第一
Rerank 服务
重排是指在 RAG 过程中，通过评估文档与查询之间的相关性，将最相关的文档放在前面，确保语言模型在生成回答时优先考虑排名靠前的上下文，提高生成结果的准确性和可信度，也可以通过这种方式进行过滤，减少大模型成本。
接口文档请参见 重排序。
原子服务
token限制
语言
备注
bge-reranker-large
514
中文、英文
bge 经典模型
bge-reranker-v2-m3
8194
多语言
bge 经典模型
LLM 服务
本服务支持一系列高性能的大语言模型，包括DeepSeek以及腾讯自主研发的混元大模型，结合混合搜索等先进搜索技术，快速高效实现RAG，有效解决幻觉和知识更新问题。
接口文档请参见大模型生成。
模型类型
模型名称（model）
Tokens
特性
DeepSeek
（支持Sogou/Bing/Baidu联网）
deepseek-r1
最大输入128k
最大输出8k
擅长复杂需求拆解、技术方案直译，提供精准结构化分析及可落地方案，实现了与GPT-4o和Claude Sonnet 3.5等模型相媲美的性能
﻿
deepseek-v3
（v3-0324）
最大输入128k
最大输出8k
通用型AI模型，拥有庞大参数规模及强大多任务泛化能力，擅长开放域对话、知识问答、创意生成等多样化需求
﻿
deepseek-r1-distill-qwen-32b
最大输入128k
最大输出8k
r1-36b参数蒸馏版，效果没有r1好，但响应速度更快，资源成本更低
混元
hunyuan-turbo
最大输入28k
最大输出4k
腾讯新一代旗舰大模型，混元Turbo模型，在语言理解、文本创作、数学、推理和代码等领域都有较大提升，具备强大的知识问答能力
﻿
 
 
 
hunyuan-large
最大输入28k
最大输出4k
腾讯开发的开源业界参数规模最大、效果最好的 Transformer 结构的 MoE 模型，适用于对模型效果、复杂指令有较高的要求的场景
﻿
hunyuan-large-longcontext
最大输入128k
最大输出6k
基于开源的hunyuan-large模型进一步增训，特别优化了对长文任务的处理能力，与元宝C端文档阅读场景使用的是同款模型
﻿
hunyuan-standard
最大输入30k
最大输出2k
在通用效果提升的基础上，训练数据中融合了医疗、金融领域的长文数据、长文翻译数据和长文多文档问答等高质量精标数据
﻿
hunyuan-standard-256K
最大输入250k
最大输出6k
256k极长窗口特化版，复用7B-MoE框架压缩显存占用，支持百页文献级处理，适用于绝大部分场景，同时兼顾效果及推理性能
参考：Inference API 调用指引
Embedding API
在ES 中创建原子服务Embedding模型，举例，名字为tencentcloudapi_bge_base_zh-v1.5
（支持全量覆盖修改密钥）
﻿
curl  -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" -d '{
    "service": "tencent_cloud_ai_search",  
    "service_settings": {
        "secret_id": "AKIDI***********************",
        "secret_key": "BQa*************************", 
        "url": "https://es.internal.tencentcloudapi.com",
        "model_id": "bge-base-zh-v1.5",
        "region":  "ap-beijing",   
        "language":  "zh-CN",
        "action":  "GetTextEmbedding",
        "version":  "2025-01-01"
    }
}'
备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用。
备注2：url 需要以http/https 开头，默认不用修改
备注3：model_id 填模型名称，例如bge-base-zh-v1.5，Conan-embedding-v1 ，后续支持自定义模型
备注4：region 可填ap-beijing，当前原子服务暂部署在北京地域
备注 5：其他字段一般不用改
调用原子服务模型
单独执行向量化
 
curl  -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" -d '{
    "input": ["中国","美国","英国"]
}'
查看模型
获取全部模型：    GET /_inference/_all
或获取单个模型：
curl -XGET "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5"
返回如下信息：（会隐藏api_key）
{
"models" : [
  ｛
       "model_id" : "tencentcloudapi_bge_base_zh-v1.5"
       "task_type" : "text_embedding",
       "service" : "tencent_cloud_ai_search",
       "service_settings" : {
                "model_id" : "bge-base-zh-v1.5"
                "url" : "https://aisearch.test.tencentcloudapi.com",
                "Language" : "zh-CN"
                "region": "ap-guangzhou",
                "action" : "GetTextEmbedding"
                "version": "2025-01-01"
         ｝，
        "task_settings" :{ }
      }
  ]
}
创建基于原子服务模型的pipeline
curl -X PUT "localhost:9200/_ingest/pipeline/tencentcloudapi_bge_base_zh-v1.5_embeddings?pretty" -H 'Content-Type: application/json' -d'
{
  "processors": [
    {
      "inference": {
        "model_id": "tencentcloudapi_bge_base_zh-v1.5", 
        "input_output": { 
          "input_field": "content",
          "output_field": "content_embedding"
        }
      }
    }
  ]
}
'
调用原子服务进行bulk写入
curl -u "elastic:changeme" -H "Content-Type: application/x-ndjson; charset=UTF-8" -XPOST "127.0.0.1:9200/vector_index/_bulk?pipeline=tencentcloudapi_bge_base_zh-v1.5_embeddings" -d '
{ "index" : {} }
{ "title" : "value1","content": "good day" }
'
调用原子服务进行向量相似度检索
curl -H "Content-Type: application/x-ndjson; charset=UTF-8" -XPOST "127.0.0.1:9200/vector_index/_search" -d '{
  "knn": {
    "field": "content_embedding",
    "query_vector_builder": {
      "text_embedding": {
        "model_id": "tencentcloudapi_bge_base_zh-v1.5",
        "model_text": "您需要向量化的原始文本"
      }
    },
    "k": 10,
    "num_candidates": 100
  }}'
Rerank API
创建 原子服务rerank 模型
（支持全量覆盖修改密钥）
 
curl  -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/rerank/tencentcloudapi_bge-reranker-large" -d '{
    "service": "tencent_cloud_ai_search",
    "service_settings": {
         "secret_id": "AKIDI***********************",
        "secret_key": "BQa*************************", 
        "url": "https://es.internal.tencentcloudapi.com",
        "model_id": "bge-reranker-large",
        "region":  "ap-beijing",
        "language":  "zh-CN",
        "action":  "RunRerank",
        "version":  "2025-01-01"
    },
    "task_settings": {
        "top_n": 10,
        "return_documents": true
    }
}'
 
备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用
备注2：url 需要以http/https 开头，默认不用修改
备注3：model_id 填模型名称，例如bge-reranker-large ，后续支持自定义模型
备注4：region 可填ap-beijing，当前原子服务暂时只部署在北京地域
调用原子服务rerank 模型进行重排
 
curl  -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/rerank/tencentcloudapi_bge-reranker-large" -d '{
    "query": "中国",
    "input": ["美国","中国","英国"]
}'
查询+rerank 
一体化请求
curl  -H "Content-Type: application/json"  -XGET "http://127.0.0.1:9200/vector_index/_search?pretty" -d '
{  
  "retriever": {                                                      
    "tencent_cloud_ai_reranker": {                           
      "retriever": {
        "standard": {                                                 
          "query": {
            "match_all": {                                                // 查询条件
            }
          }
        }
      },
      "model_id": "tencentcloudapi_bge-reranker-large",                           
      "rank_field": "content",                                                                                 
      "rank_text": "nice day",
      "rank_window_size": 10,                                                             
      "min_score": 0.6                                                                                 
    }
  }
}'
 
 
curl  -H "Content-Type: application/json"  -XGET "http://127.0.0.1:9200/vector_index/_search?pretty" -d '
'
Completion API 
创建 原子服务completion 模型
（支持全量覆盖修改密钥）
 
curl  -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/completion/tencentcloudapi_deepseek" -d '{
    "service": "tencent_cloud_ai_search",
    "service_settings": {
        "secret_id": "AKIDI***********************",
        "secret_key": "BQa*************************", 
        "url": "https://es.ai.internal.tencentcloudapi.com",
        "model_id": "deepseek_v3",
        "region":  "ap-beijing",
        "language":  "zh-CN",
        "action":  "ChatCompletions",
        "version":  "2025-01-01"
    }
}'
 
 
备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用
备注2：url 需要以http/https 开头，默认不用修改
备注3：model_id 填模型名称，例如deepseek_v3 ，后续支持自定义模型
备注4：region 可填写ap-beijing，当前原子服务暂部署在北京地域
调用原子服务completion 模型对话（非流式）
curl  -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/completion/deepseek?timeout=300s" -d '{
  "input": "您是谁？"
}'
调用原子服务completion 模型对话（流式）
curl  -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/completion/deepseek/_stream?timeout=300s" -d '{
  "input": "您是谁？"
}'
参考：Inference 批量获取、更新 API （8.16）
批量能力
 
﻿Get inference API﻿
﻿Update inference API﻿
基础使用方法：基于官方的获取、更新 API，参考上方官方文档
批量能力使用：自研增加批量的能力，参考下方示例
批量获取 Inference 示例
curl  -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/_inference/completion/a*,b*" 
curl  -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/_inference/a*,b*" 
批量更新 Inference 示例
curl  -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/rerank/a*,b*/_update" -d '{
    "service_settings": {
        "secret_id": "AKI3*************",
        "secret_key": "GZ4*********"
    }
}'
 
备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用

原子服务	token限制	维度	语言	备注
bge-base-zh-v1.5	512	768	中文	bge 经典模型
KaLM-embedding-multilingual-mini-v1	131072	896	多语言	微信自研具有优质训练数据的自回归 LLM 的嵌入模型，适合超长文本、中英混合查询与多语言文档匹配场景
bge-m3	8194	1024	多语言	bge经典模型
conan-embedding-v1	512	1792	中文	腾讯自研，中文场景去年在MTEB 榜单一度综合排第一

模型类型	模型名称（model）	Tokens	特性
DeepSeek （支持Sogou/Bing/Baidu联网）	deepseek-r1	最大输入128k 最大输出8k	擅长复杂需求拆解、技术方案直译，提供精准结构化分析及可落地方案，实现了与GPT-4o和Claude Sonnet 3.5等模型相媲美的性能
		deepseek-v3 （v3-0324）	最大输入128k 最大输出8k	通用型AI模型，拥有庞大参数规模及强大多任务泛化能力，擅长开放域对话、知识问答、创意生成等多样化需求
		deepseek-r1-distill-qwen-32b	最大输入128k 最大输出8k	r1-36b参数蒸馏版，效果没有r1好，但响应速度更快，资源成本更低
混元	hunyuan-turbo	最大输入28k 最大输出4k	腾讯新一代旗舰大模型，混元Turbo模型，在语言理解、文本创作、数学、推理和代码等领域都有较大提升，具备强大的知识问答能力
		hunyuan-large	最大输入28k 最大输出4k	腾讯开发的开源业界参数规模最大、效果最好的 Transformer 结构的 MoE 模型，适用于对模型效果、复杂指令有较高的要求的场景
		hunyuan-large-longcontext	最大输入128k 最大输出6k	基于开源的hunyuan-large模型进一步增训，特别优化了对长文任务的处理能力，与元宝C端文档阅读场景使用的是同款模型
		hunyuan-standard	最大输入30k 最大输出2k	在通用效果提升的基础上，训练数据中融合了医疗、金融领域的长文数据、长文翻译数据和长文多文档问答等高质量精标数据
		hunyuan-standard-256K	最大输入250k 最大输出6k	256k极长窗口特化版，复用7B-MoE框架压缩显存占用，支持百页文献级处理，适用于绝大部分场景，同时兼顾效果及推理性能

在ES 中创建原子服务Embedding模型，举例，名字为tencentcloudapi_bge_base_zh-v1.5 （支持全量覆盖修改密钥）	curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" -d '{ "service": "tencent_cloud_ai_search", "service_settings": { "secret_id": "AKIDI*********************", "secret_key": "BQa***********************", "url": "https://es.internal.tencentcloudapi.com", "model_id": "bge-base-zh-v1.5", "region": "ap-beijing", "language": "zh-CN", "action": "GetTextEmbedding", "version": "2025-01-01" } }' 备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用。备注2：url 需要以http/https 开头，默认不用修改备注3：model_id 填模型名称，例如bge-base-zh-v1.5，Conan-embedding-v1 ，后续支持自定义模型备注4：region 可填ap-beijing，当前原子服务暂部署在北京地域备注 5：其他字段一般不用改
调用原子服务模型单独执行向量化	curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" -d '{ "input": ["中国","美国","英国"] }'
查看模型	获取全部模型： GET /_inference/_all 或获取单个模型： curl -XGET "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" 返回如下信息：（会隐藏api_key） { "models" : [ ｛ "model_id" : "tencentcloudapi_bge_base_zh-v1.5" "task_type" : "text_embedding", "service" : "tencent_cloud_ai_search", "service_settings" : { "model_id" : "bge-base-zh-v1.5" "url" : "https://aisearch.test.tencentcloudapi.com", "Language" : "zh-CN" "region": "ap-guangzhou", "action" : "GetTextEmbedding" "version": "2025-01-01" ｝， "task_settings" :{ } } ] }
创建基于原子服务模型的pipeline	curl -X PUT "localhost:9200/_ingest/pipeline/tencentcloudapi_bge_base_zh-v1.5_embeddings?pretty" -H 'Content-Type: application/json' -d' { "processors": [ { "inference": { "model_id": "tencentcloudapi_bge_base_zh-v1.5", "input_output": { "input_field": "content", "output_field": "content_embedding" } } } ] } '
调用原子服务进行bulk写入	curl -u "elastic:changeme" -H "Content-Type: application/x-ndjson; charset=UTF-8" -XPOST "127.0.0.1:9200/vector_index/_bulk?pipeline=tencentcloudapi_bge_base_zh-v1.5_embeddings" -d ' { "index" : {} } { "title" : "value1","content": "good day" } '
调用原子服务进行向量相似度检索	curl -H "Content-Type: application/x-ndjson; charset=UTF-8" -XPOST "127.0.0.1:9200/vector_index/_search" -d '{ "knn": { "field": "content_embedding", "query_vector_builder": { "text_embedding": { "model_id": "tencentcloudapi_bge_base_zh-v1.5", "model_text": "您需要向量化的原始文本" } }, "k": 10, "num_candidates": 100 }}'

创建原子服务rerank 模型（支持全量覆盖修改密钥）	curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/rerank/tencentcloudapi_bge-reranker-large" -d '{ "service": "tencent_cloud_ai_search", "service_settings": { "secret_id": "AKIDI*********************", "secret_key": "BQa***********************", "url": "https://es.internal.tencentcloudapi.com", "model_id": "bge-reranker-large", "region": "ap-beijing", "language": "zh-CN", "action": "RunRerank", "version": "2025-01-01" }, "task_settings": { "top_n": 10, "return_documents": true } }' 备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用备注2：url 需要以http/https 开头，默认不用修改备注3：model_id 填模型名称，例如bge-reranker-large ，后续支持自定义模型备注4：region 可填ap-beijing，当前原子服务暂时只部署在北京地域
调用原子服务rerank 模型进行重排	curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/rerank/tencentcloudapi_bge-reranker-large" -d '{ "query": "中国", "input": ["美国","中国","英国"] }'
查询+rerank 一体化请求	curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/vector_index/_search?pretty" -d ' { "retriever": { "tencent_cloud_ai_reranker": { "retriever": { "standard": { "query": { "match_all": { // 查询条件 } } } }, "model_id": "tencentcloudapi_bge-reranker-large", "rank_field": "content", "rank_text": "nice day", "rank_window_size": 10, "min_score": 0.6 } } }' curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/vector_index/_search?pretty" -d ' '

创建原子服务completion 模型（支持全量覆盖修改密钥）	curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/completion/tencentcloudapi_deepseek" -d '{ "service": "tencent_cloud_ai_search", "service_settings": { "secret_id": "AKIDI*********************", "secret_key": "BQa***********************", "url": "https://es.ai.internal.tencentcloudapi.com", "model_id": "deepseek_v3", "region": "ap-beijing", "language": "zh-CN", "action": "ChatCompletions", "version": "2025-01-01" } }' 备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用备注2：url 需要以http/https 开头，默认不用修改备注3：model_id 填模型名称，例如deepseek_v3 ，后续支持自定义模型备注4：region 可填写ap-beijing，当前原子服务暂部署在北京地域
调用原子服务completion 模型对话（非流式）	curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/completion/deepseek?timeout=300s" -d '{ "input": "您是谁？" }'
调用原子服务completion 模型对话（流式）	curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/completion/deepseek/_stream?timeout=300s" -d '{ "input": "您是谁？" }'

批量能力	Get inference API Update inference API 基础使用方法：基于官方的获取、更新 API，参考上方官方文档批量能力使用：自研增加批量的能力，参考下方示例
批量获取 Inference 示例	curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/_inference/completion/a,b" curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/_inference/a,b"
批量更新 Inference 示例	curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/rerank/a,b/_update" -d '{ "service_settings": { "secret_id": "AKI3***********", "secret_key": "GZ4*******" } }' 备注1：密钥采用secret_id 和 secret_key的写法，注意云API key权限需包含ES接口调用

调用原子服务推理

本页目录：

通过原子服务创建推理端点

参考：原子服务一览

Embedding 服务

Rerank 服务

LLM 服务

参考：Inference API 调用指引

Embedding API

Rerank API

Completion API

参考：Inference 批量获取、更新 API （8.16）