调用原子服务推理

最近更新时间:2026-03-02 16:22:42

我的收藏
腾讯云 ES 提供了丰富的原子服务(参阅这里),在ES控制台左侧导航栏的“智能搜索开发”下,点击“原子服务”即可看到,它们可以通过 API 直接调用。
其中 Embedding,Rerank,LLM 等类型的原子服务可以通过ES的inference创建为推理端点。


通过原子服务创建推理端点

您可以将原子服务创建为一个 ES 的 inference 推理端点,这样在 ES 中需要通过 inference API 调用时(例如通过 ingest pipeline 写入、通过 knn 或者 semantic 方式搜索)可以直接调用。
PUT /_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5"
{
"service": "tencent_cloud_ai_search",
"service_settings": {
"secret_id": "AKIDI***********************",
"secret_key": "BQa*************************",
"url": "https://es.internal.tencentcloudapi.com",
"model_id": "bge-base-zh-v1.5",
"region": "ap-beijing",
"language": "zh-CN",
"action": "GetTextEmbedding",
"version": "2025-01-01"
}
}
备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用。
备注2:url 需要以http/https 开头,默认不用修改
备注3:model_id 填模型名称,例如bge-base-zh-v1.5,Conan-embedding-v1 ,后续支持自定义模型
备注4:region 可填ap-beijing,当前原子服务暂部署在北京地域
备注5:其他字段一般不用改

参考:原子服务一览

Embedding 服务

Embedding 是一种将高维数据映射到低维空间的技术,通常用于将非结构化数据,如文本、图像或音频转化为向量表示,使其更容易输入机器模型进行处理,并且向量之间的距离可以反映对象之间的相似性。
接口文档请参见 获取特征向量
原子服务
token限制
维度
语言
备注
bge-base-zh-v1.5
512
768
中文
bge 经典模型
KaLM-embedding-multilingual-mini-v1
131072
896
多语言
微信自研具有优质训练数据的自回归 LLM 的嵌入模型,适合超长文本、中英混合查询与多语言文档匹配场景
bge-m3
8194
1024
多语言
bge经典模型
conan-embedding-v1
512
1792
中文
腾讯自研,中文场景去年在MTEB 榜单一度综合排第一

Rerank 服务

重排是指在 RAG 过程中,通过评估文档与查询之间的相关性,将最相关的文档放在前面,确保语言模型在生成回答时优先考虑排名靠前的上下文,提高生成结果的准确性和可信度,也可以通过这种方式进行过滤,减少大模型成本。
接口文档请参见 重排序
原子服务
token限制
语言
备注
bge-reranker-large
514
中文、英文
bge 经典模型
bge-reranker-v2-m3
8194
多语言
bge 经典模型

LLM 服务

本服务支持一系列高性能的大语言模型,包括DeepSeek以及腾讯自主研发的混元大模型,结合混合搜索等先进搜索技术,快速高效实现RAG,有效解决幻觉和知识更新问题。
接口文档请参见大模型生成
模型类型
模型名称(model)
Tokens
特性
DeepSeek
(支持Sogou/Bing/Baidu联网)
deepseek-r1
最大输入128k
最大输出8k
擅长复杂需求拆解、技术方案直译,提供精准结构化分析及可落地方案,实现了与GPT-4o和Claude Sonnet 3.5等模型相媲美的性能
deepseek-v3
(v3-0324)
最大输入128k
最大输出8k
通用型AI模型,拥有庞大参数规模及强大多任务泛化能力,擅长开放域对话、知识问答、创意生成等多样化需求
deepseek-r1-distill-qwen-32b
最大输入128k
最大输出8k
r1-36b参数蒸馏版,效果没有r1好,但响应速度更快,资源成本更低
混元
hunyuan-turbo
最大输入28k
最大输出4k
腾讯新一代旗舰大模型,混元Turbo模型,在语言理解、文本创作、数学、推理和代码等领域都有较大提升,具备强大的知识问答能力
hunyuan-large
最大输入28k
最大输出4k
腾讯开发的开源业界参数规模最大、效果最好的 Transformer 结构的 MoE 模型,适用于对模型效果、复杂指令有较高的要求的场景
hunyuan-large-longcontext
最大输入128k
最大输出6k
基于开源的hunyuan-large模型进一步增训,特别优化了对长文任务的处理能力,与元宝C端文档阅读场景使用的是同款模型
hunyuan-standard
最大输入30k
最大输出2k
在通用效果提升的基础上,训练数据中融合了医疗、金融领域的长文数据、长文翻译数据和长文多文档问答等高质量精标数据
hunyuan-standard-256K
最大输入250k
最大输出6k
256k极长窗口特化版,复用7B-MoE框架压缩显存占用,支持百页文献级处理,适用于绝大部分场景,同时兼顾效果及推理性能

参考:Inference API 调用指引

Embedding API

在ES 中创建原子服务Embedding模型,举例,名字为tencentcloudapi_bge_base_zh-v1.5
(支持全量覆盖修改密钥)

curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" -d '{
"service": "tencent_cloud_ai_search",
"service_settings": {
"secret_id": "AKIDI***********************",
"secret_key": "BQa*************************",
"url": "https://es.internal.tencentcloudapi.com",
"model_id": "bge-base-zh-v1.5",
"region": "ap-beijing",
"language": "zh-CN",
"action": "GetTextEmbedding",
"version": "2025-01-01"
}
}'
备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用。
备注2:url 需要以http/https 开头,默认不用修改
备注3:model_id 填模型名称,例如bge-base-zh-v1.5,Conan-embedding-v1 ,后续支持自定义模型
备注4:region 可填ap-beijing,当前原子服务暂部署在北京地域
备注 5:其他字段一般不用改
调用原子服务模型
单独执行向量化
curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5" -d '{
"input": ["中国","美国","英国"]
}'
查看模型
获取全部模型: GET /_inference/_all
或获取单个模型:
curl -XGET "http://127.0.0.1:9200/_inference/text_embedding/tencentcloudapi_bge_base_zh-v1.5"
返回如下信息:(会隐藏api_key)
{
"models" : [
"model_id" : "tencentcloudapi_bge_base_zh-v1.5"
"task_type" : "text_embedding",
"service" : "tencent_cloud_ai_search",
"service_settings" : {
"model_id" : "bge-base-zh-v1.5"
"url" : "https://aisearch.test.tencentcloudapi.com",
"Language" : "zh-CN"
"region": "ap-guangzhou",
"action" : "GetTextEmbedding"
"version": "2025-01-01"
},
"task_settings" :{ }
}
]
}
创建基于原子服务模型的pipeline
curl -X PUT "localhost:9200/_ingest/pipeline/tencentcloudapi_bge_base_zh-v1.5_embeddings?pretty" -H 'Content-Type: application/json' -d'
{
"processors": [
{
"inference": {
"model_id": "tencentcloudapi_bge_base_zh-v1.5",
"input_output": {
"input_field": "content",
"output_field": "content_embedding"
}
}
}
]
}
'
调用原子服务进行bulk写入
curl -u "elastic:changeme" -H "Content-Type: application/x-ndjson; charset=UTF-8" -XPOST "127.0.0.1:9200/vector_index/_bulk?pipeline=tencentcloudapi_bge_base_zh-v1.5_embeddings" -d '
{ "index" : {} }
{ "title" : "value1","content": "good day" }
'
调用原子服务进行向量相似度检索
curl -H "Content-Type: application/x-ndjson; charset=UTF-8" -XPOST "127.0.0.1:9200/vector_index/_search" -d '{
"knn": {
"field": "content_embedding",
"query_vector_builder": {
"text_embedding": {
"model_id": "tencentcloudapi_bge_base_zh-v1.5",
"model_text": "您需要向量化的原始文本"
}
},
"k": 10,
"num_candidates": 100
}}'

Rerank API

创建 原子服务rerank 模型
(支持全量覆盖修改密钥)
curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/rerank/tencentcloudapi_bge-reranker-large" -d '{
"service": "tencent_cloud_ai_search",
"service_settings": {
"secret_id": "AKIDI***********************",
"secret_key": "BQa*************************",
"url": "https://es.internal.tencentcloudapi.com",
"model_id": "bge-reranker-large",
"region": "ap-beijing",
"language": "zh-CN",
"action": "RunRerank",
"version": "2025-01-01"
},
"task_settings": {
"top_n": 10,
"return_documents": true
}
}'
备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用
备注2:url 需要以http/https 开头,默认不用修改
备注3:model_id 填模型名称,例如bge-reranker-large ,后续支持自定义模型
备注4:region 可填ap-beijing,当前原子服务暂时只部署在北京地域
调用原子服务rerank 模型进行重排
curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/rerank/tencentcloudapi_bge-reranker-large" -d '{
"query": "中国",
"input": ["美国","中国","英国"]
}'
查询+rerank
一体化请求
curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/vector_index/_search?pretty" -d '
{
"retriever": {
"tencent_cloud_ai_reranker": {
"retriever": {
"standard": {
"query": {
"match_all": { // 查询条件
}
}
}
},
"model_id": "tencentcloudapi_bge-reranker-large",
"rank_field": "content",
"rank_text": "nice day",
"rank_window_size": 10,
"min_score": 0.6
}
}
}'
curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/vector_index/_search?pretty" -d '
'

Completion API

创建 原子服务completion 模型
(支持全量覆盖修改密钥)
curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/completion/tencentcloudapi_deepseek" -d '{
"service": "tencent_cloud_ai_search",
"service_settings": {
"secret_id": "AKIDI***********************",
"secret_key": "BQa*************************",
"url": "https://es.ai.internal.tencentcloudapi.com",
"model_id": "deepseek_v3",
"region": "ap-beijing",
"language": "zh-CN",
"action": "ChatCompletions",
"version": "2025-01-01"
}
}'
备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用
备注2:url 需要以http/https 开头,默认不用修改
备注3:model_id 填模型名称,例如deepseek_v3 ,后续支持自定义模型
备注4:region 可填写ap-beijing,当前原子服务暂部署在北京地域
调用原子服务completion 模型对话(非流式)
curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/completion/deepseek?timeout=300s" -d '{
"input": "您是谁?"
}'
调用原子服务completion 模型对话(流式)
curl -H "Content-Type: application/json" -XPOST "http://127.0.0.1:9200/_inference/completion/deepseek/_stream?timeout=300s" -d '{
"input": "您是谁?"
}'

参考:Inference 批量获取、更新 API (8.16)

批量能力
基础使用方法:基于官方的获取、更新 API,参考上方官方文档
批量能力使用:自研增加批量的能力,参考下方示例
批量获取 Inference 示例
curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/_inference/completion/a*,b*"
curl -H "Content-Type: application/json" -XGET "http://127.0.0.1:9200/_inference/a*,b*"
批量更新 Inference 示例
curl -H "Content-Type: application/json" -XPUT "http://127.0.0.1:9200/_inference/rerank/a*,b*/_update" -d '{
"service_settings": {
"secret_id": "AKI3*************",
"secret_key": "GZ4*********"
}
}'
备注1:密钥采用secret_id 和 secret_key的写法,注意云API key权限需包含ES接口调用