创建模板

最近更新时间:2025-08-22 11:33:03

我的收藏

功能描述

创建语音识别模板。

授权说明

通过子账号使用时,需要在 授权策略 的 action 中添加ci:CreateMediaTemplate权限。数据万象支持的所有操作接口请参见 CI action

服务开通

使用该功能需提前 绑定存储桶,开通数据万象服务。
使用该功能需提前通过 控制台接口 开通智能语音服务。
注意:
数据万象绑定后,如果您手动对存储桶进行数据万象的解绑操作,将无法继续使用该功能。

使用限制

使用该接口时,请先确认相关限制条件。详情请参见 使用限制


请求

请求示例

POST /template HTTP/1.1
Host: <BucketName-APPID>.ci.<Region>.myqcloud.com
Date: <GMT Date>
Authorization: <Auth String>
Content-Length: <length>
Content-Type: application/xml

<body>
说明
Authorization:携带鉴权信息,用于验证请求的合法性的请求头,详情请参见 请求签名 文档。

请求头

此接口仅使用公共请求头部,详情请参见 公共请求头部 文档。

请求体

该请求操作的实现需要有如下请求体。
<Request>
<Tag>SpeechRecognition</Tag>
<Name>TemplateName</Name>
<SpeechRecognition>
<EngineModelType>16k_zh</EngineModelType>
<ChannelNum>1</ChannelNum>
<ResTextFormat>1</ResTextFormat>
<FilterDirty>0</FilterDirty>
<FilterModal>1</FilterModal>
<ConvertNumMode>0</ConvertNumMode>
<SpeakerDiarization>1</SpeakerDiarization>
<SpeakerNumber>0</SpeakerNumber>
<FilterPunc>0</FilterPunc>
<OutputFileType>txt</OutputFileType>
</SpeechRecognition>
</Request>
具体数据描述如下:
节点名称(关键字)
父节点
描述
类型
是否必选
Request
保存请求的容器
Container
Container 类型
Request
的具体数据描述如下:
节点名称(关键字)
父节点
描述
类型
是否必选
Tag
Request
模板类型:SpeechRecognition
String
Name
Request
模板名称,仅支持中文、英文、数字、_、-和*,长度不超过64
String
SpeechRecognition
Request
语音识别参数
Container
Container 类型
SpeechRecognition
的具体数据描述如下:
节点名称(关键字)
父节点
描述
类型
默认值
是否必选
FlashAsr
Request. SpeechRecognition
开启极速 ASR,取值 true/false
String
false
EngineModelType
Request.
SpeechRecognition
引擎模型类型,分为电话场景和非电话场景。
电话场景:
8k_zh:电话8k中文普通话通用(可用于双声道音频)
8k_zh_s:电话8k中文普通话话者分离(仅适用于单声道音频)
8k_en:电话8k英语
非电话场景:
16k_zh:16k中文普通话通用
16k_zh_video:16k音视频领域
16k_en:16k英语
16k_ca:16k粤语
16k_ja:16k日语
16k_zh_edu:中文教育
16k_en_edu:英文教育
16k_zh_medical:医疗
16k_th:泰语
16k_zh_dialect:多方言,支持23种方言
极速 ASR 支持8k_zh、16k_zh、16k_en、16k_zh_video、16k_zh_dialect、16k_ms(马来语)、16k_zh-PY(中英粤)
String
ChannelNum
Request. SpeechRecognition
语音声道数:
1表示单声道。EngineModelType 为非电话场景仅支持单声道
2表示双声道(仅支持8k_zh 引擎模型 双声道应分别对应通话双方)
仅支持非极速 ASR,为非极速 ASR 时,该参数必填
String
ResTextFormat
Request. SpeechRecognition
识别结果返回形式:
0:识别结果文本(含分段时间戳)
1:词级别粒度的详细识别结果,不含标点,含语速值(词时间戳列表,一般用于生成字幕场景)
2:词级别粒度的详细识别结果(包含标点、语速值)
3:标点符号分段,包含每段时间戳,特别适用于字幕场景(包含词级时间、标点、语速值)
仅支持非极速 ASR
String
FilterDirty
Request. SpeechRecognition
是否过滤脏词(目前支持中文普通话引擎)
0:不过滤脏词
1:过滤脏词
2:将脏词替换为 *
String
0
FilterModal
Request. SpeechRecognition
是否过滤语气词(目前支持中文普通话引擎):
0 表示不过滤语气词
1 表示部分过滤
2 表示严格过滤
String
0
ConvertNumMode
Request. SpeechRecognition
是否进行阿拉伯数字智能转换(目前支持中文普通话引擎)
0:不转换,直接输出中文数字
1:根据场景智能转换为阿拉伯数字
3 :打开数学相关数字转换
仅支持非极速 ASR
String
0
SpeakerDiarization
Request. SpeechRecognition
是否开启说话人分离
0:不开启
1:开启(仅支持8k_zh,16k_zh,16k_zh_video,单声道音频)
8k电话场景建议使用双声道来区分通话双方,设置 ChannelNum=2即可,不用开启说话人分离。
String
0
SpeakerNumber
Request. SpeechRecognition
说话人分离人数(需配合开启说话人分离使用),取值范围:[0,10]
0代表自动分离(目前仅支持≤6个人)
1-10代表指定说话人数分离
仅支持非极速 ASR
String
0
FilterPunc
Request. SpeechRecognition
是否过滤标点符号(目前支持中文普通话引擎)
0:不过滤。
1:过滤句末标点
2:过滤所有标点
String
0
OutputFileType
Request. SpeechRecognition
输出文件类型,可选 txt、srt
极速 ASR 仅支持 txt
非极速 Asr 且 ResTextFormat 为3时仅支持 txt
String
txt
Format
Request. SpeechRecognition
极速 ASR 音频格式,支持 wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac
极速 ASR 时,该参数必填
String
FirstChannelOnly
Request. SpeechRecognition
是否识别首个声道
0:识别所有声道
1:识别首个声道
仅支持极速 ASR
String
1
WordInfo
Request. SpeechRecognition
是否显示词级别时间戳
0:不显示
1:显示,不包含标点时间戳
2:显示,包含标点时间戳
仅支持极速 ASR
String
0
SentenceMaxLength
Request. SpeechRecognition
单标点最多字数,取值范围:[6,40]
默认值为 0 表示不开启该功能
该参数可用于字幕生成场景,控制单行字幕最大字数
当 FlashAsr 为 false 时,仅 ResTextFormat 为3时参数有效
String
0

响应

响应头

此接口仅返回公共响应头部,详情请参见 公共响应头部 文档。

响应体

该响应体返回为 application/xml 数据,包含完整节点数据的内容展示如下:
<Response>
<RequestId>NjJmMWQxYjNfOTBmYTUwNjRfNWYyY18x</RequestId>
<Template>
<Tag>SpeechRecognition</Tag>
<TemplateId>t1460606b9752148c4ab182f55163ba7cd</TemplateId>
<Name>TemplateName</Name>
<Tag>SpeechRecognition</Tag>
<CreateTime>2020-08-05T11:35:24+0800</CreateTime>
<UpdateTime>2020-08-31T16:15:20+0800</UpdateTime>
<BucketId>test-1234567890</BucketId>
<Category>Custom</Category>
<SpeechRecognition>
<EngineModelType>16k_zh</EngineModelType>
<ChannelNum>1</ChannelNum>
<ResTextFormat>1</ResTextFormat>
<FilterDirty>0</FilterDirty>
<FilterModal>1</FilterModal>
<ConvertNumMode>0</ConvertNumMode>
<SpeakerDiarization>1</SpeakerDiarization>
<SpeakerNumber>0</SpeakerNumber>
<FilterPunc>0</FilterPunc>
<OutputFileType>txt</OutputFileType>
<FlashAsr>false</FlashAsr>
<FirstChannelOnly>0</FirstChannelOnly>
<WordInfo>0</WordInfo>
<SentenceMaxLength>0</SentenceMaxLength>
<HotVocabularyTableId/>
</SpeechRecognition>
</Template>
</Response>
具体的数据内容如下:
节点名称(关键字)
父节点
描述
类型
Response
保存结果的容器
Container
Container 节点
Response
的内容:
节点名称(关键字)
父节点
描述
类型
Template
Response
保存模板详情的容器
Container
RequestId
Response
请求的唯一 ID
String
Container 节点
Template
的内容:
节点名称(关键字)
父节点
描述
类型
TemplateId
Response.Template
模板 ID
String
Name
Response.Template
模板名称
String
BucketId
Response.Template
模板所属存储桶
String
Category
Response.Template
模板属性,Custom 或者 Official
String
Tag
Response.Template
模板类型,SpeechRecognition
String
UpdateTime
Response.Template
更新时间
String
CreateTime
Response.Template
创建时间
String
SpeechRecognition
Response.Template
同请求体中的 Request.SpeechRecognition
Container

错误码

该请求操作无特殊错误信息,常见的错误信息请参见 错误码 文档。

实际案例

请求

POST /template HTTP/1.1
Authorization: q-sign-algorithm=sha1&q-ak=************************************&q-sign-time=1497530202;1497610202&q-key-time=1497530202;1497610202&q-header-list=&q-url-param-list=&q-signature=****************************************
Host: test-1234567890.ci.ap-chongqing.myqcloud.com
Content-Length: 1666
Content-Type: application/xml

<Request>
<Tag>SpeechRecognition</Tag>
<Name>TemplateName</Name>
<SpeechRecognition>
<EngineModelType>16k_zh</EngineModelType>
<ChannelNum>1</ChannelNum>
<ResTextFormat>1</ResTextFormat>
<FilterDirty>0</FilterDirty>
<FilterModal>1</FilterModal>
<ConvertNumMode>0</ConvertNumMode>
<SpeakerDiarization>1</SpeakerDiarization>
<SpeakerNumber>0</SpeakerNumber>
<FilterPunc>0</FilterPunc>
<OutputFileType>txt</OutputFileType>
<SentenceMaxLength>0</SentenceMaxLength>
</SpeechRecognition>
</Request>

响应

HTTP/1.1 200 OK
Content-Type: application/xml
Content-Length: 100
Connection: keep-alive
Date: Thu, 14 Jul 2022 12:37:29 GMT
Server: tencent-ci
x-ci-request-id: NjJmMWQxYjNfOTBmYTUwNjRfNWYyY18x

<Response>
<RequestId>NjJmMWQxYjNfOTBmYTUwNjRfNWYyY18x</RequestId>
<Template>
<TemplateId>t1460606b9752148c4ab182f55163ba7cd</TemplateId>
<Name>TemplateName</Name>
<Tag>SpeechRecognition</Tag>
<CreateTime>2020-08-05T11:35:24+0800</CreateTime>
<UpdateTime>2020-08-31T16:15:20+0800</UpdateTime>
<BucketId>test-1234567890</BucketId>
<Category>Custom</Category>
<SpeechRecognition>
<EngineModelType>16k_zh</EngineModelType>
<ChannelNum>1</ChannelNum>
<ResTextFormat>1</ResTextFormat>
<FilterDirty>0</FilterDirty>
<FilterModal>1</FilterModal>
<ConvertNumMode>0</ConvertNumMode>
<SpeakerDiarization>1</SpeakerDiarization>
<SpeakerNumber>0</SpeakerNumber>
<FilterPunc>0</FilterPunc>
<OutputFileType>txt</OutputFileType>
<FlashAsr>false</FlashAsr>
<FirstChannelOnly>0</FirstChannelOnly>
<WordInfo>0</WordInfo>
<SentenceMaxLength>0</SentenceMaxLength>
<HotVocabularyTableId/>
</SpeechRecognition>
</Template>
</Response>