功能描述
创建语音识别模板。
授权说明
服务开通
使用该功能需提前开通数据万象,并绑定存储桶。详情请参见 绑定存储桶。
使用该功能需提前通过控制台或接口开通智能语音服务 。详情请参见 开通智能语音服务。
使用限制
请求
请求示例
POST /template HTTP/1.1Host: <BucketName-APPID>.ci.<Region>.myqcloud.comDate: <GMT Date>Authorization: <Auth String>Content-Length: <length>Content-Type: application/xml<body>
请求头
请求体
该请求操作的实现需要有如下请求体。
<Request><Tag>SpeechRecognition</Tag><Name>TemplateName</Name><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ChannelNum>2</ChannelNum><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType></SpeechRecognition></Request>
具体数据描述如下:
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 |
Request | 无 | 保存请求的容器 | Container | 是 |
Container 类型
Request
的具体数据描述如下:节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 |
Tag | Request | 模板类型:SpeechRecognition | String | 是 |
Name | Request | 模板名称,仅支持中文、英文、数字、_、-和*,长度不超过 64 | String | 是 |
SpeechRecognition | Request | 语音识别参数 | Container | 是 |
Container 类型
SpeechRecognition
的具体数据描述如下:节点名称(关键字) | 父节点 | 描述 | 类型 | 默认值 | 是否必选 |
FlashAsr | Request.
SpeechRecognition | 开启极速ASR,取值 true/false | String | false | 否 |
EngineModelType | Request. SpeechRecognition | 引擎模型类型,分为电话场景和非电话场景。 电话场景: 8k_zh:电话 8k 中文普通话通用(可用于双声道音频) 8k_zh_s:电话 8k 中文普通话话者分离(仅适用于单声道音频) 8k_en:电话 8k 英语 非电话场景: 16k_zh:16k 中文普通话通用 16k_zh_video:16k 音视频领域 16k_en:16k 英语 16k_ca:16k 粤语 16k_ja:16k 日语 16k_zh_edu:中文教育 16k_en_edu:英文教育 16k_zh_medical:医疗 16k_th:泰语 16k_zh_dialect:多方言,支持23种方言 极速 ASR 支持8k_zh、16k_zh、16k_en、16k_zh_video、16k_zh_dialect、16k_ms(马来语)、16k_zh-PY(中英粤) | String | 无 | 是 |
ChannelNum | Request.
SpeechRecognition | 语音声道数: 1 表示单声道。EngineModelType为非电话场景仅支持单声道 2 表示双声道(仅支持 8k_zh 引擎模型 双声道应分别对应通话双方) 仅支持非极速ASR,为非极速ASR时,该参数必填 | String | 无 | 否 |
ResTextFormat | Request.
SpeechRecognition | 识别结果返回形式: 0:识别结果文本(含分段时间戳) 1:词级别粒度的详细识别结果,不含标点,含语速值(词时间戳列表,一般用于生成字幕场景) 2:词级别粒度的详细识别结果(包含标点、语速值) 3:标点符号分段,包含每段时间戳,特别适用于字幕场景(包含词级时间、标点、语速值) 仅支持非极速ASR | String | 无 | 否 |
FilterDirty | Request.
SpeechRecognition | 是否过滤脏词(目前支持中文普通话引擎) 0:不过滤脏词 1:过滤脏词 2:将脏词替换为 * | String | 0 | 否 |
FilterModal | Request.
SpeechRecognition | 是否过滤语气词(目前支持中文普通话引擎): 0 表示不过滤语气词 1 表示部分过滤 2 表示严格过滤 | String | 0 | 否 |
ConvertNumMode | Request.
SpeechRecognition | 是否进行阿拉伯数字智能转换(目前支持中文普通话引擎) 0:不转换,直接输出中文数字 1:根据场景智能转换为阿拉伯数字 3 :打开数学相关数字转换 仅支持非极速ASR | String | 0 | 否 |
SpeakerDiarization | Request.
SpeechRecognition | 是否开启说话人分离 0:不开启 1:开启(仅支持8k_zh,16k_zh,16k_zh_video,单声道音频) 8k电话场景建议使用双声道来区分通话双方,设置ChannelNum=2即可,不用开启说话人分离。 | String | 0 | 否 |
SpeakerNumber | Request.
SpeechRecognition | 说话人分离人数(需配合开启说话人分离使用),取值范围:[0, 10] 0 代表自动分离(目前仅支持≤6个人) 1-10代表指定说话人数分离 仅支持非极速ASR | String | 0 | 否 |
FilterPunc | Request.
SpeechRecognition | 是否过滤标点符号(目前支持中文普通话引擎) 0:不过滤。 1:过滤句末标点 2:过滤所有标点 | String | 0 | 否 |
OutputFileType | Request.
SpeechRecognition | 输出文件类型,可选txt、srt 极速ASR仅支持txt 非极速Asr且ResTextFormat为3时仅支持txt | String | txt | 否 |
Format | Request.
SpeechRecognition | 极速ASR音频格式,支持 wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac 极速ASR时,该参数必填 | String | 无 | 否 |
FirstChannelOnly | Request.
SpeechRecognition | 是否识别首个声道 0:识别所有声道 1:识别首个声道 仅支持极速ASR | String | 1 | 否 |
WordInfo | Request.
SpeechRecognition | 是否显示词级别时间戳 0:不显示 1:显示,不包含标点时间戳 2:显示,包含标点时间戳 仅支持极速ASR | String | 0 | 否 |
SentenceMaxLength | Request.
SpeechRecognition | 单标点最多字数,取值范围:[6,40] 默认值为 0 表示不开启该功能 该参数可用于字幕生成场景,控制单行字幕最大字数 当FlashAsr为false时,仅ResTextFormat为3时参数有效 | String | 0 | 否 |
响应
响应头
响应体
该响应体返回为 application/xml 数据,包含完整节点数据的内容展示如下:
<Response><RequestId>NjJmMWQxYjNfOTBmYTUwNjRfNWYyY18x</RequestId><Template><Tag>SpeechRecognition</Tag><TemplateId>t1460606b9752148c4ab182f55163ba7cd</TemplateId><Name>TemplateName</Name><Tag>SpeechRecognition</Tag><CreateTime>2020-08-05T11:35:24+0800</CreateTime><UpdateTime>2020-08-31T16:15:20+0800</UpdateTime><BucketId>test-1234567890</BucketId><Category>Custom</Category><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ChannelNum>2</ChannelNum><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType><SentenceMaxLength>0</SentenceMaxLength></SpeechRecognition></Template></Response>
具体的数据内容如下:
节点名称(关键字) | 父节点 | 描述 | 类型 |
Response | 无 | 保存结果的容器 | Container |
Container 节点
Response
的内容:节点名称(关键字) | 父节点 | 描述 | 类型 |
Template | Response | 保存模板详情的容器 | Container |
RequestId | Response | 请求的唯一 ID | String |
Container 节点
Template
的内容:节点名称(关键字) | 父节点 | 描述 | 类型 |
TemplateId | Response.Template | 模板 ID | String |
Name | Response.Template | 模板名称 | String |
BucketId | Response.Template | 模板所属存储桶 | String |
Category | Response.Template | 模板属性,Custom 或者 Official | String |
Tag | Response.Template | 模板类型,SpeechRecognition | String |
UpdateTime | Response.Template | 更新时间 | String |
CreateTime | Response.Template | 创建时间 | String |
SpeechRecognition | Response.Template | 同请求体中的 Request.SpeechRecognition | Container |
错误码
实际案例
请求
POST /template HTTP/1.1Authorization: q-sign-algorithm=sha1&q-ak=************************************&q-sign-time=1497530202;1497610202&q-key-time=1497530202;1497610202&q-header-list=&q-url-param-list=&q-signature=***************************************Host: test-1234567890.ci.ap-chongqing.myqcloud.comContent-Length: 1666Content-Type: application/xml<Request><Tag>SpeechRecognition</Tag><Name>TemplateName</Name><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ChannelNum>1</ChannelNum><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType><SentenceMaxLength>0</SentenceMaxLength></SpeechRecognition></Request>
响应
HTTP/1.1 200 OKContent-Type: application/xmlContent-Length: 100Connection: keep-aliveDate: Thu, 14 Jul 2022 12:37:29 GMTServer: tencent-cix-ci-request-id: NjJmMWQxYjNfOTBmYTUwNjRfNWYyY18x<Response><RequestId>NjJmMWQxYjNfOTBmYTUwNjRfNWYyY18x</RequestId><Template><TemplateId>t1460606b9752148c4ab182f55163ba7cd</TemplateId><Name>TemplateName</Name><Tag>SpeechRecognition</Tag><CreateTime>2020-08-05T11:35:24+0800</CreateTime><UpdateTime>2020-08-31T16:15:20+0800</UpdateTime><BucketId>test-1234567890</BucketId><Category>Custom</Category><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ChannelNum>1</ChannelNum><ResTextFormat>0</ResTextFormat><FilterDirty>1</FilterDirty><FilterModal>0</FilterModal><ConvertNumMode>1</ConvertNumMode><SpeakerDiarization>0</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><SentenceMaxLength>0</SentenceMaxLength></SpeechRecognition></Template></Response>