简介
本文档提供关于语音识别模板接口的 API 概览和 SDK 示例代码。
注意
创建语音识别模板
功能说明
创建语音识别模板。
方法原型
public Guzzle\\Service\\Resource\\Model createVoiceSpeechRecognitionTemplate(array $args = array());
请求示例
<?phprequire dirname(__FILE__, 2) . '/vendor/autoload.php';$secretId = "SECRETID"; //替换为用户的 secretId,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi$secretKey = "SECRETKEY"; //替换为用户的 secretKey,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi$region = "ap-beijing"; //替换为用户的 region,已创建桶归属的 region 可以在控制台查看,https://console.cloud.tencent.com/cos5/bucket$cosClient = new Qcloud\\Cos\\Client(array('region' => $region,'schema' => 'https', //协议头部,默认为http'credentials'=> array('secretId' => $secretId ,'secretKey' => $secretKey)));try {// 创建语音识别模板 https://cloud.tencent.com/document/product/460/84498$result = $cosClient->createVoiceSpeechRecognitionTemplate(array('Bucket' => 'examplebucket-125000000', //存储桶名称,由BucketName-Appid 组成,可以在COS控制台查看 https://console.cloud.tencent.com/cos5/bucket'Tag' => 'SpeechRecognition','Name' => 'voice-speechrecognition-name','SpeechRecognition' => array('EngineModelType' => '16k_zh','ChannelNum' => 1,'ResTextFormat' => 1,'FilterDirty' => 0,'FilterModal' => 1,'ConvertNumMode' => 0,'SpeakerDiarization' => 1,'SpeakerNumber' => 0,'FilterPunc' => 0,'OutputFileType' => 'txt',// 'FlashAsr' => 'true',// 'Format' => 'mp3',// 'FirstChannelOnly' => 1,// 'WordInfo' => 1,// 'SentenceMaxLength' => 6,),));// 请求成功print_r($result);} catch (\\Exception $e) {// 请求失败echo($e);}
参数说明
Request 中的具体数据描述如下:
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 | 限制 |
Tag | Request | 模板类型:SpeechRecognition | String | 是 | 无 |
Name | Request | 模板名称 仅支持中文、英文、数字、_、-和* | String | 是 | 无 |
SpeechRecognition | Request | 语音识别参数 | Container | 是 | 无 |
Container 类型 SpeechRecognition 的具体数据描述如下:
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 |
EngineModelType | Request.Speech Recognition | 引擎模型类型,分为电话场景和非电话场景。 电话场景: 8k_zh:电话 8k 中文普通话通用(可用于双声道音频); 8k_zh_s:电话 8k 中文普通话话者分离(仅适用于单声道音频); 8k_en:电话 8k 英语; 非电话场景: 6k_zh:16k 中文普通话通用; 16k_zh_video:16k 音视频领域; 16k_en:16k 英语; 16k_ca:16k 粤语; 16k_ja:16k 日语; 16k_zh_edu:中文教育; 16k_en_edu:英文教育; 16k_zh_medical:医疗; 16k_th:泰语; 16k_zh_dialect:多方言,支持23种方言。 极速ASR支持8k_zh、16k_zh、16k_en、16k_zh_video、16k_zh_dialect、16k_ms(马来语)、16k_zh-PY(中英粤) | String | 是 |
ChannelNum | Request.Speech Recognition | 仅支持非极速ASR 语音声道数: 1 表示单声道.EngineModelType为非电话场景仅支持单声道; 2 表示双声道(仅支持 8k_zh 引擎模型 双声道应分别对应通话双方)。 | Integer | 是 |
ResTextFormat | Request.Speech Recognition | 仅支持非极速ASR 识别结果返回形式: 0 表示识别结果文本(含分段时间戳); 1 词级别粒度的详细识别结果,不含标点,含语速值.(词时间戳列表,一般用于生成字幕场景) 2 词级别粒度的详细识别结果(包含标点、语速值)。 3 标点符号分段,包含每段时间戳,特别适用于字幕场景(包含词级时间、标点、语速值)。 | Integer | 否 |
FilterDirty | Request.Speech Recognition | 是否过滤脏词(目前支持中文普通话引擎): 0 表示不过滤脏词; 1 表示过滤脏词; 2 表示将脏词替换为 * 。默认值为 0。 | Integer | 否 |
FilterModal | Request.Speech Recognition | 是否过滤语气词(目前支持中文普通话引擎): 0 表示不过滤语气词; 1 表示部分过滤; 2 表示严格过滤 。 默认值为 0。 | Integer | 否 |
ConvertNumMode | Request.Speech Recognition | 是否进行阿拉伯数字智能转换(目前支持中文普通话引擎): 0 表示不转换,直接输出中文数字; 1 表示根据场景智能转换为阿拉伯数字。 3 表示打开数学相关数字转换。仅非极速ASR支持 默认值为 0。 | Integer | 否 |
SpeakerDiarization | Request.Speech Recognition | 是否开启说话人分离: 0 表示不开启; 1 表示开启(仅支持8k_zh,16k_zh,16k_zh_video,单声道音频)。 默认值为 0。 注意:8k电话场景建议使用双声道来区分通话双方,设置ChannelNum=2即可,不用开启说话人分离。 | Integer | 否 |
SpeakerNumber | Request.Speech Recognition | 仅支持非极速ASR 说话人分离人数(需配合开启说话人分离使用),取值范围:0-10。 0代表自动分离(目前仅支持≤6个人),1-10代表指定说话人数分离。默认值为 0。 | Integer | 否 |
FilterPunc | Request.Speech Recognition | 是否过滤标点符号(目前支持中文普通话引擎): 0 表示不过滤。 1 表示过滤句末标点。 2 表示过滤所有标点。 默认值为 0。 | Integer | 否 |
OutputFileType | Request.Speech Recognition | 输出文件类型,可选txt、srt。默认为txt 极速ASR仅支持txt 非极速Asr时,ResTextFormat为3时仅支持txt | String | 否 |
FlashAsr | Request.Speech Recognition | 是否开启极速ASR,可选true、false。默认为false | String | 否 |
Format | Request.Speech Recognition | 极速ASR音频格式。支持 wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。 | String | 当FlashAsr为true时必选 |
FirstChannelOnly | Request.Speech Recognition | 极速ASR参数。表示是否只识别首个声道,默认为1。0:识别所有声道;1:识别首个声道。 | Integer | 否 |
WordInfo | Request.Speech Recognition | 极速ASR参数。表示是否显示词级别时间戳,默认为0。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。 | Integer | 否 |
SentenceMaxLength | Request.Speech Recognition | 单标点最多字数,取值范围:[6,40]。默认为不开启该功能。该参数可用于字幕生成场景,控制单行字幕最大字数,当FlashAsr为false时,仅ResTextFormat为3时参数有效 | Integer | 否 |
返回结果示例
GuzzleHttp\\Command\\Result Object([RequestId] => NjRjNzNjRjMjIxODBfMzUxNGSIOJOIDAJOIDg=[ContentType] => application/xml[ContentLength] => 1059[Template] => Array([State] => Normal[TemplateId] => t11367a00f19asf798sd7f89s7f2e646[Name] => voice-speechrecognition-name[BucketId] => examplebucket-1250000000[Category] => Custom[Tag] => SpeechRecognition[UpdateTime] => 2023-07-31T17:19:30+0800[CreateTime] => 2023-07-31T17:19:30+0800[SpeechRecognition] => Array([EngineModelType] => 16k_zh[ChannelNum] => 1[ResTextFormat] => 1[FilterDirty] => 0[FilterModal] => 1[ConvertNumMode] => 0[SpeakerDiarization] => 1[SpeakerNumber] => 0[FilterPunc] => 0[OutputFileType] => txt[FlashAsr] => false[Format] =>[FirstChannelOnly] => 0[WordInfo] => 0[SentenceMaxLength] => 0))[Bucket] => examplebucket-1250000000[Location] => examplebucket-1250000000.ci.ap-guangzhou.myqcloud.com/template)
更新语音识别模板
功能说明
更新语音识别模板。
方法原型
public Guzzle\\Service\\Resource\\Model updateVoiceSpeechRecognitionTemplate(array $args = array());
请求示例
<?phprequire dirname(__FILE__, 2) . '/vendor/autoload.php';$secretId = "SECRETID"; //替换为用户的 secretId,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi$secretKey = "SECRETKEY"; //替换为用户的 secretKey,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi$region = "ap-beijing"; //替换为用户的 region,已创建桶归属的 region 可以在控制台查看,https://console.cloud.tencent.com/cos5/bucket$cosClient = new Qcloud\\Cos\\Client(array('region' => $region,'schema' => 'https', //协议头部,默认为http'credentials'=> array('secretId' => $secretId ,'secretKey' => $secretKey)));try {// 更新语音识别模板 https://cloud.tencent.com/document/product/460/84759$result = $cosClient->updateVoiceSpeechRecognitionTemplate(array('Bucket' => 'examplebucket-125000000', //存储桶名称,由BucketName-Appid 组成,可以在COS控制台查看 https://console.cloud.tencent.com/cos5/bucket'Key' => '', // TemplateId'Tag' => 'SpeechRecognition','Name' => 'voice-speechrecognition-name','SpeechRecognition' => array('EngineModelType' => '16k_zh','ChannelNum' => 1,'ResTextFormat' => 1,'FilterDirty' => 0,'FilterModal' => 1,'ConvertNumMode' => 0,'SpeakerDiarization' => 1,'SpeakerNumber' => 0,'FilterPunc' => 0,'OutputFileType' => 'txt',// 'FlashAsr' => 'true',// 'Format' => 'mp3',// 'FirstChannelOnly' => 1,// 'WordInfo' => 1,// 'SentenceMaxLength' => 6,),));// 请求成功print_r($result);} catch (\\Exception $e) {// 请求失败echo($e);}
参数说明
Request 中的具体数据描述如下:
节点名称(关键字) | 父节点 | 描述 | 类型 | 必选 |
Request | 无 | Container | 是 |
返回结果示例
GuzzleHttp\\Command\\Result Object([RequestId] => NjRjNzdNjRjMjIxODBfMzUxNGSIOJOIDAJOIDg=[ContentType] => application/xml[ContentLength] => 1060[Template] => Array([State] => Normal[TemplateId] => t11361pc7a00f19asf798sd7f89s7f2e646[Name] => voice-speechrecognition-name[BucketId] => examplebucket-1250000000[Category] => Custom[Tag] => SpeechRecognition[UpdateTime] => 2023-07-31T17:20:45+0800[CreateTime] => 2023-07-31T17:19:30+0800[SpeechRecognition] => Array([EngineModelType] => 16k_zh[ChannelNum] => 1[ResTextFormat] => 1[FilterDirty] => 0[FilterModal] => 1[ConvertNumMode] => 0[SpeakerDiarization] => 1[SpeakerNumber] => 0[FilterPunc] => 0[OutputFileType] => txt[FlashAsr] => false[Format] =>[FirstChannelOnly] => 0[WordInfo] => 0[SentenceMaxLength] => 0))[Key] => t11361pc7a00f19asf798sd7f89s7f2e646[Bucket] => examplebucket-1250000000[Location] => examplebucket-1250000000.ci.ap-guangzhou.myqcloud.com/template/t11361pc7a00f19asf798sd7f89s7f2e646)