文档中心数据万象SDK 文档PHP SDK模板接口语音识别模板接口

语音识别模板接口

最近更新时间：2025-03-21 17:50:32

本页目录：

简介
本文档提供关于语音识别模板接口的 API 概览和 SDK 示例代码。
注意
 旧版本可能存在 bug，使用时建议升级到 最新版本。
API
操作描述
﻿创建语音识别模板﻿
创建语音识别模板
﻿更新语音识别模板﻿
更新语音识别模板
创建语音识别模板
功能说明
创建语音识别模板。
方法原型
public Guzzle\\Service\\Resource\\Model createVoiceSpeechRecognitionTemplate(array $args = array());
请求示例
<?php
﻿
require dirname(__FILE__, 2) . '/vendor/autoload.php';
﻿
$secretId = "SECRETID"; //替换为用户的 secretId，请登录访问管理控制台进行查看和管理，https://console.cloud.tencent.com/cam/capi
$secretKey = "SECRETKEY"; //替换为用户的 secretKey，请登录访问管理控制台进行查看和管理，https://console.cloud.tencent.com/cam/capi
$region = "ap-beijing"; //替换为用户的 region，已创建桶归属的 region 可以在控制台查看，https://console.cloud.tencent.com/cos5/bucket
$cosClient = new Qcloud\\Cos\\Client(
    array(
        'region' => $region,
        'schema' => 'https', //协议头部，默认为http
        'credentials'=> array(
            'secretId'  => $secretId ,
            'secretKey' => $secretKey)));
try {
    // 创建语音识别模板 https://cloud.tencent.com/document/product/460/84498
    $result = $cosClient->createVoiceSpeechRecognitionTemplate(array(
        'Bucket' => 'examplebucket-125000000', //存储桶名称，由BucketName-Appid 组成，可以在COS控制台查看 https://console.cloud.tencent.com/cos5/bucket
        'Tag' => 'SpeechRecognition',
        'Name' => 'voice-speechrecognition-name',
        'SpeechRecognition' => array(
            'EngineModelType' => '16k_zh',
            'ChannelNum' => 1,
            'ResTextFormat' => 1,
            'FilterDirty' => 0,
            'FilterModal' => 1,
            'ConvertNumMode' => 0,
            'SpeakerDiarization' => 1,
            'SpeakerNumber' => 0,
            'FilterPunc' => 0,
            'OutputFileType' => 'txt',
//            'FlashAsr' => 'true',
//            'Format' => 'mp3',
//            'FirstChannelOnly' => 1,
//            'WordInfo' => 1,
//            'SentenceMaxLength' => 6,
        ),
    ));
    // 请求成功
    print_r($result);
} catch (\\Exception $e) {
    // 请求失败
    echo($e);
}
参数说明
Request 中的具体数据描述如下：
节点名称（关键字）
父节点
描述
类型
是否必选
限制
Tag
Request
模板类型：SpeechRecognition
String
是
无
Name
Request
模板名称 仅支持中文、英文、数字、_、-和*
String
是
无
SpeechRecognition
Request
语音识别参数
Container
是
无
Container 类型 SpeechRecognition 的具体数据描述如下：
节点名称（关键字）
父节点
描述
类型
是否必选
EngineModelType
Request.Speech
Recognition
引擎模型类型，分为电话场景和非电话场景。
电话场景：
8k_zh：电话 8k 中文普通话通用（可用于双声道音频）；
8k_zh_s：电话 8k 中文普通话话者分离（仅适用于单声道音频）；
8k_en：电话 8k 英语；
 非电话场景：
 6k_zh：16k 中文普通话通用；
16k_zh_video：16k 音视频领域；
16k_en：16k 英语；
16k_ca：16k 粤语；
16k_ja：16k 日语；
16k_zh_edu：中文教育；
16k_en_edu：英文教育；
16k_zh_medical：医疗；
16k_th：泰语；
16k_zh_dialect：多方言，支持23种方言。
极速ASR支持8k_zh、16k_zh、16k_en、16k_zh_video、16k_zh_dialect、16k_ms（马来语）、16k_zh-PY（中英粤）
String
是
ChannelNum
Request.Speech
Recognition
仅支持非极速ASR
语音声道数：
1 表示单声道.EngineModelType为非电话场景仅支持单声道；
2 表示双声道（仅支持 8k_zh 引擎模型 双声道应分别对应通话双方）。
Integer
是
ResTextFormat
Request.Speech
Recognition
仅支持非极速ASR
识别结果返回形式：
0 表示识别结果文本（含分段时间戳）；
1 词级别粒度的详细识别结果,不含标点，含语速值.（词时间戳列表，一般用于生成字幕场景）
2 词级别粒度的详细识别结果（包含标点、语速值）。 
3 标点符号分段，包含每段时间戳，特别适用于字幕场景（包含词级时间、标点、语速值）。
Integer
否
FilterDirty
Request.Speech
Recognition
是否过滤脏词（目前支持中文普通话引擎）：
0 表示不过滤脏词；
1 表示过滤脏词；
2 表示将脏词替换为 *。
默认值为 0。
Integer
否
FilterModal
Request.Speech
Recognition
是否过滤语气词（目前支持中文普通话引擎）：
0 表示不过滤语气词；
1 表示部分过滤；
2 表示严格过滤 。
默认值为 0。
Integer
否
ConvertNumMode
Request.Speech
Recognition
是否进行阿拉伯数字智能转换（目前支持中文普通话引擎）：
0 表示不转换，直接输出中文数字；
1 表示根据场景智能转换为阿拉伯数字。
3 表示打开数学相关数字转换。仅非极速ASR支持
默认值为 0。
Integer
否
SpeakerDiarization
Request.Speech
Recognition
是否开启说话人分离：
0 表示不开启；
1 表示开启(仅支持8k_zh，16k_zh，16k_zh_video，单声道音频)。
默认值为 0。
注意：8k电话场景建议使用双声道来区分通话双方，设置ChannelNum=2即可，不用开启说话人分离。
Integer
否
SpeakerNumber
Request.Speech
Recognition
仅支持非极速ASR
说话人分离人数（需配合开启说话人分离使用），取值范围：0-10。
0代表自动分离（目前仅支持≤6个人），1-10代表指定说话人数分离。默认值为 0。
Integer
否
FilterPunc
Request.Speech
Recognition
是否过滤标点符号（目前支持中文普通话引擎）：
0 表示不过滤。
1 表示过滤句末标点。
2 表示过滤所有标点。
默认值为 0。
Integer
否
OutputFileType
Request.Speech
Recognition
输出文件类型，可选txt、srt。默认为txt
极速ASR仅支持txt
非极速Asr时，ResTextFormat为3时仅支持txt
String
否
FlashAsr
Request.Speech
Recognition
是否开启极速ASR，可选true、false。默认为false
String
否
Format
Request.Speech
Recognition
极速ASR音频格式。支持 wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。
String
当 FlashAsr 为 true 时必选
FirstChannelOnly
Request.Speech
Recognition
极速ASR参数。表示是否只识别首个声道，默认为1。0：识别所有声道；1：识别首个声道。
Integer
否
WordInfo
Request.Speech
Recognition
极速ASR参数。表示是否显示词级别时间戳，默认为0。0：不显示；1：显示，不包含标点时间戳，2：显示，包含标点时间戳。
Integer
否
SentenceMaxLength
Request.Speech
Recognition
单标点最多字数，取值范围：[6，40]。默认为不开启该功能。该参数可用于字幕生成场景，控制单行字幕最大字数，当FlashAsr为false时，仅ResTextFormat为3时参数有效
Integer
否
返回结果示例
GuzzleHttp\\Command\\Result Object
(
    [RequestId] => NjRjNzNjRjMjIxODBfMzUxNGSIOJOIDAJOIDg=
    [ContentType] => application/xml
    [ContentLength] => 1059
    [Template] => Array
        (
            [State] => Normal
            [TemplateId] => t11367a00f19asf798sd7f89s7f2e646
            [Name] => voice-speechrecognition-name
            [BucketId] => examplebucket-1250000000
            [Category] => Custom
            [Tag] => SpeechRecognition
            [UpdateTime] => 2023-07-31T17:19:30+0800
            [CreateTime] => 2023-07-31T17:19:30+0800
            [SpeechRecognition] => Array
                (
                    [EngineModelType] => 16k_zh
                    [ChannelNum] => 1
                    [ResTextFormat] => 1
                    [FilterDirty] => 0
                    [FilterModal] => 1
                    [ConvertNumMode] => 0
                    [SpeakerDiarization] => 1
                    [SpeakerNumber] => 0
                    [FilterPunc] => 0
                    [OutputFileType] => txt
                    [FlashAsr] => false
                    [Format] => 
                    [FirstChannelOnly] => 0
                    [WordInfo] => 0
                    [SentenceMaxLength] => 0
                )
﻿
        )
﻿
    [Bucket] => examplebucket-1250000000
    [Location] => examplebucket-1250000000.ci.ap-guangzhou.myqcloud.com/template
)
更新语音识别模板
功能说明
更新语音识别模板。
方法原型
public Guzzle\\Service\\Resource\\Model updateVoiceSpeechRecognitionTemplate(array $args = array());
请求示例
<?php
﻿
require dirname(__FILE__, 2) . '/vendor/autoload.php';
﻿
$secretId = "SECRETID"; //替换为用户的 secretId，请登录访问管理控制台进行查看和管理，https://console.cloud.tencent.com/cam/capi
$secretKey = "SECRETKEY"; //替换为用户的 secretKey，请登录访问管理控制台进行查看和管理，https://console.cloud.tencent.com/cam/capi
$region = "ap-beijing"; //替换为用户的 region，已创建桶归属的 region 可以在控制台查看，https://console.cloud.tencent.com/cos5/bucket
$cosClient = new Qcloud\\Cos\\Client(
    array(
        'region' => $region,
        'schema' => 'https', //协议头部，默认为http
        'credentials'=> array(
            'secretId'  => $secretId ,
            'secretKey' => $secretKey)));
try {
    // 更新语音识别模板 https://cloud.tencent.com/document/product/460/84759
    $result = $cosClient->updateVoiceSpeechRecognitionTemplate(array(
        'Bucket' => 'examplebucket-125000000', //存储桶名称，由BucketName-Appid 组成，可以在COS控制台查看 https://console.cloud.tencent.com/cos5/bucket
        'Key' => '', // TemplateId
        'Tag' => 'SpeechRecognition',
        'Name' => 'voice-speechrecognition-name',
        'SpeechRecognition' => array(
            'EngineModelType' => '16k_zh',
            'ChannelNum' => 1,
            'ResTextFormat' => 1,
            'FilterDirty' => 0,
            'FilterModal' => 1,
            'ConvertNumMode' => 0,
            'SpeakerDiarization' => 1,
            'SpeakerNumber' => 0,
            'FilterPunc' => 0,
            'OutputFileType' => 'txt',
//            'FlashAsr' => 'true',
//            'Format' => 'mp3',
//            'FirstChannelOnly' => 1,
//            'WordInfo' => 1,
//            'SentenceMaxLength' => 6,
        ),
    ));
    // 请求成功
    print_r($result);
} catch (\\Exception $e) {
    // 请求失败
    echo($e);
}
参数说明
Request 中的具体数据描述如下：
节点名称（关键字）
父节点
描述
类型
必选
Key
无
模版 ID
String
是
Request
无
﻿同创建语音识别模板接口的 Request﻿
Container
是
返回结果示例
GuzzleHttp\\Command\\Result Object
(
    [RequestId] => NjRjNzdNjRjMjIxODBfMzUxNGSIOJOIDAJOIDg=
    [ContentType] => application/xml
    [ContentLength] => 1060
    [Template] => Array
        (
            [State] => Normal
            [TemplateId] => t11361pc7a00f19asf798sd7f89s7f2e646
            [Name] => voice-speechrecognition-name
            [BucketId] => examplebucket-1250000000
            [Category] => Custom
            [Tag] => SpeechRecognition
            [UpdateTime] => 2023-07-31T17:20:45+0800
            [CreateTime] => 2023-07-31T17:19:30+0800
            [SpeechRecognition] => Array
                (
                    [EngineModelType] => 16k_zh
                    [ChannelNum] => 1
                    [ResTextFormat] => 1
                    [FilterDirty] => 0
                    [FilterModal] => 1
                    [ConvertNumMode] => 0
                    [SpeakerDiarization] => 1
                    [SpeakerNumber] => 0
                    [FilterPunc] => 0
                    [OutputFileType] => txt
                    [FlashAsr] => false
                    [Format] => 
                    [FirstChannelOnly] => 0
                    [WordInfo] => 0
                    [SentenceMaxLength] => 0
                )
﻿
        )
﻿
    [Key] => t11361pc7a00f19asf798sd7f89s7f2e646
    [Bucket] => examplebucket-1250000000
    [Location] => examplebucket-1250000000.ci.ap-guangzhou.myqcloud.com/template/t11361pc7a00f19asf798sd7f89s7f2e646
)
﻿

上一篇: 智能封面模板接口下一篇: 查询模板接口