AI 智能语音

最近更新时间:2026-05-09 17:58:31

我的收藏
AI 智能语音包括语音转文本、实时翻译和文字转语音三个能力。
语音转文本功能通过识别,将语音内容转成文本内容(Automatic Speech Recognition,ASR)并输出结果,支持配合 TRTC 房间使用(识别房间内音频流),也支持直接调用(API 推送音频流或上传音频文件)。
实时翻译在语音转文本的基础上,通过 AI 将转写出来的文本翻译成目标语言,仅支持配合 TRTC 使用。
文字转语音识别文字信息,将其进行文本转语音(Text-To-Speech, TTS)识别并进行输出。支持配合 TRTC 使用,也支持直接调用。

计费说明

说明:
配合 TRTC 使用:配合 TRTC 的语音转文字以及实时翻译服务,以及 AI 实时对话服务,需要购买 AI 智能语音识别套餐包来开启能力,套餐赠送一定用量时长,超过部分后付费。不支持直接后付费使用
直接使用:如您选择直接调用语音转文字和文字转语音服务,支持通过后付费的方式直接使用,或者购买 AI 智能语音套餐包获取更多用量折扣

套餐包费用

解锁 AI 智能语音能力位的方式具体如下:
套餐包
套餐版本
套餐价格
赠送 AI 智能语音时长
语音转文本
实时翻译
文字转语音
轻量版
50 元/月(每个账号限购 1 次)
1,000 分钟/月
基础版
500 元/月
10,000 分钟/月
-
尊享版
1000 元/月
20,000 分钟/月
体验版
-
入门版
0 元免费订阅
-
-
-
-
基础版
625 元/月
-
-
-
-
尊享版
1875 元/月
-
-
-
-
尊享版 Plus
3625 元/月
限时 8 折 2875 元
10,000 分钟/月
-
旗舰版
6250 元/月
-
-
-
-
旗舰版 Plus
10000 元/月
限时 8 折 8000 元
20,000 分钟/月
说明:
购买 AI 智能语音时长包的任一规格的套餐包,均支持 语音转文本 API 文档 中所有语音转文本模型的识别。
套餐包的有效期为购买当日 - 次月当日。例如:2025 年 3 月 1 日购买,其有效时间为 2025 年 3 月 1 日 - 2025 年 4 月 1 日。
每个套餐仅对单个 SDKAppID 生效,可用于抵扣当前应用(SDKAppID)产生的 AI 智能语音时长用量消耗,如果您有多个 SDKAppID 需要购买,您需依次为其 购买 单独的套餐。超额的部分按套餐外超量费用进行收费。
当单个 SDKAppID 购买的 AI 智能语音套餐包到期后,对应应用解锁的增值功能也将停用,建议您购买时,开启自动续期以避免影响业务使用。开启续期:登录腾讯云控制台 > 费用中心,在左侧导航中选择 续期管理
AI 智能语音套餐包退费规则详情请参见 退费说明
语音转文本、实时翻译以及文字转语音(在 AI 实时对话 方案中集成)并发限制 100,其他场景使用文字转语音限制 20 QPS。 若您有更高的并发需求,请 联系我们

抵扣比例说明

赠送的 AI 智能语音时长具体抵扣规则如下:
能力
类型
抵扣比例
语音转文本能力—实时
基础语言引擎
1
标准语言引擎
1.6
高级语言引擎
3
语音转文本能力—非实时
录音文件/一句话识别
1
实时翻译能力
翻译引擎
1.4
文字转语音能力
Flash
0.006
注:实际计费时,1字符可抵扣 0.36 秒的智能语音时长,换算为分钟维度后,1 字符对应 0.006 分钟的智能语音时长。
多语种
说明:
语音转文字能力:标准语言引擎于 2025 年 5 月 20 日起,支持 AI 智能语音时长包抵扣。
实时翻译能力:购买 AI 智能语音轻量版、AI 智能语音尊享版或使用包月套餐旗舰版 Plus 赠送的 AI 智能语音时长包均可以支持翻译引擎功能。自 2025 年 9 月 24 日 0 时起,支持抵扣实时翻译用量
文字转语音能力:购买 AI 智能语音套餐包或使用包月套餐旗舰版 Plus、包月套餐尊享版 Plus 赠送的 AI 智能语音时长包均可以支持 Flash 和多语种文字转语音。自 2025 年 11 月 20 日 0 时起,支持 AI 智能语音时长包抵扣。

后付费

付费方式
能力
类型
价格
说明

套餐外超量费用

(日结后付费)
语音转文本能力
-实时
0.05 元/分钟
支持中文普通话识别。对电话音频支持良好。
0.08 元/分钟
支持中文普通话、中文方言口音、英语以及中英混合的识别。识别性能和抗噪能力大幅增强。
0.15 元/分钟
支持小语种精准识别。具体参见 语音转文本 > 高级版配置
语音转文本能力
-非实时
0.05 元/分钟
支持直接调用,目前支持中文和英文场景。
实时翻译能力
0.07 元/分钟
支持15种语言的翻译,具体参见 支持语言列表
文字转语音能力
Flash
3.00 元/万字符
支持将中文、英语、日语、韩语以及粤语方言文本实时转换为自然流畅的多音色语音。
多语种
如果您需要中英日韩之外的语种支持,请通过商务经理或者 提交工单 联系。
注意:
开通 TRTC 包月套餐 体验版 可进行功能快速体验,产生的用量均按照后付费价格收取。
购买 套餐包 赠送的 AI 智能语音时长,当赠送的抵扣量用尽且套餐包仍在有效期内时,超出的用量会按照套餐外超量费用进行计费。

接入说明

TRTC AI 智能语音解决方案支持以下接入方式:
配合 TRTC 使用:
无 UI 接入:支持通过 服务端接入,也可通过 TRTC SDK 接入 AI 转录/翻译,简化开发集成流程。
场景(含 UI)方案接入:目前已经支持 视频通话接入 AI 转录/翻译 方案和 多人会议接入 AI 转录/翻译 方案。助力快速上线含 UI 的场景化实时转录功能。
直接使用:
不依赖 TRTC 房间,通过 API 直接调用 ASR / TTS 能力,适用于已有音频采集链路或仅需单点能力的场景:
能力
接入方式
说明
WebSocket 接入
通过 WebSocket 推送音频流进行实时流式识别。
HTTP POST 接入
上传音频文件,异步返回识别结果。
HTTP POST 接入
上传短音频(≤60s),同步返回识别结果。
HTTP POST 接入(SSE 流式)
输入文本,返回合成后的语音音频。
AI 实时对话中配置语音转文字和实时文字转语音具体接入步骤请参见 AI 实时对话跑通 Demo

用量统计

语音转文本

只有开始参与 AI 智能语音的音频时长才进行用量统计。
主播多路流输入,若调用不同的语言引擎模型,则按照不同语言引擎单价进行区分收费。
只有在真人开启麦克风后,系统才会同步启用 ASR 服务识别语音内容,持续时间以真人开启麦克风持续时间为准。
注意:
使用 AI 智能语音服务时,将会有机器人作为虚拟观众加入房间,订阅需要识别的音频流。机器人费用按照 音视频时长计费规则 进行计费。
时长统计精度为秒,按 SDKAppID 维度,以每日累计秒数转换成分钟数后进行计费,不足一分钟按一分钟计。

实时翻译

按照参与 AI 智能语音翻译能力的音频时长进行用量统计。
主播单路流输入,若输出多种翻译语言,则按照输入的音频时长 * 输出的语种个数进行收费。
说明:
时长统计精度为秒,按日累计秒数转换成分钟数后进行计费,不足一分钟按一分钟计算。

文字转语音

按照文字转语音的输入文本字符数量进行用量统计。
主播单路流输入,按照需要文字转语音的字符数量进行收费。
说明:
文本字符统计精度为万字符,按日累计字符数进行计费,保留四位小数。
1 个汉字算 2 个字符(包括日文汉字、韩文汉字或其他语言中产生和用到的汉字字符);每个英语字母,其他语言字符,标点符号,特殊符号,空格,回车等均统计为 1 个字符。

计费示例

示例 1

用户 A 希望使用语音转文本的功能,那么需要购买 AI 智能语音任一规格套餐包,在 2024 年 11 月 01 日一次性购买了 AI 智能语音(10,000 分钟规格)3 个月,并开启了“自动续期”功能。
则:
客户一次性付费 = 500 元/月 × 3 个月 = 1500 元,(3 个月套餐分别在 2024 年 11 月 01 日、2024 年 12 月 01 日、2025 年 01 月 01 日下发)。
从 2025 年 02 月 01 日开始触发“自动续费”,每月自动扣费 500 元,并下发 AI 智能语音包含 10,000 分钟的套餐包。
说明:
自动续期可随时前往费用中心 > 续期管理 关闭。

示例 2

用户 A 和 B 用中文通话,观众 C 需要看到英文字幕,观众 D 需要看到日文字幕,使用标准版语言引擎进行语音转文本,再使用实时翻译的功能,通话 5 分钟的计费如下:
计费类型
用户 A
用户 B
小计
语音转文本
5 分钟
5 分钟
10 分钟
实时翻译
5 分钟 * 2
5 分钟 * 2
20 分钟
分析:
语音转文本:共产生 10 分钟用量,单价为 0.08 元/分钟,共 0.8 元。
实时翻译:共产生 20 分钟用量,单价为 0.07 元/分钟,共 1.4 元。
则此场景中,您需要支付 2.2 元。
注意:
本文计费示例采用刊例价计算,如果您与腾讯云的商务经理签订了合同,以合同约定的价格为准。

示例 3

用户 A 和 B 用中文通话,观众 C 需要看到英文字幕并能听到英文语音,观众 D 需要看到日文字幕并听到日文语音,使用标准版语言引擎进行语音转文本,再使用实时翻译和文字转语音的功能,通话 10 分钟,文字转语音英文字符用量 1.6 万字符(用户 A 和 用户 B 的中文内容翻译成英文后进行文字转语音的字符量假设分别为 8000 个字符)、文字转语音日文字符用量 1 万字符(用户 A 和 用户 B 的中文内容翻译成日文后进行文字转语音的字符量假设分别为 5000 个字符)的计费如下
计费类型
用户 A
用户 B
小计
语音转文本
10 分钟
10 分钟
20 分钟
实时翻译
10 分钟 * 2
10 分钟 * 2
40 分钟
文字转语音
0.8 万英文字符 + 0.5 万日语字符
0.8 万英文字符 + 0.5 万日语字符
2.6 万 字符
分析:
语音转文本:共产生 20 分钟用量,使用标准版引擎单价为 0.08 元/分钟,共 1.6 元。
实时翻译:共产生 40 分钟用量,单价为 0.07 元/分钟,共 2.8 元。
文字转语音:共产生 2.6000 万字符用量,单价为 3 元/万字符,共 7.8 元。
则在此场景中,您需要支付 12.2 元。

支持语言列表


支持语言种类
支持方言种类
语音转文本
中文、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、马来语、菲律宾语、德语、意大利语、俄语、瑞典语、丹麦语、挪威语。
上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、广东话、客家话、南宁话。
实时翻译
中文、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、阿拉伯语、西班牙语、法语、马来语、德语、意大利语、俄语。
/
文字转语音
中文、英语、日语、韩语
广东话
注意:
语音转文本和文字转语音的部分语种仅限特定版本类型支持,具体参考 不同引擎类型
文字转语音暂不支持自主接入中英日韩之外的语种,如需其他语种支持请通过商务或者 提交工单 联系。