功能介绍

最近更新时间:2025-12-11 17:40:21

我的收藏

方案概述

基于腾讯RTC全球传输网络,AI 实时转录解决方案提供实时语音转文本和翻译能力。通过语音识别引擎(ASR)可对指定房间的音频流进行实时识别并将语音转换为文本内容(STT),快速构建直播实时字幕、会议内容实时记录、视频通话与语聊内容转写等多种场景下的语音识别应用。语音识别转文本后支持开启多语言翻译能力,实现跨语言内容实时翻译转写。

基本架构

AI 实时转录解决方案核心功能为实时语音转文字能力。翻译功能为可选项,未开启时不会产生翻译用量费用。
实时语音转文本: 如下方架构图所示,音频流经过 TRTC 全球网络节点传输到服务端进行音频处理后,由语音识别引擎(ASR)将语音转写为文本。系统支持多语种、热词权重配置、VAD 检测以及实时流式识别。对于需生成字幕或实时内容记录的场景,在此流程即可直接输出最终转写结果回调。
实时翻译链路 (可选择开启): 针对跨语言理解的场景,可在语音转写的基础上开启翻译功能。系统会将转写后的文本通过 LLM 翻译引擎进行翻译处理,并同时输出原文转写内容以及多语种翻译结果。


版本与能力支持

AI 实时转录服务包含语音转文本和实时翻译两大核心能力。其中,语音转文本能力分为基础、标准和高级三个版本引擎 ,可参考下文表格并根据使用场景需求选择适合的版本接入。
接入流程:具体的接入方式与流程参考 快速接入
参数说明:下文表格中列出的“模型参数值”对应转录 API 接口 RecognizeConfig 中的 Language 字段,完整的参数定义说明请参阅 转录 API 说明
版本类型
特性说明
语种与模型型号
语音转文本
基础版语言引擎
基础通用语音识别模型。在近场、非复杂噪声的声学环境下具备良好的响应速度与识别准确率。
通用场景:
"zh": 默认的8k中文(简体)模型,对电话场景支持较好。
"zh-TW": 16k繁体中文模型。
"en": 16k英语通用模型。
垂类场景:
"16k_zh_edu":中文教育。
"16k_zh_medical":中文医疗。
"16k_zh_court":中文法庭。
标准版语言引擎
基于大模型引擎,语音识别性能大幅增强,在噪声回音大、人声远小等复杂音频环境的识别准确率显著提升。
常见应用场景如会议、直播、语聊、游戏等实时字幕以及实时转写记录等。高度契合 RTC 实时互动相关场景。
"8k_zh_large": 大模型引擎,针对电话音频的识别支持较好。
"16k_zh_large": 大模型引擎, 同时支持中文、英文、多种中文方言等语言的识别。
"16k_multi_lang": 多语种大模型引擎,当前模型同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别,可实现15个语种的自动识别(句子/段落级别)。
"16k_zh_en": 最新大模型引擎, 模型同时支持中文、英语,对多种中文方言和中英混合场景识别更优。
高级版语言引擎
覆盖更多小语种、方言的精准识别需求,并支持配置3种语言自动识别。
越南语、日语、韩语、 印度尼西亚语、泰语、葡萄牙语、土耳其语、 阿拉伯语、西班牙语、印地语、法语、马来语、菲律宾语、德语、意大利语、俄语、瑞典语、丹麦语、挪威语、中国粤语
具体的语种配置参数枚举列表,请参考 转录 API 说明
如果您有更多其他语言需求,请 联系我们
实时翻译
实时翻译引擎
基于最新大语言模型技术的深度语义理解能力,系统能够自主适应目标语言表达习惯,实现自然流畅翻译效果。相较于传统翻译,翻译结果的机械感显著降低,在非正式标准的口语对话交流、泛娱互动等复杂场景下的效果提升明显。
支持15种语言翻译:中文、英语、西班牙语、葡萄牙语、法语、德语、俄语、阿拉伯语、日语、韩语、越南语、马来语、印度尼西亚语、意大利语、泰语。
支持术语干预功能,提升模型在复杂应用场景下的效果。

计费方式

AI 实时转录费用主要由两个独立部分组成:RTC 音频通话费用、AI 语音转文本费用;若需要翻译功能则在前两者基础上额外增加实时翻译费用。以上能力都需要通过购买 AI 智能识别 或 TRTC 包月套餐包解锁,超量支持后付费,具体能力解锁所需套餐版本和费用详情请参见 AI 智能识别计费说明

应用场景

应用场景
使用方式与价值
在线教育
通过 AI 转录对讲师与学员发言实时转写,课上提供实时字幕辅助理解,同步实时沉淀课程笔记与关键发言,可用于实时总结,课后复习、回放、存档。开启翻译功能后,可支持多语课堂或跨国教学场景。
社交娱乐
在社交娱乐场景中,通过AI转录能够对在线直播、游戏语聊、互动问答等场景,对发言内容进行实时转写,为观众提供准确字幕增强理解。同时支持输出多语言翻译内容,让不同地区用户能够更自然地参与互动。
办公协作
在线会议、线上面试、商务沟通、研讨会等场景下,通过 AI 转录生成实时字幕与内容记录,会中提升理解效率,会后可用于内容纪要整理。开启翻译功能后,可同时输出多语言转写,支持跨国团队无障碍协作。
客服中心
在线客服、智能外呼、呼叫中心等场景中,通过实时转写帮助客服准确理解用户内容。通话结束后沉淀完整文本记录,用于质检、合规与服务分析。开启翻译功能后,支持客服快速处理跨语言咨询,提高响应效率。