语音消息转文本热句

最近更新时间:2024-10-15 14:45:41

我的收藏
为方便开发者快速实现语音消息转文本热句模型(以下用热句指代)功能,本文为您介绍语音消息转文本热句的使用场景以及接入流程。

使用场景

在 GME 转文本的服务中,对一些特有的人名、产品名、公司名或者某个领域的专有词汇,例如游戏术语开黑、游戏中地名等,可能存在识别准确率不高的情况。对于这些专有词汇,GME 提供了热句模型供用户使用,添加热句可以显著提升专有词汇识别准确率。
说明:
热句模型功能目前仅支持中文识别,支持通过 云API 方式和控制台方式进行热句的创建。

前提条件

已开通语音转文本服务:如果使用流式语音转文本服务,需要在控制台开通语音转文本服务;如果需要语音消息服务,需要在控制台额外开通语音消息服务,具体开通详情可参见 服务开通指引
已接入 GME SDK:使用语音消息转文本热句模型功能,至少需要接入流式语音转文本功能,或者接入语音消息功能及转文本功能。GME SDK 的调用和接入请参见 Native SDK 快速接入Unity SDK 快速接入Unreal SDK 快速接入
开通语音消息转文本热句模型功能:请 提交工单 联系 GME 团队申请。
说明:
语音消息转文本功能将产生语音消息服务费用、语音转文本服务费用。详情请参见 计费文档

实现方式1:云 API 调用

通过云 API 使用热句功能的调用流程如下:


1. 创建模型
2. 更新模型
3. 上线模型
4. 体验效果
5. 其他功能

步骤1:创建模型

使用语音消息转文本热句模型功能首先需要创建模型,调用 CreateCustomization 接口创建模型,接口会返回创建完的模型 id。一个 GME Appid 只能对应创建一个模型。

步骤2:更新模型

通过 ModifyCustomization 接口可以更新模型。更新模型时需要提交训练文本文件的下载地址,目前仅支持腾讯云对象存储(COS)。
优化建议
训练数据为用户在专有领域和行业积累的文本数据,数据越接近真实使用场景,识别准确率越高。
训练文本中的数字部分最好按照发音替换为对应的汉字,例如“167方向”替换为“一百六十七方向”。
格式要求
训练文本格式要求 UTF-8 或 GBK 编码的 txt 文件,文件最大不超过2MB。
每行添加一个词或一句话,详见下方“训练文本数据示例”。
每行的字节数最多为1000,总行数最多为50万行。
确认模型后,需要上线模型才能体验效果。
训练文本数据示例: 我还在毒圈,等等我。 有空投,我们往空投位置走吧。 谁要倍镜,我有个六倍镜。 我看到红房子二楼有个人,一百七十五方向。

步骤3:上线模型

模型更新完成后,需要上线才能使用,调用 ModifyCustomizationState 上线模型。

步骤4:体验效果

在客户端已接入的流式语音转文本功能或者语音消息转文本功能中体验热句效果。

步骤5:其他功能

已经上线的模型可以调用 ModifyCustomizationState 接口下线。
通过 GetCustomizationList 可以查询目前使用的模型 ID。
通过 DeleteCustomization 可以删除模型。

实现方式2:控制台操作

除了使用相关的云API接口外,您也可以直接在控制台界面操作,操作步骤如下:
1. 创建模型
2. 上线模型
3. 下线模型
4. 更新模型
5. 删除模型
6. 体验效果

步骤1:创建模型

登录控制台 热词热句管理 页面,在上方选择需要使用语音消息转文本热句模型的应用,单击新建热句模型

可下载热句文件模板,按格式要求填写完成后单击上传热句文件,上传后点击提交,模型开始训练。模型的训练、上线、下线需要约一分钟左右时间。



步骤2:上线模型

模型训练完成后,需要上线才能使用,单击上线按钮上线该模型。



步骤3:下线模型

如需修改模型,需要先将已上线的模型下线。模型下线后,相应的接口调用将使用默认通用模型进行识别。



步骤4:更新模型

将原上线的模型下线后,单击更换文件重新上传新模型,模型更新后,需要重新训练才能使用。



步骤5:删除模型

单击删除即可删除掉现有模型。



步骤6:体验效果

在客户端已接入的流式语音转文本功能或者语音消息转文本功能中体验热句效果。