导语
数据万象(Cloud Infinite,CI)处理平台涵盖图片处理、内容审核、音视频处理、智能语音、内容识别、文档预览等各项存储云原生能力,其中智能语音围绕“声音”提供多元化内容服务,在通勤导航、智能家居、网络K歌、虚拟社交各场景下为用户提供助力。
上班路上,红灯之前,午饭时间,谁没有点张开小耳朵听听音频的需求呢?
比如以小王的普通一天举例,这也是千千万万当代年轻人的现状,可以看到从早到晚都有丰富的音频活动,娱乐工作生活面面俱到,横跨数个产品,多个行业,软硬件之间来回跳跃,当然小王能在如此多的活动面前游刃有余,这当然也是要归功于而今眼目下效果强劲,功能丰富的音频处理能力,放眼望去只有你想不到,没有我们做不到!
数据万象音频处理功能介绍
数据万象现在提供的音频处理能力包含:语音合成、语音识别、语音降噪、音伴分离等,语音处理涉及到的学科较为广泛,包含NLP ASR TTS NLG NLU等,不同的场景、业务下,都需要对训练数据和模型做出调整。
一、语音降噪
音频降噪是提升声音质量的重要技术手段,甚至在语音识别场景中,为了排除环境干扰提升识别准确率与可靠性,降噪也是一个不可或缺的环节,在日常聆听环境下存在大量例如失真、底噪、背景声这样的不利条件,对我们音频的后期使用造成巨大影响,谁也不想听个会议回放还要伴随键盘敲击声和话筒底噪。而噪声中存在着数量不小的声学变异源,这给我们的降噪模型训练也带来了不小的挑战,在关注噪声变化的同时也要关注输出音频的质量。
降噪前
降噪后
二、语音识别
人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难,万象所使用的语音识别系统使用的声学模型和语音模型一直持续迭代,目前支持中文、英文、粤语以及多种不同方言,在识别过程中可以进行说话人分离,也可以良好地应用在字幕场景中。
三、语音合成
比如数据万象提供的语音合成功能,在语种、分词、词性预测、韵律预测、情感等方面都需要下一番功夫,才能够达到现在万象接近人声,富有表现力,具有连贯性的效果(MOS评分可以达到4.5以上,MOS值能够有效合理的评价合成语音质量,其从使用者的感官角度出发,既评测了合成语音的声音质量,也对合成语音的拟人化、自然度做出了评价,是行业内较为通用的评价机制),这样的语音合成在有声听书和语音播报的场景中都可以得到良好应用。
那我们是谁呢?大声说出来,诶,对了,数据万象(此处应有语音)
数据万象-这里是数据万象语音合成
功能-数据万象支持语音合成、语音降噪、音伴分离、语音识别
英文-Nice to meet you,this is cloud infinite.
四、音伴分离
快速将音频和视频中的人声、背景音乐(伴奏)部分分离为两个文件,而且不会损失或破坏音质,轻松实现二次创作,特定的情境下,也可以用作降噪处理,将人声与背景噪声分离。
说了这么多,那么具体这些功能如何才能亲自上手体验(研发同学可以直接使用我们的API)?我们就以语音合成举例!!!大大大前提:首先需要把文件传上COS,数据万象对COS对象存储上的文件进行处理,进入COS对象存储控制台或CI数据万象控制台
COS对象存储控制台:https://cloud.tencent.com/login?s_url=https%3A%2F%2Fconsole.cloud.tencent.com%2Fcos
CI数据万象控制台:https://cloud.tencent.com/login?s_url=https%3A%2F%2Fconsole.cloud.tencent.com%2Fci
操作步骤如下:
Step 1、进入【数据工作流】---【公共配置】---【语音合成】,创建语音合成模板
Step 2、进入【数据工作流】---【任务】---【智能编辑】---【语音合成】,创建语音合成任务
如您需要对文件进行批量处理,也可以选择在【数据工作流】-【工作流】中,点击创建工作流,添加语音合成节点。(工作流详细操作请参考工作流配置)
工作流配置:https://cloud.tencent.com/document/product/460/46488#.E5.88.9B.E5.BB.BA.E5.B7.A5.E4.BD.9C.E6.B5.81
Step 3、进入【文件管理】,就可以下载我们生成的音频啦!
如果您想了解数据万象音频处理的更多信息,请点击[阅读原文],查阅官网文档。
点击“阅读原文”了解更多信息