人工智能快速发展的今天,现在最高的境界是实现更好的人机对话,人机对话的第一步,就是让机器学会“听”和“说”。听是听从命令,更好的运行程序,是不断追求准确度,说则是要让机器人大脑也就是所谓的控制器有人性,有人味。
作为控制器最基本的能力之一,实现“听”这一功能的语音识别技术研究经历了从标准模板转向基于统计模型再到深度神经网络的过程。说起听的过程就不得不说语音识别,语音识别最难得在于严重地方口音的普通话,标准普通话的识别率已经不是问题,要识别体系做到方言识别 ,至少需要720小时的语料训练,从声音,内容再到说话者,都要不断变化提升系统的敏感度。
要想让机器人说话是一件很难的事情,要让机器人说出有认味的话更是难上加难。声学模型决定了语言的发音,每个字,系统都会在原始数据音库中找到合适的发音,然后读出来。要让电子发音有人味,就要简历相应的发音库。然后让机器模仿出来。
领取专属 10元无门槛券
私享最新 技术干货