现在技术越来越厉害了,前几年还感觉语音打字特别不靠谱,各种语音助手也相当蠢萌,想问下现在国内语音识别发展到什么水平了?
实时且准确的将语音转化成相对应的文本已经达到了什么样的水准?主要还存在哪些方面的问题?
目前语音识别技术已经发展得很好了,最高的准确率差不多能够达到95%。
应用场景也很多,比如说:
1、语音输入法:为用户节省输入时间、提升输入体验。
2、语音消息转写:将用户的语音信息转成文字信息,提升用户阅读效率。
3、智慧会场:将会议、庭审、采访等场景的音频信息转换为文字,降低人工记录成本、提升效率。
4、字幕生成:将直播和录播视频中的语音换成成文字,轻松便捷地生成字幕文件。
5、电话质检:通过语音识别服务将坐席通话转成文字,全面覆盖质检内容、提升质检效率。
6、安全监控:对直播音频流进行黄反暴力等关键词检索,大幅度提升敏感信息的监控能力。
7、语音助手:让智能硬件听清用户表达,实现对话式人机交互的第一步。
包括实时语音识别、一句话识别和录音文件识别服务,满足不同类型开发者需求。
当然还有一些待解决的问题,比如说:一些与普通话相差甚远的南方方言很难识别,噪音太过强烈的语音很难识别,等等。
在实际生活中并没有说的误差率仅有3%那么牛逼吧。
比如嘈杂环境或带口音的方言都很大程度影响着语音识别的准确度。
更不用说中文这么复杂,同一个发音的词会很多不同的意义,提高语音识别的精度还是有很大难度的。
按照目前的技术水平来看,随着麦克风阵列等硬件技术的升级,语音数据的收集,语音识别的准确流程还能提升,但也只能无限接近于100%,但绝不可能做到完全准确
据我了解,目前国内比较牛的语音识别系统在日常场合已经能达到实用化的水平了。
技术方面,从最初的FNN(前馈全连接神经网络)到RNN(的递归神经网络)。
再到现在应用比较广的LSTM和DFCNN,网络结构越来越复杂,越来越能对语音的特性进行建模,相应的效果也越来越好。