目前人工智能热火朝天,语音识别、图像识别、自动驾驶都是热门话题,今天我们就聊聊语音交互需要哪几个环节。现在打着AI旗号的智能产品哪些是用了语音智能交互。
什么是语音交互?如果你是苹果手机,一定调戏过siri,这就是典型的语音智能交互,还有今年双11天猫大卖的天猫魔盒,亚马逊echo,也是通过语音控制家电,属于语音交互的一部分。
最基本的语音交互包括语音识别和对话管理,语音识别是负责让机器理解你说的话,语音合成则是把结果用语音方式播报给你,所以分成两块来说:
语音识别:
人脑在听到一段话时会自动处理翻译成可以理解的意思,但是机器不行,汉语每个发音可能有几十甚至上百个字,所以语音识别不仅要识别你的发音,还要把这一串发音解析成你真正表达的那些字。
这是怎么做到的呢?首先通过声学模型知道你的发音,你可以理解为我们的拼音,然后还需要一个语言模型,它可以根据前后的文字、上下文对话来计算出每个发音最可能的意思。所以有时你会发现,在说第一个字的时候可能屏幕显示A,但是当说完一个词后第一个字会被纠正为B。
语音识别技术的好坏,除了用错误率来衡量,还有使用场景的广泛度,比如智能电视,它只需要听懂你说「换台」「声音」几个关键词,最多加入电视节目的数据就够了,它所需要理解的范围就这么大,你对它说「冰箱」,它识别不了也没什么大不了。
如果轻松理解了语音识别,恭喜你,已经入门人工智能,后面的内容对你来讲就没有难度了!
语音合成:
相比语音识别,语音合成就简单多了,它只需要把生成好的内容用符合人说话音量和节奏的方式输出出来,有个几百万条说话样本做训练,所谓的深度学习会搞定一切,你都不需要了解它是怎么学的!
像是你每日在听的导航,你以为每一句都是林志玲或者郭德纲说的,其实她们只要提供日常说话的数据,其他都是机器合成的。
看到这里似乎你已经了解高大上的语音交互了,但是从语音识别到语音合成,有没有觉得缺少了很重要的一环,就是语义理解和对话管理。
语义理解:
顾名思义就是理解你说的意思,语义理解和语音识别是紧密相连的,同一句话可能有很多不同的含义,在语音识别准确地识别出你的文字后,语义理解还要明确你表达的意思。
如果就是多义词没法理解怎么办?也有办法,就是语意澄清,比如你说「美人鱼」,系统可以通过询问:你是想了解「美人鱼」是什么,还是要看「美人鱼」这部电影?这种方式来澄清问题或者范围。
看到这里你已经了解了80%的知识了,只剩最后一项。
对话管理
对话管理连接了语义理解和语音合成,也就是帮你准备答案的过程。
如果你只是寻求知识,那就像是在百度输入文字搜索答案一样简单,前提是你的背后有类似百度这样的信息存在,且不能向用户播报几百条结果让用户筛选。
但如果是聊天机器人或者智能生活管家这样的角色,它就需要经过大量的学习和训练,了解你每一句话、每一个字的真正需求,并给出方案。这一步到目前为止各个公司都还在努力。毕竟,能通过图灵测试的计算机至今也没多少。
看到这里基本就要结束了,恭喜你在人工智能语音领域超过90%的人,看下面这张图复习一下:
最后小编多说一句,语音识别、语音合成、语义理解、对话管理,它们只是最核心的环节,真的要做一个智能交互助手,你还需要语音唤醒、声纹识别、降噪、声音加强等以适应真实的使用环境,不过作为科普贴这些没那么重要,记得名词的话拿来显摆一下就好啦。
本文来自企鹅号 - 四库全说媒体
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文来自企鹅号 - 四库全说媒体
如有侵权,请联系 cloudcommunity@tencent.com 删除。