首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI声音皮肤:用东北话说“假如生活欺骗了你,不要抱怨,抱我”

南都讯 记者陈志芳 朱芳圆 12月21日,极客公园创新大会十周年在北京举行未来趋势论坛。搜狗CEO王小川在会上说,语音识别技术解决难点有语义理解、智能降噪、语音合成等。

王小川现场展示了一段讨论视频和语音转换界面,视频显示有多名讨论者、发言夹杂了中英文、掌声和笑声等语音识别难点。王小川说,其中,语音转换需要实现区别不同人声的人声分离,提供掌声、笑声等其他声音的识别来帮助观众理解内容,同时解决中英文夹杂的难题。

在上述的识别难题背后,还有其他的技术难点,如在嘈杂环境中如何让人和机器听得更清楚?王小川说,传统的降噪处理通过麦克风矩阵来解决,计算多个麦克风的中间数值和信号处理,现在的降噪处理则可通过人工智能方式来学习4万余种真实噪音,加入新的降噪算法,使机器有能力去分辨各种噪音并智能降噪。

另外,语音合成也是未来AI语音识别的发展方向。王小川说,目前基础的语音合成已经较为普遍,如语音合成林志玲、高晓松的声音,但在长篇演讲、音频付费节目等应用中,如何让语音合成脱离机械播报,成为有情感的表演是一个难题。

演讲者与转述师的声音融合。主办方供图。

对此,AI通过提取声音特征、添加“声音皮肤”的方式来解决,王小川举例说,这需要一名负责读出演讲者文章的转述师,AI能提取演讲者的声音特征和转述师的声音情绪,两者的结合就相当于给演讲者的声音披上了“声音皮肤”,变成有情绪的声音。王小川现场演示了用蜡笔小新、高晓松、东北大姐的声音说出了“假如生活欺骗了你,不要抱怨,抱我”。

王小川介绍,搜狗也在从语音变声走向视频合成,比如AI合成主播。在这方面,目前实现的效果有语音唇动同步生成、展现较为丰富的表情、多语言多场景播报、对话能力等,搜狗也推出了第六代分身技术——央视的天气预报主播,能展现“主播”大角度、大幅度的合成动作画面。

AI合成主播。主办方供图。

王小川认为,未来语言AI的发展方向是“自然交互+知识计算”,自然交互需要运用语音、图像、视觉等技术,使人与机器能通过语音、图像、手势进行交流,另外,语言AI更难的地方在于知识计算,需要实现翻译、问答、对话等能力,自然交互和知识计算的结合最终将发展成“智能助理”,苹果的Siri就是其中一例。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191221A0NJJP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券