人工智能语音在生活中已不稀奇,像车载导航、语音助手之类,我们很容易从“机器味”听出它们不是真人。而微软最新的人工智能语音则更进一步——它已经可以模拟人类唱歌,且在唱腔转换、气息等方面几乎真假难辨。
16日下午的微软小冰人工智能创造媒体说明会上,微软发布了小冰演唱模型的第五个版本。该最新版本的演唱模型拥有十余个高质量声音,提升了人工智能在歌声演绎中的预测参数能力。具体而言,一是大幅度提高了人工智能演绎歌曲时的中气水平,二是改善了歌声唱腔转换的自然度,三是首次展示了戏腔训练成果。
现场播放demo前,微软小冰全球产品线负责人、微软(亚洲)互联网工程院副院长李笛特意强调:“我必须提醒大家听的时候注意,这不是人,没有这么一个人。”
视频中小冰翻唱的两首歌曲均为首次发布。其中《少年弦》展示了唱腔过渡水准。“我们今天完成了V5的一个新的特性,让小冰从一种唱腔过渡到另外一种唱腔。小冰的这种唱腔过渡能够保持颗粒度很细的细节。比如从一种通俗的唱腔过渡到戏腔。”李笛解读说。的确,记者在现场几乎已感觉不到AI合成声音的那种生硬感。
另一首李玉刚原唱的《新贵妃醉酒》则展示了小冰的戏腔训练成果。
除了这两首最新发布的demo外,会上还展示了此前发布过的日文歌曲《最高新记忆》。这首歌展示了小冰演绎歌曲时的中气水平。
李笛告诉记者,小冰和比如初音未来等其它虚拟歌手不同。这些虚拟歌手是用手调的方式来完成。“手调的方式有好处,但是最大的问题就在于细节处理是不够的,技术上限、未来的发展不够好。”
歌手小冰如何练成?
现场,李笛回顾了歌手小冰的诞生过程。他介绍,在唱歌方面,两年前生成了第一个版本。李笛回忆,第一个版本完成时,他们“欣喜若狂”,因为“它不是一个不会走调的软件乐器,而是好像你在KTV的时候听到隔壁包厢传过来的声音,它非常像是人。”
李笛说,“它具备了足够多的细节,这些细节使得它可以像一个唱得不好的人,但是也是一个人。这让我们看到了这个技术方向是具备它接下来往下训练、学习的能力。”
从第一个版本继续出发,到了第三个版本的时候,李笛表示“从技术角度来讲已经够了”,不过,他们提出了更高的要求——以人类的演唱标准去要求自己。“如果能够让小冰去学习不同的唱法,就是拥有所谓的技法。因为针对同样的一首歌,不同人会有自己不同的演绎。”李笛说。
“所以我们找了很多行业内(音乐领域内)的专家来帮助我们去分析到底小冰缺在哪儿。(专家)告诉我们小冰缺在呼吸上,缺在气息上。既然知道了缺在哪儿,就有办法去弥补。”李笛说。
第四个版本的演唱模型,完善了每句话开头和结尾的气息。
而到了第五个版本,终于达到了全程气息融合。这个版本的小冰第一次能够像人类歌手一样,使用充沛的“中气”来烘托演唱,从而将人工智能虚拟歌声质量提升至新的高度。
而这个版本的小冰也在日本正式出道——它,或者说是“她”已经与日本最大唱片公司AVEX正式签约。李笛透露,他们争取在今年年底,可以让日本版小冰登上日本的红白歌会。
【记者】王诗堃
【图片】主办方提供
【视频拍摄】王诗堃
【视频剪辑】王诗堃
【校对】陈宇
【作者】 王诗堃
【来源】 南方报业传媒集团南方+客户端 南方号~深度~科技能见度
领取专属 10元无门槛券
私享最新 技术干货