摘要
类似真人声音+文字转语音,万物皆可读。
秉承着科技让人越来越「懒」的原则,语音正在改变着人们的交互方式,你现在可以用语音输入代替打字、用语音指令代替触控操作,甚至能直接跟语音助手对话,让它来帮你完成一些事情。其实语音技术还有一个用处,就是把文字转换成语音,让人们可以用「听」的方式来阅读一些文字,这里用到的就是语音合成。我们在很多公共场合听到的「机器音」,都是用语音合成技术生成的。
当然,这样生硬而不带任何感情色彩的声音谈不上什么用户体验,只是在某些场合完成一些重复性的工作,节省人力成本。但大家有没有想过这样一个问题,如果机器音也可以变得不那么生硬,和真人类似,我们的阅读习惯会不会因此改变?
产生这样的想法来源于最近听到的一个声音。掌阅的语音朗读功能中有个「情感男声」选项(百度语音提供支持),把语速调到较慢,这时它发出的声音就变得和一些有声小说的主播类似,有停顿、有语气、有感情,说出的话就是完整的一句,而不像用词语拼凑起来的。由此我产生一个想法,如果这种类似真人的声音可以配合文字转语音功能大规模使用,我们看到的所有文字新闻是不是就都能转成文字内容?这样就不再需要用人工朗读的方式生成语音内容,用户也不用再忍受生硬的机器音。也许未来,语音新闻会成为一种新的趋势。
关于文字转语音的技术已经有很多公司在做,比如国内的讯飞,他们就做了一个主打有声阅读的产品「讯飞有声」,用语音合成技术代替了人工朗读。不光是小说,在这里还可以读知乎、公众号、新闻等平台的文章,相当于是把文字转语音工具、听书网站、新闻资讯三合一,达到「一键朗读」。和喜马拉雅 FM 这样的音频内容平台相比,讯飞是在用语音合成技术来代替人工,这样一来创作者就显得不重要了,用户可以将看到的任何文字内容转化成语音,而不用局限于现有的音频内容。
近几年音频节目、短视频内容兴起其实可以说明一件事,就是单纯的文字内容已经不够丰富,不够吸引人。上班族习惯在通勤路上浏览新闻,不断加快的生活节奏也让人对长篇文字失去耐性,所以喜马拉雅、得到这样的平台可以火起来,让用户用一种贴近生活、更轻松的方式来获取信息。诚然,头部用户、优质内容是吸引用户的重点,但从一个较长的时间周期来看,语音平台的发展需要持续的内容生产。毫无疑问,类似真人的声音+语音合成才能满足这样的需求,才具备改变行业的力量。
极客公园的「极客早知道」栏目已经在今年四月份增加了语音播报的形式,我们独家的音频栏目「IF Talk」也已经更新了六期内容,很多人反响不错(大家可以在最新的极客公园 App 3.0 版本中收听)。如果每篇文章都能以语音的方式提供,是不是会更方便阅读?这个事情由人工朗读来完成是不现实的,效率低,效果可能也不好。但如果用类似真人的声音+语音合成的方式来做,会更容易实现。
讯飞在微信里面也做了文字转语音的小程序「讯飞快读」,不过定位是工具,用户需要手动把文字复制,或者搜索公众号文章才能听到语音朗读。微信小程序里还有个产品叫「飞鸟听听」,他们也是主打文字转语音的功能,不过并不是做工具,而是在用新闻资讯产品的思维来做。只看文字转语音的技术的话,好多公司都有这个能力,我们也看到了可以把机器音做得和真人声音差不多的产品。但是在技术成熟后,更重要的是产品的实现方式和体验。
语音新闻会成为未来的发展趋势,还可以从另一个角度来佐证,那就是现在越来越流行的智能音箱和语音助手。智能音箱的市场已经竞争到了百元以下,门槛降低,用户增加,这时候内容就成了一个巨大的需求。家里买了智能音箱的人都知道,现在的语音内容其实很少,而且各家的内容壁垒也高,只靠接入现有的语音内容远远无法满足需求,但如果用类似真人的声音+语音合成的方式来解决,就意味着有了一个不会枯竭的内容生产机器。谁可以先将技术、版权、产品这些整合,把体验做好,谁就能拥有它。这可以绕过拼资源的老路,从技术的方面捷足先登。
另外还有越来越智能的语音助手,它对手机的交互已经是产生了巨大的影响,但扮演的角色还是一个介质、一个传声筒,如果语音合成可以无限接近真人声音,那么语音助手就可以兼任生产者、朗读者。未来读新闻的场景可能是这样的:「Hey Siri!我想读极客公园的最新文章。」然后 Siri 直接帮你找到文章,并语音朗读。这时候语音内容就不再受限于人工朗读,可以随时随地来听新闻。
不管是文字、语音、视频还是哪种内容,版权都是一个让人头疼的问题。当语音合成可以尽量像人,那么这样生成的内容该怎么定义版权呢?如果文字转语音只是作为一个工具,那内容的生成、消费就只是用户的个人行为,但如果把它当一个语音新闻的平台来做,这就会涉及版权问题了。
另外,掌阅中的「情感男声」虽然已经无限接近于有声小说的主播,但说话是一股说书的味道,如果让他来读新闻,可能会有一些违和感。所以要想让语音合成「什么都能读」,可能还需要更多的声音角色,并针对文字内容匹配合适的声音来朗读。
语音合成还有一个问题,就是准确率。连真人都可能把 iPhone X 念成「爱疯叉」,机器能保证不出错吗?比如像 GeekPark 这样的英文,「极客之选」——极客公园的新酷产品频道,这样有复杂符号的内容,怎么处理就是个问题。文字转语音的技术必须针对这些具体出现的场景进行优化,让机器去适应人的文字表达习惯,再输出成语音。当然,抛去这些细节不说,语音合成的效率和准确率一定是会比人工朗读要高的。
未来我们会怎样进行阅读?
语音内容是符合人们阅读习惯的,智能音箱等产品的发展也需要大量的语音内容填充,而文字转语音的技术和类似真人的朗读已经可以实现,所以未来我们看新闻的方式可能会发生翻天覆地的变化。
首先是语音内容的数量,不局限在已有的人工朗读,大部分的生产者变成了机器。第二是阅读方式,语音助手可以兼任助手和朗读者,用户只需要和语音助手对话就可以得到想听的内容。第三是阅读的设备,手机、智能音箱都可以用来获取信息,语音助手让它们无缝结合,语音新闻可能成为人们关注的重点。
音频内容平台早就进入到了拼资源的状态,用户需求和智能音箱的内容空白又远远没有得到满足,所以我们看到了一些公司想用语音技术改变这样的局面。「随身听」在用智能语音的方式来做内容平台,「飞鸟听听」想用文字转语音的方式做播客,讯飞也推出了「讯飞有声」,不局限于做一个工具。再加上无线耳机、智能音箱等产品的流行,我们的交互、获取内容的方式都在「语音化」。当基本技术成熟,谁最先把技术、版权、产品等资源整合,把体验做好,谁就可以掌握这台永不枯竭的内容生产机器。
头图来源:视觉中国
编辑:Rubberso
领取专属 10元无门槛券
私享最新 技术干货