人工智能(AI)已经在各个领域展现出惊人的能力,比如图像生成、文本生成等。而现在,Meta公司(原Facebook)又推出了一种新的生成式人工智能,它可以用声音来创造和编辑内容。它的名字叫做Voicebox。
Voicebox是一种可以根据2秒钟的音频样本合成语音,或者对已有的音频进行编辑和转换的技术。它可以帮助人们完成一些复杂的任务,比如去除噪音,替换错误的词语,或者改变语气和风格。
更神奇的是,Voicebox还可以让人用自己的声音说出不同语言的文字,支持英语、法语、德语、西班牙语、波兰语和葡萄牙语。这意味着你可以用你自己的声音给你的朋友发一条法语的语音信息,或者用你自己的声音给你的视频配上德语的旁白,而不需要学习任何外语。
Voicebox是一种多功能的生成式人工智能模型,它可以通过在上下文中学习来完成它没有专门训练过的任务,并且达到了最先进的性能。它是基于一种叫做Flow Matching的方法开发的,这种方法可以提高生成质量和速度。
Voicebox在未来可能有很多应用,比如给虚拟助手或元宇宙中的角色提供自然的声音,帮助视障人士听到朋友的语音信息,或者给创作者提供方便的音频制作和编辑工具。
当然,这种技术也有其局限性和风险,比如可能被用于制造虚假或误导性的信息。因此,Meta公司表示,他们不会公开发布Voicebox模型或代码,并且正在开发一种有效的方法来区分真实的语音和Voicebox生成的语音。
Voicebox是生成式人工智能领域的一个重要突破,展示了声音作为一种创造性和交流性的媒介所具有的无限可能。
领取专属 10元无门槛券
私享最新 技术干货