3月30日,人工智能研究实验室OpenAI发布了一项名为“Voice Engine”的最新技术,可以生成与原始说话者极为相似的自然语音。
只需15秒音频样本和一段文本,就能克隆你的声音!
这到底是黑科技还是潘多拉魔盒?
技术解析:15秒音频样本,就能克隆你的声音?
Voice Engine采用了OpenAI最新的大型语言模型GPT-4和VQ-VAE 2.0语音编码器技术。只需15秒的音频样本,就能学习说话者的声调、音色、语速等特征,并结合文本输入,生成高度拟真的语音。
应用场景:教育、翻译、医疗等领域潜力巨大
OpenAI给出了Voice Engine的一些早期应用场景,包括:
教育:为儿童阅读提供个性化语音辅助,让学习更有趣、更有效。
翻译:将视频和播客等内容翻译成不同语言,并配以自然、富有情感的声音。
医疗:帮助患有突发性或退化性言语病症的患者恢复声音。
OpenAI表示,Voice Engine还可以用于改善偏远地区的社区服务,为残疾人提供更多便利。
安全隐患:被滥用将带来严重后果
合成语音技术虽然潜力巨大,但也存在被滥用的风险。例如,不法分子可以用它来伪造一些知名人物的声音,进行诈骗或操纵舆论。
OpenAI对此高度重视,并采取了以下措施:
仅小范围试用:目前Voice Engine仅向少数“值得信赖”的合作伙伴开放。
探索防滥用措施:OpenAI正在研究对合成声音加水印或添加控制措施,以防止其被滥用。
OpenAI还呼吁就合成声音的负责任部署展开讨论,并根据讨论和小规模测试的结果,决定是否大规模部署这项技术。
以下是一些关于Voice Engine目前的一些消息:
OpenAI此前已经为“Voice Engine”申请了商标。
OpenAI语音引擎产品团队成员杰夫·哈里斯 (Jeff Harris)表示,该模型是根据“许可数据和公开数据的组合”进行训练的。
2024年2月,美国曾发布了少数公司利用总统的人工智能语音来影响选民投票的事件,这也是OpenAI选择先小范围应用Voice Engine的一大原因。
领取专属 10元无门槛券
私享最新 技术干货