3月30日凌晨,OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。
据悉,用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。
OpenAI表示,其实他们在2022年底便开发了Voice Engine,并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 的语音和朗读功能。
但出于安全考虑一直没有全面公测,目前也只是小范围测试。因为相比文本、视频,音频的造假能力太强了几乎无法分辨出来。
此外,OpenAI首席技术官Mira Murati在前不久接受的采访时表示,未来Sora生成的视频会带声音的,很可能为其提供声音的就是Voice Engine。
领取专属 10元无门槛券
私享最新 技术干货