过去几年,AI 在图像、语言、视频领域突飞猛进,如今轮到 “声音” 成为主角。
我们不再满足于让 AI 说话,而是希望它像我们一样说话,甚至模仿别人说话。语音克隆(Voice Cloning)和语音转换(Voice Conversion)正掀起一场声音革命。
而在这一切的背后,F5-TTS 成为最具潜力的新星。
它快、轻、还支持精细控制,关键是——它可以模仿任意声音,让任何文字都能“发出你指定的声音”。
📌 F5-TTS 是一种最新的语音合成系统,支持从文本直接合成语音,同时能模仿任意目标声音。名字中的 “F5” 指:
• Fast:快速合成
• Flat:结构扁平
• Fine-grained:控制细粒度(如音调、节奏)
相比传统 TTS(如 Tacotron、FastSpeech),F5-TTS 的亮点在于: • 无需对齐器 • 支持任意发音人 • 语音质量高、生成速度快
✅ 1. 将文本转为声音(Voice Cloning)
这是一个基础的功能,F5-TTS可以实现直接将文本快速转为声音
✅ 2. 任意声音模仿(Voice Cloning)
F5-TTS 支持输入任意参考语音(哪怕只有几秒),快速提取声纹并完成语音合成:
比如只提供一段你朋友说话的音频,AI 就能学会模仿他说话的语调和音色。
官网地址:https://github.com/SWivid/F5-TTS
conda create -n f5-tts python=3.10
,最终成功图如下图所示
pip install torch torchaudio
,再执行pip install f5-tts
即可
f5-tts_infer-gradio
运行,最后控制台输出如下
声音真的很逼真
ValueError: ffmpeg was not found but is required to load audio files from filename
执行conda install -c conda-forge ffmpeg
后再执行如下命令
# 退出并重新激活虚拟环境
conda deactivate
conda activate f5-tts
体验地址:https://huggingface.co/spaces/mrfakename/E2-F5-TTS
免费的,而且支持API的调用