前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Github 开源现在最好的TTS声音克隆

Github 开源现在最好的TTS声音克隆

作者头像
半夜喝可乐
发布2024-12-12 09:38:42
发布2024-12-12 09:38:42
3410
举报
文章被收录于专栏:小轻论坛小轻论坛

VideoLingo

2024-12-11T14:24:16.png
2024-12-11T14:24:16.png

VideoLingo 是一站式视频翻译本地化配音工具,能够一键生成 Netflix 级别的高质量字幕,告别生硬机翻,告别多行字幕,还能加上高质量的克隆配音,让全世界的知识能够跨越语言的障碍共享。 主要特点和功能: 🎥 使用 yt-dlp 从 Youtube 链接下载视频 🎙️ 使用 WhisperX 进行单词级和低幻觉字幕识别 📝 使用 NLP 和 AI 进行字幕分割 📚 自定义 + AI 生成术语库,保证翻译连贯性 🔄 三步直译、反思、意译,实现影视级翻译质量 ✅ 按照 Netflix 标准检查单行长度,绝无双行字幕 🗣️ 支持 GPT-SoVITS、Azure、OpenAI 等多种配音方案 🚀 整合包一键启动,在 streamlit 中一键出片 📝 详细记录每步操作日志,支持随时中断和恢复进度 项目地址: https://github.com/Huanshere/VideoLingo

FishSpeech

2024-12-11T14:24:25.png
2024-12-11T14:24:25.png

特性 零样本 & 小样本 TTS:输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。 多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。 无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。 高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。 快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。 WebUI 推理:提供易于使用的基于 Gradio 的网页用户界面,兼容 Chrome、Firefox、Edge 等浏览器。 GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。 易于部署:轻松设置推理服务器,原生支持 Linux、Windows 和 macOS,最大程度减少速度损失。 项目地址:https://github.com/fishaudio/fish-speech

MockingBird

2024-12-11T14:24:32.png
2024-12-11T14:24:32.png

🌍 中文 支持普通话并使用多种中文数据集进行测试:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等 🤩 PyTorch 适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060 🌍 Windows + Linux 可在 Windows 操作系统和 linux 操作系统中运行(苹果系统M1版也有社区成功运行案例) 🤩 Easy & Awesome 仅需下载或新训练合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器,或实时的HiFi-GAN作为vocoder 🌍 Webserver Ready 可伺服你的训练结果,供远程调用 项目地址:https://github.com/babysor/MockingBird

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • VideoLingo
  • FishSpeech
  • MockingBird
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档