picture
Stars: 16.6k
License: MIT
AudioCraft 是一个用于音频生成的 PyTorch 库。它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码,可以产生高质量音频。该项目还提供了其他功能:
此外,AudioCraft 还包括深度学习研究中使用到的 PyTorch 组件以及开发出来各个模型所需训练流程管道等内容,并提供 API 文档、常见问题 FAQ 等信息。
Stars: 12.4k
License: NOASSERTION
picture
VC Client 是一个用于实时音频转换的客户端软件,使用各种语音转换 AI (VC,Voice Conversion) 进行操作。该项目支持多个平台,并且可以通过网络连接来卸载外部负载以处理音频转换任务。主要功能包括:
Stars: 7.2k
License: Apache-2.0
picture
ESPnet 是一个端到端的语音处理工具包,涵盖了端到端语音识别、文本转语音、语音翻译、语音增强、说话人分离等功能。该工具使用 pytorch 作为深度学习引擎,并遵循 Kaldi 风格的数据处理和特征提取/格式以及配方来提供各种不同的实验设置。
Stars: 31.6k
License: NOASSERTION
picture
这个项目是一个实时语音克隆的开源项目,主要功能包括支持中文、使用 PyTorch 进行训练和推理、可以在 Windows 和 Linux 系统上运行以及提供 Web 服务器。该项目的核心优势和特点包括:
Stars: 43.3k
License: NOASSERTION
picture
这个开源项目是一个实时语音克隆工具,可以在5秒内复制一种声音,并生成任意文本的语音。
该项目的主要功能包括:
该项目有以下关键特性和核心优势:
Stars: 7.2k
License: Apache-2.0
TorToiSe 是一个多音色 TTS 系统,其重点在于质量。
它具有以下优势和特点: