前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【大模型运用】CosyVoice-ubuntu系统部署

【大模型运用】CosyVoice-ubuntu系统部署

原创
作者头像
云帆沧海
发布于 2025-02-08 15:56:20
发布于 2025-02-08 15:56:20
1.2K0
举报
文章被收录于专栏:人工智能人工智能

CosyVoice是阿里通义实验室一个开源的中文语音合成系统,基于深度学习技术,能够生成自然、流畅的中文语音。

本文将详细介绍如何在Ubuntu系统上部署和使用CosyVoice。

模型开源地址:

https://github.com/FunAudioLLM/CosyVoice

模型详情:

https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary

一、CosyVoice简介

CosyVoice是一个完整的端到端中文语音合成框架,具有以下特点:

基于深度学习的声学模型

支持多说话人合成

提供预训练模型

部署便捷,可用于实际应用场景

开源免费,支持二次开发

魔塔社区上有论文和demo等一些模型详细的东西

模型详情:

https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary

在这里插入图片描述
在这里插入图片描述

二.在服务器上部署CosyVoice

1.Anconda创建环境

代码语言:bash
AI代码解释
复制
conda create -n cosyvoice -y python=3.10

conda activate cosyvoice

2.克隆代码仓库

代码语言:bash
AI代码解释
复制
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

如果网络慢或者直接用不了可以用国内的镜像安装

代码语言:bash
AI代码解释
复制
git clone https://mirror.ghproxy.com/https://github.com/FunAudioLLM/CosyVoice.git

下一步:

代码语言:bash
AI代码解释
复制
cd CosyVoice

git submodule update --init --recursive

安装相关依赖:

代码语言:bash
AI代码解释
复制
conda install -y -c conda-forge pynini==2.1.5

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-

sudo apt-get install sox libsox-dev

模型下载:

方法一:

1.SDK模型下载

新建一个python文件然后复制以下代码运行等待安装。

代码语言:bash
AI代码解释
复制
from modelscope import snapshot\_download

snapshot\_download('iic/CosyVoice2-0.5B', local\_dir='pretrained\_models/CosyVoice2-0.5B')

snapshot\_download('iic/CosyVoice-300M', local\_dir='pretrained\_models/CosyVoice-300M')

snapshot\_download('iic/CosyVoice-300M-25Hz', local\_dir='pretrained\_models/CosyVoice-300M-25Hz')

snapshot\_download('iic/CosyVoice-300M-SFT', local\_dir='pretrained\_models/CosyVoice-300M-SFT')

snapshot\_download('iic/CosyVoice-300M-Instruct', local\_dir='pretrained\_models/CosyVoice-300M-Instruct')

snapshot\_download('iic/CosyVoice-ttsfrd', local\_dir='pretrained\_models/CosyVoice-ttsfrd')

2.git模型下载,请确保已安装git lfs

安装git lfs

代码语言:bash
AI代码解释
复制
git lfs install
代码语言:bash
AI代码解释
复制
mkdir -p pretrained\_models

git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained\_models/CosyVoice2-0.5B

git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained\_models/CosyVoice-300M

git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained\_models/CosyVoice-300M-25Hz

git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained\_models/CosyVoice-300M-SFT

git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained\_models/CosyVoice-300M-Instruct

git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained\_models/CosyVoice-ttsfrd

3.启动

等模型和环境依赖都下载好之后

进入目录输入:

代码语言:bash
AI代码解释
复制
python3 webui.py --port XXXX --model\_dir pretrained\_models/CosyVoice-300M

--port XXXX 自定义端口

--model_dir pretrained_models/CosyVoice-300M 根据需要加载模型

启动成功后,浏览器访问http://公网ip:指定的端口

(这里可能涉及端口映射)

4.浏览器访问不到麦克风问题解决

访问不到麦克风是因为是用http协议去访问的服务器,会被浏览器识别为不安全的链接。

谷歌浏览器参考:https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link

其他浏览器搜索:XXX浏览器在http协议下无法调用摄像头和麦克风的问题

运行结果

以上步骤都调试好之后访问相应的地址回显示如下页面:

在这里插入图片描述
在这里插入图片描述

使用方法

1.输入合成文本出输出想要合成的语音

2.选择模式按照操作步骤提示进行操作

ps:输入prompt文本是要输入音频对应的文字

最后点击生成音频即可

本博客参考:

https://blog.csdn.net/weixin_63782093/article/details/141320485?fromshare=blogdetail&sharetype=blogdetail&sharerId=141320485&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link

https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link

如有不足之处可以访问参考链接,欢迎讨论交流。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CosyVoice:开源强大的 AI 语音合成工具
在当今科技飞速发展的时代,AI 语音合成技术正逐渐改变着我们的生活。今天,就为大家介绍一款卓越的语音合成工具——CosyVoice。
井九
2024/10/12
1.4K0
基于腾讯云CVM搭建CosyVoice环境
CosyVoice,这一由阿里通义实验室于七月初发布的开源语音合成大模型,展现了在自然语言合成领域的独特实力。它不仅支持包括中文、英文、日语、粤语和韩语在内的五种不同语言,更在多音色和丰富情感的语音生成方面设立了新的标杆。
buzzfrog
2024/08/27
7671
基于腾讯云CVM搭建CosyVoice环境
AI女友养成记 CosyVoice vs MiniCPM-o2.6
本期准备了模型,素材,语音文件以及长文本的纯人声配音测试,表现稳定,配音迅速,可对比chatTTS的批量文本配音,支持调节语速,3s实现极速语音复制,测试了长文本的小说配音,语速均匀,不会出现语速不符,目前还没有语气助词的配音,可以结合TTS实现,可支持ollama实现实时语音对话。
疯狂的KK
2025/01/20
4960
AI女友养成记 CosyVoice  vs MiniCPM-o2.6
[1309]MinerU、Magic-PDF、Magic-Doc
在线体验地址: https://opendatalab.com/OpenSourceTools/Extractor/PDF https://www.modelscope.cn/studios/OpenDataLab/MinerU
周小董
2024/11/24
9820
[1309]MinerU、Magic-PDF、Magic-Doc
牛!达摩院孵化开源项目,让数字人"活"起来:OpenAvatarChat教你轻松搭建自己的数字人
嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法
小华同学ai
2025/04/28
6491
牛!达摩院孵化开源项目,让数字人"活"起来:OpenAvatarChat教你轻松搭建自己的数字人
【多模态大模型实战】 搭建DeepSeek Janus-Pro 7B 多模态模型,以及推理微调,推理后的模型融合
Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立的路径,同时仍然使用单一的、统一的变压器架构进行处理,该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超过了以前的统一模型,并且匹配或超过了特定任务模型的性能。
AI浩
2025/02/08
2.6K1
【多模态大模型实战】 搭建DeepSeek Janus-Pro 7B 多模态模型,以及推理微调,推理后的模型融合
AI超强语音转文本SenseVoice,本地化部署教程!
这里使用autodl 机器学习平台,官网地址:https://www.autodl.com/market/list
贾维斯Echo
2024/09/05
3.5K0
AI超强语音转文本SenseVoice,本地化部署教程!
Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)
我记得,梦的开始,源于Ollama。很早以前的一篇文章教大家如何通过 Ollama 来使用开源 LLM,许多人最初接触 AI 时也是从Ollama开始的。Ollama 之所以出色,是因为它使用了 GGML 格式,这是一种‘轻量版’的大语言模型,以较低精度运行,能够轻松适配普通硬件。这使得在本地系统上运行这些模型变得简单高效,真正为 AI 的广泛应用铺平了道路。
AI进修生
2024/12/02
16.3K0
Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)
大模型高效下载部署方式
liddytang
2024/07/15
3490
0成本!基于腾讯云Cloud Studio,打造属于自己的数字人口播系统,照片+音乐=自动开口,效果炸裂
原文链接:https://mp.weixin.qq.com/s/G39ZHVITRilKlXnKn3mkrA
CloudStudio
2025/03/17
4510
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
在模型主页的Files and Version中中可以获取文件的下载链接。无需登录直接点击下载,还可以复制下载链接,用其他下载工具下载。
汀丶人工智能
2024/08/08
1.4K0
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
大模型开发实战:(五)使用 LLaMA Factory 微调与量化模型并部署至 Ollama
LLaMA Factory 是一个开源的全栈大模型微调框架,简化和加速大型语言模型的训练、微调和部署流程。它支持从预训练到指令微调、强化学习、多模态训练等全流程操作,并提供灵活的配置选项和高效的资源管理能力,适合开发者快速定制化模型以适应特定应用场景。下面通过一个简单的示例来展示如何使用 LLaMA Factory 进行模型微调并部署至 Ollama。
张高兴
2025/05/21
1.6K0
大模型开发实战:(五)使用 LLaMA Factory 微调与量化模型并部署至 Ollama
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法
小华同学ai
2025/04/30
1680
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
MiniCPM-o-2.6 多模态大模型微调实战(完整代码)
MiniCPM-o-2.6是OpenBMB(面壁智能)团队最近开源的多模态大语言模型。以MiniCPM-o-2.6作为基座多模态大模型,通过指令微调的方式实现特定场景下的OCR,是学习多模态LLM微调的入门任务。
Grafin
2025/01/25
5680
MiniCPM-o-2.6 多模态大模型微调实战(完整代码)
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
代码演示:使用 ModelScope NoteBook 完成语言大模型,视觉大模型,音频大模型的推理
汀丶人工智能
2024/05/26
9190
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/07
1.7K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/06
1.2K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
新手入门 | 搭建 AI 模型开发环境
NVIDIA 显卡有多个系列,常用的有 Tensor 和 GeForce RTX 系列,两类显卡的驱动安装方式不一样,下面的章节会单独介绍如何安装驱动。
痴者工良
2025/03/26
2190
新手入门 | 搭建 AI 模型开发环境
Qwen2大模型微调入门实战-命名实体识别(NER)任务
以Qwen2作为基座大模型,通过指令微调的方式做高精度的命名实体识别(NER),是学习入门LLM微调、建立大模型认知的非常好的任务。
zenRRan
2024/07/04
2.2K0
Qwen2大模型微调入门实战-命名实体识别(NER)任务
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
代码演示:使用 ModelScope NoteBook 完成语言大模型,视觉大模型,音频大模型的推理
汀丶人工智能
2024/05/28
9680
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
推荐阅读
CosyVoice:开源强大的 AI 语音合成工具
1.4K0
基于腾讯云CVM搭建CosyVoice环境
7671
AI女友养成记 CosyVoice vs MiniCPM-o2.6
4960
[1309]MinerU、Magic-PDF、Magic-Doc
9820
牛!达摩院孵化开源项目,让数字人"活"起来:OpenAvatarChat教你轻松搭建自己的数字人
6491
【多模态大模型实战】 搭建DeepSeek Janus-Pro 7B 多模态模型,以及推理微调,推理后的模型融合
2.6K1
AI超强语音转文本SenseVoice,本地化部署教程!
3.5K0
Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)
16.3K0
大模型高效下载部署方式
3490
0成本!基于腾讯云Cloud Studio,打造属于自己的数字人口播系统,照片+音乐=自动开口,效果炸裂
4510
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
1.4K0
大模型开发实战:(五)使用 LLaMA Factory 微调与量化模型并部署至 Ollama
1.6K0
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
1680
MiniCPM-o-2.6 多模态大模型微调实战(完整代码)
5680
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
9190
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
1.7K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
1.2K0
新手入门 | 搭建 AI 模型开发环境
2190
Qwen2大模型微调入门实战-命名实体识别(NER)任务
2.2K0
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
9680
相关推荐
CosyVoice:开源强大的 AI 语音合成工具
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档