Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ChatTTS 保姆级教程从入门到精通

ChatTTS 保姆级教程从入门到精通

作者头像
猫头虎
发布于 2024-06-06 00:21:01
发布于 2024-06-06 00:21:01
7.4K07
代码可运行
举报
运行总次数:7
代码可运行

ChatTTS 保姆级教程从入门到精通 🚀

大家好,我是猫头虎 🐱🐯

欢迎来到这篇 ChatTTS 保姆级教程!今天我们将深入探讨 ChatTTS,从入门到精通,让你掌握这款强大的文本转语音工具。不论你是初学者还是有一定基础的用户,都能在这篇文章中找到有用的信息。


🚀 一、ChatTTS 简介及安装指南

ChatTTS 是一款为对话场景设计的语音合成模型,专为 LLM 助手任务优化。它不仅支持多语言(中文和英文),还能预测和控制细粒度的韵律特征,包括笑声、停顿和插话等。使用这款工具,你可以实现自然流畅的语音合成,特别适合对话任务。

安装步骤:

创建 conda 环境:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda create -n chattts python=3.9
conda activate chattts

安装必要的依赖:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
pip install omegaconf vocos transformers vector-quantize-pytorch

启动 Web 界面:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python webui.py
python webui.py --server_port=8080
🚀 二、关键参数详解

在使用 ChatTTS 过程中,了解和调整关键参数非常重要:

  1. Audio Seed 🎶
    • 含义: 用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。
    • 推荐 Seed: 3798-知性女、462-大舌头女、2424-低沉男。
  2. Text Seed 📝
    • 含义: 类似于 Audio Seed,在文本生成阶段用于初始化随机数生成器的种子值。
  3. Refine Text
    • 建议: 勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。
  4. Audio Temperature 🌡️
    • 含义: 控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。
  5. Top_P 和 Top_K 📊
    • Top_P: 核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
    • Top_K: 限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。

🚀 三、进阶使用技巧

除了基本的参数设置,你还可以通过本地部署 Web UIAPI 的方式进行更细粒度的控制,比如调整笑声、停顿和口音。以下是一些常用的控制标记:

  • [oral_(0-9)]: 控制口音强度
  • [laugh_(0-2)]: 控制笑声
  • [break_(0-7)]: 控制停顿时间

试试不同的组合,比如 [oral 2][laugh 0][break 4],探索更多有趣的语音效果。

🚀 四、实战经验分享

在实际使用 ChatTTS 过程中,有几点需要注意:

  • 避免使用标点和阿拉伯数字:当前版本对中文标点和阿拉伯数字支持有限,建议转换为读音友好的形式。
  • 处理长文本:ChatTTS 目前对超过 30 秒的音频效果不佳,需要手动修复。
  • 字母间隔:确保字母之间用空格分割,否则会被当作一个单词读取。

总结

通过本文,你应该对 ChatTTS 有了更全面的了解和掌握。从基础安装到关键参数设置,再到高级使用技巧,希望这些内容对你有所帮助。如果你对生成的声音不满意,可以尝试调整 Audio Seed。

谢谢大家的阅读!更多精彩内容,请继续关注猫头虎的公众号,我们下期再见! 👋

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
我很愿意推荐一些小而美、高实用模型,比如之前写的YOLOv10霸榜百度词条,很多人搜索,仅需100M就可以完成毫秒级图像识别与目标检测,相关的专栏也是CSDN付费专栏中排行最靠前的。今天介绍有一个小而美、高实用性的模型:ChatTTS。
LDG_AGI
2024/08/13
1.7K0
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
全球首个语音合成图灵测试重磅发布!揭秘AI能否用语音骗过人类?
近期,围绕 AI 有声读物和 AI 播客的产品不断涌现,值得注意的是,其生成的语音效果均强调较高的自然度与接近真人的表现力,这一现象的背后,是语音合成(TTS)技术的长足发展。那么,当前技术的语音合成效果究竟达到了何种水平?不少语音合成模型在技术报告中使用“MOS(Mean Opinion Score)评分来展现合成的优异效果,并主张目前的合成能力已接近甚至达到真人级别的语音表现。当冰冷的算法被赋予富有情感的声线,一个终极拷问也随之浮现:AI真能骗过人类的耳朵吗?
AGI-Eval评测社区
2025/08/27
2790
6k Star!ChatTTS:开源领域最强的文本到语音转换(TTS)模型!
体验地址:https://huggingface.co/2Noise/ChatTTS
AI进修生
2024/12/02
9010
6k Star!ChatTTS:开源领域最强的文本到语音转换(TTS)模型!
ChatTTS的爆火是必然,它正在重新定义我们与机器对话的方式
当AI技术与语音合成相遇,开源技术众多,为什么 ChatTTS 能够一夜爆火?你有听说过能说情感真切文字的 AI 吗?
Python兴趣圈
2024/06/17
9440
ChatTTS的爆火是必然,它正在重新定义我们与机器对话的方式
ChatTTS webUI & API:ChatTTS本地网页界面的高效文本转语音、同时支持API调用!
Github:https://github.com/jianchang512/ChatTTS-ui
AI进修生
2024/12/02
2.2K0
ChatTTS webUI & API:ChatTTS本地网页界面的高效文本转语音、同时支持API调用!
一键体验自然流畅的ChatTTS语音合成,ChatTTS突破开源语音天花板
最近,一个名为 ChatTTS 的文本转语音项目突然火了起来,吸引了大家的广泛关注。
一个程序猿的异常
2024/06/17
9200
一键体验自然流畅的ChatTTS语音合成,ChatTTS突破开源语音天花板
热门开源项目ChatTTS: 国内语音技术突破,实现弯道超车
随着开源程序的发展,越来越多的程序员开始关注并加入开源大模型的行列。每个人对开源行业和项目的关注点各不相同,现在快来加入我们的开源热门项目推荐活动,分享你感兴趣的热门项目吧!
Srlua
2024/06/17
7340
热门开源项目ChatTTS: 国内语音技术突破,实现弯道超车
HAI一键启动chattts,最逼真的开源语音合成模型
今天给大家带来国内团队制作的,效果最逼真的开源语音生成模型chattts,即开即用
geru
2024/06/04
8731
HAI一键启动chattts,最逼真的开源语音合成模型
肝了4天,我用ChatTTS和LLM让deeplearning.ai课程说上流畅中文
我们都知道外网上有很多优秀的视频教程平台,比如 Coursera 和 deeplearning.ai。尤其是后者,由吴恩达老师与OpenAI、Langchain、LlamaIndex、AutoGen等公司和作者合作,推出了一系列广受好评的LLM教程,如Prompt Engineering、Langchain教程、LlamaIndex教程和AutoGen教程。deeplearning.ai 的课程紧跟时下热点,是大语言模型爱好者和从业者不可或缺的资源。然而,deepleaning.ai 的课程通常没有中文字幕,这无疑提高了学习的门槛。即使有些同学坚持学习,也可能因为语言障碍只能学到皮毛。我肝了4天,我成功地让这些课程说上流畅地道的普通话。话不多说,让我们直接看看效果视频。
AgenticAI
2025/03/18
4160
肝了4天,我用ChatTTS和LLM让deeplearning.ai课程说上流畅中文
【AIGC部署实践系列教程 #3】HAI 一键部署爆火开源语音项目ChatTTS
TTS 是 “Text-to-Speech” 的缩写,中文意思是“文本到语音”。简单来说,TTS 是一种技术,它能够将文字信息转换成人类的语音,计算机或智能设备就能够"说话"了。TTS 技术通过模仿人类的语音特征,使得合成的语音听起来尽可能自然流畅。随着技术的发展,已经能够模拟不同的语调、情感,甚至特定人的声音,让语音交互更加人性化和个性化。
腾讯云计算产品团队
2024/06/13
6980
【AIGC部署实践系列教程 #3】HAI 一键部署爆火开源语音项目ChatTTS
在MoneyPrinterPlus中使用本地chatTTS语音模型
之前MoneyPrinterPlus在批量混剪,一键AI生成视频这些功能上的语音合成功能都用的是云厂商的语音服务,比阿里云,腾讯云和微软云。
程序那些事
2024/07/16
5030
在MoneyPrinterPlus中使用本地chatTTS语音模型
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
4.2K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
声临其境!当ChatTTS遇上腾讯云HAI,定制你的专属智能语音服务
「语音」作为人工智能的「启蒙钥匙」,不仅率先踏出实验室大门,步入寻常百姓家,也成为了人类与AI初次触电的「桥接技术」。初期,智能语音技术的研究重心落在了语音识别领域,致力于使机器具备理解人类语言的能力。
zhouzhou的奇妙编程
2024/06/05
1.4K3
介绍一些好玩且实用的开源的AI工具
随着人工智能技术的迅猛发展,开源社区涌现出了许多关于AI的项目,这些项目不仅展示了技术的创新力,也为开发者提供了丰富的工具和资源。本文将介绍几个既有趣又实用的开源人工智能工具,它们不仅能够帮助你加深对人工智能技术的理解,还能在实际应用中大显身手。
星哥玩云
2024/07/03
1.7K0
介绍一些好玩且实用的开源的AI工具
做项目一定用得到的NLP资源【分类版】
原文链接:https://github.com/fighting41love/funNLP
流川疯
2022/09/20
2.3K0
衔接-玩转AI新声态 | 玩转TTS/ASR/YuanQI 打造自己的AI助手
衔接上一篇 玩转AI新声态 | 玩转TTS/ASR/YuanQI 打造自己的AI助手 页面数据渲染篇
杨不易呀
2024/06/24
6951
衔接-玩转AI新声态 | 玩转TTS/ASR/YuanQI 打造自己的AI助手
精通 Transformers(一)
在过去的 20 年间,我们在自然语言处理(NLP)领域已经见证了巨大的变化。在此期间,我们经历了不同的范式,最终进入了由神奇的Transformers架构主宰的新时代。这种深度学习架构是通过继承多种方法而形成的。诸如上下文词嵌入、多头自注意力、位置编码、可并行化的架构、模型压缩、迁移学习和跨语言模型等方法都在其中。从各种基于神经网络的自然语言处理方法开始,Transformers架构逐渐演变成为一个基于注意力的编码器-解码器架构,并持续至今。现在,我们在文献中看到了这种架构的新成功变体。有些出色的模型只使用了其编码器部分,比如 BERT,或者只使用了其解码器部分,比如 GPT。
ApacheCN_飞龙
2024/05/24
6690
精通 Transformers(一)
使用原神语音训练中文 VITS 模型
标注时听音频根据发音人的语感,对音频的停顿节奏进行标注。 共四个标注符号:#1、#2、#3、#4
为为为什么
2023/07/20
3.4K1
Transformers 4.37 中文文档(七十九)
UniSpeech-SAT 模型是由 Sanyuan Chen、Yu Wu、Chengyi Wang、Zhengyang Chen、Zhuo Chen、Shujie Liu、Jian Wu、Yao Qian、Furu Wei、Jinyu Li、Xiangzhan Yu 在UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training中提出的。
ApacheCN_飞龙
2024/06/26
4820
Transformers 4.37 中文文档(六)
视觉问答(VQA)是根据图像回答开放式问题的任务。支持此任务的模型的输入通常是图像和问题的组合,输出是用自然语言表达的答案。
ApacheCN_飞龙
2024/06/26
4430
Transformers 4.37 中文文档(六)
推荐阅读
相关推荐
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验