开源免费 AI 朗读中文，居然也能以假乱真了？

王树义

发布于 2024-06-13 10:58:32

28200

代码可运行

文章被收录于专栏：玉树芝兰玉树芝兰

运行总次数：0

代码可运行

脚扑朔，眼迷离，傍地走……

这几天，有个文本转语音的 Github repo 刷屏了，名字叫做 ChatTTS。

它有多火呢？这是它 Github 星星（相当于点赞数量）增长的趋势。

3天，就3天，星星数量从零到超过1万。实话实说，除了 AutoGPT，我真没有见过这么恐怖的 Stars 涨势。

其实文本转语音（Text to Speech, TTS）技术本身根本谈不上稀奇。不管你用的是 Siri 还是小爱同学，都应该听过 AI 合成语音。至于 GPT-4o 那种不讲武德的低延迟「拟人」打法，就更厉害了。

文本生成声音这领域，已有不少巨头参与，大家也见识过 AI 在音色、语气、节奏上的惟妙惟肖，为何还会对一个个体开发者做的 TTS 新应用如此惊喜？

原因在于，这款应用，可以算作目前中文文本生成语音领域的开源顶流了。

我先给你展现一下效果吧。下面是我公众号上的一段文字。

这是 ChatTTS 朗读的结果，请点击这个链接查看。

你觉得效果怎么样？

更有意思的是，你不需要为了使用这款应用付任何的 AI 订阅费。只要你有个主流配置的电脑，就能用。甚至你也可以租个 GPU 来玩儿。

不过要使用 ChatTTS 官方的项目来生成音频，你运行的时候得用到 Python。我的一个朋友跟我说我他不懂编程，就连 Python 也不想学，那怎么办呢？

我说帮你找找看更简便的途径吧，果然我找到了一个基于官方项目打包的应用，叫做 ChatTTS-fork，用起来更加方便。

下面咱们来说说使用方法。其实就两步。

第一步，运行下面的指令，把 ChatTTS-fork 软件包装上；

pip install -U chattts-fork

第二步，进入终端。macOS 请进入 Terminal，Windows 打开「命令行」。运行下面的命令：

chattts ' 许多学科的研究工作范式早已是数据驱动。在过去的几年时间里，我给你介绍过不少获取数据的 方法。开放数据获取和 API 数据读取更为简单一些，相对而言爬虫就有些复杂。所以我详细介绍使用编程从头做爬虫的 教程并不多，而更希望给你介绍一些更为简便的方式，例如这篇。' --seed 2222

解读一下，其中的 chattts 是执行的命令，后面一整段的字符串代表着你让 ChatTTS 读的内容。再之后指定一个随机种子值，ChatTTS 按照随机种子指定的音色来发声。

对，就这么简单。生成的文件，叫做 tts.wav。你也可以在刚才的命令后面加上 -o output.wav 来指定自定义输出音频文件名称。

下面咱们来听一听不同的随机种子之下，ChatTTS 对同样的文本读出来的声音分别是什么样子。

这是 seed 编号 1997 的，链接在这里；

这是 seed 编号 1983 的，链接在这里。

你喜欢哪个？实话实说，我更喜欢编号 1997 的这个。语气特别自然，听起来更加可信。

前面咱们输入的只是文本，其实 ChatTTS 厉害的地方在于，你可以非常容易控制 AI 朗读的情绪。例如下面我给你演示加上「笑」([laugh]) 这个控制符，你听听看。这是命令：

chattts "昨天哪 [laugh] 哈哈 [laugh] 我听王树义老师在课上讲了个笑话 [laugh][uv_break] 哎呀妈呀 ，太可乐了 [laugh]，哈哈哈 [laugh]" --seed 1983

生成的结果，在这里。

如果你尝试了很多不同的 seed ，会发现有些生成音频里，有特别高频刺耳的噪声。一开始我以为这是当时清洗语料的时候没做好，后来才发现，是 ChatTTS 的作者需要免责。

作者知道造出来这么样的一个开源应用后，可能会带来什么。没错 —— 某些不法活动的门槛，进一步降低了。如果任由所有人使用纯净原声，那么可能会有更多的受害者上当受骗，后果不堪设想啊。

这个模型训练时长全集超过 10 万小时，而目前开放出来的版本只是一个 4 万小时训练的结果，还加上了噪声。将来它真正商业化的版本，会带来什么？

我这几天跟朋友们分享生成音频效果时，他们反复提到一个关键词 —— 声优。而另一部分人则干脆宣布，只要这工具成熟了，自己会立即取消某常用音频平台的订阅。你说，「声优」这份职业和这个好不容易发展起来的音频平台，招谁惹谁了？

AI 距离人们的期许，还有很长的路要走，甚至我们中没有人知道这个目标是否一定能在近年内达到。但即便在目前 AIGC 发展初级阶段，很多 AI 应用都已经在真真实实影响我们的生活。不是吗？

希望今天的介绍，让你了解目前中文开源 TTS 应用的进步。有了这款应用，你是否打算尝试一下？又准备用它做些什么呢？欢迎你把自己的应用场景和使用感受写在留言区，咱们一起交流讨论。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-31，如有侵权请联系 cloudcommunity@tencent.com 删除

音频

本文分享自玉树芝兰微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

开源免费 AI 朗读中文，居然也能以假乱真了？

开源免费 AI 朗读中文，居然也能以假乱真了？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐