脚扑朔,眼迷离,傍地走……
这几天,有个 文本转语音的 Github repo 刷屏了,名字叫做 ChatTTS。
它有多火呢?这是它 Github 星星(相当于点赞数量)增长的趋势。
3天,就3天,星星数量从零到超过1万。实话实说,除了 AutoGPT,我真没有见过这么恐怖的 Stars 涨势。
其实文本转语音(Text to Speech, TTS)技术本身根本谈不上稀奇。不管你用的是 Siri 还是小爱同学,都应该听过 AI 合成语音。至于 GPT-4o 那种不讲武德的低延迟「拟人」打法,就更厉害了。
文本生成声音这领域,已有不少巨头参与,大家也见识过 AI 在音色、语气、节奏上的惟妙惟肖,为何还会对一个个体开发者做的 TTS 新应用如此惊喜?
原因在于,这款应用,可以算作目前中文文本生成语音领域的开源顶流了。
我先给你展现一下效果吧。下面是我公众号上的一段文字。
这是 ChatTTS 朗读的结果,请点击这个链接查看。
你觉得效果怎么样?
更有意思的是,你不需要为了使用这款应用付任何的 AI 订阅费。只要你有个主流配置的电脑,就能用。甚至你 也可以租个 GPU 来玩儿。
不过要使用 ChatTTS 官方的项目来生成音频,你运行的时候得用到 Python。我的一个朋友跟我说我他不懂编程,就连 Python 也不想学,那怎么办呢?
我说帮你找找看更简便的途径吧,果然我找到了一个基于官方项目打包的应用,叫做 ChatTTS-fork
,用起来更加方便。
下面咱们来说说使用方法。其实就两步。
第一步,运行下面的指令,把 ChatTTS-fork 软件包装上;
pip install -U chattts-fork
第二步,进入终端。macOS 请进入 Terminal,Windows 打开「命令行」。运行下面的命令:
chattts ' 许多学科的研究工作范式早已是数据驱动。在过去的几年时间里,我给你介绍过不少获取数据的 方法。开放数据获取和 API 数据读取更为简单一些,相对而言爬虫就有些复杂。所以我详细介绍使用编程从头做爬虫的 教程并不多,而更希望给你介绍一些更为简便的方式,例如这篇。' --seed 2222
解读一下,其中的 chattts 是执行的命令,后面一整段的字符串代表着你让 ChatTTS 读的内容。再之后指定一个随机种子值,ChatTTS 按照随机种子指定的音色来发声。
对,就这么简单。生成的文件,叫做 tts.wav
。你也可以在刚才的命令后面加上 -o output.wav
来指定自定义输出音频文件名称。
下面咱们来听一听不同的随机种子之下,ChatTTS 对同样的文本读出来的声音分别是什么样子。
这是 seed 编号 1997 的,链接在这里;
这是 seed 编号 1983 的,链接在这里。
你喜欢哪个?实话实说,我更喜欢编号 1997 的这个。语气特别自然,听起来更加可信。
前面咱们输入的只是文本,其实 ChatTTS 厉害的地方在于,你可以非常容易控制 AI 朗读的情绪。例如下面我给你演示加上「笑」([laugh]
) 这个控制符,你听听看。这是命令:
chattts "昨天哪 [laugh] 哈哈 [laugh] 我听王树义老师在课上讲了个笑话 [laugh][uv_break] 哎呀妈呀 ,太可乐了 [laugh],哈哈哈 [laugh]" --seed 1983
生成的结果,在这里。
如果你尝试了很多不同的 seed ,会发现有些生成音频里,有特别高频刺耳的噪声。一开始我以为这是当时清洗语料的时候没做好,后来才发现,是 ChatTTS 的作者需要免责。
作者知道造出来这么样的一个开源应用后,可能会带来什么。没错 —— 某些不法活动的门槛,进一步降低了。如果任由所有人使用纯净原声,那么可能会有更多的受害者上当受骗,后果不堪设想啊。
这个模型训练时长全集超过 10 万小时,而目前开放出来的版本只是一个 4 万小时训练的结果,还加上了噪声。将来它真正商业化的版本,会带来什么?
我这几天跟朋友们分享生成音频效果时,他们反复提到一个关键词 —— 声优。而另一部分人则干脆宣布,只要这工具成熟了,自己会立即取消某常用音频平台的订阅。你说,「声优」这份职业和这个好不容易发展起来的音频平台,招谁惹谁了?
AI 距离人们的期许,还有很长的路要走,甚至我们中没有人知道这个目标是否一定能在近年内达到。但即便在目前 AIGC 发展初级阶段,很多 AI 应用都已经在真真实实影响我们的生活。不是吗?
希望今天的介绍,让你了解目前中文开源 TTS 应用的进步。有了这款应用,你是否打算尝试一下?又准备用它做些什么呢?欢迎你把自己的应用场景和使用感受写在留言区,咱们一起交流讨论。