本次分享一个刚出的超逼真对话型文字转语音软件Dia-1.6B,这个TTS软件不像传统的文字转语音那样,Dia可以生成对话音频,还可以生成非语言音效,如笑声,咳嗽,清嗓子等,还支持声音克隆。我基于当前Dia最新版本制作了免安装一键启动整合包。
能够一次性生成超逼真对话的 TTS 模型。
使用场景
首先将网盘内的软件压缩包下载到本地电脑上并解压。然后双击启动软件.exe启动。
软件成功启动后会自动打开webUI界面。
在Input Text里输入对话文本,[S1]开头,就是人物1,后面跟说话内容。然后再跟[S2],就是人物2,依次交替。
Audio Prompt里可以上传5-10秒的音频用于音色克隆,也可以忽略。
点击下方的Generate Audio按钮开始生成音频。
默认使用GPU处理,耗时由英伟达显卡配置决定。
下面Generation Parameters里还有一些参数设置,感兴趣的可以自行调节测试。
注意:
[S1]
、[S2]
发言者标签(即单个发言者:[S1]
…、两个发言者:[S1]
…… [S2]
)[S1]
或[S2]
(倒数第二个说话者的标签)放在音频末尾,以提高结尾的音频质量软件暂时以英语合成为主,还不能生成中文语音。
非语言音效代码:
(laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
视频教程及效果演示:https://nuowa.net/1912
英伟达显卡显存6G可用,但是速度略慢,建议英伟达显存更高电脑使用
支持英伟达50系列显卡
使用前请将英伟达显卡驱动更新到最新版本
只支持Windows 10或11
软件运行路径中不要有非英文字符和空格,待处理文件素材也要注意
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。