首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >全球首个语音合成图灵测试重磅发布!揭秘AI能否用语音骗过人类?

全球首个语音合成图灵测试重磅发布!揭秘AI能否用语音骗过人类?

原创
作者头像
AGI-Eval评测社区
发布2025-08-27 10:20:40
发布2025-08-27 10:20:40
1020
举报
Image
Image

近期,围绕 AI 有声读物和 AI 播客的产品不断涌现,值得注意的是,其生成的语音效果均强调较高的自然度与接近真人的表现力,这一现象的背后,是语音合成(TTS)技术的长足发展。那么,当前技术的语音合成效果究竟达到了何种水平?不少语音合成模型在技术报告中使用“MOS(Mean Opinion Score)评分来展现合成的优异效果,并主张目前的合成能力已接近甚至达到真人级别的语音表现。当冰冷的算法被赋予富有情感的声线,一个终极拷问也随之浮现:AI真能骗过人类的耳朵吗?

以下是阿里 Cosyvoice-v2 的合成音频案例,大家可以直观感受下:

阿里Cosyvoice-v2的合成音频1,AGI-Eval大模型评测,16秒

△ 案例评测时间为2025年4月,下同

音频文字为:周六下午 2:00有个篮球赛,可精彩了,你要来吗?我们 1:30 在场馆集合就行。到时候现场肯定特别热闹,欢呼声、呐喊声,那氛围老好了。咱们可以一起为喜欢的队伍加油助威,说不定还能看到一些精彩的灌篮呢,可好玩儿了。

阿里Cosyvoice-v2的合成音频2,AGI-Eval大模型评测,21秒

△音频文字为:啊?!我的电脑又死机了,真是太让人头疼了,我正忙着,文件都还没保存呢!啊啊啊这可怎么办啊,看来得赶紧找人来修一下,要不然这工作都没法做了,真耽误事儿啊!不知道文件能不能修复,今天这忙了三四个小时了,万一出了差错,我怎么交差。

听了这类音频案例,你觉得它们真的能以假乱真,无限贴近人类声线吗?

我们把目光聚焦到真实的测评场景。下图中呈现了不同模型在中文(ZH)、英文(EN)及平均(Avg)维度下的 MOS(Mean Opinion Scores)数据。可以看到,在综合平均(Avg)维度下,顶尖模型的得分已经与人类录音(Human)的分数极为接近。然而,当我们实际去听这些音频样本时,仍能察觉到些许机械感、不自然的韵律或是情感表达的偏差。这说明,尽管在量化指标上模型表现优异,但实际听感与宣传或数据所展示的“无限贴近”仍存在差距。

Image
Image

这不禁让我们想起经典的图灵测试——其核心就在于评判机器的回答能否乱真到让人无法分辨其非人之身。当这场“模仿游戏”延伸至声音的领域,若 AI 语音无法在听觉上骗过人类,即便在传统评分榜高居榜首,也意味着它未通过这场真正的“声音的图灵测试”。那么,如今的顶尖模型,有谁通过了这场终极考验吗?正是为了科学、系统地回答这一问题,并揭示当前技术的真实差距,AGI-Eval 评测社区联合外部团队推出语音合成图灵测试(Audio Turing Test, ATT)框架,旨在通过这一全新标准,深入揭示当前 AI 语音技术的真实水平,并探讨如何重塑其评估体系。

该榜单已同步更新至 AGI-Eval 评测社区,进入小程序即可查看完整内容。

Image
Image

而这场由 857 名真人评委参与的严苛盲测给出了答案,也清晰地揭示了现实:目前没有一个 AI 能够通过语音合成图灵测试。虽然如此,但国产模型表现全面领先,以 Seed-TTS、MiniMax-Speech-01 为代表模型排名靠前,最高语音“类人度”评分达到 0.4 分。而备受瞩目的 GPT-4o mini,则以 0.13 分的成绩排名垫底。 接下来为大家详细阐述这项语音合成图灵测试以及 AI 模型的具体表现。

01.语音合成图灵测试概述

语音合成图灵测试框架包含一个标准化的人类评估协议,并配套建设了专用数据集——ATT-Corpus,旨在解决当前语音合成评估中缺乏统一评估标准、不同系统难以公平对比的问题。

为实现更全面的能力评估,专用数据集(ATT-Corpus)在设计时覆盖了多维度能力,能够帮助分析和揭示不同 TTS(语音合成)系统之间的具体能力差异,不仅关注整体表现,还关注细分技能表现。

此外,为了支持 TTS 系统的快速迭代与训练过程中的高效评估,研究团队基于额外的私有评估数据,采用 LoRA 微调技术,在 Qwen2-Audio-Instruct 模型基础上训练了 Auto-ATT 模型。Auto-ATT 支持自动化评估,可快速对TTS 系统在 ATT-Corpus 上的表现进行预测与分析,显著提升评估效率。

Image
Image

△图1:语音合成图灵测试整体流程图

1.1 ATT-Corpus 数据集构建

为了克服当前语音合成(TTS)评测通常依赖于公开语料子集、覆盖面有限且难以评估模型对复杂语音的合成能力这一问题,研究团队构建了 ATT-Corpus,一个专门用于 TTS 评测的综合性语料库。以中文为典型示例,团队首先明确了中文 TTS 系统所面临的关键挑战,并基于此设计了 ATT-Corpus 的构建流程。

数据描述

ATT-Corpus 依据中文语音合成中需具备的语言能力进行分类,精细地构建了针对性较强的评测数据。该语料库涵盖了 5 个主要的中文语言能力维度,包括:

  • 特殊字符与数字:评测模型是否能将文本中的数字、特殊字符、字母等准确转录为适当且常见的发音。
  • 中英文代码混用:评测模型在中文文本中插入少量其他语言单词时的发音准确性。
  • 副语言特征及情感表达:评测模型表达各种副语言现象如笑声及不同情绪状态的能力。
  • 古典诗文朗读:评测模型对古典汉语诗文每个字音韵调的准确把握。
  • 多音字处理:评测模型对中文多音字的正确发音能力。

维度

描述

示例

特殊字符与数字

对文本中的数字、特殊符号、字母等信息进行分析,转录为最适合或常用的读音。

我们公司也有些年头了呢。2010 年 6 月 8 日的时候公司刚成立,现在算算已经快满12 年了,真的是时间过得挺快的。这一路走来也不容易啊。

中英文混读

以中文为主,间杂少量外语单词,用于评估发音准确性。

没想到B站有这么多不同类型的片子,昨晚我在 bilibili 上看了一部新的纪录片……

副语言特征与情感表达

具有丰富的副语言现象,如笑声,以及各种情绪表达的能力。

呜呼,终于下班了。今天的工作简直让人崩溃,真是忙得一刻都没停过。溜了溜了,赶紧回家休息了,我感觉一回家就要睡着,等会晚点去个洗脚城好好放松一下。

古典诗文朗读

正确朗读古典汉语诗文中每个字的声母、韵母、声调和其他发音特点。

苏辙笔下长江的描绘:**“出西陵,始得平地,其流奔放肆大。”**江水奔腾不息、气势磅礴的景象让人震撼不已。三峡之行……

多音字处理

准确处理中文多音字的正确发音。

老中医说,这病症得慢慢调理,着急不得。可这病的症结到底在哪呢?

△表:ATT-Corpus 语料库中文语言维度与示例

语料生成与验证

为降低人工成本并保障语料构建过程的持续性,团队采用半自动化方法进行语料生成与修正。具体流程包括:使用 GPT-4o 生成不同语言类别的基础语料;随后利用 DeepSeek-R1 进行口语化改进,增强语料的自然度与类人特征;最后由 4 名具有语言学硕士以上学位的专家进行标准化修订,并进行交叉检查以确保语料质量。

白盒与黑盒划分

为保障评测过程的公平性和可靠性,生成的数据被分为白盒(公开)和黑盒(盲测)两部分。实验验证了白盒与黑盒数据的评测结果具有较好的一致性。

测试音频生成与验证

在完成语料构建后,使用待评估的 TTS 模型生成评测用的音频片段。为确保评测准确性,进行人工抽检,由两名专家评审员参与,以 25% 的抽检率平衡代表性和评审资源消耗。抽检关注两个方面:合成成功率和合成一致性。特别注意,此阶段不进行合成语音的类人自然度评估。

1.2 拟人度评分

基于前述的人类评测协议,研究团队定义了一个专门用于量化 TTS 系统所合成语音片段“类人程度”的指标,即拟人度评分(Human-likeness Score,HLS)。

对于每个音频片段,根据参与者标记的标签,使用指示函数计算单独的分数:音频片段若标记为“人类语音”,则得分为 1;若标记为“不确定”,则得分为 0.5;若标记为“机器语音”,则得分为 0。对于某个语音合成系统合成的多个音频片段,该系统的 HLS 定义为所有单独片段得分的平均值。

HLS 指标用于量化评估语音合成系统的整体表现及各具体子维度的表现。所得的 HLS 数值将作为监督信号,用于训练自动化的语音真实性预测模型。

1.3 Auto-ATT

为实现快速的评估迭代并提升评测流程的易用性,研究团队基于人工评测数据子集对 Qwen2-Audio-Instruct 模型进行了微调训练,以实现模型自动预测拟人度评分(Human-likeness Score,HLS)。

数据准备

团队使用人工标注的语音合成图灵测试评测数据作为训练数据,包含正负样本,这些数据来源于 4 个不同模型家族的语音合成片段,并覆盖语音图灵测试语料中的中英文混读、特殊字符和副语言特征与情感表达三个能力子集。标注者对语音片段进行人工评测,每个片段由 3 位标注者共同标注,确定最终标签。在每个模型家族中,保留一个声音用于测试集,其余三个声音用于训练集。训练过程中,每个批次音频样本仅从单一子集中抽取,以确保数据一致性。

训练方法

训练阶段,结合指导性的文本提示与 TTS 生成的语音片段作为输入,以指导 Qwen2-Audio-Instruct 模型学习如何评估语音片段的人类相似度(HLS)。其最初是自回归式音频语言模型,研究团队对其进行了改造,使之适用于语音合成图灵测试评分预测任务。

02.语音合成图灵测试效果

为了验证语音合成图灵测试的效果,参评模型包括 Seed-TTS、MiniMax-Speech-01、Step-tts-mini、Cosyvoice-v2 以及 GPT-4o mini TTS,每类模型家族包含 4 种不同的语音风格,共计 20 种语音配置,平均而言,评估和标注每个音频片段耗时约 45 秒至 1 分钟。

Image
Image

△图2:参评模型与语音风格

2.1 语音合成图灵测试人工评估结果

2.1.1 统计学显著性验证

为确保人工评估结果的统计稳健性,对评估数据进行了贝叶斯广义线性混合效应模型(Bayesian Generalized Linear Mixed Model,GLMM)分析,以验证语音合成图灵测试人类评测协议设计的有效性与可靠性。

模型收敛与稳定性检验:

使用 GLMM 分析来检验人工评估数据在统计学上的有效性与稳定性。分析显示模型参数具有极佳的收敛性与稳定性:所有参数的 Gelman-Rubin诊断值(R̂)均为1.00,远低于通常推荐的收敛阈值(R̂ < 1.1),表明模型达到优秀的收敛状态;有效样本量(Effective Sample Size, ESS)均显著超过推荐标准(ESS > 400),表明推断结果具有高度的精确性与稳定性。

固定效应分析结果:

固定效应分析结果表明,所有被评估模型的均值显著高于零基线(即95%的最高密度区间(HDI)完全高于 0。具体的后验统计结果显示:

Image
Image

△图3:各模型后验均值(标准差)、95% HDI区间

如上图所示,Seed-TTS 与 MiniMax-Speech-01 模型在统计学上显著优于 GPT-4o mini TTS 与 Cosyvoice-v2 模型,而 Step-tts-mini 模型的性能居中。

随机效应分析结果:

随机效应分析揭示了参与者评分的个体差异较为显著:参与者之间的随机截距标准差为 0.234(95% HDI区间:[0.222, 0.246]),表明参与者整体评分倾向存在明显个体差异;同一参与者重复评估同一模型的随机斜率标准差为 0.108(95% HDI区间:[0.100, 0.116]),提示参与者在评估特定模型时存在稳定的偏好或评价倾向。GLMM统计分析结果充分验证了语音合成图灵测试人类评估协议在统计学上的稳健性,提供了评估结果可信度的重要依据。

2.1.2 语音合成图灵测试的有效性

Image
Image

△图4:整体基准结果图

整体结果梯度分布:

语音合成图灵测试评估框架的整体基准结果显示,Seed-TTS 与 MiniMax-Speech-01 共同位于表现第一梯队;Step-tts-mini 与Cosyvoice-v2 位于第二梯队,得分范围介于 0.22 至 0.27 之间;GPT-4o mini 明显落后,单独位于第三梯队,得分仅为0.13。这种明显的分层结果充分表明,语音合成图灵测试评估框架能够有效地区分语音合成系统之间的能力差异。

值得注意的是,评分最高的 Seed-TTS 模型其 HLS 仅为 0.4,这显著低于真实人类语音应达到的相似度水平。这与先前广泛报道的传统 MOS 评分存在显著差异,后者通常显示 TTS 系统几乎与人类语音无法区分。这种差异突出表明语音合成图灵测试框架中的 HLS 指标对于捕捉合成语音与真实人类语音之间的细微差异更为敏感和有效,从而能够提供对 TTS 系统类人程度更为真实的评估。

黑盒与白盒数据划分的合理性:

通过比较白盒与黑盒评测设置下模型的表现,发现模型整体的相对排名在两种设置下保持了一致性。两种设置之间得分差距小且较为均匀,表明两种评测设置的难度水平相当。这一结果验证了语音合成图灵测试评测框架中黑盒与白盒数据划分的稳健性与合理性,不存在系统性偏差。

Image
Image

△图5:不同维度与语音风格的评测结果图

不同维度与语音风格的评测表现分析:

各个模型在各子维度上的得分基本上与其总体排名相吻合,没有出现明显的局部表现波动。各模型内部不同语音风格之间存在明显差异。例如,在 Seed-TTS 中,排名最高的语音风格 “Skye” 获得了 0.47 的得分,而最低排名的语音风格则仅得到了 0.35 的得分。这种清晰的差距表明,语音合成图灵测试框架能够有效地区分同一模型内不同音色之间的质量差异。

语音质量问题的归因分析:

通过分析评估者的定性评论,发现当前语音合成系统普遍存在几个关键问题

  • 发音准确性仍有提升空间:在英文单词、数字、特殊字符以及中文多音字的合成上仍存在一些用户可感知的准确性问题;
  • 韵律自然性不足:合成语音的语调模式经常显得生硬或不自然,长句常常逐字逐词地呈现,缺乏适当的微停顿,使合成特征易于被察觉;
  • 副语言表现合成效果差:如笑声、哭声、惊叹声以及叹气声等,存在合成过于机械,且清晰度低的问题,也容易使得真实用户判断为机器合成;
  • 情感表达单一或不匹配:合成语音的情感表达要么过于平淡,要么与句子的语义内容不符。

此外,GPT-4o mini 在中文语音合成中的表现尤为突出,其不足之处,包括明显的外国口音、韵律节奏掌控不佳以及明显的音频伪迹(如电子杂音),这些问题进一步加剧了其韵律上的不足,导致其整体表现排名垫底。

综上所述,语音合成图灵测试人工评估方法能够有效、精确地捕捉不同模型在语音合成类人程度上的细微差异,为语音合成系统的客观评价提供了更为敏感和真实的测量工具

2.2 Auto-ATT 的有效性

为了验证 Auto-ATT 作为自动化评估模型的有效性,从以下两个方面进行了实验:与其他自动化 MOS 预测模型的性能对比;与人工评估结果的一致性分析。

2.2.1 与其他自动化 MOS 

预测模型的性能对比

为评估模型的可靠性,设计了基于 ATT-Corpus 中的陷阱题(Trap Items)的实验,将 Auto-ATT 与目前主流的自动化 MOS 预测模型 UTMOSv2 和 DNSMOS Pro 进行了对比测试。陷阱题为数据验证阶段人工听众能够轻松识别的特定音频片段,可靠的自动评估模型理应能够准确地区分真实的人类语音与存在明显缺陷的合成语音,体现出显著的评分差异。

Image
Image

△图6:陷阱题对比实验结果图

在预测语音合成图灵测试语料库中的陷阱题时,Auto-ATT 的表现明显优于现有的传统 MOS 预测模型:在 0.5 的判定阈值下,Auto-ATT 的 F1 得分达到 0.92;UTMOSv2 模型的 F1 得分仅为 0.14;DNSMOS Pro 则完全失效(F1=0.00)。

这一显著的性能差距表明,相较于传统的MOS预测模型,Auto-ATT 在区分语音合成人类相似度方面更为敏感与精准,更加适用于自动化的 TTS 人类相似度评估任务。

2.2.2 与人工评估结果的一致性分析

为进一步检验 Auto-ATT 预测与人类评估结果的一致性,同时运行 Auto-ATT 和原始 Qwen2-Audio-Instruct 模型,对与人工评估相同的音频数据集进行拟人度(Human-likeness Score,HLS)预测。基于模型预测的 HLS 分数,对各个维度下的音频风格进行排名,并使用 Kendall 距离(Kendall's distance)将模型预测排名与人工评估排名进行对比。

Image
Image

△图7: Auto-ATT 和原始 Qwen2-Audio-Instruct 模型对与人工评估相同的音频数据集的拟人度(Human-likeness Score,HLS)预测

实验结果显示:Auto-ATT 在总体维度上的 Kendall 距离为0.3316(p=0.0398),而Qwen2-Audio 为 0.3474(p=0.0638);在分布内能力维度中,“特殊字符与数字”维度上,Auto-ATT 的距离为 0.2737(p=0.0047),显著优于 Qwen2-Audio 的0.3105(p=0.0198);在“中英文代码混用”维度上,Auto-ATT为0.3368(p=0.0468),优于 Qwen2-Audio的0.3737(p=0.1284);在分布外能力维度上,两个模型的表现差异相对较小,但 Auto-ATT 仍保持了一定优势。

Auto-ATT 预测的排名结果与人工评估的结果具有高度的一致性,无论在整体表现还是在各个细分维度上均表现出良好的对齐程度。与 Qwen2-Audio-Instruct 相比,Auto-ATT 显著提升了评估的一致性与准确性,进一步验证了 Auto-ATT 在自动化评估任务上的优越表现。

在验证了评估框架的科学性之后,让我们通过几个典型案例,深入探究导致模型得分差异的关键问题所在。

03.案例展示

3.1 发音准确性

问题概述:在「中英文混读」、「字符」以及「多音字」等维度,现有模型仍存在可被轻易感知的发音准确性问题,尤其在处理英文单词、特定年份及中文多音字时,错误频现。


case1:我们公司也有些年头了呢。 2010 年 6 月 8 日的时候公司刚成立,现在算算已经快满 12 年了,真的是时间过得挺快的。这一路走来也不容易啊。

MiniMax 音频:

case1,AGI-Eval大模型评测,14秒

△ 案例评测时间为2025年4月,下同

真人评价:数字转录规则错误。模型在处理年份“2010年”时出现典型错误,未能遵循中文语言中对年份的常规读法(即“二零一零年”),而是误用了基数词的读法(“两千零一十年”),这反映出其对特定数字格式的语境规则理解不足。此外,整体语调扁平拖沓,缺乏能量感,暴露了其在情感表达匹配上的短板。


case2:如果需要进一步了解我们品牌的产品和服务,请访问我们的网站:ourservices.cn,上面有对应商品的详细介绍。里面还包含了我们的业务范围、服务内容、优势特点等内容,你可以在上面找到你想知道的信息哦,相信能够在一定程度上对您的需求提供帮助。

字节 Seed 音频:

字节 Seed 合成案例1,AGI-Eval大模型评测,21秒

真人评价:网址发音错误,没有按照单词进行朗读,分字母读的情况下也读错,并且整体的语调较为单调,韵律起伏少。

3.2 情感与副语言丰富度 

问题概述:模型在合成笑声、感叹声等副语言现象时效果不佳,合成痕迹明显,声音机械且清晰度低,是判断其“非人化”的关键因素之一。


case3:今天我像往常一样去健身房锻炼,然后教练让我称称体脂率。本来没抱多大希望呢,结果你猜怎么着?呜呼!我的体脂率下降到20了!当时我自己都惊呆了,哈哈哈哈,看来最近这天天坚持锻炼没白费啊。

MiniMax 音频:

case3,AGI-Eval大模型评测,18秒

真人评价:副语言合成缺陷。模型对非言语声音的处理能力严重不足。首先,感叹词“呜呼”本应是带有惊喜感的上扬语调,但模型处理得平淡无奇,语调曲线不符合情感语境。其次,结尾的笑声“哈哈哈哈”能量感极低,合成机械感明显,与真实人类发自内心的笑声存在巨大差异。


case4:呜呜呜,我跟你说,可把我给气死了。刚才我碰到小李了,他居然见面就直接说,说我胖了不少。不管他有没有恶意,我都不能接受,怎么能这样啊!

字节 Seed 音频:

字节 Seed 合成案例2,AGI-Eval大模型评测,13秒

真人评价:模型对情感类声音的处理能力有限,“呜呜呜”合成整体拖延且有哑音,与真人实际表现差异较大,且应配合伤心的语调和语气,但模型在处理过程中为语调较为平淡,没有结合句子的语义去表现。

3.3 韵律自然度

问题概述:韵律自然度合成仍是巨大挑战,尤其在处理古诗文或结构复杂的长句时,错误的停顿和单调的语调变化,使其机械感更为严重。


case5:苏辙笔下长江的描绘:“出西陵,始得平地,其流奔放肆大。”江水奔腾不息、气势磅礴的景象让人震撼不已。三峡之行让我亲眼见证了大自然的鬼斧神工和无穷魅力,在无人机的镜头中,我渺小得像浩瀚林海中的一棵小树,无尽海滩上的一粒细沙。那一刻,我仿佛融入了大自然之中,充满感受到了自然的伟大。

MiniMax 音频:

case5,AGI-Eval大模型评测,26秒

真人评价:韵律切分错误。模型在处理“奔放肆大”一词时,在“奔放”后加入了不恰当的长时间停顿,这严重破坏了该词语作为一个完整语义单元的整体性与连贯性。正确的韵律处理应将“奔放肆大”作为一个紧凑的韵律短语,而模型的错误切分导致语流中断,听感极不自然,凸显了其在深层语义理解和相应韵律规划上的不足。

04.结论与展望

语音合成图灵测试(ATT)的诞生,无疑为语音合成(TTS)评估领域树立了一座崭新的里程碑。它并非简单的工具迭代,而是一次深刻的范式跃迁,系统性地照亮了传统评估体系的盲区,为语音合成技术迈向真正的“类人化”铺设了科学基石。

语音合成图灵测试在技术层面实现了三层突破:

  • ATT-Corpus 作为一个覆盖中文 TTS 关键挑战的多维度语料库,有效解决了评测数据的针对性不足问题。
  • 标准化的人类评估协议与创新的拟人度分数(HLS),能够精细捕捉人耳难以察觉的瑕疵,为系统能力的区分提供了高分辨率标尺。
  • 基于深度学习的 Auto-ATT 模型,实现了高效、低成本的自动化评估。

更重要的是,语音合成图灵测试的评估结果揭示了当前语音合成技术的真实水平。实验表明,即使是表现最佳的系统,其拟人度(HLS)分数也仅为0.4左右,这有力地打破了“语音合成已接近人类水平”的普遍认知,并指出了发音准确性有待提升、韵律自然性不足、副语言表现合成效果差和情感表达单一等当前技术亟待攻克的核心难题。这一发现为后续的技术迭代指明了清晰的方向。

展望未来,语音合成图灵测试框架将成为推动 TTS 技术迈向真正自然与智能的催化剂。未来将致力于技术深化与应用拓展,持续扩展 ATT-Corpus 至多语言与多方言,并优化 Auto-ATT 模型,以建立更具普适性的全球评估标准。推动语音合成图灵测试成为语音合成系统研发、优化乃至商业采购的客观依据,并将其评估理念与方法论借鉴到语音识别、语音转换等相关领域,促进整个音频 AI 生态的标准化发展。

AGI-Eval 评测社区将持续致力于高质量评估研究,推动大模型指令遵循能力向更广阔的未来发展。关注我们,检索更多评测内容!

— 完 —

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01.语音合成图灵测试概述
    • 1.1 ATT-Corpus 数据集构建
    • 1.2 拟人度评分
    • 1.3 Auto-ATT
  • 02.语音合成图灵测试效果
    • 2.1 语音合成图灵测试人工评估结果
      • 2.1.1 统计学显著性验证
      • 2.1.2 语音合成图灵测试的有效性
    • 2.2 Auto-ATT 的有效性
      • 2.2.1 与其他自动化 MOS 
      • 预测模型的性能对比
      • 2.2.2 与人工评估结果的一致性分析
  • 03.案例展示
    • 3.1 发音准确性
    • 3.2 情感与副语言丰富度 
    • 3.3 韵律自然度
  • 04.结论与展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档