Loading [MathJax]/jax/output/CommonHTML/jax.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TTS系统评测方法介绍--WSRD AI评测实验室

TTS系统评测方法介绍--WSRD AI评测实验室

原创
作者头像
个性化推荐评测组
发布于 2018-07-02 03:00:52
发布于 2018-07-02 03:00:52
17.5K3
举报

语音合成(Text To Speech,TTS)技术将文本转化为声音,目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及到语言学、语音学的诸多复杂知识,因合成技术的区别,不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现,如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。AI评测实验室针对TTS前端、后端的存在的问题,选取TTS评测指标,制定各指标评测方法,形成了一套系统的TTS评测方案。

一、前端后端问题

当前常见的TTS系统可分为前端、后端两部分,前端完成输入文本的归一化、分词、发音预测、韵律结构预测等处理,后端对声音建模,用学习得到的声音参数,通过声码器合成声音。

由于自然语言本身的复杂性和开放性,前端处理部分难度较大,难以覆盖所有情况,可能引入的问题举例如下:

  • 发音错误,汉语中的多音字、数字、专有名词等根据上下文的不同,发音也不一样,语料的覆盖不全,会导致部分字词的发音错误,另外现在国际化背景下,各类中英混合语料、缩略词、符号的存在,也为发音预测带来了大量困难。
  • 声调不准,中文在实际口语发音时,存在一系列复杂的的变调规则,如一/不变调,上声变调等。这类规则的处理不当会导致合成的语音与平时发音习惯不符,听来怪异。
  • 韵律异常,前端通过语法词分词、韵律词分词、断句等方式在文本中插入不同程度的停顿,通过时长预测控制字词的发音时长,分词和断句的错误会引起合成语音时的错误停顿,听起来节奏不当。

后端训练模型预测声音参数,声音参数通过声码器(WaveNet等不在此列)合成语音波形。无论是声音参数、还是声码器都是对实际发音过程的有损建模,无法百分百还原人声,可能引入的问题如下:

  • 清晰度差,合成的字、词发音不清晰,近音词区分度差。
  • 还原度差,与目标说话人的音色有差异。
  • 杂音,在合成语音过程中引入背景噪音、字与字之间不流畅的杂音。

二、评测指标介绍

针对上文提到的前后端可能存在的问题,选择如下指标来评测TTS。

发音准确性

线上语料中频繁出现的多音字、数字、符号、夹杂英文会给TTS前端带来很大的挑战,对这类case的发音错误会给用户带来较差的体验。为了评估并提升前端的正确发音的能力,AI评测实验室建立大规模前端测试语料,通过TTS前端输出快速验证语料上的发音准确性。

韵律准确性

前端文本处理过程中会对文本做分词处理和时长预估,为评估TTS停顿和发音时长的合理性,可以准备不同领域不同句式的不同情感的文本,通过众测主观判断合成语音是否可接受,计算TTS韵律准确性。

字典覆盖率

为检查语音合成系统对汉字的覆盖程度,建立覆盖汉普通话不同等级的字库和生僻字库的测试语料,通过TTS前端输出工具,检查是否能正常处理,统计字典覆盖率,实际评测中,因为测试发音准确性需要准备庞大语料,覆盖了大量汉字,可以在测试发音准确性时顺便发现字典覆盖中的badcase。

字清晰度得分

采用汉语清晰度诊断押韵测试(DRT)法测试字清晰度,TTS合成DRT基本字表,覆盖浊音、鼻音、低沉音等不同特征的押韵字,听应音人根据TTS读音在问卷上选出听到的字,最后由测试人员统计结果计算清晰度等级,详见《GB-T 13504-1992》。现有TTS合成的字清晰度较高,可以根据产品实际情况选择是否需要评测此项。

词清晰度得分

采用语义不可测句(Semantic Unpredictable Sentence, SUS)测试单词清晰度,语义的不可测可以避免听音人的经验猜测,使评测结果更可靠。可根据产品实际情况选择是否需要评测此项。

MOS

业界对语音的整体评测,一般是使用MOS。邀请听音人试听合成语音,根据分值描述,从拟人性、连贯性、韵律感等方面为语音选择合适的分数。

三、评测方法介绍

本章详细介绍评测时重点关注的发音准确性评测和MOS评测。

发音准确性测试的目的是评估前端发音预测能力,挖掘badcase,通过多轮修复和回归,提升系统发音准确率。

可能影响到TTS发音准确的语料类型较多,具体可细分为以下几类:

  1. 特殊读音的姓氏:被测系统应该有能力根据上下文区别姓氏的特殊读音,如“报仇”和“仇老五”,“仇“做为姓时应该读为qiu2。
  2. 数字进制:被测系统应该按照汉语习惯对数字的进制正确发音,如宝马4系列的轿车需要896,500元,“896,500”应展开为“八十九万六千五百”。
  3. 年代:以年代形式出现的数字应该根据上下文区分是进制读法、位制读法还是顺序读法,如中国在4000年前就开始物种驯化,中“4000”应该是进制读法“四千”;秦朝建立与公元前221年,中“211”应该是位制读法“两百二十一年”;马克思生于1818年,中“1818”应该采用顺序读法“一八一八”。
  4. 时间:被测系统对于不同的时间表示格式应该给出正确读音,如”2017/10/27”,”23:11””5pm”等
  5. 电话:对于不同格式的电话数字应该给出正确读音,如“0724-4356333“,”182-3123-3213“,”(+86)182-3123-3213 “等
  6. 分数小数百分数:对于文本中常见的百分数和小数表示,应该给出正确发音,如“1/2”“2%”“0.9882”等
  7. 全角半角数字:数字符号有全角半角之分,前端系统应该能正确识别并发音
  8. 符号单位:对测试材料中的符号和单位应该按照我国法定计量单位规定进行发音,一些复杂读音的符号如“:”、“-”、“#”、“*”等需要能根据上下文选择正确的发音
  9. 专有名词术语:对于专有名词和专业词汇应该根据上下文作出正确发音,如“工尺”、“般若”等。
  10. 中英文混合:新闻和日常对话中,经常会混入英文词汇或缩写,对于这些情景,应该能识别主场景语言,平滑切换到英文部分并正确发音。

建设语料时,如此详的分类对于评估准确率、挖掘Badcase无额外收益,徒增工作量,因此实践中将准确性测试语料分为多音字、数字、符号三大类分别建设。

多音字发音评测

语料建设

完备的测试用例是评测TTS前端准确性的基础,多音字语料建设流程如下:

  1. 整理收集常见多音字和多音字的读音,建立包含不同领域文章的文本集
  2. 然后收集多音字组成的词组(包括单字词),将词组进行分类,分为固定读音词组和非固定读音词组,固定读音词组是当多音字以这个词组形式出现时,始终读一个音;非固定读音词组是当多音字以这个词组形式(包括单字词)出现时,读音不确定。
  3. 最后文本集上爬取包含多音字词组的句子生成测试用例。通过固定读音词组生成的用例自带标注,这里判断句子中是否包含指定词组时,需先分词然后判断分词结果是否包含词组;由非固定读音多音字生成的用例,因为读音不确定,还需要再通过众测做人工标注。

根据北京理工大学的研究,现代汉语词典中共查到1036个多音字,其中有688个多音字以单字词的形式在人民日报语料中至少出现过一次。AI评测实验室目前已建立的多音词测试语料共覆盖469个多音字的791种读音,覆盖包含12760个词组的语料120w句。

评测方法

合成语音后,通过听语音来判断发音正确下的效率太低,实际评测过程中可直接对前端的发音预测结果进行校验,测试语料通过TTS前端,输出每个字的读音和音调,对比实际输出与期望输出判断对错。

注意TTS输出拼音时已经做过变调调整,测试时可以专门打包一个不变调的版本或者对输出的拼音做一次变调。评测形式如下:

评测进度应该按照第一轮摸底测试、多轮回归测试、错误率高的多音字专项测试、生僻字专项测试的顺序进行,不断挖掘badcase,逐步提高TTS的多音字发音准确性。

符号发音评测

语料建设

符号类语料的建设需要考虑标点符号、单位、英文夹杂等情况,我们整理了39个可能发音的重点关注符号(:-~%)。建立语料时从文本集搜寻包含重点符号、单位、英文夹杂、其他符号的语料,分别进行评测。

评测方法

重点符号类和单位类:测试语料通过TTS前端工具,输出归一化结果,建立众测标准,人工标注输出结果是否符合预期,形式如下:

英文夹杂类:这类语料只通过前端输出无法准确判断对错,需要合成语音后,听音判断是否自然切换,发音准确。

其他符号:剩下的这类符号如颜文字、小语种符号大概率不参与发音,而这类爬取得到的语料数量又最多,实际测试时抽样了部分,检查TTS是否能正常跳过此类符号不发音。

数字发音准确性评测

语料建设

数字类语料需覆盖电话、QQ、分数小数百分数、型号数字等不同case,实际建设这部分语料时比较暴力,凡文本集中包含数字的句子均拿来做测试用例,优于数字和符号常一起出现,为避免重复标注,一个句子不同时加入数字和符号的测试语料。

评测方法

数字部分的评测方法与符号类似,为加快标注速度直接对前端归一化输出做判断,而不是对测试语料进行标注后再与前端输出结果做比较,形式如下:

3.2 MOS评测

MOS常见于各类TTS的PR文或论文中,被用于评测TTS的整体得分。因为是主观评测,MOS在不同人群、不同时间、不同测试语料下结果波动较大,在TTS产品不断迭代中,通过传统的MOS评测很难反映新旧模型差异、当前模型与竞品的差异。因此我们将MOS评测与两两比较法相结合,并引入上标锚定打分标准,使结果相对稳定。

语料建设

前端的评测通过发音准确、韵律准确等来评测,MOS评测应该专注于整体自然度,因此准备测试语料的时候尽量避开了多音字、符号、数字语料,从各领域和TTS实际应用场景摘选常规文本作为测试语料。为避免听音人疲惫,语料数量不能太多,需要控制评测时间。

当前TTS得分大都高于4分,因此我们在传统MOS五档分值中加入了4.5分档,打分及描述如下:

级别

MOS值

描述

5.0

非常自然。语音达到了广播级水平,很难区分合成语音和广播语音的区别,听起来非常相似。从整体上来说语音清晰流畅,声音悦耳动听,非常容易理解,听音人非常乐意接受。

4.5

自然,听起来完整没有明显不正常的韵律起伏,比较清晰流畅,比较容易理解,达到了人们普通对话的质量,听音人愿意接受。

4.0

还可以。没有出现明显的分词错误和严重的语言韵律错误,有很少的一两个音节不太清楚,听音人可以没有困难的理解语音的内容,听音人多数认为可以接受。

3.5

不太自然。语音还算流畅,语音中的错误比较少,偶尔有几个音节不太清楚,韵律起伏比较正常,错误比较少,多数听音人勉强可以接受。

3.0

可接受。语音不太流畅,有比较容易察觉的语言错误,有一些不太正常韵律起伏,一般情况下可以努力理解语音的内容,不太愿意接受。

2.0

比较差。语音不流畅,听起来只是把单独的音节简单的堆砌到一起,没有正常的韵律起伏,有一些词不是太清晰,难于理解,整体上听音人可以听懂一些内容,但是不能接受。

1.0

明显的是机器音。很不清楚,语音无流畅可言,只能听懂只言片语,基本上无法理解,完全不能接受。

评测方法

  1. 分别合成被测TTS、对照TTS的语音,并且录制一份声优语音混入一起测试,注意录制时各类语音参数应保持一致
  2. 校验上述语音是否与语料内容一致,是否存在错误发音
  3. 语音音量对齐
  4. 生成众测问卷,被测TTS、对照TTS、声优三者语音交叉打乱
  5. 开始任务前给听音人试听上标下标语音,告知上下标语音的大致得分
  6. 众测用户开始听音打分,前三条语料的语音作为用户进入状态平稳打分标准的铺垫
  7. 回收问卷,剔除出界次数较多的用户数据,统计MOS最终结果

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
3 条评论
热度
最新
预料选择上要注意哪些呢?
预料选择上要注意哪些呢?
回复回复点赞举报
谢谢分享
谢谢分享
回复回复点赞举报
不错的AI测评方法,感谢大佬分享
不错的AI测评方法,感谢大佬分享
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
【AI专栏】语音合成系统评测介绍
本文介绍了语音合成系统的评测方法和指标,包括发音准确性、韵律准确性、字典覆盖度、字词清晰度、韵律平滑度、自然度、无意识错误、声音属性、声音相似度、音频质量、生成语音的清晰度、听众的接受度、发音和韵律等。同时,还介绍了一种基于主观评测、客观评测的评测方法,包括MOS、错误检测、语音识别、声学模型、发音和韵律等评测指标。
腾讯移动品质中心TMQ
2017/12/08
12.5K1
语音合成技术_ai语音合成软件免费的
语音合成(text to speech),简称TTS。将文字转化为语音的一种技术,类似于人类的嘴巴,通过不同的音色说出想表达的内容。将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
全栈程序员站长
2022/11/01
5.5K0
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。
LiveVideoStack
2020/05/08
1.4K0
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
智能语音机器人小知识(5)--什么是TTS技术?
TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。
思谱云汇
2019/05/24
3.7K0
智能语音机器人小知识(5)--什么是TTS技术?
语音合成学习(一)综述
爱丁堡大学课程(全英文,有能力的推荐学习一遍):https://speech.zone/courses/speech-synthesis/
全栈程序员站长
2022/09/13
2.9K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
今年 4 月,QQ 浏览器宣布 「小说频道」正式变更为 「免费小说」频道,这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载,其阅读方式也随之几经改变。
机器之心
2021/10/26
1.9K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
个性经济时代,MiniMax 语音大模型如何 To C?
大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent(又称“GPTs”),其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”,它能访问当地 SEPTA 公共交通 API,为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。
AI科技评论
2024/02/06
7830
个性经济时代,MiniMax 语音大模型如何 To C?
人工智能,应该如何测试?(五)ASR 效果测试介绍
ASR 是自动语音识别(Automatic Speech Recognition)的缩写,是一种将人的语音转换为文本的技术。这项技术涉及声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等多个学科。ASR 系统的性能受到识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人或多个说话人以及硬件等因素的影响。
霍格沃兹测试开发Muller老师
2024/04/07
5400
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。
机器之心
2025/05/27
1600
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。这两种技术各自解决了语音交互中的不同问题,共同助力于实现自然、流畅的人机对话。
kwan的解忧杂货铺
2024/11/16
5850
AI口语纠正的技术框架
AI口语纠正的技术框架涉及多个密切相关的技术领域,旨在帮助学习者提高口语流利度和准确性。以下我将详细阐述其技术框架,并结合实际应用进行说明。
数字孪生开发者
2025/01/18
3090
AI口语纠正的技术框架
AI智能口语练习APP的开发
AI智能口语练习APP的开发涉及多个技术领域,包括语音识别、自然语言处理、语音合成、机器学习等。以下我将从需求分析、技术选型、开发流程、关键技术等方面详细介绍AI智能口语练习APP的开发。
数字孪生开发者
2025/01/18
3200
AI智能口语练习APP的开发
生动化你的表达——DuerOS中的SSML应用
在对话式AI系统中,语音交互是主要的输入输出方式。对语音输出而言,有两种主要的方法,一种是事先制作好音频,然后根据用户的请求,播放音频;另一种是通过语音合成中的TTS技术,将文本转化为语音。在很多情况下,制作的音频往往要比语音合成的用户体验要好,因为人的声音中有更多的“色彩”,语音语调中可以有更多的情绪。
半吊子全栈工匠
2019/04/25
2.7K0
生动化你的表达——DuerOS中的SSML应用
智能语音客服方案设计
手机用户的普遍如何快速的应答与高质量的沟通是智能客服的关键问题。 采用合理的分层结构流程与先进的中间组件(例如,语音识别、语音合成、智能对话、知识图谱等技术组建),建立客服热线自动语音应答系统。缓解人工忙线,客户问题简单,如法充分利用资源的情况。 借用AI相关的技术,建立稳定、有效的智能语音应答系统的研究目标。
AI拉呱
2021/01/14
2.8K0
AI技术在英语口语练习中的应用
AI技术在英语口语练习中的应用正在彻底改变传统的学习方式,为学习者提供了前所未有的个性化、即时性和高效性。以下是一些主要的应用方式。
数字孪生开发者
2025/06/20
1260
AI技术在英语口语练习中的应用
《语音信号处理》整理[通俗易懂]
说话的声音(声带震动)和其他声音相比,有独特的时域和频域模式。声带的震动产生基频(fundamental frequency),口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波
全栈程序员站长
2022/07/21
2K0
《语音信号处理》整理[通俗易懂]
微软语音AI技术与微软听听文档小程序实践 | AI ProCon 2019
【导语】9 月 7 日,在CSDN主办的「AI ProCon 2019」上,微软(亚洲)互联网工程院人工智能语音团队首席研发总监赵晟、微软(亚洲)互联网工程院 Office 365资深产品经理,Office 小程序负责人张鹏共同发表《微软语音AI与微软听听小程序实践》的主题演讲,分享微软人工智能语音的技术以及微软听听小程序的落地实践。
AI科技大本营
2019/10/08
2K0
微软语音AI技术与微软听听文档小程序实践 | AI ProCon 2019
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
对比语音来说,NLP 技术在深度学习中更为普及。在介绍语音合成任务前,我们先来了解语音这一模态的特点,并将其与文本模态对比。
汀丶人工智能
2024/09/11
6060
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
方兴未艾的语音合成技术与应用
作者简介:李秀林,中国科学院博士,15 年语音相关技术研发和学术研究,申请专利三十余项,在国内外语音界有很高的知名度;曾带领团队获得百度百万美元大奖。2006 年—2013 年,松下研发中心高级研发经理;2013 年—2016 年,百度语音合成技术负责人;2016 年—2018 年,滴滴研究院语音团队负责人&首席算法工程师;2018 年3 月加盟标贝科技,作为联合创始人兼CTO。
AI科技大本营
2018/10/22
1.6K0
方兴未艾的语音合成技术与应用
奇声(IQDubbing)-- 面向影视剧的AI配音技术
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息   //   编者按:随着长视频制作行业和消费市场的持续发展,国外越来越多优秀内容“走进来”,同时更多的国内优秀作品“走出去”,这对配音本地化提出了极大的挑战。爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。LiveVideoStackCon 2022
LiveVideoStack
2023/04/04
1.9K0
奇声(IQDubbing)-- 面向影视剧的AI配音技术
推荐阅读
相关推荐
【AI专栏】语音合成系统评测介绍
更多 >
LV.0
腾讯高级工程师
交个朋友
加入腾讯云技术交流站
洞悉AI新动向 Get大咖技术交流群
加入HAI高性能应用服务器交流群
探索HAI应用新境界 共享实践心得
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档