多行业语音合成解决方案——基于不断改进的语音合成前端模型,结合高精度自动预处理技术对数据进行处理和建模,推出适合多行业、多领域、多场景的智能语音解决方案,更深入行业,更接近人声。
中文标准女声音库(10000句)
本次开放的数据仅支持非商用!
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。
TTS语音合成技术是实现人机语音通信关键技术之一。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别ASR相比,语音合成的技术相对来说要成熟一些,是应用范围较广的技术。
随着人工智能产业的飞速发展,语音合成系统也得到了更加广泛的应用。除了语音合成初期的清晰度、可懂度以外,人们对语音合成的自然度、节奏感以及音质的要求也越来越高。而语音库的质量也是决定语音合成效果的关键因素。
【中文标准女声音库】采集对象的音色风格知性阳光、亲切自然,专业标准普通话女声,听感乐观积极。录制环境为专业录音室和录音软件,录音环境和设备自始至终保持不变,录音环境的信噪比不低于35dB;单声道录音,用48KHz 16比特采样频率、PCM WAV格式。录音语料涵盖各类新闻、小说、科技、娱乐、对话等领域,语料设计综合语料样本量,力求在有限的语料数据量内,对音节音子、类型、音调、音连以及韵律等尽可能全面的覆盖。根据合成语音标注标准对音库进行文本音字校对、韵律层级标注、语音文件边界切分标注。
技术参数
数据内容:中文标准女声语音库数据
录音语料:综合语料样本量;音节音子的数量、类型、音调、音连以及韵律等进行覆盖。
有效时长:约12小时
平均字数:16字
语言类型:标准普通话
发音人:女;20-30岁;声音积极知性
录音环境:声音采集环境为专业录音棚环境:1)录音棚符合专业音库录制标准;2)录音环境和设备自始至终保持不变;3)录音环境的信噪比不低于35dB。
录制工具:专业录音设备及录音软件
采样格式:无压缩PCM WAV格式,采样率为48KHz、16bit
标注内容:音字校对、韵律标注、中文声韵母边界切分
标注格式:文本标注为.txt格式文档;音节音素边界切分文件为.interval格式
质量标准:1. 语音文件为48k 16bit wav格式,音色、音量、语速一致,无漂零无截幅;2.标注文件字准率不低于99.8%;3.音素边界错误大于10ms的比例小于1%;音节边界准确率大于98%.
存储方式:FTP存储
文件格式:音频文件:WAV 文本标注文件:TXT 边界标注文件:INTERVAL
领取专属 10元无门槛券
私享最新 技术干货