首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

全球AI语音技术工具集合|助力全栈开发

为了帮助大家在研究工作中提高效率,近期我们将全球AI语音技术工具进行了盘点梳理,涵盖文本处理分析、语音识别系统、语音合成、语言模型、音频信号等几个方面的常用工具共计四十余套。

文本处理分析相关工具

包括日文的文本格式转换的ChaSen,将文本转换成phone层级的Addttp,以及常见的一些文本操作,如将TIMIT的文本转换成praat Textgrid的格式,将字典文件转成MLF格式的“pseudo-transcription”,以及对多国语言文本进行分词等等。

语音识别系统

小型可快速搭建的语音识别系统框架,包括中文以及英文,如早期的HTK框架;基于HTK的英文的Atk识别框架;基于日语数据搭建的Husky系统,它是基于CentOS6.2操作系统的;还有捷克语的整体识别框架,包括了单音素和三音素模型以及对应的语言模型。还有ISIP识别框架,更新版本提高了baum-welch训练器和解码器的效率,其他还有一些易实现的ASR系统如SRTK等。

语音合成

Festival提供了一套语音合成通用框架系统,它包含了各模块的示例,并且提高了不同脚本层的接口,都可以实现从文本到语音的合成过程,如shell,c++等,Festival支持多囯语言,如美式英语、英式英语以及西班牙语等。STK则是针对音乐合成,且包含相关信号处理功能,它最大的特点是可以跨平台,实时控制且易使用,同时还提供了示例代码可学习,因为不包含异常库,没有隐藏驱动程序,因此可移植性特别强。

语言模型

CMU_SLTK工具旨在促进语音模型的研究,它包含的一些工具可以将一般文本数据处理为词频列表、特定词汇的bigram和trigram计数以及各种二元和三元语言模型,还可以使用语音模型来计算OOV率,二元和三元命中率等,在推出的新版本中对功能和效率还做了有效改进。MIT则旨在有效促进迭代参数估计的n-gram语音模型分析;Rflm则是基于SRI LM设计理念和编码规范而开发的一套c++软件包,该语言模型是随机决策树的集合,具有良好的性能。其他相关LM的还有SRIIL,以及word级别的语言模型Latticelm-master等。

音频信号

关于音频信号相关的一些处理工具,如语音增强和特征提取的CutCopy,它的原理与HTK 的Hcopy类似。生成或者修改多元语言模型的OpenGrm,对音频进行处理、分类、乱序及稀疏的NLP,可以将不同特征进行转换的ISCI以及特征提取和对齐的RWTH,读取二进制Sphinx 声学模型的Sphinx_am2wfst,WFST相关训练、计算分析工具如Igreat、Ky、Astl等。

其他

围绕语音识别等相关技术的一些小工具,如对序列数据进行分段标记、NLP文本信息处理以及文本分块的CRF。高效的dtw算法相关程序,快速实现解码的Cdec,以及基于WFST的G2P转换工具Phonetisaurus等。

工具分享入口

SpeechHome

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210928A0B7O300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券