前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >学界 | 汉语语音相似性编码的研究

学界 | 汉语语音相似性编码的研究

作者头像
AI科技评论
发布于 2018-12-26 03:24:54
发布于 2018-12-26 03:24:54
1.1K0
举报
文章被收录于专栏:AI科技评论AI科技评论

AI 科技评论按:在单词和短语之间进行语音区分,如区分「I」m hear」和「I」m here」或区分「I can」t so but tons」和「I can」t sew buttons」,这样的事情每个人都遇到,尤其是遇到自动更正的短信、社交媒体上的帖子之类的时候。尽管乍看之下,语音相似性似乎只能对可听单词进行量化,但这个问题常常出现在纯文本空间中。

如何对语音相似的汉语拼音进行研究呢?IBM 研究院的研究人员们发展了一种学习汉语 n 维语音编码的方法,并可以推广到许多其他不容易适应英语语音模式的语言中。雷锋网 AI 科技评论编译。

语音相似词对

用 AI 的方法分析和理解文本需要干净的输入数据,而这又意味着需要花费相当的精力对原始数据做预处理。不正确的同音词和同义词,无论是无意拼错还是在玩笑中使用,都必须像其他形式的拼写或语法错误一样进行纠正。在上面的例子中准确地将「here」和「so」这两个单词转换为和它们语音上相似的正确对应的单词需要一种单词对之间语音相似性的鲁棒的表示。

大多数语音相似性算法是由英语的使用场景驱动的,并设计用于印欧语系。然而,许多语言,如汉语,有不同的语音结构。汉语的官方罗马化系统拼音,用单音节来表示汉字的语音。拼音音节包括:(可选的)声母(如「b」、「zh」、「x」)、韵母(如「a」、「ou」、「wai」或「yuan」)和音调(有五个)。将这些语音映射到英语音素会导致相当不准确的表达,并且使用印欧语音相似性算法进一步加剧了这一问题。例如,两个著名的算法,Soundex 和 Double Metaphone,会在忽略元音的同时索引辅音(并且没有音调的概念)。

拼音

由于一个拼音音节平均代表七个不同的汉字,所以同音字在数量上甚至大于英语。同时,无论是在使用语音到文本时还是在直接键入时,拼音用于文本创建在移动和聊天应用程序中非常普遍,因为输入拼音音节并选择预期的字符更为实用。因此,基于语音的输入错误非常常见,凸显了用非常精确的语音相似性算法来纠正错误的需求。

可视化表示拼音缩写的语音编码

受这个使用场景的启发,IBM 研究院的研究人员们发展了一种学习汉语 n 维语音编码的方法,这个使用场景还可以推广到许多其他不容易适应英语语音模式的语言。拼音的一大特点是韵母、声母和声调三个因素应独立考虑和比较。例如,拼音对 {「xie2」、「Xue2」} 和 {「lie2」、「lue2」} 中即便声母不同,韵母「ie」和「ue」以及声调仍然可以是相同的。因此,一对拼音音节的相似性是声母、韵母和声调之间相似性的集合。

然而,人为地将编码空间限制到低维 (例如,把每种声母各自划分为不同的类别,或者用不同的数值表示) 限制了捕获语音变化的准确性。因此,正确的、数据驱动的方法是慢慢地学习适当维度的编码。该学习模型通过联合考虑拼音语言特征,如发音地点和发音方法,以及高质量的带注释的训练数据集,来获得准确的编码。

对现有语音相似性方法的 7.5 倍改进

因此,学习到的编码可以用于,例如,接受单词作为输入,并返回语音相似单词的排序列表 (语音相似性依次降低)。排名很重要,因为下游应用程序不会扩展到考虑每个单词的大量替代候选,尤其是在实时运行时。作为一个真实世界的例子,IBM 研究院评估了为来自社交媒体数据集的 350 个中文单词中的每个单词生成候选排序列表的方法,并且展示了比现有语音相似性方法的 7.5 倍的改进。

IBM 研究院希望这项工作对于代表语言特定的语音相似性所产生的改进,有助于许多多语言自然语言处理应用的质量。这项工作是 IBM 研究系统项目的一部分,最近在计算自然语言学习的 2018 届 SIMLL 会议上发表,预训练的中文模型可供研究人员在聊天室、消息应用程序、拼写检查程序和其他任何方面的应用程序上使用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
脑机接口重要突破!国内团队成功实现「全谱汉语解码」:Top 3准确率接近100%
今年八月,两篇背靠背《自然》文章展示了脑机接口在语言恢复方面的强大能力,单现有的语言脑机接口技术多是为「英文等字母语言」体系构建而成,针对「汉字等非字母体系」的语言脑机接口系统研究仍是空白。
新智元
2023/12/01
1880
脑机接口重要突破!国内团队成功实现「全谱汉语解码」:Top 3准确率接近100%
重要突破!西湖大学团队和浙二医院共同实现脑机接口中文解码
先进神经芯片中心默罕默德·萨万教授团队,自然语言处理实验室张岳教授团队和朱君明教授团队联合发布了他们最新的研究结果:“A high-performance brain-sentence communication designed for logosyllabic language”.该研究实现脑机接口全谱汉语解码,一定程度弥补了国际上汉语解码脑机接口技术的空白。
脑机接口社区
2023/11/18
6240
重要突破!西湖大学团队和浙二医院共同实现脑机接口中文解码
语音合成技术_ai语音合成软件免费的
语音合成(text to speech),简称TTS。将文字转化为语音的一种技术,类似于人类的嘴巴,通过不同的音色说出想表达的内容。将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
全栈程序员站长
2022/11/01
4.7K0
项目里文件名永远不要用中文!永远不要!
最近碰到了一个问题,项目中很多文件都是接手过来的中文命名的一些素材,结果在部署的时候文件名全都乱码了,导致项目无法正常运行。
崔庆才
2019/05/06
3.5K0
项目里文件名永远不要用中文!永远不要!
基于Tacotron汉语语音合成的开源实践
语音合成(Text to Speech Synthesis)是一种将文本转化为自然语音输出的技术,在各行各业有着广泛用途。传统TTS是基于拼接和参数合成技术,效果上同真人语音的自然度尚有一定差距,效果已经达到上限,在实现上也依赖于复杂流水线,比如以文本分析为前端的语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器(vocoder)。这些组件都是基于大量领域专业知识,设计上很艰难,需要投入大量工程努力,对于手头资源有限的中小型玩家来说,这种“高大上”的技术似乎有些玩不起。
LiveVideoStack
2021/09/01
1.3K0
人工智能 - 语音识别的技术原理是什么
转自:https://www.zhihu.com/question/20398418/answer/18080841
陈哈哈
2020/07/06
3K1
人工智能 - 语音识别的技术原理是什么
音位:不仅仅是词汇获取
语言是一个两层的层级系统,在语音系统向语义系统跨越的过程中,音位作为语言中能够区别意义的最小的语音单位一直都受到语言学家和心理语言学研究者的关注,其在词汇存取过程中的作用一直是众多研究者争论的焦点。传统语言学理论中将音位视为词汇存取的关键单位,但这一观点不断受到其他语言学家与心理学家的挑战。作者对以往研究中存在的两种主要观点进行了分析,并分别针对性的反驳。
用户1279583
2019/08/14
1.2K0
.NET 的文本转语音合成
我经常飞去芬兰见我的妈妈。每次飞机降落在万塔机场时,我都会对鲜有旅客前往机场出口感到惊讶。绝大多数的旅客会转机到跨越所有中欧及东欧的目的地。所以难怪在飞机开始下降时,会发出一大堆有关转机的公告。“如果你的目的地是塔林,请到 123 号登机口登机”,“如果是飞往圣彼德堡的 XYZ 次航班,请到 234 号登机口登机”等。当然,乘务员通常不会讲十几种语言,因此他们使用英语,而英语不是大多数旅客的本地语言。鉴于客机上的公告 (PA) 系统的质量,以及引擎噪音、哭闹的婴儿和其他干扰,如何有效地传达信息?
AI.NET 极客圈
2019/07/19
2K0
Science Advances:复旦/上科大/天大联合团队汉语言脑机接口新突破,从“意念”合成汉语声调语音
国际上利用该技术已经初步实现了英语的语音合成。然而,汉语作为声调语言通过声调表达不同的语义,英语解码的神经机制和算法无法直接适用于汉语语言,而目前汉语语言脑机接口研究仍是空白。
脑机接口社区
2023/09/19
3370
Science Advances:复旦/上科大/天大联合团队汉语言脑机接口新突破,从“意念”合成汉语声调语音
学界 | 百度Deep Voice作者与Bengio团队探讨五大技术细节,端到端的语音合成还有多远?
androidauthority AI 科技评论消息,今日百度研究院在官网上正式推出了 Deep Voice:实时语音合成神经网络系统(Real-Time Neural Text-to-Speech for Production),Twitter 上也同步更新了消息,目前论文也已经投递 ICML 2017。 本系统完全依赖深度神经网络搭建而成,最大的优势在于能够满足实时转换的要求。在以前,音频合成的速度往往非常慢,需要花费数分钟到数小时不等的时间才能转换几秒的内容,而现在,百度研究院已经能实现实时合成,
AI科技评论
2018/03/12
1.3K0
学界 | 百度Deep Voice作者与Bengio团队探讨五大技术细节,端到端的语音合成还有多远?
《语音信号处理》整理[通俗易懂]
说话的声音(声带震动)和其他声音相比,有独特的时域和频域模式。声带的震动产生基频(fundamental frequency),口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波
全栈程序员站长
2022/07/21
1.8K0
《语音信号处理》整理[通俗易懂]
《语音信号处理》 语音识别章节 读书笔记
两本书,《语音信号处理》赵力编和《语音信号处理》韩纪庆编。强烈推荐韩纪庆版本,知识点很全面,可以作为语音识别的入门中文书籍,章节很也短,很快就入门了。
全栈程序员站长
2022/09/01
5460
《语音信号处理》 语音识别章节 读书笔记
NLP入门之语音模型原理
这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们
云时之间
2018/04/11
1.5K0
NLP入门之语音模型原理
[语音识别] 单音素、三音素、决策树
以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素。 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的。音素应该与人体的发音严格的区分开,因为音素是指一个有规律的有限的发音系统而人体的发音则是无限的。 以英语为例,英语共有48个音素,其中元音20个,辅音28个。英语辅音和元音在语言中的作用,就相当于汉语中的声母和韵母。记录语音音素的符号叫做音标。音标可以分为两种,即严式音标和宽式音标。一般学习语言使用宽式音标即可,比如广泛运用的英语国际音标。而对于语音、音韵等专业研究来说,用严式音标则最大可能地记录任意一种语言的语音。 音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。在语音学与音韵学中,音素一词所指的是说话时所发出的声音。音素是具体存在的物理现象。国际音标(这里指的是国际语音协会制定的国际音标,注意同英语国际音标区分)的音标符号与全人类语言的音素具有一一对应。
MachineLP
2020/03/25
3.1K0
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。
马上科普尚尚
2020/05/14
1.4K0
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
全国维吾尔语分词技术比赛斩获冠军系统窥密
题记: 2017年9月25日,第十六届少数民族语言文字信息处理学术研讨会维吾尔语分词技术评测结果公布,TEG以“腾讯基础研发部”名义参赛系统超越了新疆大学,北京大学青鸟,中科院自动化所等10余家队伍,获得了本次竞赛评测第一名,在召回率不变的前提下,准确率超越第二名系统22%,取得绝对领先。  表1. 比赛结果前五名 巴别塔的渴望: "这里是新疆是我的家乡,他广阔美丽天生他就是这样。喀纳斯的湖水映着晚霞泛着银光,塔里木河在沙漠中间流淌,我想我渴望我歌唱我绽放,在我出生的这片土地上歌唱。我登高眺望感受吐
TEG云端专业号
2023/03/30
9310
全国维吾尔语分词技术比赛斩获冠军系统窥密
《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介...
《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介
流川疯
2022/05/10
7170
《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介...
自然语言处理简介(1)---- 服务梳理与传统汉语分词
同步发表于:本人所属公司博客<知盛数据集团西安研发中心技术博客> https://blog.csdn.net/Insightzen_xian/article/details/81168829
流川疯
2019/01/17
1.1K0
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时间,探究 TTS 技术的演变历程,重点关注如何通过先进的算法和计算模型,实现从一段静态文本到仿若真人般自然流畅语音的转化。我们将深入了解深度学习的革命性影响,如何推动着 TTS 技术向着更高的自然度和理解力迈进,特别是谷歌的 Tacotron 和 DeepMind 的 WaveNet 如何在这个领域设定了新的标准。随着技术的不断成熟,未来的 TTS 系统将更加智能、灵活,并且能够在更广泛的应用场景中提供个性化和情感丰富的语音交互体验。
汀丶人工智能
2024/09/11
3590
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
英语和汉语谁更高效?17大主流语言测试结果:没有优劣之分,带宽都是每秒39bit
首先,不同语种的说话速度差异很大。有研究证明,意大利人语速最快,每秒能说9个音节;而德国人语速最慢,每秒只能说5~6个音节。
量子位
2019/09/09
1.6K0
英语和汉语谁更高效?17大主流语言测试结果:没有优劣之分,带宽都是每秒39bit
推荐阅读
相关推荐
脑机接口重要突破!国内团队成功实现「全谱汉语解码」:Top 3准确率接近100%
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档