12月11日,人工智能公司依图科技公布了在中文语音识别技术上的最新突破。在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率CER仅为3.71%,相比原业内领先者提升近20%,大幅刷新现有纪录。
依图首席创新官吕昊博士近年来,深度学习的爆发驱动了语音识别技术的高速发展,但相较于人脸识别在准确率方面的高增速来说,语音识别的发展仍较为缓慢。尽管一些机构已宣传达到了人类水平,但大多数情况下都来自安静、近场等受限场景。对于电话、语音节目、远场等更复杂场景,理想和现实仍有较大差距。而在中文语音识别技术领域,汉语的博大精深带来的同音不同意等问题,更对语音识别的处理难度带来极大挑战。依图首席创新官吴昊博士表示,“语音识别技术经历了漫长的发展进化,但至今都只能在受限的场景下才能达到较好的使用效果。我们认为,核心技术的突破,依然是当前破局中文语音识别发展的关键。在语音识别领域,依图科技是一名新生,但立志推动行业创新与发展,做世界最好的中文普通话语音识别技术。”依图此次推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,且在单个算法模型上,有极为出色的多场景适用性表现。在业内近期公开的AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图均处于业界领先水平,且字错率全部在15%以下。其中,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率CER仅为3.71%,领先行业第二名约20%。通过“听写大会”微信小程序,让用户可以直观感受到语音识别技术的真实表现,在业界也属首次,公开透明的体验各类算法的水平差异。
听写大会小程序
听写大会小程序语音识别是人人交互、人机交互最重要的入口,这也让语音识别成为是各大企业必争的互联网入口级技术。当前如火如荼的语音输入法等应用,以及智能音箱、智能机器人,以及智能家居等智能硬件,都是市场规模极为庞大的典型应用场景。据市场调研机构Tractica统计,2017年全球语音和语音识别软件市场规模达到11亿美元,而在2025年,这一数字预计将达到69亿美元。因此,从行业巨头到新创公司,都在积极部署语音识别技术。而面对大量终端设备所产生的海量数据,在云端部署人工智能成为当下的主流方式。一方面,针对庞大的开发者需求,基于云服务来构建开放平台,才能够推动行业生态。另一方面,企业需要在云端部署高性能的服务器系统,才能够满足大量终端设备的语音处理请求。作为目前全球市值最高的企业,微软在云端业务方面的高速增长,成为其发展的重要驱动力。在微软2019财年第一财季的财报中显示,Azure云业务的营收同比增长达76%。当前,微软也正将人工智能作为Azure发展的一大核心方向。微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士曾表示,“Azure是人工智能最佳的云平台,许多开发者和企业已经利用它创造出许多奇妙的应用。”
Atlas是华为新一代智能云硬件平台,可以助力企业加速智能化进程,不仅可为AI应用带来强大的算力支持,更能提供完整的AI解决方案,真正让AI“跑在云上”。此次合作,可以透过软硬件的深度融合,加速企业对依图语音识别技术的云端部署,快速构建能够提供行业领先智能语音技术服务的基础设施。
领取专属 10元无门槛券
私享最新 技术干货