开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

仅使用"sphinx4“调整声学模型

Sphinx4是一个开源的Java语音识别库，用于实现自动语音识别（ASR）系统。它提供了一套丰富的API和工具，可以用于构建语音识别应用程序。

声学模型是语音识别系统中的一个重要组成部分，用于将输入的语音信号转换为文本。调整声学模型是指对声学模型进行优化和改进，以提高语音识别的准确性和性能。

在调整声学模型时，可以采用以下步骤：

数据收集：收集大量的语音数据，包括不同说话人、不同语速和不同环境条件下的语音样本。
数据预处理：对收集到的语音数据进行预处理，包括去除噪声、标准化音频质量等。
特征提取：从预处理后的语音数据中提取特征，常用的特征包括MFCC（Mel频率倒谱系数）、PLP（Perceptual Linear Prediction）等。
建立声学模型：使用提取到的特征数据训练声学模型，常用的模型包括隐马尔可夫模型（HMM）和深度神经网络（DNN）等。
模型优化：通过调整模型参数、增加训练数据量、使用更高级的模型结构等方法，优化声学模型的准确性和性能。
模型评估：使用测试数据对优化后的声学模型进行评估，评估指标包括识别准确率、错误率等。

Sphinx4可以作为一个工具库，用于实现声学模型的调整。它提供了丰富的功能和算法，可以用于训练和优化声学模型。同时，Sphinx4还支持多种语言和平台，具有良好的可扩展性和灵活性。

腾讯云提供了一系列与语音识别相关的产品和服务，可以与Sphinx4结合使用，实现更强大的语音识别功能。其中，腾讯云的语音识别（ASR）服务可以将语音转换为文本，支持多种语言和场景，具有高准确率和低延迟。您可以通过访问腾讯云的语音识别产品介绍页面（https://cloud.tencent.com/product/asr）了解更多信息。

总结起来，Sphinx4是一个开源的Java语音识别库，用于实现自动语音识别系统。调整声学模型是优化语音识别准确性和性能的重要步骤，可以使用Sphinx4作为工具库来实现。腾讯云提供了与语音识别相关的产品和服务，可以与Sphinx4结合使用，实现更强大的语音识别功能。

相关搜索:如何使用`MonitoredTrainingSession` / `Scaffold`调整模型仅内部使用的模型的模型验证使用CV进行模型评估和参数调整在vuforia模型中使用单位目标如何调整模型的尺寸？仅使用document.ready监听窗口大小调整如何仅使用HTML/CSS调整导航栏的大小？仅允许使用经过调整的非类型化ActorRefs 仅使用Backbone.js更新某些模型属性仅使用CSS根据窗口调整图像大小时的空白为什么Keras模型仅使用imagenet权重实例化？使用boost几何调整几何对象模型时出现的问题无法使用JS动态调整SVG大小(仅适用于桌面)使用pyspark调整回归树模型的K-折叠交叉验证仅使用数字的倍数将容器的宽度调整为子级如何使用keras序贯模型使用gridsearchCV调整l2正则化器 R:循环结构，使用动态调整大小的数组来构建线性模型使用LSTM训练的模型仅预测所有对象的相同值使用Django仅包含年份或完整日期的模型字段 SQLModel -如何仅使用基本模型中的几个字段仅使用其模型的一些元素进行JSON检索

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

GMM-HMM模型 vs. DNN-HMM模型 vs. DNN-CTC模型 | 语言模型之战 | 老炮儿聊机器语音 | 4th

随着语音识别技术越来越热，声学模型的训练方法也越来越多，各种组合和变化也是层出不穷，而随着深度学习的兴起，使用了接近30年的语音识别声学模型HMM（隐马尔科夫模型）逐渐被DNN（深度神经网络）所替代，模型精度也有了突飞猛进的变化，其中声学模型模型结构经历了从经典的GMM-HMM，到DNN-HMM，再到DNN+CTC的转变，本文列出了其中的常见模型，权当是一篇导读性质的文章，供大家学习时参考。

05

语音识别现状与工程师必备技能

作者 | 陈孝良责编 | 胡永波目前来看，语音识别的精度和速度比较取决于实际应用环境，在安静环境、标准口音、常见词汇上的语音识别率已经超过95%，完全达到了可用状态，这也是当前语音识别比较火热的原因。随着技术的发展，现在口音、方言、噪声等场景下的语音识别也达到了可用状态，但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然，多人语音识别和离线语音识别也是当前需要重点解决的问题。学术界探讨了很多语音识别的技术趋势，有两个思路是非常值得关注的，一个是就是端到端的语音识别

01

智能音箱大战全面开火，那么问题来了：如何成为一名全栈语音识别工程师？

文 / 陈孝良 11月16号，百度发布了渡鸦智能音箱和DuerOS开发板SoundPi，至此，国内再一名巨头加入智能音箱大战。迄今为止，国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等，国外则有苹果、微软、亚马逊、谷歌、脸书、三星等，这些巨头占据了全球市值的排名榜，同时发力争夺未来人工智能时代的语音入口，甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争，将对未来十年产生极其重要的影响，同时，这更是新一波的职业快速发展机会。语音智能当前的核心关键是声学问题和语义理解，随着市

信号为E时，如何让语音识别脱“网”而出？

可以说，语音识别是人类征服人工智能的前沿阵地，是目前机器翻译、自然语言理解、人机交互等的奠基石。

04

语音识别开源工具PyTorch-Kaldi：兼顾Kaldi效率与PyTorch灵活性

杰出的科学家和工程师们一直在努力地给机器赋予自然交流的能力，语音识别就是其中的一个重要环节。人类对语音识别技术的研究从上世纪 50 年代开始就未曾停止。在长期的探索中，一次次重大的技术突破逐渐让语音识别技术进入我们的日常生活。今天的 ASR 技术水平是前所未有的。高性能的语音识别给我们带来了更多的生活体验，我们拥有了可以对话的智能数字助手；它也在逐步改善相关领域的生产力水平。

02

前端语音信号处理

语音活动检测（Voice Activity Detection， VAD）用于检测出语音信号的起始位置，分离出语音段和非语音（静音或噪声）段。VAD算法大致分为三类：基于阈值的VAD、基于分类器的VAD和基于模型的VAD。

03

ZLG深度解析——语音识别技术

语言作为人类的一种基本交流方式，在数千年历史中得到持续传承。近年来，语音识别技术的不断成熟，已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言？本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。

02

腾讯 AI Lab 副主任俞栋：过去两年基于深度学习的声学模型进展

本文摘取该论文主干部分进行编译介绍，希望为读者提供相关进展的概括性了解。

09

智能语音机器人小知识（3）--什么是语音识别技术？

语音识别技术，也被称为自动语音识别Automatic Speech Recognition (ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

04

语音识别系统的分类、基本构成与常用训练方法 | Machine Speech

对于想进入语音识别领域的学习者来说，了解语音识别系统的一些基本概念，会有助于更快的进入这个行业的交流平台，本文对语音识别系统的一些常见概念做了整理，希望能对刚开始接触语音学习的人有所帮助。

03

语音识别流程梳理

其中，声学模型主要描述发音模型下特征的似然概率，语言模型主要描述词间的连接概率；发音词典主要是完成词和音之间的转换。接下来，将针对语音识别流程中的各个部分展开介绍。

03

【python的魅力】：教你如何用几行代码实现文本语音识别

语音识别技术，也被称为自动语音识别，目标是以电脑自动将人类的语音内容转换为相应的文字和文字转换为语音。

01

—个主动设计agent

从人类大脑只跟环境交互就设计算法的方式（例如，语音和对象识别、骑自行车等）中获得灵感

02

谷歌公司开发出高速、离线语音识别技术

据科技资讯网站zdnet（www.zdnet.com）报道，谷歌开发出了可在未联网的Nexus 5智能手机上实时运行的语音识别系统。该系统无需通过远程数据中心进行运算，所以在没有可靠网络的情况下亦可通过智能手机、智能手表或其他内存有限的电子设备使用语音识别功能。谷歌的科研人员表示，研发该系统的目的是创建在本地运行的轻量级、嵌入式、准确度高的语音识别系统。轻量级是指这套系统仅20.3MB，而在搭载2.26GHz CPU和2GB内存的Nexus 5上测试时，系统在开放式听写任务中的错误率仅为13.5%。当然

05

横评：五款免费开源的语音识别工具

编者按：本文原作者 Cindi Thompson，美国德克萨斯大学奥斯汀分校（University of Texas at Austin）计算机科学博士，数据科学咨询公司硅谷数据科学（Silicon Valley Data Science，SVDS）首席科学家，在机器学习、自然语言处理等领域具有丰富的学术研究和产业界从业经验。AI 研习社编译。作为 SVDS 研究团队的成员，我们会经常接触各种不同的语音识别技术，也差不多见证了语音识别技术近几年的发展。直到几年之前，最先进的语音技术方案大多都是以语音为

GPU解码提升40倍，英伟达推进边缘设备部署语音识别，代码已开源

这篇论文提出了一种经过优化的加权式有限状态变换器（WFST/ weighted finite-state transducer）解码器，能够使用图像处理单元（GPU）实现对音频数据的在线流处理和离线批处理。这种解码器能高效利用内存、输入/输出带宽，并为最大化并行使用了一种全新的维特比（Viterbi）实现。内存节省让该解码器能比之前处理更大的图，同时还能支持更多数量的连续流。对 lattice 段进行 GPU 预处理能让中间 lattice 结果在流推理期间返回给请求者。

01

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐，实际上已经初步具备了端到端的声学模型建模能力。但是CTC模型进行声学建模存在着两个严重的瓶颈，一是缺乏语言模型建模能力，不能整合语言模型进行联合优化，二是不能建模模型输出之间的依赖关系。RNN-Transducer针对CTC的不足，进行了改进，使得模型具有了端到端联合优化、具有语言建模能力、便于实现Online语音识别等突出的优点, 更加适合语音任务，值得引起大家的重视。

02

专栏 | 极限元CTO温正棋谈语音质检方案：从关键词检索到情感识别

机器之心专栏作者：温正棋极限元智能科技本文作者温正棋为极限元智能科技 CTO 、中国科学院自动化研究所副研究员，毕业于中国科学院自动化研究所，先后在日本和歌山大学和美国佐治亚理工学院进行交流学习，在国际会议和期刊上发表论文十余篇，获得多项关于语音及音频领域的专利。其「具有个性化自适应能力的高性能语音处理技术及应用」获得北京科学技术奖。在语音的合成、识别、说话人识别等领域都有着多年深入研究经验，并结合深度学习技术开发了多款语音应用产品。为了提高客户满意度、完善客户服务，同时对客服人员工作的考评，很多企

NLP入门之语音模型原理

这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们

系统调研450篇文献，微软亚洲研究院推出超详尽语音合成综述

编者按：语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向，受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史，基于神经网络的语音合成技术也有近十年历史，且已产出了大量的优质研究成果，但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日，微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献，发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中，研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等，同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。

02

微软歌声合成算法HIFISINGER论文解读

论文题目： HIFISINGER: TOWARDS HIGH-FIDELITY NEURAL SINGING VOICE SYNTHESIS 摘要高保真的歌声需要高的采样频率。高采样必定导致更宽的频率带和更长的波形序列，给歌声合成模型带来困难。 hifisinger是采用48kHZ的采样频率。它包括基于自然语音的fastSpeech和并行的声码器WaveGAN，在声学模型和声码器中引入了多尺度对抗训练，以改善歌唱建模。 sub-frequency GAN 来生成梅尔声谱图，并将80维的mel频率分成多个

00

离线环境的中文语音识别 paddlepaddle 与 Speech_Recognition（Sphinx）实践

本文主要针对中文语音识别问题，选用常用的模型进行离线 demo 搭建及实践说明。

01

Facebook发布部署在CPU上的高效、实时文本转语音系统，速度提高160倍

作者 | Qing He、Thilo Koehler、Antony D’Avirro、Chetan Gupta

02

业界 | 苹果机器学习期刊「Siri三部曲」之一：通过跨带宽和跨语言初始化提升神经网络声学模型

选自苹果期刊作者：Siri Team 机器之心编译参与：路雪、黄小天近日，苹果 Siri 团队在苹果机器学习期刊上连发三文：《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》、《Inverse Text Normalization as a Labeling Problem》、《Deep Learning for Siri‘s Voice: On-device De

06

语音识别基础学习与录音笔实时转写测试

小编所在项目中，C1、C1Pro、C1Max录音笔，通过BLE和APP连接，音频文件实时传输到录音助手App端，具备实时录音转写的功能。工欲善其事必先利其器，小编补习了语音识别相关基础知识，对所测试应用的实时转写业务逻辑有了更深的认识。希望对语音测试的小伙伴们也有所帮助~~(●—●)

02

深度 | 苹果揭秘“Hey Siri”的开发细节，原来不仅有两步检测，还能辨别说话人

AI科技评论按：苹果的新一期机器学习开发日记来了~ 这次苹果介绍了通过讲话就能唤醒Siri的“Hey Siri”功能是如何从技术上实现的，同时也介绍了为了从用户体验角度改善“Hey Siri”的表现，苹果的工程师们都做了哪些取舍和调整。与之前的文章一样，苹果的产品开发中并没有令人震惊的新技术，但严谨、细致、以用户为中心打磨产品的态度是自始至终的。AI 科技评论编译如下： iOS设备上的“Hey Siri”功能可以让用户无需接触设备就唤醒Siri。在iOS设备上，有一个非常小的语音识别器一直在运行着，就等

06

高保真音色媲美真人，StyleTTS为QQ浏览器「听书」语音注入情感

今年 4 月，QQ 浏览器宣布「小说频道」正式变更为「免费小说」频道，这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载，其阅读方式也随之几经改变。

02

大幅提升ASR系统识别准确率：云从科技语义纠错模型解析

近些年来，随着自动语音识别（ASR）技术的发展，识别准确率有了很大的提升。但是，在ASR转写结果中，仍然存在一些对人类来说非常明显的错误。我们并不需要听音频，仅通过观察转写的文本便可发现。对这类错误的纠正往往需要借助一些常识和语法知识，甚至推理的能力。

01

拼写、常识、语法、推理错误都能纠正，云从提出基于BART的语义纠错方法

近些年来，随着自动语音识别（ASR）技术的发展，识别准确率有了很大的提升。但是，在 ASR 转写结果中，仍然存在一些对人类来说非常明显的错误。我们并不需要听音频，仅通过观察转写的文本便可发现。对这类错误的纠正往往需要借助一些常识和语法知识，甚至推理的能力。得益于最近无监督预训练语言模型技术的发展，基于纯文本特征的纠错模型可以有效地解决这类问题。

04

机器语音识别技术发展脉络概览 | 文末有彩蛋

通常我们说到语音识别技术的时候，指的是整个语音对话系统，如图所示，语音对话系统通常包括四个主要组成部分的一个或多个：语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。所有这些部分对建立一个成功的语音对话系统都是很关键的。

02

[深度学习概念]·主流声学模型对比

语音识别建模对语音识别来说是不可或缺的一部分，因为不同的建模技术通常意味着不同的识别性能，所以这是各个语音识别团队重点优化的方向。也正是因为如此，语音识别的模型也层出不穷，其中语言模型包括了N-gram、RNNLM等，在声学模型里面又涵盖了HMM、DNN、RNN等模型...

02

语音识别技术的发展与未来趋势：深度学习、端到端建模与多模态融合

语音识别（Speech Recognition）技术是指将口述或语音信号转化为文本或命令的自动化过程。随着深度学习技术的快速发展，语音识别取得了长足的进步，成为人机交互、智能助理和语音控制等领域的核心技术之一。本文将详细介绍语音识别技术的发展历程，重点介绍了深度学习、端到端建模以及多模态融合等技术在语音识别领域的应用，并展望了未来的发展趋势。

05

NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗？一文总结语音识别必备经典模型（一）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 3 期进行连载，共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。第 1 期：NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN

02

语音识别调研报告

语音识别调研报告一、语音识别：(Automatic Speech Recognition,ASR) - 应用：语音识别是为了让计算机理解自然语言。 - 中文语音识别的关键点：1.句到词的分解，词到音节的分解；2.语音的模糊性，如多音字问题；3.词在不同语境中不同；4.环境噪声的印象。 - 处理的核心步骤： - - 1. 音频处理：消除噪声，让信号更能反映语音的本质特征。 - - 2. 声学特征提取：MFCC、Mel等 - - 3. 建立声学模型和语言模型：语音识别由这两种模型组成。二、语音识

04

人人都能看懂的AIoT开发

自2017年开始，“AIoT”一词便开始频频刷屏，成为物联网的行业热词。“AIoT”即“AI+IoT”，指的是人工智能技术与物联网在实际应用中的落地融合。当前，已经有越来越多的人将AI与IoT结合到一起来看，AIoT作为各大传统行业智能化升级的最佳通道，已经成为物联网发展的必然趋势。本场chat我们一起学习什么是AIoT，如何入门AIoT开发，在人工智能物联网时代来临之前做好知识储备。

05

语音识别——ANN加餐

智能语音相关介绍

语音是指人类通过发音系统，包括肺部、气管、喉部声门和声带、咽腔、口腔、鼻腔等，发出的在空气中传播的、具有一定意义的声音，是语言的声音形式，是人人交流中最主要的信息载体。另外，通过让机器能听会说，语音也成为人机交互的重要入口。

01

NLP系列学习：基于Markov的拼音汉字转换方法

这里最主要的是依靠两个模型：声学模型和语言模型，声学模型接收我们说话的音频，输出的结果为拼音，而从拼音转换到文字，这个就需要语言模型来进行操作。也就是这一篇文章的核心，基于马尔可夫的拼音文字转换方法。

01

python语音唤醒-pocketsph

地址：https://pypi.org/project/pocketsphinx/

02

从不温不火到炙手可热：语音识别技术简史

【导读】语音识别自半个世纪前诞生以来，一直处于不温不火的状态，直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高，虽然还无法进行无限制领域、无限制人群的应用，但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状，并分析一些未来趋势，希望能帮助更多年轻技术人员了解语音行业，并能产生兴趣投身于这个行业。

03

DCASE 2020权威声学比赛：腾讯多媒体实验室斩获双项指标国内第一

近日，在第六届国际权威声学场景和事件检测及分类竞赛 (Detection and Classification of Acoustic Scenes and Events, DCASE2020) 中，腾讯多媒体实验室天籁音频研究团队首次参加了声学场景识别 (Acoustic Scene Classification,Task 1) 任务竞赛，并从47支来自全球顶尖学术界和工业界的声学研究队伍中脱颖而出，取得双项指标国内第一、国际第二的成绩。此次参赛是腾讯多媒体实验室领衔美国佐治亚理工大学信号与

10小时训练数据打造多语种语音识别新高度

本文联合撰写：腾讯：吕志强，颜京豪，胡鹏飞，康健，阿敏巴雅尔导语｜在刚刚结束的NIST OPENASR评测中，TEG AI语音联合清华大学，刷新世界小语种语音识别比赛6项第一。从2000年开始，NIST组织的RT（英文语音识别），LRE（语音语种识别），SRE（语音说话人识别），OPENKWS（语音关键词识别）等比赛一直是语音届的标杆竞赛，其组织比赛方向也可以看出目前学术和工业界的语音研究发展方向。长期以来，NIST组织的语音比赛受到了来自世界一线的研究单位支持与参与。而2020年新增的OPENASR

01

EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗？一文总结语音识别必备经典模型（二）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 3 期进行连载，共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。第 1 期：NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN

01

从GMM-HMM到DNN-HMM

首先，如下图所示是一个常见的语音识别框架图，语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。这里我们要探讨的GMM-HMM模型属于其中的声学模型。

03

王尔玉：语言与语义识别的技术发展与趋势

12月15日，由腾讯云主办的首届“腾讯云+社区开发者大会”在北京举行。本届大会以“新趋势•新技术•新应用”为主题，汇聚了超40位技术专家，共同探索人工智能、大数据、物联网、小程序、运维开发等热门技术的最新发展成果，吸引超过1000名开发者的参与。以下是大数据AI分会场的演讲内容，稍作整理，分享给大家。

01

微信智能语音服务上线，集成语音识别、语音合成、声纹识别等功能

编辑导语近日，腾讯云正式上线智能语音服务。智能语音是由腾讯微信AI团队自主研发的语音处理技术，可以满足语音识别、语音合成、声纹识别等需求。这是继微信支付提速、微信公众号CDN加速、微信公众号安全护航等一系列动作之后，腾讯云联合微信发布的又一重大举措。腾讯云智能语音服务将以强大的垂直领域定制化服务，打造专业高效的语音大脑。一、识别率行业领先云端+嵌入式开放语音作为继键盘、鼠标、触屏之后人机交互的新体验，其识别技术被广泛应用在呼叫中心、网络搜索、智能终端、移动应用、人工智能等各大领域。腾讯云平台联合微

08

学界 | 5.5%语音识别词错率究竟如何炼成？IBM发布相关研究论文

选自arXiv 机器之心编译参与：晏奇、吴攀语音识别是人工智能领域所研究的核心问题之一，研究者一直以来都在竞相努力以期能首先达到比肩人类的里程碑。去年十月，微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了和专业速录员相当甚至更低的词错率（WER）——达到了 5.9%。而前两天，IBM 官方博客却发文宣称人类的水平实际上应该是 5.1%，同时该文章还表示 IBM 的系统的词错率已经超越了之前微软报告的最佳水平，达到了 5.5%，实现了新突破。详见机器之心报道《IBM 宣称人类语音

真国风 AI 虚拟人！腾讯艾灵学会作诗书法新技能，以假乱真的那种

5月21日，腾讯AI虚拟人艾灵再秀出新技能，首次展示AI作诗、AI书法等国风才艺，并与青年歌手白举纲跨次元合作，共同演唱国风新歌《百川千仞》。

02

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

连政，中国科学院自动化研究所模式识别国家重点实验室16级硕博生。目前研究兴趣为多模态情感识别、语音合成和语音转换。

04

小米和西工大联手，三篇论文被Interspeech接收

翻译 | 林椿眄编辑 | 阿司匹林出品 | 人工智能头条（公众号ID：AI_Thinker）小米和西北工业大学的“交情”不浅。去年 7 月，小米和西工大计算机学院的谢磊教授合作，在 arXiv 上提交了一篇端对端的语音识别论文。（详见文章《小米首次公开发表论文：基于注意力机制的端对端语音识别》）如今，小米和谢磊教授的合作更进一步，在今年 3 月一口气发表了三篇论文，都是智能语音方向的热门题目，可见小米对语音的重视。谢磊教授表示，目前这三篇论文均已被语音领域的顶会 Interspeech 接收。下

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭