开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

DeepSpeech导致糟糕的结果

DeepSpeech是一个开源的自动语音识别（ASR）引擎，它基于深度学习技术，旨在将语音转换为文本。然而，由于语音识别是一个复杂的任务，DeepSpeech在某些情况下可能导致糟糕的结果。

DeepSpeech导致糟糕结果的可能原因包括：

数据质量：语音识别的准确性与训练数据的质量密切相关。如果训练数据集中存在噪音、口音、语速变化等问题，DeepSpeech可能无法准确地识别语音并产生糟糕的结果。
模型训练：DeepSpeech的性能取决于模型的训练过程。如果模型的训练参数选择不当、训练数据不足或训练过程中存在错误，可能导致糟糕的结果。
语音多样性：不同人的语音特征各异，包括音调、音频质量、发音习惯等。如果DeepSpeech的模型没有充分考虑到这些多样性，它可能无法准确地识别特定人的语音，从而导致糟糕的结果。
上下文理解：语音识别需要考虑上下文信息来更好地理解语音内容。如果DeepSpeech的模型无法准确捕捉到上下文信息，它可能会产生错误的结果。

为了改善DeepSpeech的结果，可以采取以下措施：

数据预处理：对训练数据进行预处理，包括去除噪音、标准化音频质量、平衡口音和语速变化等，以提高数据质量。
模型调优：通过调整模型的训练参数、增加训练数据量、使用更高级的模型架构等方式来改善模型的性能。
上下文建模：引入语言模型来帮助DeepSpeech更好地理解上下文信息，提高识别准确性。
迭代优化：通过不断收集用户反馈并进行模型迭代优化，逐步改善DeepSpeech的性能。

腾讯云提供了一系列与语音识别相关的产品和服务，例如：

语音识别（ASR）：提供高准确率的语音识别服务，支持多种语言和场景，可广泛应用于语音转写、语音搜索、智能客服等领域。
语音合成（TTS）：将文本转换为自然流畅的语音输出，可用于语音助手、语音导航、智能对话等场景。
语音唤醒（Wake-up）：实现设备被唤醒并响应特定指令的功能，适用于智能音箱、智能家居等场景。

这些产品和服务可以帮助开发者在云计算环境下实现高质量的语音识别和相关应用。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

1400小时开源语音数据集，你想要都在这儿

3 月 1 日，由 Mozilla 基金会发起的 Common Voice 项目，发布新版语音识别数据集，包括来自 42000 名贡献者，超过 1400 小时的语音样本数据，涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。

01

深度学习动手入门：GitHub上四个超棒的TensorFlow开源项目

问耕编译自 Source Dexter 量子位出品 | 公众号 QbitAI 作者简介：akshay pai，数据科学工程师，热爱研究机器学习问题。Source Dexter网站创办人。 TensorFlow是Google的开源深度学习库，你可以使用这个框架以及Python编程语言，构建大量基于机器学习的应用程序。而且还有很多人把TensorFlow构建的应用程序或者其他框架，开源发布到GitHub上。这次跟大家分享一些GitHub上令人惊奇的TensorFlow项目，你可以直接在你的应用中使用，或者

09

Mozilla开源语音识别模型和世界第二大语音数据集

摘要总结：Mozilla开源语音识别模型和世界第二大语音数据集，以帮助研究人员进行语音识别研究。其中包括DeepSpeech项目，一个由Mozilla开发的语音到文本转换引擎，以及Common Voice项目，这是一个由全球公众贡献的语音数据集。

00

DeepSpeech源码编译及语音识别效果复现

DeepSpeech是国内百度推出的语音识别框架，目前已经出来第三版了。不过目前网上公开的代码都还是属于第二版的。

02

基于PaddlePaddle语音识别模型

本项目是基于PaddlePaddle的DeepSpeech项目修改的，方便训练中文自定义数据集。

02

语音识别系列︱paddlehub的开源语音识别模型测试（二）

这一篇开始主要是开源模型的测试，百度paddle有两个模块，paddlehub / paddlespeech都有语音识别模型，这边会拆分两篇来说。整体感觉，准确度不佳，而且语音识别这块的使用文档写的缺胳膊少腿的；使用者需要留心各类安装问题。

02

资源 | Mozilla开源语音识别模型和世界第二大语音数据集

选自Mozilla 机器之心编译参与：刘晓坤 Mozilla 对语音识别的潜能抱有很大期望，但这一领域目前仍然存在对创新的明显阻碍，这些挑战激发这家公司启动了 DeepSpeech 项目和 Common Voice 项目。近日，他们首次发布了开源语音识别模型，其拥有很高的识别准确率。与此同时，这家公司还发布了世界上第二大的公开语音数据集，该数据集由全球将近 20000 人所贡献。开源语音识别模型：https://hacks.mozilla.org/2017/11/a-journey-to-10-word

08

解读 | 起底语音对抗样本：语音助手危险了吗？

机器之心原创作者：邱陆陆想要让深度学习系统走向大街小巷、走进千家万户，就要在算法研发阶段给出系统的鲁棒性检验。对于图像对抗性攻击的讨论正是如火如荼，攻防双方都是妙手频出的状态。例如，来自 MIT 和 UC Berkeley 的两位博士生，Anish Athalye 和 Nicholas Carlini 就接连攻破了 7 篇 ICLR 2018 接收的对抗防御文章，指出，你们的防御策略不过都是基于「混淆梯度」（obfuscated gradient）现象的「虚假安全感」。虽然 Ian Goodfellow

06

飞桨开发者又出新工具！让AI也能听懂你的话

PPASR是飞桨社区开发者夜雨飘零开发的一款基于飞桨实现的语音识别工具，简单实用，可识别中文语音，可部署在服务器、Nvidia Jetson设备，未来还计划支持Android等移动设备。

02

PPASR流式与非流式语音识别

本项目将分三个阶段分支，分别是入门级、进阶级和最终级分支，当前为最终级，持续维护版本。PPASR中文名称PaddlePaddle中文语音识别（PaddlePaddle Automatic Speech Recognition），是一款基于PaddlePaddle实现的语音识别框架，PPASR致力于简单，实用的语音识别项目。可部署在服务器，Nvidia Jetson设备，未来还计划支持Android等移动设备。

01

学界 | 深度梯度压缩：降低分布式训练的通信带宽

选自arXiv 机器之心编译参与：Panda ICLR 2018 将在当地时间明年 4 月 30 日～5 月 3 日在加拿大温哥华举办。目前正处于评审阶段的会议论文也正陆续公开。近日，机器之心发现了这样一篇有望极大改善分布式训练效率的研究论文。以下是我们对该论文的摘要介绍。大规模分布式训练可以提升越来越深和越来越大的模型的训练效率（Chilimbi et al., 2014; Xing et al., 2015; Moritz et al., 2015; Zinkevich et al., 2010）。

基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型

本项目是基于PaddlePaddle的DeepSpeech 项目开发的，做了较大的修改，方便训练中文自定义数据集，同时也方便测试和使用。DeepSpeech2是基于PaddlePaddle实现的端到端自动语音识别（ASR）引擎，其论文为《Baidu’s Deep Speech 2 paper》，本项目同时还支持各种数据增强方法，以适应不同的使用场景。支持在Windows，Linux下训练和预测，支持Nvidia Jetson等开发板推理预测。

01

语音识别系列︱paddlespeech的开源语音识别模型测试（三）

参考：语音识别系列︱用python进行音频解析（一）语音识别系列︱paddlehub的开源语音识别模型测试（二）

02

百度推SwiftScribe自动速记工具，1小时音频20分钟搞定

△ SwiftScribe 王新民编译整理量子位·QbitAI 出品百度昨天宣布推出SwiftScribe，一个利用人工智能（AI）技术，快速将录音转成文字的免费工具。 SwiftScribe可以播放音频，并且支持调整音频播放速度，用户可以边听音频边对自动转写的文字进行校对编辑。编辑完成后，可以将文字导出成纯文本或Word文档。 SwiftScribe页面上显示，这一工具是由百度美国推出的。百度美国包括百度自动驾驶部门（ADU）、百度研究院和百度USDC。百度新推出的这个工具，和国内科大讯飞的录

DeepMind推出GAN-TTS：用生成对抗网络实现高保真语音

人类梦想让文字说话已经有好几个世纪的历史了。你可能没想到，其实在1968年，日本的电机技术实验室由Noriko Umeda和他的同伴开发了第一个完整的英语语音转换系统（Text-To-Speech，简称TTS）。

02

实战：基于tensorflow 的中文语音识别模型 | CSDN博文精选

目前网上关于tensorflow 的中文语音识别实现较少，而且结构功能较为简单。而百度在PaddlePaddle上的 Deepspeech2 实现功能却很强大，因此就做了一次大自然的搬运工把框架转为tensorflow….

01

语音识别取得了两个里程碑进展 Mozilla发布开源语音识别模型和语音数据集

技术的进步推动了语音界面的发展，通过机器学习工具的普及，使得更多的互联网连接产品能够比以往任何时候都更能倾听和回应我们的声音。许多人将会体验到新的语音设备带来的便利。 Mozilla（缩写MF或MoF

04

2017年度盘点：15个最流行的GitHub机器学习项目

在本文中，作者列出了 2017 年 GitHub 平台上最为热门的知识库，囊括了数据科学、机器学习、深度学习中的各种项目，希望能对大家学习、使用有所帮助。 GitHub 是计算机科学领域最为活跃的社区

盘点：今年GitHub上最火的15个机器学习项目

在本文中，作者列出了 2017 年 GitHub 平台上最为热门的知识库，囊括了数据科学、机器学习、深度学习中的各种项目，希望能对大家学习、使用有所帮助。 GitHub 是计算机科学领域最为活跃的社区，在 GitHub 上，来自不同背景的人们分享越来越多的软件工具和资源库。在其中，你不仅可以获取自己所需的工具，还可以观看代码是如何写成并实现的。作为一名机器学习爱好者，作者在本文中列出了 2017 年 GitHub 平台上最为热门的知识库，其中包含了学习资料与工具。希望对你的学习和研究有所帮助。目录学习

08

学界 | 英特尔提出新型压缩技术DeepThin，适合移动端设备深度神经网络

选自arXiv 作者：Matthew Sotoudeh等机器之心编译参与：路雪近日，英特尔的研究者提出新型深度神经网络压缩技术 DeepThin，适合移动端设备，性能优于其他压缩技术。论文：D

05

适合移动端的压缩神经网络压缩技术:DeppThin

英特尔的研究者提出新型深度神经网络压缩技术 DeepThin，适合移动端设备，性能优于其他压缩技术。

03

GitHub上15 个优秀开源项目告诉你如何上手数据科学！

关键时刻，第一时间送达！作为一名狂热的数据科学爱好者，本文作者整理了 2017 年 Github 上尤为实用的数据科学资源，希望和大家共同学习。 📷 学习资源 Awesome Data Science 这个 GitHub 库是数据科学的终极资源指南。多年来，它建立在各种各样的贡献之上，包括入门指南、信息图、以及人们在 Twitter，Facebook，Instagram 等社交网站上关注的学习内容。无论你是刚刚入门的新手还是经验丰富的数据科学家，都有很多资源可供参考学习。目录如下： 📷 项目地址：ht

05

Mozilla发布最大公共语音数据集Common Voice

https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/

03

2017年度盘点：15个最流行的GitHub机器学习项目

作者：Sunil Ray 在本文中，作者列出了 2017 年 GitHub 平台上最为热门的知识库，囊括了数据科学、机器学习、深度学习中的各种项目，希望能对大家学习、使用有所帮助。另，小编恬不知耻地把机器之心的 Github 项目也加了进来，求 star，求 pull requests。 GitHub 是计算机科学领域最为活跃的社区，在 GitHub 上，来自不同背景的人们分享越来越多的软件工具和资源库。在其中，你不仅可以获取自己所需的工具，还可以观看代码是如何写成并实现的。作为一名机器学习爱好者，作者在

08

ICLR 2020 | 使用GAN进行高保真语音合成

本文是对 ICLR 2020 论文《High Fidelity Speech Synthesis with Adversarial Networks》的解读，论文作者来自谷歌。

01

2017年度盘点：15个最流行的GitHub机器学习项目

06

2017年度盘点：15个最流行的GitHub机器学习项目

选自Analytics Vidhya 作者：Sunil Ray 机器之心编译在本文中，作者列出了 2017 年 GitHub 平台上最为热门的知识库，囊括了数据科学、机器学习、深度学习中的各种项目，希望能对大家学习、使用有所帮助。另，小编恬不知耻地把机器之心的 Github 项目也加了进来，求 star，求 pull requests。 GitHub 是计算机科学领域最为活跃的社区，在 GitHub 上，来自不同背景的人们分享越来越多的软件工具和资源库。在其中，你不仅可以获取自己所需的工具，还可以观看代

06

2017数据科学领域15大热门GitHub项目

-欢迎加入AI技术专家社群>> GitHub现在不再仅仅是一个软件寄存管理器，而是软件工程师通过它来共享他们自己开发的工具/库，甚至这些资源对一些公司都很重要。作为一名狂热的数据科学爱好者，我总结了一系列在2017年尤为出名的知识库！ 1.学习资源 1.1:Awesome Data Science：这个GitHub是数据科学的资源指南，它是建立在多年来的积累贡献，从引导指南、信息图表到人们在Twitter，Facebook，Instagram等社交网站上的资源链接，其中有很多资源可供观看，无论是否你是初

08

独家 | 这15个最热门的GitHub库你不可错过！

原文标题：15 Trending Data Science GitHub Repositories you can not miss in 2017 作者：SUNIL RAY 翻译：杨金鸿校对：闵黎本文长度为3400字，建议阅读5分钟本文为你分享2017年最热门的GitHub项目列表。简介 GitHub最初的只是一个控制软件版本的工具，如今已经发展成为由来自不同背景的GitHub使用者共享他们自己开发的工具/库，甚至是有用代码库。 GitHub是一座蕴藏了丰富资源的知识宝库，您不仅可以看到最优

08

2017年度GitHub上最热门的开源项目

又到了公布GitHub上热门项目的时候啦~在2017年的排行中，又有哪些新的项目挤进热门榜单了呢呢，一起来看看？ 1 Web 应用打包工具 parcel https://github.com/parcel-bundler/parcel Star 14.2K Parcel 是一款极速、零配置的 Web 应用打包工具。具有以下功能特性： ● 极速打包 - 多核心编译，以及即使在重启后也能快速重建的文件系统缓存。 ● 无需安装插件，开箱即用，支持 JS、CSS、HTML、file assets 等。 ● 在有需要

05

一次性推荐 GitHub上13款开源项目

又收集了多个 GitHub 上热门项目，又有哪些新的项目挤进今天的推荐呢，一起来看看？

04

Sharded:在相同显存的情况下使pytorch模型的参数大小加倍

深度学习模型已被证明可以通过增加数据和参数来改善。即使使用175B参数的Open AI最新GPT-3模型，随着参数数量的增加，我们仍未看到模型达到平稳状态。

02

ICLR 2018 | 清华&斯坦福提出深度梯度压缩DGC，大幅降低分布式训练网络带宽需求

选自arXiv 作者：林宇鋆、韩松等机器之心编译参与：刘晓坤来自清华大学和斯坦福大学的研究者们发现，分布式随机梯度下降训练中 99.9% 的梯度交换都是冗余的——通过他们提出的深度梯度压缩（DGC）方法，神经网络训练可以大幅降低通信带宽需求。在多个基准模型上的对比实验表明，该方法可以在不降低准确率的情况下达到 270 倍到 600 倍的梯度压缩率，使得小带宽甚至移动设备上的大规模分布式训练变为可能。作者简介林宇鋆是清华大学电子工程系 NICS 实验室 2014 级本科生，于 2017 年暑假在斯坦

08

语音识别方法汇总与实例搭建

文章目录语音识别语音识别过程预处理：语音信号预处理—提取语音MFCC特征工具Kaldi DeepSpeech wav2letter 端到端语音识别语音识别自动语音识别技术(AUTOMATIC SPEECH RECOGNITION, ASR)是一种将人的语音转换为文本的技术。语音识别作为一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别近年来受关注度不断提升，相关技术广泛用于家用电器和电子设备，如智能音箱、声控遥控器

01

ROS机器人操作系统资料与资讯（2018年12月）

我们的ROS 2发行版，他们成长得如此之快。随着Crystal Clemmys的发布，我们也告别了Ardent Apalone，它将退出191个包装，而Crystal正在推出近300个（精确到297个）！

01

【Rust日报】2022-03-05 Onefetch

Onefetch是一个用Rust编写的命令行Git信息工具，它直接在终端上显示本地Git存储库的项目信息和代码统计信息。

01

Github项目推荐 | Cheetah - 基于深度学习的设备端语音转文本引擎

Cheetah - On-device speech-to-text engine powered by deep learning

02

PPASR语音识别（进阶级）

本项目将分三个阶段分支，分别是入门级、进阶级和最终级分支，当前为进阶级，随着级别的提升，识别准确率也随之提升，也更适合实际项目使用，敬请关注！

02

GitHub 发布 2018 年开源项目趋势

去年，Github 有来自将近 200 个国家的 2400 万的开发者聚集在一起，共同编写更好更强大的代码。2017 年，从框架到数据可视化，共构建了 2500 多万个存储库，今年的数据似乎还会有所上

05

痛的不止“芯”，如果有一天，这些基础架构对中国闭源……

如果MySQL等基础架构对中国闭源，互联网行业是否还能正常运转？近日，有消息称美国政府要求谷歌对中兴手机关闭Andriod操作系统。之后，甚至有人设想，如果MySQL等互联网基础架构也对中国用户闭源，会有什么样的后果。毕竟，中美在高新科技领域的差距，不仅体现在芯片上，还体现在互联网基础架构上。我们用的手机操作系统、上网浏览的网页、用的各种app……这些互联网产品背后都有许多最基础的架构在支撑。而我国开发者开发这些互联网产品时，大都使用的国外开源基础架构。图 | MySQL开源项目绝对优势的开源软件几

02

离线环境的中文语音识别 paddlepaddle 与 Speech_Recognition（Sphinx）实践

本文主要针对中文语音识别问题，选用常用的模型进行离线 demo 搭建及实践说明。

01

百度新突破：AI同声传译系统STACL，可预测，低延迟

百度开发了新的AI系统，名为同声传译和预期与可控延迟（STACL），百度声称这代表了自然语言处理的重大突破。

00

教程 | 如何使用TensorFlow构建、训练和改进循环神经网络

选自SVDS 作者：Matthew Rubashkin、Matt Mollison 机器之心编译参与：李泽南、吴攀来自 Silicon Valley Data Science 公司的研究人员为我们展示了循环神经网络（RNN）探索时间序列和开发语音识别模型的能力。目前有很多人工智能应用都依赖于循环深度神经网络，在谷歌（语音搜索）、百度（DeepSpeech）和亚马逊的产品中都能看到RNN的身影。然而，当我们开始着手构建自己的 RNN 模型时，我们发现在使用神经网络处理语音识别这样的任务上，几乎没有简单直

09

揭示软件开发中糟糕代码的成本

糟糕的代码一直是一个昂贵的问题。自 1980 年代以来，研究人员发现，在交付后修复问题的成本可能比早期识别和解决错误高出 100 倍。二十年后，国家标准与技术研究所估计，部署后的糟糕代码成本高出 30 倍。

01

PHP没你想的那么差

作者 | Iain Cambridge 译者 | 张健欣策划 | 刘燕 PHP 现在名声很糟糕，因为它曾经是“可怕”的。本文试着回答一些常见的关于 PHP 的断言，目的是向非技术人员解释，PHP 并不像许多人所说的那么糟糕。 1它是不是鼓励糟糕的实践？不再是了。过去，许多开发者被书本教授非常糟糕的实践，因此 PHP 代码的质量非常差。PHP 曾经还允许你做一些非常奇怪的事情，使得它非常容易构建，但维护起来却是一场噩梦。这些不再是常见的问题。随着高质量学习材料的引入，这些材料易学且易获取，一名新的开发

04

语音识别的一些开源项目整理

工具特点：支持多个语音任务，支持多个ASR端到端系统，当前最活跃的语音开源社区，是第三代端到端ASR系统的典型代表。

03

基于黑盒语音识别系统的目标对抗样本

编译 | 姗姗出品 | 人工智能头条（公众号ID：AI_Thinker）【人工智能头条按】谷歌大脑最近研究表明，任何机器学习分类器都可能被欺骗，给出不正确的预测。在自动语音识别（ASR）系统中，深度循环网络已经取得了一定的成功，但是许多人已经证明，小的对抗干扰就可以欺骗深层神经网络。而目前关于欺骗 ASR 系统的工作主要集中在白盒攻击上，Alzantot 等人证明利用遗传算法的黑盒攻击是可行的。而在接下来为大家介绍的这篇加州大学伯克利分校机器学习团队的论文中，引入了一个新的黑盒攻击领域，特别是在深层

03

基于黑盒语音识别系统的目标对抗样本

AI 科技大本营按：谷歌大脑最近研究表明，任何机器学习分类器都可能被欺骗，给出不正确的预测。在自动语音识别（ASR）系统中，深度循环网络已经取得了一定的成功，但是许多人已经证明，小的对抗干扰就可以欺骗深层神经网络。而目前关于欺骗 ASR 系统的工作主要集中在白盒攻击上，Alzantot 等人证明利用遗传算法的黑盒攻击是可行的。

02

优思学院｜精益管理学会：七大浪费是什么？｜CLMP

精益生产管理的理念中，我们可以将使产品成本增加的浪费分成一至四次，以突显出需要改善之处。主要可以分成：

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭