首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >比 OpenAI 更好!!谷歌发布 20 亿参数通用语音模型——USM

比 OpenAI 更好!!谷歌发布 20 亿参数通用语音模型——USM

作者头像
AI科技大本营
发布于 2023-04-06 06:10:49
发布于 2023-04-06 06:10:49
7010
举报

整理 | 禾木木       责编 | 王子彧

出品 | CSDN(ID:CSDNnews)

去年11月,谷歌曾宣布“1000 种语言计划”,通过建立一个机器学习模型,从而支持世界上使用人数最多的 1000 种语言。

近日,谷歌正式发布 20 亿参数通用语音模型——USM,可支持 100 多种语言自动识别内容检测。谷歌将其描述为“最先进的通用语音模型”,拥有 20 亿个参数,经过了 1200 万小时的语音、280 亿个句子和 300 多个语种数据集的预训练。

目前该模型在 Youtube 的字幕生成中已展现出来,可自动翻译和检测,如英语、普通话,甚至是阿塞拜疆语、阿萨姆语等小众语言。

谷歌表示:“与 OpenAI 的大型通用语音模型 Whisper 相比,USM 的数据训练时长更短,错误率更低。”

支持 100 多种语言,将面临两大挑战

随着微软和谷歌就 AI 聊天机器人展开讨论后,我们逐渐清楚,这并不是机器学习和大语言模型的唯一用途。

据传言,谷歌计划在今年的年度 I/O 大会上展示 20 多款由 AI 驱动的产品。为了实现“1000种语言计划”,谷歌表示他们目前需要解决自动语音识别(ASR)中的两大挑战。

一是传统的学习方法的缺乏可扩展性。将语音技术扩展到多语种的一个基本挑战便是需要足够的数据来训练高质量的模型,使用传统方法时,需要手动将音频数据进行标记,既耗时、价格又高。而对于那些小众冷门的语种,更难找到预先存在的来源收集。

二是在扩大语言覆盖范围和提高模型质量的同时,模型必须以高效的计算方法来改进。这就要求学习算法更加灵活、高效、可推广。这些算法需要使用来源广泛的数据,并在不用重复训练的情况下更新模型,再推广到新的语言中。

三个步骤降低错误率

据论文介绍,USM 使用的是标准的编码器-解码器架构,其中解码器是 CTC、RNN-T 或 LAS。编码器则使用的是 Conformer 或卷积增强 transformer。Conformer的关键组件是 Conformer 块,它由注意力模块、前馈模块和卷积模块组成。通过将语音信号的 log-mel 声谱图作为输入,进行卷积下采样,然后使用一系列的 Conformer 块和投影层得到最终的嵌入。

训练共分为三个步骤:

第一步,是使用 BEST-RQ 来对涵盖数百种语种的语音音频进行自我监督学习。

第二步,需要使用多目标监督预训练来整合来自于其他文本数据的信息。该模型引入了一个额外的编码器模块来输入文本,并引入额外层来组合语音编码器和文本编码器的输出,并在未标记语音、标记语音和文本数据上联合训练模型。

最后一步,需要 USM 对下游任务进行微调,包括 ASR(自动语音识别)和 AST(自动语音翻译)。

多项结果验证 YouTube Captions 上的多语言表现

谷歌通过预训练集成了 300 多种语言,并通过对 YouTube Captions 的多语言语音数据进行微调,证明了预先训练的编码器的有效性。

受监督的 YouTube 数据包括 73 种语言,平均每种语言的数据不到 3000 小时。尽管监督数据有限,但 USM 在 73 种语言中实现了小于 30% 的单词容错率(WER)。与当前内部最先进的模型相比,还要低 6%。与最近发布的大型模型 Whisper (large-v2)相比,USM 在 18 种语言中的错误率只有32.7%,同样低于 Whisper。

对下游 ASR 任务的可推广性

在公开可用的数据集上,USM 在 CORAAL (非裔美国人方言英语)、SpeechStew (en-US)和 FLEURS(102种语言)的数据集上的 WER 要比 Whisper 更低。不管是否接受过域内数据训练,USM 的 WER 都更低。

自动语音翻译(AST)

对于语音翻译,谷歌在 CoVoST 数据集上对 USM 进行微调。通过有限的监督数据达到了最佳性能。为了评估模型性能的广度,谷歌根据资源可用性将 CoVoST 数据集中的语言划分为高、中、低三种,并计算每个部分的 BLEU 得分(越高越好)。

如下图所示,USM 在所有细分领域的表现都优于 Whisper。

团队表示,谷歌的使命是整合全球信息并使人人皆可访问。而 USM 的开发便是实现这一使命的关键步骤。基于 USM 基础模型框架和训练 pipeline,未来谷歌可以将语音建模扩展至 1000 种语言。

结语

目前,USM 支持 100 多种语言。团队表示,谷歌的使命是整合全球信息并使人人皆可访问。

USM 的开发便是实现这一使命的关键步骤。

相信不久,谷歌可以将语音建模扩展至 1000 种语言。

参考链接:

https://analyticsindiamag.com/google-usm-shatters-language-barriers-with-multilingual-speech-recognition-model/

https://arxiv.org/abs/2303.01037

https://www.theverge.com/2023/3/6/23627788/google-1000-language-ai-universal-speech-model

https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
谷歌的野心:通用语音识别大模型已经支持100+语言
选自googleblog 机器之心编译 编辑:小舟、杜伟 谷歌表示,推出通用语音模型(USM)是其未来支持 1000 种语言的关键一步。 去年 11 月,谷歌宣布推出「1000 种语言计划」,旨在构建一个机器学习 (ML) 模型,支持世界上使用最广泛的 1000 种语言,从而为全球数十亿人带来更大的包容性。然而,其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。 现在,谷歌公开了更多有关通用语音模型 (USM) 的信息,这是支持 1000 种语言的第一步。USM
机器之心
2023/03/29
6350
谷歌的野心:通用语音识别大模型已经支持100+语言
再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译
---- 新智元报道   编辑:编辑部 【新智元导读】近日,谷歌正式发布了支持100多个语种的20亿参数通用语音模型——USM,正式对标OpenAI的开源Whisper。 上周,OpenAI发布的ChatGPT API和Whisper API,刚刚引动了一场开发者的狂欢。 3月6日,谷歌就推出了一款对标的模型——USM。不仅可以支持100多种语言,而且参数量也达到了20个亿。 当然了,模型依然没有对外开放,「这很谷歌」! 简单来说,USM模型在涵盖1200万小时语音、280亿个句子和300种不同语言
新智元
2023/03/29
5540
再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。
机器之心
2023/11/07
1.3K0
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据
基于文本的翻译系统已经取得了非常大的进步,从最早的查词匹配、语法规则,再到神经翻译系统、Transformer预训练等,翻译结果越来越精准,支持的互译语言数量也超过了200种。
新智元
2023/09/09
1.4K0
首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据
刚刚,OpenAI又发新货!3个新模型+1个新网站,语音识别比Whisper更强!
三个音频模型:gpt-4o-mini-tts(文字转语音),gpt-4o-transcribe 和 gpt-4o-mini-transcribe(语音转文字)。
AI进修生
2025/03/21
2000
刚刚,OpenAI又发新货!3个新模型+1个新网站,语音识别比Whisper更强!
每个人都能听懂你的话:Google 为语言障碍者开发专属ASR模型,错误率下降76%
目前有数百万人遭受语言障碍(speech impairments)的影响,根本原因主要是神经或遗传疾病导致的身体损伤、脑损伤或听力丧失。
新智元
2021/09/17
7310
Moonshine 用于实时转录和语音命令的语音识别 !
实时自动语音识别(ASR)对于许多应用至关重要,包括在演讲中的实时转录、听力障碍人士的辅助工具以及智能设备和可穿戴设备中的语音命令处理。这些应用通常直接在低成本硬件上运行,严格的资源约束和缺乏互联网连接带来了其他ASR领域所不存在的独特技术挑战。
AIGC 先锋科技
2024/11/11
7290
Moonshine 用于实时转录和语音命令的语音识别 !
ASR(语音识别)评测学习
小编新接触语音SDK项目,SDK无UI、底层调用多个C++算法库、提供的是AI服务。语音AI项目,识别效果是至关重要的一环,识别效果评测也是一项测试重点。为了制定一个专业、全面的效果评测的方案,小编学习了相关知识,对方案制定有了初步思路。希望对测试小伙伴有所帮助~~(●—●)
用户5521279
2020/12/24
9K0
10小时训练数据打造多语种语音识别新高度
本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔 导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种语音识别比赛6项第一。从2000年开始,NIST组织的RT(英文语音识别),LRE(语音语种识别),SRE(语音说话人识别),OPENKWS(语音关键词识别)等比赛一直是语音届的标杆竞赛,其组织比赛方向也可以看出目前学术和工业界的语音研究发展方向。长期以来,NIST组织的语音比赛受到了来自世界一线的研究单位支持与参与。而2020年新增的OPENASR
腾讯高校合作
2021/01/07
1.7K0
All In One!Meta发布SeamlessM4T,支持100种语言,35种语音、开源、在线体验!
 多语言识别翻译的研究一直都是学术界研究的重点。目前全球有几千种语言,在全球化背景下不同语言人群之间的交流越来越密切,然而学习一门外语的成本是非常大的。前两年的研究主要集中在一对一、一对多的研究,然而当面对这么多的语言时,既需要「考虑模型准确率,还需要考虑语种的识别」。最近,随着人工智能大型自然语言模型的发展,利用统一模型实现多语种识别翻译来实现不同语种之间交流逐渐的变成了可能。
ShuYini
2023/09/02
9230
All In One!Meta发布SeamlessM4T,支持100种语言,35种语音、开源、在线体验!
OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平
作者 | 黄楠 编辑 | 陈彩娴 9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。 「Whisper 」式一个自动语音识别(ASR)系统,研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据,来对其进行训练。 训练过程中研究团队发现,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。 此前有不同研究表明,虽然无监督预训练可以显著提高音频编码器的质量,但由于缺乏同等高质量的预训练解码器,以及特定于
AI科技评论
2022/09/22
2.2K0
OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平
字节提出 NEST-RO,语音自我监督预训练的下一个令牌预测 !
近年来,在语音自我监督学习(SSL)技术领域取得了巨大的进步,受到学术和产业界的广泛关注。通过从大量的未标注语音数据中挖掘信息,语音 SSL 可以为下游语音任务提供强大的表示或表示模型[8]。 SSL 正在将下游任务的性能推向新的高峰。例如,语音 SSL 已促使许多 ASR 模型在各种基准测试上实现最先进(SOTA)的性能 [9, 10]。这些研究证明了语音 SSL 在语音应用中的巨大潜力。
AIGC 先锋科技
2024/10/14
3050
字节提出 NEST-RO,语音自我监督预训练的下一个令牌预测 !
元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融为一体。
AI科技大本营
2021/11/25
6980
元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。
机器之心
2025/02/08
3790
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品
机器之心专栏 作者:腾讯游戏知几AI团队,西北工业大学音频、语音与语言处理研究组(ASLP@NPU) 近日,腾讯游戏知几AI团队与西工大ASLP组联合发布了基于 WenetSpeech 1 万小时数据训练的中文版 Wav2vec 2.0 和 HuBERT 模型。 Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recogn
机器之心
2022/06/07
2.7K0
找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品
7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT
机器之心 & ArXiv Weekly  参与:楚航、罗若天、梅洪源 本周论文包括微软亚洲研究院提出的视觉 ChatGPT;罗切斯特大学的物理学家 Ranga Dias 及其团队实现了一种超导体,其能在室温和接近常压的环境下工作。 目录: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models  Evidence of near-ambient superconductivity in a N-doped lute
机器之心
2023/03/29
2970
7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型
在过去的几年里,由于神经机器翻译(NMT)的发展,机器翻译(MT)系统的质量得到了显著提升,打破了世界各地的语言障碍。但 NMT 的成功很大程度上要归功于有监督的训练数据。那么,数据较少甚至没有数据的语言该怎么办呢?多语言 NMT 是一种有效的解决方法,它有一种归纳偏见,即「来自一种语言的学习信号应该有助于提高其他语言的翻译质量」。
机器之心
2019/10/15
6260
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型
业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率
AI 科技评论按:把一段输入音频转换为一段文本的任务「自动语音识别(ASR)」,是深度神经网络的流行带来了极大变革的人工智能任务之一。如今常用的手机语音输入、YouTube 自动字幕生成、智能家电的语音控制都受益于自动语音识别技术的发展。不过,开发基于深度学习的语音识别系统还不是一个已经完善解决的问题,其中一方面的难点在于,含有大量参数的语音识别系统很容易过拟合到训练数据上,当训练不够充分时就无法很好地泛化到从未见过的数据。
AI科技评论
2019/05/08
1.2K0
业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
美东时间 3 月 20 日,OpenAI 发布了三款全新语音模型,分别是自动语音识别模型(ASR) GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe,以及语音合成模型(TTS) GPT - 4o Mini TTS。
AGI-Eval评测社区
2025/04/08
3390
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译
就在Meta AI成立10周年之际,研究团队重磅开源了在语音翻译领域的突破性进展——「无缝交流」(Seamless Communication)模型。
新智元
2023/12/05
7750
跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译
推荐阅读
谷歌的野心:通用语音识别大模型已经支持100+语言
6350
再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译
5540
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
1.3K0
首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据
1.4K0
刚刚,OpenAI又发新货!3个新模型+1个新网站,语音识别比Whisper更强!
2000
每个人都能听懂你的话:Google 为语言障碍者开发专属ASR模型,错误率下降76%
7310
Moonshine 用于实时转录和语音命令的语音识别 !
7290
ASR(语音识别)评测学习
9K0
10小时训练数据打造多语种语音识别新高度
1.7K0
All In One!Meta发布SeamlessM4T,支持100种语言,35种语音、开源、在线体验!
9230
OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平
2.2K0
字节提出 NEST-RO,语音自我监督预训练的下一个令牌预测 !
3050
元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
6980
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
3790
找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品
2.7K0
7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT
2970
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型
6260
业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率
1.2K0
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
3390
跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译
7750
相关推荐
谷歌的野心:通用语音识别大模型已经支持100+语言
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档