首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌人工智能研究展示 Translatotron 3:一种新颖的无监督语音翻译架构

语音到语音翻译(S2ST)一直是打破语言障碍的变革性技术,但并行语音数据的稀缺阻碍了其进步。大多数现有模型都需要监督设置,并且很难从合成的训练数据中学习翻译和语音属性重建。

在语音到语音翻译方面,Google AI 之前的模型(例如 Translatotron 1 和 Translatotron 2)通过直接在语言之间翻译语音而取得了显着的进步。然而,这些模型面临局限性,因为它们依赖于并行语音数据的监督训练。关键的挑战在于此类并行数据的稀缺,使得 S2ST 模型的训练成为一项复杂的任务。Translatotron 3 登场了,这是 Google 研究团队推出的突破性解决方案。

研究人员认识到,大多数语音翻译的公共数据集都是从文本半或完全合成的,这导致学习翻译和准确重建可能需要在文本中更好地表示的语音属性面临额外的障碍。作为回应,Translatotron 3 引入了无监督 S2ST 的概念,代表了一种范式转变,旨在仅从单语言数据中学习翻译任务。这项创新扩展了跨各种语言对的翻译潜力,并引入了翻译非文本语音属性(例如停顿、语速和说话者身份)的功能。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

Translatotron 3 的架构设计包含三个关键方面,以应对无监督 S2ST 的挑战:

使用 SpecAugment 作为屏蔽自动编码器进行预训练:利用 SpecAugment(一种用于语音识别的简单数据增强方法)将整个模型预训练为屏蔽自动编码器。SpecAugment 对输入音频的对数梅尔频谱图进行操作,增强编码器的泛化能力。

基于多语言无监督嵌入 (MUSE) 的无监督嵌入映射: Translatotron 3 利用 MUSE,这是一种在不配对语言上训练的技术,使模型能够学习源语言和目标语言之间的共享嵌入空间。这种共享的嵌入空间有助于更高效地对输入语音进行编码。

通过反向翻译的重建损失:使用无监督 MUSE 嵌入损失、重建损失和 S2S 反向翻译损失的组合来训练模型。在推理过程中,共享编码器将输入编码到多语言嵌入空间中,随后由目标语言解码器进行解码。

Translatotron 3 的训练方法包括自动编码、重建和反向翻译项。在第一部分中,网络被训练为使用 MUSE 损失和重建损失将输入自动编码到多语言嵌入空间中。此阶段的目的是确保网络生成有意义的多语言表示。网络被进一步训练以使用第二部分中的反向翻译损失来翻译输入频谱图。为了加强潜在空间的多语言性质,在训练的第二部分中应用了 MUSE 损失和重建损失。SpecAugment 在两个阶段都应用于编码器输入,以确保学习到有意义的属性。

Translatotron 3 的实证评估证明了它相对于基线级联系统的优越性,特别是在保留对话细微差别方面表现出色。该模型在翻译质量、说话者相似度和语音质量方面表现出色。尽管 Translatotron 3 是一种无监督方法,但它是一个强大的解决方案,与现有系统相比,显示出显着的结果。通过平均意见得分 (MOS) 衡量,它能够实现与真实音频样本相当的语音自然度,这突显了其在现实场景中的有效性。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

为了应对由于并行语音数据稀缺而导致的无监督 S2ST 挑战,Translatotron 3 作为开创性的解决方案应运而生。通过学习单语数据并利用 MUSE,该模型实现了卓越的翻译质量并保留了基本的非文本语音属性。研究团队的创新方法标志着朝着使语音到语音翻译在各种语言对上更加通用和有效的方向迈出了重要一步。Translatotron 3 的成功超越了现有模型,这表明它具有彻底改变该领域并增强不同语言社区之间沟通的潜力。在未来的工作中,该团队的目标是将模型扩展到更多语言,并探索其在零样本 S2ST 场景中的适用性,从而有可能扩大其对全球通信的影响。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ouhg5CQRIxblkaP51hDJ_D3Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券