目前,神经机器翻译(NMT)已经成为在学术界和工业界最先进的机器翻译方法。最初的这种基于编码器-解码器架构的机器翻译系统都针对单个语言对进行翻译。近期的工作开始探索去扩展这种办法以支持多语言之间的翻译,也就是通过只训练一个模型就能够支持在多个语言之间的翻译。
Meta(facebook)采访了菲利普·科恩(Philipp Koehn),他是一位Meta人工智能研究科学家,现代基于短语的机器翻译方法的发明者之一,著有《Statistical Machine Translation》和《Neural Machine Translation》。他谈到了机器翻译领域的最新进展,该领域面临的最新挑战,以及走向通用翻译道路上有希望的方向。
如上图所示,主要就是提供了三个方法,不过在了解具体实现前先看一下组件中是如何使用多语言的。
《圣经·旧约·创世记》中记载着「巴别塔」的传说:人类联合起来兴建能通往天堂的高塔。
Meta 提出的单个多语言模型,首次超过最佳双语模型,赢得了著名的 WMT 竞赛。
随着神经网络机器翻译的快速发展,为了实现多语言之间的相互翻译,通常需要构建多个一对一的翻译模型。一方面每个翻译模型需要大规模存储和计算资源,从而多语言翻译的存储和计算消耗非常巨大;另一方面多语言翻译在独立模型下无法实现知识共享。近年来,使用一套框架解决多语言机器翻译任务受到人们越来越多的关注。多语言机器翻译不仅可以有效的解决资源消耗和知识共享问题,同时由于参与翻译语言对的扩充,对于低资源和零资源翻译任务上有了一定程度的提升。本次分享会上我们:
【新智元导读】谷歌今日更新博客,介绍了谷歌神经机器翻译系统重大更新,实现了用单一模型对多语种通用表征。这种新的模型体积不仅与多语言翻译模型一样,参数相同,而且速度更快、质量更高。不仅如此,系统还实现“零数据翻译”,也即能够在从来没有见过的语言之间进行翻译。这意味着传说中的“巴别塔”有望成真。 (文/Mike Schuster,Melvin Johnson,Nikhil Thorat)过去10年中,谷歌翻译已从仅支持几种语言发展到了支持 103 种,每天翻译超过了 1400 亿字。为了实现这一点,我们需要构建
在过去的几年里,机器翻译(MT)系统的质量有了巨大的进步,神经机器翻译(NMT)的发展打破了世界各地的语言障碍。
Multilingual是NLP中的研究热点之一,其中的一个研究方向是如何构建多语言预训练语言模型,实现不同语言的在隐空间的对齐,一个模型支持多语种的NLP任务,同时利用数据丰富的语言提升数据较少的语言效果。这篇文章就为大家整理了Multilingual多语言预训练语言模型的套路,包括XLM、XLM-R、ERNIE-M、Unicoder、ALM等5个经典模型,以及这些模型之间的演进关系。
相信大家在阅读paper时都会或多或少的用到Google、百度、有道等翻译软件,你可能会发现近几年的翻译准确率变高了。其实这都得益于深度学习在机器翻译这一领域快速的发展和应用。在机器翻译(MT)研究领域中,构建一个通用的翻译系统来帮助每个人更好的获取信息和交流是其研究的终极目标。 但是目前MT领域研究首先要做的是解决基本的问题,才能使未来成为现实。
在过去的几年里,由于神经机器翻译(NMT)的发展,机器翻译(MT)系统的质量得到了显著提升,打破了世界各地的语言障碍。但 NMT 的成功很大程度上要归功于有监督的训练数据。那么,数据较少甚至没有数据的语言该怎么办呢?多语言 NMT 是一种有效的解决方法,它有一种归纳偏见,即「来自一种语言的学习信号应该有助于提高其他语言的翻译质量」。
机器之心报道 机器之心编辑部 Facebook AI 近日开源了多语言机器翻译模型 M2M-100,该模型不依赖以英语为中心的数据,可以实现 100 种语言之间的相互翻译。 机器翻译(MT)打破了人类之间的语言障碍。如今,平均每天需要在 Facebook 新闻提要上提供 200 亿次翻译,这得益于低资源机器翻译领域的发展以及评估翻译质量的最新进展。 典型的 MT 系统需要为每种语言和每种任务构建单独的 AI 模型,但这种方法无法在 Facebook 上进行有效推广,因为人们在数十亿个帖子中发布超过 160
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
跨语言摘要(Cross-Lingual Summarization)旨在为一种语言的文档生成另一种语言的摘要。目前已有的跨语言摘要研究主要关注在新闻报道 [1,2],生活指南 [3] 以及百科文章 [4] 上,缺乏针对于对话文档的研究。不同于其他文档,对话文档记录了由多名参与者所提供的结构化对话信息,有着信息分散、话题转移频率高等特点。
当把中文翻译成法文时,以前最好的多语种模型的方式是把中文翻译成英文,把英文翻译成法文,因为英语的训练数据是最多的。
作者:李加贝 方向:跨模态检索 链接:https://zhuanlan.zhihu.com/p/556921577 ACL'20: Emerging Cross-lingual Structure in Pretrained Language Models 这篇论文发表在ACL’20,作者研究了多语言掩码语言建模问题,并详细研究了影响这些模型对跨语言迁移的几个有效因素。 task: natural language inference (NLI), named entity recognition (NE
神经机器翻译(NMT)无需单独训练或调整系统的任何部分就可以直接建模源语言到目标语言的映射。这使得 NMT 快速发展,并在许多大规模环境中成功应用 (Wu et al., 2016; Crego et al., 2016)。编码器-解码器抽象使构建将任何语言的源句映射到向量表示,再将向量表示解码到任何目标语言的系统在概念上变得可行。因此,人们提出了各种方法来扩展这种多语言机器翻译的抽象 (Luong et al., 2016; Dong et al., 2015; Johnson et al., 2017; Ha et al., 2016; Firat et al., 2016a)。
跨语言大模型(MLLMs)能够利用强大的大型语言模型处理和回应多种语言的查询,在多语言自然语言处理任务中取得了显著的成功。尽管取得了这些突破,但仍然缺乏一份全面的调查总结该领域现有方法和最新发展。因此,在本文中,我们进行了深入的综述,并提供了一个统一的视角,总结了多语言大型语言模型领域的最新进展和新兴趋势。本文的贡献可以总结如下:(1)首次综述:据我们所知,我们首次按照多语言对齐的方式对MLLMs研究领域进行了深入综述;(2)新分类法:我们提供了一个新的统一视角,总结了MLLMs的当前进展;(3)前沿与挑战:我们重点介绍了几个新兴领域并讨论了相应的挑战;(4)丰富资源:我们收集了丰富的开源资源,包括相关论文、数据语料库和排行榜。我们希望我们的工作能够推动MLLMs领域的突破性研究。
作者丨陈怡然 论文地址:https://openreview.net/pdf?id=Heggj7GSZ5 网页地址:https://mtg-benchmark.netlify.app/ 1 前言 随着
本文作者:李上杰, 澜舟科技算法实习生,天津大学硕士一年级,研究方向为多语言机器翻译、无监督机器翻译,邮箱:sj_li@tju.edu.cn。纸上得来终觉浅,绝知此事要躬行。
为了将 NLP 应用尽快部署到更多语言,Facebook 的研究者拓展并改进了其 LASER(Language-Agnostic SEntence Representations)工具箱。今天,他们开源了第一个可探索大量多语言句子表征形式的工具——LASER,将其与 NLP 社区分享。据称,该工具现在能应用于涉及 28 种不同字符系统的 90 多种语言中。LASER 将所有语言共同嵌入到一个共享空间中(而不是为每种语言建立一个单独的模型),从而实现这样的结果。一起开源的还包括涵盖 100 多种语言的多语言测试集。
论文:Beyond English-Centric Multilingual Machine Translation
当前自然语言处理中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。
cross-lingual language models (XLMs)来自Facebook提出的将语言模型拓展为多语言的方法,详情可以见:XLM解读[1] 或原文 Cross-lingual Language Model Pretraining[2].
如何使用 Dapr、Knative Serving 和 Dagger 构建针对特定工作流优化的自定义(和多语言)开发者体验。
快速小结:LocaleResolver接口的实现类获得Locale对象,Locale对象告诉MessageSource从哪个配置文件获得消息!
为了加速 NLP 应用在更多语言上的部署,Facebook 对 LASER (Language-Agnostic SEntence Representations)工具包进行了扩展和改进。LASER 是首个可探索多语言句子表示的工具包,Facebook 日前对其实现了开源并共享在 NLP 社区。该工具包现在可应用于使用 28 种不同的字符串编写的 90 多种语言也就是说,它将所有语言一同嵌入到一个独立的共享空间中(而不是为每一种语言都创建一个单独的模型),从而实现在 90 多种语言中的应用。此外,一同开源的还有多语言编码器、PyTorch 代码,以及面向 100 多种语言的多语言测试集。
随着GPT-4和Stable Diffusion等模型多模态能力的突飞猛进,多模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向图像和文本的多模态生成能力可以大致分为两类:
亚马逊在全球14个国家开展业务,其中9个国家有资格享受其Prime年度订阅服务。基于此,该公司有一个宏大的愿望,那就是使其购物体验不会因为语言而有任何折扣。
Facebook AI近日发布一个名为XLM-R的新模型,使用100种语言、2.5 TB文本数据进行训练,在四项跨语言理解基准测试中取得了迄今最好的结果。
作者:Hany Hassan Awadalla 机器之心编译 参与:Nurhachu Null、路 近日微软发布博客,提出一种半监督通用神经机器翻译方法,解决低资源语言机器翻译的问题,帮助解决方言和口语机器翻译难题。该研究相关论文已被 NAACL 2018 接收。 机器翻译已经成为促进全球交流的重要组成部分。数百万人使用在线翻译系统和移动应用进行跨越语言障碍的交流。在近几年深度学习的浪潮中,机器翻译取得了快速进步。 微软研究院近期实现了机器翻译的历史性里程碑——新闻文章中英翻译达到人类水平。这一当前最优
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周论文主要包括微软亚研团队提出一种升级版SwinTransformer;字节跳动、约翰霍普金斯大学等机构组成的联合团队,提出了适用于视觉任务的大规模预训练方法 iBOT,该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE 。 目录: N-grammer: Augmenting Transformers with latent n-grams Swin Transformer V2:
就在Meta AI成立10周年之际,研究团队重磅开源了在语音翻译领域的突破性进展——「无缝交流」(Seamless Communication)模型。
这篇论文的作者是来自于Google Research的Telmo Pires,Eva Schlinger和Dan Garrette。既然BERT能够在每一层都学习到特殊的表层、句法以及语义特征表示,那么多语言BERT(M-BERT)在上面学到了什么呢?多语言BERT在零样本迁移学习上又表现如何呢?
【导语】为了加速自然语言处理 (NLP) 在更多语言上实现零样本迁移学习 (zero-shot transfer learning),Facebook 研究者扩展并增强了 LASER (Language-Agnostic Sentence Representations) 工具包,并在近期开源了这个项目。
编者按:ICLR 2019 于5月6日至9日在美国新奥尔良举行,本届投稿比去年增长了近60%,共收到1591篇,录取率为31.7%。由微软研究院与蒙特利尔大学 MILA 研究所合作的论文《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》获得了最佳论文奖。来自微软亚洲研究院的6篇论文入选了本届ICLR,内容涵盖多智能体的对偶学习、自然语言生成模型训练中的表征退化问题、基于知识蒸馏的多语言神经机器翻译、多视图立体场景重建等。本文将对这些工作进行介绍,感兴趣的读者可以在“阅读原文”中下载论文。
人类传递信息的载体是语言,不同语言之间的交流靠的是翻译,比如世卫组织在疫情防控中,在官网上发布了一个公告,号召大家勤洗手以预防感染。
作者丨宋珍巧 1 简介 多语言机器翻译旨在用一个模型实现多语向的翻译功能,从而可以减少线上需求的模型数量,同时提升低资源语言的翻译性能。目前已有的多语言模型大多基于 Transformer 建模,受限于翻译性能和推理速度。基于该问题,字节跳动人工智能实验室在 "switch-GLAT: Multilingual Parallel Machine Translation via Code-Switch Decoder" 这篇论文中提出一个叫做 switch-GLAT 的非自回归多语言翻译模型。 给定一个源语言
应用只支持中文的话,关于单复数的问题很少碰到。但应用要出海,就需要支持多种语言,做国际化的适配,此时名词单复数的问题就凸显了出来。比如,我们在学习英文时,学到的:
Ice 采用了与CORBA 同样的原理,通过与具体编程语言无关的中立语言Slice(Specification Language for Ice)来描述服务的接口,从而达到对象接口与其实现相分离的目的。Slice 是建立在客户与服务器之间的合约,用以描述应用所使用的类型和对象接口。它独立于实现语言,所以客户采用的语言与编写服务器所用的语言没有任何关系。
机器之心报道 编辑:陈萍、蛋酱 微软打造的图灵通用语言表示模型 T-ULRv5,登顶 Google XTREME 公共排行榜。 刚刚,微软打造的最新图灵通用语言表示模型 T-ULRv5 模型再次成为 SOTA 模型,并在 Google XTREME 公共排行榜上位列榜首。 这项研究由 Microsoft Turing 团队和 Microsoft Research 合作完成,T-ULRv5 XL 模型具有 22 亿参数,以 1.7 分的平均分优于当前性能第二的模型(VECO)。这也是该系列模型在排行榜上的四个
webgame世界的基础数值都是事先配置好的,在运行的时候可以随时读取,是属于非常重要和必不可少的部分,而且数据量也不少。这样的数据在开发中的存储也就变得重要了,需要保证效率、性能、安全等,一般的做法有使用xml文本文件保存、静态数组保存和数据库直接保存。
图像描述(Image Caption)是计算机视觉领域的一项基础任务,也是融合了视觉和语言在内的多模态研究的核心任务,模型需要给指定的图像生成一个自然语言描述的标题。
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 18 个在机器翻译任务上曾取得 SOTA 的经典模型。 第 1 期:RNNsearch、Multi-task、attention-model
虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估【如下图所示】。
领取专属 10元无门槛券
手把手带您无忧上云