Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (下)

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (下)

作者头像
HyperAI超神经
发布于 2019-12-01 14:39:47
发布于 2019-12-01 14:39:47
8110
举报
文章被收录于专栏:HyperAI超神经HyperAI超神经

上集回顾

  • 机器翻译缓慢发展的六十年
  • 基于规则的机器翻译(RBMT)
  • 基于实例的机器翻译(EBMT)

统计机器翻译(SMT)

在1990年初,在IBM研究中心,一个机器翻译系统首次被展示,它对规则和语言学一无所知。它用两种语言分析了下图中的文本,并试图理解这些模式。

这个想法简单而美丽。在两种语言中,一个相同的句子被分成好几个词,之后再重新组合。这个操作大约重复了5亿次,例如,「Das Haus」一词被翻译成「house」vs「building」vs「construction」等等。

如果大多数时候源词(以「Das Haus」为例)被翻译成「house」,机器就会默认这个含义。注意,我们没有设置任何规则,也没有使用任何字典——所有的结论都是由机器完成,由数据和逻辑指导。翻译时机器仿佛在说:「如果人们这样翻译,我也会这样做」,于是,统计机器翻译诞生。

它的优点在于更有效、更准确,而且不需要语言学家。我们使用的文本越多,我们得到的翻译就越好。

(来自谷歌内部的统计翻译:它不仅显示该含义的使用概率,还进行了其它含义的统计)

还有一个问题:

机器如何把「Das Haus」和「building」这个词联系起来——我们怎么知道这些是正确的翻译呢?

答案是我们不知道。

一开始,机器假定「Das Haus」一词与翻译的句子中的任何单词都有同样的关联,接下来,当「Das Haus」出现在其他句子中时,与「house」的相关性会增加。这就是「单词对齐算法」,这是校级机器学习的一个典型任务。

这台机器需要两种语言的数百万个句子,来收集每个单词的相关统计信息,那如何获取这些语言信息的呢?我们决定采取欧洲议会和联合国安全理事会的会议摘要——这些摘要均以所有成员国的语言呈现,能给素材搜集节省大量时间。

  • 基于单词的SMT

在一开始,第一个统计翻译系统将句子分成单词,因为这个方法是直截了当和合乎逻辑的,IBM的第一个统计翻译模型称为「模型1」。

模型1:一篮子单词

模型1使用了经典的方法——分裂成单词和计数统计,但没有考虑词序,唯一的诀窍就是把一个单词翻译成多个单词。例如,「Der Staubsauger」可以变成「吸尘器」,但这并不意味着它会变成「真空吸尘器」。

模型2:考虑句子中的单词顺序

文字排列顺序的缺乏是模型 1 的主要局限,而这些在翻译过程中是非常重要的。模型 2 的出现解决了这个问题:记忆单词在输出句子中的通常位置,并在中间步骤中重新洗牌,以便翻译的更加自然。

那么,情况变好了吗?并没有。

模型3:加入新词

翻译中经常需要增加新词以完善语义,比如德文要用英文否定的时候用「do」。德文“「Ich will keine Persimonen”」翻译成英文为 「I do not want Persimmons」 。

为了解决这个问题,模型3中又在前面基础上添加了两个步骤:

  1. 如果机器考虑到需要加入一个新词,则 NULL 标记插入;
  2. 选择正确的语法或单词对每一个词对齐。

模型4:词对齐

模型2 考虑了单词对齐,但对重新排序一无所知。例如,形容词通常会与名词交换位置,不管顺序如何被记住,如果不加入语法因子,很难获得精妙的翻译。因此,模型4考虑到这个「相对秩序」——如果两个词总是互换位置,模型就会知道。

模型5:修正错误

模型5 获得了更多的学习参数,并解决了单词位置冲突的问题。尽管它们具有革命意义,但基于文字的系统仍然无法处理同音异义的情况,即每个单词都以一种单一的方式被翻译出来。

不过,这些系统已不再被使用,因为它们被更高级的基于短语的翻译所取代。

  • 基于短语的SMT

该方法基于所有基于单词的翻译原则:统计、重新排序和词汇技巧。它不仅将文本分割成单词,还将其分割成短语,精确地说,这是连续的多个单词序列。

因此,机器学会了翻译稳定的词语组合,这明显提高了准确性。

关键在于,这些短语并不总是简单的句法结构,如果有人意识到语言学和句子结构的干扰,那么翻译的质量就会显著下降。计算机语言学的先驱弗雷德里克·耶利内克(Frederick Jelinek)曾经开玩笑说过:「每次我向语言学家发起攻击时,语音识别器的性能就会提高。」

除了提高精确性之外,基于短语的翻译提供了更多双语文本的选项。对于基于文字的翻译,来源的精确匹配是至关重要的,因此,它很难在文学或自由翻译上贡献价值。

而基于短语的翻译没有这个问题,为了提高机器翻译水平,研究人员甚至开始用不同的语言来解析新闻网站。

从 2006 年开始,大家几乎都在使用这种方法。谷歌翻译、Yandex、Bing 等其他一些知名的在线翻译系统在2016年之前都是基于短语的。因此,这些翻译系统翻译的结果要么完美无暇,要么毫无意义,没错,这就是短语翻译的特点。

这种基于规则的老方法总是能得出有失偏颇的结果,谷歌毫不犹豫将「three hundred」翻译成「300」,但实际上「three hundred」也有「300年」的含义,这就是统计翻译机器普遍存在的局限。

在2016年以前,几乎所有的研究都认为基于短语的翻译是最先进的,甚至将“统计机器翻译”和“基于短语的翻译”等同看待,而人意识到谷歌将掀起对整个机器翻译的革命。

  • 基于句法的SMT

这个方法也应该简短地提到。在神经网络出现之前的许多年,基于语法的翻译被认为是「未来」,但这个想法并没有成功。

它的支持者们认为可以将它与基于规则的方法合并。可以对句子进行精确的语法分析——确定主语、谓语和句子的其他部分,然后构建句子树。通过使用它,机器学习转换语言之间的句法单元,并通过单词或短语来进行翻译。这就能彻底解决“翻译误差”这个问题。

想法很美好,但现实很骨感,语法分析工作得非常糟糕,即便它的语法库问题此前已经解决了(因为我们已经有了许多现成的语言库)。

神经机器翻译(NMT)

2014 年出现了一篇关于神经网络机器翻译的有趣论文,但并没有引起广泛关注,只有谷歌开始深入挖掘这一领域。两年后的 2016 年 11 月,谷歌高调宣布:机器翻译的游戏规则正式被我们改变。

这个想法跟 Prisma 中模仿著名艺术家作品风格的功能类似。在 Prisma中,神经网络被教导识别艺术家的作品风格,并由此得到的程式化图像,比如让一张照片看起来像梵高的作品。这虽然是网络的幻象,但我们认为它很美。

如果我们可以将样式转移到照片上,如果我们试图将另一种语言强加给源文本会怎样?文本将是精确的“艺术家的风格”,我们将试图在保留图像的本质的同时将其转移(换句话说,就是文本的本质)。

想像一下,如果把这种神经网络应用到翻译系统中会发生什么呢?

现在,假设源文本是特定特征的集合,这意味着你需要对它进行编码,然后让另一个神经网络用只有解码器知道的语言,将它解码回文本。它不知道这些特征的来源,但可以用西班牙语来表达。

这将是一个十分有趣的过程,一个神经网络只能将句子编码到特定的特征集合,而另一个只能将它们解码回文本。两个人都不知道对方是谁,他们每个人都只知道自己的语言,彼此陌生却能协调一致。

不过,这里面也存在一个问题,那就是如何找到并界定这些特征。当我们讨论狗的时候,它的特征很明显,但对于文本呢?要知道,30 年前,科学家们就已经尝试创建通用语言代码,但最终以失败告终。

然而,我们现在有了深度学习,可以很好的解决这个问题,因为它就是为此而存在。深度学习和经典神经网络之间的主要区别在于,它精确地定位了搜索这些特定特征的能力,而不考虑它们的本质。如果神经网络足够大,并且有成千上万的视频卡供它研究,就能在文本中归纳出这些特征。

从理论上讲,我们可以把从神经网络中获得的特征传递给语言学家,这样他们就可以为自己打开全新的视野。

有一个问题,什么类型的神经网络能被应用于文字的编码和解码呢?

我们知道,卷积神经网络 (CNN) 目前仅适用于基于独立像素块的图片,但文本中没有独立的块,且每个单词都依赖于它周围的环境,就像语言和音乐一样。递归神经网络 (RNN) 将提供一个最佳选择,因为它们记住了之前所有的结果——在我们的例子中是之前的单词。

而且递归神经网络如今已经得到应用,比如 iPhone 的 RNN-Siri 语音识别(它解析声音的顺序,下一个依赖于前一个),键盘的提示(记住前一个,猜测下一个),音乐产生,甚至聊天机器人

在两年的时间里,神经网络完全超越了过去 20 年的翻译。它使单词顺序错误减少了 50%、词汇错误减少了 17 %、语法错误减少了 19%。神经网络甚至学会用不同的语言来处理类似同音异意的问题。

值得注意的是,神经网络能够实现真正意义上的直接翻译,彻底扔掉词典。在进行两种非英文翻译时,不需要将英文作为中间语进行翻译,此前,如果要将俄文翻译成德文,需要先将俄文翻译成英文,在将英文翻译成德文,这样一来就会增加重复翻译的失误率。

谷歌翻译(2016年以来)

2016 年,他们开发了名为谷歌神经机器翻译(GNMT)的系统,用于 9 种语言的翻译。它包括 8 个编码器和 8 个解码器,以及可以用于在线翻译的网络连接。

他们不仅把句子分开,而且还把单词分开,这也是他们如何处理一个罕见单词的做法。当单词不在字典里时,NMT 是没有参考的。比如翻译一个字母组 「Vas3k」,在这种情况下,GMNT 试图将单词拆分为单词块并恢复它们的翻译。

提示:在浏览器中用于网站翻译的谷歌翻译仍然使用旧的基于短语的算法。不知何故,谷歌并没有升级它,与在线版本相比,这些差异是显而易见的。

不过,目前浏览器中用于网站翻译的谷歌翻译使用的仍是基于短语的算法,不知何故,谷歌并没有在这方面升级它,不过这也让我们能够看出于传统翻译模式的区别。

谷歌在网上使用众包机制,人们可以选择他们认为最正确的版本,如果有很多用户喜欢它,谷歌就会一直用这种方式来翻译这个短语,并且用一个特殊的徽章来标记它。这对于日常的短句,如「让我们去看电影吧」或者「我在等你」这样的短句非常有用。

Yandex翻译(2017年以来)

Yandex 在 2017 年推出了神经翻译系统,它采用的是将神经网络跟统计方法相结合的 CatBoost 算法。

这种方法能有效弥补神经网络翻译的短板——对不经常出现的短语容易出现翻译失真,在这种情况下,一个简单的统计翻译就能快速而简单地找到正确的词。

机器翻译的未来?

大家现在仍然对「Babel fish」这个概念感到兴奋——即时语音翻译。谷歌已经通过其 Pixel Buds 向它迈进了一步,但事实上,它肯定不完美,因为你需要让它知道什么时候开始翻译,什么时候该闭嘴听。不过这点就连 siri 都做不到。

还有一个待探索的难点:所有的学习都局限于机器学习的语料库。即使能设计再复杂的神经网络,但目前也只能局限在提供的文本中学习。人工翻译可以通过阅读书籍或文章来补充相关语料,以保证翻译结果更加准确,这就是机器翻译大比分落后于人工翻译的部分。

不过既然人工翻译能做到这一点,理论上,神经网络也能做到这一点。而且好像已经有人在尝试用神经网络实现这一功能。也就是通过它知道的一种语言,以另一种语言进行阅读以获得经验,再反哺到自己的翻译系统中备用,让我们拭目以待。

补充阅读

《Statistical Machine Translation》

Philipp Koehn 著

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HyperAI超神经 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)
虽然 Google Translate 已经发布了近 15 年了,但直到现在 Google Translate 仍然倔强地认为 Android phone is very fast.
HyperAI超神经
2019/12/01
9390
机器翻译简史:八十多年来,人类就是要再造一座通天塔
《圣经》中记载,人类曾经联合起来兴建能通往天堂的高塔,为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。
量子位
2018/07/24
3970
机器翻译简史:八十多年来,人类就是要再造一座通天塔
机器翻译都 60 年了,谷歌为什么还译不对「卡顿」 (上)
场景描述:机器翻译是自然语言处理上的一个重要应用,从他最初的诞生到现在,已经过去了 60 多年,但在一些小问题上,还是会出现令人啼笑皆非的局面。机器翻译是如何一步步发展来的?它背后的的机理是什么样子?它的局限性又是怎么一回事呢?
HyperAI超神经
2019/11/29
8500
机器翻译都 60 年了,谷歌为什么还译不对「卡顿」 (上)
从冷战到深度学习:一篇图文并茂的机器翻译史
选自Vas3k.com 作者:Ilya Pestov 英语版译者:Vasily Zubarev 中文版译者:Panda 实现高质量机器翻译的梦想已经存在了很多年,很多科学家都为这一梦想贡献了自己的时间和心力。从早期的基于规则的机器翻译到如今广泛应用的神经机器翻译,机器翻译的水平不断提升,已经能满足很多场景的基本应用需求了。近日,Ilya Pestov 用俄语写的机器翻译介绍文章经 Vasily Zubarev 翻译后发表到了 Vas3k.com 上。机器之心又经授权将其转译成了汉语。希望有一天,机器自己就能
机器之心
2018/05/09
1.1K0
从冷战到深度学习:一篇图文并茂的机器翻译史
浅谈神经机器翻译
由于人类语言的流动性, 自动翻译或者机器翻译可能是最具挑战性的人工智能任务之一.20世纪90年代, 统计方法被用于完成这项任务, 取代了此前传统上的基于语法规则的翻译系统. 最近, 深度神经网络模型在命名为神经机器翻译的领域中获得了最先进的成果.
FesonX
2018/02/05
3.1K0
浅谈神经机器翻译
发明计算机的最早目标之一就是自动将文本从一种语言翻译成另一种语言。
花落花飞去
2018/02/07
1K0
NLP机器翻译全景:从基本原理到技术实战全解析
机器翻译,作为自然语言处理的一个核心领域,一直都是研究者们关注的焦点。其目标是实现计算机自动将一种语言翻译成另一种语言,而不需要人类的参与。
TechLead
2023/10/21
1.5K0
NLP机器翻译全景:从基本原理到技术实战全解析
神经机器翻译与代码(上)
本文中蓝色字体为外部链接,部分外部链接无法从文章中直接跳转,请点击【阅读原文】以访问。
AiTechYun
2019/12/31
1.1K0
神经机器翻译与代码(上)
神经网络机器翻译技术及应用(上)
简单来说,机器翻译就是把一种语言翻译成另外一种语言,在这里,我用的例子都是从中文翻译成英文。上面的句子用Source标记,即源语言,下面用Target标记,即目标语言,机器翻译任务就是把源语言的句子翻译成目标语言的句子。
用户1386409
2019/06/10
2.2K0
神经网络机器翻译技术及应用(上)
机器翻译:生于冷战,却为人类重建巴别塔
来源:环球科学ScientificAmerican 作者:陈宗周 本文长度为5200字,建议阅读5分钟 本文回顾机器翻译发展史,并分析这个曾一度陷入低潮的领域,是如何实现飞跃,并可能在不久的将来打破不同民族间的语言壁垒的。 2017年3月的全国“两会”上,李克强总理来到安徽代表团。讯飞公司董事长刘庆峰拿起桌子上一部手机模样的小设备,说出总理以前对讯飞的勉励——让世界聆听我们的声音,机器马上翻译成流利的英文。他又说“这个哈密瓜很甜”,机器立刻又翻译成流利的维吾尔语。这部叫晓译多语种翻译机的小机器,是讯飞公
数据派THU
2018/01/29
1.1K0
机器翻译:生于冷战,却为人类重建巴别塔
业界 | 谷歌的神经翻译系统并不意味着机器翻译到头了
AI科技评论按:本文是清华大学教授、中国中文信息学会副理事长孙茂松在MIFS 2016上的演讲实录,AI科技评论编辑整理。此次在北京举办的MIFS 2016是由中国人工智能学会、中国工程院战略咨询中心主办,今日头条、IEEE《计算科学评论》协办的2016机器智能前沿论坛,这次论坛同时也是2016 BYTE CUP国际机器学习竞赛的颁奖仪式。 在MIFS 2016上,孙教授的演讲回顾了机器翻译波折的发展历程,同时分享了在神经翻译系统之后他们在提升机器翻译上的实践。 “算法+大数据+计算力” 这是我的题目,《当
AI科技评论
2018/03/09
6830
业界 | 谷歌的神经翻译系统并不意味着机器翻译到头了
互联网十万个为什么之什么是机器翻译?
机器翻译(Machine Translation,简称MT)是指使用计算机软件将文字或语音从一种语言翻译成其他语言的技术。
linus_lin
2024/09/06
1230
互联网十万个为什么之什么是机器翻译?
翻译们又要失业?Facebook最新无监督机器翻译成果,BLEU提升10个点!
神经机器翻译(NMT)关注的是通过 AI 在不同人类语言之间进行翻译的过程。2015 年,蒙特利尔学习算法研究所的研究人员开发出了一项新的算法模型,最终让机器给出了对应的翻译。一夜之间,像谷歌翻译这样的翻译软件质量得到了大幅度提升。
AI科技大本营
2018/09/28
1.1K0
翻译们又要失业?Facebook最新无监督机器翻译成果,BLEU提升10个点!
机器翻译的前世今生
作者:科大讯飞cobbyli、zmwang 摘自:36氪 (36kr.com) 不久前,一个实时翻译视频风靡网络,视频中两名分别说着英语和西班牙语的人借助Skype软件的实时翻译功能竟然实现了无障碍交
大数据文摘
2018/05/21
1.3K0
微软IJCAI演讲PPT Part II:深度学习在统计机器翻译和对话上的应用
前天我们翻译了微软关于NLP(自然语言处理)的PPT的概览部分,今天我们为大家带来了这份PPT的第二部分:同上次一样,我们将翻译内容放在图里的同时也写在了下面,大家可点开大图,也可按需自行查阅底部文字
AI科技评论
2018/03/07
1.2K0
微软IJCAI演讲PPT Part II:深度学习在统计机器翻译和对话上的应用
百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年
【新智元导读】12月21日,百度举行机器翻译技术开放日。本次开放日主要向外界传递的一个主题是:百度早于谷歌和微软,在一年前已经推出最近很火的基于神经网络的机器翻译(NMT)系统。 新智元讯 2016年12月21日,百度举行机器翻译技术开放日。 百度技术委员会联席主席、自然语言技术负责人吴华博士作技术报告,她说,百度早在1年多以前就率先发布了世界上首个互联网基于神经网络的机器翻译(NMT)系统,引领机器翻译进入神经网络翻译时代。 神经网络翻译技术从2014年9月提出,百度2015年5月上线首个互联网NMT系
新智元
2018/03/26
1.3K0
百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年
深度 | 神奇的神经机器翻译:从发展脉络到未来前景(附论文资源)
机器之心(海外)原创 作者:Mos Zhang 参与:Panda 机器翻译(MT)是借机器之力「自动地将一种自然语言文本(源语言)翻译成另一种自然语言文本(目标语言)」[1]。使用机器做翻译的思想最早由 Warren Weaver 于 1949 年提出。在很长一段时间里(20 世纪 50 年代到 80 年代),机器翻译都是通过研究源语言与目标语言的语言学信息来做的,也就是基于词典和语法生成翻译,这被称为基于规则的机器翻译(RBMT)。随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语
机器之心
2018/05/08
1.3K0
深度 | 神奇的神经机器翻译:从发展脉络到未来前景(附论文资源)
使用深度学习进行语言翻译:神经网络和seq2seq为何效果非凡?
我们都知道而且喜欢谷歌翻译(Google Translate),这个网站可以几乎实时地在 100 多种不同的人类语言之间互相翻译,就好像是一种魔法。 谷歌翻译背后的技术被称为机器翻译(Machine
机器学习AI算法工程
2018/03/15
1.8K0
使用深度学习进行语言翻译:神经网络和seq2seq为何效果非凡?
【Hello NLP】CS224n笔记[7]:机器翻译和seq2seq
相比于计算机视觉,NLP可能看起来没有那么有趣,这里没有酷炫的图像识别、AI作画、自动驾驶,我们要面对的,几乎都是枯燥的文本、语言、文字。但是,对于人工智能的征途来说,NLP才是皇冠上的那颗珍珠,它美丽却又难以摘取,当NLP的问题解决了,机器才真正具备了理解、思考的能力,我们才敢说实现了真正的“智能”。
beyondGuo
2020/06/12
8830
如何在 Keras 中从零开始开发一个神经机器翻译系统?
机器翻译是一项具有挑战性的任务,包含一些使用高度复杂的语言知识开发的大型统计模型。 神经机器翻译的工作原理是——利用深层神经网络来解决机器翻译问题。 在本教程中,你将了解如何开发一个神经机器翻译系统,
AI研习社
2018/03/16
1.6K0
如何在 Keras 中从零开始开发一个神经机器翻译系统?
推荐阅读
相关推荐
机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文