本文来源:《中国科学报》
新系统无需人类监督实现平行文本多语种匹配
得益于神经网络(从人脑获得灵感的计算机算式)的发展,自动化的语言翻译已经存在了相当长一段时间。但训练这些网络需要海量数据:数以千万计的逐句翻译,以展示人类如何做这项工作。现在,两篇新论文表明神经网络可以在无需平行文本的情况下学习翻译——这一令人震惊的进展或让人们获得许多不同语言的文献记录。
“想象一下,你给一个人很多中文书籍和阿拉伯语书籍,而且它们没有任何重叠性,然后一个人需要学习将其从中文翻译为阿拉伯语。这听起来似乎不可能,对吧?”其中一项研究的第一作者、西班牙圣西巴提巴斯克国家大学(UPV)计算机专家Mikel Artetxe说,“但我们证明计算机可以做到这一点。”
大多数机器学习——神经网络和其他从经验中学习的计算机算式——会受到“监督”。计算机会进行推测,然后接收到正确答案,并据此调整相应的过程。在教一台计算机如何在诸如英语和法语之间进行翻译时,这种模式会非常有效,因为很多文献在这两种语言中同时存在。但它对于罕见的语言,或者是那些没有很多平行文本的通用语言并不奏效。
这两篇尚未经过同行评议的新文章均已被提交给明年的国际学习代表会议,它们聚焦了另一种方法:无监督机器学习。一开始,计算机在没有人类老师告诉它们其推测是否正确的情况下建设双语词典。这是因为语言在词汇结合方面有着很强的相似性。例如,在各种语言中,桌子和椅子的词汇经常会一起使用。因此,如果计算机将这些共性像一个城市巨大的公路地图那样描绘出来,那么不同语言的地图就会彼此相似,只不过它们拥有不同的名字。如此一来,计算机就能找出将一个地图集覆盖在另一个地图集上的最佳方法。瞧!一本双语词典出现了。
这两篇文章运用了非常类似的方法,均能在语句层面进行翻译。它们均使用两种训练策略,即回译和去噪。在回译中,一种语言中的一句话被粗略地翻译成另一种语言,然后再被转译回最初的语言。如果回译的语句与最初语句并不相同,那么将对神经网络进行调整,从而使它们下一次翻译得更加准确。去噪类似于回译,但它不是从一种语言翻译为另一种语言,然后再转换为原语言,而是在一个句子中加入噪音(重新编排或是删除词汇),并尝试将其翻译到原语言中去。这两种方法相结合教会了网络更深层次的语言结构。
不过,这两种技术之间也有些微差异。UPV的系统在训练过程中进行了更多的回译。而另一个由位于法国巴黎的脸谱网计算机科学家Guillaume Lample与其合作者研发的系统,则在翻译过程中加入了额外的步骤。在将其“解码”为另一种语言之前,两套系统都会将一种语言的一个句子编码为一种更加抽象的表征,但脸谱网的系统验证了中间的“语言”是真正抽象的。Artetxe和Lample均表示,他们可以通过应用对方论文中的技术改善自己的结果。
在两篇论文之间进行的唯一直接对比结果中——对约3000万个语句在英语和法语文本之间进行翻译,两套系统在双向翻译中均获得了15分的双语评估分数(用来衡量翻译准确性)。这个分值没有谷歌翻译高(该系统所用的受监督的方法得分为40分),也不如人类翻译得分高(超过50分),但却比逐字翻译要好得多。作者表示,两套系统可以很容易地通过变为“半监督性”得到改善,即把数千个平行的语句加入到它们的训练中。
除了不需要平行文本进行跨语言翻译之外,Artetxe和Lample均表示,他们的系统有助于进行诸如英语和法语之间的常用翻译匹配,特别是如果平行文本是同一类的话,如新闻报道。但除此之外,人们还希望将其翻译为不同类型的文本,如街头俚语或是医学术语。“但这一切尚处于新生阶段。”Artetxe的共同作者Eneko Agirre说,“我们刚刚开辟了一条新的研究大道,现在我们还不知道它会通向哪里。”
北京中国微软计算机学家、对上述两项研究产生影响的Di He说:“在没有人类监督的情况下,计算机能够学习翻译,这令人吃惊。”Artetxe说,他的方法和Lample的方法被上传到arXiv预印本服务平台的时间前后仅相隔1天,这样的时间巧合令人吃惊。“同时,它意味着这种方法的确是正确的方向。” (冯丽妃编译)
领取专属 10元无门槛券
私享最新 技术干货