首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

脸书开源可直接翻译上百种语言的AI模型

脸书昨(19)日宣布将首个不需通过英语、可直接翻译两种语言的AI模型M2M-100开源出来。

脸书指出,一般机器翻译需要为每种语言及每种任务创建一种AI模型,由于英语训练资料较充裕,因此形成以英语为中心的翻译模式;碰上要翻译非英语的两种语言,例如中文和法文时,大部分机器翻译采取法文翻成英文,再由英文翻成中文。脸书指出,这种需要以英文为中介的翻译会导致初衷流失或翻译错误,并不适合脸书平台上160多种语言贴文翻译的需求。

今天于GitHub发布的M2M-100是脸书AI多年机器翻译研究的成果。它是第一个不需依赖英语直接为100种语言中的2种进行翻译的单一多语言机器翻译(multilingual machine translation,MMT)。脸书解释,该公司利用新的探勘技术取得翻译资料,并以找来的1000亿句子为基础创建“多对多”的资料集,这个多对多系统也是第一个使用脸书最新PyTorch library Fairscale的系统,形成的资料集包含100种语言、2,200种翻译方向(如中文到法语算一种)的75亿句子。最后他们使用多种技术来训练这个具备150亿个参数的单一模型。

脸书指出,名为M2M-100的模型可搜集相关语言信息,反映更多样化语言及构词学的面向。脸书声称,根据一次BLEU(bilingual evaluation understudy,比较机器翻译和1个以上人工参考翻译的品质测量)测试下,该模型和传统双语翻译效果一样好,并比脸书现在以英文为中心的多语言翻译模型还高出10分。

脸书表示未来计划以M2M-100来取代现行使用的机器翻译模型,来提升平台上的语言翻译品质,特别是数百万人使用的弱势语言。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201020A0A2MY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券