脸书昨(19)日宣布将首个不需通过英语、可直接翻译两种语言的AI模型M2M-100开源出来。
脸书指出,一般机器翻译需要为每种语言及每种任务创建一种AI模型,由于英语训练资料较充裕,因此形成以英语为中心的翻译模式;碰上要翻译非英语的两种语言,例如中文和法文时,大部分机器翻译采取法文翻成英文,再由英文翻成中文。脸书指出,这种需要以英文为中介的翻译会导致初衷流失或翻译错误,并不适合脸书平台上160多种语言贴文翻译的需求。
今天于GitHub发布的M2M-100是脸书AI多年机器翻译研究的成果。它是第一个不需依赖英语直接为100种语言中的2种进行翻译的单一多语言机器翻译(multilingual machine translation,MMT)。脸书解释,该公司利用新的探勘技术取得翻译资料,并以找来的1000亿句子为基础创建“多对多”的资料集,这个多对多系统也是第一个使用脸书最新PyTorch library Fairscale的系统,形成的资料集包含100种语言、2,200种翻译方向(如中文到法语算一种)的75亿句子。最后他们使用多种技术来训练这个具备150亿个参数的单一模型。
脸书指出,名为M2M-100的模型可搜集相关语言信息,反映更多样化语言及构词学的面向。脸书声称,根据一次BLEU(bilingual evaluation understudy,比较机器翻译和1个以上人工参考翻译的品质测量)测试下,该模型和传统双语翻译效果一样好,并比脸书现在以英文为中心的多语言翻译模型还高出10分。
脸书表示未来计划以M2M-100来取代现行使用的机器翻译模型,来提升平台上的语言翻译品质,特别是数百万人使用的弱势语言。
领取专属 10元无门槛券
私享最新 技术干货