搜狗同传使用了如下四类技巧来提升模型质量:
用命名实体标注模型(NER)和神经网络实体翻译器对人名的罕见词进行翻译;
多模型集成(ensemble)来给出最优翻译结果;
重打分/重排序(rescoreorrerank)机制选出最优翻译;
采用了GeoffreyHinton团队提出的网络层正则化(layernormalization)技术,提高模型训练效率,同时改善模型的翻译质量。
除此之外,机器翻译的最终效果不仅和算法相关,还和数据密不可分。对同传来说,人们希望以更加自然、接近人和人交互的方式来进行,同时也希望翻译引擎能更多的理解人的语言需求,在合成时的语言表达更加自然。
搜狗作为一家搜索公司积累的庞大语料库,对机器翻译效果的提升有很大帮助。根据搜狗方面给出的预测数据,目前搜狗语音识别的准确率为97%,支持最快每秒400字的高速听写,语音输入日频次高达3.4亿次,搜狗语音翻译的准确率则可以达到90%。
实现全人类之间的顺畅交流一直是人类的梦想,如今人工智能让人们看到了实现这一梦想的希望,这也是AI翻译让大众持续兴奋、让技术公司和研究人员保持动力的最大原因。
回想一年之前,人们还自信地认为AI取代传统人工同声传译“为时尚早”,但在短短一年时间里,搜狗同传就已经支持了数百场国内外会议,多次应用于前沿国际科技大会,成为国际顶端会议的标配,充分展示了国内企业在人工智能技术领域的发展和实力。
搜狗同传是AI技术落地实际应用的优秀案例,在本次大会的亮相更是反映出AI技术在应对全球跨语言交流、提高人类工作效率方面所具有的巨大潜力,为与会的各界人士对未来人工智能技术的普遍应用带来信心和期待。
领取专属 10元无门槛券
私享最新 技术干货