12月21日,首个具备多模态认知能力的同传系统——搜狗同传3.0在极客公园创新大会上使用。基于搜狗独创的“语境引擎”,搜狗同传3.0以“多模态”和“自主学习“为核心,加入视觉和思维能力,让机器同传不仅会听,还首次具备了会看、能理解会推理的能力,引领AI同传进入了多模态认知时代。
搜狗同传技术再升级,解锁两项“超能力”
AI同传一直是人工智能技术的重点领域。2016年,搜狗在“第三届乌镇互联网大会”上发布行业第一个商用AI同传产品——搜狗同传1.0,在打造了这一全新品类的同时,用AI技术助力同声传译行业,有效推动了跨语言的交流和表达。2018年发布的搜狗同传2.0,为用户提供了更丰富的个性化定制能力,能够基于用户实时定制识别和翻译。两代搜狗同传的核心能力都在于“听”,都是利用搜狗领先的语音识别和机器翻译等技术,将声音实时转换为相应的中英文字幕。
但通过数千场机器同传的实际应用,搜狗发现,业内主流的语音同传系统无法稳定并且高质量的满足多样化的演讲场合需求,存在演讲内容中专业词汇的识别和翻译效果不佳的情况,这在很大程度上影响了机器同传的实用效果。
为了解决上述问题,搜狗在AI同传领域首创“语境引擎”,使得搜狗同传在“能听”的基础上,又解锁了“会看”和“能理解会推理”两项新技能,不仅能够通过“观看”自主学习演讲者的报告内容,更能够通过“理解”和“思考”,做出高质量的识别和翻译,这再次引领了行业的技术进步。
AI同传技术新突破,与演讲者一起“边看边思考”
“会看”,意味着同传首次具备了视觉能力。基于搜狗OCR(光学字符识别)技术,搜狗同传可以实时准确“观看”演讲者的PPT内容,将PPT的图像内容转化为语言文字,充分获取到当前演讲的个性化信息。
“能理解会推理”,则意味着同传具备了与人“共情”的能力。这归功于搜狗语境引擎的应用。该技术的原理是基于搜狗知识图谱和百科的知识推理能力,将通过OCR技术获取的演讲内容自动生成核心知识,并通过搜狗领先的知识图谱-搜狗知立方实时推理拓展,获取充分的背景知识,同时基于搜狗百科的中英术语库得到中英双语对照,实时优化同传识别和翻译的效果。
基于搜狗语境引擎开发的搜狗同传3.0 为演讲者构建了个性化的认知语境,能够跟随演讲者一起“思考”,无疑是AI同传领域的又一大技术创新。特别是经过多重“感官”的调用,搜狗同传不仅可以做到翻译更加快速和准确,而且会更加自然,更加专业,更加智能。数据显示,在“听”“看”“思考”三位一体的作用下,搜狗多模态同传系统针对PPT内容的识别准确率提升21.7%,翻译正确率提升40.3%。未来,这一系统将会在大会演讲、视频翻译、实时直播字幕等场景得到应用,为人们带来准确流畅的同声传译服务。
搜狗再次引领AI同传进入新时代
搜狗同传一直代表着AI同传领域顶级的水平。所以,每一次技术创新和产品更迭,都对行业有显著的引领作用。
三年前,搜狗首次发布商业化AI同传,借助于搜狗领先的语音识别和机器翻译等技术,能够更加准确快速的将声音实时转换为相应的中英文字幕,与人工同传形成互补,彻底改变了各种行业大会只能依靠人工同传,容错率低的问题,打造全新品类的同时,也引领同传行业进入了AI时代。
而这次上线的搜狗同传3.0,运用搜狗独创的语境引擎,除了“能听”还能同时做到“边看边思考”,使得识别准确率和翻译正确率均获得大幅提升,AI同传行业由此也迎来了全新的“多模态认知”时代。
领取专属 10元无门槛券
私享最新 技术干货