华为开发者大会2022(HDC)上,HMS Core手语数字人以全新形象亮相,并在直播中完成了长达3个多小时的实时手语翻译,向线上线下超过一千万的观众提供了专业、实时、准确的手语翻译服务,为听障人士提供了无障碍参会体验。面对专业性强且词汇量大的科技大会,HMS Core手语数字人是如何准确且流畅地打出手语的?
【解决三大技术难题,科技词汇信“手”拈来】
直播中的实时手语翻译较传统翻译和文本转手语的翻译更为复杂,主要在于语音识别过程中各类场景声学环境复杂难部署;手语词汇数据量少,尤其是专业领域词汇较为匮乏;同时,手语语言具有独特的语序逻辑,并非按照日常说话顺序逐字翻译,而要对语句进行语序调整,比如“我有许多朋友,其中既有健听人,也有聋人”的手语语序是“我/朋友/多,听人/有,聋1/有”。由于手语视觉语言的独特性,手语表达中表情、动作位置、动作方向、体态变化、动作幅度大小等都是影响手语可懂度的重要因素。
为了让手语数字人实现高可懂度的AI手语能力,HMS Core手语服务技术团队整合了“语音、手语”全链路的AI能力,解决了三大技术点:语音识别的准确度、手语翻译的准确度、手语动作的流畅度与节奏感。
首先,为了确保直播中演讲者语音能被精准识别,尤其是大量中英文混合的技术名词,HMS Core手语数字人语音识别功能,采用动态的流式声学建模技术,实现了1秒以内即可出识别结果,同时借助热词等定制手段,专业术语的识别效果也得到了定向优化,这为手语数字人下一步的手语翻译提供了高精准度的文本基础。
在手语翻译准确度方面,HMS Core手语服务专门组织了一个动作优化团队,并在机器翻译、手语转写等算法方面进行了创新:通过机器翻译算法,中文表达可快速转写为手语表达,并自动进行词序调整、词义消歧、表情分析;通过双重迁移学习等方法,让算法理解句子的语义和语境,并准确估计出每个手语词对应的体态、表情及口型,实现手语动作、体态、表情、口型全方位地生动表达,有效提升手语转写的准确率及速度。
此外,手语生成方案融合了大量手语语言学研究成果,通过调整词、词组、句子之间的停顿及速度等,增强节奏感。同时,参考新闻手语主播的手语打法,预训练模型的语句浓缩算法,可将复杂的长句浓缩为简单的短句,并基于语义进行翻译,最终生成流畅且符合听障人士表达习惯的手语动作。
对于在HDC大会上常用的科技词汇“华为”,“鸿蒙”及“人工智能”等,其标准打法已纳入HMS Core手语词汇库。而对于大会上“原子化服务”等较少见的组合型专业词汇,则按字面意思将其拆解成“原子”“化”“服务”三个手语动作,同时生成对应的口型。
【产品竞争力跃升,从技术创新到产业应用】
HMS Core手语服务经过一年多的发展和技术迭代,目前已支持2万+中文手语词汇,匹配日常沟通交流、新闻、教育、政务办理等丰富场景。当前手语数字人不仅能流畅地打出手部动作,还有丰富的表情和准确的口动,从微笑、开心到惊讶、疑惑、失望等,多达26种表情,灵动又逼真,做到了“听得准”、“翻得对”、“打得好”,更好地为保障听障者的社会参与提供了助力。
目前,HMS Core手语服务已携手音书、知音、畅听无碍、开普云、棉花糖科技、未来媒体、硅基智能等众多开发者,成功将AI手语翻译能力应用在各行各业,完善了无障碍环境建设。畅听无碍app,通过集成HMS Core手语服务,在应用内实现了AI手语翻译功能,让听障人士随需随用,满足他们在日常生活中沟通交流、学习娱乐的需求,同时还能帮助他们在政府、医疗、金融、法律等专业公共服务领域实现无障碍交流。
HMS Core手语服务的应用将不断助力开发者搭建更好的无障碍传播环境,帮助听障者更好地享受信息化发展成果,为他们带来更多陪伴、更多实时交互以及更深的情感联结。未来,HMS Core手语服务,将持续践行“科技,不让任何一个人掉队”,与广大开发者伙伴一起,助力构建数字生态,让无障碍体验惠及更多人。如需进一步了解HMS Core手语服务,请访问developer.huawei.com/consumer/cn/hms/signpal-kit/?ha_source=hmswm。
领取专属 10元无门槛券
私享最新 技术干货