前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!

RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!

作者头像
ShuYini
发布2024-05-28 16:31:14
4920
发布2024-05-28 16:31:14
举报

引言

手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Prompt2Sign,并以此训练了手语生成大模型:SignLLM,该模型可并行生成多种手语,同时理解复杂自然语言输入。实验结果表明,SignLLM在8种手语的SLP任务上达到了最先进的性能,展示了其在多语种手语生成上的强大实力。

https://arxiv.org/pdf/2405.10718v1

背景介绍

手语生成(Sign Language Production,SLP)旨在从文本输入生成类似人类的手语化身(avatar)。基于深度学习的SLP方法通常包括从文本到词汇(即表示手势或姿势的文本词汇)、从词汇到姿势,以及最终将姿势渲染成更具吸引力的类似人类的手语化身。这些过程复杂且难以简化,使得手语数据的获取和处理变得越来越困难,这也严重降低了研究人员的热情

同时,在过去的十几年中,该领域的研究主要依赖德国手语数据集(PHOENIX14T)进行手语生成、识别和翻译任务(SLP, SLR和SLT),此外不同研究者使用不同标准的工具也增加了研究的复杂性。尽管主流数据集在推动手语生成领域发展方面发挥了重要的作用,但当面对新兴挑战时仍然存在问题,例如:

  • 1.「格式复杂」 现有数据集文件格式复杂,缺乏直接用于训练的信息;
  • 2.「劳动密集」手动注释词汇耗时、耗力,需要付出大量的人工本文;
  • 3.「扩展困难」手语视频数据集通常需要从专业人士那里获取并重新处理,这使得数据集的扩展变得困难。

以上这些问题限制了手语大模型的发展。为此,本文作者提出了一个多语种手语数据集Prompt2Sign,旨在解决现有手语数据集的局限性,并推动手语生成(SLP)、识别(SLR)和翻译(SLT)任务的研究进展,另外作者还训练了一个多语种手语生成大模型:SignLLM,生成8种语言手语骨架姿势,且都达到了SOTA水平。

Prompt2Sign

Prompt2Sign数据集源于互联网公开手语数据集和视频,涵盖了包括美国手语(ASL)在内的8种不同的手语,这使得它成为首个综合了多语种手语的数据集。下图为数据集概览,它包含了文本、提示词、视频帧以及关键点数据。

该数据集制作过程如下:

  • 首先使用OpenPose对视频进行处理,将视频帧中的姿势信息标准化为我们预定义的格式,从而减少冗余并便于使用seq2seq和text2text对模型进行训练;
  • 通过自动创建提示词来减少对手动注释的依赖,提高成本效益。
  • 最后,提高了工具的自动化处理水平,使工具高效且轻量,无需额外加载模型即可提高数据处理能力,解决了手动预处理和数据收集的难题。

尽管Prompt2Sign数据集为手语生成领域带来了新的机遇,但同时也需要对现有模型进行改进。因为先前模型在使用新数据集时会面临一些新的挑战:

  • 不同国家的手语差异导致不同手语数据不能同时训练,这限制了模型的多语言能力。
  • 处理更多语言和更大数据集会导致训练过程缓慢,下载、存储和数据加载方面也存在困难,因此需要探索高速训练方法。
  • 现有模型结构无法掌握更多语言,也难以理解更复杂、更自然的人类对话输入,需要增强模型的泛化能力和对提示的理解能力。

为克服以上问题,作者提出了SignLLM,这是第一个基于Prompt2Sign数据集开发的大规模多语言手语生成 (SLP) 模型,它可以根据文本提示生成8种语言的手语骨架姿势。

SignLLM

SignLLM 有两种不同的模式:多语言切换框架(MLSF)和Prompt2LangGloss,旨在实现高效的多语种SLP,同时避免语义混淆,并增强模型对复杂自然语言输入的理解能力。

上图展示了本文模型的输入和输出,Text是模式1的输入,Prompt是模式2的输入。两种模式处理不同的用例,具体如下:

  • 「模式1」多语言切换框架 (MLSF),它通过动态添加编解码器组并行生成多种手语。
  • 「模式2」Prompt2LangGloss,能够让 SignLLM 支持静态单组编解码器生成,旨在理解更复杂的自然语言输入。

为了减少训练时间成本,以加速模型在更多语言、更大数据集上的训练过程,作者将RL的概念应用于手语生成模型的训练过程中。

具体来说,具体来说,模型的输入序列被视为状态,输出序列被视为动作,而预测与实际结果的接近程度决定了奖励值。通过最大化期望累积奖励,传统的最小化均方误差(MSE)损失问题被重新表述,从而将RL策略应用于手语生成任务。

为了进一步提升训练效率,文中引入了优先学习通道(Priority Learning Channel, PLC)。PLC基于奖励转换为采样概率,选择更有价值(即奖励更高)的数据样本进行学习。这一策略使得模型能够根据其不断积累的知识,将注意力转移到最有价值的样本上,加速学习过程。

实验结果

下表展示了SignLLM与基线在ASL数据集上的Text to Pose任务的比较结果,可以发现SignLLM均优于基线方法。

下表展示了SignLLM在不同手语数据集上的MSLP任务的性能,SignLLM同样展现出了优秀的性能。

下表展示了SignLLM在德国手语(GSL)数据集上,与当前最先进的方法比较结果。可以发现SignLLM能够媲美或好于当前SOTA模型的性能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景介绍
  • Prompt2Sign
  • SignLLM
  • 实验结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档