手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Prompt2Sign,并以此训练了手语生成大模型:SignLLM,该模型可并行生成多种手语,同时理解复杂自然语言输入。实验结果表明,SignLLM在8种手语的SLP任务上达到了最先进的性能,展示了其在多语种手语生成上的强大实力。
https://arxiv.org/pdf/2405.10718v1
手语生成(Sign Language Production,SLP)旨在从文本输入生成类似人类的手语化身(avatar)。基于深度学习的SLP方法通常包括从文本到词汇(即表示手势或姿势的文本词汇)、从词汇到姿势,以及最终将姿势渲染成更具吸引力的类似人类的手语化身。这些过程复杂且难以简化,使得手语数据的获取和处理变得越来越困难,这也严重降低了研究人员的热情。
同时,在过去的十几年中,该领域的研究主要依赖德国手语数据集(PHOENIX14T)进行手语生成、识别和翻译任务(SLP, SLR和SLT),此外不同研究者使用不同标准的工具也增加了研究的复杂性。尽管主流数据集在推动手语生成领域发展方面发挥了重要的作用,但当面对新兴挑战时仍然存在问题,例如:
以上这些问题限制了手语大模型的发展。为此,本文作者提出了一个多语种手语数据集Prompt2Sign,旨在解决现有手语数据集的局限性,并推动手语生成(SLP)、识别(SLR)和翻译(SLT)任务的研究进展,另外作者还训练了一个多语种手语生成大模型:SignLLM,生成8种语言手语骨架姿势,且都达到了SOTA水平。
Prompt2Sign数据集源于互联网公开手语数据集和视频,涵盖了包括美国手语(ASL)在内的8种不同的手语,这使得它成为首个综合了多语种手语的数据集。下图为数据集概览,它包含了文本、提示词、视频帧以及关键点数据。
该数据集制作过程如下:
尽管Prompt2Sign数据集为手语生成领域带来了新的机遇,但同时也需要对现有模型进行改进。因为先前模型在使用新数据集时会面临一些新的挑战:
为克服以上问题,作者提出了SignLLM,这是第一个基于Prompt2Sign数据集开发的大规模多语言手语生成 (SLP) 模型,它可以根据文本提示生成8种语言的手语骨架姿势。
SignLLM 有两种不同的模式:多语言切换框架(MLSF)和Prompt2LangGloss,旨在实现高效的多语种SLP,同时避免语义混淆,并增强模型对复杂自然语言输入的理解能力。
上图展示了本文模型的输入和输出,Text是模式1的输入,Prompt是模式2的输入。两种模式处理不同的用例,具体如下:
为了减少训练时间成本,以加速模型在更多语言、更大数据集上的训练过程,作者将RL的概念应用于手语生成模型的训练过程中。
具体来说,具体来说,模型的输入序列被视为状态,输出序列被视为动作,而预测与实际结果的接近程度决定了奖励值。通过最大化期望累积奖励,传统的最小化均方误差(MSE)损失问题被重新表述,从而将RL策略应用于手语生成任务。
为了进一步提升训练效率,文中引入了优先学习通道(Priority Learning Channel, PLC)。PLC基于奖励转换为采样概率,选择更有价值(即奖励更高)的数据样本进行学习。这一策略使得模型能够根据其不断积累的知识,将注意力转移到最有价值的样本上,加速学习过程。
下表展示了SignLLM与基线在ASL数据集上的Text to Pose任务的比较结果,可以发现SignLLM均优于基线方法。
下表展示了SignLLM在不同手语数据集上的MSLP任务的性能,SignLLM同样展现出了优秀的性能。
下表展示了SignLLM在德国手语(GSL)数据集上,与当前最先进的方法比较结果。可以发现SignLLM能够媲美或好于当前SOTA模型的性能。