萨尔萨舞作为非语言具身语言——CoMPAS3D数据集与基准测试

原创

用户11764306

发布于 2025-09-15 22:33:56

430

萨尔萨舞作为非语言具身语言——CoMPAS3D数据集与基准测试

摘要

想象一个人形机器人能够安全且富有创意地与人类共舞，适应舞伴的熟练程度，并以触觉信号作为主要沟通形式。虽然当今的AI系统擅长基于文本或语音的交互（依托大型语言模型），但人类沟通远不止于文本——它包括具身动作、时机把握和身体协调。对两个智能体之间的耦合交互进行建模是一项艰巨挑战：这种交互是连续的、双向反应的，并受个体差异影响。本文提出CoMPAS3D，即最大且最多样化的即兴萨尔萨舞动作捕捉数据集，旨在为交互式、富有表现力的人形AI提供一个具有挑战性的测试平台。该数据集包含18位舞者（涵盖初级、中级和专业水平）表演的3小时领舞-跟舞萨尔萨舞。首次提供了精细的萨尔萨舞专家标注，覆盖超过2800个动作片段，包括动作类型、组合、执行错误和风格元素。我们将双人舞沟通与自然语言进行类比，在CoMPAS3D上评估两个合成人基准任务，这些任务平行于口语和对话处理中的关键问题：具有熟练水平的领舞或跟舞生成（说话者或听者合成），以及二重舞（对话）生成。为实现与人类共舞的长期目标，我们发布了数据集、标注和代码，以及一个能够执行所有基准任务的多任务SalsaAgent模型，同时提供额外基线以鼓励社会交互式具身AI及创意、富有表现力的人形运动生成研究。