想象一个人形机器人能够安全且富有创意地与人类共舞,适应舞伴的熟练程度,并以触觉信号作为主要沟通形式。虽然当今的AI系统擅长基于文本或语音的交互(依托大型语言模型),但人类沟通远不止于文本——它包括具身动作、时机把握和身体协调。对两个智能体之间的耦合交互进行建模是一项艰巨挑战:这种交互是连续的、双向反应的,并受个体差异影响。本文提出CoMPAS3D,即最大且最多样化的即兴萨尔萨舞动作捕捉数据集,旨在为交互式、富有表现力的人形AI提供一个具有挑战性的测试平台。该数据集包含18位舞者(涵盖初级、中级和专业水平)表演的3小时领舞-跟舞萨尔萨舞。首次提供了精细的萨尔萨舞专家标注,覆盖超过2800个动作片段,包括动作类型、组合、执行错误和风格元素。我们将双人舞沟通与自然语言进行类比,在CoMPAS3D上评估两个合成人基准任务,这些任务平行于口语和对话处理中的关键问题:具有熟练水平的领舞或跟舞生成(说话者或听者合成),以及二重舞(对话)生成。为实现与人类共舞的长期目标,我们发布了数据集、标注和代码,以及一个能够执行所有基准任务的多任务SalsaAgent模型,同时提供额外基线以鼓励社会交互式具身AI及创意、富有表现力的人形运动生成研究。
提交日期:2025年7月25日
版本:v1
DOI:https://doi.org/10.48550/arXiv.2507.19684
感谢某机构、成员机构及所有贡献者的支持。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。