MIntRec2.0是清华大学等提出的一个大规模多模态多方基准数据集,专门用于识别对话中的意图和检测非意图内容。相较于先前的MIntRec,MIntRec2.0的数据量增至15K,涵盖30种意图类别,并包含约9.3K个意图内及5.7K个意图外的标注语句,涉及文本、视频和音频等多种模态。该数据集由1,245个对话组成,每个对话平均12个语句,每个语句均配有意图标签,且每个对话至少涉及两位发言者,所有语句均标记发言者身份。此外,针对开放世界场景的需求,MIntRec2.0引入OOS标签,用于识别不属于已知意图类别的语句,以增强系统的鲁棒性。该数据集旨在促进多模态意图理解相关研究,为实现更自然的人机交互并通往AGI之路奠定坚实基础。
详情请参见五号雷达:https://www.5radar.com/
数据集地址: https://github.com/thuiar/MIntRec2.0
领取专属 10元无门槛券
私享最新 技术干货