泡泡图灵智库,带你精读机器人顶级会议文章
标题:AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding
作者:Jiahong Wuy, He Zhengy, Bo Zhaoy, Yixin Liy,
Baoming Yany, Rui Liangy,Wenjia Wang, Shipei Zhou, Guosen Lin, Yanwei Fu, Yizhou Wang, Yonggang Wangz
来源:AI Challenger
播音员:
编译:侯延华
审核:谢泽茹
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
计算机视觉取得了重大进展,这有赖于大规模数据集,然而在分类以外更复杂的应用(人体关键点检测、zero-shot识别、中文图像说明)中仍然缺少足够的数据集。 本文提出大规模数据集AIC,其中包含3个子数据集:
HKD:人体关键点检测,包含300,000张图片(主要人物关键点)
LAD:大规模属性数据集, 包含
81,658 张图片,240 类 and 359 属性
ICC:中文图像说明数据集,300,000 张图片
这些数据集沟通了底层图像和高层概念间的语义鸿沟,可以作为检验和提高算法的基准。
子数据集HDK,ICC有超过95%的重叠,便于协同处理两个不同的任务。
主要贡献
本文提出的数据集提供了
1、评估各种计算机视觉算法的基准。
2、预训练各种模型的资源。
3 、就我们所知是目前第一个中文图像说明数据集。
算法流程
1人体关键点检测
人体关键点检测在姿态估计、行为识别、非正常行为检测中有很重要作用,然而人物数量、位置、尺度,人物间交互、遮挡等因素使得这个任务非常具有挑战性。人体关键点检测大致包括top-down,bottom-up两类方法,CNN有着广泛的应用,通常需要大规模有标记数据集避免过拟合,现有数据集主要有MSCOCO,MPII
图1 人体关键点数据集对照表
1.1、样本标记说明:
1右肩,2-右肘, 3-右手腕,4左肩,5-左肘, 6-左手腕,
7-右胯, 8-右膝, 9-右脚踝,10-左胯, 11-左膝, 12-左脚踝,
13-头顶, 14 颈
每个关键点有3个标签 :标记并可见,标记不可见, 未标记.
图2 不同类型关键点的分布
1.2. 使用二阶中心矩评估人工标记引入的噪声,是每类关键点到其中心的欧式距离的方差的最大似然估计。
图3 人工标记的偏差和姿态多样性(a)浅色圆的半径代表该类型关键点人工标记的偏差,反应了预测的难度(b)随机抽取100人对齐后绘制的四肢。
1.3、关键点检测评价指标:
1.4. baseline model & experiment
本文使用了预训练模型:
Detector:
模型:Single Shot MultiBox Detector
数据集:Pascal VOC
输出:human boundingboxes
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
模型:Mask R-CNN/DeepLab
数据集:MSCOCO
输出:human masks
1.5.实验结果
2.基于属性的零样本识别 (ZSR)
2.1现有数据集存在样本量少、缺乏语义属性、与imageNet相似度过高、分布有偏等问题。
表3 属性数据集对照表(*表示估计)
图4 数据集示例
既标记了视觉属性也标记了语义属性
2.2Baseline Methods
首先将图像和标签嵌入到图像特征空间(使用了 ImageNet 数据集ResNet 预训练模型 )
测试了3种基本方法
SOC:用可见数据学习从图像特征空间到语义嵌入空间的线性映射函数。
ESZSL:学习映射来衡量图像特征和语义嵌入的相容性。
MDP:学习语义嵌入的局部结构
2.3实验结果
MDP优于ESZSL优于SOC
表4 3种方法的零样本识别对照表
3.中文图像说明
早期处理这一任务的方法分两种基于模板的和基于检索的。
近期的方法采用了
encoder-decoder:通过cnn 将图像编码为特征向量,然后送入rnn 产生文字说明。
强化学习框架:policy network和value network协同产生文字说明。
可用的数据集Pascal VOC 2008,Flickr8k,Flickr30k,MSCOCO, SBU都是英文数据集,分别包含大约8,000, 31,000 ,300,000 幅图像及5 句英文说明。就我们所知ICC是规模最大的中文说明数据集。
表5数据集对照表
本文使用了show and tell模型,属encoder-decoder框架:意在最大化正确描述的概率。
采用中文"Jieba"分词器,实验结果见表6
表6
图8数据集示例
前5句人类标记,
第6句 baseline model 在MSCOCO数据集上产生,
第7句 baseline model 在ICC数据集上产生,
领取专属 10元无门槛券
私享最新 技术干货