基于深度学习的现代计算机视觉模型的性能主要取决于大量标记的可用训练数据集,例如开放图像数据集。然而,如何获得高质量的训练数据已经成为计算机视觉发展的主要瓶颈。例如,在无人驾驶、机器人和图像搜索等应用中,一些像素级目标预测任务,如语义分割任务,尤其需要更大更好的数据集。事实上,传统的手工标注工具要求标注人员仔细点击图像中每个对象的边界来划分图像中的对象,这非常繁琐:标注COCO + STFF数据集中的单个图像需要大约19分钟,标注整个数据集甚至需要53000小时!
左| COCO数据集中的一张图片;右边|左边,像素级语义分割结果。(来源:图像信用)
Google研究人员设计了一种机器学习驱动的工具,将在2018年ACM多媒体会议的“勇敢的新想法”链接中显示,该工具可用于标记图像数据中每个目标的轮廓和背景,并可用于标记分类数据,从而标记数据集的生成速度可以比传统方法快三倍。
这种方法被谷歌称为流体注释。从强语义分割模型的输出开始,手动注释者可以通过机器辅助方法使用用户界面来编辑和修改它。Google的开发和设计界面允许注释者选择要更正的内容和顺序,允许他们集中精力处理机器尚未理解和注释的图像。
图|可视化界面,对COCO数据集中的图像使用流体标签。(资料来源: Gamene )
为了更准确地标记图像,谷歌首先通过预先训练的语义分割模型( MASK - RCNN )处理图像。这个过程将产生大约1000个图像分割区域及其标签和置信度。具有最高置信度的分割区域用于初始化标签并将其呈现给注释者。
注释者然后可以:
( 1 )从机器生成的候选分类标签中选择当前区域的标签。( 2 )在机器未覆盖的目标上增加一个分割区域。机器将识别最可能的预生成区域,注释者将选择分割效果最好的区域。( 3 )删除现有的分割区域。( 4 )改变重叠区域的深度顺序。
演示链接:
PC platform available )
图|使用传统的手动标记工具(中间列)和流体标记工具(右列)比较COCO数据集三幅图像的标记结果。虽然使用手动标记工具时,目标的边界通常更精确,但同一物体的标记有时可能会有所不同,主要是因为人类标记通常对目标的某一类别有不同的看法。图像来源:运动鞋(上)、丹·赫特(中)、旋律Me Siano (下)。
流体标记工具的出现只是使图像标记更快更容易的第一步。未来团队的目标是改进目标边界的标记,并进一步使用人工智能来加速界面,以便最终处理以前未被识别的类别,并使数据收集更加高效和快速。
领取专属 10元无门槛券
私享最新 技术干货