现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。今天来介绍一下如何进行数据标注。
文章共两个部分:(1)数据标注综述(2)数据标注指南
本文是第二部分:数据标注指南。本文可能会帮助读者更直观的认识对图片标注中的问题。
本文的标注要点来源于图像标注专家Adela Barriuso的标注笔记。她于2007年开始使用labelme系统地标注SUN数据库,标注了 超过25万个物体。笔记记录了标注过程中曾遇到的困难和采用的解决方案,以便得到一致性高的图片标注。
Adela Barriuso在西班牙的一家服装店里进行数据标注,这就是传说中的大隐隐于市吗?
下面是Adela Barriuso在数据标注中的心得:
· 在标注图像时,首先对图像进行整体的评估,衡量标注难度。有些乍一看标注难度较大的图像,实际上图中的元素很少,很容易标记。
· 标注时,通常由大到小进行标注。比如开放空间中先标注天空,封闭空间内先标注天花板,然后再继续添加其他东西。
· 标记的顺序不重要,但标注时最好一行行进行,将一行内所有类型相同的对象全都标注上,降低标签写错的可能。
· 一般不标注镜子里反射的物体,这很容易造成误导。
· 在图像中有很多线条性物体时(如下图中的扶手和栏杆),需要特别注意,有可能标注出与所需完全相反的内容(即孔内被标记为对象),标注线在同一个位置经过两次是正常的,刻意避免可能会出现上述情况。
· 标注图像中出现打开的门窗等情况时,不仅仅要标注门窗,也应将门窗内的物体也标注上,这有助于增加深度感。
· 标注时的标注线条要清晰一些,尽量避免线条的堆积。
· 像下图中的这种过于复杂的图片,如果你对图中的内容不够熟悉,就干脆跳过去。
· 如果一个物体被另一个物体遮挡,在给他们做标注时要给两个物体都贴上标签,同时确保它们的边缘重合。
· 在进行标注时有时需要放大和缩小,放大有助于标注一些小细节,但放大有可能造成错乱。有些东西的局部放大后变得像其他物体。因此在标注之后需缩放至原始大小进行审核。
· 标注室内空间时,一般单独标记不同方向的墙,即便它们是相互连接的。
· 在下图中,图像的复杂性是由于墙壁和拱门形成的不同深度平面造成的,在标记时需要给拱门内的元素进行标记。首先从两堵墙开始,然后给墙壁和容易分辨的大物体进行标注,最后再去标注小的一些细节。有时候遗漏是不可避免地
· 有时候某些容器是透明的,比如透明的容器内装着一些饼干,这时候是标注“容器”还是“饼干”呢?一般标注为“容器”,重点在于要保持标注原则的前后一致。
· 有时候标注标签并非自己的母语,当标注的目标物种类较多时,一定要建立一个标签的对应关系,方便查找,如bed:床