这里以常用的 VOC2007数据集 作为代表来讲解一下VOC数据集
官网:http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html
训练集/验证集: http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar
DevKit:http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCdevkit_08-Jun-2007.tar
带有标记的测试集:http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar
这里说明一下,VOC官方给出的数据集中,只有VOC2007是给出了带有标记的测试集的,
其他年份的数据集是没有 Anotated test data的
至于训练集train set、验证集validation set 和 测试集 test set 分别是用来干什么的,属实是没有必要在这里讲...常识性知识
那么下载完成后得到如下压缩包:
分开来讲这三个包:
其实就是 development kit code and documentation ,开发工具包代码和文档,换句话说就是怎么做出这个数据集的一些代码,和关于此数据集的说明书。解压后如下:
得到一个VOCdevkit,再打开里面:
如图所示,就是一些MATLAB代码,就是用这些代码处理的这个数据集,基本上没什么用,唯一可以看看的就是那个devkit_doc.pdf, 就是一个比较详细的说明书,有兴趣可以自己看看,比较细。
总结起来,这个压缩包对于我们使用数据 并没有什么用…,因为真正的图片并没有装在这里面,所以其实可下可不下;
这就是我们的训练集和验证集,解压后如下:
同样也是一个VOCdevkit,然后打开:
里面便是VOC2007,再点开,就得到5个文件夹:
这就是我们需要搞清楚的5个文件夹了,
字面意思,就是标注信息,打开之后全是xml文件,文件名就是图像名称,
每个文件里面有该图片的一些标注信息,训练时要用的label信息其实就来源于此文件夹
这个文件夹值得好好看一下,从名称可以猜到,这个是文件夹是 图像集合 ,
点开之后有3个文件夹:Layout 、 Main、 Segmentation
为什么会有3个文件夹呢,这其实对应的是 VOC challenge 3类不同的任务!!!
VOC challenge的 Main task,其实是 classification 和 detection,
所以在Main文件夹中,包含的就是这两个任务要用到的图像集合!
此外还有两个 taster tasks :Layout 和 Segmentation,
这两个任务 也有各自需要用到的图像,就分别存于两个文件夹中
所以这3个文件夹中包含的是3类不同的任务需要用到的不同的图片集合
我们可以点开看一看,比如点开Layout,会有train.txt 、trainval.txt 、val.txt:
点开Segmentation,也有train.txt 、trainval.txt、 val.txt:
这三个文本文档中,写的是图像的 ID号码 ,
train表示的是训练集,val表示的是验证集, trainval是把前两者写到了一起,
Main文件夹单独讲一下:
如图,打开之后有很多文本文档,一共有63个,这63个怎么来的呢?
首先你可以从中找到 train.txt、 trainval.txt、 val.txt 这 3 个,就如同前面两个文件夹一样,这三个文本文档肯定是有的,意思也是一样的。
还有20个是怎么来的?那就是20个类:
• person
• bird, cat, cow, dog, horse, sheep
• aeroplane, bicycle, boat, bus, car, motorbike, train
• bottle, chair, dining table, pottedplant, sofa, tv/monitor
一共20个类别,每个类别有该类的 类别名_train.txt 类别名_trainval.txt 类别名_val.txt 这3个文本,则20 x 3 = 60,
加上上面的3个,就是 63个文本文档。
注意一点,这里面有三个文本文档名字是:train_train.txt 、train_trainval.txt 、train_val.txt,
下划线前面的 train 是 ‘火车’, 下划线后面的 train 才是‘训练’,千万不要混到一起了
然后打开这些子类的文本文档的时候,会稍显不同,
比如打开aeroplane_train.txt (飞机)和 bicycle_train.txt (自行车)和 train.txt,
你会发现它们都有2501行,是说此任务训练集图片共有2501个
只不过 aeroplane_train.txt 和 bicycle_train.txt 每一行的图像ID后面 还跟了一个数字,
要么是-1, 要么是1,有时候也可能会出现0.
意义如下:
-1表示当前图像中,没有该类物体;
1 表示当前图像中有该类物体;
0 的话,我看了几张标0 的图像,似乎是说当前图像中,该类物体只露出了一部分。
所以我们在做训练时,读取图像的时候,其实就是先从这个ImageSets文件夹中,找到对应任务的子文件夹,
然后读取其中txt文本文档的图像ID号码, 按照这个ID号码去找图像,从哪儿找呢?就在下一个文件夹中:
字面意思,就是装的图片,点开之后全是jpg图片,
ImageSets中文本文档记录的图像编号的所有图片,都装在这一个文件夹中了,
所以我们要先通过读取不同文本中的图像ID(因为不同任务的需求),然后才来根据ID在这 JPEGImages 读取实体图像。
共有5011张个图像。
这个图像中装的是专门为 Segmentation任务做的一个文件夹,里面存放的是Segmentation任务的label信息,
就是那些花花绿绿的图片。因为Segmentation的label是需要每个像素点有一个label,
这个东西就不方便记录在Annotations文件夹中的xml文件中,更方便用同样大小的图像来记录label,每个点有一个类别信息,
你会发现该文件夹中的图片共有422张,而Imagesets文件夹中,Segmentation文件夹中的trainval.txt文档,也有422行。
这就对上号了。
实际上该文件夹中的图像的像素点上应该是0、1、2、...、20这些像素值才对,是一副灰度图。
但很明显这些像素值太低了,肉眼其实看不见什么,所以它就把这些数字转换成了较大的像素值,且是3通道的像素值,这样肉眼就方便观看,每一类(或者说每一个灰度图上的数字)对应的是同一种颜色。
这个东西叫做colormap,那么是怎么样的对应关系呢?
很明显,这个就需要去VOCdevkit_08-Jun-2007 里面找咯,那里面有创建这个数据集的所有代码
VOCdevkit_08-Jun-2007\VOCdevkit\VOCcode 中的 VOClabelcolormap.m文件,其实就是干的这个事儿,
其实这个VOCcode 文件夹里面的m文件还挺有意思的,还有各个任务的评价准则,比如那几个VOCeval文件,我以前还不知道VOC文件夹里面就写的有
这个其实现在管这个任务叫做Instance Segmentation,样例分割,
就同一图像中的同一类别的不同个体要分别标出来,也是单独给的label信息,因为每个像素点要有一个label信息
至此,VOCtrainval_06-Nov-2007 文件夹就解析完毕了
其实这个文件夹可以比照着trainval那个文件夹来理解,两个的结构是完全一样的,最里面也是5个文件夹:
所以其实解压的时候,往往是把他俩直接解压到同一个地方,然后相同名字的文件夹会合并在一起,
这个VOCtest_06-Nov-2007 和 VOCtrainval_06-Nov-2007
唯一不同的就是 这里装得是test data,即测试用的图像,及其相关的annotations,所以不再赘述
这里再次重申,再官网上,只有2007年时给了Annotated test data的,其余年份即使能下载到test data也应该是没有Annotation标注信息的,
然后真的不想再解释什么叫 train 、val 、test了
水平有限,难免挂一漏万,欢迎指正。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有