【目标检测实战】检测器至少需要多少图像？

AIWalker

发布于 2022-03-29 20:35:58

1.6K0

文章被收录于专栏：AIWalkerAIWalker

作者：Changsin Lee 翻译：Happy 链接：Changsin Lee@Medium

不知你有没有想过：训练一个检测器至少需要多少图像？又该如何处理数据不平衡问题？

在这篇文章中，作者期望回答一下三个与目标检测训练数据相关的问题：

第一个问题的重要性并未得到足够的重视。一般来讲，预处理(数据收集、数据清洗、数据标注)占据了一个AI算法的至少80%时间。因此，我们希望以最小的投入获取最大的回报。

第二个问题对于任何实际AI项目来说都是一个常见问题：常见数据可以轻易得到一个好的性能，而不常见数据却很难得到好的性能。过采样与欠采样是解决类别不平衡常见的两种策略。

对与训练模型进行微调变得越来越重要，这是因为：一个AI模型无法满足所有应用场景，我们需要频繁的对其微调以适配新的数据(即跨域微调)。

接下来，作者将以YOLOv5+Korean Sidewalkd数据回答上述问题。

目标检测旨在对图像或视频中的实例进行定位与识别，即回答where与what这两个问题。在上图中，我们可以看到已标注bbox与label信息的行人、车辆、板凳。

为获得上述反馈，目标检测器需要定位目标在哪并识别它属于哪个类别，前者对应目标定位，后者对应目标分类。

为训练一个目标检测模型，我们需要准备一个包含图像以及对应目标位置+标签标注的数据集。然而，构建这样一个数据集非常耗时，幸运的是，已有许多公开数据集，COCO则是目标检测领域最常用数据集，它包含80个类别。

YOLO是目标检测领域应用最广泛的检测器(没有之一)，YOLOv5更是因为高效率、易部署、易扩展等受到诸多从业人员的追捧。基于YOLOv5而引申出了不少知名的检测器，如YOLOv5-lite就是其中佼佼者。

在后续文章中，我们以YOLOv5s为基础，除batch(16)与epoch(100)外，其他超参均为默认参数。

该数据集包含670000+带标注信息的图像，其中有约352810带有bbox标注信息，故我们采用这部分用于模型训练，下图给出了该部分数据的分布以及类别信息。注：我们仅采用了top15类用于训练与测试。

关于该数据集有几个比较重要的信息：

类别不平衡：该数据集存在严重类别不平衡问题，top5占据了70%左右，top15占据了90+%，最常见的类别car在整个数据集中的比例高达24%(可参考上图)。
同一图像存在多实例：在每个图像中，存在多个同类别目标。比如，每个图像中包含3-4个car目标(这个很容易理解，因为数据就是人行道拍摄图像)。
De-identified：人行道图像包含一些私人信息，如人脸、车牌。为保护信息，这个带有私人信息的图像在标注与发布之前进行了特殊处理，可参考下图的车牌。