我正在尝试理解YOLO是如何为我正在做的一个项目工作的。我已经看了很多论文、很多文章和博客文章,但我仍然不确定为什么YOLO将整个图像划分为一个网格单元,并考虑每个单元进行计算。如果我们将整个图像视为一个细胞(不进行分割),会发生什么?这个网格单元服务的目的是什么?特定单元可以检测的对象数量是否存在最大值?
发布于 2020-12-10 22:14:59
网格单元将网络预测放在更加结构化的形式中。每个网格单元对应于图像的一个特定区域,这些单元预测其中心位于该区域的对象。因此,它是关于具有结构化的输出表示,以利用图像的空间规则性的优势。
每个网格单元可以预测形式为objectness_value、bbox_h、bbox_w、bbox_cx、bbox_cy、p1、p2、..的向量。pn。
更多的网格单元意味着更多的预测。如果你有一个网格单元(图像本身),你将有一个边界框预测。这是不实用的,因为图像中可能有许多对象。
请注意,网格单元格可以进行多个边界框预测,向输出向量添加更多的bbox偏移量。
https://stackoverflow.com/questions/60594622
复制相似问题