本文介绍了一种用于语义图像分割的轻量级结构LiteSeg。论文探索了一个新的更深层的Atrous Spatial Pyramid Pooling module (ASPP),并应用了长短残差连接以及深度可分离卷积,从而得到了一个更快、更有效的分割模型。LiteSeg体系结构在多个backbone上进行测试,如Darknet19、MobileNet和ShuffleNet,在准确性和计算成本之间提供多重权衡。以MobileNetV2为主干网的LiteSeg模型,在Cityscapes数据集上针对640×360分辨率的图像以每秒161帧的速度,达到了67.81%的mIoU精度。
基于编解码结构、Atours Spatial Pyramid Pooling (ASPP)、空洞卷积和深度可分离卷积,论文设计了一种能够适应任何backbone的LiteSeg结构。通过选择不同的backbone,将允许在计算成本和精度之间进行权衡,以满足多种需求。
详细来说主要有两点:
下图所示的网络结构思想也比较简单,主要是不同膨胀率的空洞卷积和浅层深层特征连接,后期进行解码生成分割图。其实思想比较简单,但是可以将该思想广泛应用到不同backbone中~
编码效果对比:
参数和fps对比:
Cityscapes数据集上实验结果对比:
可以发现,LightSeg结构有很大的优越性。
上述内容,如有侵犯版权,请联系作者,会自行删文。