Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2020丨ADSCNet: 自纠正自适应膨胀率计数网络解读

CVPR 2020丨ADSCNet: 自纠正自适应膨胀率计数网络解读

作者头像
马上科普尚尚
发布于 2020-07-17 06:54:52
发布于 2020-07-17 06:54:52
6950
举报

编者按:在CVPR 2020上,商汤团队提出的自纠正自适应膨胀率计数网络,针对计数任务中点标注位置不一致和透视现象造成巨大的尺度变化的问题提出了有效的网络设计和监督方法。在监督方式方面,ADSCNet利用网络学习的结果来纠正不一致的人工标注从而更有效的训练;在网络设计方面,ADSCNet提出自适应膨胀率的卷积结构,不同位置采用不同的膨胀率来适应尺度的变化。ADSCNet在四个公开数据集上均有显著的提升。

作者:知乎—商汤科技SenseTime

地址:https://www.zhihu.com/org/shang-tang-ke-ji-sensetime

论文名称:

《Adaptive Dilated Network with Self-Correction Supervision for Counting》

问题和挑战

目标计数作为计算机视觉的一个重要方向。在工业界有着广泛的应用,例如交通场景下的拥堵判断,视频监视下的流量统计以及地铁中的人流分析等。近年来,使用卷积神经网络(CNN)的方法取得了显著的进展。但是,这项任务仍然具有挑战:

a. 由于密集的场景,对于目标多采用点标注的方式,这就带来标注位置不一致的问题,如下图(a)的黄点,点的位置可能在嘴上,眼睛,耳朵等。那么究竟哪里才是更有利于网络学习的位置呢?

b. 如下图(b)在监控的密集的场景下,不但在不同的场景中目标的尺度差异大,而且在同一张图中也有由于透视现象造成目标会有巨大的尺度变化。

方法介绍

针对以上提出的问题,我们提出了一个新颖的计数框架,如下图所示。它由自适应膨胀卷积网络和自校正监督组成。在这一部分,我们首先会从高斯混合模型(GMM)的角度理解传统的目标密度图,然后我们将介绍如何利用一种期望最大化(EM)的方式进行自纠正更新标签,最后将介绍自适应膨胀率卷积的网络结构和实现细节。

1. 自纠正的监督方式

动机:随着模型的训练的进行,不一致的点标注会影响网络学习的上限。通过观察发现学习一定时间以后,网络预测的密度在响应位置一致性上好于人工标注。所以我们希望通过利用网络的预测来纠正标注的位置,从而得到更一致同时更有利于网络学习的密度图标签。

方法:将高斯密度图看作一个高斯混合模型(GMM):

其中D表示高斯密度图,K表示目标个数,x表示图中的位置

这里可以用人工标注的点作为均值,固定值为方差,生成高斯混合模型的初始分布,而网络预测的密度图可以近似看作网络根据图像特征预测的一个目标分布。我们的方法就是利用网络预测来以一种类似期望值最大化(EM)的方式更新高斯混合模型从而得到适合的标签。

具体方式如下:

E步骤:

M步骤:

其中X表示位置矩阵随着E和M交替执行,我们会得到更一致响应的标签。在更新的过程,由于已知每个目标对于整体的分布是相同的,所以对于重新估计的权重系数π我们会固定为1/K.

自纠正损失函数:

提出的自纠正损失函数包含两个部分,一个部分是直接全图和纠正后密度图比较L1距离,这部分关注整图数量上的误差,第二部分为权重系数的监督,主要关注个体,保证对于整体的贡献一致

总体而言,提出的自纠正监督具有许多理想的属性。首先,它能够容忍标注偏差。动态更新目标密度图可以纠正某些标签的偏差,以帮助模型学习到一致的特征表达。其次,对于方差的变化是鲁棒的。可以根据图像特征采用迭代调整方差以适应响应区域。第三,它对象数量的变化很敏感。混合系数的波动有效地反映了漏检和误检。下面展示了密度图估计中的四种常见情况(抖动,方差增加和高斯核的变化)自纠正的对比。

2. 自适应膨胀率网络结构

我们从两个角度设计了自适应膨胀卷积

  1. 从尺度变化方面,我们使用连续的感受野也来匹配连续的尺度变化。
  2. 为了学习空间感知,不同的位置回采用不同的膨胀率来进行采样。

下图为我们的自适应膨胀卷积的过程:

步骤1:以相同特征为输入,通过标准3×3卷积层得到一张与原图相同大小的单通道的膨胀率图。特别地,我们添加了一个ReLU层来保证膨胀率图上值都为非负数。

步骤2:对特征进行自适应感受野的采样,不同位置的采样网格大小为膨胀率图对应位置的值,这个值可能会是小数,这里我们采用了双线性插值进行采样

步骤3:对采样值进行加权求和得到新的特征

我们的自适应膨胀率卷积不需要额外的尺度标签,只需要最后的密度标签就可以让网络自己学习适应不同尺度的目标。同时相比较形变卷积[1],我们的采样网格中是完全对称的,采样的特征不会有相对目标位置上的偏差,和最终目标的位置有更好的一致性,更加适合计数这种位置敏感性的任务。

实验结果

下图为可视效果的对比,可以看出,ADSCNet相比较传统的监督预测的密度图主要有两方面的优势:1.不同目标更一致的响应强度 2.不同目标响应的位置更加一致。响应点主要集中头部的左上角轮廓处,表明了相对于人工标注的眼睛,鼻子等,头部轮廓是相对更不容易遮挡,更适合计数任务的特征点。通过下图第四列可以看到整体上大的目标需要更大感受野,一些有语义的背景目标也需要更大的感受野去区分。

同时我们也进行消融实验的对比,首先我尝试了有效的数据增加方式,加入BN和增大batchsize来确立新的Baseline。我们这里复现了CSRNet[2]和MCNN[3]作为Baseline方法进行比较,如下图首先是自纠正监督的效果。自适应监督在三个baseline上取得了一致的提升。他们相对的MAE提升分别为6.19%,8.57%,8.72%。

而自适应膨胀卷积方面,我对比了不同的固定膨胀率和多列网络组合以及形变卷积的效果。相比较固定的膨胀率,我们只增加了有限的运算,却取得了明显的提升。

最后和当前SOTA的对比,ADSCNet在四个公开数据集取得更优的表现,并有着明显的提升,表明了我们方法的有效性。

结语

在本文中,我们为计数问题提出了一种新颖的监督学习框架。它利用模型估计来迭代地纠正GT,并提出自纠正损失函数同时监督整体的数量和个体的分布。同时这种方法可以应用到所有基于CNN的方法中。另一方面,我们提出了自适应膨胀卷积,它通过每个位置的动态地学习不同的膨胀率以适应目标巨大的尺度变化。在四个数据集上进行的实验表明,它可以显著提升计数网络的性能。同时也说明了利用模型从图像特征上学习的信息能够被用于纠正标注来提升性能。

References

[1] Dai, Jifeng, et al. Deformable convolutional networks. In ICCV, 2017.

[2] Li, Yuhong, Xiaofan Zhang, and Deming Chen. Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes. In CVPR, 2018.

[3] Zhang, Yingying, et al. Single-image crowd counting via multi-column convolutional neural network. In CVPR, 2016

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
SEEM 让你释放双手 | 对 SAM 进行升级,解决数据标注耗时耗力且繁琐的问题!
人群计数在各个应用领域中扮演着至关重要的角色,从城市规划、公共安全到活动管理和零售[5]。它有助于设计高效的公共空间,优化活动期间的人群控制,以及管理商店内的顾客流量。此外,它还助于创建能够适应人口密度变化的响应式基础设施。这项技术在理解和管理不同情境下的人群动态方面至关重要。
AIGC 先锋科技
2024/07/08
3480
SEEM 让你释放双手  | 对 SAM 进行升级,解决数据标注耗时耗力且繁琐的问题!
【深度学习】图像语义分割
语义分割(Semantic Segmentation)是图像处理和机器视觉一个重要分支,其目标是精确理解图像场景与内容。语义分割是在像素级别上的分类,属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。如下如所示的照片,属于人的像素部分划分成一类,属于摩托车的像素划分成一类,背景像素划分为一类。
杨丝儿
2022/03/20
9.6K0
【深度学习】图像语义分割
CVPR2020 | 定向和密集的目标检测怎么办?动态优化网络来解决(文末送书)
论文地址:https://arxiv.org/pdf/2005.09973.pdf
AI算法修炼营
2020/06/24
2.4K0
CVPR2020 | 定向和密集的目标检测怎么办?动态优化网络来解决(文末送书)
DeepLab系列学习
DeepLab系列在2015年的ICLR上被提出,主要是使用DCNNs和概率图模型(条件随机场)来实现图像像素级的分类(语义分割任务)。DCNN应用于像素级分类任务有两大障碍:信号下采样和空间“不敏感性”(不变性)。由于DCNNs的平移不变性,DCNNs被用到很多抽象的图像任务中,如imagenet大规模分类,coco目标检测等中。第一个问题涉及在每层DCNN上执行的最大池化和下采样(‘步长’)的重复组合所引起的信号分辨率的降,此模型通过使用空洞算法(”hole” algorithm,也叫”atrous” algorithm)来改进第一个问题,通过使用全连接条件随机场来改善分割效果。 总结DeepLabV1又三个优点: (1)速度快,带空洞卷积的DCNN可以达到8fps,而后处理的全连接CRF只需要0.5s。 (2)准确性高:在PASCAL VOC取得第一名的成绩,高于第二名7.2%个点,在PASCAL VOC-2012测试集上达到71.6%的IOU准确性。 (3)简单:有两个模块构成整体模型,分别是DCNN和CRF
全栈程序员站长
2022/07/31
6920
DeepLab系列学习
TPAMI 2024 | 逐点监督下的噪声标注建模
在计算机视觉任务中,如人群计数和人体姿态估计,广泛采用了逐点监督。在实践中,点注释中的噪声可能会显著影响算法的性能和鲁棒性。在本文中,我们研究了逐点监督中注释噪声的影响,并为不同任务提出了一系列鲁棒的损失函数。特别是,点注释噪声包括空间位移噪声、遗漏点噪声和重复点噪声。空间位移噪声是最常见的一种,存在于人群计数、姿态估计、视觉跟踪等场景中,而遗漏点和重复点噪声通常出现在密集注释中,如人群计数。在本文中,我们首先通过将真实位置建模为随机变量,将注释点视为真实位置的噪声观测,来考虑位移噪声。中间表示(由点注释生成的平滑热图)的概率密度函数被推导出来,并使用负对数似然作为损失函数,以自然地模拟中间表示中的位移不确定性。遗漏和重复噪声进一步通过经验方式建模,假设噪声以高概率出现在高密度区域。我们将该方法应用于人群计数、人体姿态估计和视觉跟踪,为这些任务提出了鲁棒的损失函数,并在广泛使用的数据集上实现了优越的性能和鲁棒性。
小白学视觉
2024/09/18
1730
TPAMI 2024 | 逐点监督下的噪声标注建模
【AI有识境】如何掌握好图像分割算法?值得你看的技术综述
进入到有识境界,可以大胆地说自己是一个非常合格的深度学习算法工程师了,能够敏锐地把握自己研究的领域,跟踪前沿和能落地的技术,对自己暂时不熟悉的领域也能快速地触类旁通。
用户1508658
2021/06/08
1.4K0
大会 | CVPR 18论文:基于空洞卷积神经网络的高密度人群理解方法
AI 科技评论按:本文作者为美国伊利诺伊大学(UIUC)张晓帆,他为 AI 科技评论撰写了基于 CVPR 录用论文《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes》的独家解读稿件,未经许可不得转载。 论文地址: https://arxiv.org/pdf/1802.10062.pdf 来自北京邮电大学和美国伊利诺伊大学(UIUC)的研究者们提出一种适用于密集人群计数的空洞卷
AI科技评论
2018/03/12
1.1K0
大会 | CVPR 18论文:基于空洞卷积神经网络的高密度人群理解方法
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
https://arxiv.org/pdf/2403.09281v1 CLIP(Contrastive Language-Image Pretraining,对比语言-图像预训练)模型在识别问题中表现出了卓越的性能,如零样本图像分类和对象检测。然而,由于其固有的挑战——即将计数(一项回归任务)转化为识别任务,CLIP在计数方面的能力仍然研究不足。在本文中,我们研究了CLIP在计数方面的潜力,特别是聚焦于人群规模估计。现有的基于分类的人群计数方法遇到了包括不恰当的离散化策略在内的问题,这些问题阻碍了CLIP的应用并导致性能次优。为了解决这些挑战,我们提出了增强的分块分类(Enhanced Blockwise Classification,EBC)框架。与以往方法不同,EBC依赖于整数值的箱(bins),这有助于学习稳健的决策边界。在我们的与模型无关的EBC框架内,我们引入了CLIPEBC,这是第一个能够生成密度图的完全基于CLIP的人群计数模型。通过对不同人群计数数据集的综合评估,我们方法的先进性能得到了证明。特别是,EBC可以使现有模型的性能提升高达76.9%。此外,我们的CLIP-EBC模型超越了当前的人群计数方法,在上海科技大学A部分和B部分数据集上分别实现了55.0和6.3的平均绝对误差。代码将公开提供。
AI浩
2024/10/22
4030
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
22篇入选,15 篇 CVPR 2020 精选论文详解
近日,计算机视觉领域“奥斯卡”CVPR 2020官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在6656篇有效投稿中,共有1470篇论文被接收,接收率为22%左右,相较去年25%的入选率,同比下降3%。
AI科技评论
2020/03/24
7060
22篇入选,15 篇 CVPR 2020 精选论文详解
视觉显著性目标检测综述(2)
一个显著性目标检测模型能取得较好的效果至少应该满足以下3个标准:一是好的检测能力,尽量少地遗漏真正的显著区域或错误地将背景标记为显著区域;二是高分辨率,显著图应具有较高的分辨率或全分辨率,以准确定位显著目标并保留原始图像信息;三是高计算效率,作为其他任务的前置阶段,能够快速检测到显著区域。基于不同数据源的显著性目标检测方法研究思路也主要围绕以上3个方面展开,对检测模型的性能进行不断优化和提升,如图6所示。
AiCharm
2023/05/15
7450
视觉显著性目标检测综述(2)
深度学习图语义分割的综述
图像分割是计算机视觉和机器学习领域发展最快的领域之一,包括分类、分类与定位、目标检测、语义分割、实例分割和Panoptic分割。
算法进阶
2023/12/26
8400
深度学习图语义分割的综述
CVPR2021 GAN详细解读 | AdaConv自适应卷积让你的GAN比AdaIN更看重细节(附论文下载)
图像的风格迁移是CNN在艺术领域的一种应用,这里的风格迁移是指将其中一幅图像的“风格”迁移到另一幅图像上,同时保留后者的内容。
AIWalker
2021/07/05
2.3K0
CVPR2021 GAN详细解读 | AdaConv自适应卷积让你的GAN比AdaIN更看重细节(附论文下载)
又改YOLO | 项目如何改进YOLOv5?这篇告诉你如何修改让检测更快、更稳!!!
交通标志检测对于无人驾驶系统来说是一项具有挑战性的任务,尤其是多尺度目标检测和检测的实时性问题。在交通标志检测过程中,目标的规模变化很大,会对检测精度产生一定的影响。特征金字塔是解决这一问题的常用方法,但它可能会破坏交通标志在不同尺度上的特征一致性。而且,在实际应用中,普通方法难以在保证实时检测的同时提高多尺度交通标志的检测精度。 本文提出了一种改进的特征金字塔模型AF-FPN,该模型利用自适应注意模块(adaptive attention module, AAM)和特征增强模块(feature enhancement module, FEM)来减少特征图生成过程中的信息丢失,进而提高特征金字塔的表示能力。将YOLOv5中原有的特征金字塔网络替换为AF-FPN,在保证实时检测的前提下,提高了YOLOv5网络对多尺度目标的检测性能。 此外,提出了一种新的自动学习数据增强方法,以丰富数据集,提高模型的鲁棒性,使其更适合于实际场景。在100K (TT100K)数据集上的大量实验结果表明,与几种先进方法相比,本文方法的有效性和优越性得到了验证。
集智书童公众号
2021/12/22
4.4K0
又改YOLO | 项目如何改进YOLOv5?这篇告诉你如何修改让检测更快、更稳!!!
CP-UNet:基于轮廓的医学超声图像分割概率模型 !
超声成像广泛应用于各种疾病的诊断,由于其低成本、简单操作和非侵入性,因此在医学超声图像的病变分割中,基于深度学习的分割方法得到了应用。然而,由于超声图像中存在不均匀的病变区域分布、斑点噪声和成像伪迹,这增加了分割任务的难度。如图1(b)(c)(d)所示的病变与正常组织之间的结构边界线模糊,以及如图1(e)(f)所示的病变形状和纹理的不规则变化,都导致了轮廓模糊。这些因素共同影响了分割的准确性。
未来先知
2024/12/23
5390
CP-UNet:基于轮廓的医学超声图像分割概率模型 !
ECCV 2020 | SADNet:用于单图像去噪的空间自适应网络
Title:Spatial-Adaptive Network for Single ImageDenoising(SADNet):用于单张图像去噪的空间自适应网络
Amusi
2020/09/23
2.5K0
ECCV 2020 | SADNet:用于单图像去噪的空间自适应网络
CNN结构设计技巧-兼顾速度精度与工程实现
宽度(通道数)决定了网络在某一层学到的信息量,另外因为卷积层能重组通道间的信息,这一操作能让有效信息量增大(这也是1x1卷积的作用,它能学习出重组信息,使得对于任务更友好,所以这里不能和分离卷积一起比较,传统卷积的有效卷积数更多,正比于输入通道乘以输出通道,分离卷积的有效卷积正比于输入通道数,传统卷积相当于分离卷积前升维再做分离卷积)。
BBuf
2020/04/15
9040
CNN结构设计技巧-兼顾速度精度与工程实现
ECCV 2020 亮点摘要(上)
与我的CVPR2020帖子类似,为了了解今年会议的总体趋势,我将在这篇博客文章中总结一些引起我注意的论文(列出一些),并对整个会议进行概括。
LiveVideoStack
2021/01/06
4960
PGA-Net:基于金字塔特征融合与全局上下文注意力网络的自动表面缺陷检测
缺陷检测是工业产品处理中的一项重要任务。当前,已经有很多基于计算机视觉技术的检测方法成功应用于工业领域并取得了较好的检测结果。然而,受限于类间表面缺陷的内在复杂性,使得实现完全自动的缺陷检测仍然面临巨大挑战。虽然,类间缺陷包含相似的部分,但是缺陷的表面仍然存在较大的不同。为了解决这个问题,论文提出了一种金字塔特征融合与全局上下文注意力网络的逐像素表面缺陷检测方法,并命名为PGA-Net。在这个框架中,首先从骨干网络提取多尺度特征。然后,使用金字塔特征融合模块,通过一些有效的跳连接操作将5个不同分辨率的特征进行融合。最后,再将全局上下文注意模块应用于相邻分辨率的融合特征,这使得有效信息从低分辨率融合特征图传播到高分辨率融合特征图。另外,在框架中还加入边界细化模块,细化缺陷边界,提高预测结果。实验结果证明,所提方法在联合平均交点和平均像素精度方面优于对比方法。
3D视觉工坊
2023/04/29
8300
PGA-Net:基于金字塔特征融合与全局上下文注意力网络的自动表面缺陷检测
【CVPR2020】百度入选22篇论文涵盖全视觉领域!
近日,计算机视觉领域“奥斯卡”CVPR 2020官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在6656篇有效投稿中,共有1470篇论文被接收,接收率为22%左右,相较去年25%的入选率,同比下降3%。在论文接收率下降的同时,中国科技企业被录取论文数量却不降反增,百度作为 AI 代表企业今年中选22篇,比去年的17篇增加了5篇。
深度学习技术前沿公众号博主
2020/05/18
6160
【CVPR2020】百度入选22篇论文涵盖全视觉领域!
CVPR2020 | SCNet:自校正卷积网络,无复杂度增加换来性能提升
论文地址:http://mftp.mmcheng.net/Papers/20cvprSCNet.pdf
AI算法修炼营
2020/06/09
2.1K0
推荐阅读
相关推荐
SEEM 让你释放双手 | 对 SAM 进行升级,解决数据标注耗时耗力且繁琐的问题!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档