本文分享 NeurIPS 2021 论文『Aligning Pretraining for Detection via Object-Level Contrastive Learning』MSRA提出对象级对比学习的目标检测预训练方法!性能SOTA!
前言:深度学习在图像的应用中目标检测是最基本也是最常用的,下面介绍几种常见的目标检测算法或者模型
目标检测是计算机视觉中一个长期存在的挑战,其目标是在图像库中空间上定位和分类目标框。在过去的十年中,由于检测管道各个阶段的许多进步,目标检测取得了惊人的进展。目标检测Backbone的演变,从R-CNN的基础性转变到Faster R-CNN,以及改变范式的YOLO架构,再到最近将Transformer网络集成进来,代表了在增强特征提取和检测能力方面取得的重要进展。
目标检测作为计算机视觉研究极其重要的一个分支,随着 deep learning 技术的发展,近几年得到了长足的进步,但广大科(搬)研(砖)青年长期被各位大佬压在石缝里,Facebook 的 Kaiming He, Ross, 国内的face++,几乎预订了每年各大顶会的目标检测相关的 paper 并长期霸榜 COCO 竞赛的 state-of-the-art 席位,让我们这些活在石头缝里的搬砖青年很难有所突破。所以啊,与其在这里和各位大佬分庭抗礼,不如我们另辟蹊径,在目标检测领域内,对一些目前还未能得到很好解决的问题进行研究与探索,比如我们今天要讲到的 “weakly supervised object detection”。
本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记,对应的课程视频可以在 这里 查看。更多资料获取方式见文末。
本文是目标检测方向的第二篇,也是综述的第二部分,第一篇见目标检测1: 目标检测20年综述之(一)。 这两篇的目的主要是让读者对目标检测任务有直观的认识,后续介绍细节时有一定的概念储备,无需关注细节。
论文地址:https://arxiv.org/abs/2007.13816.pdf
本文是目标检测方向的第一篇,目标检测是当前个人最熟悉的任务之一,这是很久之前在知乎专栏写的文章,曾经被多个公众号转载,但是因为一些客观原因,无意中注销了知乎。在分享目标检测相关的总结之前,先介绍一下目标检测任务很有必要,而了解一个任务最简单的方式就是通过综述,所以重新展示一下该篇。
AI识别工人安全绳佩戴检测算法基于CNN的目标检测是通过CNN 作为特征提取器对现场图像进行处理和分析,AI识别工人安全绳佩戴检测算法识别出工人是否佩戴安全绳,一旦发现工人未佩戴安全绳,AI识别工人安全绳佩戴检测算法将立即进行告警,并将事件记录下来。并对得到的图像的带有位置属性的特征进行判断,从而产出一个能够圈定出特定目标或者物体(Object)的限定框(Bounding-box,下面简写为bbox)。AI识别工人安全绳佩戴检测算法和low-level任务不同,目标检测需要预测物体类别及其覆盖的范围,因此需关注高阶语义信息。传统的非CNN 的方法也可以实现这个任务,比如Selective Search 或者DPM。在初始的CNN 中,也采用了传统方法生成备选框。
摘要: 从2014年开始,目标检测取得了巨大的突破。本文针对目前主流的目标检测方法进行简单的介绍,文章分为两个部分:第一部分介绍R Girshick提出的以R-CNN为代表的结合region proposal和CNN分类的目标检测框架(R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN); 第二部分介绍以YOLO为代表的将目标检测转换为回归问题的目标检测框架(YOLO, SSD); 第三部分介绍一些最新的目标检测算法的进展。 一、从Rcnn到Faster-Rcnn 从Rcnn开
今年的疫情给大家带来了很多的不便,但是我们“计算机视觉战队”依然坚守自己岗位,给关注我们的同学带来新的分享,今年我们大家一起加油!今天我们主要还是说一说目标检测的知识,这个框架主要来源于TRANS顶级期刊。
选自medium 机器之心编译 机器之心编辑部 Faster R-CNN、R-FCN 和 SSD 是三种目前最优且应用最广泛的目标检测模型,其他流行的模型通常与这三者类似。本文介绍了深度学习目标检测的
三维实例分割是计算机视觉任务,涉及预测三维点云场景中单个目标的 Mask 。它在机器人学和增强现实等领域具有重要意义。由于其在多样化应用中的重要性,近年来这一任务受到了越来越多的关注。研究行人长期以来一直专注于通常在封闭集合框架内操作的方法,这限制了它们识别训练数据中不存在目标的能力。
目前目标检测成熟的算法都是基于Dense prior(密集的先验,比如anchors、reference points),但密集的先验存在很多问题:1)会检测出很多相似的结果,需要后处理(比如NMS)来过滤;2)many-to-one label assignment 问题(作者描述为 many-to-one 正负样本分配),猜测意思是我们在设置pred和gt时,一般不是一对一的关系,可能是有多个preds,看看哪个与gt更符合;3)检测结果与先验的关系非常密切(anchors的数量、大小,reference points的密级程度、proposal生成的数量)。
从 2006 年以来,在 Hilton、Bengio、LeChun 等人的引领下,大量深度神经网络的论文被发表,尤其是 2012 年,Hinton课题组首次参加 ImageNet图像识别比赛,其通过构建的 CNN 网络AlexNet[1]一举夺得冠军,从此神经网络开始受到广泛的关注。深度学习利用多层计算模型来学习抽象的数据表示,能够发现大数据中的复杂结构,目前,这项技术已成功地应用在包括计算机视觉领域在内的多种模式分类问题上。计算机视觉对于目标运动的分析可以大致分为三个层次:运动分割,目标检测;目标跟踪;动作识别,行为描述[2]。其中,目标检测既是计算机视觉领域要解决的基础任务之一,同时它也是视频监控技术的基本任务。由于视频中的目标具有不同姿态且经常出现遮挡、其运动具有不规则性,同时考虑到监控视频的景深、分辨率、天气、光照等条件和场景的多样性,而且目标检测算法的结果将直接影响后续的跟踪、动作识别和行为描述的效果。故即使在技术发展的今天,目标检测这一基本任务仍然是非常具有挑战性的课题,存在很大的提升潜力和空间。
目标检测,object detection,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。
paper:https://arxiv.org/abs/1809.02165 github:https://github.com/hoya012/deep_learning_object_detection,
Logo识别技术是现实生活中应用很广的一个领域,比如一张照片中是否出现了Adidas或者Nike的商标Logo,或者一个杯子上是否出现了星巴克或者可口可乐的商标Logo。学术上早在2013年开始就已经陆续使用深度学习做相关的研究,而业界Logo识别已经开始商业化,包括谷歌,百度,阿里等公司都在AI开放平台开放了API给大家提供Logo识别的使用接口。在安全领域Logo识别技术的应用也很广泛,例如敏感信息挖掘,垃圾邮件过滤等方面都有涉及Logo识别相关的应用。2020年RSA创新沙盒中inky公司在恶意邮件识别系统中也用到了这一关键技术。
本文分享论文『Incremental-DETR: Incremental Few-Shot Object Detection via Self-Supervised Learning』,由新国立&哈工大提出 Incremental-DETR 进行基于自监督学习的增量 Few-Shot 目标检测,性能SOTA!
传统的目标检测模型是在闭合集条件下设计、训练和评估的,在这个条件下,假定所有感兴趣的可能类别在训练数据集中都被详尽地标记了。如果这样的模型在开放集环境中部署,其中存在来自训练类别分布之外的未知物体,模型可能会将物体错误分类为已知类别,或者完全检测不到物体——这会导致严重的安全、公平性和可靠性问题。这促使了对开放集目标检测[23]的需求,其中除了已知的“分布内”(ID)物体之外,还明确处理未知的“分布外”(OOD)物体。
近年来,目标检测得到了快速的发展,从卷积神经网络(CNN)到Transformer,特征提取的Backbone各不相同,检测Pipeline的设计也各不相同。根据回归次数的不同,检测器主要可分为One-Stage、Two-Stage和Multi-Stage。
前面总结了几种基于激光雷达点云数据的3D目标检测算法,还有一些算法不再单独列出,这里做个简单总结来分享下!
本文介绍了Faster R-CNN目标检测算法及其在COCO数据集上的实验结果。文章首先介绍了Faster R-CNN的背景知识,包括其检测速度、精度等方面的优势。然后详细介绍了Faster R-CNN的网络结构,包括Region Proposal Network(RPN)、Convolutional Layer等关键组件。接着,文章分析了RPN的两种训练方式:联合训练和交替训练。最后,文章给出了Faster R-CNN在COCO数据集上的实验结果,并与Selective Search方法进行了对比,结果表明,Faster R-CNN在物体检测任务上具有显著的优势。","query": "介绍了哪些内容
本文梳理了目标检测领域2013年至2019年的12篇必读论文,为希望学习相关知识的新手提供了很好的入门路径。同时,作者还提供了一个附加论文列表。作为拓展阅读的内容,它们或为目标检测提供了新的视角,或用更强大的功能扩展了这个领域。
[Paper - Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks]
来源丨https://blog.csdn.net/mary_0830/article/details/107820599
自动驾驶中的激光雷达点云如何做特征表达,将基于Lidar的目标检测方法分成了4类,即:基于BEV的目标检测方法,基于camera/range view的目标检测方法,基于point-wise feature的目标检测方法,基于融合特征的目标检测方法。本文对这4类方法讲解并总结,希望能帮助大家在实际使用中做出快速选择。
在深度学习近期发展的推动下,图像分类和目标检测领域已取得显著进展。大量数据集的可用性有助于加速这些进步。然而,为大规模数据集标注仍然是瓶颈,特别是对于2D和3D目标检测。半监督方法(SSA)已提出以解决此问题。与监督方法不同,这些方法仅需要有限数量的标注数据进行训练,其余数据未标注。
比起图像分类任务的数据扩增,目标检测的难点在于,要保持边界框和发生形变的图像之间的一致性 (Consistency) 。
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
三维数据通常可以用不同的格式表示,包括深度图像、点云、网格和体积网格。点云表示作为一种常用的表示格式,在三维空间中保留了原始的几何信息,不需要任何离散化。因此,它是许多场景理解相关应用(如自动驾驶和机器人)的首选表示。近年来,深度学习技术已成为计算机视觉、语音识别、自然语言处理、生物信息学等领域的研究热点,然而,三维点云的深度学习仍然面临着数据集规模小、维数高、非结构化等诸多挑战三维点云。在此基础上,本文对基于点云数据下的深度学习方法最新进展做了详解,内容包括三维形状分类、三维目标检测与跟踪、三维点云分割三大任务。
不同于正常的目标检测任务,few-show目标检测任务需要通过几张新目标类别的图片在测试集中找出所有对应的前景。为了处理好这个任务,论文主要有两个贡献:
每次丢了东西,我们都希望有一种方法能快速定位出失物。现在,目标检测算法或许能做到。目标检测的用途遍布多个行业,从安防监控,到智慧城市中的实时交通监测。简单来说,这些技术背后都是强大的深度学习算法。
目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。从最初 2013 年提出的 R-CNN、OverFeat,到后面的 Fast/Faster R-CNN、SSD、YOLO 系列,再到 2018 年最近的 Pelee。短短不到五年时间,基于深度学习的目标检测技术,在网络结构上,从 two stage 到 one stage,从 bottom-up only 到 Top-Down,从 single scale network 到 feature pyramid network,从面向 PC 端到面向手机端,都涌现出许多好的算法技术,这些算法在开放目标检测数据集上的检测效果和性能都很出色。
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 16 个在目标检测任务上曾取得 SOTA 的经典模型。 第 1 期:R-CNN、SPP-Net、Fast R-CNN、Faster R-C
之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测,包括R-CNN、Fast R-CNN、Faster R-CNN,但一直没有比较好的机会深入(但当你对目标检测有个基本的了解之后,再看这些课程你会收益很大)。但目标检测这个领域实在是太火了,经常会看到一些写的不错的通俗易懂的资料,加之之前在京东上掏了一本书看了看,就这样耳濡目染中,还是开始研究了。
RCNN(Region with CNN features)[1]算法发表在2014年CVPR的经典paper:《Rich feature hierarchies for Accurate Object Detection and Segmentation》中,这篇文章是目标检测领域的里程碑式的论文,首次提出使用卷积神经网络(Convolutional Neural Networks, CNNs)处理目标检测(Object Detetion)的问题。
互联网明厨亮灶智慧监管系统基于pytho+yolov7网络模型AI视觉图像分析技术,互联网明厨亮灶智慧监管系统可以识别人员行为及穿戴是否合规,不穿厨师服、不按要求穿戴厨师帽或者佩戴口罩和手套、行为如违规在后厨抽烟、出现老鼠等情景。近几年来,目标检测算法取得了很大的突破。比较流行的算法可以分为两类,一类是基于Region Proposal的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN),它们是two-stage的,需要先使用启发式方法(selective search)或者CNN网络(RPN)产生Region Proposal,然后再在Region Proposal上做分类与回归。而另一类是Yolo,SSD这类one-stage算法,其仅仅使用一个CNN网络直接预测不同目标的类别与位置。
来源丨https://zhuanlan.zhihu.com/p/310058362
裸露土堆识别算法首先利用图像处理技术,提取出图像中的土堆区域。裸露土堆识别算法首通过计算土堆中被绿色防尘网覆盖的比例,判断土堆是否裸露。若超过40%的土堆没有被绿色防尘网覆盖,则视为裸露土堆。当我们谈起裸露土堆识别算法计算机视觉时,首先想到的就是图像分类,没错,图像分类是计算机视觉最基本的任务之一,但是在图像分类的基础上,还有更复杂和有意思的任务,如目标检测,物体定位,图像分割等。其中目标检测是一件比较实际的且具有挑战性的计算机视觉任务,其可以看成图像分类与定位的结合,给定一张图片,裸露土堆识别算法目标检测系统要能够识别出图片的目标并给出其位置,由于图片中目标数是不定的,且要给出目标的精确位置,目标检测相比分类任务更复杂。
object detection,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。所以,object detection要解决的问题就是物体在哪里以及是什么的整个流程问题。
由于目前已经几乎不再使用传统的方法来做OCR,后续我们主要分享基于深度学习的OCR算法。该算法一般需要训练两个模型,一个是文本检测模型,一个是文字识别模型。
这篇文章为大家解读由密歇根大学 Hei Law 团队在 ECCV 2018发布的论文,一种新的目标检测算法。
煤矿皮带运行状态监测预警系统通过yolov7网络模型深度学习技术,煤矿皮带运行状态监测预警系统自动对传输皮带运行状态进行实时监测。煤矿皮带运行状态监测预警系统监测到皮带撕裂、跑偏、异物、堆煤等异常情况时,煤矿皮带运行状态监测预警系统立即抓拍预警及时停止皮带同步回传违规信息到后台。介绍Yolo算法之前,首先先介绍一下滑动窗口技术,这对我们理解Yolo算法是有帮助的。采用滑动窗口的目标检测算法思路非常简单,它将检测问题转化为了图像分类问题。其基本原理就是采用不同大小和比例(宽高比)的窗口在整张图片上以一定的步长进行滑动,然后对这些窗口对应的区域做图像分类,这样就可以实现对整张图片的检测了。
【导读】神经网络在计算机视觉领域有着广泛的应用。只要稍加变形,同样的工具和技术就可以有效地应用于广泛的任务。在本文中,我们将介绍其中的几个应用程序和方法,包括语义分割、分类与定位、目标检测、实例分割。
河道水面垃圾识别检测系统采用yolov5忘了模型计算机视觉技术,水面垃圾识别检测算法通过在河道的摄像头,对水面垃圾进行实时监测自动识别。近几年来,目标检测算法取得了很大的突破。比较流行的算法可以分为两类,一类是基于Region Proposal的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN),它们是two-stage的,需要先使用启发式方法(selective search)或者CNN网络(RPN)产生Region Proposal,然后再在Region Proposal上做分类与回归。而另一类是Yolo。
论文: Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
论文: Should All Proposals be Treated Equally in Object Detection?
领取专属 10元无门槛券
手把手带您无忧上云