在现有的 CNN 检测器中,主干网络是特征提取的重要组件,检测器的性能很大程度上依赖于主干网络。近日,来自北京大学王选计算机研究所和纽约州立大学石溪分校的研究者发表了一篇论文:基于现有主干网络(如 ResNet 和 ResNeXt)构建更加强大的新型主干网络,从而实现更好的检测性能。
【导读】今天我们来聊一聊在COCO数据集上成功刷榜的两大模型-CBNet和DetectoRS。它们先后刷新了COCO 数据集上的单模型目标检测精度的最高记录:单尺度测试CBNet—50.7AP和DetectoRS—53.3AP,多尺度测试CBNet—53.3AP和DetectoRS—54.7AP。
论文地址:https://arxiv.org/pdf/1909.03625.pdf
分享一篇前几天新出的论文CBNet: A Novel Composite Backbone Network Architecture for Object Detection,文中提出一种新型特征融合算法,有效提升了目标检测和实例分割精度,CBNet配以Cascade RCNN取得了COCO 数据集 mAP 53.3 的新高度!
去年7月,Amusi 曾做过一篇整理:大盘点 | 性能最强的目标检测算法,那时收集的情况是:改进后的 Cascade R-CNN 算法是截止(2019.07.07)目标检测方向性能最强的算法,其 mAP 为 50.9。
DetNet是发表在ECCV2018的论文,出发点是现有的检测任务backbone都是从分类任务衍生而来的,因此作者想针对检测专用的backbone做一些讨论和研究而设计了DetNet,思路比较新奇。
论文 1:A Survey of the Usages of Deep Learning in Natural Language Processing
到目前为止,在COCO数据集上表现最好的物体检测网络是CBNet,在COCO测试数据集上的平均精度为53.3。
4.1、修改docker服务配置:`vim /usr/lib/systemd/system/docker.service`进入,找到参数:`ExecStart=/usr/bin/dockerd`
现代性能最佳的目标检测器在很大程度上依赖于主干网络,其进步通过探索更有效的网络结构带来一致的性能提升。然而,设计或搜索新的主干并在ImageNet上对其进行预训练可能需要大量的计算资源,这使得获得更好的检测性能成本很高。
计算机视觉研究院专栏 作者:Edison_G 现代性能最佳的目标检测器在很大程度上依赖于主干网络,其进步通过探索更有效的网络结构带来一致的性能提升。然而,设计或搜索新的主干并在ImageNet上对其进行预训练可能需要大量的计算资源,这使得获得更好的检测性能成本很高。 公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式 论文: https://arxiv.org/pdf/2107.00420.pdf 1 简要 现代性能最佳的目标检测器在很大程度上依赖于主干网络,其进步通过探
随着防控措施效果显现,新冠疫情在全国范围内已经得到了控制。当我们走进地铁与车站,甚至很多小区与超市,都会看到口罩人脸检测系统与红外测温系统,这些都是人工智能在疫情控制方面给出的独到帮助。
在 CVPR 2020 Workshop 举办的 NightOwls Detection Challenge 中,来自国内团队深兰科技的 DeepBlueAI 团队斩获了“单帧行人检测”和“多帧行人检测”两个赛道的冠军,以及“检测单帧中所有物体”赛道的亚军。
------------------------------------分割线----------------------------------
2项全新能力,4大重磅升级,35个高精度预训练模型上线,15个产业实践中广泛应用的视觉算法加持……
现在的深度学习方法侧重于如何设计最合适的目标函数,使模型的预测结果最接近实际情况。同时,必须设计一种适当的架构,该架构可以促进获取足够的信息用于预测。
喜欢看科幻电影的朋友一定会对这样的画面印象深刻:钢铁侠去解救被恐怖分子挟持的人质时,他的战衣可以快速的从人群之中识别持有武器的恐怖分子,并确定恐怖分子的位置,然后一阵火花带闪电就问题解决了,岂是一个“帅”字可以形容!从发现敌人到发动攻击不超过5秒种,可谓战衣在手,天下我有!令科幻迷们大喊一声:“这样的战衣给我来一打!”
计算机视觉研究院专栏 作者:Edison_G 高考已经结束,不知道参加考试的你们考得怎么样?据说今年的数学又上天了?据说某地方卷的语文阅读坑死了几十万当地考生? 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 1 前景概要 高考已经结束几天了,不知道参加考试的你们考得怎么样?据说今年的数学又上天了?据说某地方卷的语文阅读坑死了几十万当地考生? 最近研发的人工智能机器人Aidam与6名往届高考状元比赛"北京卷文科数学"的答题,用10分钟完成了所有答题,高考状元们用时1小时
COCO 数据集上的目标检测精度的最高纪录已经有将近一年时间停留在53.3 mAP,曾经报告达到过这一高度的算法有:
为了解决目标检测任务中小目标检测精度低、误检、漏检率高等问题,有研究者提出了一种基于YOLOv4卷积神经网络的多目标检测方法。 多目标检测作为目标检测领域的一个重要研究方向,一直受到研究人员的广泛关注。目前,在智能交通、智能辅助驾驶和视频监控等领域已经产生了深入的研究。
计算机视觉研究院专栏 作者:Edison_G 最近“计算机视觉研究院”有一段时间没有分享最新技术,但是最近我看了一些之前的检测框架,发现有两个很有意思,不错的框架,接下来我给大家简单分析下,希望给大家带来创新的启示! 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文获取|回复”PRN“获取论文 检测是视觉的基底,不管你应用在什么领域,检测识别是最基础也是最重要的技术之一,就好比人类的眼睛,只要你看到了,才传输到大脑更新迭代学习,促使我们认识世界万物。所以,我们一定
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 目标检测被认为是计算机视觉领域中最具挑战性的问题之一,因为它涉及场景中对象分类和对象定位的组合。今天分享这个框架有点陈旧,但精髓! 一、前言 目标检测被认为是计算机视觉领域中最具挑战性的问题之一,因为它涉及场景中对象分类和对象定位的组合。最近,与其他方法相比,深度神经网络 (DNN) 已被证明可以实现卓越的目标检测性能,其中YOLO
计算机视觉研究院专栏 作者:Edison_G 近年来,半监督学习(SSL)受到越来越多的关注。在当没有大规模注释数据时,SSL提供了使用unlabel data来改善模型性能的方法。 公众号ID|ComputerVisionGzq学习群|扫码在主页获取加入方式 论文: https://arxiv.org/pdf/2005.04757.pdf 1 简要 半监督学习 (SSL) 有可能提高使用未标记数据的机器学习模型的预测性能。尽管最近取得了显着进展,但SSL的演示范围主要是图像分类任务。 在今天
Transformer在计算机视觉领域迅速普及,特别是在目标识别和检测领域。在检查最先进的目标检测方法的结果时,我们注意到,在几乎每个视频或图像数据集中,transformer始终优于完善的基于cnn的检测器。虽然基于transformer的方法仍然处于小目标检测(SOD)技术的前沿,但本文旨在探索如此广泛的网络所提供的性能效益,并确定其SOD优势的潜在原因。小目标由于其低可见性,已被确定为检测框架中最具挑战性的目标类型之一。论文的目的是研究可以提高transformer在SOD中的性能的潜在策略。本调查对跨越2020年至2023年的60多个针对SOD任务开发的transformer的研究进行了分类。这些研究包括各种检测应用,包括在通用图像、航空图像、医学图像、主动毫米图像、水下图像和视频中的小目标检测。论文还编制并提供了12个适合SOD的大规模数据集,这些数据集在以前的研究中被忽视了,并使用流行的指标如平均平均精度(mAP)、每秒帧(FPS)、参数数量等来比较回顾研究的性能。
尽管最近 2019 年的图灵奖颁给了计算机图形学、颁给了皮克斯 3D 动画,但很多人可能认为二维动漫更有意思一些。像宫崎骏、新海诚这些大师手绘下的动漫,才有了灵魂,张张都能成为壁纸,而整个日漫也以二维为核心。
开源地址:https://github.com/ultralytics/ultralytics
计算机视觉研究院专栏 作者:Edison_G 深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文,还考虑它们之间的关系。 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文获取|回复”MDFN“获取论文 1 前景回顾 如果想详细知道上集我们具体说了多尺度特征的重要性及其发展,请点击下方链接,查阅相关内容: 多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满
在实际应用场景中,有效性与高效性对于目标检测器非常重要。为了满足这两个问题,研究者全面评估了现有的改进的集合,以提高PP-YOLO的性能,同时几乎保持推理时间不变。
多模态大语言模型(MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。在本文中,追踪多模态大模型最新热点,讨论多模态关键技术以及现有在情绪识别上的应用。
当今的深度学习方法专注于设计最合适的目标函数,以使模型的预测结果与实际情况最接近。同时,必须设计一个合适的架构,以便获取足够的信息进行预测。现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,大量信息将会丢失。本文将深入探讨当数据通过深度网络传输时的数据丢失重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以处理深度网络所需的各种变化,以实现多个目标。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息以更新网络权重。此外,基于梯度路径规划设计了一种新的轻量级网络架构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量级模型上取得了优异的结果。我们在基于MS COCO数据集的目标检测上验证了提出的GELAN和PGI。结果显示,GELAN仅使用常规卷积算子即可实现比基于深度卷积开发的最先进方法更好的参数利用率。PGI可用于各种模型,从轻量级到大型。它可用于获取完整信息,使得从头开始训练的模型可以获得比使用大型数据集预训练的最先进模型更好的结果。
近年来,Transformer 已经成为了 NLP 和 CV 等领域的主流模型,但庞大的模型参数限制了它的高效训练和推理。于是字节跳动在 2019 年 12 月和 2021 年 6 月分别推出了高效推理和训练引擎 LightSeq,大大加速了 Transformer 系列模型的训练和推理,也打通了 Transformer 从训练到推理的整个流程,极大优化了用户使用体验。最近,LightSeq 训练引擎相关论文[1],被录用难度极高的超算领域国际顶会 SC22 接收,得到了学术界的广泛认可!
航空图像中的目标检测是一项具有挑战性的任务,因为它缺乏可见的特征和目标的不同方向。目前,大量基于R-CNN框架的检测器在通过水平边界盒(HBB)和定向边界盒(OBB)预测目标方面取得了显著进展。然而,单级无锚解仍然存在开放空间。提出了一种基于逐像素预测检测器的航空图像定向目标单级无锚检测器。我们通过开发一个具有自我注意机制的分支交互模块来融合来自分类和框回归分支的特征,从而使它成为可能。在角度预测中采用几何变换,使预测网络更易于管理。我们还引入了一种比正多边形借条更有效的借条损耗来检测OBB。在DOTA和HRSC2016数据集上对所提出的方法进行了评估,结果表明,与最先进的检测器相比,我们所提出的IENet具有更高的OBB检测性能。
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 要想炼丹爽得飞起,就要选一个顺手的炉子。 转自《机器之心》 要想炼丹爽得飞起,就要选择一个顺手的炉子。作为AI工程师日常必不可缺的「炼丹炉」,「PyTorch 还是 TensorFlow?」已成为知乎、Reddit等炼丹师出没之地每年都会讨论的热门话题。 业界流传一种说法:PyTorch适合学术界,TensorFlow适合工业界。毕
领取专属 10元无门槛券
手把手带您无忧上云