开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

基于区域学习的标记检测

是一种计算机视觉领域的技术，用于在图像或视频中检测和识别特定的目标物体或标记。该技术结合了区域建议和深度学习方法，能够高效准确地定位和识别目标。

在标记检测中，区域学习是一种用于生成候选目标区域的技术。它通过分析图像的特征和上下文信息，提取出可能包含目标的区域。这些候选区域会被送入深度学习模型进行进一步的分类和定位。

基于区域学习的标记检测具有以下优势：

高准确性：通过深度学习模型的训练和优化，可以实现较高的目标检测准确率。
高效性：区域学习技术可以快速生成候选区域，减少了搜索空间，提高了检测速度。
鲁棒性：区域学习结合了上下文信息，能够在复杂背景和遮挡的情况下仍然有效地检测目标。

基于区域学习的标记检测在许多领域都有广泛的应用场景，包括但不限于：

视频监控：用于实时监测和识别视频中的人物、车辆等目标。
自动驾驶：用于识别和跟踪道路上的车辆、行人、交通标志等。
工业检测：用于检测和识别生产线上的缺陷产品、故障设备等。
人脸识别：用于识别和验证人脸图像中的个体身份。

腾讯云提供了一系列与图像处理和计算机视觉相关的产品和服务，可以支持基于区域学习的标记检测的开发和部署。其中，腾讯云的图像识别（Image Recognition）服务提供了丰富的API和SDK，可以实现目标检测、人脸识别等功能。您可以访问腾讯云图像识别产品介绍页面（https://cloud.tencent.com/product/imagerecognition）了解更多详情。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

MAE再次升级，FocusMAE开源 | 源于MAE又高于MAE，有更高质量的表征&全新的架构设计

胆管癌（GBC）。近来，自动检测GBC的技术引起了研究者的极大兴趣。GBC在早期很难被检测出来，而且当疾病被发现时大多数患者已经处于晚期，手术切除变得不可行。因此，这种疾病的生存统计数据非常惨淡。晚期GBC患者的5年生存率仅为5%，平均生存时间仅为六个月。因此，早期发现GBC对于及时干预和提高生存率至关重要。

01

LabVIEW色彩定位实现药品包装质量检测（实战篇—4）

色彩定位（Color Location）是指通过对色彩匹配功能进行增强和扩展，以快速定位图像中特定颜色区域的过程。

05

无人汽车无法避开没见过的物体？问题出在训练pipeline上

他们提出的目标检测方法，可以检测未见过的新物体，相对于Mask R-CNN有了巨大改进。编译丨王晔编辑丨青暮人类经常会遇到种类新颖的工具、食物或动物，尽管以前从未见过，但人类仍然可以确定这些是新物体。与人类不同，目前最先进的检测和分割方法很难识别新型的物体，因为它们是以封闭世界的设定来设计的。它们所受的训练是定位已知种类（有标记）的物体，而把未知种类（无标记）的物体视为背景。这就导致模型不能够顺利定位新物体和学习一般物体的性质。最近，来自波士顿大学、加州大学伯克利分校、MIT-IBM Watson

02

基于分层自监督学习将视觉Transformer扩展到千兆像素图像

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2206.02647.pdf 计算机视觉研究院专栏作者：Edison_G Vision Transformers (ViT) 及其多尺度和分层变体已成功地捕获图像表示，但它们的使用通常被研究用于低分辨率图像（例如256×256、384×384）。 1 概括对于计算病理学中的千兆像素全玻片成像 (WSI)，WSI在20倍放

02

目标检测创新：一种基于区域的半监督方法，部分标签即可（附原论文下载）

论文地址：https://arxiv.org/pdf/2201.04620v1.pdf

02

自动驾驶感知多任务框架 | MultiTask V3、HybridNets和YOLOP谁更强呢？

移动机器人中的感知系统，包括自动驾驶汽车和无人机，使用相机、激光雷达、雷达、IMU等传感器，GNSS等，以提供有关车辆在3D空间中位置的关键信息，并检测相关物体（如汽车、行人、骑自行车的人、红绿灯等）。

05

学界 | 弱监督视频物体识别新方法：中国香港科技大学联合CMU提出TD-Graph LSTM

选自arXiv 机器之心编译参与：李泽南、路雪在图像识别任务中，模型的训练一直非常依赖于标注数据，同时训练结果难以泛化。香港科技大学与卡耐基梅隆大学的研究者们最近发表的研究提出时间动态图 TD-Graph LSTM 试图解决这些问题，他们的新方法也刷新了视频目标检测的业内最佳水平。该论文已入选即将在 10 月底举行的 ICCV2017 大会。随着数据驱动方式在图像识别上的不断发展，人们对于扩大目标检测系统规模的兴趣越来越大。然而，与分类任务不同，用不同的类与边界框完整标注对象实例的方法几乎是不可扩展

08

Semi-supervised learning-based satellite remote sensing object detection method for power transmissi

众所周知，随着电网的日益复杂，传统的输电塔人工测量方法已经失效，无法满足安全稳定运行的要求。尽管卫星遥感技术的发展为输电塔的高效稳定测量提供了新的前景，但仍有许多问题需要解决。由于恶劣的气候和成像设备的限制，遥感图像中的一些输电塔目标是模糊的，这使得生成数据集和实现高精度输电塔目标检测变得极其困难。为了进一步提高发射塔的检测精度，首次将基于暗通道先验的图像增强算法应用于遥感图像，提高了图像的可解释性。然后，考虑到增强图像中仍有一些传输塔无法手动标记，采用了一种基于伪标记的半监督学习方法来最大限度地利用现有数据。基于这一高质量的数据集，利用移动倒瓶颈卷积和可变形卷积构建了一个传输塔卫星遥感目标检测模型。最后，根据我国某地区的卫星遥感图像数据集进行了烧蚀和对比实验。实验结果表明，图像增强和半监督学习方法都能提高检测精度，与现有主流模型相比，该方法性能更好。

01

目标检测和分类的域适配研究简述

1、Progressive Domain Adaptation for Object Detection 2020年

01

论文Express | AI+云+无人机=“云中监狱”：剑桥大学个体暴力行为实时监测

大数据文摘出品编译：小鱼、halcyon 关于AI技术引起的道德话题近来颇受争议，比如利用算法识别犯罪团伙或者，利用图像识别判定同性恋。近日，剑桥大学发布了一篇论文，提出了一个有意思的观点，即利用混合深度学习网络+云计算+无人机，搭建了一个能实时监测个体暴力行为的无人机监控系统。网红博主爱可可老师评价道，这篇论文的观点值得及时反思的道德危机，AI+云+无人机=空中监狱。论文中监控系统的实时画面☟ 可以在视频中看到，论文中提出的无人机监控系统，可以在人群中准确检测到发生肢体冲突的个体，并对其进行标记。

04

停车位检测新数据集、新方法，精准又快速（含视频解读）

论文地址：https://arxiv.org/pdf/2005.05528.pdf

03

停车位检测新数据集、新方法，精准又快速

论文地址：https://arxiv.org/pdf/2005.05528.pdf

02

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

大数据文摘授权转载自AI科技评论编译：Jocelyn 编辑：陈彩娴本文对视觉-语言（VL）智能按时间顺序进行了全面调研，并将这一领域的发展总结为三个阶段：第一个阶段是2014-2018年，其间，专门的模型被设计用于不同的任务。第二个时代是2019-2021年，在此期间，通过使用有着高质量标签的VL数据集进行预训练，神经网络模型能够学习视觉和语言的联合表征。最后，随着2021年CLIP的出现，第三个时代开始了，此时研究人员寻求在更大的弱标签数据集上预训练VL模型，并通过VL预训练获得性能强大的基于零样

02

万字深度好文！VL最强总结！

点击机器学习算法与Python学习，选择加星标精彩内容不迷路本文转自AI科技评论本文对视觉-语言（VL）智能按时间顺序进行了全面调研，并将这一领域的发展总结为三个阶段：第一个阶段是2014-2018年，其间，专门的模型被设计用于不同的任务。第二个时代是2019-2021年，在此期间，通过使用有着高质量标签的VL数据集进行预训练，神经网络模型能够学习视觉和语言的联合表征。最后，随着2021年CLIP的出现，第三个时代开始了，此时研究人员寻求在更大的弱标签数据集上预训练VL模型，并通过VL预

03

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

编译丨Jocelyn 编辑丨陈彩娴本文对视觉-语言（VL）智能按时间顺序进行了全面调研，并将这一领域的发展总结为三个阶段：第一个阶段是2014-2018年，其间，专门的模型被设计用于不同的任务。第二个时代是2019-2021年，在此期间，通过使用有着高质量标签的VL数据集进行预训练，神经网络模型能够学习视觉和语言的联合表征。最后，随着2021年CLIP的出现，第三个时代开始了，此时研究人员寻求在更大的弱标签数据集上预训练VL模型，并通过VL预训练获得性能强大的基于零样本或少样本的视觉模型。我们相信这

01

常用的表格检测识别方法-表格区域检测方法（上）

表格检测识别一般分为三个子任务：表格区域检测、表格结构识别和表格内容识别。本章将围绕这三个表格识别子任务，从传统方法、深度学习方法等方面，综述该领域国内国外的发展历史和最新进展，并提供几个先进的模型方法。

01

Python人工智能鉴黄师的自我修养

專欄 ❈LucasX，Python中文社区专栏作者。 ❈ 前阵子在设计一个智能黄反识别的方案，查阅了已有Paper，结合自己的一点想法，现对不良图像的识别进行以下梳理：方案1：皮肤区域检测法与

08

【深度学习基础】一步一步讲解卷积神经网络

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。

01

Nice Trick | 不想标注数据了！有伪标签何必呢，Mixup+Mosaic让DINO方法再继续涨点

在深度学习时代，目标检测取得了显著的进展，但高度依赖昂贵的人工标注。因此，半监督学习越来越受到研究兴趣的青睐，它利用未标注数据来提高检测器性能，而不只是依赖标注。

01

PupilNet: Convolutional Neural Networks for Robust Pupil Detection

实时、准确和健壮的瞳孔检测是普及的基于视频的眼球跟踪的必要前提。然而，由于快速的光照变化、瞳孔遮挡、非中心和离轴眼记录以及眼的生理特征，在真实场景中自动检测瞳孔是一个复杂的挑战。在本文中，我们提出并评价了一种新的基于双卷积神经网络流程的方法。在它的第一阶段，流程使用卷积神经网络和从缩小的输入图像的子区域进行粗瞳孔位置识别，以减少计算成本。第二阶段使用从初始瞳孔位置估计周围的小窗口衍生出的子区域，使用另一种卷积神经网络来优化这个位置，与目前性能最好的算法相比，瞳孔检测率提高了25%。可根据要求提供注释数据集。

02

计算机视觉最新进展概览2021年10月31日到2021年11月6日

为了促进多智能体感知中更好的性能带宽权衡，我们提出了一种新的蒸馏协作图(DiscoGraph)，用于建模智能体之间的可训练、姿态感知和自适应协作。我们的创新主要体现在两个方面。首先，我们提出了一个通过知识蒸馏训练DiscoGraph的师生框架。教师模式采用了早期协作的整体观点输入; 学生模型是基于具有单视图输入的中间协作。我们的框架通过约束学生模型中的协作后特征映射来匹配教师模型中的对应关系来训练DiscoGraph。其次，我们在DiscoGraph中提出了一个矩阵值边权。在这样的矩阵中，每个元素都反映了特定空间区域的主体间注意力，允许主体自适应地突出信息区域。在推理过程中，我们只需要使用名为蒸馏协作网络(DiscoNet)的学生模型。由于教师-学生框架，多个具有共享DiscoNet的agent可以以整体的观点协作地接近一个假设的教师模型的性能。我们利用CARLA和SUMO联合仿真合成了一个大型多智能体感知数据集V2X-Sim 1.0，并对该方法进行了验证。我们在多智能体三维物体检测中的定量和定性实验表明，DiscoNet不仅可以实现比最先进的协同感知方法更好的性能和带宽权衡，而且带来了更直观的设计原理。

02

计算机视觉最新理论2021年8月29日到2021年9月4日

由于自然界中对称模式的显著变化和模糊性，反射对称检测的任务仍然具有挑战性。此外，由于需要在反射中匹配局部区域来检测对称模式，标准的卷积网络很难学习这项任务，因为它与旋转和反射不相同。为了解决这个问题，我们引入了一种新的卷积技术，称为极值匹配卷积，它利用了极值特征池、自相似编码和不同角度轴的系统内核设计。提出的高维核卷积网络可以有效地学习从真实图像中发现对称模式，克服了标准卷积的局限性。此外，我们提出了一个新的数据集，并引入了一种利用合成图像增强数据集的自监督学习策略。实验表明，我们的方法在准确性和鲁棒性方面优于目前最先进的方法。

03

独家 | 无人驾驶项目实战：使用OpenCV进行实时车道检测

大约十年前，我瞥见了第一辆自动驾驶汽车，当时Google仍在对初代无人车进行测试，而我立刻被这个想法吸引了。诚然，在将这些概念开源给社区之前，我必须等待一段时间，但是这些等待是值得的。

02

基于深度学习的高精地图的自动生成与标注

文章：Automatic Building and Labeling of HD Maps with Deep Learning

03

古有照妖镜，今有换脸识别机，微软 CVPR 2020力作，让伪造人脸无处遁形

前些日子，Deepfake技术现身印度选举，被候选人用在了竞选拉票的宣传材料上。虽然此候选人以惨败而收场，但这意味着Deepfake点燃的AI换脸之火有逐渐升温的迹象。

02

Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop

代码地址：https://github.com/tatigabru/kaggle-rsna

03

卷积神经网络图解_卷积神经网络分类

大家好，我是架构君，一个会写代码吟诗的架构师。今天说一说卷积神经网络图解_卷积神经网络分类,希望能够帮助大家进步!!!

01

CL-Detection 2023——X射线图像头颅测量关键点检测改进方案

今天将分享X射线图像头颅测量关键点检测改进方案完整实现版本，为了方便大家学习理解整个流程，将整个流程步骤进行了整理，并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。

02

目标检测算法之Anchor Free的起源：CVPR 2015 DenseBox

刚刚过去的2019年出现了大量Anchor Free的工作，并且这个方向似乎大有可为，不少大佬都在研究这个方向。本着学习的态度，我将从Anchor Free的起源开始讲起，这是一个持续更新的系列。今天先来讲一下CVPR 2015的DenseBox，这项工作算是Anchor Free的起源。不得不说接近3-4年时间，Anchor Free才大火起来，由此看来这篇论文确实高瞻远瞩。论文地址和代码实现见附录。

01

机器学习-基础知识- 目标检测相关概念解释

机器学习-基础知识 - Precision, Recall, Sensitivity, Specificity, Accuracy, FNR, FPR, TPR, TNR, F1 Score, Balanced F Score

05

Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection

深度检测模型在受控环境下非常强大，但在不可见的领域应用时却显得脆弱和失败。所有改进该问题的自适应方法都是在训练时获取大量的目标样本，这种策略不适用于目标未知和数据无法提前获得的情况。例如，考虑监控来自社交媒体的图像源的任务:由于每一张图像都是由不同的用户上传的，它属于不同的目标领域，这在训练期间是不可能预见到的。我们的工作解决了这一设置，提出了一个目标检测算法，能够执行无监督适应跨领域，只使用一个目标样本，在测试时间。我们引入了一个多任务体系结构，它通过迭代地解决一个自我监督的任务，一次性适应任何传入的样本。我们进一步利用元学习模拟单样本跨域学习集，更好地匹配测试条件。此外，交叉任务的伪标记程序允许聚焦于图像前景，增强了自适应过程。对最新的跨域检测方法的全面基准分析和详细的消融研究显示了我们的方法的优势。

02

CL-Detection 2023——X射线图像头颅测量关键点检测

今天将分享X射线图像头颅测量关键点检测完整实现版本，为了方便大家学习理解整个流程，将整个流程步骤进行了整理，并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。

03

[吴恩达机器学习笔记]15.1-3非监督学习异常检测算法/高斯回回归模型

。所谓的异常检测问题就是：希望知道这个新的飞机引擎是否有某种异常，或者说，我们希望判断这个引擎是否需要进一步测试。因为，如果它看起来像一个正常的引擎，那么我们可以直接将它运送到客户那里，而不需要进一步的测试。

03

CVPR 2023: Stare at What You See讲解

标题：Stare at What You See: Masked Image Modeling without Reconstruction

04

如何通过简单处理估计植被表面

今天，我们将一起研究如何检测建筑物周围的植被表面。在这个过程中，我们将展示如何构建合适的数据集。植被检测是一种简单且实用的工具，来帮助我们判断人口稠密地区的生活质量。

01

PPDet：减少Anchor-free目标检测中的标签噪声，小目标检测提升明显

论文地址：https://arxiv.org/pdf/2008.01167.pdf

03

据说以后在探头下面用帽子挡脸没用了：SymmNet遮挡物检测的对称卷积神经网络

从立体图像或视频帧中进行遮挡物的检测，对许多计算机视觉应用而言都是非常重要的。先前的研究重点主要是将其与视差或光流的计算捆绑在一起，这导致了严重的 chicken-and-egg 问题。在本文中，我们利用卷积神经网络来解决传统交错的计算框架中遮挡物检测问题。

01

Berkeley发布BDD100K：大型的多样化驾驶视频数据集

Berkeley发布了最大，最多样化的驾驶视频数据集，其中包含丰富的BDD100K注释。您现在可以访问bdd-data.berkeley.edu上的数据进行研究。研究者最近发布了arXiv报告。现在仍然有机会参加CVPR 2018挑战。

02

Towards Open World Object Detection -CVPR2021 Oral（开放世界中的目标检测）

首先基于一个现象：人类在对事物进行观察的时候，是能够检测到每个实例，并按照自己已知的知识来对每个实例进行分类，有认知的归属到对应类别，无认知的归属到未知(unknown)，而过往的深度学习检测任务所完成的工作只能对已有认知的实例进行定位和分类，所以作者提出，能否使得检测算法达到更近似人类的认知体验？所以作者提出了“开放世界目标检测”任务。作者原文中对这个任务的解释如下：

06

Progressive Domain Adaptation for Object Detection

最近用于对象检测的深度学习方法依赖于大量的边界框注释。收集这些注释既费力又昂贵，但当对来自不同分布的图像进行测试时，监督模型并不能很好地推广。领域自适应通过使现有标签适应目标测试数据来提供解决方案。然而，领域之间的巨大差距可能会使适应成为一项具有挑战性的任务，从而导致不稳定的训练过程和次优结果。在本文中，我们建议用一个中间域来弥合领域差距，并逐步解决更容易的适应子任务。该中间域是通过平移源图像以模仿目标域中的图像来构建的。为了解决领域转移问题，我们采用对抗性学习来在特征级别对齐分布。此外，应用加权任务损失来处理中间域中的不平衡图像质量。实验结果表明，我们的方法在目标域上的性能优于最先进的方法。

03

跨界出圈 | 谈谈BERT跨模态预训练

BERT以及BERT后时代在NLP各项任务上都是强势刷榜，多模态领域也不遑多让。前几天我们刚分享了复旦邱锡鹏老师的报告：复旦邱锡鹏教授 | 『语言+X』预训练模型，今天就来详细整理一些代表性工作。

01

DenseBox：思想超前的早期Anchor-free研究 | CVPR 2015

论文: DenseBox: Unifying Landmark Localization withEnd to End Object Detection

03

资源 | 伯克利发布BDD100K：目前最大规模开放驾驶视频数据集

选自BAIR Blog 作者：Fisher Yu 机器之心编译参与：张倩、路雪近日，UC Berkeley 发布了迄今为止规模最大、最多样化的开放驾驶视频数据集——BDD100K。该数据集共包含

04

深度学习在医学影像上的应用（四）——检测

上一篇给大家介绍了深度学习在医学影像上分割的应用，这一篇我将分享深度学习在医学影像上检测应用。

03

性能达到SOTA的CSP对象检测网络

早期传统的对象检测方法都是基于滑动窗口的特征分类，自从深度学习来了之后就产生很多基于深度神经网络效果特别好的对象检测网络模型，比如SSD、YOLO、Faster-RCNN等，但是这些模型都有个缺陷就是依赖anchor设置，总的来说anchor设置对模型最终精度有比较明显的影响。本文中作者通过深度神经网络提取高级抽象语义描述把对象检测中图像上各个对象抽象为BLOB对象检测的中心特征点，同时通过卷积神经网络预测每个中心特征点尺度范围，这样就实现了anchor-free的对象检测网络构建，在几个benchmark对象检测数据集上都取得跟anchor-base网络相同甚至更好的效果。而且针对交叉数据集验证表明该方法有杰出的泛化能力。

04

CVPR2023｜Micron-BERT: 基于BERT的人脸微表情识别

微表情识别是情感计算中最具挑战性的课题之一。它的目的是识别人类难以在短时间内（0.25到0.5秒）感知到的微小面部运动。然而，针对视觉问题，现有方法中的标准 BERT 只能从完整的图像或视频中学习，该架构不能准确地检测面部微表情的细节。

06

SEMI-SUPERVISED OBJECT DETECTION FRAMEWORK WITH OBJECT FIRST MIXUPFOR REMOTE SENSING IMAGES

本文提出了一个用于遥感图像的简单半监督目标检测框架，该框架被命名为SSOD-RS。SSOD-RS包含两个部分，即改进的自我训练和基于强数据增强的一致性正则化，以及改进的混合。首先，作为一种增强算法，提出了Object First mixup（OF-mixup）来调整物体和背景的权重，扩大了训练样本的分布，同时减少了遥感复杂背景对物体特征的干扰。其次，在自训练中引入了集合损失和微调的训练策略，使模型在学习了伪标签的特征后，适应真实标签的特征分布。实验结果表明，利用无标签图像的SSOD-RS可以极大地提高模型的准确性。

01

旋转角度目标检测的重要性！！！（附源论文下载）

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9521517 计算机视觉研究院专栏作者：Edison_G 任意方向的目标

01

如何用YOLO+Tesseract实现定制OCR系统？

在本文中，你将学习如何在深度学习的帮助下制作自己自定义的 OCR 来读取图像中的文字内容。我将通过 PAN-Card 图像的示例，带你学习如何进行文本检测和文本识别。但首先，让我们熟悉一下光学字符识别的过程。

02

如何用YOLO+Tesseract实现定制OCR系统？

我们的第一个任务是从图像/文档中检测所需的文本。通常，根据需要，你不想阅读整个文档，而只想阅读一条信息，如信用卡号、Aadhaar/PAN 卡号、姓名、账单金额和日期等。检测所需文本是一项艰巨的任务，但由于深度学习，我们将能够有选择地从图像中读取文本。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭