开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

有没有人知道在图像中找到物体位置的技术？

在图像中找到物体位置的技术是计算机视觉领域的一个重要研究方向，主要包括目标检测和目标定位两个方面。

目标检测：目标检测是指在图像中准确定位并识别出图像中存在的目标物体。常见的目标检测算法包括：
- R-CNN系列算法：包括R-CNN、Fast R-CNN、Faster R-CNN等，通过候选区域提取和卷积神经网络（CNN）进行目标检测。
- YOLO系列算法：包括YOLO、YOLOv2、YOLOv3等，通过将目标检测问题转化为回归问题，实现实时目标检测。
- SSD算法：Single Shot MultiBox Detector，通过在不同尺度的特征图上进行目标检测，实现高效准确的目标检测。

目标定位：目标定位是指在图像中准确地确定目标物体的位置，通常以目标的边界框或像素级别的分割结果表示。常见的目标定位算法包括：
- 基于边界框的目标定位：通过回归或优化算法，得到目标物体的边界框位置。
- 基于像素级别分割的目标定位：通过像素级别的分割算法，得到目标物体的精确轮廓。

这些技术在计算机视觉领域有广泛的应用场景，包括智能监控、自动驾驶、人脸识别、图像搜索等。在腾讯云的产品中，可以使用腾讯云的图像识别服务来实现目标检测和定位，具体可以参考腾讯云的图像识别产品介绍：https://cloud.tencent.com/product/tii

相关搜索:修剪周围有透明度的图像，并知道它的位置有没有人知道在Spring MVC中的Pivotal Cloud Cache的技术入门，而不是在Springboot中？有没有人知道RenderAction HtmlHelper在RC1中的ASP.NET MVC中的位置如何知道物体在AR空间中的位置？(桌面和移动设备之间的行为不一致)在Jimp中，是否有一个属性可以知道图像是垂直的还是水平的？尝试将选框放置在图像上的精确位置。将图像放在父div中。在父div中，我有选取框div 是否有其他方法可以将页面中的图像放置在不同分辨率的特定位置有没有人知道是否有可能设置一个HTML图像地图，并让地图的一个部分中的链接跳转到同一地图的其他部分上的链接？js实现图片加水印 jsp调用js怎么

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

创新沙盒inky的一大关键技术分析：Logo识别技术

Logo识别技术是现实生活中应用很广的一个领域，比如一张照片中是否出现了Adidas或者Nike的商标Logo，或者一个杯子上是否出现了星巴克或者可口可乐的商标Logo。学术上早在2013年开始就已经陆续使用深度学习做相关的研究，而业界Logo识别已经开始商业化，包括谷歌，百度，阿里等公司都在AI开放平台开放了API给大家提供Logo识别的使用接口。在安全领域Logo识别技术的应用也很广泛，例如敏感信息挖掘，垃圾邮件过滤等方面都有涉及Logo识别相关的应用。2020年RSA创新沙盒中inky公司在恶意邮件识别系统中也用到了这一关键技术。

02

他在同济学汽车，今年拿下CVPR最佳学生论文奖

梦晨萧箫发自凹非寺量子位 | 公众号 QbitAI 从汽车动力学“转行”智能视觉感知，3年斩获2篇CVPR论文。其中一篇，还是今年CVPR论文的最佳学生论文奖。奖项颁了二十多届，今年第一次颁给来自中国高校的学生一作，打败了哈佛大学博士生&谷歌的另一篇论文研究。这是同济大学在读二年级硕士、阿里达摩院实习生陈涵晟的真实经历。转方向前，他对汽车动力学同样兴趣十足，曾经加入过赛车队，主导空气动力学开发，最终团队在大学生国际赛事上获了奖；读研第一年，论文就入选了CVPR，但却因为理论不够充分，转而

01

Grasp2Vec：通过自我监督式抓取学习物体表征

从很小的时候开始，人类就能够识别最喜欢的物品，并将它们捡起来，尽管从未有人明确教过他们这样做。认知发展研究表明，与周围物体互动的能力在培养物体感知和操纵能力（例如有目的的抓取）的过程中起着至关重要的作用。通过与周围的环境互动，人类能够以自我监督的方式学习：我们知道自己作出的动作，并会从结果中学习。在机器人领域，人们正在积极研究这种自我监督学习，因为这使机器人系统能够在不需要大量训练数据或人工监督的情况下进行学习。

02

图像识别技术的应用及发展趋势

移动互联网、智能手机以及社交网络的发展带来了海量图片信息，根据BI五月份的文章，Instagram每天图片上传量约为6000万张；今年2月份WhatsApp每天的图片发送量为5亿张；国内的微信朋友圈也是以图片分享为驱动。不受地域和语言限制的图片逐渐取代了繁琐而微妙的文字，成为了传词达意的主要媒介。图片成为互联网信息交流主要媒介的原因主要在于两点：

02

受婴儿抓阄启发，谷歌让机器臂自学抓取物体，不用标注数据

谷歌大脑让AI更像儿童了，至少在对象识别和感知方面是这样。最近，他们和加州大学伯克利分校的学生研究了一种算法Grasp2Vec，通过观察和操纵来“学习”物体的特征。

03

斯坦福黑科技打造新型交互机器人：看视频一学就会！

为什么？要弄清这个问题，需要从日常人类生活中的相互作用的多样性说起。我们几乎无时无刻不在进行活动，这些活动中包括简单的动作，比如吃水果，或更复杂一些的，比如做饭。这些活动中都会发生人和周围事物的相互作用，这个过程是多步的，会受到物理学、人类目标，日常习惯和生物力学的支配。

04

你所不能不知道的CNN

说起CNN，最初人们想到的都是某电视台，但等过几年，人们想起的多半是深度学习了。应该说， CNN是这两年深度学习风暴的罪魁祸首，自2012年，正是它让打入冷宫的神经网络重见天日并且建立起自己在人工智能王国的霸主地位。如过你认为深度学习是只能用来理解图像的，你就大错特错了，因为它的用途太广了，上至文字，中有图像，下至音频，从手写数字识别到大名鼎鼎的GAN对抗学习，都离不开它。不过要了解CNN，还是拿图像做例子比较恰当。一句话来说CNN图像处理的本质，就是信息抽取，巨大的网络可以抽取一步步得

08

今天起，种草小红书的多模态AI技术

机器之心报道编辑：思在人工智能领域，存在着这样一种技术，它像人类利用视觉、嗅觉、味觉、听觉等多感官理解现实世界一样，希望充分利用文本、图像、语音和视频等多种模态，这就是「多模态学习」。多模态学习的研究时间不算太长，但应用前景非常广泛，比如电商购物平台中的以图搜图的检索技术、智能家居以及车载智能助手的语音交互等。不过要说多模态技术真正实现了落地似乎还太早，从多模态数据标注到跨模态转化，该领域都面临着众多挑战。这就需要研究社区和业界持续探索新的发展方向和技术范式。作为国内独特的以图文和短视频内容为主的社

02

解放双手？你一定缺这款“AI女友”

“一般情况下，给性玩具进行编程是一种事后想法，”Brian Sloan 解释，“想想女性的性玩具吧，它们的功能都不过是以不同的模式振动。”

01

[深度学习概念]·深度学习的目标检测技术演进解析

object detection个人理解，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。object detection要解决的问题就是物体在哪里，是什么这整个流程的问题。然而，这个问题可不是那么容易解决的，物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，更何况物体还可以是多个类别。

02

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。object detection要解决的问题就是物体在哪里，是什么这整个流程的问题。然而，这个问题可不是那么容易解决的，物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，更何况物体还可以是多个类别。 object detection技术的演进： RCNN->SppNET->Fast-RCNN->Faster-RCNN 从图像识别的任务说起这里有一个图像任务：既要把图中的物体

06

图像理解--Detecting and Recognizing Human-Object Interactions

Detecting and Recognizing Human-Object Interactions https://arxiv.org/abs/1704.07333

02

业界 | 李飞飞团队最新研究成果：视觉AI让医院细菌无处可逃！

据说每年都会有很多人在医院感染病菌然后不幸患病，甚至因此导致的死亡人数比车祸还多。

01

林元庆破解小度问鼎最强大脑三大原理，后吴恩达时代百度 AI 突围

【新智元导读】《最强大脑》第四季最终回播出，百度人工智能机器人小度和人类一起问鼎“脑王”。小度在前两个环节（图像检索和人脸识别）表现优异，最后声纹识别项目挑战失败。成败背后的技术要点和难点是什么？本文为你带来最全解读。后附百度研究院院长林元庆对挑战赛技术原理、百度为何不做围棋AI、吴恩达走后百度人事架构的回答。本季脑王共分三个环节，前两个环节人类选手和小度都参与了挑战（小度都成功了，两名人类选手都失败了），第三个环节则是小度和人类选手分别挑战不同的项目（结果小度失败，人类成功）。最终结果：人类代表队和小

06

ASM-Net：可解释的美学评分及图像剪裁

基于美学的图像裁剪（aesthetic image cropping）的目标是在一张图片中找到具有最高美学评价的子图。

01

懂点人脸识别知识

什么？方案里没有人脸识别，看来你们的方案还是老旧的方案。上面就是客户给你的方案汇报一个总结。是不是很委屈，是不是很郁闷，你是不是想说，我们也不是人脸识别企业，为什么要懂这么多啊。

02

ICCV 2023 | 实现实时六自由度物体跟踪，深度主动轮廓模型DeepAC来了

本文介绍了一篇由国防科技大学刘煜教授团队和浙江大学 - 商汤联合实验室周晓巍教授团队联合撰写的论文《Deep Active Contours for Real-time 6-DoF Object Tracking》，该论文已被计算机视觉与人工智能顶尖国际会议 ICCV 2023 录用。仅需要提供 CAD 框架模型，就可以在多种光照条件和局部遮挡情况下实现对立体物体的实时跟踪。传统的基于优化的方法根据手工特征将物体 CAD 模型的投影与查询图像对齐来求解位姿，容易陷入局部最优解；最近的基于学习的方法使用深度网络来预测位姿，但其要么预测精度有限，要么需要提供 CAD 纹理模型。

02

Nvidia「艺术家神器」GauGAN发布第二代！训练超1000万张图片，两个词就能生成风景画

最近，英伟达发布了实时绘画工具GauGAN的第二代，主要特性是支持输入文本来生成图像。

01

用AI实现隔墙“透视”，准确率达97%，这家中国公司研究入选CVPR

试想一下，自动驾驶汽车行驶到了拐弯处，即使激光雷达再强大，也无法探测到建筑物后的有什么事情发生，如果是突然有行人冲出来，后果不堪设想。

02

哪里不知道“瞄”哪里，这项AI黑科技，打开手机就能体验

在一年一度的百度AI开发者大会上，百度高级副总裁、移动生态事业群组总经理沈抖拿着手机，打开百度App做了这样一个演示。

02

深度 | 搜寻失落的信号：无监督学习面临的众多挑战

选自giorgiopatrini.org 作者：Giorgio Patrini 机器之心编译参与：刘晓坤、李泽南、蒋思源无监督特征学习的当前趋势概览：回归到随机目标的流形学习，发掘因果关系以描述视

这四类机器学习算法，在自动驾驶中常用

机器学习算法已经被广泛应用于自动驾驶各种解决方案，电控单元中的传感器数据处理大大提高了机器学习的利用率，也有一些潜在的应用，比如利用不同外部和内部的传感器的数据融合(如激光雷达、雷达、摄像头或物联网)，评估驾驶员状况或为驾驶场景分类等。在KDnuggets网站发表的一篇文章中，作者Savaram Ravindra将自动驾驶中机器学习算法主要分为四类，即决策矩阵算法、聚类算法、模式识别算法和回归算法。我们跟他一起看看，这些算法都是怎样应用的。

01

你的电脑是如何识别色图的？？

在视频监控系统中，计算机甚至能把你能从一大堆东西里给认出来，连你穿啥颜色衣服都能看的一清二楚。

使用SSD进行目标检测：目标检测第二篇

【导读】近日，CV-Tricks.com发布了一篇文章，使用SSD进行目标检测，SSD是当前最流行的目标检测算法之一。作者从检测的基本概念、滑动窗口检测、减少滑动窗口方法的冗余计算、修改后网络的训练方

05

NIPS 2018 | Spotlight论文：凭借幻想的目标进行视觉强化学习

我们想构建一个能够在复杂的非结构化环境中完成任意目标的智能体，例如可以做家务的机器人。一种有前景的方法是使用深度强化学习，这是一种用于教授智能体最大化奖励函数的强大框架。然而，典型的强化学习范例一般需要手动设计奖励函数来训练智能体解决独立任务。

02

目标检测论文解读之RCNN

最近准备开始认真的梳理一下目标检测的相关算法，组合成一个目标检测算法系列。之前看到了一张特别好的目标检测算法分类的甘特图，但忘记是哪里的了，要是原始出处请提醒我标注。

01

快乐学AI系列——计算机视觉（3）目标检测

目标检测是计算机视觉领域中的一个重要问题，它旨在识别图像中的特定物体并确定其位置。目标检测在许多应用领域中都有广泛的应用，如智能交通、安全监控、医学影像分析等。

00

一文看懂自动驾驶中应用的机器学习算法

安妮唐旭编译自 KDnuggets 量子位出品 | 公众号 QbitAI 机器学习算法已经被广泛应用于自动驾驶各种解决方案，电控单元中的传感器数据处理大大提高了机器学习的利用率，也有一些潜在的应用，比如利用不同外部和内部的传感器的数据融合(如激光雷达、雷达、摄像头或物联网)，评估驾驶员状况或为驾驶场景分类等。在KDnuggets网站最近发表的一篇文章中，作者Savaram Ravindra将自动驾驶中机器学习算法主要分为四类，即决策矩阵算法、聚类算法、模式识别算法和回归算法。我们跟他一起看看，这些算

07

自动驾驶中常用的四类机器学习算法

机器学习算法已经被广泛应用于自动驾驶各种解决方案，电控单元中的传感器数据处理大大提高了机器学习的利用率，也有一些潜在的应用，比如利用不同外部和内部的传感器的数据融合(如激光雷达、雷达、摄像头或物联网)，评估驾驶员状况或为驾驶场景分类等。在KDnuggets网站发表的一篇文章中，作者Savaram Ravindra将自动驾驶中机器学习算法主要分为四类，即决策矩阵算法、聚类算法、模式识别算法和回归算法。我们跟他一起看看，这些算法都是怎样应用的。

07

一文看懂自动驾驶中应用的机器学习算法

机器学习算法已经被广泛应用于自动驾驶各种解决方案，电控单元中的传感器数据处理大大提高了机器学习的利用率，也有一些潜在的应用，比如利用不同外部和内部的传感器的数据融合(如激光雷达、雷达、摄像头或物联网)，评估驾驶员状况或为驾驶场景分类等。在KDnuggets网站最近发表的一篇文章中，作者Savaram Ravindra将自动驾驶中机器学习算法主要分为四类，即决策矩阵算法、聚类算法、模式识别算法和回归算法。我们跟他一起看看，这些算法都是怎样应用的。算法概览我们先设想这样一个自动驾驶场景——汽车的信息

2D和3D机器视觉检测技术的优势和局限性

机器视觉一般由工业光源，图像采集单元，图像处理单元，图像处理软件及网络通讯装置等构成。在自动化工业质量控制和在线检测领域，2D和3D技术都具有重要的作用。如何将两者结合起来创建一个更可靠、高效的机器视觉检测系统，首先要认识两者的各自优势和局限性。

01

清华大学提出三维重建的新方法：O²-Recon，用2D扩散模型补全残缺的3D物体

在计算机视觉中，物体级别的三维表面重建技术面临诸多挑战。与场景级别的重建技术不同，物体级别的三维重建需要为场景中的每个物体给出独立的三维表示，以支持细粒度的场景建模和理解。这对 AR/VR/MR 以及机器人相关的应用具有重要意义。

01

能看图、会聊天，还会跨模态推理和定位，能落地复杂场景的DetGPT来了

机器之心专栏港科大LMFlow团队 & 港大NLP实验室一直以来，人类梦想着机器人能够辅助人类处理生活和工作的事情。“请帮我调低空调的温度”，甚至 “请帮我写一个商城网站” 都在近年来的家居助手和 OpenAI 发布的 Copilot 上得以实现。 GPT-4 的出现，进一步为我们展示了多模态大模型在视觉理解上的潜力。开源中小模型方面，LLAVA、minigpt-4 表现不俗，可以看图聊天，还可以为人类猜测美食图片中的菜谱。然而，这些模型在实际落地中仍然面临重要的挑战：没有精准的定位能力，不能给出某物体

02

本周AI热点回顾：StyleGAN和CLIP组了个CP？还能听懂修图指令；黑客用GitHub服务器挖矿，代码惊现中文！

在最近的一篇论文中，来自希伯来大学、特拉维夫大学、Adobe 等机构的研究者提出了一种名为「StyleCLIP」的模型，几乎可以让你动动嘴皮子就把图修了。

03

6. RCNN--Fast-RCNN--Faster-RCNN技术演进

分类已经学习过了四大网络(AlexNet,VGG,InceptionNer,ResNet)，对于一个分类问题，数据量足够的话，根据分类复杂性搭建不同深度的卷积神经网络就基本可以解决这个问题了。具体的工业实现的话肯定会有这样或者那样的问题，就需要具体问题具体分析了。分类的前提是我们能拿到一个目标的纯净图像(尽可能少的包含背景)，我们拿来训练的图像一般也是这样的，这是一个计算机视觉中的一个基本任务。

03

Nature子刊封面：将拓扑应用于机器学习，提升神经网络可解释性

葡萄牙里斯本，一支来自意大利的数学家团队，和几位Champalimaud未知中心（CCU）的神经科学家，正在兴奋地讨论着刚刚被发表在Nature Machine Intelligence杂志上的研究成果。

02

CVPR2021 | 国防科大：基于几何稳定性分析的物体位姿估计方法

机器之心专栏机器之心编辑部物体6D姿态估计是机器人抓取、虚拟现实等任务中的核心研究问题。近些年来，随着深度学习技术和图像卷积神经网络的快速发展，在提取物体的几何特征方面出现了许多需要改善的问题。国防科技大学的研究人员致力于通过将几何稳定性概念引入物体 6D 姿态估计的方法来解决问题。物体 6D 姿态估计的目的是确定物体从模型坐标系到相机坐标系的刚性变换矩阵。现有方法通常通过求解观测物体与物体三维模板模型的对应关系或使用深度神经网络回归的方法计算物体位姿。得益于图像卷积神经网络的发展，现有位姿估计方法大

01

你的电脑是如何识别色图的？

在视频监控系统中，计算机甚至能把你能从一大堆东西里给认出来，连你穿啥颜色衣服都能看的一清二楚。

02

智能刷脸，打开新“视界”

《智能刷脸，打开新“视界”》一文主要讲述了在人脸识别技术领域，中国的人工智能团队通过不断努力和创新，赢得了全球竞赛，并且该技术有着广泛的应用前景。文章中提到，人工智能技术能够提高效率，降低成本，使得在传统领域的应用变得简单，例如安防、医疗和金融等。同时，计算机视觉技术的进步也带来了新的挑战，尤其是当计算机识别出人类视觉能力的时候，需要解决数据存储和算法效率等问题。尽管面临着诸多挑战，但中国的人工智能领域发展迅速，有着巨大的优势和潜力，同时也需要加强技术人才的储备和市场环境的完善，以应对全球竞争的挑战。

09

张睿鑫：医院LBS位置服务助力小程序插件开发

12月15日，由腾讯云主办的首届“腾讯云+社区开发者大会”在北京举行。本届大会以“新趋势•新技术•新应用”为主题，汇聚了超40位技术专家，共同探索人工智能、大数据、物联网、小程序、运维开发等热门技术的最新发展成果，吸引超过1000名开发者的参与。以下是小程序分会场的演讲内容，稍作整理，分享给大家。

04

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

机器之心报道编辑：小舟、梓文扩散模型虽好，但如何保证生成的图像准确高质量？GPT-4或许能帮上忙。文本到图像生成领域近两年取得了很大的突破，从 GAN 到 Stable Diffusion，图像生成的速度越来越快，生成效果越来越好。然而，AI 模型生成的图像在细节上还有很多瑕疵，并且使用自然语言指定对象的确切位置、大小或形状存在一定的困难。为了生成精准、高质量的图像，现有方法通常依赖于广泛的提 prompt 工程或手动创建图像草图。这些方法需要大量的人工工作，因此非常低效。最近，来自加州大学伯克利分

02

走亲访友不慌！手把手教你怎样用Mask R-CNN和Python做一个抢车位神器

今天是大年初三，按照传统习俗，从这天开始，就要开始走亲访友了。这时候的商场、饭馆也都是“人声鼎沸”，毕竟走亲戚串门必不可少要带点礼品、聚餐喝茶。

04

EAO-SLAM: Monocular Semi-Dense Object SLAM Based on Ensemble Data Association

EAO-SLAM: Monocular Semi-Dense Object SLAM Based on Ensemble Data Association

05

摘掉“人工智障”帽子：新技术让机器人也能“三思后行”

1月2日早间消息，加州大学伯克利分校的最新研究成果显示，机器人也可以具备“预见”功能，通过视频识别技术在移动物体之前预测到可能发生的情况。 📷 视频介绍：点此观看人类有能力在采取行动之前首先进行思考。例如，如果有人想踢球，可能就会考虑球会跑到那里去，以及把球踢到新位置的概率。机器人往往不具备这种能力，因为它们内部的程序通常只能执行简单的任务，没有配备人工智能程序的机器人尤其如此。但加州大学伯克利分校的研究人员却发现，机器人也可以具备这种直觉。为了证明这一点，他们开发了新的机器人学习技术，使得机器人可以提

06

相机标定——张正友棋盘格标定法

其中，R为旋转矩阵，t为平移向量，因为假定在世界坐标系中物点所在平面过世界坐标系原点且与Zw轴垂直（也即棋盘平面与Xw-Yw平面重合，目的在于方便后续计算），所以zw=0，可直接转换成式1的形式。其中变换矩阵

03

SLAM技术支持的物体6Dof位姿估计的自训练方法

转载：深蓝AI 分享嘉宾：卢子琦文稿整理：张琳编辑：东岸因为@一点人工一点智能

03

无人驾驶技术课——感知（3）

在前面的课程里，我们提到了感知模块内的计算机视觉和深度学习，这节课我们来讲一讲感知任务中的分类、跟踪、语义分割和 Apollo 感知相关的内容。

02

CNN 是如何处理图像中不同位置的对象的？

AI 研习社按：这篇博客来自 Jetpac（现被谷歌收购） CTO、苹果毕业生、TensorFlow 团队成员 Pete Warden。文中讨论了当要识别的对象出现在图像中的不同位置时，CNN 是如何应对、识别的。Pete Warden 给出的解释也许算不上完善，而且也仍然无法保证能够消除位置的影响，但这是一个不错的开始。AI 研习社全文编译如下。

01

干货 | CNN 是如何处理图像中不同位置的对象的？

AI 科技评论按：这篇博客来自 Jetpac（现被谷歌收购） CTO、苹果毕业生、TensorFlow 团队成员 Pete Warden。文中讨论了当要识别的对象出现在图像中的不同位置时，CNN 是如何应对、识别的。Pete Warden 给出的解释也许算不上完善，而且也仍然无法保证能够消除位置的影响，但这是一个不错的开始。AI 科技评论全文编译如下。

02

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

object detection，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。所以，object detection要解决的问题就是物体在哪里以及是什么的整个流程问题。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭