之前在专栏的第一篇文章中介绍了一下关于层模型(layered model)的工作,并给自己挖了几个坑。今天让我来填其中一个坑:视频中的物体低延迟检测。由于这一系列工作目前贡献了一篇cvpr17和一篇iccv19共两篇论文,我将分上下两篇文章分别介绍,希望可以把工作的背景、思路、坑、相关思考和一些不在论文发表内容中的故事说明白。还是和上一篇一样,希望写出来的的不是机械的公式或者吹得天花乱坠神乎其神的PR,而是一些原理性的东西以及背后思考的过程。
光流的概念是Gibson在1950年首先提出来的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。一般而言,光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。其计算方法可以分为三类:
在自动驾驶领域,基于激光雷达 (LiDAR) 的3D物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。激光雷达的多帧时序数据,提供了对于检测物体的多视角观测 (multiple views),历史记忆 (history memory),安全冗余 (redundant safty),以及运动特征 (motion kinematics) 等丰富的信息;可用来帮助提高检测速度和精度,并且增加检测结果的可靠性。对于感知的下游模块,例如追踪和预测,时序信息则更为重要。
文章:Multi-level Map Construction for Dynamic Scenes
开发实时3D声纳技术和海底智能的公司Coda Octopus发布了一种新产品,该产品使用AI自动检测和识别不同的水下物体。
文章:Optical Flow Based Motion Detection for Autonomous Driving
李林 假装发自 威尼斯 量子位 出品 | 公众号 QbitAI 又一次!中国团队拿下一项AI赛事的多个大奖! 8天的计算机视觉顶会ICCV 2017在威尼斯悄然落幕,期间中国团队在物体检测、人体关键点检测等竞争激烈的比赛中击败了谷歌、微软、Facebook等国际巨头AI实验室。 ICCV 2017 “Joint COCO and Places Recognition Challenge” Workshop中,一共公布了7项竞赛的结果。 中国AI创业公司旷视科技(Face++)在MS COCO物体检测、人体关
作者:Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
光流的概念是Gibson在1950年首先提出来的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。一般而言,光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。
论文:Instantaneous Perception of Moving Objects in 3D
摘 要 在过去的三年中,Pinterest 已经针对几款视觉搜索和推荐服务做出了相关的实验,其中就包括 Related Pins (2014)、Similar Looks (2015)、Flashlight (2016)以及 Lens (2017)。本论文旨在对上述几款服务背后的视觉发现引擎做出简要的概述,同时对技术决策和产品决策背后的理论做出分析, 如物体检测和交互式用户界面的使用。最终我们得出以下结论:视觉发现引擎极大地提升了搜索和推荐任务的互动性。 关键词: 视觉搜索、推荐系统、卷积特征、物体检测 介
中国科学院大学联合厦门大学和深圳鹏城实验室,提出一种自由锚框匹配的单阶段(One-stage)物体检测方法FreeAnchor。
1、3D Object Detection for Autonomous Driving: A Survey 自动驾驶被认为是保护人类免遭严重车祸的最有前途的方法之一。 为此,三维目标检测是感知系统的核心基础,特别是在路径规划、运动预测、避碰等方面。 一般来说,立体或单目图像中相应的三维点云已经是三维目标检测的标准布局,随着提供准确的深度信息,点云越来越普遍。 尽管已有的努力,点云上的3D目标检测仍然处于起步阶段,原因是点云本质上高度稀疏和不规则,相机视图和激光雷达鸟瞰图之间的不对齐视图的模态协同,遮挡和规模变化在长距离等。 近年来,在三维目标检测方面取得了深刻的进展,有大量的文献正在研究这一视觉任务。 因此,我们将全面回顾该领域的最新进展,涵盖所有主要主题,包括传感器、基本原理和最新的最先进的检测方法及其优缺点。此外,我们将介绍度量并提供流行公共数据集的定量比较。 未来工作的途径将在对调查工作进行深入分析后审慎地确定。 最后,对本文进行了总结。 2、One Million Scenes for Autonomous Driving: ONCE Dataset 当前的自动驾驶感知模型因严重依赖大量注释数据来覆盖不可见的案例和解决长尾问题而臭名昭著。 另一方面,从未标记的大规模收集数据中学习、逐步自我训练的强大识别模型越来越受到关注,可能成为下一代行业级强大、鲁棒的自动驾驶感知模型的解决方案。 然而,研究领域普遍存在着现实场景中必不可少的数据不足的问题,这阻碍了未来全/半/自我监督的三维感知方法的探索。 在本文中,我们介绍了用于自动驾驶场景的三维目标检测的ONCE(一百万场景)数据集。 ONCE数据集包括100万个激光雷达场景和700万个相应的相机图像。 数据来自144个驾驶小时,比现有最大的3D自动驾驶数据集(如nuScenes和Waymo)长20倍,数据来自不同的地区、时间段和天气条件。 为了便于未来利用无标记数据进行3D检测的研究,我们另外提供了一个基准,在此基准上我们在ONCE数据集上再现和评估各种自我监督和半监督方法。 我们对这些方法进行了广泛的分析,并提供了与使用数据规模相关的有价值的观察结果。 3、SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving 为了促进一个真实的、不断发展和可扩展的自动驾驶系统,我们提出了一个大规模的基准,通过学习原始数据,对不同的自我监督和半监督方法进行标准化评估,这是迄今为止第一个也是最大的基准。 现有的自动驾驶系统严重依赖“完美的”视觉感知模型(如检测),这些模型使用大量标注数据进行训练,以确保安全。 然而,在部署一个强大的自动驾驶系统时,要对所有场景和环境(例如夜晚、极端天气、城市)都精心标注是不现实的。 基于自监督和半监督学习的强大发展,通过协同开发大规模无标记数据和少量标记数据学习鲁棒检测模型是一个很有前途的方向。 现有的数据集(如KITTI、Waymo)要么只提供少量的数据,要么覆盖了有限的领域,并进行了完整的注释,阻碍了对大规模预训练模型的探索。 在这里,我们发布了一个用于自动驾驶的大规模目标检测基准,名为SODA10M,包含1000万张未标记图像和20K张标记了6个代表性目标类别的图像。 为了提高多样性,图像每10秒采集一次,在32个不同的城市中,在不同的天气条件下,时间段和场景。 我们提供了广泛的实验和深入的分析现有的监督的最先进的检测模型,流行的自我监督和半监督方法,以及一些关于如何开发未来的模型的见解。 4、MODETR: Moving Object Detection with Transformers 运动目标检测(MOD)是自动驾驶系统的一项重要任务。 MOD通常通过融合了外观和运动线索的双流卷积结构处理,而没有考虑空间或运动特征之间的相互关系。 在本文中,我们通过跨越空间流和运动流的多头注意机制来解决这个问题。 我们建议MODETR; 一个运动物体检测Transformer网络,包括空间和运动形态的多流变压器编码器,和一个物体变压器解码器,使用集合预测产生运动物体的边界盒。 整个体系结构使用双向损耗进行端到端训练。 本文探讨了将运动线索与Transformer模型结合的几种方法,包括双流RGB和光流方法,以及利用序列信息的多流体系结构。 为了整合时间信息,我们提出了一种新的时间位置编码(TPE)方法来扩展空间位置编码(SPE)。 我们将为此探索两种架构选择,即在速度和时间之间实现平衡。 为了评估我们的网络,我们在KITTI MOD[6]数据集上执行MOD任务。 结果表明,显著的5%地图的Transformer网络MOD超过了最先进的方法。 此外,提出的TPE编码比SPE基线提供了10%的mAP改进。 5、Multi-Modal 3D O
本篇文章目的将为你详细罗列 Python OpenCV 的学习路线与重要知识点。核心分成 24 个小节点,全部掌握,OpenCV 入门阶段就顺利通过了。
夏乙 编译整理 量子位 出品 | 公众号 QbitAI “等代码吧。” 从Mask R-CNN论文亮相至今的10个月里,关于它的讨论几乎都会以这句话收尾。 现在,官方版开源代码终于来了。同时发布的,
在运动目标检测提取中,背景目标对于目标的识别和跟踪至关重要。而建模正是背景目标提取的一个重要环节。
近年来,在平安城市、雪亮工程、智安小区等政策的扶持下,视频监控逐渐成为市场的新增长点。而云计算、大数据、智能AI等技术,也为视频监控领域的技术提升、智能化改革提供了强大的支持。
该定义听起来很直接,但在计算机视觉和机器学习中,跟踪是一个非常广泛的术语,涵盖概念上相似但技术上不同的想法。例如,通常在对象跟踪下研究以下所有不同但相关的想法
作为国内CV领域的明星公司,商汤科技及联合实验室共有62篇论文被接收,其中口头报告(Oral)论文18篇,相比2018 CVPR共44篇论文入选,增幅超40%。
文章:OA-SLAM: Leveraging Objects for Camera Relocalization in Visual SLAM
本文以日本无人驾驶开源软件Autoware为参考,汇总分析了无人驾驶所涉及的基本算法,最后给出了在一些典型数据集上测试的效果。
装有摄像头的无人机具有捕获空中图像(鸟瞰图)的优势。由于空中图像数据的可用性和目标检测算法的新进展,使得计算机视觉界将注意力集中到航摄图像上的目标检测任务。但是在现有的带有目标标注的可视化的空中数据集中,无人机仅仅被用作飞行摄像机,丢弃了关于飞行的相关数据类型(例如,时间、位置、内部传感器)。在本文中,提出了一个多用途空中数据集(AU-AIR),它具有多模态传感器数据,即视觉、时间、位置、海拔、IMU、速度等,这些数据采集于真实的外环境中。AU-AIR数据集包含原始数据,可用于从录制的RGB视频中提取帧。此外,在目标检测任务的背景下,我们强调了自然图像和航摄图像之间的差异。我们在AU-AIR数据集上对可移动物体探测器(包括YOLOv3-Tiny和MobileNetv2-SSDLite)进行训练和测试,使其用于无人机的机载计算机进行实时物体检测。由于本文的数据集记录的数据类型具有多样性,有助于填补计算机视觉和机器人学之间的差距。
2019年IEEE计算机视觉与模式识别大会(CVPR)于今年6月16日至20日举行。CVPR是计算机视觉领域世界三大学术会议之一(与ICCV和ECCV并列)。今年共收到1300篇论文,录取率达到创纪录的5165篇(25.2%)。
我从CVPR中选取已被录用的论文进行分析,了解研究的主要领域和论文题目中的常见关键词。这可以提供研究进展的一个迹象。
据最新消息,受暴雨影响,河北地铁全线网车站停运,纯电公交停运,机场取消、延误航班超200架次,途径的多个高速路段全线禁止所有车辆上站。在人工智能时代,我们需要通过AI来检测洪水或泳池内溺水的人,及时做到拯救工作。
随着人类对生物系统的深入研究,我们不断从自然界中汲取灵感,以改进和创新技术。仿生视觉就是其中之一,通过模拟生物视觉系统的工作原理,设计出具有类似功能的传感器。本文将介绍仿生视觉技术在传感器设计中的应用,详细探讨其部署过程,并结合实例和代码解释,帮助读者更好地理解和应用这一技术。
摘要:本文融合了Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite和Vision meets Robotics:
这周主要是对动态情景下的slam论文以及开源代码做了下收集,之前也解读过一篇类似的文献
Extended VINS-Mono: 一个在大规模户外环境中进行绝对和相对车辆定位的系统性方法
运动物体检查,在移动目标定位和智能安防系统中有广泛的应用,它的实现原理:捕获连续帧之间的变化情况,将每次捕获的图像进行对比,然后检查差值图像中的所有斑块(颜色相近的地方)。
大数据文摘作品,转载要求见文末 主讲人 | Joseph Redmon 翻轴 | 海抒,Lisa,弋心 校对 | 陈啸明 后期 | DJ You only live once? 不,You only
本文解读了香港大学联合中山大学和深睿医疗人工智能实验室 ICCV2019 论文《Motion Guided Attention for Video Salient Object Detection》。
运动预测(Motion Prediction)模块主要解决自动驾驶车辆与周围环境中的其它运动物体(车辆、行人等)的协同交互问题。该模块对感知模块所检测到的运动物体进行未来一段时间内行为意图的预测,并将预测的结果转化为时间维度和空间维度的轨迹。以这些障碍车、行人、非机动车等运动物体的预测轨迹作为输入,自动驾驶车辆可以做出更加合理的驾驶决策,规划出更加合理、安全的车辆运动行为。
AI 科技评论按:NIPS 2018 的录用论文近期已经陆续揭开面纱,强化学习毫不意外地仍然是其中一大热门的研究领域。来自加州大学伯克利分校人工智能实验室(BAIR)的研究人员分享了他们获得了 NIPS 2018 spotlight 的研究成果:Visual Reinforcement Learning with Imagined Goals。他们提出了一种只需要图片即可进行视觉监督的强化学习方法,使得机器人能够自主设定目标,并学习达到该目标。下面是 AI 科技评论对该博客的部分编译。
雷锋网按:本文内容来自涂图 CTO 邱彦林在硬创公开课的分享,在未改变原意的基础上进行了编辑整理。 几年前图片美颜教育了市场,到了直播时代,美颜同样成为直播平台的标配。女主播要是在直播中不能自动美颜,那只能靠更精致的妆容来补,而实时直播美颜技术恰好解决了这个问题。 目前最新的美颜技术已经发展到了 2.0 阶段,打个比方,如果美颜 1.0 只是化妆(磨皮、祛痘、肤色调整)的话,美颜 2.0 基本就能达到整容的效果——把眼睛变大,把圆脸变成瓜子脸。而实现这一效果的基础就是人脸识别。 硬创公开课特邀专攻直播美颜的
作者:breezecheng、morajiang、lyleleeli,腾讯 WXG 应用研究员 微信识图已经在微信的扫一扫识物,微信聊天/朋友圈/公众号长按图片搜一搜等场景上线,并且从最初的电商类目(鞋子、箱包、美妆、服装、家电、玩具、图书、食品、珠宝、家具等),扩展到更加丰富的万物场景,囊括了植物、动物、汽车、红酒、地标、菜品、名画、商标、作业以及其他通用场景。在算法架构上,微信识图主要由三大核心步骤组成,即为主体检测+子类目预测+子类目细粒度同款检索,开发一个高性能的检测器对于前两个步骤至关重要
【初识明瞳 视图上云】直播第二期【视图场景的存储优化之路】已经圆满结束啦。 本次分享属于【初识明瞳 视图上云】直播第2期,【视图场景的存储优化之路】邀请到了腾讯云存储高级产品经理王致铭,为大家介绍明瞳智控这款产品。明瞳智控ISS是腾讯云推出的一款面向视图数据提供的云存储及 AI 多模态分析一体化产品。依托腾讯云遍布全球的边缘节点,同时基于腾讯云领先的 AI 分析能力,可实现视图数据快速上云,视图数据云存储、视图数据安全、AI 智能分析等多种服务。 整个内容分五个部分: 一、产品背景 二、功能框架 三、覆盖场
在一年一度的百度AI开发者大会上,百度高级副总裁、移动生态事业群组总经理沈抖拿着手机,打开百度App做了这样一个演示。
作为计算机视觉领域的顶级学术会议,CVPR 2019 近期公布了最终论文接收结果,引来学界密切关注。据悉,CVPR 2019 今年一共获得 5165 篇有效提交论文,最终抉出了 1300 篇接收论文,接收率达到 25.2% 。
随着经济的发展,对用电的需求也增加。尤其是夏季高负荷的用电量更是一次次地刷新了历史记录。很多变电站分布在无人居住的地方,地处荒僻,一些重要设备也经常被盗窃或破坏,同时极端天气频发影响电网安全的运行给整个电网的安全运行造成重大隐患,传统的安防系统,只能做到事后取证、溯源,无法对视频画面进行智能化分析,已经无法满足多元化管理需求。如何实现集中管理和一体化集成联动,为变电站的安全生产提供可靠的保障,解决变电站安全运营的“在控”、“可控”和“易控”已成为首要解决的问题。
无人机在工业、农业、军事及消费级市场均有如土地测绘、巡检监测、物资配送、灾后救援等重要作用。其中,实现高精度且高能效物体检测是开展所有无人机任务的基本要素,也是本领域急需提高的方向。由于航拍数据集(无人机视角)的缺失,进一步提升无人机物体检测系统变得更加困难。
这个现实世界造成了很多挑战,比如数据有限、只有微型的计算机硬件(像手机、树莓派)所造成的无法运行复杂深度学习模型等。这篇文章演示了如何使用树莓派来进行目标检测。就像路上行驶的汽车,冰箱里的橘子,文件上的签名和太空中的特斯拉。
在机器视觉中,在检测连续物体或者滚动物体时,线扫相机是最佳的解决方案。通常,它们能提供很高的分辨率,因为它们要求很高的速度和数据率。
物体检测作为计算机视觉领域最广泛的研究主题之一,虽然2D 物体检测已在工业界得到了比较成熟的应用,然而实现 3D 物体检测目前还困难重重。
机器之心报道 作者:吴欣 不久之前,CVPR 2018 论文接收列表公布。据机器之心了解,上海交通大学电子系人工智能实验室倪冰冰教授课题组有 6 篇论文入选,本文对这几篇论文做了简介,更多详细内容可通过论文网盘链接下载查看。 CVPR 2018 论文接收列表:http://cvpr2018.thecvf.com/files/cvpr_2018_final_accept_list.txt Paper 1:《Fine-grained Video Captioning for Sports Narrative》
本文转载自:https://zhuanlan.zhihu.com/p/21533690
文章:RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in Dynamic Environments
标题:Dynamic 3D Scene Analysis by Point Cloud Accumulation
领取专属 10元无门槛券
手把手带您无忧上云