开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在实践中，为什么我们需要一种从粗到细的策略来解决光流问题(特征跟踪)？

在实践中，我们需要一种从粗到细的策略来解决光流问题（特征跟踪），主要是因为以下几个原因：

复杂度控制：光流问题是计算机视觉中的一个重要问题，涉及到对图像序列中像素的运动进行估计。由于图像中的像素数量庞大，直接对所有像素进行光流估计会导致计算复杂度非常高，难以实时处理。因此，采用从粗到细的策略可以有效控制计算复杂度，提高算法的实时性能。
特征提取：从粗到细的策略可以帮助我们在光流估计过程中选择合适的特征点进行跟踪。在图像中，不同的区域具有不同的纹理和结构，某些区域更容易提取出稳定的特征点，而某些区域可能没有明显的特征点可供跟踪。通过从粗到细的策略，我们可以先对整个图像进行初步的特征提取，然后在更细的尺度上选择更具代表性的特征点进行跟踪，从而提高光流估计的准确性和稳定性。
鲁棒性增强：光流问题在实际应用中常常面临各种挑战，如图像噪声、运动模糊、遮挡等。通过从粗到细的策略，我们可以逐步优化光流估计的结果，从而提高算法的鲁棒性。在粗粒度的尺度上，我们可以通过全局的运动模型来估计光流；而在细粒度的尺度上，我们可以通过局部的运动模型来进一步优化光流估计结果，从而应对各种复杂情况。

总之，从粗到细的策略在解决光流问题（特征跟踪）中起到了关键作用，它可以控制复杂度、提取合适的特征点、增强算法的鲁棒性。在实践中，我们可以根据具体的应用场景和需求选择适合的从粗到细的策略来解决光流问题。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Fast ORB-SLAM

文章：FastORB-SLAM: Fast ORB-SLAM method with Coarse-to-Fine Descriptor Independent Keypoint Matching

03

真的有这么丝滑：3D头发建模新方法NeuralHDHair，浙大、ETH Zurich、CityU联合出品

机器之心报道编辑：蛋酱让数字人更接近真人质感，关键还要在头发丝上下功夫。近年来，虚拟数字人行业爆火，各行各业都在推出自己的数字人形象。毫无疑问，高保真度的 3D 头发模型可以显著提升虚拟数字人的真实感。与人体的其他部分不同，由于交织在一起的头发结构极其复杂，因此描述和提取头发结构更具挑战性，这使得仅从单一视图重建高保真的 3D 头发模型极其困难。一般来说，现有的方法都是通过两个步骤来解决这个问题：首先根据从输入图像中提取的 2D 方向图估计一个 3D 方向场，然后根据 3D 方向场合成头发丝。但这种机

01

数字文艺复兴来了：英伟达造出「AI版」米开朗基罗，实现高保真3D重建

对通过基于图像的神经渲染来恢复密集的 3D 表面，神经表面重建已被证明是可行的。然而，目前的方法很难恢复真实世界场景的详细结构。

03

17篇入选CVPR 2020，腾讯优图 9 篇精选论文详解

全球计算机视觉顶级会议CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition，即IEEE国际计算机视觉与模式识别会议) 即将于2020年6月14日-19日在美国西雅图召开。

02

CNN再助力！CoaT：Co-Scale卷积-注意力图像Transformer

Co-Scale Conv-Attentional Image Transformers

04

斯坦福CS231n - CNN for Visual Recognition（8）-lecture6学习率更新、超参数调优

训练深度网络时，让学习率随着时间退火通常很有帮助。如果学习率很高，系统的动能就过大，参数向量就会无规律地跳动，不能够稳定到损失函数更深更窄的部分去。

02

CS231n：6 训练神经网络（三）

梯度检验就是将解析法（也就是用导数公式求解梯度）计算的梯度与用数值法（也就是通过导数定义求解梯度）计算的梯度进行对比，以检验解析法公式的正确性。因为数值法是通过导数定义进行求解，当步长 h 设置的足够小时，就可以求得较为精确的梯度值，准确性较高，但是存在求解速度慢的缺点。相反，解析法直接按照给定的公式计算梯度就可以了，但是当问题比较复杂时，公式往往难以求出，而且容易出错。于是，就有了梯度检验这个过程了。

02

光流估计综述：从传统方法到深度学习

近年来，深度学习技术，作为一把利剑，广泛地应用于计算机视觉等人工智能领域。如今时常见诸报端的“人工智能时代”，从技术角度看，是“深度学习时代”。

05

光流估计——从传统方法到深度学习

近年来，深度学习技术，作为一把利剑，广泛地应用于计算机视觉等人工智能领域。如今时常见诸报端的“人工智能时代”，从技术角度看，是“深度学习时代”。光流估计是计算机视觉研究中的一个重要方向，然而，因为其不容易在应用中“显式”地呈现，而未被大众熟知。随着计算机视觉学界从图像理解转向视频理解，互联网用户从发布图片朋友圈转向发布短视频，人们对视频的研究和应用的关注不断增强。光流估计作为视频理解的隐形战士，等着我们去寻找其踪迹。本文首先介绍了什么是视频光流估计；再介绍光流估计的算法原理，包括最为经典的Lucas-Kanade算法和深度学习时代光流估计算法代表FlowNet/FlowNet2；最后，介绍了视频光流估计的若干应用。希望对光流估计的算法和应用有个较为全面的介绍。

03

腾讯优图13篇论文入选ICCV2019，涉及2D图像多视图生成等研究

腾讯旗下顶级视觉研发平台腾讯优图，官宣有13篇论文入选，居业界实验室前列，其中3篇被选做口头报告（Oral），该类论文占总投稿数的4.3%（200/4323）。

02

ICCV2019 | 腾讯优图13篇论文入选，其中3篇被选为Oral

两年一度的国际计算机视觉大会 (International Conference on Computer Vision，ICCV) 将于 2019 年 10 月 27 日 - 11 月 2 日在韩国首尔举行，近日论文收录名单揭晓，腾讯优图共有13篇论文入选，居业界实验室前列，其中3篇被选做口头报告（Oral），该类论文仅占总投稿数的4.3%（200/4323）。

01

【SLAM】轻量级和高效的视觉SLAM算法，通过优化关键点跟踪和匹配提高ORBSLAM2算法性能！

代码：即将开源（https://github.com/cnqiangfu/FastORB-SLAM）

03

Histograms of Oriented Gradients for Human Detection

以基于线性SVM的人体检测为例，研究了鲁棒视觉目标识别的特征集问题。在回顾了现有的基于边缘和梯度的描述符之后，我们通过实验证明了方向梯度(HOG)描述符的直方图网格在人类检测方面明显优于现有的特征集。我们研究了计算的各个阶段对性能的影响，得出结论:在重叠描述符块中，细尺度梯度、细方向边距、相对粗的空间边距和高质量的局部对比度归一化都是获得良好结果的重要因素。新方法在原有MIT行人数据库的基础上实现了近乎完美的分离，因此我们引入了一个更具挑战性的数据集，其中包含1800多张带注释的人类图像，具有大范围的姿态变化和背景。

04

A Discriminatively Trained, Multiscale, Deformable Part Model

本文提出了一种训练有素、多尺度、可变形的目标检测零件模型。在2006年PASCAL人员检测挑战赛中，我们的系统在平均精度上比最佳性能提高了两倍。在2007年的挑战赛中，它在20个类别中的10个项目中都取得了优异的成绩。该系统严重依赖于可变形部件。虽然可变形部件模型已经变得相当流行，但它们的价值还没有在PASCAL挑战等困难的基准测试中得到证明。我们的系统还严重依赖于新方法的甄别培训。我们将边缘敏感的数据挖掘方法与一种形式主义相结合，我们称之为潜在支持向量机。隐式支持向量机与隐式CRF一样，存在非凸训练问题。然而，潜在SVM是半凸的，一旦为正例指定了潜在信息，训练问题就变成了凸的。我们相信，我们的训练方法最终将使更多的潜在信息的有效利用成为可能，如层次(语法)模型和涉及潜在三维姿态的模型。

04

基于空洞补全的动态SLAM方法

同步定位和制图（SLAM）一直被认为机器人定位导航以及无人驾驶的核心技术，而利用摄像头作为传感器的视觉SLAM在近几十年也得到了广泛的研究，在这期间涌现了大量优秀的SLAM方法，为后人对SLAM技术的研究打下了坚实的基础。

04

ECCV 2020最佳论文讲了啥？作者为ImageNet一作、李飞飞高徒邓嘉

作为计算机视觉三大顶会之一，备受瞩目的ECCV 2020（欧洲计算机视觉国际会议）最近公布了所有奖项。

02

微软亚研院：CV领域2019年重点论文推荐

微软亚洲研究院是国内顶级CV研究机构，众多CV黑科技的诞生地，2020年始，亚研院盘点了2019年CV领域重点论文，大部分附有开源代码，希望对大家有帮助。

02

85.4% mIOU！NVIDIA：使用多尺度注意力进行语义分割，代码已开源！

有一项重要的技术，通常用于自动驾驶、医学成像，甚至缩放虚拟背景：“语义分割。这是将图像中的像素标记为属于N类中的一个(N是任意数量的类)的过程，这些类可以是像汽车、道路、人或树这样的东西。就医学图像而言，类别对应于不同的器官或解剖结构。

03

深度揭秘京东全景主图背后的技术

作者黄志标：中国科学院大学硕士，京东AI与大数据部算法工程师。擅长图像检索、深度学习领域。曾参与京东的上亿重图检测项目，目前主要负责京东全景主图、视频审核项目。安山：山东大学机器人研究中心硕士，京东AI与大数据部资深算法工程师。研究兴趣为大规模图像检索、计算机视觉。负责京东图像搜索引擎、知识产权保护、深度学习算法移动化。在计算机视觉领域获得2项发明专利授权，另有十余项专利申请。据京东财报显示，京东集团第二季度净利润达9.765亿，年度活跃用户达2.583亿，订单完成量为5.912亿。扎实的用户基

03

PV-RAFT：用于点云场景流估计的点体素相关场（CVPR2021）

在2019和2020年的CVPR上均有关于点云场景流的相关工作，今天介绍的是2021年CVPR上最新的关于点云场景流的工作。机器人和人机交互中的许多应用都可以从理解动态环境中点的三维运动中获益，这种运动被广泛称为场景流。相较于静态的点云，点云场景流估计更侧重于计算两个连续帧之间的3D运动场，这为场景提供了重要的动态信息。以往的方法大多以立体图像和RGB-D图像作为输入，很少有直接从点云估计场景流的方法。随着3D数据变得更容易获得，许多工作最近开始关注点云的场景流估计。

07

这场评分卡模型直播解答了我对于信贷风险的大部分疑问

8月4日下午15:00顶象第三期业务安全大讲堂正式开讲。本期业务安全大讲堂由顶象研发总监管胜老师进行分享，针对信贷风控，管胜老师就评分卡模型做了深入浅出的讲解，深刻剖析了评分卡模型的原理、如何构建评分卡模型以及评分卡模型如何评估、应用、跟踪等问题，不仅让大家对信用贷有了更深的理解，同时对评分卡模型的构建产生了极大关注度。

01

Deblurring with Parameter Selective Sharing and Nested Skip Connections

动态场景去模糊是一项具有挑战性的低水平视觉任务，其中空间变异模糊是由相机抖动和物体运动等多种因素造成的。最近的研究取得了重大进展。通过与参数无关方案和参数共享方案的比较，提出了一种通用的、有效的选择性共享方案，给出了约束去模糊网络结构的一般原则。在每个尺度的子网中，我们提出了一种非线性变换模块的嵌套跳跃连接结构来代替堆叠的卷积层或剩余块。此外，我们建立了一个新的大的模糊/锐化图像对数据集，以获得更好的恢复质量。综合实验结果表明，本文提出的参数选择共享方案、嵌套式跳跃连接结构和新数据集对建立动态场景去模糊新技术具有重要意义。

01

物体的三维识别与6D位姿估计：PPF系列论文介绍（五）

点对特征是一种广泛应用的检测点云中三维物体的方法，但在存在传感器噪声和背景杂波的情况下，它们很容易失效。本文引入了新的采样和投票方案，可以很好地降低杂波和传感器噪声的影响。我们的实验表明，随着我们的改进，ppfs变得比最先进的方法更有竞争力，因为它在几个具有挑战性的基准上优于它们，成本很低。

01

85.1%mIoU！语义分割新SOTA来了！分层多尺度注意力

1、本文提出一种有效的分层多尺度注意机制，通过允许网络学习如何最佳地组合来自多个推理尺度的预测，从而有助于避免不同类之间的混淆，处理更加精细的细节。

02

DeepFlow高效的光流匹配算法（下）

本周主要介绍一篇基于传统光流法而改进的实现快速的稠密光流算法。该算法已经集成到OpenCV中，算法介绍网址：http://lear.inrialpes.fr/src/deepmatching/

04

语义分割 | 新SOTA，Cityscapes 85.1%mIoU！分层多尺度注意力超越HRNetV2+OCR+SegFix

论文地址：https://arxiv.org/pdf/2005.10821.pdf

03

OpenCV视频后期防抖实战

点播、直播行业的蓬勃发展，使用户生产视频(UGC)逐渐替代了专家生产和平台生产的方式，成为了主流。由于广大用户不可能全都具备专业素质和专业器材，其产出的视频往往质量较差，最明显的特征就是存在抖动。

01

视频目标跟踪从0到1，概念与方法

从目标跟踪的应用场景，底层模型，组件，类型和具体算法几个方面对目标跟踪做了全方面的介绍，非常好的入门文章。

01

自动驾驶系统中摄像头相对地面的在线标定

文章：Online Camera-to-ground Calibration for Autonomous Driving

05

深度学习与CV教程(6) | 神经网络训练技巧 (上)

本系列为斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记，对应的课程视频可以在这里查看。更多资料获取方式见文末。

06

ICCV 2021 | R-MSFM: 用于单目深度估计的循环多尺度特征调制

标题：R-MSFM: Recurrent Multi-Scale Feature Modulation for Monocular Depth Estimating(ICCV-2021)

02

29篇计算机视觉领域论文，篇篇惊艳！内附链接！

1. Deep High-Resolution Representation Learning for Human Pose Estimation

01

QA派｜GNN工业应用-PinSAGE

Pinterest是一个图片素材网站，pins是指图片，而boards则是图片收藏夹的意思。

04

ICCV 2023 | 实现实时六自由度物体跟踪，深度主动轮廓模型DeepAC来了

本文介绍了一篇由国防科技大学刘煜教授团队和浙江大学 - 商汤联合实验室周晓巍教授团队联合撰写的论文《Deep Active Contours for Real-time 6-DoF Object Tracking》，该论文已被计算机视觉与人工智能顶尖国际会议 ICCV 2023 录用。仅需要提供 CAD 框架模型，就可以在多种光照条件和局部遮挡情况下实现对立体物体的实时跟踪。传统的基于优化的方法根据手工特征将物体 CAD 模型的投影与查询图像对齐来求解位姿，容易陷入局部最优解；最近的基于学习的方法使用深度网络来预测位姿，但其要么预测精度有限，要么需要提供 CAD 纹理模型。

02

美团搜索粗排优化的探索与实践

总第528篇 2022年第045篇粗排是工业界搜广推系统的重要模块。美团搜索排序团队在优化粗排效果的探索和实践中，基于业务实际场景，从精排联动和效果性能联合优化两方面优化粗排，提升了粗排的效果。本文介绍了美团搜索粗排的迭代路线、基于知识蒸馏和自动神经网络选择的粗排优化工作，希望为从事相关工作的同学带来一些启发或者帮助。 1. 前言 2. 粗排演进路线 3. 粗排优化实践 3.1 精排联动效果优化 3.2 效果性能联合优化 4. 总结 5. 附录 1. 前言众所周知，在搜索、推荐、广告等大规模工业界应

05

【学习】推荐算法实践

前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段：一种是搜索，当用户有了明确的信息需求意图后，将意图转换为几个简短的词或者短语的组合（即query），然后将这些词或短语组合提交到相应的搜索引擎，再由搜索引擎在海量的信息库中检索出与query

03

美团技术团队博客：推荐算法实践

前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段：一种是搜索，当用户有了明确的信息需求意图后，将意图转换为几个简短的词或者短语的组合（即query），然后将这些词或短语组合提交到相应的搜索引擎，再由搜索引擎在海量的信息库中检索出与query相关

【干货】计算机视觉视频理解领域的经典方法和最新成果

---- 新智元专栏作者：张皓（南京大学）【新智元导读】相比图像，视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展，并对未来可能的研究方向作一展望。相比图像，视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域，例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展，并对未来可能的研究方向作一展望。常用数据集视频分类主要有两种数据集，剪辑过(trimmed)

02

深度强化学习：如何在AI工程实践中选择合适的算法？

在使用深度强化学习（Deep Reinforcement Learning，DRL）算法解决实际问题的过程中，明确任务需求并初步完成问题定义后，就可以为相关任务选择合适的DRL算法了。

03

干货！一文读懂行人检测算法

行人检测可定义为判断输入图片或视频帧是否包含行人，如果有将其检测出来，并输出bounding box 级别的结果。由于行人兼具刚性和柔性物体的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人检测成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。行人检测系统的研究起始于二十世纪九十年代中期，是目标检测的一种。从最开始到2002 年，研究者们借鉴、引入了一些图像处理、模式识别领域的成熟方法，侧重研究了行人的可用特征、简单分类算法。自2005 年以来，行人检测技术的训练库趋于大规模化、检测精度趋于实用化、检测速度趋于实时化。随着高校、研究所以及汽车厂商的研究持续深入，行人检测技术得到了飞速的发展。本文主要介绍行人检测的特征提取、分类器的发展历程以及行人检测的现状。

05

CVPR2021：推广到开放世界的在线自适应深度视觉里程计

Generalizing to the Open World Deep Visual Odometry with Online Adaptation

02

发现产品机会点？试试用户分层

作者：viviheyfeng，腾讯无线安全产品部设计组引言随着产品发展和用户结构变化，我们的用户不再是一个简单的整体。对于同一功能的不同用户，甚至是同一用户的不同阶段，他们都可能会有不同的痛点和需求。此时如果继续用“一刀切”的普适策略，没有定位到具体用户具体问题，会导致付出资源成本的产品策略达不到预期效果。此时就需要我们进行用户分层。什么是用户分层？用户分层，就是区别对待不同的用户进行精细化设计。具体来说，是基于不同用户的行为特征划分为不同的用户群，设计不同的策略来满足其差异化需求，以充

02

LightGBM介绍及参数调优

LightGBM是一个梯度Boosting框架，使用基于决策树的学习算法。它可以说是分布式的，高效的，有以下优势：

01

美团推荐算法实践

前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段：一种是搜索，当用户有了明确的信息需求意图后，将意图转换为几个简短的词或者短语的组合（即query），然后将这些词或短语组合提交到相应的搜索引擎，再由搜索引擎在海量的信息库

05

骗过70%的人！这个AI能自动给视频配音，真假难辨（不服来试）

安妮发自凹非寺量子位出品 | 公众号 QbitAI 先来做个“真假美猴王”的游戏。视频内容你将看到两段画面相同的视频，请判断哪段来自视频原声，哪段是AI根据视频画面配上的假声？莫非两

05

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

光流是计算机视觉的一个基本任务，它描述了视频中的运动信息，相关技术广泛应用于视频理解和处理、物体跟踪、三维重建、自动驾驶等场景。近日，来自香港中文大学和腾讯AI实验室团队的一篇论文入选了CVPR2019。

04

Transformer在量化投资中的应用

深度学习的发展为我们创建下一代时间序列预测模型提供了强大的工具。深度人工神经网络，作为一种完全以数据驱动的方式学习时间动态的方法，特别适合寻找输入和输出之间复杂的非线性关系的挑战。最初，循环神经网络及其扩展的LSTM网络被设计用于处理时间序列中的顺序信息。然后，卷积神经网络被用于预测时间序列，因为它们在图像分析任务中的成功。

03

基于点云强度信息和几何关系的闭环检测

文章：Intensity Scan Context: Coding Intensity and Geometry Relations for Loop Closure Detection

02

无需标注数据集，自监督注意力机制就能搞定目标跟踪

想要了解什么是自监督注意力机制，我们可能需要先去了解什么是光流估计（optical flow estimation），以及它为何被人类和计算机视觉系统作为一种目标跟踪方法。

02

如何在AI工程实践中选择合适的算法？

👆点击“博文视点Broadview”，获取更多书讯在使用深度强化学习（Deep Reinforcement Learning，DRL）算法解决实际问题的过程中，明确任务需求并初步完成问题定义后，就可以为相关任务选择合适的DRL算法了。以DeepMind的里程碑工作AlphaGo为起点，每年各大顶级会议DRL方向的论文层出不穷，新的DRL算法如雨后春笋般不断涌现，大有“乱花渐欲迷人眼”之势。然而，落地工作中的算法选择并不等同于在这个急剧膨胀的“工具箱”中做大海捞针式的一对一匹配，而是需要根据任务自身的

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭