首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于YOLO的ORB-SLAM2方案

基于YOLO的ORB-SLAM2方案

作者头像
用户2423478
发布2025-10-28 13:18:09
发布2025-10-28 13:18:09
180
举报
文章被收录于专栏:具身小站具身小站

ref:基于语义分割和目标检测的移动机器人动态视觉SLAM研究

1. 概念工具

  • 视觉里程计:SLAM系统的前端处理模块,核心功能是通过分析联系图像帧间的对应关系,估算相机相对运动参数,为后端非线性优化提供初始姿态估计,包括通过提取和匹配图像特征来计算运动变换的特征法、利用图像的像素强度信息进行位姿估计的直接法。
926586887e9c28579d422ffcf623346d.png
926586887e9c28579d422ffcf623346d.png
  • 特征点法:是利用图像中具有显著区分性的关键位置,包括角点、边缘特征以及特定纹理区域等典型结构,特征具有计算高效和辨识度高的特点,传统特征对视角变化和尺度变换较为敏感,现代特征检测技术包括SIFT(通过构建高斯金字塔和关键点方向分配)、SURF(采用盒式滤波器近似替代高斯卷积)、FAST(采用轻量级的角点检测策略,通过牺牲部分精度换取计算速度)、ORB(结合FAST 关键点检测和改良的 BRIEF描述子)
49096df24fe2ecd9361089ed4b035305.png
49096df24fe2ecd9361089ed4b035305.png
  • 直接法:抛弃特征点,基于光流计算直接基于图像亮度一致性假设,通过最小化光度误差来求解相机运动。
  • g2o图优化算法:构建两类顶点的图结构:一类顶点表示相机位姿,另一类则代表环境路标点;连接这些顶点的边分为两种类型:橙色实线表示相邻相机位姿间的运动约束,红色实线则描述相机对路标点的观测关系。这种图结构本质上构建了一个非线性最小二乘问题,其中每条边对应一个误差项,优化目标是最小化所有误差项的平方和。
aa2b71512487318dd3e12f1203d2a27f.png
aa2b71512487318dd3e12f1203d2a27f.png
  • 回环检测:将当前帧与历史关键帧匹配,识别机器人是否重返已探索区域,基础实现方案是直接匹配两幅图像的全部特征点,但这种方法效率低下且计算量随地图规模线性增长。简单的像素矩阵差分法同样不可行,因为光照变化和视角偏移都会导致像素灰度值剧烈波动;室外环境可采用GPS等全局定位方案,室内场景视觉SLAM系统普遍采用词袋模型(BoW)进行匹配,该方法通过量化特征描述子构建视觉词典,将图像匹配转化为向量空间中的相似度计算。
  • ORB(Oriented FAST and Rotated BRIEF):由两个改进模块构成,OrientedFAST检测器(在传统 FAST角点检测基础上引入方向估计机制,赋予特征点旋转不变特性)和Steer BRIEF 描述子(通过方向校正策略优化传统 BRIEF描述子,提升特征匹配的旋转鲁棒性)。特征点包含描述空间位置的关键点与表达视觉属性的描述子,描述子是特征点邻域视觉信息的数学编码,通过汉明距离计算可高效实现跨图像帧的特征点匹配验证。
  • FAST角点检测算法:核心思想是识别图像中灰度值发生显著变化的像素区域,通过比较中心像素与其周围环形邻域像素的灰度差异来判断特征点,当某像素的灰度值明显高于或低于其邻近像素时,该位置即被判定为潜在角点候选。
5251f813232ff4346871ac3ccdd3542f.png
5251f813232ff4346871ac3ccdd3542f.png
  • ORB-SLAM2:采用多线程架构,包含三个并行运行的独立线程:跟踪线程负责实时估计相机位姿,局部建图线程进行局部点云优化和关键帧管理,回环检测线程则负责全局一致性维护。
0ef0c35aff550b07b83a86095da5b197.png
0ef0c35aff550b07b83a86095da5b197.png
  • SegNet:一种基于编码器-解码器框架的语义分割模型,专注于实现像素级的图像分割,编码器通过卷积和池化层逐步提取高层次语义特征,解码器则利用池化索引进行特征图的上采样以恢复图像的空间细节,在道路场景解析和室内环境理解等任务中表现出色,但由于其计算复杂度较高,更适合应用于对分割精度要求严格但实时性要求较低的场景。
284d783719f4d66e40391343392c908d.png
284d783719f4d66e40391343392c908d.png
  • YOLOv5:在实时检测性能与模型精度的平衡上实现了突破性进展,主要体现在三个方面:1)采用CSPDarknet骨干网络优化特征提取效率与梯度传播路径;2)引入PANet特征金字塔结构,构建了双向跨尺度特征融合机制,有效增强了对多尺度目标的表征能力;3)提出动态锚框匹配策略,自适应调整预定义锚框参数,降低人工调参需求;并集成 Mosaic 数据增强等复合数据预处理技术提升模型泛化性能。
9d5a1e2985c6c35162b323dc9cdb43a2.png
9d5a1e2985c6c35162b323dc9cdb43a2.png
  • 多视图几何:通过分析特征点在多个视角下的几何一致性,能够有效区分真正的动态点和静态点中的误检点。 (如图P为静态点,M为动态点)
1cdc65a8a3867567cca0e950e5076b51.png
1cdc65a8a3867567cca0e950e5076b51.png
  • 特征匹配:给定相邻时刻t和t+1的两帧图像,设其 ORB 特征点集合分别为T={t1,t2,…,tn}和Y={y1,y2,…,ym},计算两个集合中特征描述子间的汉明距离,对每个ti特征点,在Y集合中寻找距离最小的yj,最后通过距离阈值筛选出可靠的匹配对
f5acf8423cf526400b958ecacf055226.png
f5acf8423cf526400b958ecacf055226.png
  • 地图:视觉SLAM 系统可以构建多种形式的地图,主要包括点云地图、栅格地图、TSDF 地图、拓扑地图、语义八叉树地图等:点云地图依据密度的不同可以分为稀疏、半稠密、稠密三类,前两类构建速度决但信息量有限,而稠密点云地图可以提供更加完整的环境表达;栅格地图是将空间离散化为网格单元,并通过概率值描述占用状态;八叉树地图在存储效率上更加具有优势;TSDF地图适用于三维重建,但依赖于强大的GPU支持;拓扑地图则以节点和边的形式来表示环境,节点表示关键位置,边则描述它们之间的连通和可达性关系
dbd00c32799921b9bb3ccacf122cf8b6.png
dbd00c32799921b9bb3ccacf122cf8b6.png

2. 基于SegNet和YOLOv5滤除动态物体 基于ORB-SLAM2的前端框架,用于对 RGB 图像进行 ORB 特征点的提取和描述子的计算;另外添加语义分割和目标检测两个深度学习线程同时工作(SegNet通过像素级语义分割,区分场景中的背景与物体,YOLOv5 通过实时目标检测,增强了 SLAM 系统对场景中运动物体的感知能力),将二者结果的融合可以生成动态区域的掩码,在ORB-SLAM2的特征提取阶段初步剔除动态点,结合多视图对极几何约束方法进行二次滤除动态点(一个点位于先验动态区域但不满足对极约束,则作为动态剔除)。

46d0bc0d28c90802104f284bc3b719e1.png
46d0bc0d28c90802104f284bc3b719e1.png

3. SLAM回环检测

  • ORB-SLAM2模型:通过多阶段筛选机制实现闭环识别与校正:1)基于离线训练的树形词袋模型快速检索与当前关键帧相似的历史关键帧,利用余弦相似度筛选候选帧;2)通过几何一致性验证(RANSAC)剔除误匹配;3)结合时间一致性验证(连续多帧检测)确认回环后,触发位姿图优化与地图点融合。
31501ede3ca6c2413ab3eea4516b1bd5.png
31501ede3ca6c2413ab3eea4516b1bd5.png
  • 深度学习模型:利用SegNet语义分割网络和YOLOv5 目标检测网络改进 ORB-SLAM2的回环检测,将语义信息融合在关键帧选后进行语义分割,利用YOLOv5模块在局部建图中实时剔除场景中的动态物体,随后进入回环检测与矫正模块。最后,在全局地图更新时添加了建立稠密点云地图和语义八叉树地图的功能,改进后的回环检测模块能够更鲁棒地识别场景中的关键信息,显著提升了动态环境下的检测精度与系统稳定性。
da2cb8ffbc5b014892e905a4001a4ac1.png
da2cb8ffbc5b014892e905a4001a4ac1.png
  • 词袋模型:视觉里程计建立图像间的特征点对应关系,词袋模型借鉴了这一思想,通过将图像特征(ORB)量化为视觉词汇,构建图像的紧凑表征,每个局部特征被视为一个“单词”,而整幅图像则表征为这些单词的统计分布。在视觉 SLAM 系统中,词袋模型通过特征量化提升图像匹配效率,通过离线训练的视觉词典,采用分层聚类方法,首先对特征描述子进行 K-means++聚类,形成底层视觉单词,然后递归地对聚类中心再次聚类,构建具有树状结构的层级词典,最后在线匹配阶段,特征点通过树搜索快速映射到最近的视觉单词,整幅图像则表示为这些视觉单词的统计直方图。这种表示方法将耗时的特征匹配转化为高效的向量相似度计算,同时保持了较好的判别性。
e240e19467e3ba4bda8d7a3d890a9fc8.png
e240e19467e3ba4bda8d7a3d890a9fc8.png
24e5c9fd22a30a4bfd8c41d60f74bad2.png
24e5c9fd22a30a4bfd8c41d60f74bad2.png

4. SLAM建图 八叉树地图使用智能化的节点管理机制提升存储效率,仅对存在不确定性的区域进行细分处理,当某个节点的子节点状态完全一致时该节点将不再继续展开,这种基于空间连续性的优化策略可减少不必要的节点存储。针对实际环境中的不确定性因素,系统采用概率化表示替代传统的二元判断,通过概率对数值的连续量度,既能够准确反映节点被占据的可能性程度又能通过贝叶斯更新机制持续融合新的观测数据。这种表示方法特别适合处理暂时性遮挡或动态物体带来的观测不确定性,使得地图能够更真实地反映环境状态。在动态更新过程中,系统会根据最新观测数据实时调整各节点的概率值,当置信度超过设定阈值时才做出确定性判断。

7bb8ec47e3fa740160f5d7d847f2f141.png
7bb8ec47e3fa740160f5d7d847f2f141.png
48e8ca97d124f79247818c59362b6439.png
48e8ca97d124f79247818c59362b6439.png

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 具身小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 概念工具
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档