Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer?

【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer?

原创
作者头像
CoovallyAIHub
修改于 2025-04-29 09:10:44
修改于 2025-04-29 09:10:44
3260
举报

近年来,Transformer架构以雷霆之势席卷计算机视觉领域,从ViT到DETR再到Grounding DINO,各类Transformer模型频频刷新检测与分割性能的新高。在这样的大背景下,卷积神经网络(CNN)体系似乎逐渐退居二线。

然而,YOLO系列以其一贯的轻量高效,始终在实际部署场景中占据重要地位。尤其是腾讯团队提出的YOLO-World,首次将开放词汇检测(Open-Vocabulary Detection)引入了YOLO体系,实现了令人惊叹的实时开放检测。

如今,清华大学团队在YOLO-World的基础上提出了新一代模型——YOLOE(Real-Time Seeing Anything),不仅进一步提升了检测性能与推理速度,更引入了多模态提示支持和强大的实例分割能力,拓展了开放世界视觉任务的新边界。

那么,YOLOE与火爆的Transformer模型之间有何区别?与YOLO-World相比又有何升级?本文将带你深入了解。

论文地址:https://arxiv.org/pdf/2503.07465

项目链接:https://github.com/THU-MIG/yoloe


一、Transformer当道,YOLO系为何坚持CNN路线?

在视觉领域,Transformer模型凭借其出色的全局建模能力成为主流。以ViT、DETR、Grounding DINO等为代表的Transformer系模型,擅长捕捉长距离依赖关系,能有效处理复杂场景下的视觉理解任务。

但Transformer的优势也伴随着明显的代价:

YOLO体系在快速推理和资源友好性方面始终有着不可替代的优势,尤其适合边缘计算、移动设备、无人机等对实时性要求极高的场景。

YOLO-World的出现,首次证明了轻量CNN结构也能在开放世界检测领域一战。YOLOE则在此基础上进一步突破,让轻量化与开放世界能力达到了新的高度。


二、YOLO-World与YOLOE

YOLO-World简述

YOLO-World由腾讯AI Lab提出,核心贡献在于:

  • 文本Prompt机制引入YOLO结构;
  • 支持在预定义类别之外识别开放世界中的任意目标;
  • 保持了YOLO一贯的推理高效性,实现了开放检测的实时化。

在当时,YOLO-World开辟了一个全新的方向,让轻量检测模型也能具备一定的开放词汇理解能力。

YOLOE的进一步进化

清华团队提出的YOLOE,则在YOLO-World基础上做出了系统性扩展与优化:

  • 支持多种提示模式(Prompt):不仅支持文本提示,还支持视觉提示(如选框、局部区域),甚至在无提示条件下自动识别(Prompt-Free)。
  • 引入分割能力:不仅能检测,还能进行开放词汇条件下的实例分割(Segmentation)。
  • 提升推理速度与精度:在开放世界任务中,YOLOE进一步缩短了推理时间,同时在检测和分割准确率上超越YOLO-World。

以下为简要对比:

可以看到,YOLOE在检测性能、分割支持和推理速度上均优于YOLO-World,真正实现了在实时性与开放世界能力之间的平衡与提升。


三、YOLOE的核心亮点详解

多提示机制:灵活适应多样场景

YOLOE首次引入了多提示机制(Multi-Prompt Support),具体包括:

  • 文本提示(Text Prompt):输入文字描述,检测对应类别物体;
  • 视觉提示(Visual Prompt):通过局部图像或框选区域引导检测;
  • 无提示(Prompt-Free):直接对画面中的所有可见物体进行识别和分类。

这种多模式提示支持极大增强了模型在实际应用中的灵活性,比如在无人巡检、医疗影像筛查等任务中,不同场景可以选择最适合的提示方式。

更多详解内容以及讲解可以访问《清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割

开放词汇实例分割:检测与分割合二为一

在YOLO-World时代,分割功能尚未被纳入实时开放检测体系。而YOLOE率先实现了:

  • 开放词汇实例分割(Open-Vocabulary Instance Segmentation)
  • 实时推理,毫不拖慢检测速度

对比如下:

YOLOE通过扩展带有掩码预测分支的检测头,将实例分割直接集成到其架构中。这种方法与YOLOv8类似,但适用于任何已提示的对象类别。分割掩码会自动包含在推理结果中,并可通过以下方式访问 results[0].masks. 这种统一的方法无需单独的检测和分割模型,从而简化了需要精确到像素的对象边界的应用的工作流程。

YOLOE打破了以往要快就不能分割,要分割就必须牺牲速度的局限,实现了实时检测与实时分割的统一。

在智慧城市、零售分析、工业巡检等应用中,实时分割尤其重要,比如快速圈定破损区域、识别特定材质物体等。


四、Coovally平台助力:从实验到应用一站式打通

面对YOLOE这种集成开放检测与分割的新型模型,快速部署与灵活实验变得尤为关键。

为了满足研发与应用需求,Coovally平台即将推出全新能力:

  • SSH直连Coovally云端算力,无需繁琐配置;
  • 全面支持VS Code、Cursor、windsurf等主流开发工具:实现云端代码实时调试与训练;
  • 支持YOLO、YOLOE、Transformer类模型自由微调与二次开发;
  • 弹性算力资源:根据实验规模灵活扩展,无论是小样本调试还是大规模微调均可应对。

同时,Coovally平台还整合了国内外开源社区1000+模型算法各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,无论是学术研究中的小规模探索,还是产业项目中的快速落地,Coovally都能大幅提升开发效率,加速成果转化。

平台链接:https://www.coovally.com

如果你想要另外的模型算法数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!


五、使用案例和应用

YOLOE 的开放式词汇检测和分词功能使其应用范围超越了传统的固定类模型:

开放世界物体检测:

非常适合机器人等动态场景,机器人可通过提示识别以前未见过的物体,安防系统也可快速适应新的威胁(如危险物品),无需重新训练。

快速检测和单次检测:

通过视觉提示 (SAVPE),YOLOE 可从单个参考图像中快速学习新对象,非常适合工业检测(即时识别部件或缺陷)或定制监控,只需最少的设置即可实现视觉搜索。

大词汇量和长尾识别:

YOLOE 拥有超过 1000 个类别的词汇量,在生物多样性监测(检测稀有物种)、博物馆藏品、零售库存或电子商务等任务中表现出色,无需进行大量的每类训练即可可靠地识别许多类别。

交互式检测和分割:

YOLOE 支持实时交互式应用,如可搜索的视频/图像检索、增强现实(AR)和直观的图像编辑,由自然输入(文本或视觉提示)驱动。用户可以使用分割掩码动态地精确隔离、识别或编辑对象。

自动数据标注和引导:

YOLOE 通过提供初始边界框和分割注释来促进数据集的快速创建,大大减少了人工标注的工作量。在分析大型媒体集合时尤为重要,它可以自动识别存在的对象,帮助更快地建立专门的模型。

任意物体的分割:

通过提示将分割功能扩展到任意物体--尤其适用于医学成像、显微镜或卫星图像分析,无需专门的预训练模型即可自动识别并精确分割结构。与 SAM不同的是,YOLOE 可同时自动识别和分割对象,从而为内容创建或场景理解等任务提供帮助。


六、YOLOE的意义与未来展望

YOLOE的出现,标志着YOLO体系正式跨入开放世界视觉任务的全新阶段。

在Transformer大模型主导视觉领域的时代,YOLOE坚持轻量高效的CNN路线,并通过合理引入Prompt机制与高效特征建模,打破了实时检测与开放性、分割能力之间的矛盾。

未来,随着开放世界任务需求不断增长(例如自动驾驶智能制造、精准医疗等领域),YOLOE这类模型将在更多场景中发挥关键作用。

同时,依托像Coovally这样的云端平台,开发者可以更加高效地探索YOLOE的潜力,不断拓展人工智能在现实世界的应用边界。

实时Seeing Anything,从YOLOE出发;赋能下一代视觉应用,从Coovally开始。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
前不久,清华大学研究团队继YOLOv10后再次推出全新模型YOLOE(Real-Time Seeing Anything)。
CoovallyAIHub
2025/03/28
3960
清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
YOLOe问世,实时观察一切,统一开放物体检测和分割
自 2015 年由华盛顿大学的 Joseph Redmon 研究团队提出 YOLO(You Only Look Once)以来,这项突破性的目标检测技术就像为机器装上了「闪电之眼」,凭借单次推理的实时性能刷新了计算机视觉的认知边界。
机器之心
2025/03/13
1710
YOLOe问世,实时观察一切,统一开放物体检测和分割
YOLOe问世:三行代码实时"看见一切",目标检测进入全提示时代
从2015年YOLOv1首次实现实时检测,到2024年YOLOv10优化效率,YOLO系列始终是目标检测领域的标杆。但传统YOLO如同戴着"类别镣铐"的观察者——只能识别预先定义的物体。当面对未知类别或复杂交互场景时,这种局限性暴露无遗。
AI浩
2025/03/17
1.1K0
YOLOe问世:三行代码实时"看见一切",目标检测进入全提示时代
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色,且效率高。 在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,在准确性和速度上都超过了许多最先进的方法。此外,经过微调的YOLO-World在包括目标检测和开集实例分割在内的几个下游任务上取得了显著性能。
集智书童公众号
2024/02/01
4.4K0
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
Open-YOLO 3D | 仅利用 RGB 图像的2D目标检测,实现快速准确的开放词汇3D实例分割 !
三维实例分割是计算机视觉任务,涉及预测三维点云场景中单个目标的 Mask 。它在机器人学和增强现实等领域具有重要意义。由于其在多样化应用中的重要性,近年来这一任务受到了越来越多的关注。研究行人长期以来一直专注于通常在封闭集合框架内操作的方法,这限制了它们识别训练数据中不存在目标的能力。
集智书童公众号
2024/06/14
1.1K0
Open-YOLO 3D | 仅利用 RGB 图像的2D目标检测,实现快速准确的开放词汇3D实例分割 !
CVPR2024 | YOLO-World 检测一切对象模型
YOLO-World模型引入了先进的实时 UltralyticsYOLOv8对象检测模型,成为了开放词汇检测任务的最新SOTA实时方法。YOLO-World模型可根据提示与描述性文本实现检测图像中的任何物体。YOLO-World 可大幅降低计算要求,同时具有杰出的性能指标,是新一代的开放动词对象检测模型。
OpenCV学堂
2024/05/11
3.1K0
CVPR2024 | YOLO-World 检测一切对象模型
统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架
传统的目标检测模型受到封闭数据集的限制,只能检测训练过程中遇到的类别。虽然多模态模型通过对齐文本和图像模态扩展了类别识别,但由于跨模态融合,它们引入了大量过度推理,而且仍然受到预定义词汇的限制,使它们无法有效地识别开放世界场景中的未知物体。在这项工作中,我们引入了通用开放世界目标检测(Uni-OWD),这是一种将开放词汇和开放世界目标检测任务统一起来的新模式。为了解决这种环境下的难题,我们提出了YOLO-UniOW模型,这是一种新颖的模型,可提高效率、通用性和性能。YOLO-UniOW结合了适应性决策学习(Adap-tive Decision Learning),以CLIP潜在空间中的轻量级对齐取代了计算昂贵的跨模态融合,在不影响泛化的情况下实现了高效检测。此外,我们还设计了一种通配符学习策略,可将超出分布范围的对象检测为 “未知”,同时无需增量学习即可实现动态词汇扩展。这种设计使YOLO-UniOW能够无缝适应开放世界环境中的新类别。广泛的实验验证了YOLO-UniOW的优越性,它在LVIS上达到了34.6 AP和30.0 APr,平均速度为69.6 FPS。该模型还在M-OWODB、S-OWODB和nuScenes数据集上树立了标杆,展示了其在开放世界目标检测方面无与伦比的性能。
CoovallyAIHub
2025/03/27
2270
统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架
杀疯了!YOLO再突破,提速20倍!!
YOLO再一次突破,新变体YOLO-World在目标检测领域的表现非常的出色。开集检测速度提升20倍!
Python编程爱好者
2024/04/12
1.1K0
杀疯了!YOLO再突破,提速20倍!!
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
SAM和CLIP在各种视觉任务中取得了显著的进展,展示了在分割和识别方面令人瞩目的泛化能力。SAM特别之处在于,它使用了一个庞大的带有Mask标签的数据集进行训练,使得它可以通过交互式Prompt对广泛的下游任务进行高度适应。另一方面,CLIP通过训练数十亿个文本-图像对,获得了前所未有的在零样本视觉识别方面的能力。这导致了大量研究探索将CLIP扩展到开放词汇任务,例如检测和分割。
集智书童公众号
2024/01/10
3.5K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
【论文复现】实时开放词汇目标检测
论文:YOLO-World: Real-Time Open-Vocabulary Object Detection
Eternity._
2024/11/30
8830
【论文复现】实时开放词汇目标检测
目标检测新视野 | YOLO、SSD与Faster R-CNN三大目标检测模型深度对比分析
随着人工智能和计算机视觉技术的不断发展,目标检测作为一种关键的技术,广泛应用于多个领域。从安防监控到自动驾驶,从工业检测到医疗影像分析,目标检测技术正在改变着我们的生活方式和工作效率。近年来,以深度学习为基础的目标检测算法取得了显著进展,其中YOLO、SSD和Faster R-CNN是最具代表性的三种方法。
CoovallyAIHub
2025/01/16
2.7K0
目标检测新视野 | YOLO、SSD与Faster R-CNN三大目标检测模型深度对比分析
YOLO11改进 | DGNN-YOLO:基于YOLO11的动态图神经网络用于小目标检测及跟踪
检测和跟踪城市交通中的行人、自行车和摩托车等小物体对交通监控系统构成了重大挑战,因为它们的运动轨迹多变、经常被遮挡,并且在动态的城市环境中可见度低。传统的检测方法,如YOLO11,虽然擅长提取空间特征进行精确检测,但往往难以应对这些小而动态的物体,尤其是在处理实时数据更新和资源效率方面。
CoovallyAIHub
2025/01/23
6300
YOLO11改进 | DGNN-YOLO:基于YOLO11的动态图神经网络用于小目标检测及跟踪
实时物体检测,看YOLO-NAS、DETR、SAM 如何精准匹配你的场景?
在实时检测、复杂场景分析、零样本分割需求并存的2025年,YOLO-NAS、DETR、SAM三大架构各领风骚。本文深入剖析三者核心优势、典型短板与最佳适用场景,提供清晰的选型决策指南,并揭示未来混合架构协同互操作的趋势——助你精准匹配项目需求,避免选型陷阱。>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/06/16
2810
实时物体检测,看YOLO-NAS、DETR、SAM 如何精准匹配你的场景?
YOLOv12架构深度解析:关键架构特征的细分
本文对YOLOv12进行了架构分析,YOLOv12是单级实时物体检测领域的一项重大进步,它继承了前代产品的优点,同时引入了关键改进。该模型采用了优化的骨干网(R-ELAN)、7×7可分离卷积和FlashAttention驱动的基于区域的注意力,从而改进了特征提取、提高了效率并增强了检测的鲁棒性。YOLOv12具有多种模型变体,与其前代产品类似,可为延迟敏感型和高精度应用提供可扩展的解决方案。实验结果表明,YOLOv12在平均精度(mAP)和推理速度方面都有持续的提高,这使得YOLOv12成为自主系统、安全和实时分析应用中的一个令人信服的选择。通过实现计算效率和性能之间的最佳平衡,YOLOv12树立了实时计算机视觉的新基准,促进了从边缘设备到高性能集群等各种硬件平台的部署。
CoovallyAIHub
2025/02/27
1K0
YOLOv12架构深度解析:关键架构特征的细分
提升小水果检测效果:基于块技术的零样本RT-DETR与YOLO-WORLD
本文主要分成两个部分。首先,我们将深入研究RT-DETR和YOLO-WORLD模型。然后,我们将继续讨论基于补丁的技术,如SAHI和其他类似方法。最后,我将总结一下检测效果。
Color Space
2024/07/26
5650
提升小水果检测效果:基于块技术的零样本RT-DETR与YOLO-WORLD
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
本研究全面比较了RF-DETR目标检测模型和YOLOv12目标检测模型在复杂果园环境中识别绿色水果的能力,果园环境的特点是标签模糊、遮挡和背景伪装。为评估模型在真实世界条件下的性能,开发了一个自定义数据集,其中包括单类(绿色水果)和多类(遮挡和非遮挡绿色水果)注释。RF-DETR目标检测模型利用 DINOv2 骨干和可变形注意力机制,在全局上下文建模方面表现出色,在识别部分遮挡或视觉模糊的绿色水果方面尤其有效。与此相反,YOLOv12 模型采用了基于CNN的注意力机制来加强局部特征提取,优化了计算效率和边缘部署的适用性。在单类检测场景中,RF-DETR的平均精度(mAP@50)最高,达到0.9464,显示了其在杂乱场景中准确定位绿色水果的强大能力。尽管YOLOv12N的mAP@50:95 达到了0.7620的最高值,但RF-DETR目标检测模型在管理复杂空间场景方面的表现始终优于YOLOv12N。在多类检测中,RF-DETR以0.8298的mAP@50再次领先,表明其在区分遮挡和非遮挡水果方面的有效性,而YOLOv12L则以0.6622高居mAP@50:95 指标榜首,表明其在详细遮挡条件下的分类能力更胜一筹。对模型训练动态的分析表明,RF-DETR的收敛速度很快,尤其是在单类场景中,不到10个epoch就达到了平稳状态,这凸显了基于transformer-based的架构对动态视觉数据的效率和适应性。这些结果证实了RF-DETR适用于对准确性要求极高的农业任务,而YOLOv12仍然是对速度敏感的部署的理想选择。
CoovallyAIHub
2025/04/23
3840
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
yolo-world 源码解析(五)
ApacheCN_飞龙
2024/03/09
5600
如果你心里还只有YOLO-World你就输了!DetCLIPv3出手,性能大幅度超出一众SOTA模型!
在预训练之后是一个微调阶段,利用少量高分辨率样本进一步提高检测性能。借助这些有效的设计,DetCLIPv3展示了卓越的开词汇检测性能,例如,作者的Swin-T Backbone 模型在LVIS minival基准上取得了显著的47.0零样本固定AP,分别优于GLIPv2、GroundingDINO和DetCLIPv2 18.0/19.6/6.6 AP。DetCLIPv3在VG数据集上的密集字幕任务也取得了先进的19.7 AP,展示了其强大的生成能力。
集智书童公众号
2024/04/30
1.2K0
如果你心里还只有YOLO-World你就输了!DetCLIPv3出手,性能大幅度超出一众SOTA模型!
YOLOv8/v10/v11自动驾驶实测对比:揭秘v11遮挡车辆检测精度提升关键
本文分析 YOLO11 在车辆检测上的性能。相比前代(YOLOv8/v10),YOLO11 通过架构改进提升了速度、精度和在复杂环境(小目标、遮挡)下的鲁棒性。使用多车型数据集测试表明,其精度(mAP)、召回率等指标更优,同时保持实时推理速度。该模型在检测复杂形状车辆方面进步显著,对自动驾驶和交通监控有应用潜力。>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/06/20
1040
YOLOv8/v10/v11自动驾驶实测对比:揭秘v11遮挡车辆检测精度提升关键
重磅更新!yolo v8.3.100发布:全面支持PaddlePaddle 3.0,模型导出更高效,文档教程大升级!
各位AI开发者、计算机视觉爱好者们,Ultralytics团队再次带来重磅更新!YOLO v8.3.100正式发布,本次更新不仅优化了PaddlePaddle的兼容性,还大幅提升了模型导出功能,并新增了丰富的教程资源。无论你是工业部署、学术研究,还是个人项目,这一版本都能让你的工作更加高效!
福大大架构师每日一题
2025/04/04
1290
重磅更新!yolo v8.3.100发布:全面支持PaddlePaddle 3.0,模型导出更高效,文档教程大升级!
推荐阅读
清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
3960
YOLOe问世,实时观察一切,统一开放物体检测和分割
1710
YOLOe问世:三行代码实时"看见一切",目标检测进入全提示时代
1.1K0
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
4.4K0
Open-YOLO 3D | 仅利用 RGB 图像的2D目标检测,实现快速准确的开放词汇3D实例分割 !
1.1K0
CVPR2024 | YOLO-World 检测一切对象模型
3.1K0
统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架
2270
杀疯了!YOLO再突破,提速20倍!!
1.1K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
3.5K0
【论文复现】实时开放词汇目标检测
8830
目标检测新视野 | YOLO、SSD与Faster R-CNN三大目标检测模型深度对比分析
2.7K0
YOLO11改进 | DGNN-YOLO:基于YOLO11的动态图神经网络用于小目标检测及跟踪
6300
实时物体检测,看YOLO-NAS、DETR、SAM 如何精准匹配你的场景?
2810
YOLOv12架构深度解析:关键架构特征的细分
1K0
提升小水果检测效果:基于块技术的零样本RT-DETR与YOLO-WORLD
5650
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
3840
yolo-world 源码解析(五)
5600
如果你心里还只有YOLO-World你就输了!DetCLIPv3出手,性能大幅度超出一众SOTA模型!
1.2K0
YOLOv8/v10/v11自动驾驶实测对比:揭秘v11遮挡车辆检测精度提升关键
1040
重磅更新!yolo v8.3.100发布:全面支持PaddlePaddle 3.0,模型导出更高效,文档教程大升级!
1290
相关推荐
清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档