首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >[深度学习]开放域检测算法OV-DINO和yolo-world的pk比较

[深度学习]开放域检测算法OV-DINO和yolo-world的pk比较

作者头像
云未归来
发布2025-07-21 12:31:03
发布2025-07-21 12:31:03
4050
举报

【OV-DINO介绍】

中山大学联合美团提出新模型OV-DINO,实现开放域检测开源新SOTA!

比Grounding DINO高12.7% AP,比YOLO-World 高4.7% AP。

量子位, 开放域检测新SOTA!中山大学美团出品,开源性能最强
量子位, 开放域检测新SOTA!中山大学美团出品,开源性能最强

目标检测技术一直是研究的热点。但传统的目标检测方法往往受限于预定义的类别集合,难以应对现实世界中种类繁多的物体。

为了突破这一限制,开放词汇检测(Open-Vocabulary Detection, OVD)应运而生。换言之,它能在模型在没有预先定义类别的情况下,通过文本描述来识别和检测物体。

OV-DINO是基于语言感知选择性融合、统一的开放域检测方法。作为最强开放域检测开源模型,目前项目已公开论文和代码,在线Demo也可体验。

什么是OV-DINO?

本文提出了一种名为OV-DINO的开放域检测方法。

整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入,通过特定模板创建统一的文本嵌入表示。

图像和文本嵌入经过编码器处理后,图像嵌入通过Transformer编码器生成精细化的图像嵌入。

语言感知查询选择模块选择与文本嵌入相关的对象嵌入,并在解码器中与可学习的内容查询融合,最终输出分类分数和回归边界框。

量子位, 开放域检测新SOTA!中山大学美团出品,开源性能最强
量子位, 开放域检测新SOTA!中山大学美团出品,开源性能最强

论文地址: https://arxiv.org/abs/2407.07844 代码地址: https://github.com/wanghao9610/OV-DINO Demo: http://47.115.200.157:7860/

【正式PK】

yolo-world

结果大失所望什么都没检测出来,不是说yolo-world零样本检测模型,提供了以往无法达到的高效率和准确性,实测多张图片效果邋遢。

OV-DINO

结果部分检测出来,证明比yolo-world强多了,注意需要设置合理阈值才能检测出来过高和过低都可能出现很差效果,经过多张图片测试效果比yolo-world强不少

【总结】

OV-DINO算法可以媲美goudingdino算法,yolo-world言过其实,经过多次图片同等条件测试yolo-world理论说的多牛x,实际效果经不起考验,在泛化场景根本不行。OV-DINO算法问世,标注国产开放集合检测新范式,为实际应用提供有力科学技术支撑。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是OV-DINO?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档