首页
学习
活动
专区
圈层
工具
发布
首页标签计算机视觉

#计算机视觉

为视觉建模注入物理灵魂:WaveFormer证明,下一站是“物理启发模型”

CoovallyAIHub

近年来,Transformer 席卷了计算机视觉领域,从图像分类到目标检测,表现亮眼。然而,当任务从静态图像扩展到视频理解、动态场景分析时,Transforme...

1600

“看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型

CoovallyAIHub

近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。从文本直接生成驾驶视频,到可控的4D动态场景...

700

一步生成,像素空间,何恺明让 pMF 做到了

CoovallyAIHub

何恺明团队最近抛出的这篇工作,多少有点“把老问题直接掀桌子重来”的味道。他们提出的 Pixel MeanFlow(pMF),在不借助潜在空间、不依赖多步采样的前...

5810

CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”

CoovallyAIHub

人类在观察复杂场景时,通常会先快速扫视整体轮廓,形成初步认知,再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注...

5610

告别CLIP局限!SSVP框架实现零样本异常检测,刷新7大数据集SOTA

CoovallyAIHub

工业视觉检测一直是智能制造领域的关键技术,而零样本异常检测(ZSAD)更是被视为行业的“圣杯”——无需针对特定产线进行训练,即可直接投入使用的理想解决方案。然而...

8510

测试里“无所不能”,一上线就“ bug 频出”,你的CV模型到底缺了什么?

CoovallyAIHub

那个在象牙塔里从未失手的“学霸”,理论知识门门满分,实验操作无可挑剔。可当他第一次踏入纷繁复杂、充满意外的真实社会,却步步维艰,处处碰壁——这画面,是不是像极了...

6810

强化学习研究者的成长之路与技术探索

用户11764306

Alexander Long 原计划追随父亲的脚步,在石油和天然气行业工作。在他的祖国澳大利亚,该行业是电气工程师的主要雇主,因此在他于昆士兰大学获得学士学位后...

10110

图像到地图转换技术获最佳论文奖

用户11764306

今天,在2022年国际机器人与自动化会议上,笔者与萨里大学同事合作撰写的论文《将图像转换为地图》获得了大会最高优秀论文奖。我们的论文解决了基于标准侧向视角照片构...

5410

数据管理与版本工具如何加速73%计算机视觉工作流

用户11764306

某机构致力于通过机器人技术、人工智能和计算机视觉来保护全球蜜蜂种群。其机器人蜂箱可以监测蜂群健康、及早发现问题,甚至自动采取行动——无需人工干预即可实现全天候、...

9910

96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分

CoovallyAIHub

在计算机视觉领域,基于骨架的人体动作识别一直备受关注。相比传统视频流,骨架数据不仅计算高效,还对环境光照、背景干扰有着天然的免疫力。然而,骨架模型也有自己的“心...

11510

模型太大跑不动?工业视觉轻量化,降低延迟、减少功耗、提升稳定性

CoovallyAIHub

车间里的景象总是带着某种永恒的韵律:传送带不知疲倦地滚动,机械臂精准地起落,金属部件泛着冷冽的光泽。就在这井然有序的乐章里,一个视觉检测工位却像是卡了壳的齿轮—...

11210

什么是图像计算?解析AI视觉背后的科学,快速入门指南

CoovallyAIHub

当你走过购物中心或繁忙的公共街道时,安装在入口和走道上方的摄像头记录着人们的一举一动。它们每秒都在产生视觉数据,而大多数时候我们甚至毫无察觉。

6600

字节跳动开源HUVR:一个视觉模型同时搞定识别与生成,96倍压缩令牌性能不减!

CoovallyAIHub

近日,字节跳动旗下研究团队发布了一项颠覆性研究,提出了名为“用于统一视觉表征的超网络”(Hyper-networks for Unified Visual Re...

11710

我用Gemini的提示词,7天搞定了3个月的工作量

用户11203141

辛辛苦苦肝完一篇论文,最怕什么?不是实验失败,也不是数据跑偏,而是信心满满投出去,几个月后等来一封拒稿信,理由还特别扎心:“逻辑有断层”、“创新性不足”、“语言...

60320

顶尖学府与科技中心联合发布AI研究基金与学者奖项

用户11764306

某知名大学(JHU)与某中心今日宣布了JHU + 某中心交互式人工智能倡议(AI2AI)的首批博士研究员和教职研究奖获得者。AI2AI倡议于四月启动,隶属于JH...

9710

10亿参数刷新OCR记录:LightOnOCR-2如何以小博大?

CoovallyAIHub

最近,法国AI公司LightOn在文档理解领域投下了一枚重磅炸弹——他们推出的LightOnOCR-2-1B模型仅凭10亿参数,就在权威OCR评测基准OlmOC...

19610

今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?

CoovallyAIHub

就在今年十月,DeepSeek 放出其全新的 DeepSeek-OCR 模型时,业内还在消化它在文档解析上带来的震动。没想到,短短时间,他们又抛出了一篇重磅论文...

29530

人工智能与计算机视觉赋能下一代仓储机器人

用户11764306

某中心正在测试一类新型机器人,它们利用人工智能和计算机视觉技术在履约中心内自由移动。这些机器人旨在帮助处理超大和笨重物品的运输任务,使其能够在由人员、托盘和立柱...

8910

诊断、分割、解释三位一体:医学AI如何从“工具”进化成“助手”?

CoovallyAIHub

在医学影像的世界里,AI模型大多还停留在“工具”阶段:它们能精准勾画病灶轮廓,却无法告诉你这意味着什么;它们能回答疾病名称,却指不出病灶的具体位置。医生面对的,...

12110

YOLO26技术详解:原生NMS-Free架构设计与实现原理

CoovallyAIHub

最近,计算机视觉领域再掀波澜!YOLO 家族最新成员——YOLO26横空出世,以“彻底移除NMS”为核心变革,开启了真正的端到端目标检测新时代。虽然官方论文尚未...

41610
领券