首页
学习
活动
专区
圈层
工具
发布
首页标签计算机视觉

#计算机视觉

从“造机器”到“造生态”:中国智能时代的系统跃迁——从宇树实训平台到视频神经系统的启示

音视频牛哥

在过去十年里,全球机器人产业几乎陷入了一场“机械主义狂热”。工程师们争夺的是转速、扭矩、步态稳定性,是谁能让机器模仿人类行走、奔跑、跳跃。工业设计的极限被一次次...

900

万字详解:多目标跟踪(MOT)终极指南

CoovallyAIHub

如果你看过体育比赛中带球员轨迹回放,或者见过自动驾驶汽车在车流中穿梭,那你已经见识过多目标跟踪(MOT)技术了。这项技术不仅能识别视频中的物体,还能随时间持续追...

1000

从“十五五”规划看中国视频基础设施的下一个五年:SmartMediaKit 的战略跃迁与时代机遇

音视频牛哥

“十四五”让中国完成了数字化的全面铺网,而“十五五”则是在这张网之上点亮智能的神经。在最新公布的《“十五五”时期经济社会发展主要目标》中,“科技自立自强”“高质...

2000

Arm重磅加码边缘AI!Flexible Access开放v9平台,实现高端算力普惠

CoovallyAIHub

随着人工智能浪潮从云端向边缘侧扩展,智能摄像头、可穿戴设备、工业机器人等终端对本地实时处理能力的需求激增。在这一背景下,高效、安全且低功耗的边缘AI计算架构,正...

1300

计算机视觉专家荣获AAIA会士称号

用户11764306

Gérard Medioni近日被授予亚太人工智能协会(AAIA)会士称号。AAIA是一个专注于构建广泛人工智能产业的非营利性国际学术组织。

1100

量化图像概念相似性的新方法

用户11764306

在计算机视觉与模式识别会议(CVPR 2024)上提出的一项研究中,我们介绍了一种测量两幅图像之间概念距离的新方法。该方法在两种不同方式下使用大型视觉语言模型:...

1510

智能“下沉”:边缘AI,更低功耗、更快响应、更强隐私,YOLO26只是开始

CoovallyAIHub

我们正站在一个拐点:一边是爆炸式增长的实时视觉需求,一边是受限于功耗、算力和延迟的传统AI模型。云端AI曾带来无限算力,但真正的未来,在于将智能无缝嵌入到我们身...

3910

2025目标检测模型全景图:从RF-DETR到YOLOv12,谁主沉浮?

CoovallyAIHub

目标检测技术正以前所未有的速度重塑着我们的世界。从自动驾驶汽车在城市街道上自如穿梭,到智能工厂精准监控生产线,这项技术已成为无数AI应用的核心支柱。

10410

计算机视觉专家荣获AAIA院士称号

用户11764306

Gérard Medioni,某中心副总裁兼杰出科学家,近日被亚太人工智能协会(AAIA)授予院士称号。AAIA是一家专注于构建广泛人工智能产业的非营利性国际学...

4900

不看异常,怎么学会识别异常?用“异常”指导异常检测!——NAGL方法解析(附代码地址)

CoovallyAIHub

在工业质检、医疗诊断等领域,异常检测技术一直面临着巨大挑战。传统的异常检测模型通常只使用正常样本进行训练,但当遇到全新场景时,检测效果往往大打折扣。更重要的是,...

7010

OmniNWM:突破自动驾驶世界模型三大瓶颈,全景多模态仿真新标杆(附代码地址)

CoovallyAIHub

上海交通大学等机构联合提出全能驾驶导航世界模型,在生成质量与控制精度上全面超越现有SOTA!

15410

技术领先≠胜出:从机器人行业的尴尬,看音视频基础设施的现实破局之路

音视频牛哥

​在“具身智能”“低空经济”“机器人自主感知”等词汇频繁刷屏的当下,一个令人反思的现实正在浮现: 最强的技术团队,往往活得最艰难。

6010

无人机安防体系的音视频超低延迟重构:从“空地融合”到“实时智控”

音视频牛哥

随着计算机视觉、目标检测与视频语义识别技术的普及,安防无人机的实时视频流将不再仅仅是“画面”,而是城市事件的结构化数据源。

11710

首个自监督微调Stable Diffusion框架!更清晰、更泛化的单目深度估计(附代码地址)

CoovallyAIHub

你是否曾经想过,如果AI能像人类一样,仅通过观看视频就理解场景的远近关系,那该有多酷?

11710

计算机视觉遇见手绘图表,如何教会机器理解流程图?

CoovallyAIHub

构建生产就绪的计算机视觉系统意味着既要解决理论问题(如何检测物体?),也要解决实际问题(如何处理混乱的现实世界数据?)。最远点轮廓算法和缺口连接策略并非突破性创...

6310

图像标注最佳实践提升模型精度指南

用户11764306

图像标注或图像注释是计算机视觉的基石。这是为图像数据分配有意义的标签或注释的过程,使计算机视觉模型能够学习模式并进行预测。无论是目标检测、图像分类还是图像分割,...

5700

突破性开源模型DepthLM问世:视觉语言模型首次实现精准三维空间理解

CoovallyAIHub

无需改变架构,仅通过创新训练策略,就让视觉语言模型具备了与专业视觉模型相媲美的三维感知能力

9410

ICCV 2025 最佳论文出炉:CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠!

CoovallyAIHub

今天凌晨,在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿,...

35720

IDEA研究院发布Rex-Omni:3B参数MLLM重塑目标检测,零样本性能超越DINO

CoovallyAIHub

目标检测技术正在迎来一场范式革命!传统方法如YOLO、DETR依赖复杂的坐标回归,而IDEA(粤港澳大湾区数字经济研究院)研究院的最新研究Rex-Omni通过巧...

18710

一夜之间,大模型处理长文本的难题被DeepSeek新模型彻底颠覆!

CoovallyAIHub

“作为一个本质上是研究计算机视觉,暂时伪装成自然语言专家的人,我更感兴趣的是:对于大语言模型来说,像素是否比文本更适合作为输入?”

26710
领券