首页
学习
活动
专区
圈层
工具
发布
首页标签计算机视觉

#计算机视觉

Moonshine:比 Whisper 快 100 倍的端侧语音识别神器,Star 6.6K!

CoovallyAIHub

还在为语音识别的高延迟、隐私泄露、API 调用费用发愁吗?来自 Moonshine AI 的开源项目 Moonshine Voice 给出了一个令人惊艳的答案 ...

4110

AI Agent 自动复现 CV 论文|Stanford 多 Agent 工作流让大规模复现成为可能

CoovallyAIHub

换个随机种子就掉点、mAP 计算方式对不上、CUDA 版本一换代码全炸——CV 论文复现的痛,每个算法工程师都懂。读完斯坦福这篇论文后,我在想:这套方法搬到 C...

2610

实时视觉AI智能体框架来了!Vision Agents 狂揽7K Star,延迟低至30ms,YOLO+Gemini实时联动!

CoovallyAIHub

最近Stream团队开源的Vision Agents,在GitHub上已经悄悄爬上了7000多颗星。我花了一下午把它的文档和代码翻了个底朝天,说实话,有点意思。

3310

速度暴涨10倍、成本暴降6倍!Mercury 2用扩散取代自回归,重新定义LLM推理速度

CoovallyAIHub

等AI回消息的间隙,你是切出去刷了个短视频,还是盯着屏幕数它蹦出来的字?现在的GPT、Claude、Gemini,看着聪明,骨子里其实都是老式打字员——一个字接...

5500

开源:YOLO最强对手?D-FINE目标检测与实例分割框架深度解析

CoovallyAIHub

在计算机视觉领域,实时目标检测与实例分割一直是工业界和学术界关注的焦点。Transformer架构的加入让这一领域焕发新生,但如何在保持低延迟的同时实现高精度的...

2300

OpenClaw:从“19万星标”到“行业封杀”,这只“赛博龙虾”究竟触动了谁的神经?

CoovallyAIHub

一方面,它在GitHub上狂揽19万星标,被无数极客奉为“自ChatGPT以来最让人兴奋的项目”,仿佛预示着AI权力的下放。另一方面,它接连遭到Meta、Goo...

7520

OpenClaw一脚踩碎传统CV?机器终于不再只是看世界

CoovallyAIHub

如果你是一名计算机视觉的研究者,过去几年大概已经习惯了这样一种节奏:ImageNet分类准确率又涨了0.1%,某个新Backbone在COCO上刷了新高,某个T...

3410

仅凭单目相机实现3D锥桶定位?UNet-RKNet破解自动驾驶锥桶检测难题

CoovallyAIHub

在自动驾驶赛道场景中,锥桶定位是车辆路径规划的基础任务。然而,传统方案面临着成本高昂、Z轴误差大、计算复杂三大痛点。最新提出的UNet-RKNet架构首次将UN...

5910

人工智能之视觉领域 计算机视觉 第二十二章 多模态视觉技术与OpenCV应用

咚咚王

学习目标:掌握图像-文本、图像-深度、视频-语音等多模态融合的基本原理,能使用 OpenCV 联合其他工具(如 CLIP、Open3D、Whisper)完成跨模...

10210

video-subtitle-remover(VSR)--开源AI去字幕方案深度解析

用户4563504

在视频剪辑、二创和影视加工场景里,“硬字幕”(内嵌到画面里的字幕)一直是特别棘手的问题:

35410

人工智能之视觉领域 计算机视觉 第二十一章 OpenCV 轻量化部署技术

咚咚王

学习目标:掌握将 OpenCV 视觉算法和深度学习模型部署到树莓派、Android 手机等资源受限设备的核心方法,实现离线、低功耗、实时的边缘视觉应用。

9410

人工智能之视觉领域 计算机视觉 第二十章 实时目标检测与分割前沿

咚咚王

学习目标:掌握 YOLO 系列目标检测与 Mask R-CNN / SAM 图像分割在 OpenCV 中的部署方法,实现 CPU/GPU 加速的实时推理,并完成...

18210

赋能智慧监管:卫生许可证识别技术原理与应用解析

中科逸视OCR专家

在卫生监督、食品安全和公共场所管理的数字化转型进程中,纸质证照的电子化与数据化是基础性的一环。传统的卫生许可证信息录入主要依赖人工审核,效率低下且容易出错。随着...

9710

人工智能之视觉领域 计算机视觉 第十九章 深度学习与 OpenCV 深度融合

咚咚王

学习目标:掌握 OpenCV-DNN 模块的核心用法,能加载 PyTorch/TensorFlow/ONNX 预训练模型,在 OpenCV 中实现图像分类、目标...

15010

仿生学突破:SILD模型如何让无人机在电力线迷宫中发现“隐形威胁”

CoovallyAIHub

在智能电网巡检中,无人机已成为标配。然而,一个致命问题始终困扰着行业:返航途中的撞线事故。纤细的电力线在传统视觉系统中如同“隐形”。本文解读一种受生物启发的创新...

11210

从春晚机器人到零样本革命:YOLO26-Pose姿态估计实战指南

CoovallyAIHub

姿态估计作为计算机视觉的核心技术,通过检测图像或视频中人体/物体的关键点并构建骨架模型,实现对姿态和运动的量化分析。在机器人领域,这项技术正在开启全新应用场景:

11910

Le-DETR:省80%预训练数据,这个实时检测Transformer刷新SOTA|Georgia Tech & 北交大

CoovallyAIHub

这个问题,放在几年前,答案可能是“天价”。你得准备海量的数据,堆上成百上千张显卡,跑上几周甚至几个月。到了今天,虽然技术成熟了不少,但一些顶会论文里的模型,依然...

19510

强化学习凭什么比监督学习更聪明?RL的“聪明”并非来自算法,而是因为它学会了“挑食”

CoovallyAIHub

想象一下,你同时用两种方法教导两个学生解数学题。一个学生(SFT)只是死记硬背你做过的每一道例题,连你的笔迹都想模仿。另一个学生(RL)呢,你只告诉他答案是对是...

10810

人工智能之视觉领域 计算机视觉 第十八章 小项目实战

咚咚王

项目目标:构建一个完整的视频处理系统—— ✅ 第一帧自动检测人脸 → 启动跟踪器 → 后续帧高效跟踪 ✅ 跟踪丢失时自动重新检测 ✅ 支持摄像头或视频文件输入

11610

人工智能之视觉领域 计算机视觉 第十七章 简单滤镜效果

咚咚王

学习目标:掌握常见图像滤镜(黑白、复古、浮雕、马赛克)的实现原理与代码,能灵活组合 OpenCV 和 NumPy 操作,自定义创意视觉效果。

9510
领券