首页
学习
活动
专区
圈层
工具
发布
首页标签计算机视觉

#计算机视觉

兰州大学研究团队基于计算机视觉云分类方法发现卷云跨半球耦合现象

气象学家

高层卷云在地-气系统能量收支和水循环中发挥着重要作用。根据其形成过程分为深对流外溢形成的砧状卷云和局地冷却形成的原位卷云,二者在形态和微物理特征上既有相似性,又...

6010

MQ-Former:融合可学习与条件查询的图像分割新架构

用户11764306

在2025年计算机视觉与模式识别会议(CVPR)上发表的一篇论文中,介绍了一种新的图像分割方法,该方法能够跨不同的数据集和任务进行扩展。传统的分割模型在孤立任务...

4610

利用弱监督学习实现高效图像分割

用户11764306

语义分割是一项自动将数字图像中的每个像素标记为属于多个类别(人、猫、飞机、桌子等)之一的任务,其应用包括基于内容的图像检索、医学成像和物体识别等。

8210

别人都在介绍 SAM 3,这个项目直接把它变成实时检测器:80 类 25 倍加速

CoovallyAIHub

SAM 3 发布后迅速成为视觉语言模型的热门话题,但一个实际问题随之而来:它每次只处理一个文本提示,要检测 N 个类别就要跑 N 遍完整推理,80 类 COCO...

10310

AAAI 2026 | 华中科大联合清华等提出Anomagic:跨模态提示零样本异常生成+万级AnomVerse数据集(附代码)

CoovallyAIHub

现有零样本异常图像生成方法大多仅依赖文本提示引导扩散模型,语义控制力有限,生成的异常掩码精度也不够高。

7310

编码智能体做 CV 任务,实际能力到哪一步了?——五项视觉任务实测解读

CoovallyAIHub

最近,一个计算机视觉团队做了一组系统测试:用 5 个典型的 CV 任务,分别测试了 Claude Code、Gemini-CLI 和 OpenAI Codex ...

8510

Pipecat:构建实时语音 AI Agent 的开源编排框架,500ms 级端到端延迟

CoovallyAIHub

语音 AI 的模型越来越多——ASR 有 Deepgram、Whisper,LLM 有 GPT、Claude、Gemini,TTS 有 ElevenLabs、A...

24510

Energies | 8版YOLO对8版Transformer实测光伏缺陷检测,RF-DETR-Small综合胜出

CoovallyAIHub

大型光伏电站中,一块面板出现热斑或裂纹,肉眼难以在数千块面板中定位它。无人机搭载热红外相机的巡检方案已成为行业标配,但拍下来的热图交给哪个检测模型更合适?YOL...

18710

多语言AI图像生成器NeoBabel开源发布

用户11764306

虽然文本到图像的生成技术正在迅速发展,但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel,一...

9310

基于带限辐射场的动态场景NeRF建模

用户11764306

通过将光和密度场表示为基函数的加权和(其权重随时间变化),改进了运动捕捉、纹理和光照效果。

13210

ICLR 2026 | MedAgent-Pro:用 Agent 工作流模拟临床医生的循证诊断过程

CoovallyAIHub

多模态大模型(MLLM)在医学影像诊断上有一个根本性矛盾:它们能"看"图像、能"说"结论,但做不好临床诊断中最关键的一步——定量分析。测量杯盘比、计算射血分数、...

12810

智谱 GLM-OCR:0.9B 小模型登顶 OCR 榜单,3月起还能一行代码接入 Agent

CoovallyAIHub

文档 OCR 领域正在经历一场参数量军备竞赛——Qwen3-VL 用 235B 参数拿到 89 分,Gemini-3 Pro 拿到 90 分。但 OmniDoc...

32610
领券