首页
学习
活动
专区
圈层
工具
发布
首页标签计算机视觉

#计算机视觉

视觉语言模型(VLM)深度解析:如何用它来处理文档?

CoovallyAIHub

视觉语言模型是一类强大的机器学习模型,能够同时处理视觉(图像)和文本信息。随着最近 Qwen 3 VL 模型的发布,我想带大家深入探讨一下,如何利用这些强大的 ...

400

估值百亿独角兽创始人硕士论文曝光!宇树科技王兴兴的“性价比”思维10年前就已注定

CoovallyAIHub

“人火了是连毕业论文都要被翻出来的。”这条互联网定律再次应验——宇树科技CEO王兴兴的硕士毕业论文近日被网友们掘地三尺找了出来。

300

SmartMediaKit:从实时通信到系统协同的十五五工程蓝图

音视频牛哥

“十五五”(2026–2030)时期,将是中国由“智能化应用突破”转向“系统化协同演进”的关键阶段。 随着低空经济、具身智能、工业视觉、远程医疗、应急指挥等新...

1600

无标注数据预测人脸识别模型偏差方法

用户11764306

在今年欧洲计算机视觉会议(ECCV)上,我们提出了一种评估人脸识别系统偏差的新方法,不需要带有身份注释的数据。虽然该方法仅估计模型在不同人口群体数据上的性能,但...

4810

深度学习定位与目标检测技术解析

用户11764306

定位与目标检测是计算机视觉中的两个核心任务,广泛应用于自动驾驶和机器人等实际场景。作为计算机视觉专家,深入理解这些技术至关重要。

2510

单目深度估计技术解析与实现

用户11764306

Depth Anything模型基于DPT架构,并在超过6200万张图像上进行了训练。DPT模型的主干利用视觉变换器替代CNN进行密集预测任务,即逐像素预测。D...

4410

实时实例分割与无监督学习的前沿进展

用户11764306

理解我们万花筒般的视觉世界是计算机科学家数十年来的重大挑战。因为视觉远不止是"看见"。为了最大限度地利用机器,并最终让它们在我们中间有用且安全地移动,它们必须以...

7410

RTMP/RTSP/WebRTC/SRT/HLS/DASH/GB28181/WebTransport/QUIC协议规范深度分析

音视频牛哥

在音视频流传输的世界中,编解码决定“如何压缩数据”,而协议则决定“如何传输和流动”。编解码技术关注如何高效地压缩数据、如何使得数据能够在有限的带宽上尽可能快速地...

18610

视觉系统的秩序:从滤波、边缘检测到形态学操作

音视频牛哥

滤波,是计算机视觉中最早建立秩序的环节。它回答了一个根本问题:什么是信号,什么是噪声。

8810

超清≠清晰:视频系统里的分辨率陷阱与秩序真相

音视频牛哥

我们常把“清晰度”简单等同于分辨率,于是第一次播放 4K 时就会感到惊艳;可一追问“你的显示设备是什么分辨率?”答案往往仍是 1080p。也就是说,你其实是在 ...

6510

超越传统3D生成:OccScene实现感知与生成的跨任务共赢

CoovallyAIHub

在自动驾驶、机器人导航等领域,3D场景的感知与生成一直是研究热点。然而,传统方法通常将这两个过程分离:生成模型仅仅作为数据增强工具,为下游感知任务提供合成数据。...

8110

不谈AI模型,只谈系统:SmartMediaKit低延迟音视频技术现实主义路线

音视频牛哥

2025年的机器人行业,表面上热闹非凡:融资潮、IPO潮、政策红利轮番登场。从仓储物流到巡检安防,从酒店服务到低空经济,无数创业公司在讲述“具身智能”的故事。但...

9010

华为世界模型来了!30分钟生成272㎡室内场景,虚拟人导航不迷路

CoovallyAIHub

该论文的第一作者是来自上海交通大学的Sikuang Li和Chen Yang,这项研究是在他们于华为实习期间完成的。Chen Yang目前仍是华为的研究实习生,...

12310

AI威胁检测系统获1400万美元投资

用户11764306

此次私募包括出售200万股Safe Pro普通股。所得资金预计将加速和扩展Safe Pro的AI驱动计算机视觉和威胁检测系统的开发与集成,部署于美国和国际防御及...

10410

狂飙与重构:机器人IPO浪潮背后的系统焦虑与感知进化

音视频牛哥

2025年,中国的机器人赛道正在经历一场罕见的“资本风暴”。短短一年内,数十家机器人企业密集奔赴IPO,从仓储、酒店、家居,到农业、医疗、巡检,无一不在讲述自己...

10410

SmartMediaKit 在检测机器人中的视频链路重构:从播放(RTSP)到二次水印编码再推流(RTSP|RTMP)

音视频牛哥

在市政管网、工业巡检与地下管廊检测等场景中,视频链路已不再只是“可视化工具”,而是智能系统的神经主干。高温、高湿、长距离、无信号的封闭管道,对视频传输的稳定性、...

10710

一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈

CoovallyAIHub

这篇名为《一致性模型》的论文提出了一类新的生成模型,能够一步到位地生成高质量图像,解决了扩散模型的主要瓶颈——采样过程慢、需要多次迭代。它的核心贡献在于证明了:...

8710

计算机视觉与AI驱动的身体成分分析技术

用户11764306

通过某中心的健康服务,用户可使用智能手机拍摄的照片测量身体脂肪百分比,并通过个性化3D模型进行追踪。这种扫描通常需要昂贵精密设备,但该功能使其可通过手机应用普及...

6010

搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在

CoovallyAIHub

人工智能的前沿不再只是数据中心;它在于工厂车间、零售店、公共基础设施以及我们周围的智能设备。推动这一转变的是视觉语言模型(VLM),这是一个革命性的人工智能,可...

8010
领券