高层卷云在地-气系统能量收支和水循环中发挥着重要作用。根据其形成过程分为深对流外溢形成的砧状卷云和局地冷却形成的原位卷云,二者在形态和微物理特征上既有相似性,又...
在2025年计算机视觉与模式识别会议(CVPR)上发表的一篇论文中,介绍了一种新的图像分割方法,该方法能够跨不同的数据集和任务进行扩展。传统的分割模型在孤立任务...
语义分割是一项自动将数字图像中的每个像素标记为属于多个类别(人、猫、飞机、桌子等)之一的任务,其应用包括基于内容的图像检索、医学成像和物体识别等。
SAM 3 发布后迅速成为视觉语言模型的热门话题,但一个实际问题随之而来:它每次只处理一个文本提示,要检测 N 个类别就要跑 N 遍完整推理,80 类 COCO...
现有零样本异常图像生成方法大多仅依赖文本提示引导扩散模型,语义控制力有限,生成的异常掩码精度也不够高。
最近,一个计算机视觉团队做了一组系统测试:用 5 个典型的 CV 任务,分别测试了 Claude Code、Gemini-CLI 和 OpenAI Codex ...
语音 AI 的模型越来越多——ASR 有 Deepgram、Whisper,LLM 有 GPT、Claude、Gemini,TTS 有 ElevenLabs、A...
大型光伏电站中,一块面板出现热斑或裂纹,肉眼难以在数千块面板中定位它。无人机搭载热红外相机的巡检方案已成为行业标配,但拍下来的热图交给哪个检测模型更合适?YOL...
虽然文本到图像的生成技术正在迅速发展,但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel,一...
通过将光和密度场表示为基函数的加权和(其权重随时间变化),改进了运动捕捉、纹理和光照效果。
多模态大模型(MLLM)在医学影像诊断上有一个根本性矛盾:它们能"看"图像、能"说"结论,但做不好临床诊断中最关键的一步——定量分析。测量杯盘比、计算射血分数、...
文档 OCR 领域正在经历一场参数量军备竞赛——Qwen3-VL 用 235B 参数拿到 89 分,Gemini-3 Pro 拿到 90 分。但 OmniDoc...