暂无搜索历史
无需改变架构,仅通过创新训练策略,就让视觉语言模型具备了与专业视觉模型相媲美的三维感知能力
今天凌晨,在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿,...
目标检测技术正在迎来一场范式革命!传统方法如YOLO、DETR依赖复杂的坐标回归,而IDEA(粤港澳大湾区数字经济研究院)研究院的最新研究Rex-Omni通过巧...
就在百度刚刚发布PaddleOCR-VL,以0.9B参数量重新定义文档解析效率之际,DeepSeek也正式开源了其颠覆性的DeepSeek-OCR模型。不过,它...
前不久,小编刚刚介绍了PaddleOCR开源最强OCR生态,不靠参数靠实力,56K+ Star见证实力(附开源地址),然而就在17日,百度又放出大招,最新开源的...
在AI领域,Transformer架构自2017年确立统治地位以来,各类“Transformer杀手”就如雨后春笋般涌现。在众多挑战者中,基于结构化状态空间序列...
在机器人感知领域,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术至关重要。它使机器人能够在未知环...
近日,人工智能公司Thinking Machines发布了名为Tinker的创新API服务,该服务旨在彻底改变开发人员微调开放权重语言模型的方式。对于那些苦于基...
你是否曾疑惑,为什么电脑总觉得一张坐着的狗和一张站着的狗是完全不同的两张图?今天,我们来聊聊一个能让电脑像人类一样感知图像相似度的新模型——DreamSim。>...
本文针对语义分割模型因图像方向任意性导致性能下降的难题,提出了一种即插即用的基于填充的旋转等变卷积模式(PreCM)。该模块基于严谨的群论推导,能直接替换现有网...
最近,在AI顶会ICLR 2026的Open Review阶段,一篇匿名提交的论文《SAM 3: Segment Anything with Concepts》...
就在9月25日结束的伦敦YOLOVision 2025上,Ultralytics官宣将在10月份推出YOLO26模型。但无论是Glenn Jocher还是Ult...
多元链式方程插补(MICE)是一个强大的框架,用于填补缺失值,同时最大限度地减少插补过程中的偏差和不确定性。
这些都离不开同一个核心技术——实时视频目标检测(Real-time Video Object Detection)。
而今年,这份被誉为“AI行业的年度百科”的报告,给出了一个颇冷的诊断结论:“我们以为AI变聪明了,其实很多时候只是更会考试了。”
本研究对Ultralytics YOLO26进行了全面分析,重点阐述其关键架构改进及实时边缘物体检测性能基准测试。YOLO26于2025年9月发布,作为YOLO...
在这个“万物皆可大模型”的时代,似乎无论什么任务都能一句“上LLM”解决。图像识别?让多模态大模型来。文档解析?让GPT系列试试看。
深度学习中,大多数"训练速度慢"的问题,最让人沮丧的莫过于看着昂贵的GPU闲着等待数据。别急着升级硬件——问题往往出在数据流水线上!下面分享十条我在生产中使用的...
北京时间10月7日下午,瑞典皇家科学院宣布将2025年诺贝尔物理学奖授予美国科学家John Clarke、Michel H. Devoret和John Mart...
2017年,Transformer架构的诞生彻底改变了深度学习领域,为当今大语言模型的蓬勃发展奠定了坚实基础。作为这一划时代论文的作者之一,Llion Jone...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址