发布

深度学习和计算机视觉

专栏成员
1082
文章
1360908
阅读量
132
订阅数
CVPR 2025 | MobileMamba开源:轻量级多感受野视觉Mamba主干
项目代码:https://github.com/lewandofskee/MobileMamba(所有代码/模型权重均已开源)
小白学视觉
2025-03-06
50
最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)
本文详细回顾了大型语言模型从2017年Transformer架构的出现到2025年DeepSeek-R1的发展历程,涵盖了BERT、GPT系列、多模态模型、推理模型等关键进展,展示了LLMs在规模、性能、成本和多模态能力上的巨大进步,以及对AI领域和社会的深远影响。
小白学视觉
2025-03-06
40
刚刚,2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto
刚刚,计算机学会(ACM)宣布了 2024 年的 ACM A.M. Turing Award(图灵奖)获得者:Andrew Barto 和 Richard Sutton。
小白学视觉
2025-03-06
100
【CVPR 2025】高效视觉Mamba模块EfficientViM,即插即用!
论文题目:EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality
小白学视觉
2025-03-06
40
机器视觉中常用图像处理库都有哪些?
当需要做一些图像处理方面的学习和研究的时候,首要任务就是选择一套合适的图像处理类库,这期我们主要简单介绍下各家图像库的一些优缺点。OpenCV,Intel IPP,Halcon,MATLAB ,OpenGL,EmguCv,AForge.net,CxImage,FreeImage,paintlib,AGG,IPL,visDSK。不足之处,还请大家多多提建议,多谢!
小白学视觉
2025-03-06
160
目标检测中的 Anchor 详解
直观上,我们如何预测图像中的边界框?第一个最明显的技术是滑动窗口。我们定义一个任意大小的窗口,并在图像中“滑动”它。在每一步中,我们分类窗口是否包含我们感兴趣的对象。这就是我们所想的,对吧?那么,锚框将是它的“深度学习”版本。它更快,也更精确。
小白学视觉
2025-03-04
570
一个有趣的发现!大模型都喜欢拍马屁,Gemini最能拍!斯坦福:这不安全、不可靠
最近 DeepSeek 非常热门,我们也能在网上看到大量或严肃有用或幽默搞怪使用案例。其中一个很有趣的现象是不少用户发现 DeepSeek 会见风使舵。更直白一点说,DeepSeek 会拍用户的马屁,有时候甚至会无脑认同用户的错误言论。
小白学视觉
2025-02-26
480
ICLR 2025|如何在ImageNet-1K上训练视觉基础模型?
仅在ImageNet-1K的1.2M图像上训练就可以在多项任务上达到跟别人所提供的预训练模型相当的性能。
小白学视觉
2025-02-26
1480
孤立卡尔曼滤波(IsoKF):理论与解耦估计器设计
论文标题: Isolated Kalman filtering: theory and decoupled estimator design 作者: Roland Jung, Lukas Luft, Stephan Weiss 发表期刊: Autonomous Robots 发布时间: 2025.2.18 代码开源地址: https://github.com/aau-cns/ikf_lib
小白学视觉
2025-02-26
350
基于OpenCV的数字识别系统
2012年iOS应用商店中发布了一个名为FuelMate的Gas跟踪应用。小伙伴们可以使用该应用程序跟踪汽油行驶里程,以及有一些有趣的功能,例如Apple Watch应用程序、vin.li集成以及基于趋势mpg的视觉效果。
小白学视觉
2025-02-26
520
简单的Python调用C++程序
最近写BUG的时候遇到python计算很慢的情况,于是调研了一波在python中嵌入C++程序的方法,记录一下,便于查询。
小白学视觉
2025-02-25
1080
EHCTNet:基于CNN和Transformer增强混合网络的遥感图像变化检测
遥感(RS)变化检测由于漏检(false negatives)的高成本而面临挑战,漏检的成本通常高于误检(false positives)。现有的框架在提高Precision指标以减少误检成本方面存在局限,难以专注于感兴趣的变化,导致漏检和不连续问题。本文通过增强特征学习能力和整合特征信息的频率分量来解决这些问题,并提出了一种逐步提升Recall值的策略。作者提出了一种增强的CNN和Transformer混合网络(EHCTNet),用于有效挖掘感兴趣的变更信息。首先,使用双分支特征提取模块提取RS图像的多尺度特征。其次,通过改进的模块I利用这些特征的频率分量。第三,基于Kolmogorov-Arnold网络的增强令牌挖掘模块用于提取语义信息。最后,从改进的模块II中挖掘出对最终检测有益的语义变化信息的频率分量。大量实验验证了EHCTNet在理解复杂变化方面的有效性。可视化结果表明,EHCTNet能够检测到更完整和连续的变化区域,并且在相邻区域的区分上比现有最先进的模型更为准确。
小白学视觉
2025-02-24
1550
DeepSeek和月之暗面的论文撞车了!!
昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数,参阅报道《 刚刚!DeepSeek团队丢出注意力新机制重磅论文》。
小白学视觉
2025-02-20
890
一个小改动,CNN输入固定尺寸图像改为任意尺寸图像
本文小白将和大家一起学习如何在不使用计算量很大的滑动窗口的情况下对任意尺寸的图像进行图像分类。通过修改,将ResNet-18CNN框架需要224×224尺寸的图像输入改为任意尺寸的图像输入。
小白学视觉
2025-02-10
940
数字图像处理必备基本知识总结
数字图像,又称为数码图像或数位图像,是二维图像用有限数字数值像素的表示。数字图像是由模拟图像数字化得到的、以像素为基本元素的、可以用数字计算机或数字电路存储和处理的图像。
小白学视觉
2025-02-10
1530
TPAMI 2025 | 基于可解释优化展开网络的低光图像增强
基于Retinex模型的方法在低光图像增强(LLIE)中通过精心设计的先验进行分层操作,表现出良好的效果。然而,手工设计的先验和传统的优化算法在解决分层分解问题时缺乏适应性和效率。为此,本文提出了一种基于Retinex的深度展开网络(URetinex-Net++),它将优化问题展开为一个可学习的网络,将低光图像分解为反射层和光照层。通过将分解问题建模为隐式先验正则化模型,设计了三个基于学习的模块,分别负责数据依赖的初始化、高效展开优化和灵活组件调整。特别是,提出的展开优化模块引入了两个网络,以数据驱动的方式自适应地拟合隐式先验,从而实现分解组件的噪声抑制和细节保留。URetinex-Net++是URetinex-Net的进一步增强版本,引入了跨阶段融合块以缓解URetinex-Net中的色彩缺陷。因此,在视觉质量和定量指标上都能获得更好的性能,同时仅引入少量参数且计算时间较少。通过在真实世界低光图像上的广泛实验,定性和定量地证明了所提出的URetinex-Net++相对于现有方法的有效性和优越性。
小白学视觉
2025-02-10
1910
网上关于DeepSeek的说法,哪些是错误的?
这是个流传很广的说法,意指DeepSeek通过绕过CUDA,彻底摆脱了NVIDIA的依赖。
小白学视觉
2025-02-10
1080
只需2行代码,轻松将PDF转换成Word
可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。
小白学视觉
2025-02-10
910
用深度学习的方式融合各种信息
我们对世界的体验是多模态的 —— 我们看到物体,听到声音,感觉到质地,闻到气味,尝到味道。模态是指某件事发生或经历的方式,当一个研究问题包含多个模态时,它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够同时解释这些多模态的信号。
小白学视觉
2025-02-06
1000
基于OpenCV的实时睡意检测系统
该系统可以检测一个人在开车时是否困倦,如果有的话,可以通过使用语音消息实时提醒他。该系统使用网络摄像头和电话摄像头进行实时数据传输。
小白学视觉
2025-02-05
790
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档