首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具

深度学习和计算机视觉

专栏成员
1109
文章
1401226
阅读量
132
订阅数
深度学习可视化大全(附github源码)
本文介绍了多个能将深度学习训练过程进行可视化的工具,帮助大家更好地理解深度学习,非常实用。
小白学视觉
2025-04-22
240
代码对比工具,我就用这6个
WinMerge是一款运行于Windows系统下的文件比较和合并工具,使用它可以非常方便地比较多个文档内容,适合程序员或者经常需要撰写文稿的朋友使用。
小白学视觉
2025-04-18
1270
AI封神了!无剪辑一次直出60秒《猫和老鼠》片段,全网百万人围观
这两天,加州大学伯克利分校、斯坦福大学、英伟达等机构联合制作的《猫和老鼠》AI短片火了。
小白学视觉
2025-04-15
1090
你也用print输出来调试代码么?
| 导语 最近在github上冒出了一个python的debug神器PySnooper,号称在debug时可以消灭print。那么该工具有哪些优点呢,如何使用该工具呢。本文就介绍该工具的优缺点和使用方式。
小白学视觉
2025-04-15
1130
聊聊强化学习发展这十年
(前言:这篇文章我从祖师爷评上图灵奖的时候开始写的,但不停的在删了重写,删了重写,到现在为止才出一个我勉强接受的版本。我从我的视角来描述下我觉得这些年来强化学习的发展风向。先叠个甲,本人学术不精,本文所有观点都乃我一家之言,欢迎大家批评指正。)
小白学视觉
2025-04-14
610
速递 | YOLOv8模型改进的N种方法
很多人也想跟修改YOLOv5源码一样的方式去修改YOLOv8的源码,但是在github上面却发现找到的YOLOv8项目下面TAG分支是空的,然后就直接从master/main下面把源码克隆出来一通修改了,其实这种方式风险很高,而且也不是正确的选择,原因在于Master/main分支是工作跟合并的代码主仓,不是发布的版本代码,开源项目团队开发者随时随地都在修改代码,很可能导致引入新BUG,直接使用master/main分支的下面的代码会有两个致命问题:
小白学视觉
2025-04-13
1800
代码可复现 | 2024时间序列领域相关顶会
首个全开源时间序列预测基础模型Moirai发布,它是一种通用的预测范式,让预训练模型可以处理任意时序预测任务。在零样本预测中,Moirai的性能媲美甚至超越了SOTA。
小白学视觉
2025-04-11
1250
为什么图像处理如此困难
但为什么会这样呢?你认为经过几十年的研究,我们会很自然地说“这里的问题已经解决了,让我们专注于别的事情”。在某种程度上,我们可以这样说,但仅适用于狭窄和简单的用例(例如,在空的白板上放置红色勺子),而不是一般的计算机视觉(例如,在所有可能的场景中找到一把红色的勺子,就像一个大盒子满了五颜六色的玩具)。
小白学视觉
2025-04-11
670
【2025年 即插即用】新颖的四边形注意力,CV任务统统涨点!
论文题目:Vision Transformer with Quadrangle Attention中文题目:具有四边形注意力机制的视觉Transformer论文链接:https://arxiv.org/pdf/2303.15105
小白学视觉
2025-04-10
1170
使用Python Pip的10个技巧
众所周知,pip 可以安装、更新、卸载 Python 的第三方库,非常方便。你们中的许多人可能已经使用 pip 很长时间了,但不清楚它有哪些还不错的功能。希望我今天分享的技巧能让你从 Python pip 中受益。
小白学视觉
2025-04-10
920
【深度学习】图解自注意力机制(Self-Attention)
传统的Attention机制发生在Target的元素和Source中的所有元素之间。
小白学视觉
2025-04-09
1420
TIV 2024 | MDFD2-DETR:一种基于多域特征分解与去冗余的实时复杂道路目标检测模型
准确感知道路目标信息在自动驾驶系统和交通流分析中至关重要。由于复杂道路背景的多变性、目标大小和形状的多样性以及目标之间的相互遮挡,这项任务颇具挑战性。为应对这些挑战,作者引入了一种端到端的实时复杂道路目标检测模型,名为多域特征分解与去冗余检测Transformer(MDFD2-DETR)。据作者所知,这是首个基于DETR架构、专为复杂交通场景设计的实时感知模型。具体而言,作者分析了复杂道路目标感知精度低的关键原因,并提出了多域特征分解(MDFD)模块,以减少空间、通道和频域的特征冗余。此外,作者引入了混合位置编码(HPE)策略,以实现特征之间更有效的位置交互,从而解决这一问题。为训练和评估所提出的算法,作者构建了一个名为SWJTU-100k的复杂真实道路感知数据集,包含10万个样本。实验结果表明,MDFD2-DETR在参数和GFLOPs更少的情况下,超越了现有的实时方法,包括类似YOLO和DETR的模型,在不使用CUDA加速的情况下达到82.6 FPS。此外,它在PASCAL VOC 2012数据集上的mAP@0.5提升了0.5%-1.7%,在SWJTU-100K数据集上提升了1.5%-3.3%,在KITTI数据集上提升了0.5%-1.5%,在Udacity数据集上提升了0.6%-1.5%,展现出卓越的性能。此外,基于MDFD2-DETR的多目标跟踪算法在复杂道路场景中也实现了卓越的跟踪性能。
小白学视觉
2025-04-09
1010
突发,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
Meta官宣开源首个原生多模态Llama 4,首次采用MoE架构,支持12种语言,首批发布一共两款:
小白学视觉
2025-04-07
680
IJCV 2025 | 基于对比特征重构的渐进式视觉提示学习
提示学习作为一种有吸引力的替代传统微调范式的方法,可使预训练的视觉语言(V-L)模型适应下游任务。受自然语言处理中提示学习成功的启发,早期研究主要集中在基于文本的提示策略上。相比之下,V-L模型中的视觉提示尚未得到充分利用。将现有的为视觉变换器(ViT)设计的视觉提示方法直接应用到V-L模型中,往往会导致性能不佳或训练不稳定。为了应对这些挑战,本文提出了一种名为渐进式视觉提示(ProVP)的新结构。该设计旨在加强相邻层提示之间的交互,从而以一种类似实例特定的方式,更有效地将图像嵌入传播到更深的层。此外,为了解决可学习提示在训练期间泛化能力下降的常见问题,作者进一步引入了一种用于视觉提示学习的对比特征重构技术。该方法可防止提示后的视觉特征与固定的CLIP视觉特征分布出现显著偏差,确保其具有更好的泛化能力。结合ProVP和对比特征重构技术,作者提出的方法ProVP-Ref显著稳定了训练过程,并增强了V-L模型中视觉提示学习的适应性和泛化能力。为了证明该方法的有效性,作者在11个图像数据集上对ProVP-Ref进行了评估,在少样本学习和基类到新类泛化设置下,在其中7个数据集上取得了最先进的结果。据作者所知,这是第一项展示视觉提示在V-L模型中比该领域以前的文本提示方法性能更优的研究。
小白学视觉
2025-03-31
1050
实践教程|GPU 利用率低常见原因分析及优化
本文的 GPU 利用率主要指 GPU 在时间片上的利用率,即通过 nvidia-smi 显示的 GPU-util 这个指标。统计方式为:在采样周期内,GPU 上面有 kernel 执行的时间百分比。
小白学视觉
2025-03-29
5130
CVPR 2025 | 知识桥接器:迈向免训练的缺失模态补全
以往成功的缺失模态补全方法依赖精心设计的融合技术以及在完整数据上的大量预训练,这限制了它们在域外(OOD)场景中的泛化能力。在本研究中,作者提出了一个新挑战:能否开发出一种既节省资源又对OOD泛化具有鲁棒性的缺失模态补全模型?为解决此问题,作者提出了一种基于大型多模态模型(LMM)的免训练缺失模态补全框架。作者的方法被称为“知识桥接器(Knowledge Bridger)”,它与模态无关,集成了缺失模态的生成和排序功能。通过定义特定领域的先验知识,该方法自动从可用模态中提取结构化信息以构建知识图谱。这些提取的图谱通过LMM将缺失模态生成模块和排序模块连接起来,从而实现对缺失模态的高质量补全。在通用领域和医学领域的实验结果表明,作者的方法始终优于竞争方法,在OOD泛化方面表现出色。此外,作者基于知识驱动的生成和排序技术相较于直接使用LMM进行生成和排序的变体,展现出优越性,这为其他领域的应用提供了有价值的见解。
小白学视觉
2025-03-29
1980
医图论文 ACM MM'24 | PASSION:用于不均衡缺失率下有效不完全多模态医学图像分割的方法
不完全多模态图像分割是医学成像中的一项基础任务,旨在仅部分模态可用时提高部署效率。然而,模型训练期间能获取完整模态数据这一常见做法与现实相差甚远,因为在临床场景中,各模态的缺失率可能不均衡。在本文中,作者首次阐述了这一具有挑战性的场景,并提出了偏好感知自蒸馏(PASSION)方法,用于在不均衡缺失率下进行不完全多模态医学图像分割。具体而言,作者首先构建了像素级和语义级自蒸馏,以平衡各模态的优化目标。然后,定义相对偏好来评估训练过程中各模态的主导地位,并据此设计任务级和梯度级正则化,以平衡不同模态的收敛速度。在两个公开的多模态数据集上的实验结果表明,PASSION在模态平衡方面优于现有方法。更重要的是,PASSION被验证可作为即插即用模块,在不同骨干网络上持续提升性能。
小白学视觉
2025-03-28
1410
检测物体+估计距离和方向 | 附源码
在这篇文章中,演示了如何使用计算机视觉创建一个应用程序,用于从语音命令中检测物体,估算物体的大致距离,并利用位置信息改善盲人的生活。这个项目的主要目标是处理实时数据,类似于Meta和Envision等可穿戴技术,以增强用户的生活和改善他们的日常体验。
小白学视觉
2025-03-27
740
YOLO-BLBE:一种新方法识别不同成熟度蓝莓果实的新型模型
然而,由于存在诸如多变的户外光照、与周围树冠相似的颜色、成像距离以及自然环境中的遮挡等干扰因素,开发可靠的视觉方法来识别不同成熟度的蓝莓果实仍然是一项严峻的挑战。
小白学视觉
2025-03-24
1060
NIPS 2024 | 跨领域图像去噪的适应性领域学习
不同的相机传感器具有不同的噪声模式,因此在一个传感器上训练的图像去噪模型通常无法很好地泛化到另一个传感器上。一个可行的解决方案是为每个传感器收集大量数据进行训练或微调,但这不可避免地耗时且费力。为了解决这一跨领域挑战,作者提出了一种新颖的适应性领域学习(Adaptive Domain Learning, ADL)方案,通过利用来自不同传感器的现有数据(源领域)以及少量来自新传感器的数据(目标领域),实现跨领域RAW图像去噪。ADL训练方案能够自动去除对目标领域微调模型有害的源领域数据(某些数据由于领域差异,加入训练会降低性能)。此外,作者引入了一个调制模块,用于采用传感器特定的信息(传感器类型和ISO)来理解输入数据以进行图像去噪。作者在包含多种智能手机和DSLR相机的公开数据集上进行了广泛的实验,结果表明,在目标领域传感器提供少量图像数据的情况下,作者提出的模型在跨领域图像去噪方面优于现有工作。
小白学视觉
2025-03-24
800
点击加载更多
活动推荐
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档