Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【扩散模型的应用】用于红外小目标检测的基于Diffusion的连续特征表示

【扩散模型的应用】用于红外小目标检测的基于Diffusion的连续特征表示

作者头像
小白学视觉
发布于 2024-12-06 06:23:49
发布于 2024-12-06 06:23:49
3010
举报

论文信息

题目:Diffusion-Based Continuous Feature Representation for Infrared Small-Dim Target Detection

作者:Linyu Fan, Yingying Wang, Guoliang Hu, Feifei Li, Yuhang Dong, Hui Zheng, Changqing Lin, Yue Huang, and Xinghao Ding

机构:厦门大学、上海技术物理研究所等

代码链接:https://github.com/flyannie/DCFR-Net

摘要

红外小目标检测(ISDTD)在救援、监视和预警系统中发挥着关键作用。尽管现有方法取得了显著进展,但某些限制仍然阻碍了检测精度,包括高分辨率(HR)表示的不足、处理微弱目标的不足以及处理复杂背景下低对比度目标的困难。为了克服这些限制,我们提出了一种基于扩散的连续特征表示网络(DCFR-Net),包括两个关键分支:基于扩散的连续高分辨率特征表示(DCHFR)和ISDTD。具体来说,为了精确捕获极小目标轮廓,DCHFR将隐式神经表示(INR)集成到条件去噪扩散模型中,以自监督策略超分辨率红外目标。ISDTD利用DCHFR的共享编码器构建HR特征表示,该表示输入到多尺度隐式特征对齐(MIFA)和空间频率特征交互(SFFI)中。为了减轻微弱和易受攻击目标的影响,MIFA以无分辨率限制的方式细致地聚合不同层的特征。此外,为了增强红外目标与复杂背景之间的对比度,SFFI实现了深刻的SFFI和全局-局部接受域混合。在NUAA-SIRST、IRSTD-1k和NUDT-SIRST三个具有挑战性的数据集上进行的广泛实验表明,我们的DCFR-Net超越了最先进的(SOTA)方法,展示了我们方法在ISDTD中的优越性和鲁棒性。

关键词

  • 基于扩散的连续特征表示
  • 隐式特征对齐
  • 红外小目标检测(ISDTD)
  • 空间频率特征交互(SFFI)

引言

红外小目标检测(ISDTD)是民用、工业和军事领域适用的关键技术之一。在救援、监视和预警任务中,红外搜索和跟踪系统至关重要,这归功于其全天候感知能力、优越的空间分辨率、有效的隐蔽性和便携性。与可见光成像和主动雷达成像相比,依赖于热辐射的红外成像能够穿透环境障碍物,实现无干扰的被动成像。此外,长距离成像的非凡特性使得红外传感器能够在早期阶段检测到位置和速度未知的可疑目标,这有利于潜在威胁意识和采取适当的对策。相反,红外成像的优势为相应的红外目标检测带来了巨大的挑战。首先,随着距离的增加,红外辐射能量自然减小,导致远处投影目标通常很小且暗淡,缺乏特定的语义特征,如特定形状、清晰纹理和结构信息。其次,尽管红外成像可以穿透各种障碍物,但它产生了高度复杂的背景,充满了密集的森林、浓云或海洋杂波。这反过来降低了最初微小且暗淡的红外目标的对比度,使它们容易淹没在复杂且动态的背景中。此外,目标形状的干扰和高亮度像素噪声导致严重的误报,加上传感器固有的噪声,进一步加剧了红外小目标检测的难度。因此,设计具有灵活适应性以应对上述挑战的专用算法是一项重要任务。近几十年来,ISDTD领域出现了许多方法。在相关数据集有限的早期阶段,传统方法主要依赖于红外目标和特定场景的先验知识。这使得可以制定合理的假设并探索特征,如灰度、对比度和空间相关性。一般来说,传统方法可以分为三组:目标增强(TE)、背景抑制(BS)及其组合。尽管这些方法为特征提取提供了宝贵的见解,但它们在捕获高级语义时仍然面临挑战,通常过分强调局部信息。相反,随着更多数据集的公开可用性,基于深度学习的方法取得了显著进展。这些方法为ISDTD提供了自适应的语义和多尺度特征学习,无需手动特征工程。毫无疑问,以前的尝试已经取得了令人印象深刻的结果,但它们仍然有一定的局限性,如下所述。

A. 高分辨率(HR)表示的不足

大多数基于深度学习的方法通过逐渐减小特征图的大小来学习高级语义特征,导致不同程度的分辨率损失。随后,分辨率的损失对提取目标形状和细粒度细节产生了不利影响,这在ISDTD中至关重要。此外,学习HR特征表示使浅层网络能够捕获更细的目标细节和明显的目標边界,从而提高了红外小目标检测的精度。

B. 处理微弱目标的不足

现有方法,无论是旨在增强特征还是整合不同尺度的特征图,都在离散空间坐标内工作。显然,涉及的插值或采样过程不可避免地导致信息丢失,这对于已经有限特征信息的微弱和脆弱目标来说是特别不可接受的。然而,通过使用连续特征空间,输入图像可以被参数化为连续函数,适当地将空间分辨率与像素数量解耦。同时,可以合理地解决离散空间中丢失的模糊轮廓信息的问题,这对于实现高性能红外微弱目标检测至关重要。

C. 处理复杂背景下低对比度目标的困难

如何有效地将低级细节与高级语义对齐一直是解决低对比度目标和复杂背景问题的关键。提出了一个三部分密集嵌套注意力网络(DNA-Net),以实现逐步特征交互和自适应特征增强;设计了一个不对称上下文模块(ACM),以根据高级语义选择适当的低级特征。然而,这些方法以及类似特征交互方法在结合浅层空间特征与深层语义特征,或仅仅整合相邻特征时面临挑战,导致特征对齐不完整。此外,过多的局部上下文信息可能导致误报率上升。通过适当的交互同时整合全局和局部混合接受域,可以促进小目标的特征增强及其对比度信息。为了更有效地克服上述限制,我们提出了一种基于扩散的连续特征表示网络(DCFR-Net)用于ISDTD。我们的网络包括两个关键分支:基于扩散的连续高分辨率特征表示(DCHFR)和ISDTD。ISDTD还包括两个关键组件,包括多尺度隐式特征对齐(MIFA)和空间频率特征交互(SFFI)。首先,为了获得连续的HR特征表示,DCHFR将隐式神经表示(INR)集成到条件去噪扩散模型中,以自监督学习策略超分辨率红外小目标。具体来说,扩散模型巧妙地捕获了后续精确像素级检测所必需的精细上下文细节,同时通过整合INR确保在连续尺度范围内的高保真质量。自然地,ISDTD可以从共享编码器中提取红外小目标的相应高质量特征表示。其次,为了解决微弱目标并准确聚合不同层的特征,MIFA使学习的特征作为连续表示场,从而实现无分辨率限制的精细特征对齐。第三,为了解决复杂背景并增强红外目标与复杂背景之间的对比度,同时实现深刻的特征交互,SFFI利用空间频率双域的交互混合全局-局部接受域,进一步解决目标易受背景干扰的问题。总之,我们DCFR-Net的主要贡献可以总结为四点。1)为了解决红外目标的小尺寸特性并精确捕获目标轮廓,我们提出了创新的DCHFR,它将INR与条件去噪扩散模型无缝集成,以学习基于扩散的连续HR表示。2)为了减轻微弱目标的影响并获取细粒度细节,引入了MIFA模块以在连续域中对齐多层特征图。3)为了增强红外目标与复杂背景之间的对比度,设计了SFFI模块以通过空间频率双域交互整合全局-局部混合接受域。4)在三个具有挑战性的红外小目标数据集上进行的广泛实验表明,我们的DCFR-Net优于其他最先进的(SOTA)方法。

III. 方法

A. 网络结构

我们提出的DCFR-Net的整体架构如图1所示,包括两个分支:DCHFR和ISDTD。ISDTD作为主分支,包括两个关键模块:MIFA和SFFI。显然,我们的训练策略包括两个连续的阶段。在第一阶段,我们通过自监督学习方案训练DCHFR以获得红外目标的精细连续HR特征表示。DCHFR中的扩散模型与INR结合,动态地在现实细节和连续表示之间保持平衡。在第二阶段,我们将DCHFR的编码器冻结并与ISDTD共享。通过充分利用DCHFR的高质量特征表示,通过MIFA连续对齐多尺度特征图,并通过SFFI有效地整合全局和局部混合接受域,ISDTD显著提高了ISDTD的准确性和鲁棒性。

B. DCHFR分支

红外目标通常以其小尺寸和模糊的结构信息为特征,容易受到背景的干扰,这对目标检测提出了挑战。为了解决这些限制,DCHFR将INR无缝集成到条件去噪扩散模型中。对于捕获红外小目标的详细特征,扩散模型在生成微妙特征方面具有独特的优势。面对复杂的背景时,扩散模型巧妙地捕获了目标周围的空间关系,从而减少了干扰和杂波对目标检测的影响。此外,结合INR,DCHFR使得红外小目标的表示以连续的HR方式进行,不受网格分辨率的限制。具体来说,原始红外图像x作为HR样本h,通过四次双三次插值下采样获得相应的LR样本l,从而形成第一阶段的数据集。如图1所示,为了从LR输入l提取HR特征表示,并通过将l映射到h来实现超分辨率,DCHFR中的隐式去噪网络(IDN)旨在通过固定长度T的马尔可夫链近似数据分布p(h | l)的参数。这样,从纯噪声图像hT ∼ N(0, I)开始,IDN可以逐步根据学习的条件分布pθ(h−1 | lt, l)细化输出图像,最终得到HR图像h0 ∼ p(h | l)。按照SR3,定义了一个前向马尔可夫扩散过程q,通过迭代地向h0添加高斯噪声,如下所示:

其中,决定了每次迭代添加的高斯噪声的方差。给定h0,ht的分布可以直接表示为

其中,。在逆扩散过程中,可以执行一个反向马尔可夫过程:

同时,IDN采用了遵循去噪扩散概率模型的U-Net架构,以在训练期间顺序去噪潜在特征。受LIIF的启发,首先使用SR编码器Esr从LR图像l建立初始条件引导特征g0。Esr中的双线性插值使g0的分辨率与hT相同。然后,将g0与hT连接生成f0,然后输入N层U-Net的编码路径,逐步获取下采样特征{f_d 1, f_d 2, ..., f_d N}。同时,g0独立发送到N个卷积层,每个卷积层都涉及双线性下采样和leaky ReLU激活。卷积编码后,得到多个分辨率特征{g1, g2, ..., gN},以指导网络在建模潜在表示时:

其中,i ∈ {2, 3, ..., N}表示IDN的深度,f_d i和f_u i分别表示U-Net的解码器和编码器的特征图。因此,调制结果mi携带了详细的控制信息,使得在连续域中提取细粒度和HR特征的性能更优越。此外,为了实现连续特征而不是离散特征,我们在U-Net的解码路径中插入了N − 1个基于坐标的INR。INR中的隐式神经函数定义了一个函数Dθ,它在离散特征图上操作以获得连续特征图。如图1所示,考虑到离散特征图mi,可以将特征向量解释为参考2-D坐标ci上均匀分布的潜在代码z∗ i的潜代码。要查询HR特征值,隐式表示过程被制定为:

其中,i ∈ {1, 2, ..., N − 1},Dθ包含两个具有256隐藏维度的多层感知器,z∗ i+1是通过计算从mi+1最近的欧几里得距离来插值的,c∗ i+1是图像域中潜在代码z∗ +1的坐标。如先前研究所讨论的,尽管神经网络被视为通用函数逼近器,它们倾向于偏爱低频信号,对高频信号的敏感性较低。因此,直接在2-D坐标上操作可能会限制它们的学习能力。为了解决这个限制,我们使用位置编码函数ψ(·)在将这些坐标输入INR之前对其进行编码:

其中,频率ωk初始化为ωk = 2ek,k ∈ {1, 2, ..., K},然后在训练阶段进一步微调。2-D坐标将通过(9)扩展到2K维编码。因此,Dθ的最终定义是:

与(8)相比,将额外的位置编码输入到隐式神经函数Dθ中。按照这些步骤,DCHFR成功地将迭代扩散细化过程和隐式图像函数整合到一个统一的框架中,以连续的HR方式实现红外图像的特征表示。

C. ISDTD分支

在第二训练阶段,DCHFR中的SR编码器Esr被冻结,并与ISDTD共享,以从原始红外图像x中提取初始连续HR特征G0。同样,为了利用扩散模型捕获精细上下文细节的能力,我们保留了DCHFR中的N个条件引导卷积层和U-Net的编码路径,并在DCHFR的初始参数上训练ISDTD。通过N个条件引导卷积层产生多个分辨率特征{G1, G2, ..., GN},并通过将红外图像x直接输入U-Net的下采样网络获得{F1, F2, ..., FN}。与DCHFR的轻微区别在于,在每一层Fi都与Gi连接得到Mi。为了解决红外目标的微弱和脆弱特性并捕获细粒度细节,连接的特征{M1, M2, ..., MN}也将被送入MIFA,后者采用连续方法精确对齐并聚合来自不同层的特征。此外,为了捕获细粒度细节并增强目标与背景之间的对比度,我们引入了SFFI,通过空间频率双域交互整合全局和局部混合接受域。这两个模块的具体实现细节将如下所示。1)多尺度隐式特征对齐:为了实现多尺度特征图的精确对齐,一个有效的方法是使用隐式特征函数将多层离散特征图转换并对齐到连续的。因此,我们实现了一个具有一个多层感知器的隐式神经函数Daθ用于对齐过程。如图2所示,为了对齐来自N层的离散特征图{Mi}Ni=1,我们首先将它们输入到一个1×1的卷积中。接下来,给定Mi中任意查询坐标Ci,我们可以获得其最近的潜在代码Z∗i及其对应的坐标C∗i。为了实现特征对齐,我们使用同一层内的坐标差来获得相对坐标,表示为Ci − C∗i。之后,其位置编码ψ(Ci − C∗i)可以直接从(9)中得出。在将其输入到Daθ之前,我们将每个层的所有潜在代码作为Z∗,所有相对坐标作为C − C∗,以及所有位置编码作为ψ(C − C∗)分别连接。因此,我们可以将连续特征图M公式化为:

直观地说,Daθ可以解码每个层的场,同时在每层之间建立交互。更具体地说,关于输出分辨率,M可以通过独立且并行地查询每个像素位置来构建。最后,MIFA以不受分辨率限制的方式促进特征对齐,并允许映射到任意分辨率,为解决极其微弱和脆弱的红外目标的挑战提供了连续域中的新解决方案。

2)空间频率特征交互:虽然连续的HR特征表示和隐式特征对齐减轻了小目标问题,但固有的弱点和对复杂背景干扰的敏感性仍然阻碍了ISDTD的实际性能。为了进一步解决这些问题,我们提出了SFFI,它通过空间频率双域交互混合全局-局部接受域来解决复杂背景问题并增强红外目标与背景之间的对比度。如前所述关于快速傅里叶卷积,傅里叶理论中的频谱卷积定理表明,在频率域中修改一个点对所有输入特征施加全局影响,从而便于实现非局部接受域。因此,SFFI利用快速傅里叶卷积,结合图像范围的接受域,以及通过空间域和频率域之间的交互整合全局和局部混合接受域。此外,利用其强大的交互性,SFFI可以将低级细节与高级上下文信息结合起来。如图3所示,我们首先将连续特征图M沿特征通道维度分割成全局部分Mg和局部部分Ml。为了实现实际的交互过程,SFFI包括四个不同的子分支:全局到全局Bg→g、全局到局部Bg→、局部到全局Bl→g和局部到局部Bl→l。更具体地说,Bg→g利用傅里叶变换来扩大接受域并捕获广泛的上下文信息,而Bl→g利用非局部注意力机制来探索每个查询像素与其周围部分的全局依赖性。此外,Bg→l和Bl→l都通过操作O(·)捕获局部特征,该操作由3×3卷积和leaky ReLU激活组成。上述程序也可以表示如下:

其中,ST表示频谱变换,NL是非局部注意力机制。此外,图3详细描述了频谱变换,它使用傅里叶变换将空间特征高效地转换到频率域,包括信号的实部Re(Mg)和虚部Im(Mg):

在此转换之后,执行操作O(·),然后将数据恢复到空间域,使用逆快速傅里叶变换(IFFT)F−1:

此外,局部到全局映射利用非局部注意力模块探索每个查询像素的全局依赖性。如图3所示,非局部注意力机制采用残差变换学习和上下文机制,通过从不同位置的特征聚合,在各个查询位置生成空间图。这些注意力系数在与输入特征相乘后,传递到一个变换模块以获得每个空间位置的残差特征。之后,我们可以获得交互的全局特征,通过加上Bg→g和Bl→g,以及交互的局部特征,通过加上B→l和Bg→l:

最后,我们连接和,生成增强特征,它通过由1×1卷积和sigmoid层组成的检测头Dhead传递以生成最终检测结果:

D. 损失函数

在第一阶段,DCHFR旨在通过一系列去噪步骤推断HR图像h0,这相当于从噪声图像中恢复h0。为此,IDN ϵ应确保预测噪声ϵ的有效性。因此,我们使用以下公式优化IDN:

其中,ϵ ∼ N(0, I),t ∼ {1, 2, ..., T},且(l, hl, h)是从LR和HR图像对中采样的。在第二阶段,我们共享DCHFR冻结的编码器以获得连续HR特征表示。二元交叉熵(BCE)被引入以确保红外目标边界的精确描绘:

其中,gti是每个像素在真值GT中的值,yi是预测结果y中每个像素的预测概率,N代表像素数。考虑到背景和目标之间的类别不平衡,我们引入Dice损失来保留小目标的空间细节:

总体上ISDTD的损失定义如下:

其中,λ是通过实验设置为0.8。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
本文由圣路易斯华盛顿大学与北京大学联合完成,第一作者为圣路易斯华盛顿大学的刘晓一,他在北京大学访问期间完成了该项研究;通讯作者为北京大学计算机学院唐浩助理教授 / 研究员。
机器之心
2025/05/05
890
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
6.8K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
视觉显著性目标检测综述(2)
一个显著性目标检测模型能取得较好的效果至少应该满足以下3个标准:一是好的检测能力,尽量少地遗漏真正的显著区域或错误地将背景标记为显著区域;二是高分辨率,显著图应具有较高的分辨率或全分辨率,以准确定位显著目标并保留原始图像信息;三是高计算效率,作为其他任务的前置阶段,能够快速检测到显著区域。基于不同数据源的显著性目标检测方法研究思路也主要围绕以上3个方面展开,对检测模型的性能进行不断优化和提升,如图6所示。
AiCharm
2023/05/15
6630
视觉显著性目标检测综述(2)
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
超分辨率(SR)和图像生成是计算机视觉中重要的任务,在现实应用中得到广泛采用。然而,大多数现有方法仅在固定放大倍数下生成图像,并且容易出现过平滑和伪影。此外,在输出图像的多样性和不同尺度下的一致性方面也不足。大部分相关工作应用了隐式神经表示(INR)到去噪扩散模型中,以获得连续分辨率的多样化且高质量的SR结果。由于该模型在图像空间中操作,所以产生分辨率越大的图像,需要的内存和推理时间也越多,并且它也不能保持尺度特定的一致性。
公众号机器学习与AI生成创作
2024/04/12
4.1K0
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 !
Transformer架构[45]在各种应用中推动了突破,其中扩散模型成为近期的重要受益者。尽管U-Net[42]作为去噪 Backbone [22; 43; 41; 39]的成功,但近期基于 Transformer 的扩散模型,如 Diffusion Transformers(DiT)[37],在性能上又取得了新的飞跃。这一点由最近的生成模型,如Stable Diffusion 3[13]和Sora[6]得到证明。开源模型如DiT[37]及其文本引导的后续者PixArt-[8]相较于先前的U-Net基于的扩散模型,质量也有所提高。考虑到Transformer的可扩展性,Diffusion Transformers预计将成为图像生成的新的标准,尤其是在互联网规模的数据集上进行训练时。
AIGC 先锋科技
2024/12/03
1800
GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 !
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
SCTransNet有效地编码了目标与背景之间的语义差异,从而提升了其内部表征,以准确检测小红外目标。 在三个公开数据集NUDT-SIRST、NUAA-SIRST和IRSTD-1k上的大量实验表明,所提出的SCTransNet优于现有的IRSTD方法。 代码:https://github.com/xdFai
集智书童公众号
2024/02/21
1.9K0
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
由于卷积神经网络(CNN)在从大规模数据中学习可概括的图像先验方面表现良好,因此这些模型已被广泛应用于图像恢复和相关任务。最近,另一类神经架构Transformers在自然语言和高级视觉任务上表现出显着的性能提升。虽然Transformer模型减轻了CNN的缺点(即,有限的接收场和对输入内容的不适应性),其计算复杂度随着空间分辨率二次增长,因此使得其不可行地应用于涉及高分辨率图像的大多数图像恢复任务。
JOYCE_Leo16
2024/03/19
1.2K0
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
ICCV 2023 | 9篇论文看扩散模型diffusion用于图像恢复任务:超分、恢复、增强、去模糊、去阴影
尽管高光谱图像(hyperspectral image,HSIs)在执行各种计算机视觉任务中的重要性已被证明,但由于在空间域中具有低分辨率(LR)属性,其潜力受到不利影响,这是由多种物理因素引起的。
公众号机器学习与AI生成创作
2024/01/30
6.5K0
ICCV 2023 | 9篇论文看扩散模型diffusion用于图像恢复任务:超分、恢复、增强、去模糊、去阴影
HiPrompt 在更高分辨率图像生成上的表现,超越 SOTA !
[14]稳定弥散(Stable Diffusion)引起了广泛关注,并推动了其在文本到图像(T2I)生成领域的广泛应用,尤其是在SDXL [13]的训练分辨率以上的图像生成领域。现有的工作研究了无训练图像生成的训练范式,以应对巨大的计算资源和时间的挑战。探索了一些基于块的文本到图像生成方法,这些方法将多个重叠的去噪路径融合在一起。然而,它们受到模式重复和结构伪影问题的困扰。例如,MultiDiffusion [15]由于将所有区域的所有控制集成到生成过程中,因此受到严重目标重复的影响。尽管DemoFusion [16]尝试通过在残差连接和膨胀采样中引入全局语义信息来保持准确的全球结构,但它仍然受到目标重复问题和错误局部结构的影响。作者发现目标重复问题是由于输入提示与局部块在其基于块的去噪过程中不匹配的语义之间的影响:输入提示倾向于描述整体内容,而块生成在更高的尺度上只包含局部目标。这促使作者提出层次化提示,以准确地在不同尺度上指导超分辨率图像生成。
AIGC 先锋科技
2024/09/20
1620
HiPrompt 在更高分辨率图像生成上的表现,超越 SOTA !
【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构
现有的基于CNN的方法在有效和高效地处理复杂场景中不同尺度的小型红外目标时面临挑战,主要是由于池化层引起的聚合效应。因此,关键的深层目标可能会丢失。为了应对这一挑战,本研究提出了一种红外深度密集连接网络,称为ID-UNet。具体来说,本研究设计了一个特征提取模块,名为红外小目标特征提取(ISTFE),嵌入在ID-UNet架构中,以实现深层高级和浅层低级特征之间的跨层和连续交互。ISTFE内的连续连接有助于在深层保留红外小目标的语义信息,以及在浅层保留分辨率信息。此外,UNet结构参数被压缩,与传统UNet配置相比,参数减少了81%。在三个典型的公共数据集上的评估结果表明,所提出的方法在分割指标上超越了所有其他方法,包括交集比(IoU)、归一化IoU(nIoU)和F1分数。所提出的方法实现了高精度分割和低计算需求的双赢。
小白学视觉
2024/10/31
3170
【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构
夜间行车黑科技!中国团队全新YOLO-LLTS低光交通标志检测算法,实时识别精准度提升2.7%
低光照条件下交通标志的有效检测仍是一项重大挑战。为解决这一问题,我们提出YOLO-LLTS算法,这是一种专为低光环境设计的端到端实时交通标志检测方法。首先,我们引入高分辨率小目标特征检测模块(HRFM-TOD)以解决低光场景中小目标特征模糊的问题。该模块通过利用高分辨率特征图,有效缓解传统PANet框架中的特征稀释现象,从而同时提升检测精度与推理速度。其次,我们开发了多分支特征交互注意力模块(MFIA),该模块通过在通道和空间维度上实现多感受野的深层特征交互,显著增强了模型的信息提取能力。最后,我们提出先验引导增强模块(PGFE)以应对低光环境中常见的图像质量问题(如噪声、低对比度和模糊)。该模块利用先验知识丰富图像细节并提升可视性,大幅改善检测性能。为支撑本研究,我们构建了新型数据集CNTSSS(中国夜间交通标志样本集),涵盖城市、高速公路、乡村等多种夜间场景及不同天气条件。实验评估表明,YOLO-LLTS在TT100K-night数据集上mAP50和mAP50:95分别超越现有最佳方法2.7%和1.6%,在CNTSSS数据集上分别提升1.3%和1.9%,并在CCTSDB2021数据集上取得最优结果。边缘设备部署实验进一步验证了该方法的实时性与有效性。
CoovallyAIHub
2025/04/16
1800
夜间行车黑科技!中国团队全新YOLO-LLTS低光交通标志检测算法,实时识别精准度提升2.7%
顶刊解读 TGRS | 用于微小目标检测的去噪特征金字塔网络与transformer区域卷积神经网络
尽管计算机视觉(CV)领域取得了显著进展,但微小目标的精确检测仍然是一个重大挑战,这主要是因为这些目标在图像数据中的像素表示非常有限。这一挑战在地球科学和遥感领域尤为突出,其中对微小目标的高保真检测可以促进从城市规划到环境监测的多种应用。在本文中,我们提出了一个新的框架,即去噪特征金字塔网络(FPN)与transformer区域卷积神经网络(R-CNN)(DNTR),以提高微小目标检测的性能。DNTR由一个易于插入的设计DeNoising FPN(DN-FPN)和一个有效的基于transformer的检测器Trans region-based convolutional neural network(R-CNN)组成。具体来说,FPN中的特征融合对于检测多尺度目标至关重要。然而,在融合过程中可能会产生噪声特征,因为不同尺度的特征之间没有正则化。因此,我们引入了一个DN-FPN模块,该模块利用对比学习来抑制FPN的自顶向下路径中每个层级特征的噪声。其次,基于两阶段框架,我们用一个新颖的Trans R-CNN检测器替换了过时的R-CNN检测器,以关注通过自注意力表示微小目标。实验结果表明,我们的DNTR在AI-TOD数据集上至少比基线提高了17.4%的APvt,在VisDrone数据集上平均精度(AP)提高了9.6%。我们的代码将可在https://github.com/hoiliu-0801/DNTR找到。
小白学视觉
2025/01/02
1660
顶刊解读 TGRS | 用于微小目标检测的去噪特征金字塔网络与transformer区域卷积神经网络
基于全局与局部感知网络的超高清图像去雾方法
带有雾霾的图像具有低对比度和模糊的特性,这会严重影响下游图像处理模型的表现,例如行人检测、图像分割等。对此,大量的单幅图像去雾方法被开发出来,它们的目的在于把输入的带有雾霾的图像转换成一张清晰图像。然而,伴随着移动设备和边缘设备对分辨率为4k图像处理方法的需求的不断增长,现存的图像去雾的方法很少能高效地处理一张带雾的超高清图像[1]。
一点人工一点智能
2024/04/25
3040
基于全局与局部感知网络的超高清图像去雾方法
视觉显著性目标检测综述(一)
作为视觉注意力机制在目标分割任务上的延拓,并作为计算机视觉任务中非常重要的预处理步骤之一,显著性目标检测在立体匹配、图像理解、动作识别、视频检测和分割、语义分割、医学图像分割、目标跟踪、行人重识别、伪装目标检测以及图像检索等领域中发挥着非常重要的作用,如图1所示。由此可见,显著性目标检测有着广泛的应用价值和重要的研究意义。
AiCharm
2023/05/15
3.5K0
视觉显著性目标检测综述(一)
ACM MM'24 | DCAFuse:用于多模态图像融合的双分支扩散 - CNN 互补特征聚合网络
多模态图像融合(MMIF)旨在将源图像的互补特征整合到融合图像中,包括目标显著性和纹理细节。近年来,利用扩散模型的图像融合方法取得了不错的成果。尽管扩散模型有其优势,但它降低了感知局部特征的能力。此外,其固有的工作机制会给输入引入噪声,从而导致原始信息的丢失。为了解决这个问题,作者提出了一种新颖的扩散 - CNN特征聚合融合(DCAFuse)网络,该网络可以从双分支中提取互补特征并有效地进行聚合。具体来说,作者在基于扩散的分支中利用去噪扩散概率模型(DDPM)构建全局信息,在基于CNN的分支中使用多尺度卷积核对局部细节特征进行提取。之后,作者设计了一种新颖的互补特征聚合模块(CFAM)。通过为特征构建坐标注意力图,CFAM可以捕获水平和垂直方向的长距离依赖关系,从而动态地指导分支的聚合权重。此外,为了进一步提高双分支特征的互补性,作者引入了一种基于余弦相似度的新颖损失函数和一种独特的去噪时间步选择策略。大量实验结果表明,在包括红外与可见光图像融合(IVF)和医学图像融合(MIF)在内的多种图像融合任务中,作者提出的DCAFuse优于其他最先进的方法。
小白学视觉
2025/03/20
3600
ACM MM'24 | DCAFuse:用于多模态图像融合的双分支扩散 - CNN 互补特征聚合网络
深度学习时代下的RGB-D显著性目标检测研究进展
摘要:受人类的视觉注意力机制启发,显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域。近年来, 随着深度相机的发展和普及, 深度图像已经被成功应用于各类计算机视觉任务, 这也为显著性目标检测技术提供了新思路。通过引入深度图像, 不仅能使计算机更加全面地模拟人类视觉系统, 而且深度图像所提供的结构、位置等补充信息也可以为低对比度、复杂背景等困难场景的检测提供新的解决方案。鉴于深度学习时代下RGB-D显著目标检测任务发展迅速,旨在从该任务关键问题的解决方案出发,对现有相关研究成果进行归纳、总结和梳理,并在常用RGB-D SOD数据集上进行不同方法的定量分析和定性比较。最后, 对该领域面临的挑战及未来的发展趋势进行总结与展望。
一点人工一点智能
2023/04/13
2.1K0
深度学习时代下的RGB-D显著性目标检测研究进展
CVPR 2023 | 图像超分,结合扩散模型/GAN/部署优化,low-level任务,视觉AIGC系列
基于Transformer的方法在低级别视觉任务中,如图像超分辨率,表现出了令人印象深刻的性能。Transformer的潜力在现有网络中仍未得到充分发挥。为了激活更多的输入像素以实现更好的重建,提出了一种新的混合注意力Transformer(HAT)。它同时结合了通道注意力和基于窗口的自注意力方案,从而充分利用了它们各自的优势,即能够利用全局统计和强大的局部拟合能力。
公众号机器学习与AI生成创作
2023/08/22
2.5K0
CVPR 2023 | 图像超分,结合扩散模型/GAN/部署优化,low-level任务,视觉AIGC系列
将扩散模型用于目标检测任务,从随机框中直接检测!
扩散模型( Diffusion Model )作为深度生成模型中的新 SOTA,已然在图像生成任务中超越了原 SOTA:例如 GAN,并且在诸多应用领域都有出色的表现,如计算机视觉,NLP、分子图建模、时间序列建模等。
公众号机器学习与AI生成创作
2023/02/23
9320
将扩散模型用于目标检测任务,从随机框中直接检测!
浙江理工 & 谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
在开放和动态的环境中,目标检测面临如雨、雾和雪等具有挑战性的天气条件。基于深度学习的目标检测方法的快速发展显著提高了识别和分类物体的能力。得益于先进的特征提取和融合策略,跨模态目标检测方法已达到高精度,例如CFT(杨等人,2017年)、GAFF(杨等人,2017年)和CFR
集智书童公众号
2024/05/10
1.5K0
浙江理工 &  谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
DiffiT | 英伟达提出用于图像生成的扩散ViT架构DiffiT,达成新SOTA!
https://arxiv.org/abs/2312.02139 https://github.com/NVlabs/DiffiT
AIWalker
2023/12/12
7940
DiffiT | 英伟达提出用于图像生成的扩散ViT架构DiffiT,达成新SOTA!
推荐阅读
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
890
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
6.8K0
视觉显著性目标检测综述(2)
6630
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
4.1K0
GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 !
1800
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
1.9K0
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
1.2K0
ICCV 2023 | 9篇论文看扩散模型diffusion用于图像恢复任务:超分、恢复、增强、去模糊、去阴影
6.5K0
HiPrompt 在更高分辨率图像生成上的表现,超越 SOTA !
1620
【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构
3170
夜间行车黑科技!中国团队全新YOLO-LLTS低光交通标志检测算法,实时识别精准度提升2.7%
1800
顶刊解读 TGRS | 用于微小目标检测的去噪特征金字塔网络与transformer区域卷积神经网络
1660
基于全局与局部感知网络的超高清图像去雾方法
3040
视觉显著性目标检测综述(一)
3.5K0
ACM MM'24 | DCAFuse:用于多模态图像融合的双分支扩散 - CNN 互补特征聚合网络
3600
深度学习时代下的RGB-D显著性目标检测研究进展
2.1K0
CVPR 2023 | 图像超分,结合扩散模型/GAN/部署优化,low-level任务,视觉AIGC系列
2.5K0
将扩散模型用于目标检测任务,从随机框中直接检测!
9320
浙江理工 & 谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
1.5K0
DiffiT | 英伟达提出用于图像生成的扩散ViT架构DiffiT,达成新SOTA!
7940
相关推荐
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档