Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >首个公开发表的SAR图像目标识别基础模型!国防科大刘永祥&刘丽教授团队提出SARATR-X 1.0

首个公开发表的SAR图像目标识别基础模型!国防科大刘永祥&刘丽教授团队提出SARATR-X 1.0

作者头像
机器之心
发布于 2025-02-03 06:52:46
发布于 2025-02-03 06:52:46
3120
举报
文章被收录于专栏:机器之心机器之心

合成孔径雷达(Synthetic Aperture Radar, SAR)作为一种基于电磁波的主动探测技术,具有全天时、全天候的对地观测能力,已发展成为一种不可或缺的对地观测工具,在军民很多领域均有着重要的应用。

目标识别(Automatic target recognition,ATR)是 SAR 图像智能解译的核心问题,旨在对 SAR 图像中典型目标(通常为车辆、舰船和飞机等目标)进行自动定位和分类,复杂、开放、对抗环境下的 SAR 目标识别要做到高精准、高敏捷、强稳健、省资源,仍然面临很多挑战。当前,SAR 目标识别主要面临两个层面挑战。

  • 技术层面,SAR 目标识别方法多为有监督、静态、单任务、单模型、单平台,对特定类别的检测和分类,都需要各自的算法模型,每个任务都必须从头开始独立学习,这导致计算冗余、算法设计周期长、泛化能力严重不足、高标注依赖等问题。
  • 生态层面,由于 SAR 图像数据敏感性、标注代价昂贵等因素,缺乏良好的、开源的代码、评估基准和数据生态,导致很多 SAR 目标识别算法不开源、算法评估基准不统一、目前尚无公开的百万 / 千万级大规模高质量 SAR 目标识别基准数据集等问题。

人工智能基础模型技术飞速发展的今天,SAR 图像解译领域技术创新与发展生态亟待突破。

图 1. 各种专门的 SAR ATR 数据集和任务。SAR ATR 包括各种成像条件(即操作条件),如目标、场景和传感器。然而,由于成本较高,通常是在特定任务和设置中收集数据集。例如,MSTAR 是 X 波段和草地场景中的 10 型车辆目标分类数据集,SAR-Aircraft 是从三个机场和 C 波段卫星收集的 7 型飞机检测数据集。不同的目标特征、场景信息和传感器参数使现有算法的泛化困难。因此,团队旨在建立 SAR ATR 基础模型,一种用于各种任务的通用方法。

为了解决上述技术挑战,国防科技大学电子科学学院刘永祥&刘丽教授团队提出首个公开发表的SAR图像目标识别基础模型SARATR-X 1.0。

技术层面:①率先开展基于自监督学习的 SAR 目标特征表示学习;②创新性地提出了适用于 SAR 图像的联合嵌入 - 预测自监督学习新框架(Joint Embedding Predictive Architecture for SAR ATR, SAR-JEPA),让深度神经网络仅仅预测 SAR 图像稀疏且重要梯度特征表示,有效地抑制了 SAR 图像相干斑噪声,避免预测 SAR 图像含相干斑噪声的原始像素强度信息;③研制了首个 SAR 图像目标识别基础模型 SARATR-X(0.66 亿参数,基于 Transformer),突破了复杂场景中 SAR 目标特征学习对大规模高质量标注数据高度依赖的瓶颈,大幅提升了预训练基础模型的认知能力。

生态层面:团队致力于为 SAR 图像目标识别创建一个良好开源生态,以促进 SAR 目标识别技术快速创新发展。①规范和整合已有公开数据集,形成较大规模 SAR 图像陆海目标识别数据集 SARDet-180K;②为了取代 MSTAR(10 种车辆型号),耗时两年构建 SAR 车辆目标识别数据集 NUDT4MSTAR(40 种车辆型号、更具挑战的实际场景、数据公开、规模超过同类型数据集十倍),进行了详细性能评测;③开源相关的目标识别算法代码和评估基准。

研究成果以 “SARATR-X:面向 SAR 目标识别的基础模型(SARATR-X: Towards Building A Foundation Model for SAR Target Recognition)” 和 “预测梯度更好:探索联合嵌入-预测框架的 SAR ATR 自监督学习(Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture)”,被国际顶级学术期刊《IEEE Transactions on Image Processing》录用和《ISPRS Journal of Photogrammetry and Remote Sensing》发表。

团队的代表性工作一经发表、录用后,已经引起国内外同行关注,获得积极评价。引文单位包括美国空军研究实验室、法国古斯塔夫・埃菲尔大学、新加坡南洋理工大学、北京大学、武汉大学、北京航空航天大学等。

例如,ISPRS Journal 主编、LASTIG 实验室主任 Clement Mallet 在其论文《AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities》中认为 “SAR-JEPA [41] 首次将联合嵌入预测框架概念应用于对地观测,专门用于 SAR 数据。(引文原文:SAR-JEPA [41] introduces the first implementation of JEPA concepts for EO, focusing exclusively on SAR data. In this paper, we combine JEPA with a versatile spatial encoder architecture, allowing a single model to handle diverse data scales, resolutions, and modalities.)”

此外,该团队正在加紧研制 SARATR-X 2.0,预计参数规模 3 亿,SAR 目标切片样本规模 200 万,其中收集的数据将形成开源数据集以服务生态建设,近期将发布 SAR 车辆目标识别数据集 NUDT4MSTAR。

技术方案

团队旨在构建一个通用 SAR 图像目标识别基础模型以满足实践中多样的识别任务需求。作为首个公开发布的 SAR 图像目标识别基础模型 SARATR-X 1.0,该模型从大规模无标注 SAR 目标图像中学习到了较为通用的特征表示,突破了传统有监督算法适应性局限,为各种下游任务的高效适应提供基础。在系列工作中,团队研究了 SAR 图像目标识别基础模型的预训练集、模型架构、自监督学习和评估基准。

预训练集,所使用的预训练集包括不同的目标类别和成像条件,以适应各种下游任务,将大部分开源数据集作为预训练的一部分,共纳入了 14 个具有不同目标类别和成像条件的分类和检测数据集,作为新的预训练数据集,以探索基础模型的潜力。

表 1. SARATR-X 用于预训练的 14 个开源合成孔径雷达数据集。

模型架构,采用 HiViT 架构,旨在实现更好的遥感图像空间表示,特别是对于大图像中的小目标。HiViT 具有 Swin Transformer 高分辨率输入的优势,且可在自监督学习的掩码图像建模中丢弃补丁提高训练效率。

自监督学习,SAR 相干成像中的散斑噪声会对图像质量产生负面影响。此外,SAR 幅度图像的视觉特征不像光学 RGB 图像那样明显。因此,SAR SSL 的主要任务是提高特征学习和目标信号的质量。在前期工作 SAR-JEPA 中,重点研究了如何针对 SAR 图像特性设计自监督学习方法。

SAR-JEPA 受 JEPA、MaskFeat、FG-MAE 等工作启发,这些工作利用特征空间进行自监督学习任务,而非在原始像素空间进行,这压缩了图像空间中信息冗余,且可以学习到不同特征,如目标性质、深层语义特征。SAR-JEPA 针对 SAR 图像噪声问题,重点在一个降噪特征空间进行自监督学习,通过结合传统特征算子去除散斑噪声干扰,提取目标边缘梯度信息用于自监督,从而实现在 SAR 图像这种噪声数据中的大规模无标注自监督学习。其结果表明自监督学习模型性能可在不同 SAR 目标分类数据集上随着数据量而不断增长。这推动了我们基于大规模数据集构建一个通用 SAR 图像目标识别基础模型,从而实现在不同目标、场景、传感器和识别任务中高效复用。

因此,SARATR-X 基于 SAR-JEPA 进行训练,首先在 ImageNet 数据进行预训练,以获得更好的初始化模型多样性,第二步是利用 SAR-JEPA 中高质量的目标信号对 SAR 图像进行预训练。

图 2. 两步预训练过程。第一步是对 ImageNet 数据进行预训练,以获得更好的初始化模型多样性。第二步是利用高质量的目标信号对 SAR 图像进行预训练,比如抑制散斑噪声和提取目标边缘的多尺度梯度特征。

评估任务,针对全面评估基础模型的性能需求,团队利用 3 个开源目标数据集,首先构建了一个包含 25 个类别的细粒度分类数据集 SAR-VSA,以评估所提改进措施的有效性。然后,在公开分类和检测数据集上,对所提 SARATR-X 1.0 和现有方法进行了全面比较。

模型性能

受限于公开的 SAR 目标识别数据集规模,研制的 SAR 图像目标识别基础模型 SARATR-X 1.0 规模只有 0.66 亿参数,但从大规模无标注 SAR 目标图像中学习到了较为通用的特征表示。在多种下游目标识别任务上(8 个基准目标识别任务,包括小样本目标识别、稳健目标识别、目标检测等)的性能达到国际先进或者领先水平(如下图 3 所示)。在细粒度车辆 MSTAR 数据集中,它的目标分类性能优于现有的 SSL 方法(BIDFC),提升 4.5%。

此外,它在扩展操作条件 EOCs(擦地角 EOCs-Depression、目标配置 EOCs-Config 和目标版本 EOCs-Version)下表现良好。SARATR-X 在各种类别(多类的 SARDet-100K 和 OGSOD、船舶 SSDD 和飞机 SAR-AIRcraft)的目标检测下也具有竞争力,平均提升约 4%。并且所提方法具有良好的数据量和参数量可扩展性,具有进一步提升潜力。

图 3. SARATR-X 1.0 分类和检测的结果。

检测结果分析,检测可视化如下图 4 所示,虚警和漏检在 SAR 图像中很常见,特别是在相似的目标重叠和复杂的场景。虽然所提方法通过学习图像中的上下文信息,有效地提高了检测效果,但复杂场景和低质量图像的目标检测仍然非常困难。

图 4. 在 SARDet-100K 上进行检测的可视化。

注意力多样性分析,对于不同模型的注意力范围进行可视化分析,如图 5 所示,通过模型架构(图 a v.s. 图 b),初始化权值(图 a v.s. 图 c)和 SSL (图 d v.s. 图 e)改进以确保 SAR 目标识别的注意范围不同,包括 HiViT 架构、ImageNet 权重和 SAR 目标特征。

图 5. 不同注意头的平均注意距离(x 轴为注意头层数,点颜色代表不同的层,以便更好地可视化),注意距离(Attention Distance)代表了一个接受域的范围。

可扩展性,尽管掩码图像建模可以有效地随数据资源和模型参数扩展性能,但在处理噪声数据(如 SAR)时,所提方法是否可以确保其可扩展性?图 6 从三个角度展示了实验的结果:数据集大小、模型参数量和训练轮数。尽管预训练集包含 18 万个图像,比 ImageNet-1K 小,但在图 6(a)和(b)中,随着数据和参数量的增加,下游任务性能呈现显著上升曲线。这一结果表明,通过提取高质量的特征作为引导信号,基础模型可以充分发挥其在 SAR 目标识别中的潜力。但由于数据量限制,模型在扩展训练轮数时倾向于过拟合。此外,SAR 图像噪声和低分辨率进一步加剧了过拟合。

图 6. SARATR-X 在数据集大小、模型参数量和训练轮数方面的可扩展性。虽然方法受益于这三个方面,但需要注意的是,由于数据集的大小,过大的训练轮数经常会导致过拟合。

更多图表分析可见原文。

论文传送门

SARATR-X

  • 题目:SARATR-X: Towards Building A Foundation Model for SAR Target Recognition
  • 期刊:IEEE Transactions on Image Processing
  • 论文:https://arxiv.org/abs/2405.09365
  • 代码:https://github.com/waterdisappear/SARATR-X
  • 年份:2025
  • 单位:国防科技大学、上海人工智能实验室
  • 作者:李玮杰、杨威、侯跃南、刘丽、刘永祥、黎湘

SAR-JEPA

  • 题目:Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture
  • 期刊:ISPRS Journal of Photogrammetry and Remote Sensing
  • 论文:https://www.sciencedirect.com/science/article/pii/S0924271624003514
  • 代码:https://github.com/waterdisappear/SAR-JEPA
  • 年份:2024
  • 单位:国防科技大学、上海人工智能实验室、南开大学
  • 作者:李玮杰、杨威、刘天鹏、侯跃南、李宇轩、刘振、刘永祥、刘丽

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
近年来,复杂的3D场景理解成为计算机视觉的一个重要领域,涵盖了诸如场景生成、推理和交互。利用大规模视觉基础模型,方法如[42; 64; 68; 84; 91]已经取得了有前途的结果,从而使一系列实际应用得以实现,从自动驾驶,机器人学[57; 108],到多模态代理[1; 78]。尽管有许多研究[6; 67; 99]提供了关于视觉基础模型在2D图像任务的使用的指导,但3D场景的战略仍然不清楚。对复杂实际场景的系统化理解不仅包括语义和深度意识[6],这可以在2D领域进行评估,还包括几何意识和对多模态信息进行推理和定位任务的能力。为了填补这一空白,作者的工作评估了不同类型的视觉基础模型对复杂场景理解的适用性,并寻求确定每种模型在不同场景中的优势和局限。最终,这项研究旨在为场景理解系统的更有效性、高效性的发展做出贡献。
AIGC 先锋科技
2024/09/13
3090
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
ICCV|复杂场景目标检测——科大讯飞等提出X光安检场景下危险品检测基准(已开源)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 复杂视觉场景下的目标识别任务有很多亟待解决的问题,也一直是学术界研究的焦点。计算机视觉顶会ICCV 2021接收了一篇由北京航空航天大学刘祥龙教授团队、中国科学院软件研究所和科大讯飞共同完成的工作,该工作以X光安检场景下的危险品检测为例,对复杂场景下的遮挡干扰、小目标问题进行了探索,建立了一个大规模的复杂场景目标检测基准,并提出了侧
计算机视觉研究院
2022/09/06
1.7K0
ICCV|复杂场景目标检测——科大讯飞等提出X光安检场景下危险品检测基准(已开源)
【机器学习】机器学习引领未来:赋能精准高效的图像识别技术革新
深度学习是机器学习的一个分支,它模拟人脑神经网络的工作方式,通过构建多层次的神经网络模型来学习和表示数据中的复杂模式。深度学习的核心思想是通过构建深层神经网络,让机器自动学习数据的特征表示,而无需人工进行特征工程。
Eternity._
2024/09/05
2280
【机器学习】机器学习引领未来:赋能精准高效的图像识别技术革新
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
机器之心专栏 作者:沈煦 Dragon Lake Parking (DLP) 数据集以无人机正射航拍视角,提供了大量经过标注的高清 4K 视频和轨迹数据,记录了在停车场环境内,不同类型的车辆、行人和自行车的运动及交互行为。数据集时长约 3.5 小时,采样率为 25Hz,覆盖区域面积约为 140 m x 80 m,包含约 400 个停车位,共记录了 5188 个主体。数据集提供两种格式:JSON 和原视频 + 标注,可服务的研究方向包括:大规模高精度目标识别和追踪、空闲车位检测、车辆和行人的行为和轨迹预测、模
机器之心
2023/03/29
9920
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
基于特征点的图像处理与训练数据优化
在计算机视觉领域,图像处理一直是核心技术之一,广泛应用于人脸识别、自动驾驶、医学影像分析等领域。而特征点检测作为图像处理中的关键步骤,为后续的图像匹配、目标识别、三维重建等任务提供了基础支持。本文将探讨特征点检测的基本原理、其在图像处理中的应用,以及如何通过优化训练数据来提升模型性能。
七条猫
2025/04/22
1790
基于特征点的图像处理与训练数据优化
华中科技提出 PersonViT | 利用 Mask 图像建模的视觉 Transformer 提升人重识别性能 !
人重识别(ReID)旨在从人类图像中学习视觉特征,能够区分不同的个体身份。这是一个重要且具有挑战性的计算机视觉问题,需要克服严重的遮挡、外观变化、形状变化和视点变化。人重识别技术能够在无接触和不合作的情况下实现跨摄像头检索行人,并广泛应用于公共安全、视频监控等领域,具有显著的应用价值。
未来先知
2024/08/29
3350
华中科技提出 PersonViT |  利用 Mask 图像建模的视觉 Transformer 提升人重识别性能 !
SARChat-2M:首个SAR图像多模态对话数据集,验证VLMs能力,项目即将开源!
在人工智能(AI)研究领域,随着技术的不断进步和应用领域的拓展,研究者们对AI的认知和期望也在不断提升。本文旨在对当前AI技术的发展现状、挑战及其在各个领域的应用进行综述,以期为AI领域的进一步研究和发展提供参考。
未来先知
2025/03/24
2310
SARChat-2M:首个SAR图像多模态对话数据集,验证VLMs能力,项目即将开源!
红外探测及目标识别(二)
红外探测系统具有隐蔽性强、探测距离远以及抗干扰能力强等优点,广泛应用于舰船、航空器等目标的识别与跟踪。红外系统主要包含目标探测以及图像识别两部分:其中目标探测是红外系统的硬件基础;图像识别算法能够实现图像内容的判别和目标定位,是后续跟踪任务的前提,具体如图1所示:
联远智维
2022/07/25
3.2K0
红外探测及目标识别(二)
学界 | 弱监督视频物体识别新方法:中国香港科技大学联合CMU提出TD-Graph LSTM
选自arXiv 机器之心编译 参与:李泽南、路雪 在图像识别任务中,模型的训练一直非常依赖于标注数据,同时训练结果难以泛化。香港科技大学与卡耐基梅隆大学的研究者们最近发表的研究提出时间动态图 TD-Graph LSTM 试图解决这些问题,他们的新方法也刷新了视频目标检测的业内最佳水平。该论文已入选即将在 10 月底举行的 ICCV2017 大会。 随着数据驱动方式在图像识别上的不断发展,人们对于扩大目标检测系统规模的兴趣越来越大。然而,与分类任务不同,用不同的类与边界框完整标注对象实例的方法几乎是不可扩展
机器之心
2018/05/09
1.3K0
学界 | 弱监督视频物体识别新方法:中国香港科技大学联合CMU提出TD-Graph LSTM
【无监督学习最新研究】简单的「图像旋转」预测,为图像特征学习提供强大监督信号
【新智元导读】在论文中,研究人员训练卷积神经网络来识别被应用到作为输入的图像上的二维旋转。从定性和定量两方面证明,这个看似简单的任务实际上为语义特征学习提供了非常强大的监督信号。 在过去的几年中,深度卷积神经网络(ConvNets)已经改变了计算机视觉的领域,这是由于它们具有学习高级语义图像特征的无与伦比的能力。然而,为了成功地学习这些特征,它们通常需要大量手动标记的数据,这既昂贵又不可实行。因此,无监督语义特征学习,即在不需要手动注释工作的情况下进行学习,对于现今成功获取大量可用的可视数据至关重要。 在我
新智元
2018/03/28
1.8K0
【无监督学习最新研究】简单的「图像旋转」预测,为图像特征学习提供强大监督信号
Nat. Commun. | 俞章盛/张岳团队开发基于组织病理学图像的癌症诊断和生存预测AI基础模型
组织病理学图像分析被认为是癌症诊断的金标准,但依赖于病理学家的传统人工诊断方法既耗时又繁重,如果诊断经验不足还会导致漏诊和误诊,严重影响患者的后续治疗。计算病理学和人工智能(AI)的进步为使用十亿像素切片进行客观诊断、预后和治疗反应预测提供了可能。虽然基于深度学习的计算病理学在各种病理任务中显示出良好的前景,但自然图像和病理图像之间的内在差异、训练数据的稀缺性、不同癌症类型的形态学差异等因素影响了模型的分析性能和跨癌症任务的适应。相比之下,计算病理学的基础模型(训练策略包括监督学习和自监督学习)是通过对大量无监督的数字病理图像进行预训练而建立,即使面对多个任务也能始终实现高性能。
DrugAI
2025/03/20
940
Nat. Commun. | 俞章盛/张岳团队开发基于组织病理学图像的癌症诊断和生存预测AI基础模型
预训练还需要监督信息吗?一文了解无监督训练的优势
论文链接:https://arxiv.org/pdf/2006.06606.pdf
机器之心
2020/07/06
7750
预训练还需要监督信息吗?一文了解无监督训练的优势
AAAI 2024 | 腾讯优图实验室27篇论文入选,含表格结构识别、异常图像生成、医学图像分割等研究方向
AAAI 2024 (AAAI Conference on Artificial Intelligence) 人工智能国际会议于近日公布论文录用结果,本届会议共收到9862篇份论文投稿,最终录用2342篇论文,录用率23.75%。
小腾资讯君
2024/01/17
1.7K0
基于深度学习的遥感图像地物变化检测综述
遥感(Remote Sensing,缩写为RS)是指非接触式、远距离的探测技术。遥感技术通常使用航空航天平台、按照特定的波段对地球或其他天体进行成像观测,通过分析观测数据,探测地球或其他天体资源与环境。遥感技术在现代化社会中十分重要,它能够在一定程度上体现一个国家的经济实力和科技水平,故一直受到世界大国的高度重视。自从美国的陆地卫星Landat-1和法国的SPOT-1卫星相继升空,世界进入了高分辨率遥感技术发展和应用的新时代。2001年,美国发射的QuickBird卫星可采集分辨率为0.61m/像素的全彩色图像和2.44m/像素的多光谱图像,标志着世界进入“亚米级”高空间分辨率[2]遥感时代。在20世纪80年代后,我国遥感技术也进入飞速发展时期。风云气象卫星和资源系列卫星的成功发射为我国卫星遥感事业的发展奠定了坚实的基础。2006年到2016年间,我国陆续将遥感卫星一号到遥感卫星三十号共30个卫星送入太空,这些卫星在我国国土资源普及、防灾减灾等领域发挥了重要的作用。2013年到2018年间,我国相继将高分一号到高分六号等高分辨率卫星送入太空,其在国土统计、城市规划、路网设计、农作物估计和抗灾救援等领域取得了突出的成就。
一点人工一点智能
2023/04/22
2.9K0
基于深度学习的遥感图像地物变化检测综述
学界 | 精细识别现实世界图像:李飞飞团队提出半监督适应性模型
选自 arXiv 机器之心编译 参与:李泽南 图像识别技术的发展速度很快,我们开发的机器学习模型已经可以识别越来越多的物体种类了。然而,大多数图像识别算法都非常依赖于有标签的数据集,同时对于图片中物体的精细分类能力也非常有限。近日,斯坦福大学李飞飞团队提交的论文在减少数据依赖和提高识别细粒度程度等问题上向前迈进了一步。该论文已被 ICCV 2017 大会接收。 图像识别的终极目标是识别真实世界中的所有物体。更加艰巨的任务则是精细识别——细分同一类别的物体(如不同种类的鸟、不同品牌的汽车)。目前的业内最佳细
机器之心
2018/05/10
9190
每日学术速递7.29
1.On the Connection between Pre-training Data Diversity and Fine-tuning Robustness
AiCharm
2023/09/06
2080
每日学术速递7.29
华人博士提出原型对比学习,非监督学习效果远超MoCo和SimCLR
本文提出的原型对比学习(PCL) ,统一了非监督式学习的两个学派: 聚类学习和对比学习。PCL 推动了机器学习和人工智能的圣杯--非监督式学习技术的进步,并向无需人类指导的机器智能迈出了重要的一步。
新智元
2020/05/26
2.4K0
华人博士提出原型对比学习,非监督学习效果远超MoCo和SimCLR
基于深度学习的图像目标识别预测 | CV | Tensorflow | Keras
在人工智能研究的大潮中,如何模拟人类对于静态或动态目标的有效识别预测一直是研究热点,通过智能技术实现对于目标特征的学习并对特定目标进行快速识别,预测得出目标识别概率,实现基于深度学习模型在复杂背景、不确定外部干扰下的高精度、实时识别目标,能够保持或者优于有丰富经验人员的识别效果。
用户7623498
2020/08/04
1.5K0
基于深度学习的图像目标识别预测 | CV | Tensorflow | Keras
国科大CVPR 2020论文:自监督学习新方法,让数据更复杂的视频表征学习性能大提升
近年来,自监督表征学习由于无需人工标注,特征较好的泛化性等优势受到了越来越多的关注,并不断有研究在图像、语言等领域取得了较大进展。本论文则立足于数据形式更为复杂的视频表征学习,介绍了一种简单且有效的自监督学习方法,并在视频动作分类和检索这两个常见的目标任务中提升了性能,该论文入选了CVPR2020.
新智元
2020/07/14
1.2K0
国科大CVPR 2020论文:自监督学习新方法,让数据更复杂的视频表征学习性能大提升
【论文解读】基于图的自监督学习联合嵌入预测架构
本文演示了一种学习高度语义的图像表示的方法,而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构(I-JEPA),这是一种用于从图像中进行自监督学习的非生成性方法。I-JEPA背后的idea很简单:从单个上下文块中,预测同一图像中不同目标块的表示。指导I-JEPA产生语义表示的核心设计选择是掩膜策略;具体来说,(a)预测图像中的几个目标块,(b)采样足够大规模的样本目标块(占图像的15%-20%),(c)使用足够丰富的(空间分布)上下文块,是至关重要的。根据经验,当与视觉transformer结合时,论文发现I-JEPA具有高度的可缩放性。例如,论文在ImageNet上使用32个A100 GPU在38小时内训练一个ViT-Huge/16,以在需要不同抽象级别的广泛任务中实现强大的下游性能,从线性分类到对象计数和深度预测。
合合技术团队
2023/08/25
3790
【论文解读】基于图的自监督学习联合嵌入预测架构
推荐阅读
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
3090
ICCV|复杂场景目标检测——科大讯飞等提出X光安检场景下危险品检测基准(已开源)
1.7K0
【机器学习】机器学习引领未来:赋能精准高效的图像识别技术革新
2280
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
9920
基于特征点的图像处理与训练数据优化
1790
华中科技提出 PersonViT | 利用 Mask 图像建模的视觉 Transformer 提升人重识别性能 !
3350
SARChat-2M:首个SAR图像多模态对话数据集,验证VLMs能力,项目即将开源!
2310
红外探测及目标识别(二)
3.2K0
学界 | 弱监督视频物体识别新方法:中国香港科技大学联合CMU提出TD-Graph LSTM
1.3K0
【无监督学习最新研究】简单的「图像旋转」预测,为图像特征学习提供强大监督信号
1.8K0
Nat. Commun. | 俞章盛/张岳团队开发基于组织病理学图像的癌症诊断和生存预测AI基础模型
940
预训练还需要监督信息吗?一文了解无监督训练的优势
7750
AAAI 2024 | 腾讯优图实验室27篇论文入选,含表格结构识别、异常图像生成、医学图像分割等研究方向
1.7K0
基于深度学习的遥感图像地物变化检测综述
2.9K0
学界 | 精细识别现实世界图像:李飞飞团队提出半监督适应性模型
9190
每日学术速递7.29
2080
华人博士提出原型对比学习,非监督学习效果远超MoCo和SimCLR
2.4K0
基于深度学习的图像目标识别预测 | CV | Tensorflow | Keras
1.5K0
国科大CVPR 2020论文:自监督学习新方法,让数据更复杂的视频表征学习性能大提升
1.2K0
【论文解读】基于图的自监督学习联合嵌入预测架构
3790
相关推荐
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档