点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.DreamTeacher: Pretraining Image Backbones with Deep Generative Models
标题:DreamTeacher:使用深度生成模型预训练图像主干
作者:Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler
文章链接:https://research.nvidia.com/labs/toronto-ai/DreamTeacher/
项目代码:https://arxiv.org/abs/2307.07487
摘要:
在这项工作中,我们引入了一种自监督特征表示学习框架 DreamTeacher,它利用生成网络来预训练下游图像主干。我们建议将经过训练的生成模型中的知识提炼成标准图像主干,这些主干已经针对特定感知任务进行了精心设计。我们研究了两种类型的知识蒸馏:1)将学习到的生成特征蒸馏到目标图像主干上,作为在大型标记数据集(例如 ImageNet)上对这些主干进行预训练的替代方案,2)将从具有任务头的生成网络获得的标签蒸馏到目标主干的逻辑上。我们对多个生成模型、密集预测基准和几种预训练方案进行了广泛的分析。我们凭经验发现,我们的 DreamTeacher 全面优于现有的自我监督表征学习方法。使用 DreamTeacher 进行无监督 ImageNet 预训练比下游数据集上的 ImageNet 分类预训练有了显着改进,特别展示了生成模型和扩散生成模型,作为一种在大型、多样化数据集上进行表示学习的有前景的方法,无需手动注释。
2.Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion Models
标题:使用预先训练的垂直 2D 扩散模型改进 3D 成像
作者:Suhyeon Lee, Hyungjin Chung, Minyoung Park, Jonghyuk Park, Wi-Sun Ryu, Jong Chul Ye
文章链接:https://arxiv.org/abs/2303.08440
项目代码:https://github.com/microsoft/AdaM
摘要:
由于其众多优点,扩散模型已成为图像生成和重建的流行方法。然而,大多数基于扩散的逆问题解决方法仅处理 2D 图像,甚至最近发布的 3D 方法也没有充分利用 3D 分布先验。为了解决这个问题,我们提出了一种新方法,使用两个垂直的预训练 2D 扩散模型来解决 3D 逆问题。通过将 3D 数据分布建模为不同方向切片的 2D 分布的乘积,我们的方法有效地解决了维数灾难。我们的实验结果表明,我们的方法对于 3D 医学图像重建任务非常有效,包括 MRI Z 轴超分辨率、压缩感知 MRI 和稀疏视图 CT。我们的方法可以生成适合医疗应用的高质量体素体积。
3.CoTracker: It is Better to Track Together
标题:CoTracker:一起追踪更好
作者:Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht
文章链接:https://arxiv.org/abs/2307.07635
项目代码:https://co-tracker.github.io/
摘要:
视频运动预测方法要么使用光流联合估计给定视频帧中所有点的瞬时运动,要么独立跟踪整个视频中各个点的运动。即使对于可以通过遮挡跟踪点的强大深度学习方法来说,后者也是如此。例如,单独跟踪点会忽略点之间可能存在的强相关性,因为它们属于同一物理对象,这可能会损害性能。因此,在本文中,我们提出了 CoTracker,一种联合跟踪整个视频中多个点的架构。该架构将光流和跟踪文献中的多种想法结合到一个新的、灵活的和强大的设计中。它基于变压器网络,通过专门的关注层对不同时间点的相关性进行建模。变换器迭代地更新几个轨迹的估计。它可以以滑动窗口的方式应用于很长的视频,为此我们设计了一个展开的训练循环。可以从一个到多个点联合跟踪,并支持随时添加新的点进行跟踪。结果是一种灵活而强大的跟踪算法,在几乎所有基准测试中都优于最先进的方法。