前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递7.21

每日学术速递7.21

作者头像
AiCharm
发布2023-07-26 21:23:02
2010
发布2023-07-26 21:23:02
举报
文章被收录于专栏:AiCharm
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.DreamTeacher: Pretraining Image Backbones with Deep Generative Models

标题:DreamTeacher:使用深度生成模型预训练图像主干

作者:Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler

文章链接:https://research.nvidia.com/labs/toronto-ai/DreamTeacher/

项目代码:https://arxiv.org/abs/2307.07487

摘要:

在这项工作中,我们引入了一种自监督特征表示学习框架 DreamTeacher,它利用生成网络来预训练下游图像主干。我们建议将经过训练的生成模型中的知识提炼成标准图像主干,这些主干已经针对特定感知任务进行了精心设计。我们研究了两种类型的知识蒸馏:1)将学习到的生成特征蒸馏到目标图像主干上,作为在大型标记数据集(例如 ImageNet)上对这些主干进行预训练的替代方案,2)将从具有任务头的生成网络获得的标签蒸馏到目标主干的逻辑上。我们对多个生成模型、密集预测基准和几种预训练方案进行了广泛的分析。我们凭经验发现,我们的 DreamTeacher 全面优于现有的自我监督表征学习方法。使用 DreamTeacher 进行无监督 ImageNet 预训练比下游数据集上的 ImageNet 分类预训练有了显着改进,特别展示了生成模型和扩散生成模型,作为一种在大型、多样化数据集上进行表示学习的有前景的方法,无需手动注释。

2.Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion Models

标题:使用预先训练的垂直 2D 扩散模型改进 3D 成像

作者:Suhyeon Lee, Hyungjin Chung, Minyoung Park, Jonghyuk Park, Wi-Sun Ryu, Jong Chul Ye

文章链接:https://arxiv.org/abs/2303.08440

项目代码:https://github.com/microsoft/AdaM

摘要:

由于其众多优点,扩散模型已成为图像生成和重建的流行方法。然而,大多数基于扩散的逆问题解决方法仅处理 2D 图像,甚至最近发布的 3D 方法也没有充分利用 3D 分布先验。为了解决这个问题,我们提出了一种新方法,使用两个垂直的预训练 2D 扩散模型来解决 3D 逆问题。通过将 3D 数据分布建模为不同方向切片的 2D 分布的乘积,我们的方法有效地解决了维数灾难。我们的实验结果表明,我们的方法对于 3D 医学图像重建任务非常有效,包括 MRI Z 轴超分辨率、压缩感知 MRI 和稀疏视图 CT。我们的方法可以生成适合医疗应用的高质量体素体积。

3.CoTracker: It is Better to Track Together

标题:CoTracker:一起追踪更好

作者:Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht

文章链接:https://arxiv.org/abs/2307.07635

项目代码:https://co-tracker.github.io/

摘要:

视频运动预测方法要么使用光流联合估计给定视频帧中所有点的瞬时运动,要么独立跟踪整个视频中各个点的运动。即使对于可以通过遮挡跟踪点的强大深度学习方法来说,后者也是如此。例如,单独跟踪点会忽略点之间可能存在的强相关性,因为它们属于同一物理对象,这可能会损害性能。因此,在本文中,我们提出了 CoTracker,一种联合跟踪整个视频中多个点的架构。该架构将光流和跟踪文献中的多种想法结合到一个新的、灵活的和强大的设计中。它基于变压器网络,通过专门的关注层对不同时间点的相关性进行建模。变换器迭代地更新几个轨迹的估计。它可以以滑动窗口的方式应用于很长的视频,为此我们设计了一个展开的训练循环。可以从一个到多个点联合跟踪,并支持随时添加新的点进行跟踪。结果是一种灵活而强大的跟踪算法,在几乎所有基准测试中都优于最先进的方法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档