1.Predicting masked tokens in stochastic locations improves masked image modeling

标题:预测随机位置中的蒙版标记可改进蒙版图像建模
作者:Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
文章链接:https://arxiv.org/abs/2308.00566






摘要:
自监督学习是深度学习中一种有前途的范例,它可以通过构建需要学习有用表示的借口任务来从未标记的数据中进行学习。在自然语言处理中,占主导地位的借口任务是掩码语言建模(MLM),而在计算机视觉中,存在一个等效的任务,称为掩码图像建模(MIM)。然而,MIM 具有挑战性,因为它需要预测准确位置的语义内容。例如,给定一张不完整的狗图片,我们可以猜测有一条尾巴,但我们无法确定它的确切位置。在这项工作中,我们提出了 FlexPredict,这是一种随机模型,通过将位置不确定性纳入模型来解决这一挑战。具体来说,我们将模型置于随机掩码标记位置上,以引导模型学习对位置不确定性更稳健的特征。我们的方法提高了一系列任务的下游性能,例如,与 MIM 基线相比,FlexPredict 使用 ViT-B 将 ImageNet 线性探测提高了 1.6%,将使用 ViT-L 的半监督视频分割提高了 2.5%。
2.PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking

标题:PointOdyssey:用于长期点跟踪的大规模综合数据集
作者:Yang Zheng, Adam W. Harley, Bokui Shen, Gordon Wetzstein, Leonidas J. Guibas
文章链接:https://arxiv.org/abs/2307.15055
项目代码:https://pointodyssey.com/






摘要:
我们引入了 PointOdyssey,一个大规模合成数据集和数据生成框架,用于长期细粒度跟踪算法的训练和评估。我们的目标是通过强调具有自然运动的长视频来推进最先进的技术。为了实现自然主义的目标,我们使用真实世界的动作捕捉数据来制作可变形角色的动画,我们构建 3D 场景来匹配动作捕捉环境,并使用通过真实视频上的运动结构挖掘的轨迹来渲染摄像机视点。我们通过随机化角色外观、运动轮廓、材质、照明、3D 资产和大气效果来创建组合多样性。我们的数据集目前包括 104 个视频,平均长度为 2,000 帧,对应注释比之前的工作多了几个数量级。我们证明现有方法可以在我们的数据集中从头开始训练,并且优于已发布的变体。最后,我们对 PIPs 点跟踪方法进行了修改,大大拓宽了其时间感受野,从而提高了其在 PointOdyssey 以及两个现实世界基准上的性能。
3.AnyLoc: Towards Universal Visual Place Recognition

标题:AnyLoc:迈向通用视觉地点识别
作者:Nikhil Keetha, Avneesh Mishra, Jay Karhade, Krishna Murthy Jatavallabhula, Sebastian Scherer, Madhava Krishna, Sourav Garg
文章链接:https://anyloc.github.io/
项目代码:https://anyloc.github.io/







摘要:
视觉位置识别 (VPR) 对于机器人定位至关重要。迄今为止,性能最好的 VPR 方法是特定于环境和任务的:虽然它们在结构化环境(主要是城市驾驶)中表现出强大的性能,但它们的性能在非结构化环境中严重下降,使得大多数方法在实际部署中变得脆弱。在这项工作中,我们开发了一种通用的 VPR 解决方案——一种适用于各种结构化和非结构化环境(城市、户外、室内、空中、水下和地下环境)的技术,无需任何重新训练或微调。我们证明,源自现成的自我监督模型(没有针对 VPR 的训练)的通用特征表示是构建这种通用 VPR 解决方案的正确基础。将这些派生特征与无监督特征聚合相结合,使我们的方法套件 AnyLoc 能够实现比现有方法高出 4 倍的性能。通过表征这些特征的语义属性,发现封装来自相似环境的数据集的独特域,我们进一步获得了 6% 的性能提升。我们详细的实验和分析为构建可随时随地、跨任何视图部署的 VPR 解决方案奠定了基础。我们鼓励读者探索我们的项目页面和交互式演示:此 https URL。
AI辅助代码神器Copilot大升级,80%代码秒生成!动嘴编码5年内成真


Attention机制竟有bug?Softmax是罪魁祸首,影响所有Transformer

