1.Global Features are All You Need for Image Retrieval and Reranking(ICCV 2023)

标题:图像检索和重新排名所需的全部功能就是全局特征
作者:Shihao Shao, Kaifeng Chen, Arjun Karpur, Qinghua Cui, Andre Araujo, Bingyi Cao
文章链接:https://arxiv.org/abs/2308.06954
项目代码:https://github.com/ShihaoShao-GH/SuperGlobal









摘要:
图像检索系统通常使用两阶段范例,利用全局特征进行初始检索,利用局部特征进行重新排序。然而,由于重排序阶段的局部特征匹配会产生大量的存储和计算成本,因此该方法的可扩展性通常受到限制。在本文中,我们提出了 SuperGlobal,这是一种在两个阶段专门采用全局特征的新颖方法,在不牺牲准确性的情况下提高了效率。 SuperGlobal 为检索系统引入了关键增强功能,特别关注全局特征提取和重新排序过程。对于提取,我们确定了广泛使用的 ArcFace 损失和广义均值 (GeM) 池化方法相结合时的次优性能,并提出了几个新模块来改进 GeM 池化。在重新排名阶段,我们引入了一种新颖的方法来更新查询和排名靠前的图像的全局特征,只需考虑一小部分图像的特征细化,因此计算和内存效率很高。我们的实验表明,与标准基准测试中的最新技术相比,我们有了显着的改进。值得注意的是,在 Revisited Oxford+1M Hard 数据集上,我们的单阶段结果提高了 7.1%,而我们的两阶段增益达到 3.7%,加速高达 64,865 倍。我们的两级系统比当前最先进的单级系统高出 16.3%,以最小的时间开销为高性能图像检索系统提供可扩展、准确的替代方案。
2.Dense Text-to-Image Generation with Attention Modulation(ICCV 2023)

标题:使用注意力调制的密集文本到图像生成
作者:Yunji Kim, Jiyoung Lee, Jin-Hwa Kim, Jung-Woo Ha, Jun-Yan Zhu
文章链接:https://arxiv.org/abs/2308.12964
项目代码:https://github.com/naver-ai/DenseDiffusion







摘要:
现有的文本到图像扩散模型很难在给定密集字幕的情况下合成逼真的图像,其中每个文本提示都提供特定图像区域的详细描述。为了解决这个问题,我们提出了 DenseDiffusion,这是一种免训练的方法,它采用预先训练的文本到图像模型来处理如此密集的字幕,同时提供对场景布局的控制。我们首先分析生成的图像布局和预训练模型的中间注意力图之间的关系。接下来,我们开发了一种注意力调制方法,根据布局指导引导对象出现在特定区域。无需额外的微调或数据集,我们就可以在自动和人工评估分数的密集标题的情况下提高图像生成性能。此外,我们通过专门训练布局条件的模型实现了类似质量的视觉结果。
3.Flexible Techniques for Differentiable Rendering with 3D Gaussians

标题:使用 3D 高斯进行可微分渲染的灵活技术
作者:Leonid Keselman, Martial Hebert
文章链接:https://arxiv.org/abs/2308.14737
项目代码:https://leonidk.com/fmb-plus/




摘要:
快速、可靠的形状重建是许多计算机视觉应用中的重要组成部分。神经辐射场证明,逼真的新颖视图合成是可以实现的,但受到快速重建真实场景和物体的性能要求的限制。最近的几种方法建立在替代形状表示的基础上,特别是 3D 高斯。我们开发了这些渲染器的扩展,例如集成可微光流、导出防水网格和渲染每光线法线。此外,我们还展示了两种最近的方法如何彼此互操作。这些重建快速、稳健,并且可以在 GPU 或 CPU 上轻松执行。