1.RICO: Regularizing the Unobservable for Indoor Compositional Reconstruction(ICCV 2023)

标题:RICO:规范不可观察的室内构图重建
作者:Zizhang Li, Xiaoyang Lyu, Yuanyuan Ding, Mengmeng Wang, Yiyi Liao, Yong Liu
文章链接:https://rl-at-scale.github.io/assets/rl_at_scale.pdf
项目代码:https://rl-at-scale.github.io/








摘要:
最近,神经隐式曲面在多视图重建中变得很流行。为了促进场景编辑和操作等实际应用,一些作品通过输入语义掩模来扩展框架,用于对象组合重建而不是整体视角。尽管实现了合理的解缠结,但在处理通常只能部分观察到物体的室内场景时,性能会显着下降。我们建议 RICO 通过规范室内构图重建的不可观察区域来解决这个问题。我们的关键思想是首先对被遮挡背景的平滑度进行正则化,然后根据对象与背景的关系指导不可观察区域中的前景对象重建。特别是,我们规范了被遮挡背景块的几何平滑度。通过改进的背景表面,可以优化对象的符号距离函数和反向渲染的深度,以将它们限制在背景范围内。大量实验表明,我们的方法在合成和真实室内场景上优于其他方法,并证明了所提出的正则化的有效性。
2.Zero-shot Image-to-Image Translation(CVPR 2023)

标题:零样本图像到图像转换
作者:Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, Jun-Yan Zhu
文章链接:https://arxiv.org/abs/2302.03027
项目代码:https://pix2pixzero.github.io/








摘要:
大规模文本到图像生成模型已经显示出其合成多样化和高质量图像的卓越能力。然而,由于两个原因,直接应用这些模型来编辑真实图像仍然具有挑战性。首先,用户很难想出一个完美的文本提示来准确描述输入图像中的每个视觉细节。其次,虽然现有模型可以在某些区域引入所需的变化,但它们通常会极大地改变输入内容并在不需要的区域引入意想不到的变化。在这项工作中,我们提出了 pix2pix-zero,一种图像到图像的转换方法,可以保留原始图像的内容而无需手动提示。我们首先自动发现反映文本嵌入空间中所需编辑的编辑方向。为了保留编辑后的一般内容结构,我们进一步提出了交叉注意指导,其目的是在整个扩散过程中保留输入图像的交叉注意图。此外,我们的方法不需要对这些编辑进行额外的训练,可以直接使用现有的预先训练的文本到图像扩散模型。我们进行了广泛的实验,并表明我们的方法在真实和合成图像编辑方面都优于现有和并发的工作。
3.ConceptLab: Creative Generation using Diffusion Prior Constraints

标题:ConceptLab:使用扩散先验约束的创意生成
作者:Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
文章链接:https://arxiv.org/abs/2308.02669
项目代码:https://kfirgoldberg.github.io/ConceptLab/






摘要:
最近的文本到图像生成模型使我们能够将文字转化为充满活力、迷人的图像。随之而来的个性化技术的激增也让我们能够在新场景中想象出独特的概念。然而,一个有趣的问题仍然存在:我们如何才能产生一个以前从未见过的新的、想象的概念?在本文中,我们提出了创造性文本到图像生成的任务,我们寻求生成一个广泛类别的新成员(例如,生成与所有现有宠物不同的宠物)。我们利用尚未充分研究的扩散先验模型,并表明创意生成问题可以表述为扩散先验输出空间的优化过程,从而产生一组“先验约束”。为了防止我们生成的概念收敛到现有成员中,我们采用了一个问答模型,该模型自适应地向优化问题添加新的约束,鼓励模型发现越来越多的独特创作。最后,我们表明,我们的先验约束也可以充当强大的混合机制,使我们能够在生成的概念之间创建混合,从而为创作过程引入更多的灵活性。