点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.TryOnDiffusion: A Tale of Two UNets(CVPR 2023)

标题:TryOnDiffusion:两个 UNet 的故事
作者:Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
文章链接:https://arxiv.org/abs/2306.08276
项目代码:https://tryondiffusion.github.io/



摘要:
给定两张描绘一个人和另一个人穿着的衣服的图像,我们的目标是生成服装在输入人身上看起来的可视化效果。一个关键的挑战是合成服装的逼真细节保留可视化,同时扭曲服装以适应主体的重要身体姿势和形状变化。以前的方法要么侧重于保留服装细节而没有有效的姿势和形状变化,要么允许以所需的形状和姿势试穿但缺少服装细节。在本文中,我们提出了一种基于扩散的架构,它统一了两个 UNet(称为 Parallel-UNet),这使我们能够在单个网络中保留服装细节并扭曲服装以实现显着的姿势和身体变化。Parallel-UNet 背后的关键思想包括:1) 服装通过交叉注意机制隐式变形,2) 服装变形和人物融合作为统一过程的一部分发生,而不是两个独立任务的序列。实验结果表明,TryOnDiffusion 在定性和定量上都达到了最先进的性能。
2. Diffusion Models for Zero-Shot Open-Vocabulary Segmentation

标题:零样本开放词汇分割的扩散模型
作者:Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht
文章链接:https://arxiv.org/abs//2306.09316
项目代码:https://www.robots.ox.ac.uk/~vgg/research/ovdiff/



摘要:
现实世界中的对象种类几乎是无限的,因此不可能使用在一组固定类别上训练的模型来捕捉。因此,近年来,开放式词汇表方法引起了社区的兴趣。本文提出了一种零样本开放式词汇分割的新方法。之前的工作主要依赖于使用图像-文本对的对比训练,利用分组机制来学习与语言一致且本地化良好的图像特征。然而,这可能会引入歧义,因为具有相似说明的图像的视觉外观通常会有所不同。相反,我们利用大规模文本到图像扩散模型的生成属性来对给定文本类别的一组支持图像进行采样。这为给定文本提供了外观分布,从而避免了歧义问题。我们进一步提出了一种机制,该机制考虑采样图像的上下文背景,以更好地定位对象并直接分割背景。我们表明,我们的方法可用于以自然语言为基础的几个现有的预训练自监督特征提取器,并通过映射回支持集中的区域来提供可解释的预测。我们的提议是免训练的,仅依赖预训练的组件,但在一系列开放式词汇分割基准测试中表现出色,在 Pascal VOC 基准测试中领先 10% 以上。
3.Can Language Models Teach Weaker Agents? Teacher Explanations Improve Students via Theory of Mind

标题:语言模型可以教弱代理吗?教师讲解通过心智理论提高学生
作者:Swarnadeep Saha, Peter Hase, Mohit Bansal
文章链接:https://arxiv.org/abs/2306.09299
项目代码:https://github.com/swarnaHub/ExplanationIntervention






摘要:
大型语言模型 (LLM) 通过为其预测生成解释来执行复杂的推理。然而,解释的一个补充目标是也传达有用的知识,以改进较弱的代理。因此,我们调查 LLM 是否也能成为较弱代理的好老师。特别是,我们考虑了两个 LLM 代理之间的学生-教师框架,并研究教师是否、何时以及如何干预自然语言解释以提高学生的表现。由于交流是昂贵的,我们定义了一个预算,这样老师只交流对一小部分数据的解释,之后学生应该自己表现良好。我们沿着四个轴分解教学问题:(1)如果教师的考试时间干预提高了学生的预测,(2)什么时候值得解释一个数据点,(3)教师应该如何个性化解释以更好地教学生,以及( 4)如果教师的解释也能提高学生对未来无法解释的数据的表现。我们首先表明教师 LLM 确实可以干预学生的推理以提高他们的表现。接下来,我们提出了一种心智理论方法,在这种方法中,教师为学生建立了两个小样本心智模型。第一个模型定义了一个干预函数,它模拟干预的效用,允许教师在效用最高时进行干预,并以较低的预算提高学生的表现。第二种模式使教师能够对特定学生进行个性化解释,并胜过非个性化教师。我们还证明,在多轮互动中,教师的解释会泛化,并且从解释的数据中学习可以提高学生在未来无法解释的数据上的表现。最后,我们还验证了未对齐的教师可以通过故意误导他们来降低学生的随机机会表现。

阿里大模型新作VideoComposer | 时间、空间可控的视频生成走进现实


CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架


点击卡片,关注「AiCharm」公众号
喜欢的话,请给我个在看吧!
