CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Power by Kimi&苏神 编辑丨AiCharm
Subjects: cs.CV
1.Target-Aware Video Diffusion Models
标题: 目标感知视频传播模型
作者:Taeksoo Kim, Hanbyul Joo
文章链接:https://arxiv.org/abs/2503.18950
项目代码:https://taeksuu.github.io/tavid/
摘要:
我们提出了一个目标感知视频扩散模型,该模型从输入图像生成视频,其中演员在执行所需动作时与指定目标进行交互。目标由分割掩码定义,所需动作通过文本提示描述。与现有的可控图像到视频扩散模型不同,这些模型通常依赖密集的结构或运动线索来引导演员向目标移动,而我们的目标感知模型只需要一个简单的掩码来指示目标,利用预训练模型的泛化能力来产生合理的动作。这使得我们的方法对于人机交互 (HOI) 场景特别有效,在这些场景中提供精确的动作指导具有挑战性,并且进一步使得视频扩散模型可用于机器人等应用中的高级动作规划。我们通过扩展基线模型以将目标掩码作为附加输入来构建我们的目标感知模型。为了增强目标感知,我们引入了一个特殊的标记,该标记在文本提示中对目标的空间信息进行编码。然后,我们使用一种新颖的交叉注意力损失函数,利用我们精心挑选的数据集对模型进行微调,该损失函数将与此标记相关联的交叉注意力图与输入目标掩码对齐。为了进一步提高性能,我们有选择地将此损失函数应用于语义上最相关的 Transformer 块和注意力区域。实验结果表明,我们的目标感知模型在生成演员与指定目标准确互动的视频方面优于现有解决方案。我们进一步证明了它在两个下游应用中的有效性:视频内容创建和零镜头 3D HOI 运动合成。
这篇论文试图解决什么问题?
这篇论文提出了一种名为“Target-Aware Video Diffusion Models”的方法,旨在解决如何从输入图像生成视频,使其中的演员(actor)能够与指定的目标(target)进行准确的交互。具体来说,该方法试图解决以下问题:
- 精确的演员与目标交互:现有的可控图像到视频扩散模型在通过文本描述引导演员对目标进行特定动作时存在挑战,常常无法准确地与指定目标进行交互,而是产生了一些不相关的幻觉内容(hallucination)。例如,模型可能会生成与文本提示语义相关的视频,但无法确保演员与目标之间的准确交互。
- 简化交互控制流程:以往的方法通常依赖于密集的结构或运动线索(如深度图、边缘信息、光流等)来指导演员的运动,这些方法虽然能够实现精确的控制,但在演员与目标交互的场景中,提供这些结构化动作指导并不容易。因此,作者希望简化这一流程,仅通过一个简单的目标分割掩码来指示目标,利用预训练模型的泛化能力来生成合理的动作。
- 高级动作规划的应用:作者还希望利用视频扩散模型的生成能力来进行高级动作规划,例如在机器人技术中,为机器人提供合理的交互线索,使其能够在当前场景中推断出合理的动作。
总的来说,这篇论文的目标是开发一种能够生成演员与指定目标进行准确交互视频的模型,同时简化控制流程,并探索其在视频内容创作和机器人动作规划等领域的应用。
论文如何解决这个问题?
论文通过以下步骤来解决如何从输入图像生成视频,使其中的演员与指定目标进行准确交互的问题:
1. 扩展基线模型以接受目标掩码
- 输入扩展:作者扩展了一个基础的图像到视频扩散模型(CogVideoX [93]),使其能够接受一个额外的输入——目标的二值分割掩码。这个掩码用于在生成过程中提供目标的空间信息。
- 具体操作:将目标掩码下采样并与输入图像的潜在编码在通道维度上进行拼接,然后通过一个扩展的图像投影层将其与文本嵌入维度对齐。
2. 引入特殊标记以编码目标信息
- 文本提示增强:在训练数据的文本提示中添加了一个特殊的标记
[TGT]
,用于描述目标对象。例如,将提示从“人与目标对象互动”改为“人与 [TGT] 目标对象互动”。 - 作用:这个特殊标记
[TGT]
用于在模型的文本提示中明确指示目标对象,以便模型能够更好地理解目标的位置和作用。
3. 提出交叉注意力损失以增强目标意识
- 交叉注意力损失:作者引入了一种新的交叉注意力损失函数,该函数通过最小化
[TGT]
标记的交叉注意力图与输入目标掩码之间的均方误差,强制模型将 [TGT]
标记的注意力集中在目标对象上。 - 损失函数:交叉注意力损失函数定义为:Lattn=E[∥A(zt0,[TGT])−M∥22]Lattn=E[‖A(z0t,[TGT])−M‖22]
其中,A(zt0,[TGT])A(z0t,[TGT]) 表示视频第一帧的潜在噪声与
[TGT]
标记之间的交叉注意力权重,MM 是目标掩码。 - 选择性应用损失:为了提高效率和效果,作者选择性地将交叉注意力损失应用于模型中特定的 Transformer 块和交叉注意力区域。具体来说,他们选择了能够最好地捕获语义细节的 Transformer 块(第 5 到 23 块),并将损失应用于视频到文本(V2T)交叉注意力区域,因为这些区域直接影响视频潜在表示。
4. 构建专门的数据集进行训练
- 数据集构建:为了训练目标感知模型,作者构建了一个专门的视频数据集,这些视频满足以下两个条件:初始帧显示演员存在但尚未与目标互动,后续帧捕捉演员与目标的互动。
- 掩码和提示生成:使用现成的分割模型为初始帧中的目标对象生成掩码,并使用 CogVLM2-Caption [93] 生成文本提示。
5. 下游应用展示
- 视频内容创作:作者展示了如何将目标感知视频扩散模型应用于视频内容创作。通过结合视频插值技术和目标感知模型,用户可以生成包含导航和与目标互动的长视频内容。
- 零样本 3D HOI 运动合成:作者还展示了如何利用目标感知模型进行零样本 3D 人类-物体交互(HOI)运动合成。通过从生成的视频中提取 3D 人体姿态,并使用基于物理的模仿学习,可以训练出在 Isaac Gym 模拟器中模仿合理 HOI 人类运动的策略。
通过上述步骤,论文提出的方法能够在仅使用目标掩码和文本提示的情况下,生成演员与指定目标进行准确交互的视频,同时简化了交互控制流程,并展示了其在视频内容创作和机器人动作规划等领域的应用潜力
论文做了哪些实验?
论文中进行了以下实验来验证所提出的目标感知视频扩散模型(Target-Aware Video Diffusion Models)的有效性和性能:
1. 定性评估(Qualitative Evaluation)
- 目标对齐(Target Alignment):
- 与基线方法的比较:展示了使用不同方法生成的视频,比较了在目标对齐方面的表现。结果表明,基线方法(如CogVideoX [93])常常会幻化目标,而不是与输入图像中的实际目标进行交互,而目标感知模型能够准确地生成演员与指定目标的交互。
- 与拖拽基方法的比较:与DragDiffusion [70]和Go-with-the-Flow [11]等拖拽基编辑方法进行了比较。这些方法需要额外的用户输入,而目标感知模型仅使用目标掩码就能生成准确且真实的交互。
- 多个相同类型目标:在场景中存在多个相同类型的目标时,目标感知模型能够通过使用目标掩码精确地选择和操纵指定的目标。
- 非人类交互:展示了模型在非人类主体(如兔子、狗)与目标交互时的泛化能力。
- 同时控制演员和目标:扩展模型以接受两个分割掩码(分别表示演员和目标),并通过在文本提示中添加两个特殊标记([SRC]和[TGT])来同时控制演员和目标。
2. 定量评估(Quantitative Evaluation)
- 目标对齐和视频质量:
- 接触分数(Contact Score):使用接触检测器 [60] 检测生成视频中每帧的人体-物体接触区域,如果检测到的接触区域与目标掩码至少在一个帧中重叠,则认为交互是准确的。结果表明,目标感知模型在接触分数上显著优于基线方法。
- 用户研究(User Study):进行了两种类型的用户研究,以评估目标对齐的有效性。一种是让用户评估生成视频是否准确地展示了演员与目标的交互;另一种是让用户在目标感知模型生成的视频和基线方法生成的视频之间选择更准确的交互。结果表明,用户更倾向于选择目标感知模型生成的视频。
- 视频质量评估:使用VBench [35] 的评估指标,包括主体一致性(SS)、背景一致性(BC)、动态程度(DD)、运动平滑度(MS)、审美质量(AQ)和成像质量(IQ),来评估生成视频的整体质量。结果表明,目标感知模型在生成质量上没有显著下降,同时在目标对齐方面表现更好。
3. 消融研究(Ablation Studies)
- 交叉注意力损失在选择性块上的应用:
- 随机块:在每个训练步骤中随机选择七个块应用交叉注意力损失。
- 等间距块:选择七个等间距的块应用交叉注意力损失。
- 选择性块:使用论文提出的方法选择七个块应用交叉注意力损失。结果表明,选择性块方法在目标对齐方面表现更好。
- 交叉注意力损失在选择性区域上的应用:
- 文本到视频(T2V)交叉注意力区域:将交叉注意力损失应用于T2V交叉注意力区域。
- 视频到文本(V2T)交叉注意力区域:将交叉注意力损失应用于V2T交叉注意力区域。
- 两种交叉注意力区域:同时将交叉注意力损失应用于T2V和V2T交叉注意力区域。结果表明,将损失应用于V2T交叉注意力区域在目标对齐方面更为有效。
- 交叉注意力损失权重的影响:
- 不同权重值:分析了不同交叉注意力损失权重(λattn = 0.0, 0.05, 0.1, 1.0)对目标对齐和视频质量的影响。结果表明,当λattn = 0.1时,模型在目标对齐方面表现最好,同时视频质量没有显著下降。
4. 下游应用(Downstream Applications)
- 视频内容创作:
- 导航场景:通过插值两个关键帧(其中每个关键帧都是通过将演员放置在期望位置生成的)来实现导航动作。
- 与目标对象交互:通过指定目标对象的掩码并使用目标感知模型生成真实的交互场景。
- 零样本3D HOI运动合成:
- 从生成的视频中提取3D人体姿态:使用现成的3D人体姿态估计器从目标感知模型生成的视频中提取3D人体运动。
- 基于物理的模仿学习:使用提取的3D人体姿态进行基于物理的模仿学习,以训练在Isaac Gym模拟器中模仿合理HOI人类运动的策略。
这些实验全面验证了目标感知视频扩散模型在生成演员与指定目标进行准确交互的视频方面的优势,并展示了其在视频内容创作和机器人动作规划等领域的应用潜力。
论文的主要内容:
本文提出了一种目标感知视频扩散模型(Target-Aware Video Diffusion Models),旨在从输入图像生成视频,使其中的演员能够与指定目标进行准确的交互。该模型通过以下创新点和方法实现了这一目标:
研究背景
- 问题:现有的可控图像到视频扩散模型在通过文本描述引导演员对目标进行特定动作时存在挑战,常常无法准确地与指定目标进行交互,而是产生了一些不相关的幻觉内容。
- 动机:简化交互控制流程,仅通过一个简单的目标分割掩码来指示目标,利用预训练模型的泛化能力来生成合理的动作,并探索其在视频内容创作和机器人动作规划等领域的应用。
方法
- 扩展基线模型以接受目标掩码:
- 将目标掩码作为额外输入,扩展了基础的图像到视频扩散模型(CogVideoX [93]),使其能够接受目标的二值分割掩码。
- 将目标掩码下采样并与输入图像的潜在编码在通道维度上进行拼接,然后通过一个扩展的图像投影层将其与文本嵌入维度对齐。
- 引入特殊标记以编码目标信息:
- 在训练数据的文本提示中添加了一个特殊的标记
[TGT]
,用于描述目标对象,例如“人与 [TGT] 目标对象互动”。 - 这个特殊标记
[TGT]
用于在模型的文本提示中明确指示目标对象,以便模型能够更好地理解目标的位置和作用。
- 提出交叉注意力损失以增强目标意识:
- 引入了一种新的交叉注意力损失函数,通过最小化
[TGT]
标记的交叉注意力图与输入目标掩码之间的均方误差,强制模型将 [TGT]
标记的注意力集中在目标对象上。 - 选择性地将交叉注意力损失应用于模型中特定的 Transformer 块和交叉注意力区域,以提高效率和效果。
- 构建专门的数据集进行训练:
- 构建了一个专门的视频数据集,这些视频满足以下两个条件:初始帧显示演员存在但尚未与目标互动,后续帧捕捉演员与目标的互动。
- 使用现成的分割模型为初始帧中的目标对象生成掩码,并使用 CogVLM2-Caption [93] 生成文本提示。
实验
- 定性评估:
- 展示了使用不同方法生成的视频,比较了在目标对齐方面的表现。结果表明,目标感知模型能够准确地生成演员与指定目标的交互。
- 与拖拽基编辑方法(如 DragDiffusion [70] 和 Go-with-the-Flow [11])进行了比较,目标感知模型仅使用目标掩码就能生成准确且真实的交互。
- 在场景中存在多个相同类型的目标时,目标感知模型能够通过使用目标掩码精确地选择和操纵指定的目标。
- 展示了模型在非人类主体(如兔子、狗)与目标交互时的泛化能力。
- 扩展模型以接受两个分割掩码(分别表示演员和目标),并通过在文本提示中添加两个特殊标记([SRC] 和 [TGT])来同时控制演员和目标。
- 定量评估:
- 使用接触检测器 [60] 检测生成视频中每帧的人体-物体接触区域,计算接触分数(Contact Score),结果表明目标感知模型在接触分数上显著优于基线方法。
- 进行了两种类型的用户研究,以评估目标对齐的有效性。用户更倾向于选择目标感知模型生成的视频。
- 使用 VBench [35] 的评估指标,包括主体一致性(SS)、背景一致性(BC)、动态程度(DD)、运动平滑度(MS)、审美质量(AQ)和成像质量(IQ),来评估生成视频的整体质量。结果表明,目标感知模型在生成质量上没有显著下降,同时在目标对齐方面表现更好。
- 消融研究:
- 分析了不同交叉注意力损失权重(λattn = 0.0, 0.05, 0.1, 1.0)对目标对齐和视频质量的影响,结果表明当 λattn = 0.1 时,模型在目标对齐方面表现最好,同时视频质量没有显著下降。
- 选择性地将交叉注意力损失应用于特定的 Transformer 块和交叉注意力区域,结果表明选择性块和区域方法在目标对齐方面表现更好。
下游应用
- 视频内容创作:
- 通过插值两个关键帧(其中每个关键帧都是通过将演员放置在期望位置生成的)来实现导航动作。
- 通过指定目标对象的掩码并使用目标感知模型生成真实的交互场景。
- 零样本 3D HOI 运动合成:
- 从生成的视频中提取 3D 人体姿态,使用现成的 3D 人体姿态估计器。
- 使用基于物理的模仿学习,训练在 Isaac Gym 模拟器中模仿合理 HOI 人类运动的策略。
结论
本文提出的目标感知视频扩散模型在生成演员与指定目标进行准确交互的视频方面表现出色,同时简化了交互控制流程,并展示了其在视频内容创作和机器人动作规划等领域的应用潜力。
2.Aether: Geometric-Aware Unified World Modeling
标题: Aether:几何感知统一世界建模
作者:Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
文章链接:https://arxiv.org/abs/2503.18945
项目代码:https://aether-world.github.io/
摘要:
几何重建与生成建模的整合仍然是开发具有类似人类空间推理能力的人工智能系统的关键挑战。本文提出了一个统一的框架 Aether,通过联合优化三个核心功能,实现世界模型中的几何感知推理:(1)4D 动态重建、(2)动作条件视频预测和(3)目标条件视觉规划。通过任务交错的特征学习,Aether 实现了重建、预测和规划目标之间的协同知识共享。基于视频生成模型,我们的框架展示了前所未有的从合成到真实的泛化,尽管在训练期间从未观察过真实世界的数据。此外,由于其内在的几何建模,我们的方法在动作跟随和重建任务中实现了零样本泛化。值得注意的是,即使没有真实世界的数据,它的重建性能也与领域特定模型相当甚至更好。此外,Aether 使用相机轨迹作为几何信息动作空间,实现有效的动作条件预测和视觉规划。我们希望我们的工作能够激励社区探索物理合理世界建模及其应用的新领域。
这篇论文试图解决什么问题?
这篇论文提出了一个名为AETHER的统一框架,旨在解决将几何重建和生成建模相结合的挑战,以实现类似人类的空间推理能力。具体而言,AETHER通过联合优化三个核心能力来实现几何感知的世界模型:4D动态重建、基于动作的视频预测以及目标条件的视觉规划。该框架通过跨任务的特征学习实现知识共享,从而在重建、预测和规划目标之间实现协同优化。此外,AETHER仅在合成数据上进行训练,却能够实现从合成数据到真实数据的泛化,并在动作跟随和重建任务中实现零样本泛化。
论文如何解决这个问题?
论文通过以下几个关键步骤来解决将几何重建和生成建模相结合的问题,以实现类似人类的空间推理能力:
1. 提出AETHER框架
AETHER是一个统一框架,通过联合优化三个核心能力来实现几何感知的世界模型:
- 4D动态重建:从视频序列中估计深度和相机姿态。
- 基于动作的视频预测:根据初始观测图像和相机轨迹动作预测未来视频帧。
- 目标条件的视觉规划:根据观测图像和目标图像规划最优动作序列。
2. 合成数据标注流程
为了解决4D数据稀缺的问题,论文提出了一种自动化的4D合成数据标注流程,包括以下几个阶段:
- 动态掩码:使用语义类别区分动态和静态区域,确保相机参数估计的准确性。
- 视频切片:通过去除不适合的视频片段(如场景切换或运动模糊帧)来提高重建质量,并将长视频分割成较短的、时间上连贯的片段。
- 粗略相机估计:使用深度信息从静态区域进行粗略的相机参数估计。
- 相机精炼:通过最先进的跟踪器和光束调整来优化相机参数,确保高精度的相机姿态估计。
3. 多任务世界模型
AETHER基于预训练的视频扩散模型(如CogVideoX-5b-I2V[^77^]),通过后训练(post-training)将其转化为一个统一的多任务世界模型。具体方法如下:
- 输入处理:将深度视频转换为尺度不变的归一化视差表示,将相机轨迹编码为尺度不变的射线图序列表示。
- 训练策略:通过随机组合输入和输出模态,将基础视频生成模型转化为具有重建、预测和规划能力的统一多任务世界模型。
- 损失函数:在训练过程中,使用均方误差(MSE)作为主要损失函数,并在第二阶段引入多尺度结构相似性(MS-SSIM)损失、尺度和移不变损失以及点图损失,以提高生成质量和几何一致性。
4. 实验验证
论文通过一系列实验验证了AETHER的性能:
- 零样本视频深度估计:AETHER在Sintel[^6^]、BONN[^44^]和KITTI[^21^]数据集上取得了与现有方法相当或更好的性能。
- 零样本相机姿态估计:AETHER在Sintel[^6^]、TUM Dynamics[^58^]和ScanNet[^10^]数据集上表现出色,与专门的重建方法相比具有竞争力。
- 视频预测:AETHER在有无动作条件的视频预测任务中均优于CogVideoX,特别是在外域数据上表现出更好的泛化能力。
- 视觉规划:AETHER在目标条件的导航任务中优于AETHER-no-depth模型,证明了重建目标在生成模型中的重要性。
5. 结论与局限性
AETHER通过将几何重建和生成建模相结合,实现了从合成数据到真实数据的零样本泛化,并在多个任务中取得了优异的性能。然而,论文也指出了AETHER的一些局限性,如相机姿态估计的准确性有待提高,室内场景重建性能不如室外场景,以及在高度动态场景中无语言提示的预测能力不足。未来的工作可以探索新的动作表示方法,与真实世界数据共同训练,并保留基础模型的语言提示能力。
论文做了哪些实验?
论文中进行了以下几类实验来验证AETHER框架的性能和有效性:
1. 零样本视频深度估计(Zero-Shot Video Depth Estimation)
- 实验目的:验证AETHER在从未见过的真实世界数据上进行视频深度估计的能力。
- 实验设置:使用Sintel[^6^]、BONN[^44^]和KITTI[^21^]数据集进行评估。采用绝对相对误差(Abs Rel)和δ < 1.25(预测深度在真实深度1.25倍范围内的百分比)作为评估指标。
- 实验结果:
- 在Sintel数据集上,AETHER的Abs Rel为0.324,δ < 1.25为50.2%,优于或与现有的重建方法(如MonST3R-GA[^82^])相当。
- 在KITTI数据集上,AETHER的Abs Rel为0.056,δ < 1.25为97.8%,超越了现有的最先进方法CUT3R[^65^]。
- 在BONN数据集上,AETHER的Abs Rel为0.308,δ < 1.25为60.2%,表现优于ChronoDepth[^55^]、DepthCrafter[^29^]和DA-V[^74^]等扩散模型。
2. 零样本相机姿态估计(Zero-Shot Camera Pose Estimation)
- 实验目的:验证AETHER在从未见过的真实世界数据上进行相机姿态估计的能力。
- 实验设置:使用Sintel[^6^]、TUM Dynamics[^58^]和ScanNet[^10^]数据集进行评估。报告绝对平移误差(ATE)、相对平移误差(RPE Trans)和相对旋转误差(RPE Rot)。
- 实验结果:
- 在Sintel数据集上,AETHER的ATE为0.189,RPE Trans为0.054,RPE Rot为0.694,优于或与现有的优化方法(如Particle-SfM[^86^])和前馈方法(如CUT3R[^65^])相当。
- 在TUM Dynamics数据集上,AETHER的RPE Trans为0.012,表现优于其他方法。
3. 视频预测(Video Prediction)
- 实验目的:验证AETHER在有无动作条件下的视频预测能力。
- 实验设置:构建了一个包含93个内域场景和43个外域场景的验证集。使用VBench[^30^]评估指标,包括主体一致性、背景一致性、运动平滑性、动态程度、审美质量和成像质量。
- 实验结果:
- 无动作条件:AETHER在内域和外域数据上的表现均优于CogVideoX。例如,在外域数据上,AETHER的加权平均得分为80.04,而CogVideoX为77.52。
- 有动作条件:AETHER在内域和外域数据上的表现均优于CogVideoX。例如,在外域数据上,AETHER的加权平均得分为81.55,而CogVideoX为80.70。
4. 视觉规划(Visual Planning)
- 实验目的:验证AETHER在目标条件下的视觉规划能力。
- 实验设置:构建了一个包含80个内域场景和40个外域场景的验证集。对于有动作条件的任务,使用像素级评估指标(PSNR、SSIM、MS-SSIM和LPIPS);对于无动作条件的任务,使用VBench评估指标。
- 实验结果:
- 有动作条件:AETHER在内域和外域数据上的表现均优于AETHER-no-depth模型。例如,在外域数据上,AETHER的PSNR为19.37,SSIM为0.5058,MS-SSIM为0.5627,LPIPS为0.2599。
- 无动作条件:AETHER在内域和外域数据上的表现均优于AETHER-no-depth模型。例如,在外域数据上,AETHER的加权平均得分为81.53,而AETHER-no-depth为80.43。
5. 附加实验
- 实验目的:验证AETHER在真实世界数据上的泛化能力。
- 实验设置:使用完全在野外拍摄的数据进行定性评估。
- 实验结果:提供了AETHER在真实世界数据上的视觉规划和视频预测的定性结果,展示了其在未见过的真实场景中的泛化能力。
这些实验结果表明,AETHER在多个任务上均展现出优越的性能,验证了其在几何感知世界建模中的有效性。
论文的主要内容:论文提出了一种名为AETHER的统一框架,旨在通过联合优化三个核心能力——4D动态重建、基于动作的视频预测和目标条件的视觉规划——来实现几何感知的世界建模。AETHER基于预训练的视频扩散模型,并通过后训练在合成数据上进行优化。该框架通过自动化的4D合成数据标注流程,将深度视频和相机轨迹转化为适合模型输入的格式,并采用多任务学习策略,实现了从合成数据到真实数据的零样本泛化。实验结果表明,AETHER在多个任务上均展现出优越的性能,包括零样本视频深度估计、相机姿态估计、视频预测和视觉规划。尽管AETHER在某些方面表现出色,但仍有改进空间,如动作表示的改进、真实世界数据的融合、语言提示能力的恢复等。
3.Tuning-Free Amodal Segmentation via the Occlusion-Free Bias of Inpainting Models
标题: 通过修复模型的无遮挡偏差实现无调节无模态分割
作者:Jae Joong Lee, Bedrich Benes, Raymond A. Yeh
文章链接:https://arxiv.org/abs/2304.06018
摘要:
非模态分割旨在预测物体可见区域和遮挡区域的分割掩码。大多数现有研究将此视为监督学习问题,需要手动注释的非模态掩码或合成训练数据。因此,它们的性能取决于数据集的质量,而数据集通常缺乏多样性和规模。这项工作引入了一种无需调整的方法,该方法将预训练的基于扩散的修复模型重新用于非模态分割。我们的方法受到修复模型的“无遮挡偏差”的启发,即修复的对象往往是没有遮挡的完整对象。具体而言,我们通过修复重建物体的遮挡区域,然后应用分割,所有这些都无需额外的训练或微调。在五个数据集上进行的实验证明了我们方法的通用性和稳健性。平均而言,我们的方法比最先进的方法实现了 5.3% 更准确的掩码。
这篇论文试图解决什么问题?
这篇论文试图解决无调优(tuning-free)的非模态(amodal)分割问题。非模态分割的目标是预测物体的分割掩码,包括可见部分和被遮挡部分。现有的大多数方法将这一任务视为监督学习问题,需要手动标注的非模态掩码或合成训练数据。然而,这些方法的性能依赖于数据集的质量,而现有的数据集往往缺乏多样性和规模。
为了解决这些问题,论文提出了一种无需额外训练或微调的方法,通过利用预训练的基于扩散模型的修复(inpainting)模型来实现非模态分割。该方法的核心思想是利用修复模型的“无遮挡偏好”(occlusion-free bias),即修复模型倾向于生成完整的、没有遮挡的物体。具体来说,通过在扩大的模态掩码上进行修复,然后应用分割方法来提取非模态掩码,从而实现无需额外训练的非模态分割。
论文如何解决这个问题?
论文提出了一种无调优(tuning-free)的方法,通过利用预训练的基于扩散模型的修复(inpainting)模型来解决非模态分割问题。该方法的核心思想是利用修复模型的“无遮挡偏好”(occlusion-free bias),即修复模型倾向于生成完整的、没有遮挡的物体。具体步骤如下:
1. 问题定义
给定一个物体的图像 II 和对应的可见(模态)掩码 VV,任务是预测该物体的非模态掩码 A^A^,该掩码覆盖整个物体,包括被遮挡的区域。
2. 方法概述
- 利用修复模型:通过在扩大的模态掩码上进行修复,然后应用分割方法(例如 SAM [21])来提取非模态掩码 A^A^。
- 关键组件:该方法涉及几个新颖的组件,包括背景合成的上下文感知方法、图像的噪声处理以及模态掩码的构建过程。
3. 修复过程
- 泄漏修复(Leakage Inpainting):为了使修复模型能够生成与当前场景上下文相关的被遮挡部分,论文提出了一种“泄漏”(leakage)技术。在标准的扩散采样修复过程中,进一步将原始未遮挡的条件图像 xx 泄露给模型。具体公式为:x^t=s⋅(M⊙x~t+(1−M)⊙xt)+(1−s)⋅xtx^t=s⋅(M⊙x~t+(1−M)⊙xt)+(1−s)⋅xt
其中,ss 控制泄漏的强度,MM 是修复区域掩码,⊙⊙ 表示逐元素乘法。通过设置 s=0.3s=0.3,平衡了图像上下文的保留程度。
- 条件图像的设计:为了使模型专注于可见部分而不是背景,论文设计了一种条件图像 xx,其对象像素和背景像素分别处理:
- 对象像素:通过在对象像素上添加噪声来生成对象像素 xobjxobj,类似于 [4, 33] 中的方法:xobj=(s⋅ϵ+(1−s)⋅I)xobj=(s⋅ϵ+(1−s)⋅I)
其中,ϵ∼N(0,I)ϵ∼N(0,I) 且 s=0.3s=0.3。
- 背景像素:为了避免因背景与对象颜色对比度过高而导致的问题,论文通过从对象的可见像素构建颜色直方图,根据直方图频率采样背景像素 xbckxbck,并应用高斯模糊来生成平滑的背景。
- 修复区域的设计:从可见掩码 VV 中提取轮廓,将所有轮廓合并为一个区域,并找到能够包围所有轮廓的最小凸多边形 CnvxHullCnvxHull。最终的修复区域 MM 为:M={1,0,if (x,y)∈CnvxHull(∑i=1Ci)otherwiseM={1,if (x,y)∈CnvxHull(∑i=1Ci)0,otherwise
使用分类器自由引导(classifier-free guidance)技术,允许模型在生成过程中有一定的自由度,以生成与修复区域形状不完全一致的新像素信息。
4. 实验验证
- 数据集:论文在五个不同的非模态分割数据集上进行了实验,包括 COCOA [62]、BSDS-A [61]、KINS [37]、FishBowl [45] 和 SAILVOS [18]。
- 性能指标:使用平均交并比(mIoU)来评估预测的非模态掩码的准确性。
- 结果:在所有数据集上,该方法均优于或接近现有的最佳方法 pix2gestalt [34],平均 mIoU 提高了 5.3%。此外,该方法在计算效率上也优于 pix2gestalt,具有更快的推理速度和更低的显存需求。
5. 总结
通过利用预训练的扩散修复模型的“无遮挡偏好”,论文提出了一种无调优的非模态分割方法。该方法通过精心设计修复过程、条件图像和修复区域,实现了高质量的非模态掩码生成,并在多个数据集上验证了其有效性和鲁棒性。
论文做了哪些实验?
论文进行了广泛的实验,以验证所提出的无调优非模态分割方法的有效性和泛化能力。以下是实验的主要内容和结果:
实验设置
- 数据集:论文在五个不同的非模态分割数据集上进行了实验,包括:
- COCOA [62]:基于 COCO 数据集,包含 2.5k 图像中的 13k 个物体的非模态掩码标注。
- BSDS-A [61]:基于 Berkeley Segmentation Dataset,包含 200 张真实世界的图像。
- KINS [37]:基于 KITTI 数据集,包含 7k 图像中的手动标注非模态掩码。
- FishBowl [45]:一个合成数据集,包含 1k 视频,每个视频有 128 帧,每帧独立进行非模态分割。
- SAILVOS [18]:一个从光栅化游戏 GTA-V 中生成的合成数据集,包含 26k 图像和 507k 个物体。
- 评估指标:使用平均交并比(mIoU)来评估预测的非模态掩码的准确性。此外,还报告了不同遮挡率(≤50%, ≤40%, ≤30%, ≤20%, ≤10%, ≤5%)下的 mIoU。
- 基线方法:与以下方法进行比较:
- pix2gestalt [34]:当前最佳的非模态分割方法,需要训练。
- Amodal Wild [59]:一个两阶段方法,需要训练。
- Inpaint-SDXL [36]:一个基于预训练模型的修复方法。
- SAM [21]:一个模态分割基线。
- SAM2 [39]:一个改进的模态分割基线。
- 实现细节:使用了多种流行的扩散模型,包括 Stable Diffusion 1.5 [40]、Stable Diffusion 2 [43]、Stable Diffusion XL [36] 和 Flux [22]。所有实验均在 NVIDIA RTX 4090 GPU 上进行,部分模型使用 8 位量化以减少显存占用。
实验结果
- 主要结果:
- 在 COCOA 和 BSDS-A 数据集上,pix2gestalt [34] 表现最佳,但论文提出的方法与之非常接近,且在其他三个数据集(KINS、FishBowl、SAILVOS)上表现优于 pix2gestalt。
- 平均而言,论文提出的方法在所有数据集上比 pix2gestalt 提高了 5.3% 的 mIoU。
- 论文提出的方法在所有无调优方法中表现最佳,且显著优于模态基线。
- 详细结果:
- COCOA-A [62]:使用 Stable Diffusion XL [36] 的方法在所有遮挡率下均优于 pix2gestalt,平均 mIoU 提高了 0.2%。
- BSDS-A [61]:在 50% 和 40% 遮挡率下,使用 Stable Diffusion 1.5 [40] 的方法分别提高了 1.2% 和 2.5% 的 mIoU。
- KINS [37]:使用 Stable Diffusion 1.5 [40] 的方法在所有遮挡率下均优于 pix2gestalt,平均 mIoU 提高了 25.6%。
- FishBowl [45]:使用 Flux [22] 的方法在所有遮挡率下均优于 pix2gestalt,平均 mIoU 提高了 6.9%。
- SAILVOS [18]:在所有遮挡率下,论文提出的方法均优于 pix2gestalt,平均 mIoU 提高了 21.9%。
定性结果
- 论文还提供了定性结果,展示了在不同数据集上的非模态掩码生成效果。与 pix2gestalt 相比,论文提出的方法在预测被遮挡区域方面表现出更高的准确性和鲁棒性。例如,在 KINS 数据集上,pix2gestalt 生成的掩码覆盖了与可见掩码无关的区域,而论文提出的方法能够准确地预测出被遮挡的区域。
消融研究
- 组件有效性:通过移除论文提出的每个组件(泄漏修复、上下文感知背景、修复区域设计),验证了这些组件对生成准确非模态掩码的重要性。例如,移除泄漏修复会导致 mIoU 下降 37.6%,移除上下文感知背景会导致 mIoU 下降 5.6%,移除修复区域设计会导致 mIoU 下降 6.2%。
- 参数敏感性:通过调整泄漏参数 ss,验证了其对性能的影响。结果表明,s=0.3s=0.3 是一个较好的平衡点。
- 修复区域设计:通过与简单的矩形掩码和基于深度图的掩码进行比较,验证了论文提出的修复区域设计的有效性。在 COCOA 数据集上,论文提出的方法平均 mIoU 比其他两种掩码设计高出 3.8%。
计算效率
- 论文还比较了提出的方法与 pix2gestalt 在计算效率方面的差异。例如,最小的模型 SD2 在显存使用上比 pix2gestalt 高效 4.1 倍,推理速度比 pix2gestalt 快 19 倍。
论文的主要内容:
论文提出了一种无调优(tuning-free)的非模态(amodal)分割方法,通过利用预训练的基于扩散模型的修复(inpainting)模型来实现。该方法的核心思想是利用修复模型的“无遮挡偏好”(occlusion-free bias),即修复模型倾向于生成完整的、没有遮挡的物体。具体来说,该方法通过在扩大的模态掩码上进行修复,然后应用分割方法来提取非模态掩码,从而实现无需额外训练的非模态分割。
研究背景与动机
非模态分割的目标是预测物体的分割掩码,包括可见部分和被遮挡部分。现有的大多数方法将这一任务视为监督学习问题,需要手动标注的非模态掩码或合成训练数据。然而,这些方法的性能依赖于数据集的质量,而现有的数据集往往缺乏多样性和规模。此外,准备大规模的非模态分割数据集是具有挑战性的,因为标注非模态掩码需要推理被遮挡的部分,这可能在人类标注者之间不一致。因此,论文提出了一种无需额外训练或微调的方法,利用预训练的扩散模型来实现非模态分割。
方法概述
论文提出的方法包括以下几个关键步骤:
- 泄漏修复(Leakage Inpainting):通过在标准的扩散采样修复过程中进一步“泄露”原始未遮挡的条件图像,使模型能够生成与当前场景上下文相关的被遮挡部分。
- 条件图像的设计:通过分别处理对象像素和背景像素来生成条件图像,其中对象像素添加噪声以符合扩散模型的输入要求,背景像素则通过颜色直方图采样和高斯模糊来生成平滑的背景。
- 修复区域的设计:从可见掩码中提取轮廓,将所有轮廓合并为一个区域,并找到能够包围所有轮廓的最小凸多边形作为修复区域。使用分类器自由引导技术,允许模型在生成过程中有一定的自由度。
实验验证
论文在五个不同的非模态分割数据集上进行了实验,包括 COCOA [62]、BSDS-A [61]、KINS [37]、FishBowl [45] 和 SAILVOS [18]。使用平均交并比(mIoU)作为评估指标,结果表明,论文提出的方法在所有数据集上均优于或接近现有的最佳方法 pix2gestalt [34],平均 mIoU 提高了 5.3%。此外,该方法在计算效率上也优于 pix2gestalt,具有更快的推理速度和更低的显存需求。
关键结论
- 论文提出了一种无调优的非模态分割方法,通过利用预训练的扩散修复模型的“无遮挡偏好”来实现高质量的非模态掩码生成。
- 该方法在多个数据集上验证了其有效性和鲁棒性,显著优于现有的模态分割基线和其他无调优方法。
- 该方法在计算效率上具有优势,具有更快的推理速度和更低的显存需求,使其更适合实际应用。
进一步探索的方向
尽管该方法已经取得了显著的性能提升,但仍有一些可以进一步探索的方向,例如改进修复模型的利用、优化条件图像的设计、提升计算效率、增强泛化能力以及与其他任务的结合等。这些方向不仅可以进一步提升非模态分割的性能,还可以为相关领域的研究提供新的思路和方法。