CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Power by Kimi&苏神 编辑丨AiCharm
Subjects: cs.CV
1.REDUCIO! Generating 1024×1024 Video within 16 Seconds using Extremely Compressed Motion Latents
标题:减少!生成1024 × 使用极度压缩的运动潜伏在 16 秒内生成 1024 个视频
作者:Rui Tian, Qi Dai, Jianmin Bao, Kai Qiu, Yifan Yang, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
文章链接:https://arxiv.org/abs/2411.13552
项目代码:https://github.com/microsoft/Reducio-VAE
摘要:
商业视频生成模型已经展现出真实、高保真的结果,但仍然受到有限的访问。大规模应用的一个关键障碍是昂贵的训练和推理成本。在本文中,我们认为视频比图像包含更多的冗余信息,因此可以基于内容图像通过很少的运动潜在特征进行编码。为了实现这一目标,我们设计了一种图像条件 VAE,将视频编码到极其压缩的运动潜在空间。与常见的 2D VAE 相比,这种神奇的 Reducio 魅力可以将潜伏减少 64 倍,而不会牺牲质量。在如此紧凑的表示上训练扩散模型可以轻松生成 1K 分辨率的视频。然后,我们采用两阶段视频生成范例,依次执行文本到图像和文本到图像到视频。大量实验表明,尽管使用有限的 GPU 资源进行训练,我们的 Reducio-DiT 在评估方面仍取得了出色的性能。更重要的是,我们的方法显着提高了视频 LDM 在训练和推理方面的效率。我们总共训练了约 3.2K 训练小时的 Reducio-DiT,并在单个 A100 GPU 上在 15.5 秒内生成了 16 帧 1024*1024 视频剪辑。在此 https URL发布代码。
这篇论文试图解决什么问题?
论文通过以下方法解决视频生成模型训练和推理成本高的问题:
设计图像条件变分自编码器(Reducio-VAE): 论文提出了一个基于3D卷积的变分自编码器(VAE),该编码器能够将视频极度压缩到一个非常小的潜在空间中。这种设计利用了视频帧之间高度相似的特点,通过增加空间和时间的下采样因子,实现了对视频数据的高效压缩。 具体来说,Reducio-VAE通过3D编码器将输入视频压缩到一个4096倍小的潜在空间,并使用3D解码器结合中间帧的特征金字塔作为内容条件进行重建。 建立基于Reducio-VAE的扩散模型(Reducio-DiT): 利用Reducio-VAE压缩后的潜在空间,论文建立了一个扩散模型,即Reducio-DiT,它采用扩散变换器(DiT)结构,并结合额外的图像条件。 Reducio-DiT使用T5特征作为文本条件,并采用图像语义编码器和上下文编码器提供额外的图像条件,以告知模型视频的空间内容。 两阶段视频生成范式: 论文采用了一个两阶段的视频生成范式,首先执行文本到图像的生成,然后使用生成的图像作为条件进行文本图像到视频的生成。 这种方法允许模型专注于运动变量的建模,而不是挑战时空联合建模,从而提高了效率。 渐进式训练策略: 为了支持高分辨率视频的生成,论文采用了渐进式训练策略,从低分辨率视频开始训练,逐步提高到高分辨率视频。 这种策略使得模型能够逐步学习并适应不同分辨率的视频数据,同时保持了生成视频的质量。 多方面实验验证: 论文通过广泛的实验验证了Reducio-DiT在效率和性能上的优势,包括在UCF-101和MSR-VTT数据集上的性能评估,以及与其他视频LDMs的比较。 通过上述方法,论文成功地减少了视频生成模型在训练和推理时所需的计算资源,同时保持了生成视频的高质量。
论文如何解决这个问题?
论文通过以下方法解决视频生成模型训练和推理成本高的问题:
设计图像条件变分自编码器(Reducio-VAE): 论文提出了一个基于3D卷积的变分自编码器(VAE),该编码器能够将视频极度压缩到一个非常小的潜在空间中。这种设计利用了视频帧之间高度相似的特点,通过增加空间和时间的下采样因子,实现了对视频数据的高效压缩。 具体来说,Reducio-VAE通过3D编码器将输入视频压缩到一个4096倍小的潜在空间,并使用3D解码器结合中间帧的特征金字塔作为内容条件进行重建。 建立基于Reducio-VAE的扩散模型(Reducio-DiT): 利用Reducio-VAE压缩后的潜在空间,论文建立了一个扩散模型,即Reducio-DiT,它采用扩散变换器(DiT)结构,并结合额外的图像条件。 Reducio-DiT使用T5特征作为文本条件,并采用图像语义编码器和上下文编码器提供额外的图像条件,以告知模型视频的空间内容。 两阶段视频生成范式: 论文采用了一个两阶段的视频生成范式,首先执行文本到图像的生成,然后使用生成的图像作为条件进行文本图像到视频的生成。 这种方法允许模型专注于运动变量的建模,而不是挑战时空联合建模,从而提高了效率。 渐进式训练策略: 为了支持高分辨率视频的生成,论文采用了渐进式训练策略,从低分辨率视频开始训练,逐步提高到高分辨率视频。 这种策略使得模型能够逐步学习并适应不同分辨率的视频数据,同时保持了生成视频的质量。 多方面实验验证: 论文通过广泛的实验验证了Reducio-DiT在效率和性能上的优势,包括在UCF-101和MSR-VTT数据集上的性能评估,以及与其他视频LDMs的比较。 通过上述方法,论文成功地减少了视频生成模型在训练和推理时所需的计算资源,同时保持了生成视频的高质量。
论文做了哪些实验?
根据论文内容,以下是一些可以进一步探索的点:
长视频生成 :论文中提到Reducio-DiT生成的视频长度有限(16帧,即1秒),对于实际应用来说较短。探索如何适应更长视频生成的需求是一个重要的未来方向。 运动的多样性和复杂性 :由于视频长度的限制,生成视频中的运动幅度也相对有限。研究如何生成具有更复杂和多样化运动的视频是一个挑战。 进一步提高效率 :尽管Reducio-VAE和Reducio-DiT已经显著提高了效率,但仍有空间进一步优化,例如通过采用更高效的架构或优化扩散训练策略。 改进视频质量 :虽然Reducio-DiT在视频质量上取得了不错的成绩,但仍有提升空间。可以通过改进模型结构、训练策略或后处理步骤来进一步提高生成视频的质量。 多模态输入和输出 :探索模型如何处理和生成基于多模态输入(如文本、音频等)的视频,这可能增强视频的表达能力和应用范围。 模型泛化能力 :评估和提高模型在多样化数据集和复杂场景下的泛化能力,这对于实际应用非常重要。 实时视频生成 :研究如何将模型优化以实现实时或近实时的视频生成,这对于视频编辑、游戏和虚拟现实等应用至关重要。 结合其他加速技术 :论文提到Reducio-DiT与如rectified flow等加速技术兼容,可以进一步探索这些技术的结合使用,以实现更快的视频生成速度。 模型压缩和部署 :研究如何压缩模型以便于在资源受限的设备上部署,这对于移动应用和边缘计算场景具有重要意义。 伦理和社会影响 :随着生成模型的发展,考虑其可能带来的伦理和社会影响,如深度伪造(deepfakes)问题,也是未来研究的一个重要方向。 这些探索点可以帮助推动视频生成技术的发展,并扩展其在各种实际应用中的使用。
论文的主要内容:
这篇论文的主要内容包括以下几个方面:
问题陈述 :商业级视频生成模型虽然能够产生高质量的视频,但训练和推理成本高,限制了其大规模应用。论文指出视频比图像含有更多冗余信息,因此可以利用更少的运动潜在变量进行编码。 主要贡献 :设计了一个图像条件变分自编码器(Reducio-VAE),能够将视频压缩到64倍小的潜在空间,同时保持视频质量。 提出了一个基于Reducio-VAE的扩散模型(Reducio-DiT),通过结合额外的图像条件,实现了高效率和高质量的视频生成。 通过实验验证了Reducio-DiT在训练和推理效率上的显著提升,以及在多个数据集上的视频生成性能。 方法论 :Reducio-VAE使用3D编码器和解码器,通过激进的空间和时间下采样,将视频压缩到非常小的潜在空间。 Reducio-DiT采用扩散变换器结构,并引入图像语义编码器和内容编码器提供额外的图像条件,以改善视频生成质量。 采用两阶段视频生成范式,先进行文本到图像的生成,然后基于该图像生成视频。 实验 :论文提供了与现有技术的定量比较,包括PSNR、SSIM、LPIPS、rFVD等指标,展示了Reducio-VAE在视频重建性能上的优势。 论文还展示了Reducio-DiT在生成效率上的巨大提升,例如在单个A100 GPU上16帧1024×1024视频剪辑的生成时间显著少于现有技术。 未来工作 :论文指出了模型的局限性,主要是生成视频的长度较短,未来工作将探索适应更长视频生成的需求。 总结来说,这篇论文提出了一种新的方法来降低视频生成模型的训练和推理成本,通过设计一个高效的视频编码器和扩散模型,实现了在保持视频质量的同时显著提升视频生成的效率。
2.Generating 3D-Consistent Videos from Unposed Internet Photos
标题:从未摆出姿势的互联网照片生成 3D 一致的视频
作者: Gene Chou, Kai Zhang, Sai Bi, Hao Tan, Zexiang Xu, Fujun Luan, Bharath Hariharan, Noah Snavely
文章链接:https://arxiv.org/abs/2411.13549
项目代码:https://genechou.com/kfcw
摘要:
我们解决了从未摆出的互联网照片生成视频的问题。一些输入图像用作关键帧,我们的模型在它们之间进行插值以模拟相机之间移动的路径。给定随机图像,模型捕获底层几何图形、识别场景身份以及根据相机位置和方向关联帧的能力反映了对 3D 结构和场景布局的基本理解。然而,现有的视频模型(例如 Luma Dream Machine)无法完成此任务。我们设计了一种自我监督方法,利用视频的一致性和多视图互联网照片的可变性来训练可扩展的 3D 感知视频模型,而无需任何 3D 注释(例如相机参数)。我们验证我们的方法在几何和外观一致性方面优于所有基线。我们还展示了我们的模型优势以及支持相机控制的应用程序,例如 3D 高斯泼溅。我们的结果表明,我们可以仅使用视频和多视图互联网照片等 2D 数据来扩展场景级 3D 学习。
这篇论文试图解决什么问题?
这篇论文试图解决的是从一组未经过事先规划(unposed)的互联网照片生成3D一致性视频的问题。具体来说,目标是使用少量(2-5张)的输入关键帧来生成一个场景视频,视频中的相机轨迹和几何结构是真实且连贯的。这个任务挑战在于,模型需要能够捕捉场景的底层几何结构、识别场景身份,并将帧与相机的位置和方向联系起来,从而反映出对3D结构和场景布局的基本理解。然而,现有的视频模型,例如Luma Dream Machine,在这项任务上表现不佳。论文提出了一种自监督方法,利用视频的一致性和多视角互联网照片的多样性来训练一个可扩展的、3D感知的视频模型,而无需任何3D标注,如相机参数。
论文如何解决这个问题?
论文通过设计一个自监督方法来解决从互联网照片生成3D一致性视频的问题,该方法不需要任何3D标注,如相机参数。具体来说,论文提出了两个主要的训练目标:多视图修复(Multiview Inpainting)和视图插值(View Interpolation),并将它们统一在一个扩散去噪框架下进行训练。以下是这些方法的详细说明:
1. 多视图修复(Multiview Inpainting) 目标 :学习3D先验,无需3D标注,从互联网照片等非结构化图像集合中学习。过程 :模型接收多个条件图像(来自场景的随机和宽基线视点),并对目标图像的80%进行遮罩。模型必须从条件图像中提取结构信息和场景身份,从目标图像剩余的20%中提取照明和场景布局,以准确填充目标图像。2. 视图插值(View Interpolation) 目标 :教导模型在给定起始和结束条件图像的情况下生成平滑、一致的中间帧。过程 :从视频中随机采样多个连续帧,其中每16帧中的一个是条件图像,中间的15帧作为目标帧,通过前向扩散过程添加噪声。模型学习在两个条件图像之间进行插值。统一的扩散去噪框架(Unified Diffusion Denoising Objective) 训练 :在训练阶段,模型通过去噪过程处理遮罩的图像块(多视图修复中的目标图像块和视图插值中的中间帧),同时从干净的图像块中提取视觉信息。推理 :在推理阶段,给定同一场景的未经摆姿势的图像,模型通过DDIM步骤初始化并去噪固定数量的帧,生成连贯的视频路径。训练细节 使用潜在的扩散变换器(Diffusion Transformer, DiT)进行训练。 图像通过预训练的VAE编码器处理,包括分块和基于扩散过程的噪声添加。 通过简单的帧索引嵌入和CLIP嵌入向量,将额外的条件信息注入模型。 总结 这种方法通过结合多视图修复和视图插值的目标,使得模型能够在没有3D标注的情况下学习3D结构和场景布
论文做了哪些实验?
论文中进行了一系列实验来评估提出方法的有效性,包括用户研究和两个下游应用验证。以下是具体的实验内容:
1. 用户研究 目的 :通过用户研究来评估视频生成模型在一致性、相机路径和审美方面的性能。设置 :从Phototourism数据集和RealEstate10k(Re10k)数据集中随机采样场景,并从每个场景中随机选择2、3、4、5个视图的组合,生成多个测试集。过程 :用户在看到由不同方法生成的视频对时,根据“一致性”、“相机路径”和“审美”三个标准进行偏好选择。结果 :用户研究结果显示,所提出的方法在所有标准上都优于现有的视频生成模型,包括商业模型Luma Dream Machine。2. 应用1:SfM重建 目的 :验证生成的视频帧在几何上的一致性,并测试它们是否适合用于3D重建等下游任务。过程 :使用COLMAP结构从运动(SfM)算法在原始稀疏视图和添加生成视图后进行重建。结果 :添加生成视图后,成功重建的视图集数量和注册图像数量显著增加,表明生成的视图提供了可靠的特征对应关系,连接了远距离视图。3. 应用2:3D高斯绘制(3D Gaussian Splatting) 目的 :通过3DGS方法验证生成帧在外观和照明上的一致性。过程 :使用InstantSplat在原始输入视图和生成帧上运行3DGS,并比较渲染指标。结果 :在Phototourism和Re10k数据集上,使用生成帧的3DGS结果在PSNR、SSIM和LPIPS等指标上都有显著提升,表明生成的帧在照明和几何上更加一致。这些实验不仅验证了所提出方法在生成一致性和现实感视频方面的能力,还展示了其在3D重建等实际应用中的潜力和有效性。通过这些实验,论文证明了其方法在多个基准测试上的优势,并强调了使用3D感知目标进行自监督学习的重要性。
论文的主要内容:
本文的主要内容包括以下几个方面:
问题陈述 :论文旨在解决从少量未摆姿势的互联网照片生成具有现实相机轨迹和一致几何结构的视频的问题。 现有挑战 :现有视频模型,如Luma Dream Machine,在生成视频时往往产生创意形变而非真实的相机运动,且无法处理大基线输入。 方法论 :提出了一种自监督方法,利用视频的一致性和多视角互联网照片的多样性,无需3D标注(如相机参数)来训练一个可扩展的3D感知视频模型。 设计了两个训练目标:多视图修复和视图插值,并通过扩散去噪框架统一这两个目标。 多视图修复 :通过从一个场景的多个随机视点输入条件图像,并修复一个遮罩目标图像,使模型学习3D结构和场景身份。 视图插值 :通过生成视频序列中起始和结束帧之间的中间帧,训练模型产生平滑、一致的相机轨迹。 实验 :通过用户研究验证了所提方法在一致性、相机路径和审美方面优于现有技术。 在3D重建和3D高斯绘制两个下游应用中验证了生成视频的几何和外观一致性。 未来工作 :提出了未来可能的研究方向,包括扩展数据规模以建模动态对象、实现更细粒度的照明控制和对未见视图的外推等。 结论 :论文提出的方法能够利用2D数据(如视频和多视角互联网照片)进行自监督学习,扩展了在野外场景下的3D学习,并在多个基准测试上验证了其几何和外观一致性。 总的来说,这篇论文提出了一个创新的方法来从互联网照片中生成3D一致性视频,无需昂贵的3D标注,为3D视频生成和相关领域提供了新的视角和工具。
3.Find Any Part in 3D
标题:查找 3D 中的任何零件
作者:Ziqi Ma, Yisong Yue, Georgia Gkioxari
文章链接:https://arxiv.org/abs/2411.13550
项目代码:https://ziqi-ma.github.io/find3dsite/
摘要:
我们研究 3D 中的开放世界部分分割:根据任何文本查询分割任何对象中的任何部分。现有方法在对象类别和部分词汇方面受到限制。人工智能的最新进展展示了有效的二维开放世界识别能力。受这一进展的启发,我们提出了一种用于 3D 零件分割的开放世界直接预测模型,可以将零样本应用于任何对象。我们的方法称为 Find3D,可以在来自互联网的大规模 3D 资产上训练通用类别点嵌入模型,而无需任何人工注释。它将由用于注释数据的基础模型提供支持的数据引擎与对比训练方法相结合。我们在多个数据集上实现了强大的性能和泛化,与下一个最佳方法相比,mIoU 提高了 3 倍。我们的模型比现有基准快 6 倍到 300 倍以上。为了鼓励通用类别开放世界 3D 零件分割的研究,我们还发布了通用对象和零件的基准。
这篇论文试图解决什么问题?
这篇论文研究了三维(3D)开放世界部件分割问题,即根据任何文本查询来分割任何对象的任何部分。具体来说,论文试图解决以下几个关键问题:
开放世界中的3D部件分割 :在开放世界中,输入可以是任何对象,模型需要能够处理任何文本查询,以实现在粒度(例如“四肢”与“手臂”)和描述类型(例如“手套”与“手”)上的灵活性。对象类别和部件词汇表的限制 :以往的方法在对象类别或部件词汇表方面存在限制。论文提出的方法FIND3D旨在训练一个不受人类标注限制、能够泛化到互联网上大规模3D资产的通用类别点嵌入模型。自动标注3D资产 :获取大规模3D标注数据既困难又昂贵。论文开发了一个数据引擎,利用2D基础模型自动标注在线3D资产,以训练一个无需人工标注的通用类别模型。处理部件层次结构和歧义 :由于同一点可能与多个标签相关联,直接的点对点损失定义变得困难。论文通过对比学习目标来解决标签歧义问题。提高性能和泛化能力 :论文提出的方法FIND3D在多个数据集上实现了强大的性能和泛化能力,与现有方法相比,在mIoU上有高达3倍的提升,同时在推理速度上比现有基线快6倍至300倍以上。建立开放世界3D部件分割的基准 :为了推动一般类别开放世界3D部件分割的研究,论文还发布了一个评估开放世界部件级语义分割的基准,包含多种对象和部件,没有关于对象方向的假设。总结来说,论文FIND3D旨在创建一个无需人工标注、能够泛化到任意对象和部件查询的3D部件分割模型,并在此过程中解决数据获取、模型训练和性能泛化等一系列挑战。
论文如何解决这个问题?
论文提出了一个名为FIND3D的方法来解决开放世界3D部件分割问题。FIND3D方法包括以下几个关键步骤:
1. 数据引擎(Data Engine) 自动标注3D资产 :为了获得大规模的3D标注数据,论文开发了一个数据引擎,利用2D视觉和语言基础模型(如SAM和Gemini)自动标注从网络上获取的3D资产。生成训练数据 :通过渲染3D对象的不同视图,使用SAM进行分割,然后通过Gemini查询分割部分的名称,从而得到(掩膜,文本)对。再将这些掩膜映射回3D点云,得到(点,文本嵌入)对,用于训练。2. 对比训练方法(Contrastive Training Recipe) 处理标签歧义 :由于同一点可能与多个标签相关联,论文采用对比学习目标来克服标签歧义问题。对比损失不依赖于逐点标注,而是定义正负样本对,通过计算点特征与文本查询之间的余弦相似度来实现。3. FIND3D模型架构 输入输出 :FIND3D模型接收一个点云,并输出每个点的可查询语义特征。这些特征位于预训练的CLIP类模型(如SigLIP)的潜在嵌入空间中,可以通过任何自由形式的文本查询进行检索。点变换器架构 :FIND3D采用基于PointTransformer3(PT3)的模型架构,将点云转换为序列,并通过编码器-解码器结构的变换器进行处理,最终通过一个轻量级MLP将点特征对齐到SigLIP的潜在嵌入空间。4. 对比损失函数 损失计算 :对于每个标签,真实值是文本的SigLIP嵌入,预测值是所有属于该标签的点的平均特征。对比损失函数通过最大化正样本对的相似度并最小化负样本对的相似度来训练模型。5. 数据增强和泛化 数据增强 :为了提高模型的泛化能力,论文应用了包括随机旋转、缩放、翻转、抖动等多种数据增强技术。6. 评估和基准 新基准 :为了评估开放世界部件级语义分割,论文发布了一个包含多样化对象、形状、部件和姿态的新基准,以推动3D模型在更一般和“野外”场景中的适用性。论文做了哪些实验?
论文中进行了一系列实验来评估FIND3D模型的性能和泛化能力。以下是实验的详细内容:
1. 性能比较实验 基准数据集 :除了在论文提出的新基准数据集(Objaverse-General 和 Objaverse-ShapeNetPart)上进行测试外,还在常用的3D部件分割数据集ShapeNet-Part和PartNet-E上进行了评估。指标 :主要使用类别平均交并比(mIoU)作为评价指标,即所有标记部分的交并比的平均值,跨所有对象类别进行平均。竞争方法 :与现有的开放世界和封闭世界3D分割方法进行比较,包括PointCLIPV2、PartSLIP++、OpenMask3D、PointNeXt和PartDistill等。2. 鲁棒性测试 查询文本提示的变化 :评估FIND3D对查询文本提示变化的鲁棒性,包括使用“{part} of a {object}”和“{part name}”两种格式的提示。对象方向的变化 :通过随机旋转对象来测试模型对不同方向的鲁棒性。数据域的变化 :使用与ShapeNet-Part相同类别但来自Objaverse资产的对象构建了Objaverse-ShapeNetPart数据集,以测试模型对数据源变化的鲁棒性。3. 野外场景测试 单图像重建的分割 :展示了FIND3D在从iPhone照片或DALLE-2生成的图像中重建的3D对象上的分割能力。灵活的文本查询 :展示了FIND3D对不同粒度和描述风格的文本查询的支持能力,例如通过“hand”或“gloves”查询Mickey的手部。4. 完整结果报告 完整数据集结果 :对于能够快速评估的方法,提供了在ShapeNet-Part和PartNet-E完整测试集上的性能结果。不同提示下的结果 :报告了在不同文本提示下的性能,以展示模型对提示变化的敏感性。5. 失败模式分析 模型局限性 :分析了FIND3D在某些情况下可能失败的原因,例如对于没有明显几何特征的细粒度部分的识别。这些实验全面评估了FIND3D在不同场景下的性能,包括其对常见物体的泛化能力、对查询变化的鲁棒性以及在实际应用中的潜力。通过这些实验,论文展示了FIND3D作为一种有效的开放世界3D部件分割工具的潜力。
论文的主要内容:
这篇论文提出了一个名为FIND3D的模型,旨在解决开放世界中的3D部件分割问题,即能够根据任意文本查询来分割任意对象的任意部分。以下是论文的主要内容总结:
1. 问题定义 开放世界3D部件分割 :模型需要能够处理任何对象的任意文本查询,以实现灵活的粒度和描述类型的分割。2. FIND3D方法 数据引擎 :利用2D视觉和语言基础模型自动标注网上的3D资产,生成训练数据。对比训练 :采用对比学习目标处理标签歧义,不依赖逐点标注。模型架构 :基于PointTransformer3的Transformer架构,将点云序列化并通过编码器-解码器结构处理,输出与文本查询可比较的语义特征。损失函数 :定义正负样本对,通过最大化正样本对的相似度并最小化负样本对的相似度来训练模型。3. 实验和评估 性能比较 :在多个数据集上评估FIND3D,并与现有方法比较,显示出显著的性能提升。鲁棒性测试 :测试了模型对查询文本提示变化、对象方向变化和数据域变化的鲁棒性。野外场景测试 :展示了FIND3D在从iPhone照片或AI生成图像中重建的3D对象上的分割能力。灵活的文本查询 :展示了FIND3D对不同粒度和描述风格的文本查询的支持能力。4. 未来方向 2D和3D模态结合 :提高对没有明显几何特征的部件的识别能力。扩展规律探索 :研究开放世界3D分割的扩展规律,包括训练规模和模型参数的增加。细粒度部件识别 :改进模型以更好地捕捉细粒度部件。对称性预测改进 :减少模型对称性偏见。泛化能力增强 :在更多样化和复杂的现实世界场景中增强模型的泛化能力。