Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周AI论文速递(241202-241206)

每周AI论文速递(241202-241206)

作者头像
叶子的技术碎碎念
发布于 2025-04-08 13:55:43
发布于 2025-04-08 13:55:43
500
举报

GRAPE: Generalizing Robot Policy via Preference Alignment

GRAPE: 通过偏好对齐泛化机器人策略

尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其对多样化操作目标(如效率、安全性和任务完成度)的适应性。为此,我们提出 GRAPE: 通过偏好对齐泛化机器人策略。具体来说,GRAPE 在轨迹层面对齐 VLA,并从成功与失败试验中隐式建模奖励,以提升对多样化任务的泛化能力。同时,GRAPE 将复杂任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点,利用定制时空约束自动引导偏好建模。这些约束灵活,可根据不同目标(如安全性、效率或任务成功)进行定制。我们在真实与模拟环境中广泛评估 GRAPE。实验显示,GRAPE 显著提升最先进 VLA 模型的性能,领域内与未见任务的成功率分别提高 51.79% 和 60.36%。此外,GRAPE 可与多种目标对齐,如安全性与效率,分别降低碰撞率 44.31% 和轨迹步长 11.15%。所有代码、模型及数据均可在 https://grape-vla.github.io/ 获取。

Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

超越示例:通过 MCTS 实现上下文学习中的高层自动化推理范式

上下文学习 (ICL) 使大语言模型 (LLMs) 能够通过复杂的提示和高品质的演示来处理下游任务。然而,传统 ICL 范式在面对复杂数学推理任务时显示出局限性,主要原因在于其对示例质量的严重依赖以及在挑战性场景中需要人为干预。为解决这些局限,本文提出 HiAR-ICL,这是一种在 ICL 中的高层自动化推理范式,它将重点从具体示例转移到抽象思维模式,扩展了 ICL 中传统上下文的概念。HiAR-ICL 引入了五个原子推理动作作为构建链式结构模式的基本组件。我们使用蒙特卡洛树搜索 (MCTS) 探索推理路径,并构建思维卡片以指导后续推理。随后,我们开发了一个认知复杂度框架,该框架动态地将问题与适当的思维卡片匹配。实验结果表明 HiAR-ICL 的有效性,在 MATH 基准测试中使用 Qwen2.5-7B-Instruct 达到了最先进的准确率 (79.6%),超过了 GPT-4o (76.6%) 和 Claude 3.5 (71.1%)。

Video Depth without Video Models

无视频模型的视频深度估计

视频深度估计通过推断每一帧的密集深度,将单目视频片段提升至3D。近年来,随着大型基础模型的兴起和合成训练数据的使用,单图像深度估计的进展重新激发了对视频深度的兴趣。然而,简单地将单图像深度估计器应用于视频的每一帧忽略了时间连续性,这不仅会导致闪烁,而且在相机运动导致深度范围突然变化时也可能失效。一个明显且合理的解决方案是基于视频基础模型构建,但这些模型本身存在局限性;包括昂贵的训练和推理、不完美的3D一致性,以及固定长度(短)输出的拼接程序。我们退一步,展示了如何将单图像潜在扩散模型(LDM)转化为最先进的视频深度估计器。我们的模型,称为RollingDepth,有两个主要成分:(i)一个多帧深度估计器,源自单图像LDM,将非常短的视频片段(通常是帧三元组)映射到深度片段。(ii)一个基于优化的鲁棒配准算法,最佳地将以不同帧率采样的深度片段组装成一致的视频。RollingDepth能够高效处理包含数百帧的长视频,并提供比专用视频深度估计器和表现优异的单帧模型更准确的深度视频。项目页面:rollingdepth.github.io。

X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

X-Prompt: 在自回归视觉语言基础模型中实现通用上下文图像生成

上下文生成是大语言模型 (LLMs) 开放任务泛化能力的关键组成部分。通过利用少量示例作为上下文,LLMs 可以执行域内和域外任务。基于 LLMs 构建的最新自回归视觉语言模型 (VLMs) 在文本到图像生成方面展示了令人印象深刻的性能。然而,上下文学习在通用图像生成任务中的潜力在很大程度上仍未被探索。为了解决这个问题,我们引入了 X-Prompt,这是一个纯粹的自回归大视觉语言模型,旨在在统一的上下文学习框架内,在广泛的已见和未见图像生成任务中提供竞争性能。X-Prompt 包含一个专门设计,能够高效压缩上下文示例中的重要特征,支持更长的上下文 Token 序列,并提高其对未见任务的泛化能力。统一的文本和图像预测训练任务使 X-Prompt 能够通过上下文示例增强的任务理解来处理通用图像生成。广泛的实验验证了模型在多样化的已见图像生成任务中的性能及其对先前未见任务的泛化能力。

o1-Coder: an o1 Replication for Coding

o1-Coder: 面向编码的 o1 模型复制

该技术报告介绍了 O1-CODER,这是一个专注于编码任务的 OpenAI o1 模型复制尝试。它结合了强化学习 (RL) 和蒙特卡洛树搜索 (MCTS),以提升模型的系统 2 (System-2) 推理能力。框架包括:训练一个测试用例生成器 (TCG) 进行标准化代码测试;利用 MCTS 生成包含推理过程的代码数据;并通过迭代微调策略模型,先产生伪代码,再生成完整代码。报告还探讨了在实际应用中部署类似 o1 模型的机遇与挑战,建议转向系统 2 (System-2) 范式,并强调环境状态更新的重要性。模型进展与实验结果将在后续版本中报告。所有源代码、精选数据集及衍生模型将在 https://github.com/ADaM-BJTU/O1-CODER 公开。

Open-Sora Plan: Open-Source Large Video Generation Model

Open-Sora计划:开源大型视频生成模型

我们介绍Open-Sora计划,这是一个开源项目,旨在开发一个能够根据用户输入生成高分辨率长视频的大型生成模型。该项目涵盖了视频生成的全过程,包括Wavelet-Flow变分自编码器、联合图像-视频稀疏去噪器以及多种条件控制器。此外,我们还设计了多种辅助策略以提高训练和推理效率,并构建了一个多维数据整理管道,以获取高质量的数据。得益于这些高效的设计,Open-Sora计划在定性和定量评估中均取得了显著的视频生成效果。我们希望这些精心设计和实践经验能够为视频生成研究领域带来启发。所有代码和模型权重均已公开,详见https://github.com/PKU-YuanGroup/Open-Sora-Plan。

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Switti: 为文本到图像合成设计尺度感知的 Transformer

本文介绍 Switti,一种用于文本到图像生成的尺度感知 Transformer。我们从现有的下一尺度预测自回归模型出发,首先探索其应用于 T2I 生成,并提出架构修改以提升其收敛性和整体性能。我们发现,预训练的尺度感知自回归模型的自注意力图对先前尺度依赖性较弱。基于此,我们提出了一种非自回归模型,该模型在略微提升生成质量的同时,采样速度提高约 11%,内存使用量更低。此外,我们发现高分辨率尺度上的无分类器引导通常是不必要的,甚至可能损害性能。通过在这些尺度上禁用引导,我们额外实现了约 20% 的采样加速,并显著改进了细粒度细节的生成。广泛的人类偏好研究和自动化评估显示,Switti 优于现有的 T2I 自回归模型,并与最先进的 T2I 扩散模型竞争,同时速度最高可达 7 倍。

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

VideoGen-of-Thought: 一个用于多镜头视频生成的协作框架

当前的视频生成模型擅长生成短片段,但在创建多镜头、电影般的视频方面仍面临挑战。现有模型在丰富的计算资源支持下,通过大规模数据训练,但由于通常以单镜头为目标进行训练,因此在保持连贯剧本的逻辑情节和视觉一致性方面仍然不足。为此,我们提出了 VideoGen-of-Thought (VGoT),这是一个专门为多镜头视频生成设计的协作且无需训练的架构。VGoT 的设计考虑了以下三个目标。多镜头视频生成:我们将视频生成过程分为结构化的模块化序列,包括 (1) 剧本生成,将简短的故事转化为每个镜头的详细提示;(2) 关键帧生成,负责创建忠实于角色描绘的视觉一致的关键帧;(3) 镜头级视频生成,将剧本和关键帧中的信息转化为镜头;(4) 平滑机制,确保一致的多镜头输出。合理的叙事设计:受电影剧本写作启发,我们的提示生成方法涵盖五个关键领域,确保整个视频的逻辑一致性、角色发展和叙事流程。跨镜头一致性:我们通过利用跨镜头的身份保持 (IP) 嵌入来确保时间和身份一致性,这些嵌入自动从叙事中创建。此外,我们引入了一个跨镜头平滑机制,该机制集成了一个重置边界,有效结合相邻镜头的潜在特征,实现平滑过渡并保持视频的视觉连贯性。我们的实验表明,VGoT 在生成高质量、连贯的多镜头视频方面超越了现有的视频生成方法。

Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability

关键 Token 的重要性:Token 级别的对比估计增强大语言模型的推理能力

大语言模型 (LLMs) 在推理任务中表现优异。它们通过自回归 Token 生成构建推理轨迹,形成连贯的思维链。本研究探讨了个别 Token 对推理任务最终结果的影响。我们发现存在“关键 Token”,这些 Token 会导致推理轨迹出错。具体而言,当强制 LLMs 解码非关键 Token 时,它们通常会产生积极结果。基于此观察,我们提出了一种新方法——cDPO——旨在在对齐过程中自动识别并奖励关键 Token。具体来说,我们采用对比估计方法自动识别关键 Token,通过比较正模型和负模型的生成概率实现。为此,我们对正模型和负模型分别在不同推理轨迹上进行微调,使其能够识别错误轨迹中导致错误结果的关键 Token。此外,为在对齐过程中进一步使模型与关键 Token 信息对齐,我们将传统 DPO 算法扩展至 Token 级别 DPO,并利用正模型和负模型的差异概率作为 Token 级别 DPO 学习的重要权重。在 GSM8K 和 MATH500 基准测试中,使用 Llama-3 (8B 和 70B) 及 deepseek-math (7B) 模型的实验结果验证了 cDPO 方法的有效性。

MALT: Improving Reasoning with Multi-Agent LLM Training

MALT: 通过多智能体大语言模型训练提升推理能力

实现大语言模型之间的有效协作是开发能够解决复杂问题的自主系统的关键步骤。虽然大语言模型通常被用作单模型生成器,人类对其输出进行批评和改进,但联合训练的协作模型的潜力在很大程度上仍未被探索。虽然多智能体通信和辩论环境中取得了有希望的结果,但在训练模型共同完成任务方面进展甚微。在本文中,我们迈出了“多智能体大语言模型训练”(MALT)在推理问题上的第一步。

我们的方法采用了一种顺序多智能体设置,其中异构大语言模型被分配了专门的角色:生成器、验证器和细化模型迭代地解决问题。我们提出了一种基于轨迹扩展的合成数据生成过程,以及一种由联合结果驱动的奖励分配策略。这使得我们的训练后设置能够利用正负轨迹来自主地提升每个模型在联合顺序系统中的专门能力。

我们在 MATH、GSM8k 和 CQA 上评估了我们的方法,其中 MALT 在 Llama 3.1 8B 模型上分别实现了相对于相同基线模型的 14.14%、7.12% 和 9.40% 的相对改进。这展示了在数学和常识推理问题上多智能体协作能力方面的早期进展。更广泛地说,我们的工作为多智能体大语言模型训练方法的研究提供了具体方向。

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma 2: 一个用于迁移的多功能 VLM 家族

PaliGemma 2 是基于 Gemma 2 系列语言模型的 PaliGemma 开放 VLM 的升级版。我们结合了 PaliGemma 也使用的 SigLIP-So400m 视觉编码器与 Gemma 2 全系列模型,从 2B 模型一直到 27B 模型。我们在多个阶段以三种分辨率 (224px, 448px, 和 896px) 训练这些模型,以通过微调赋予它们广泛的迁移能力。由此产生的多尺寸和多分辨率基模型家族使我们能够研究影响迁移性能的因素(如学习率),并分析任务类型、模型大小和分辨率之间的相互作用。我们进一步扩展了迁移任务的数量和广度,超出了 PaliGemma 的范围,包括不同的 OCR 相关任务,如表格结构识别、分子结构识别、乐谱识别,以及长细粒度描述和放射报告生成,在这些任务上 PaliGemma 2 表现出色。

SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance

SNOOPI: 强化一步扩散蒸馏与精准引导

最近的研究在将多步文本到图像扩散模型蒸馏为一步模型方面取得了显著进展。领先的高效蒸馏技术,如 SwiftBrushv2 (SBv2),甚至在资源有限的情况下超越了教师模型的性能。然而,我们的研究发现,由于在变分分数蒸馏 (VSD) 损失中使用了固定的引导尺度,SBv2 在处理不同扩散模型骨干时表现出不稳定性。此外,现有的一步扩散模型不支持负提示引导,这在实际图像生成中至关重要。本文提出了 SNOOPI,一种新颖的框架,旨在通过在训练和推理过程中增强一步扩散模型的引导来解决这些限制。首先,我们通过适当引导-SwiftBrush (PG-SB) 提高了训练稳定性,该方法采用了随机尺度的无分类器引导策略。通过调整教师模型的引导尺度,我们扩展了其输出分布,从而形成了一个更鲁棒的 VSD 损失,使得 SB 在保持竞争性能的同时,能够有效适应多种骨干模型。其次,我们提出了一种无需训练的方法,称为负向远离引导注意力 (NASA),该方法通过交叉注意力机制将负提示融入一步扩散模型,以抑制生成图像中的不期望元素。实验结果显示,我们提出的方法在多个指标上显著提升了基线模型的性能。特别地,我们实现了 31.08 的 HPSv2 分数,为一步扩散模型设定了新的最先进基准。

Imagine360: Immersive 360 Video Generation from Perspective Anchor

Imagine360: 从透视锚点生成沉浸式360度视频

360度视频提供了一种超沉浸式体验,允许观众从360度全方位探索动态场景。为了在360度视频格式中实现更用户友好和个性化的内容创作,我们寻求将标准透视视频提升为360度等距矩形视频。为此,我们引入了Imagine360,这是首个从透视视频生成高质量360度视频的框架,通过视频锚点生成具有丰富多样运动模式的360度视频。Imagine360通过几个关键设计,从有限的360度视频数据中学习细粒度的球面视觉和运动模式。1) 首先,我们采用了双分支设计,包括一个透视视频和一个全景视频去噪分支,为360度视频生成提供局部和全局约束,并通过在扩展的网络360度视频上微调的运动模块和空间LoRA层。2) 此外,设计了一个对映掩码来捕捉长程运动依赖关系,增强了对映像素在半球之间的反向相机运动。3) 为了处理多样化的透视视频输入,我们提出了适应不同视频掩码的仰角感知设计,这是由于帧间仰角变化引起的。大量实验表明,Imagine360在现有最先进的360度视频生成方法中实现了卓越的图形质量和运动连贯性。我们相信Imagine360有潜力推动个性化、沉浸式360度视频创作的发展。

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

TokenFlow: 多模态理解和生成的统一图像编码器

我们提出了 TokenFlow,这是一种新颖的统一图像编码器,它弥合了多模态理解和生成之间长期存在的差距。先前的研究尝试使用单一的重建导向向量量化 (VQ) 编码器来统一这两个任务。我们观察到,理解和生成需要截然不同的视觉信息粒度。这导致了一个关键的权衡,特别是在多模态理解任务中显著影响了性能。TokenFlow 通过一种创新的二重码本架构来应对这一挑战,该架构分别学习语义和像素级特征,同时通过共享映射机制保持它们的对齐。这种设计使得通过共享索引可以直接访问对理解任务至关重要的高级语义表示和生成任务所需的细粒度视觉特征。我们的广泛实验证明了 TokenFlow 在多个维度上的优越性。利用 TokenFlow,我们首次证明了离散视觉输入在理解性能上可以超越 LLaVA-1.5 13B,平均提高了 7.2%。对于图像重建,我们在 384384 分辨率下达到了 0.63 的强 FID 分数。此外,TokenFlow 在自回归图像生成方面建立了最先进的性能,在 256256 分辨率下达到了 0.55 的 GenEval 分数,与 SDXL 取得了可比的结果。

VisionZip: Longer is Better but Not Necessary in Vision Language Models

VisionZip: Longer is Better but Not Necessary in Vision Language Models

近期视觉语言模型的进展通过增加视觉 Token 的长度提升了性能,使其长度远超文本 Token,并显著提高了计算成本。然而,我们观察到,流行的视觉编码器如 CLIP 和 SigLIP 生成的视觉 Token 存在显著冗余。为此,我们提出了 VisionZip,一种简单而有效的方法,通过选择一组信息丰富的 Token 输入语言模型,减少视觉 Token 的冗余,提高效率的同时保持模型性能。VisionZip 可广泛应用于图像和视频理解任务,特别适合现实场景中的多轮对话,在这些场景中,现有方法往往表现不佳。实验结果表明,VisionZip 在几乎所有设置下性能提升至少 5%。此外,我们的方法显著提升了模型推理速度,将预填充时间提升至 8 倍,并使 LLaVA-Next 13B 模型在推理速度上超过 LLaVA-Next 7B 模型,同时性能更优。进一步地,我们分析了这种冗余的原因,并鼓励社区关注于提取更好的视觉特征,而非仅仅增加 Token 长度。我们的代码可在 https://github.com/dvlab-research/VisionZip 获取。

Florence-VL: 增强视觉-语言模型的生成式视觉编码器与深度-广度融合

Florence-VL: 增强视觉-语言模型的生成式视觉编码器与深度-广度融合 我们提出了 Florence-VL,这是一个新的多模态大语言模型 (MLLMs) 家族,其视觉表示由 Florence-2 生成式视觉基础模型增强。与广泛使用的 CLIP 风格视觉 Transformer 不同,后者通过对比学习训练,Florence-2 能够捕捉不同层次和方面的视觉特征,这些特征更具适应性,可以应用于多样化的下游任务。我们提出了一种新颖的特征融合架构和一种创新的训练方法,能够有效地将 Florence-2 的视觉特征整合到预训练的大语言模型中,如 Phi 3.5 和 LLama 3。特别是,我们提出了“深度-广度融合 (DBFusion)”,以融合从不同深度和多个提示下提取的视觉特征。我们的模型训练包括对整个模型的端到端预训练,随后在精心设计的多样化开源数据集上对投影层和大语言模型进行微调,这些数据集包括高质量的图像标题和指令微调对。我们对 Florence-VL 视觉特征的定量分析和可视化显示,在视觉-语言对齐方面,它优于流行的视觉编码器,其中丰富的深度和广度发挥了重要作用。Florence-VL 在涵盖一般 VQA、感知、幻觉、OCR、图表、知识密集型理解等多个多模态和视觉中心基准测试中,显著优于现有的最先进 MLLMs。为了促进未来的研究,我们的模型和完整的训练方法已开源。 https://github.com/JiuhaiChen/Florence-VL

NVILA: Efficient Frontier Visual Language Models

NVILA: 高效前沿视觉语言模型

视觉语言模型 (VLMs) 近年来在准确度方面取得了显著进展。然而,它们的效率较少受到关注。本文介绍了 NVILA,这是一系列旨在优化效率和准确度的开源 VLMs。在 VILA 的基础上,我们首先通过提高空间和时间分辨率来改进其模型架构,然后压缩视觉 Token。这种“先扩展再压缩”的方法使 NVILA 能够高效处理高分辨率图像和长视频。我们还系统地研究了如何提高 NVILA 在其整个生命周期中的效率,从训练和微调到部署。NVILA 在广泛的图像和视频基准测试中与许多领先的开放和专有 VLMs 相比,其准确度相当或超越。同时,它将训练成本降低了 4.5 倍,微调内存使用量减少了 3.4 倍,预填充延迟减少了 1.6-2.2 倍,解码延迟减少了 1.2-2.8 倍。我们即将发布我们的代码和模型,以促进可重复性。

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Code-as-Monitor: 约束感知的视觉编程用于反应性和前瞻性机器人故障检测

在闭环机器人系统中,自动检测和预防开放集 (open-set) 故障至关重要。最近的研究往往难以同时实现对发生后意外故障的反应性 (reactive) 检测和预防可预见故障的前瞻性 (proactive) 检测。为此,我们提出了 Code-as-Monitor (CaM),一种利用视觉语言模型 (VLM) 进行开放集反应性和前瞻性故障检测的新范式。我们方法的核心是将这两项任务制定为统一的时空约束满足问题集 (spatio-temporal constraint satisfaction problems),并使用 VLM 生成的代码对其进行实时评估。为了提高监控的准确性和效率,我们进一步引入了约束元素,将约束相关实体或其部分抽象为紧凑的几何元素。这种方法提供了更大的通用性,简化了跟踪,并通过将这些元素作为视觉提示来促进约束感知的视觉编程 (constraint-aware visual programming)。实验表明,与三个模拟器和真实世界环境中的基线 (baselines) 相比,CaM 在严重干扰下实现了 28.7% 的成功率提升和 31.8% 的执行时间减少。此外,CaM 可以与开环控制策略集成,形成闭环系统,从而在动态环境中实现杂乱场景中的长期任务。

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Aguvis: 统一纯视觉智能体用于自主图形用户界面交互

图形用户界面 (GUIs) 是人与计算机交互的关键,但视觉环境的复杂性和多变性使得自动化 GUI 任务仍具挑战。现有方法常依赖 GUI 的文本表示,导致泛化性、效率和可扩展性受限。本文介绍 Aguvis,一个基于统一纯视觉的框架,用于跨平台自主 GUI 智能体。我们的方法利用图像观察,将自然语言指令与视觉元素对齐,并采用一致动作空间确保跨平台泛化。为解决先前工作局限,我们在模型中集成显式规划和推理,增强其自主导航和与复杂数字环境交互的能力。我们构建大规模 GUI 智能体轨迹数据集,结合多模态推理和对齐,采用两阶段训练流水线,先关注通用 GUI 对齐,后进行规划和推理。通过全面实验,我们展示 Aguvis 在离线和真实世界在线场景中均超越先前最先进方法,据我们所知,实现首个独立执行任务的完全自主纯视觉 GUI 智能体,无需外部闭源模型协作。我们开源所有数据集、模型和训练配方,以促进未来研究,网址为 https://aguvis-project.github.io/。

Evaluating Language Models as Synthetic Data Generators

Evaluating Language Models as Synthetic Data Generators

鉴于合成数据在语言模型 (LM) 训练后的应用日益广泛,LM 生成高质量数据的能力与其直接解决问题的能力同样重要。尽管先前研究侧重于开发有效的数据生成方法,但它们缺乏在统一环境下对不同 LM 作为数据生成器的系统比较。为填补这一空白,我们提出了 AgoraBench,这是一个基准,提供了标准化的环境和指标来评估 LM 的数据生成能力。通过使用 6 个 LM 生成 126 万个训练实例并训练 99 个学生模型,我们揭示了关于 LM 数据生成能力的关键见解。首先,我们观察到 LM 展现出不同的优势。例如,GPT-4o 擅长生成新问题,而 Claude-3.5-Sonnet 在改进现有问题方面表现更好。此外,我们的分析表明,LM 的数据生成能力与其问题解决能力并不必然相关。相反,多个内在的数据质量特征——包括响应质量、困惑度 (perplexity) 和指令难度——共同作为更好的指标。最后,我们证明了在输出格式和成本敏感模型选择方面的策略选择显著影响数据生成效果。

A Noise is Worth Diffusion Guidance

噪声即扩散引导

扩散模型在生成高质量图像方面表现优异。然而,当前的扩散模型若无引导方法(如无分类器引导 (CFG)),则难以生成可靠图像。引导方法真的不可或缺吗?我们观察到,通过扩散反演获得的噪声即便在没有引导的情况下,也能重建出高质量图像。因此,我们将研究焦点转向去噪管道的初始噪声。通过将高斯噪声转换为“无引导噪声”,我们发现,微小的低幅度低频成分能显著提升去噪效果,从而无需引导,同时提升推理效率和内存利用率。基于此,我们提出了一种新方法 \ours,通过单一的初始噪声细化替代传统引导方法。这种经过细化的噪声使得在同一扩散流程中,无需引导即可生成高质量图像。我们的噪声细化模型采用高效的噪声空间学习策略,仅需 50K 文本-图像对数据,便能迅速收敛并展现出卓越性能。我们通过多维度指标验证了其有效性,并深入分析了细化噪声如何消除对引导的依赖。更多详情,请访问我们的项目页面:https://cvlab-kaist.github.io/NoiseRefine/。

你好,我是叶子,7年Java开发老司机,待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD,但现在工作重心逐渐往中间件开发转移。喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子的技术碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
720
每周AI论文速递(250210-250214)
每周AI论文速递(240902-240906)
科学文献理解对于提取目标信息和获得洞察力至关重要,从而显著推进科学发现。尽管大语言模型 (LLMs) 取得了显著的成功,但它们在理解科学文献方面面临挑战,主要是因为 (1) 缺乏科学知识,以及 (2) 不熟悉专门的科学任务。
叶子的技术碎碎念
2025/04/08
440
每周AI论文速递(240902-240906)
每周AI论文速递(240527-240531)
大型语言和视觉模型 (LLVMs) 的快速发展得益于视觉指令调优的进步。最近,开源的 LLVMs 整理了高质量的视觉指令调优数据集,并利用额外的视觉编码器或多个计算机视觉模型来缩小与强大的闭源 LLVMs 的性能差距。这些进步归因于多方面信息对多种能力的需求,包括基本的图像理解、关于常识和非对象概念(例如图表、图解、符号、标志和数学问题)的现实世界知识,以及解决复杂问题的逐步过程。基于多方面信息,我们提出了一种新的高效 LLVM,称为 Meteor,利用多方面推理来增强理解和回答能力。为了嵌入包含丰富信息的冗长推理,我们采用了 Mamba 架构,能够以线性时间复杂度处理顺序数据。我们引入了一种新的推理遍历概念,有助于高效地嵌入推理。随后,骨干多模态语言模型 (MLM) 通过推理生成答案进行训练。通过这些方法,Meteor 在多个需要多种能力的评估基准上实现了显著的视觉语言性能提升,而无需扩大模型规模或使用额外的视觉编码器和计算机视觉模型。
叶子的技术碎碎念
2025/04/08
650
每周AI论文速递(240527-240531)
每周AI论文速递(240617-240621)
在大规模语言模型和计算机视觉模型中,上下文学习范式取得了巨大成功,最近基于上下文的强化学习领域也迅速崛起。然而,由于缺乏具有挑战性的基准,这一领域的发展受到了限制,因为所有实验都在简单环境和小规模数据集上进行。我们提出了XLand-100B,一个基于XLand-MiniGrid环境的大规模数据集,作为解决这一问题的初步尝试。该数据集包含近30,000个不同任务的完整学习历史,涵盖了1000亿次转换和25亿个回合。收集这个数据集耗费了50,000 GPU小时,这超出了大多数学术实验室的能力范围。我们还提供了工具以再现或进一步扩展这个数据集。通过这一重大努力,我们希望促进基于上下文的强化学习研究的普及,并为进一步扩展提供坚实的基础。代码是开源的,可以在Apache 2.0许可证下使用,网址为https://github.com/dunno-lab/xland-minigrid-datasets。
叶子的技术碎碎念
2025/04/08
450
每周AI论文速递(240617-240621)
每周AI论文速递(250331-250404)
大语言模型 (Large Language Models, LLMs) 的出现引发了人工智能领域的变革,推动了一系列具备复杂推理能力、强健感知能力和跨领域多任务执行能力的先进智能体的发展。随着这类智能体在 AI 研究和实际应用中的作用日益凸显,其设计、评估与持续改进过程也面临着多维度、高复杂度的挑战。本综述采用模块化的类脑架构框架,融合认知科学、神经科学与计算研究的核心原理,对智能体技术进行全面梳理。研究内容分为四个相互关联的部分:首先解析智能体的模块化基础架构,通过系统化映射其认知、感知与执行模块与人脑功能的对应关系,深入阐释记忆系统、世界模型、奖励机制及类情绪系统等核心组件;其次探讨智能体的自我增强与自适应进化机制,重点分析其通过自动化优化范式(包括新兴的 AutoML 和大语言模型驱动的优化策略)实现能力自主提升、动态环境适应与持续学习的方法;第三部分研究协作型进化多智能体系统,揭示智能体通过交互协作与社会化组织产生的群体智能,及其与人类社交行为的相似性;最后针对 AI 系统的安全性、可靠性及社会效益这一关键命题,系统分析内生与外源安全威胁、伦理对齐要求、系统鲁棒性保障等核心问题,提出确保实际部署可信度的有效缓解策略。
叶子的技术碎碎念
2025/04/08
1410
每周AI论文速递(250331-250404)
每周AI论文速递(240610-240614)
最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为此,我们提出了一种新的方法,通过Mixture-of-Agents (MoA) 方法来利用多个LLMs的集体优势。在我们的方法中,我们构建了一个分层的MoA架构,每层包含多个LLM智能体。每个智能体在生成响应时将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能,超过了GPT-4 Omni。例如,我们仅使用开源LLMs的MoA在AlpacaEval 2.0中以65.1%的得分显著领先,而GPT-4 Omni的得分为57.5%。
叶子的技术碎碎念
2025/04/08
620
每周AI论文速递(240610-240614)
每周AI论文速递(240729-240802)
https://github.com/careywyr/AI-Weekly-Paper
叶子的技术碎碎念
2025/04/08
670
每周AI论文速递(240729-240802)
每周AI论文速递(241007-241011)
大型神经网络在浮点张量乘法上耗费了大量计算资源。在本研究中,我们发现浮点乘法器可以通过一个高精度的整数加法器来近似实现。我们提出了线性复杂度乘法 L-Mul 算法,该算法通过整数加法操作来近似浮点数乘法。新算法在计算资源消耗上显著低于 8 位浮点乘法,但精度更高。与 8 位浮点乘法相比,所提出的方法在精度上更高,但在位级计算上消耗显著更少。由于浮点数乘法所需的能量远高于整数加法操作,因此在张量处理硬件中应用 L-Mul 操作,通过逐元素浮点张量乘法可以潜在地减少 95% 的能量成本,点积的能量成本可以减少 80%。我们计算了 L-Mul 的理论误差期望,并在广泛的文本、视觉和符号任务中评估了该算法,包括自然语言理解、结构推理、数学和常识问答。我们的数值分析实验与理论误差估计一致,表明具有 4 位尾数的 L-Mul 可以达到与 float8_e4m3 乘法相当的精度,而具有 3 位尾数的 L-Mul 优于 float8_e5m2。在流行基准上的评估结果显示,直接将 L-Mul 应用于注意力机制几乎是无损的。我们进一步展示,在 Transformer 模型中用 3 位尾数的 L-Mul 替换所有浮点乘法,在微调和推理中均能达到与使用 float8_e4m3 作为累加精度相同的精度。
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(241007-241011)
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
600
每周AI论文速递(250113-250117)
每周AI论文速递(250224-250228)
LLM-Microscope: 揭示 Transformer 上下文记忆中标点符号的隐藏作用
叶子的技术碎碎念
2025/04/08
430
每周AI论文速递(250224-250228)
每周AI论文速递(240812-240816)
GPT-4o 的卓越多模态能力和交互体验,凸显了其在实际应用中的重要性,但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA,是首个开源的多模态大语言模型(MLLM),能够同时处理和分析视频、图像、文本和音频,并提供先进的多模态交互体验。我们从 Mixtral 8x7B 这一语言模型基础出发,扩展其中文词汇,并进行了双语指令调整。通过多模态对齐和指令调整的两阶段多任务学习,我们进一步赋予了该模型视觉和听觉能力。VITA 在多种单模态和多模态基准测试中表现出色,显示出其强大的多语言、视觉和听觉理解能力。此外,我们在提升自然多模态人机交互体验方面取得了显著进展,首次在 MLLM 中实现了非唤醒交互和音频中断功能。VITA 标志着开源社区在探索多模态理解和交互无缝集成方面迈出了第一步。尽管 VITA 仍需大量工作以接近闭源模型的水平,但我们相信其作为先驱的角色将为后续研究奠定坚实基础。项目页面:https://vita-home.github.io。
叶子的技术碎碎念
2025/04/08
860
每周AI论文速递(240812-240816)
每周AI论文速递(250324-250328)
大语言模型 (LLMs) 在自然语言处理领域取得了突破性进展。近期研究推动了一类新型推理大语言模型的发展:例如,开源模型 DeepSeek-R1 通过融合深层语义理解与复杂逻辑推理,实现了当前最优性能。尽管这些能力表现卓越,其内部推理机制仍缺乏系统性研究。本文采用稀疏自编码器 (SAEs) —— 一种将神经网络潜在表征解耦为稀疏可解释特征的技术,用于识别 DeepSeek-R1 系列模型中的核心推理特征。我们首先提出从 SAE 表征中提取候选“推理特征”的方法,并通过实证分析与可解释性技术验证这些特征与模型推理能力的直接关联。关键贡献在于,通过调控这些特征可显著提升推理性能,首次为大语言模型的推理机制提供了可解释性论证。代码发布于 https://github.com/AIRI-Institute/SAE-Reasoning
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(250324-250328)
每周AI论文速递(250310-250314)
随着先进的大语言模型的兴起,生成文本检测变得越来越重要。尽管有许多努力,但没有单一算法在不同类型的未见文本上表现一致,或保证对新的大语言模型的有效泛化。可解释性在实现这一目标中起着关键作用。在本研究中,我们通过使用稀疏自编码器从 Gemma-2-2b 残差流中提取特征来增强生成文本检测的可解释性。我们识别了具有可解释性和高效性的特征,通过领域和模型特定的统计、引导方法以及手动或基于大语言模型的解释来分析它们的语义和相关性。我们的方法提供了关于来自各种模型的文本与人类撰写内容如何不同的宝贵洞察。我们展示了现代大语言模型具有独特的写作风格,尤其是在信息密集的领域中,尽管它们可以通过个性化提示生成类似人类的输出。
叶子的技术碎碎念
2025/04/08
920
每周AI论文速递(250310-250314)
每周AI论文速递(241223-241227)
自回归模型是视觉生成的一种强大方法,但由于其逐 Token 的序列预测过程,导致推理速度较慢。在本文中,我们提出了一种简单而有效的并行化自回归视觉生成方法,该方法在保持自回归建模优势的同时提高了生成效率。我们的核心观点是,并行生成依赖于视觉 Token 的依赖关系——依赖关系较弱的 Token 可以并行生成,而依赖关系较强的相邻 Token 则难以并行生成,因为它们的独立采样可能导致不一致性。基于这一发现,我们开发了一种并行生成策略,该策略并行生成依赖关系较远的 Token,同时对依赖关系较强的局部 Token 保持序列生成。我们的方法可以无缝集成到标准的自回归模型中,而无需修改架构或 Tokenizer。在 ImageNet 和 UCF-101 数据集上的实验表明,我们的方法在图像和视频生成任务中实现了 3.6 倍的加速,且质量相当;在质量轻微下降的情况下,加速比可达 9.5 倍。我们希望这项工作能够激发未来在高效视觉生成和统一自回归建模方面的研究。项目页面:https://epiphqny.github.io/PAR-project。
叶子的技术碎碎念
2025/04/08
1040
每周AI论文速递(241223-241227)
每周AI论文速递(250317-250321)
本文提出 RWKV-7 "Goose"新型序列建模架构及其预训练语言模型。该模型在 30 亿参数规模下实现了多语言任务下游性能的新突破,其英语任务表现与当前最优模型相当,但训练 token 量显著少于同类 30 亿参数模型。值得注意的是,RWKV-7 模型仅需恒定内存开销和恒定时间完成每个 token 的推理。该架构创新性地提出了具有向量门控和上下文学习率的广义 delta 规则,以及宽松的值替换规则。实验证明 RWKV-7 能实现状态追踪并识别所有正则语言,同时保持训练过程的可并行性。这一特性超越了标准复杂度假设下 Transformer 的能力边界(后者仅限于
叶子的技术碎碎念
2025/04/08
400
每周AI论文速递(250317-250321)
每周AI论文速递(240819-240823)
xGen-MM (BLIP-3): 一个开放的大型多模态模型家族 本报告介绍了 xGen-MM(又称 BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架整合了精心策划的数据集、训练方案、模型架构以及一系列由此产生的 LMMs。xGen-MM,简称 xGen-MultiModal,是 Salesforce xGen 在基础 AI 模型领域倡议的扩展。我们的模型在包括单图像和多图像基准在内的多种任务上进行了严格的评估。我们的预训练基础模型展现了强大的情境学习能力,并且指令调整模型在相同模型大小的开源 LMMs 中展现了竞争性的性能。此外,我们引入了一个采用 DPO 进行安全调整的模型,旨在减少如幻觉等有害行为并增强安全性。我们开放了我们的模型、精心策划的大规模数据集以及我们的微调代码库,以推动 LMM 研究的进一步发展。相关资源将在我们的项目页面上提供。
叶子的技术碎碎念
2025/04/08
550
每周AI论文速递(240819-240823)
每周AI论文速递(250203-250207)
测试时间缩放是一种创新的语言建模方法,通过额外的计算资源提升模型性能。近期,OpenAI 的 o1 模型展示了这一技术潜力,但其具体实现细节尚未公开,引发了学术界的广泛关注和复现工作。 本研究旨在探索实现高效推理的最佳实践方案。首先,我们构建了一个高质量数据集 s1K,包含 1,000 个典型问题样本,每个样本都配备完整的推理轨迹。这些数据经过严格筛选,确保在难度、多样性和质量方面达到最优平衡。 在此基础上,我们提出了一种新型预算管理机制——预算强制算法。该方法通过动态调整计算资源,在模型生成过程中实现自动优化:当检测到模型输出接近完成时,系统会智能选择是继续推理还是终止过程,从而有效提升结果质量。 实验结果表明,采用这一改进方案后,模型在数学推理任务中的表现显著提升,在 MATH 和 AIME24 数据集上较 o1- preview 基线最高提升了 27%。进一步的扩展测试显示,通过优化预算管理策略,模型性能还可继续提升:AIME24 测试中准确率从 50% 提升至 57%。 该研究全部成果已开源发布,包括完整代码、数据集和实验配置,助力学术界共同推进相关研究工作。访问 https://github.com/simplescaling/s1 即可获取全部资料。 本研究的成功表明,在保持计算效率的同时实现性能提升是完全可行的,为未来语言模型优化提供了新的思路和方法论参考。
叶子的技术碎碎念
2025/04/08
500
每周AI论文速递(250203-250207)
每周AI论文速递(241104-241108)
当前构建 GUI 智能体的工作主要依赖于如 GPT-4o 和 GeminiProVision 等稳健的商业视觉语言模型 (VLM)。由于开源 VLM 在 GUI 接地和分布外 (OOD) 场景中与闭源 VLM 相比存在显著性能差距,实践者通常不愿使用开源 VLM。为推动该领域研究,我们开发了 OS-Atlas——一个在 GUI 接地和 OOD 智能体任务中表现卓越的基础 GUI 动作模型,这归功于数据和建模方面的创新。我们投入大量工程资源,开发了一个开源工具包,用于跨 Windows、Linux、MacOS、Android 和 Web 等多个平台合成 GUI 接地数据。利用此工具包,我们发布了迄今最大的开源跨平台 GUI 接地语料库,包含超过 1300 万个 GUI 元素。该数据集与模型训练创新相结合,为 OS-Atlas 理解 GUI 截图并泛化至未见界面提供了坚实基础。在涵盖移动设备、桌面设备和 Web 三个平台的六个基准上进行广泛评估后,OS-Atlas 显示出相较于之前最先进模型的显著性能提升。我们的评估还揭示了持续改进和扩展开源 VLM 智能体能力的宝贵见解。
叶子的技术碎碎念
2025/04/08
520
每周AI论文速递(241104-241108)
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(241216-241220)
每周AI论文速递(240930-241004)
尽管下一个 Token 预测被视为通向人工通用智能的有力途径,但在多模态任务中,它一直难以超越扩散模型(如 Stable Diffusion)和组合方法(如 CLIP 与大语言模型的结合)。本文中,我们推出了 Emu3,这是一系列仅通过下一个 Token 预测训练的尖端多模态模型。通过将图像、文本和视频 Token 化为离散空间,我们在多模态序列混合上从头训练了一个单一的 Transformer。Emu3 在生成和感知任务中超越了多个已有的任务特定模型,包括 SDXL 和 LLaVA-1.6 等旗舰模型,同时无需扩散或组合架构。Emu3 还能通过预测视频序列中的下一个 Token 生成高保真视频。我们通过专注于 Token 这一核心,简化了多模态模型的设计,释放了在训练和推理中扩展的巨大潜力。我们的研究结果表明,下一个 Token 预测是构建超越语言的通用多模态智能的有力途径。我们开源了关键技术和模型,以推动这一领域的深入研究。
叶子的技术碎碎念
2025/04/08
410
每周AI论文速递(240930-241004)
相关推荐
每周AI论文速递(250210-250214)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档