作者:NextStep-Team
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2508.10711 项目链接:https://stepfun.ai/research/en/nextstep1 Git链接: https://github.com/stepfun-ai/NextStep-1
亮点直击
NextStep-1通过一种简单直观的架构(如下图2所示),将成熟的自回归语言建模范式扩展至图像生成。为了将多模态输入统一为单一序列,图像会通过图像tokenizer被编码为连续的图像token,并与离散的文本token结合。假设是多模态token序列,其中可以是离散的文本token或连续的视觉token,统一序列下的自回归目标可形式化为:
统一多模态生成任务通过从网络建模的条件分布中采样下一个token进行。离散文本token通过语言建模头采样,而连续图像token则通过流匹配头采样。
本文训练目标包含两种不同的损失:针对离散文本token的标准交叉熵损失,以及针对连续图像token的流匹配损失。流匹配损失是预测速度向量与目标速度向量之间的均方误差,这些向量将带噪声的图像块映射到对应的干净图像块。模型通过优化这两种损失的加权和进行端到端训练。
其中和分别表示文本和图像token的损失,通过超参数和进行平衡。
图像Token化器:本文的图像tokenizer 基于flux VAE微调而来,仅使用重建损失和感知损失。该tokenizer 首先将图像编码为16通道的潜在表示,并应用8倍空间下采样。为了稳定和归一化隐空间,本文对每个通道进行通道归一化处理,使其均值为0、方差为1。此外,为了增强图像tokenizer 的鲁棒性并促进更均匀的潜在分布,对归一化后的潜在表示引入随机扰动。该技术源自-VAE,其作用是防止方差塌缩。
其中为标准高斯噪声,其强度通过从均匀采样的随机因子进行缩放。是控制最大噪声强度的超参数。
图像tokenizer 输出的潜在表示通过像素重组(pixel-shuffle)转换为更紧凑的序列。这是通过应用2×2核的空间到深度变换实现的,该变换将2×2空间潜在表示展平到通道维度。例如,这将256×256图像的潜在表示转换为16×16网格的64通道token。该网格随后被展平为256个token的一维序列,作为后续因果Transformer的输入。
因果Transformer:从仅解码器的Qwen2.5-14B初始化模型,利用其强大的语言理解和推理能力进行文本到图像生成。我们按照以下格式组织多模态输入序列:
{text} <image_area>h*w <boi> {image} <eoi>...
其中{text}
表示离散文本token,{image}
表示连续图像token。<boi>
和<eoi>
是特殊token,分别标记图像的开始和结束。<image_area>h*w
表示关于2D图像token空间维度的元数据。
然后,来自LLM的输出隐藏状态被传递到两个轻量级头部以计算模态特定的损失:
对于位置信息,使用标准的1D RoPE。尽管存在更复杂的2D或多模态RoPE替代方案,我们发现简单的1D公式对于混合文本-图像序列仍然非常有效,因此为了简单和效率而保留它。
为了全面赋予模型广泛且多功能的生成能力,构建了一个由四大类数据组成的多样化训练语料库:纯文本语料、图文对数据、图像到图像数据以及交错数据。每类数据都经过精心设计,用于培养模型不同方面的生成能力。
为了保留大语言模型(LLM)固有的广泛语言能力,在训练中加入了从Step-3采样的4000亿纯文本token。
由图文对组成的数据构成了模型文本到图像生成能力的基础。我们开发了一个全面的数据处理流程,从多样化的初始来源中筛选出高质量、大规模的数据集:
这个多阶段流程最终产生了5.5亿个高质量的图文对数据集,为训练兼具审美感知和广泛世界知识的模型奠定了基础。
为了实现广泛的实际应用为指令引导的图像到图像任务(如视觉感知、可控图像生成、图像恢复、通用图像编辑等)筛选了高质量数据集。
对于视觉感知和可控图像生成任务,通过对部分高质量图文对数据应用ControlNet的标注工具合成了100万个样本。对于图像恢复和通用图像编辑,我们收集了350万个样本,包括来自GPT-Image-Edit、Step1X-Edit和专有内部数据集的数据。按照Step1X-Edit的方法,所有编辑数据都经过基于VLM的严格筛选流程,评估图像对质量、合理性、一致性和指令对齐程度,最终得到约100万条高质量的指令引导图像到图像训练数据。
交错数据无缝整合了文本和图像,提供了模态间丰富而细致的序列关联。具体而言,我们知识丰富的交错数据集主要由四类组成:通用视频交错数据、教程、以角色为中心的场景和多视角数据。
为了赋予模型广泛的世界知识,首先构建了包含8000万样本的大规模视频交错数据集。这一成果通过借鉴Step-Video的精心设计流程实现,包括帧提取、去重和标注。此外,遵循mmtextbook的方法论,利用ASR和OCR工具收集并处理教程视频,这部分特别针对富含文本的真实场景,增强了模型在上下文中的文本理解和生成能力。
如下图3所示,以角色为中心的数据集NextStep-Video-Interleave-5M。对于该数据集,提取了以特定角色为中心的视频帧,并生成类似(Oliveira and de Matos, 2025)的富有故事性的描述,从而显著提升了模型的多轮交互能力。最后,为了加强几何推理能力,从两个开源数据集MV-ImageNet-v2和Objaverse-XL中筛选了多视角数据,增强了模型保持多视角一致性的能力。
本文的图像tokenizer 基于Flux.1-dev VAE初始化,选择该模型因其出色的重建性能。我们在3.2节详述的图文数据集上对其进行微调,使其适应我们的数据分布。优化采用AdamW优化器(Loshchilov and Hutter, 2019),参数为以确保收敛稳定性。模型训练50K步,总批次大小为512,使用恒定学习率,并包含1000步的线性预热。
预训练的具体超参数和数据比例如下表1所示。预训练采用三阶段课程学习,逐步提升模型能力。除预训练的图像tokenizer 外,所有模型参数均端到端训练。
阶段1:在此初始阶段,模型学习图像结构和构图的基础理解。为计算效率,所有图像调整为256×256分辨率并随机裁剪。训练数据混合比例为:20%纯文本语料、60%图文对和20%交错数据。本阶段消耗约1.23T token。
阶段2:采用动态分辨率策略,训练模型处理256×256和512×512基础区域的高分辨率图像,使用不同宽高比分桶提升计算效率。本阶段增加富含文本的视频交错数据,利用模型增强的细节处理能力。
退火阶段:在预训练最后阶段,对精选的2000万样本(通过更严格的美学评分、图像清晰度、语义相似度等标准筛选)进行一轮退火训练,显著提升模型输出的图像结构、构图、纹理和美学吸引力。
预训练建立通用基础模型后,后训练通过两阶段过程使模型输出与人类偏好和下游任务对齐:监督微调(SFT)和直接偏好优化(DPO)。各阶段超参数见表1。
监督微调(SFT) :SFT阶段增强模型指令跟随能力并使其输出符合人类偏好。500万样本的SFT数据集包含三部分:
直接偏好优化(DPO) :采用受Diffusion-DPO启发的DPO方法,基于约2万条精选提示构建两类偏好数据集:
我们在多个代表性基准上全面评估NextStep-1的文本到图像(T2I)生成性能,每个基准针对图像生成的不同方面,包括视觉-文本对齐和世界知识。
图像-文本对齐:如下表2所示,在三个关键基准上评估NextStep-1的提示跟随能力。在GenEval上,NextStep-1得分为0.63(使用Self-CoT时为0.73),展示了强大的计数、定位和空间对齐能力。其出色的组合能力在GenAI-Bench上进一步验证,基础提示得分为0.88,高级提示得分为0.67(使用Self-CoT时为0.9和0.74)。这些结果表明NextStep-1作为自回归图像生成模型的卓越性能,与Stable Diffusion 3.5 Large和BAGEL等扩散模型竞争。最后,在针对长上下文、多对象场景的DPG-Bench上,NextStep-1得分为85.28,确认了其在复杂提示下可靠的组合保真度。
为进行细粒度分析,在OneIG-Bench上使用英文提示评估模型。该基准评估对齐、文本渲染、推理和风格控制等领域的性能。如下表3所示,NextStep-1总体得分为0.417,显著优于其他自回归模型,如Emu3(0.311)和Janus-Pro(0.267)。
世界知识:为评估NextStep-1将世界知识融入图像生成的能力,我们使用WISE基准,其强调事实基础和语义理解。如下表4所示,NextStep-1以总体得分0.54(使用Self-CoT时为0.67)在自回归模型中表现最佳,并超过大多数扩散模型。值得注意的是,在提示重写协议下,其得分提升至0.79(使用Self-CoT时为0.83)。这些结果共同证明了NextStep-1强大的知识感知语义对齐和跨领域推理能力。
编辑基准定量结果:通过前面100万高质量编辑数据上微调NextStep-1开发了NextStep-1-Edit,其性能与先进的基于扩散的模型竞争。如下表5所示,NextStep-1-Edit在GEdit-Bench-EN上得分为6.58,在ImgEdit-Bench上得分为3.71,表明其强大的实际编辑能力。
本框架的关键架构特点在于使用流匹配(flow matching)目标直接对连续图像token进行自回归建模。当前主流的图像生成自回归模型通常依赖重型扩散模型处理完整图像:自回归模型首先生成语义嵌入,再通过单次去噪过程的扩散模型生成完整图像。相比之下,模型以分块(patch-by-patch)方式自回归生成图像,用轻量级流匹配模型建模每个图像块的分布。这确立了我们在纯自回归范式下的框架,而非由Transformer编排的扩散模型。
实验关键发现是模型对流匹配头尺寸的惊人低敏感性。我们对比了小型、基础和大型三种头尺寸,每种仅重新初始化并训练1万步。尽管模型尺寸差异显著,三者结果高度相似(下表7,图4)。这种不敏感性表明Transformer主干承担了条件分布的核心生成建模,而流匹配头类似语言模型中的LM头,主要作为轻量级采样器将Transformer的上下文预测转化为连续token。因此,核心生成逻辑存在于Transformer的自回归下一token预测(NTP)过程中。
缓解强分类器无关引导下的不稳定性:基于VAE的自回归模型已知的失效模式是在强分类器无关引导(CFG)尺度下出现灰色斑块等伪影。先前研究假设这种不稳定性源于1D位置编码的不连续性,而我们的分析表明根本原因在于高引导尺度下token级分布偏移的放大。
在推理时,CFG通过插值计算引导预测以增强条件保真度。具体而言,给定无条件和有条件隐藏状态和,引导预测计算为:
其中为引导尺度。当隐空间存在分布偏移时,和的差异会被线性放大,导致超出训练数据分布的异常值。我们的tokenizer通过通道归一化和随机扰动确保隐空间分布紧密,显著抑制了这种伪影(下图5)。
隐空间维度的权衡:更高维隐空间能提升重建质量但增加训练难度。我们比较了4/8/16通道的tokenizer变体,发现16通道版本在保持训练稳定性的同时达到最佳FID分数(表8)。这归功于我们的空间到深度变换和通道归一化设计,使高维隐空间保持稳定训练动态。
其中和分别表示无条件预测和条件预测,为引导尺度。在扩散模型中,高引导尺度的推理是稳定的,因为潜在变量通常经过归一化处理,确保条件预测和无条件预测保持一致的尺度。然而,在token级自回归模型中,对整个潜在张量的全局归一化并不能保证每个token的统计一致性。因此,条件预测和无条件预测之间的微小差异会被大引导尺度放大,导致生成token的统计特性在序列生成过程中发生显著漂移。
通过上面图5实证展示了这一现象。在中等引导尺度1.5下,每个token的均值和方差在整个生成过程中保持稳定;而在高引导尺度3.0下,后续token的统计量显著发散,这种分布偏移直接对应视觉伪影的出现。我们的tokenizer设计通过通道归一化(见公式(3))强制实现每个token的统计稳定性,从根本上解决了这一问题。这一简单但关键的设计选择缓解了不稳定性,使得在保持图像质量的前提下可以使用强引导。
正则化隐空间对生成至关重要:本工作中一个反直觉的发现是生成损失与最终合成质量呈现负相关。在tokenizer训练中应用更高噪声强度(公式(3)中的)会增加生成损失,但反而提高了生成图像质量。例如NextStep-1采用训练的tokenizer,虽然生成损失最高但产生了最高保真度的图像;而追求低生成损失的tokenizer会导致自回归模型输出类似纯噪声的结果。
此现象归因于噪声正则化培育了良好条件的隐空间,增强了两个关键特性:tokenizer解码器对潜在扰动的鲁棒性(下图6)以及更分散的潜在分布(下图7)——这一特性也被先前研究证明有益于生成。虽然尚不清楚鲁棒性或分散性哪个起主导作用,但这些结果明确了基于噪声的正则化的实用价值。
重建质量决定生成质量上限:图像tokenizer的重建保真度从根本上决定了最终生成图像的质量上限,特别是对细节和纹理的还原。这一原则已被近期多项研究验证,促使扩散模型范式转向采用重建性能优异的VAE(如PSNR>30)。相比之下,如下表8所示,基于VQ的自回归模型长期难以突破这一阈值。尽管重建质量与生成质量的权衡常被讨论,本文的工作成功将自回归模型应用于高保真连续VAE,弥合了这一差距。
生成伪影:虽然NextStep-1证明自回归模型可在高维连续隐空间中实现媲美扩散模型的生成质量,但该方法也带来独特的稳定性挑战。当从低维隐空间VAE(如下采样因子8、4通道)转向高维配置(如下采样因子8、16通道)时,我们观察到几种独特的生成伪影。前者输出稳定,后者偶尔会出现如下图8所示的失效模式。
潜在原因包括:
序列解码的推理延迟:在H100 GPU(983 TFLOPS,3.36 TB/s带宽)上对单批次推理的逐token延迟分析(下表9)显示,主要瓶颈来自LLM的串行解码,而流匹配头的多步采样也占显著成本。这提示两个优化方向:
高分辨率训练挑战:相比已建立成熟技术的扩散模型,本框架面临两大挑战:
监督微调(SFT)挑战:相比扩散模型,本自回归框架SFT表现出独特的不稳定动态:
因此,在保持通用生成能力的同时实现目标分布对齐的中间检查点选择仍是重大挑战。
[1] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。