作者:Yi Xin等
解读:AI生成未来

论文链接:https://arxiv.org/pdf/2507.17801 代码链接:https://github.com/Alpha-VLLM/Lumina-mGPT-2.0
亮点直击
Lumina-mGPT 是一系列开源的多模态自回归模型,是首批具备高质量、高分辨率和灵活宽高比图像生成能力的模型之一。Lumina-mGPT 的核心设计包括两个方面:灵活-渐进式监督微调(Flexible-Progressive Supervised FineTuning,FP-SFP),这是一种逐步提升图像分辨率的训练策略;以及清晰图像表示(Unambiguous image Representation,Uni-Rep),这是一种专门用于处理一维展平图像 token 所固有的二维形状歧义的图像表示机制,为模型理解和生成不同宽高比图像奠定了基础。然而,尽管该工作迈出了重要的一步,但仍存在以下不足:
Lumina-mGPT 初始化自预训练的 Chameleon 模型。与其他加载预训练权重的工作类似,这种选择带来了关键限制:模型架构及其相关组件(如图像/文本分词器)必须严格遵循预训练模型的设定,这不仅限制了模型定制(例如构建不同规模的模型)的可能性,也阻碍了探索更优设计的空间。此外,预训练模型还带来许可限制,限制了其在更广泛商业和实际应用中的可用性。
除了基本的文本生成图像(T2I)任务外,Lumina-mGPT 需要通过单独微调来扩展至不同的下游生成任务。它将这些任务视为条件扩展,并使用不同的检查点进行处理,而不是将它们整合进一个统一的训练范式中。这种分离阻碍了多任务目标与主图像生成任务之间的有效对齐,限制了模型整体的一致性和效率。
多模态自回归模型依赖于数千个下一个 token 的预测步骤,导致计算开销大、推理时间长。值得注意的是,已有大量推理优化技术可以显著减少采样时间或提高生成质量。然而,Lumina-mGPT 并未在此方向上进行探索。
尽管该模型在图像生成方面已取得突破性进展,但在性能上仍落后于当前最先进的扩散模型,如 Lumina-Image 2.0、Sana 和 DALL·E 3,因此仍有进一步提升的空间。
Lumina-mGPT 2.0 的方法论,其具有以下三个特征: 1)独立架构,2)统一多样的生成任务,3)优化的推理策略。
从零训练的纯解码器 Transformer 架构 Lumina-mGPT 2.0 在结构设计上延续了其前身 Lumina-mGPT 的思路,继续采用纯解码器 Transformer 架构,如下图 2 所示。

与依赖预训练 Chameleon 7B 和 34B 模型微调的 Lumina-mGPT 不同,Lumina-mGPT 2.0 是一个完全独立的模型。具体而言,Lumina-mGPT 2.0 采用从零开始训练的范式,参数随机初始化,带来了以下几个优势: 1)偏差减少:从零训练可最小化通常由预训练模型继承的偏差,从而提升图像生成性能; 2)架构灵活性:该方法允许在模型设计上灵活调整。例如,本文为 T2I 社区提供了一个更轻量的 20 亿参数版本的 Lumina-mGPT 2.0。此外,还可根据需要灵活集成更优的图像和文本分词器; 3)许可独立性:由于不依赖 Chameleon 模型,Lumina-mGPT 2.0 避免了任何潜在的许可限制。
重启使用 SBER-MoVQGAN 图像分词器 图像分词器的重建质量在决定生成质量上起着关键作用。由于 Lumina-mGPT 2.0 是一个独立模型,因此可以灵活选择分词器。为了实现高质量生成,本文对自回归框架中常用的图像分词器进行了全面的重建质量分析,包括 VQGAN、ViT-VQGAN、MaskGIT-VQ、LlamaGen-VQ、SBER-MoVQGAN 和 ChameleonVQ(后者用于 Lumina-mGPT)。在 MS-COCO 数据集上的对比结果(见下表 1 和下图 3)显示,SBER-MoVQGAN 目前是图像重建的 SOTA 模型。因此,Lumina-mGPT 2.0 采用了 SBER-MoVQGAN,以确保卓越的生成性能。然而,一个挑战在于其 的下采样比例,这会导致更长的图像 token 序列,从而增加推理时间和成本。


无预训练文本编码器 在 Lumina-mGPT 2.0 中,本文同时使用基于 token 的格式来表示文本和图像数据,如上图 2 所示。这种方法区别于一些传统的自回归方法,它们通常使用预训练的文本编码器来提取编码后的文本特征,并随后通过 MLP 将这些特征投射到模型中。而 Lumina-mGPT 2.0 直接采用 QwenTokenizer 对文本进行离散 token 编码。这种方法简化了流程,转变为纯粹的下一 token 预测范式,从而无需加载预训练文本编码器。
模型扩展性 为了展示本文独立自回归图像建模的可扩展性,本文在 Lumina-mGPT 2.0 系列中提供了两个模型规模:2B 和 7B。每个模型的超参数详见下表 2。扩展主要体现在模型维度的增加上。在实验过程中,本文观察到随着模型规模的增加,训练损失的收敛速度加快,生成图像的质量在连贯性、细粒度细节以及对精细提示的忠实度方面显著提升,详见下文。这些进展突显了本文模型强大的扩展能力。

Lumina-mGPT 2.0 的自回归架构有助于在联合序列生成框架中统一多种视觉任务。具体而言,本文利用自回归方法的一个关键优势:其图像 token 生成的自然顺序遵循光栅扫描方式。这确保了图像的上部区域优先生成,为后续的下部区域生成提供上下文指导,如下图 4 所示。

基于这一特性,本文将多种文本-图像到图像任务整合进本文的框架,包括主体驱动生成、图像编辑、可控生成以及密集预测任务。此外,这种特殊范式还能生成图像对,如下图 7 所示。对于多张图像,本文仅需将它们纵向拼接为图像网格以进行联合建模,从而确保上部图像区域在生成过程中充当上下文。在可控生成中,条件图像位于顶部,生成输出位于底部。类似地,对于深度估计等密集预测任务,原始图像位于顶部,对应的标签图位于底部。为了进一步区分这些任务类型,本文引入了 <system prompt>,如下表 3 所示。


这一统一范式支持原生的多任务训练(所有任务均视为文本到图像生成),使模型能够在无需额外架构调整的情况下,同时学习多种视觉任务。根据自回归模型中标准的 T2I 训练方式,损失仅对图像 token 进行计算,文本 token 保持不变。在推理阶段,该公式提供了一种灵活且动态的提示构建机制。用户可以显式指定 <system prompt> 来控制任务类型,并决定是否提供参考图像作为引导条件,如上图 2 所示。这一能力无缝衔接了可控生成与无条件生成之间的差距,拓展了 Lumina-mGPT 2.0 作为视觉通才的原生多任务能力。
生成前思考 图像生成类似于艺术创作,需要在执行前进行深入思考、概念化和反复打磨。然而,当前的图像生成模型通常缺乏这种创作前的推理过程,而是将文本提示视为直接指令,而非一个不断演化的思维过程。实际上,用户的提示往往是模糊的、含糊不清的,或者缺乏生成连贯且有意义图像所需的关键信息。受到大型语言模型中 Chain-of-Thought(CoT)推理显著进展的启发,本文引入了一种“生成前思考”的范式。
具体而言,本文并不直接将用户提示输入到 Lumina-mGPT 2.0 中,而是首先通过一个大型语言模型(GPT-4o)进行处理。该语言模型通过逐步推理系统性地分析和理解用户的潜在意图,最终生成一个更具连贯性、描述性和清晰度的精炼提示。例如,当遇到无意义的提示时,模型会推断出一个合理的解释;当提示存在歧义时,模型会进行澄清和扩展;当提示过于简单时,模型会通过加入必要元素丰富描述,详见下图 6。在此过程中,语言模型充当了一个推理引擎,逐步精炼提示,类似于艺术家逐步发展其构想的方式。通过整合这一反思性推理过程,本文的方法确保最终提示不仅结构更清晰、表达更丰富,而且更忠实于用户的原始意图。

推理时扩展 近期研究开始探索扩散模型中的推理时扩展行为,以及自回归与扩散模型的混合模型。在此基础上,本文首次尝试在 Lumina-mGPT 2.0 中探索纯自回归模型的推理时扩展行为。具体而言,给定一个文本提示,Lumina-mGPT 2.0 首先以随机方式生成一组多样化的候选图像。随后,本文采用 best-of-N 策略,由验证器评估生成的图像并选出最优结果。鉴于图像的固有复杂性以及文本条件中所蕴含的丰富语义信息,对生成质量进行更全面的评估至关重要。为此,本文整合了多个验证器,包括 VQAScore、LAION-AestheticScore、PickScore。
模型量化 为了优化 GPU 内存使用并加速推理,使用 TorchAo 对 Lumina-mGPT 2.0 的前向解码模块进行训练后量化。该方法将模型权重量化为 4 位整数,采用 128 元素分组,同时保持激活张量为 bfloat16 精度,以减轻潜在的质量下降。借助 PyTorch 2.0 的原生编译工具包,本文通过 torch.compile 的 reduce-overhead 模式引入量化操作,支持内核自动调优与静态图优化。值得注意的是,这一优化无需对模型架构进行任何修改。
Speculative Jacobi 解码 通过采用 Speculative Jacobi Decoding(SJD)来优化采样策略,该方法将确定性的 Jacobi 迭代与随机采样相结合。SJD 引入了一个概率收敛准则,根据草稿与目标 token 分布之间的似然比来接受 token,从而在保持样本多样性的同时实现并行解码。
在实践中,本文的目标是联合利用模型量化与 SJD 来加速采样。然而,SJD 的一个关键挑战在于其对动态 KV 缓存的固有需求。在传统的自回归解码中,KV 缓存通过附加新的 key 和 value 张量动态增长。而 SJD 在此基础上引入了迭代优化,其中 token 可能会根据收敛准则被接受或拒绝,因此需要一个灵活的缓存机制以处理可变序列长度和 token 回退。这种动态行为与诸如 torch.compile 等编译操作所施加的静态 KV 缓存约束存在冲突,这些操作要求预分配静态缓存以生成优化内核并最小化重新编译开销。
为了解决这一问题,提出了静态 KV 缓存与静态因果注意力掩码用于 SJD,使其与静态编译框架兼容。KV 缓存预分配固定大小的缓冲区,并使用基于指针的机制管理有效序列长度,从而避免动态调整。类似地,固定大小的注意力掩码在推理前预计算,推理过程中通过指针进行调整,以支持解码阶段,确保高效且并行的 token 预测。该设计在满足静态内存需求的同时,保持了 SJD 的高效性。
训练数据。 T2I 训练数据集是从 Lumina-Image 2.0 中提取的一个子集,由真实和合成数据组成。该数据集经过了使用 OmniCaptioner 精细过滤和重新生成描述。对于多任务训练,使用了不同的数据集:主体驱动生成任务使用 Subject200K,编辑任务使用 OminiEdit,可控生成和密集预测任务则从 T2I 数据集中随机采样了 200K 条数据。
训练细节。 近期研究表明,采用分层数据可以显著提升性能,尤其是在高保真图像合成方面。为此,本文训练流程采用了三阶段的分层策略:首先以 分辨率对模型进行预训练,学习率为 ,随后在 和 分辨率下进行微调,学习率降至 。全局 batch size 通过梯度累积在 到 之间动态调整。Lumina-mGPT 2.0 每个阶段的训练数据如下: 阶段使用 万条数据, 阶段使用 万条数据, 阶段使用 万条数据。随着数据集规模的减少,数据质量逐步提升。所有训练均在 64 块 A100 GPU 上进行分布式训练。
评估细节。本文采用多种 T2I 评估基准来评估 Lumina-mGPT 2.0,包括 GenEval 和 DPG,测试集分别包含 和 条提示。这些指标主要关注文本与图像之间的对齐程度。此外,本文还使用 GenEval 进行了全面的消融实验,以验证本文推理策略的有效性。对于多任务评估,本文引入了 VisualCloze 提出的基准,分别使用 个样本评估可控生成和主体驱动生成的能力。
文本生成图像。 在两个基准上将 Lumina-mGPT 2.0 与先进的 T2I 生成方法进行了比较,见下表 4。本文的模型在性能上可与自回归和扩散模型媲美甚至超越,包括 Emu3、Janus Pro,甚至 Lumina-Image 2.0。值得注意的是,Lumina-mGPT 2.0 在 GenEval 上取得了 的得分,使其跻身于顶级生成模型之列。它在 GenEval 的“两物体”和“颜色属性”测试中表现尤为出色。此外,Lumina-mGPT 2.0 在 DPG 上达到了 的得分,超越了此前 AR 模型的上限。

原生多任务能力。 主要评估了 Lumina-mGPT 2.0 在可控生成(见下表 5)和主体驱动生成(见下表 6)方面的能力。结果显示,Lumina-mGPT 2.0 作为通用模型表现出色。在可控生成方面,它在 Canny 和 Depth 条件下展现出高度的结构一致性,同时保持了出色的图像质量和文本一致性。在主体驱动任务中,Lumina-mGPT 2.0 在保持主体身份方面优于所有竞争对手,并在图像一致性和文本对齐方面取得了令人印象深刻的成绩。


文本生成图像。 本文在上图 7 中展示了 T2I 生成结果,展示了模型在多个类别中合成高保真视觉内容的能力。Lumina-mGPT 2.0 能够有效生成写实的人物、令人惊叹的风景和复杂的基于文本的设计,细节表现出色。此外,它在渲染逼真的动物、富有想象力的科幻场景以及高度细致的特写镜头方面同样表现优异。这些结果突显了模型准确理解提示词的能力,能够捕捉丰富的纹理、动态光影效果和引人注目的构图。
此外,本文对 Lumina-mGPT 2.0 与 Janus Pro 以及其前身 Lumina-mGPT 所生成的 T2I 结果进行了对比分析,如下图 8 所示。Lumina-mGPT 2.0 在真实感、细节和连贯性方面相较于其前身和 Janus Pro 有显著提升。生成的图像具有更清晰的纹理、更精确的光照和更优的构图,使其在视觉上更具吸引力,并更符合自然美学。有趣的是,这些发现与上表 4 中的结论有所不同,后者显示 Lumina-mGPT 2.0 与 Janus Pro 在 GenEval 基准上表现相当。该基准主要依赖 VLM 模型评估文本与图像之间的对齐程度,而未明确考虑图像生成的质量和美学。

原生多任务能力。 除了 T2I 生成外,Lumina-mGPT 2.0 还展现了出色的多任务能力,如图 7 所示。结果表明,Lumina-mGPT 2.0 原生支持广泛的图像到图像生成任务,包括主体驱动生成、图像编辑和可控生成(例如 canny-to-image、depth-to-image、pose-to-image、hed-to-image),无需额外模块或额外微调阶段。此外,Lumina-mGPT 2.0 能够高效生成特定任务的图像对,用于增强其他模型的图像到图像任务训练数据集,同时为各种密集预测任务提供强大支持。
本文还与其他模型(包括 Lumina-mGPT、OneDiffusion 和 OmniGen)进行了多任务生成视觉对比,如下图 9 所示。Lumina-mGPT 2.0 在可控生成和主体驱动生成任务中均展现出令人印象深刻的性能。

模型扩展的影响。 在 Lumina-mGPT 2.0 中,本文将模型从 B 参数扩展到 B 参数。为评估该扩展的影响,本文从三个方面进行了分析:



生成前思考的影响。 在图像生成前,本文调用 GPT-4o API 对输入提示进行深入分析,充分理解其含义,并生成增强后的提示。上图 6 展示了逐步思考过程及其生成的增强提示示例。为评估该方法的有效性,本文在 GenEval 基准上进行了消融实验,如下表 7 所示。结果表明,经过思考后的提示平均提升了 ,在位置和颜色属性能力上均有 的显著提升。这些发现表明该方法更有效地支持图像生成过程,更贴合用户意图。

推理时缩放的影响。 本文将推理时缩放集成到 Lumina-mGPT 2.0 中,并在 GenEval 基准上与其他大规模图像生成模型进行了性能比较,如上表 7 所示。通过从 张生成图像中选择样本,推理缩放模型相比于单张图像生成方式总体准确率提升了 。在“两物体”、“计数”、“位置”和“颜色属性”等子任务中提升尤为显著。这些发现表明,即使在模型容量受限的情况下,牺牲推理效率也可以显著提升生成质量和准确性。
加速采样策略的影响。 在下图 11 中,本文通过集成模型量化和推测 Jacobi 解码(SJD)策略,评估了 Lumina-mGPT 2.0 的采样效率。实验结果表明,模型量化在保持视觉保真度的同时,使采样时间减少了 ,GPU 显存消耗减少了 。在此基础上,SJD 通过其并行解码机制进一步提升了效率,使采样时间减少了 。这些采样策略有效解决了 Lumina-mGPT 2.0 采样速度慢的问题,这是自回归生成模型普遍面临的挑战,从而使其在实际应用中更加易用。

Lumina-mGPT 2.0,这是一种独立的、仅使用解码器的自回归图像生成模型。Lumina-mGPT 2.0 完全从零开始训练,未引入任何预训练模型权重。在文本生成图像任务中,它在标准基准上达到了与当前最先进模型相当的性能,同时在合成图像的视觉质量方面表现更优。此外,Lumina-mGPT 2.0 原生支持多种下游任务,增强了其灵活性和对更广泛研究社区的适用性。
局限性。 尽管在推理方面做出了优化,Lumina-mGPT 2.0 的采样时间仍需数分钟,这是所有基于 AR 的生成模型面临的共同挑战,可能导致用户体验不佳。目前,Lumina-mGPT 2.0 在思考过程中依赖外部大语言模型。未来的改进目标是使 Lumina-mGPT 2.0 能够自主进行思考。此外,当前 Lumina-mGPT 2.0 的重点在于多模态生成,后续更新计划将扩展其能力以涵盖多模态理解。
[1] Lumina-mGPT 2.0:Stand-Alone AutoRegressive Image Modeling
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。