作者:Junyan Ye等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2508.09987 项目链接:https://yejy53.github.io/Echo-4o Git链接:https://github.com/yejy53/Echo-4o 数据集:https://huggingface.co/datasets/Yejy53/Echo-4o-Image/
亮点直击
Echo-4o-Image——一个从GPT-4o蒸馏得到的大规模合成数据集。如图3所示,该数据集包含约17.9万个样本,涵盖三种任务类型:
其中,超现实幻想和多参考生成子集包含现有资源中罕见或代表性不足的数据。下文将详细说明数据集构建流程与策略。
本文构建了专注于超现实幻想内容的文本到图像数据子集。这类提示词涉及对物体常规属性、时间或空间的不规则修改。虽然该数据类型在用户请求中占比很大,但在真实训练数据中却十分罕见。
如下图3(a)所示,设计了结构化流程来构建Echo-4o-Image的幻想生成子集:
变形主要分为三类:
本文还将单物体提示扩展到多物体幻想组合,使GPT-4o生成涉及多个实体互动的超现实指令,最终产出视觉连贯且富有创意的样本。
多参考图像生成以若干参考图像和文本提示为输入,要求提取各图像元素并组合成连贯输出。该任务既需要强大的提示理解能力,又要求保留各参考图像的显著特征并实现无缝融合。与超现实幻想生成类似,现成训练数据极其有限。
如上图3(b)所示,我们设计了包含人物/物体/场景的多参考组合(每样本2-4张输入图像),参考图像涵盖肖像、街拍、动物、物品、服饰、自然景观、地标和室内场景等多元类别。
使用GPT-4o生成基于参考图像的指令时:
改写过程中,可能将"Image_1"等索引替换为对应物体的具体描述,从而增强训练数据质量和模型在多图像生成任务中的泛化能力。
针对文本到图像的指令跟随任务,通过引入更复杂的多物体多属性指令来合成数据。如图3(c)所示:
相比真实数据,合成数据具有两大优势: 纯净指令对齐:GPT-4o生成的图像通常具有简洁背景且无无关物体。例如生成"小提琴与两双筷子"时,这些物体会直接呈现在整洁背景上。这种视觉纯净性降低了指令跟随任务的学习难度。
可控长尾组合:相比仅包含有限语义概念的Geneval,我们的数据集显著提升指令复杂度。例如:
通过增加物体数量及其属性,我们解决了真实图像分布中长尾数据稀缺的问题。
尽管使用最先进的GPT-4o生成图像,仍可能出现对齐错误(生成图像与提示不完全匹配)。为此我们引入文本改写策略确保数据可用性,核心原则是:"没有无效图像,只有无效文本"。当检测到不对齐时,根据生成图像修正原始文本,使每个图像-指令对构成语义有效且一致的训练样本。例如图4中,若生成图像包含3块手表而文本指定4块,则将描述修正为3块。通过改写而非丢弃样本,我们充分释放了GPT-4o合成数据的价值。
为了验证本文精心构建的Echo-4o-Image数据集的有效性,对强基线模型Bagel进行微调,得到了Echo-4o——一个在文本到图像和多参考生成任务中均表现卓越的统一多模态生成模型。
Bagel是一个统一的多模态生成模型,能够同时实现图像理解和生成。该模型支持文本到图像生成和单图像到图像生成任务,包括图像编辑和自由形式操控。在架构上,Bagel采用ViT进行图像理解,VAE进行图像生成,并使用了混合专家(mixture of transformers)方法,其中一个专家处理VAE token,另一个专家处理所有其他token。对于多参考任务,图像的ViT和VAE特征均输入模型。然而,尽管多图像输入在架构上是可行的,Bagel在多参考生成任务上的表现较差。
本文使用Echo-4o-Image中的所有文本到图像和多参考数据对Bagel进行微调。训练目标采用仅针对输出图像计算的流匹配损失(flow matching loss)。除VAE外,对所有模型组件进行了24,000步训练,学习率为2e-5。通过这一微调过程,Echo-4o在多参考生成任务上取得了卓越的性能,同时进一步提升了文本到图像生成能力(详见第5节)。我们特意选择Bagel作为基线模型,因为它基于数万亿token的交错多模态数据进行了训练。Echo-4o-Image在这一经过广泛训练的模型上仍能带来显著提升,这证明了精心设计的合成数据的互补价值。
以往的指令跟随基准测试(如GenEval)被广泛用于评估图像生成模型遵循文本指令的能力。然而,这些基准测试通常依赖目标检测器或基于CLIP的模型进行自动评分,而这两种方法在准确性上存在显著局限性。如图4所示,在GenEval中,当评估“绿色热狗”等提示词时,检测器经常因“热狗”(一种食物)与绿色之间的弱关联而做出错误判断——尽管生成的图像在视觉上是正确的。类似地,物体之间的遮挡可能导致计数不准确,从而产生假阴性结果。此外,现有基准测试中的文本指令相对简单,语义多样性有限。因此,当前模型的得分通常在0.8–0.9之间,表明指标饱和,从而限制了这些基准测试的区分能力。
为了解决这些局限性,本文推出了GenEval++,这是一个更准确、更具挑战性的基准测试,用于评估图像生成中的指令遵循能力。如下图4所示,GenEval++采用GPT-4.1多模态模型作为评估器,利用其强大的复杂语义组合理解能力来评估生成图像与文本指令的一致性。根据预定义的检查清单(涵盖对象、数量、颜色、位置和大小等多重标准),评估器仅在所有条件均满足时才判定结果为正确。此外,该基准测试覆盖了七种任务类型,涉及不同属性组合,每种类型包含40个高复杂度提示词,总计280条文本指令。GenEval++具有更丰富的语义和更多样的组合,任务难度显著高于原始GenEval。另外,为了与“一张……的照片”的提示风格保持一致,动漫风格或包含多个不相关元素的输出被视为无效。
此外,现有的评估协议主要关注现实世界生成任务。然而,生成模型的真正价值不仅在于再现现实,还在于创造未知,这与用户驱动的创意指令的重要组成部分相契合。为此,我们推出了一个新的基准测试Imagine-Bench,旨在评估模型在超现实和幻想图像生成中的能力。Imagine-Bench的主要任务是为常见物体添加奇幻元素,同时保留其核心身份特征。例如,指令“一个方形的足球”要求模型将形状改为立方体,同时保留标准的黑白足球纹理。此类任务对当前理解-生成统一模型提出了严格挑战,因为它们需要打破概念与外观之间的固有关联,以实现真正的创造性合成。
Imagine-Bench包含270条多样化的创意指令,涵盖广泛的超现实属性。在评估过程中,每条指令首先由GPT-4o处理,生成相应的检查清单,包含详细解释和预期结果(包括所需的奇幻修改和物体不变身份特征的描述)。给定提示词和生成的图像,GPT-4.1从三个维度进行评分:
受VIEScore和OmniGen2评估协议的启发,GPT-4.1为每个维度给出0–10的评分,并为每个评分提供明确的推理,确保评估的严谨性和可解释性。进一步采用更严格的评分方案,最终得分为:
本节对Echo-4o进行全面评估,重点关注其在多样化生成任务中的表现,包括指令跟随图像生成、超现实/幻想图像合成以及多参考图像生成。结果表明,Echo-4o在这些任务中均表现优异,凸显了Echo-4o-Image合成数据集在提升生成模型能力方面的有效性。
在两个广泛使用的基准测试——GenEval和DPG-Bench,以及新提出的GenEval++上评估模型的指令跟随能力。如下表1所示,Echo-4o在GenEval上取得了0.89的分数,优于Bagel和OmniGen2等先前的统一模型。在DPG-Bench(下表2)上,Echo-4o以86.07的总分超越了SD3和UniWorld等强劲竞争对手。这些结果表明,Echo-4o在不同类型的基准测试中均表现优异,展现了其在短文本和复杂长文本指令上的强大指令跟随生成能力。
在现有的文本到图像指令跟随任务中,Echo-4o始终表现卓越。与基线模型Bagel相比,Echo-4o在GenEval上实现了8.5%的提升,验证了Echo-4o-Image数据集中纯合成数据对增强指令跟随能力的有效性。这些干净背景的样本提升了模型学习图像与文本指令之间精确对齐的能力。尽管训练数据主要由短文本指令组成,但模型在复杂长文本生成任务上也表现出强大的泛化能力,DPG-Bench上的表现即为明证。
此外,在新提出的更具挑战性的GenEval++基准测试上,大多数模型表现不佳,得分低于0.4。尽管GenEval++的任务与GenEval的主要区别仅在于增加了一两个额外对象及其属性,但这一看似微小的变化显著提高了任务难度。例如,生成五个热狗比生成四个更具挑战性。早期的基于扩散的模型(如SDXL)在此类场景中几乎完全无法遵循指令。即使是Bagel和OmniGen2等先进统一模型(在GenEval上与GPT-4o差距较小),在这些更难的任务上也远远落后。
Echo-4o在所有模型中(除GPT-4o外)表现最佳,超越OmniGen2和Bagel达40%以上。这凸显了Echo-4o强大的指令跟随能力,这与Echo-4o-Image中包含更复杂、长尾的属性数据密切相关。下图5进一步提供了不同模型的定性比较。
本文在Imagine-Bench基准测试上评估了多个模型的理解和创意能力,结果如下表4所示。传统图像生成模型在此任务上表现不佳,主要因其训练范式通常在文本概念与视觉表征之间建立直接绑定。受限于有限的理解能力,这些模型难以区分现有物体的固有概念与幻想导向指令中指定的额外要求。BLIP3o和OmniGen2等统一模型得益于更强的理解能力,取得了稍好的结果。
在开源模型中,Echo-4o表现最佳,直接受益于Echo-4o-Image中包含的幻想导向图像数据。这些数据突破了现实世界图像的领域限制,从而以相对直接的方式提升了性能。未来工作可探索更系统的方法,进一步提升统一模型在理解和创意生成上的能力。
使用OminiContext基准测试评估多参考图像生成能力。现有图像生成模型和统一架构对这一能力的探索仍显不足。开源模型中仅OmniGen2进行了初步尝试,FLUX和Bagel等多数模型要么缺乏原生支持,要么完全无法适配多参考场景。通过利用专为多参考场景设计的合成数据,Echo-4o获得了基础Bagel架构所不具备的该能力。
如下表5所示,Echo-4o在MULTIPLE和SCENE两种设置下均优于所有开源模型,较Bagel基线实现显著提升,并超越此前最佳开源模型OmniGen2。下图7的定性对比进一步表明,在二图或三图参考生成任务中,Echo-4o在指令遵循和参考图像内容保真度上持续优于OmniGen2。
为验证Echo-4o-Image数据集的广泛有效性,本文使用该合成数据对多个现有统一模型进行微调实验。如下图1(b)所示,BLIP-3-o、Bagel和OmniGen2等模型在GenEval、GenEval++、DPG-Bench和OminiContext等基准测试上均获得一致提升。
这些结果表明,Echo-4o-Image能为不同基础模型提供通用性增强,显著改善其指令理解、幻想图像合成和多参考图像生成能力。跨任务与跨架构的稳定增益证实了该数据集的广泛适用性,及其对统一多模态生成模型高质量微调的重要价值。
本文进一步将本数据集与GPT-4o衍生的另一合成数据集ShareGPT-4o-Image进行对比。在相同训练设置下,两者均用于微调Bagel基线模型直至收敛。下图8显示:Echo-4o-Image使指令跟随能力大幅提升(GenEval分数从0.820增至0.895),而ShareGPT-4o-Image仅带来边际改善(增至0.838)。GenEval++上也呈现相似趋势。
该差异可能源于ShareGPT-4o-Image大量数据源自ALLaVA的文本输入(已包含高质量真实图像对),导致其本质上复现了真实数据集的图像,对指令跟随的增益有限。不过ShareGPT-4o-Image仍能提升美学对齐能力。值得注意的是,ShareGPT-4o-Image缺少多参考图像生成数据——这一Echo-4o-Image成功实现的关键能力——进一步突显后者的广泛实用性。
本研究提出由GPT-4o生成的大规模合成数据集Echo-4o-Image,并通过开发Echo-4o验证其在增强统一多模态生成模型方面的有效性。同时,推出Geneval++和Imagine-Bench两个新基准测试,为图像生成能力提供更全面、更具挑战性的评估框架。
实验结果表明,高质量合成数据集Echo-4o-Image能有效弥补真实数据集的局限,并跨不同基础模型实现知识迁移。期望该数据集的开源能通过合成数据填补真实图像缺口,推动统一多模态生成模型在指令跟随、创意生成和多参考图像合成等能力的进步。未来工作将扩展数据集至图像编辑任务(另一高质量真实数据稀缺的场景),并对FLUX等更多模型进行微调,进一步验证其通用性和影响力。
[1] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generatio
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。