作者:Sixiang Chen等
解读:AI生成未来

很多AI 海报生成默认从一句 prompt 出发(Text-to-Poster)。但在真实设计流程里,更常见的起点其实是一张参考图/旧海报/产品主视觉:你希望在保留关键主体的前提下,完成扩图、补全、改比例、换风格、换布局等操作,最终得到一张“更像成品海报”的结果。
PosterOmni 围绕的核心一句话是:
one model for generalized multi-task image/poster-to-poster generation 用同一个开源模型,统一覆盖常见设计侧需求:既能做精细编辑,也能做高层次的风格与版式再创作。

PosterOmni 不把海报能力拆成多个模型/插件,而是把 image/poster-to-poster 的典型需求系统化为 6 类任务,并统一在单一模型中:
重点不在“任务列表”,而在它们共同对应一个现实工作流:
给定参考图/旧海报 → 按需求做编辑/重排/换风格/换布局 → 输出新海报。

多任务最难的问题之一是干扰:局部编辑强调像素一致、主体自然保持;全局创作强调整体风格抽象与版式结构的重创作。直接混在一起训练,常见结果是模型“都会一点,但不够稳定”。
PosterOmni 的训练路线更克制:

我们建立了多任务基准 PosterOmni-Bench(中英文共 1020 条测试提示,覆盖六任务),并进行系统评测。结果显示 PosterOmni 在六类任务上整体更均衡,尤其在需要高阶理解的 布局迁移/风格迁移 上提升更明显;在 改比例/ID 保持 等局部任务上也更稳定。在公平的评测与打分方式下,整体表现也超过了部分先进的商业系统,与最先进的商业模型较为接近。

PosterOmni 聚焦的并不是“生成一张好看的图”,而是更接近设计侧的需求组合。
例如:
PosterOmni 把“精修”和“再设计”都放进同一个 image/poster-to-poster 引擎里,让常见设计操作可以在一个模型内完成。
PosterOmni 的核心目标,是把真实设计里常见的“一张参考图 + 一句指令”统一成 one model for generalized multi-task image/poster-to-poster generation:既能做局部精修(比如扩图、补全、缩放、ID保持),也能做全局创作(布局迁移、风格迁移),并且在同一个模型里做到“既改得准、又改得好看”。
为了让同一个模型同时具备这两类能力,我们设计了一条完整的 数据—专家—蒸馏的SFT训练管线,在最后用 Omni-Edit 强化学习把“审美”和“任务完成度”一起对齐,避免常见的多任务互相干扰。
高质量、多任务、可控的配对数据,是统一模型的地基。PosterOmni 先用一套全自动合成管线生成 PosterOmni-200K,并同步构建评测集 PosterOmni-Bench。整个数据构建流程把“创意提示生成—候选图生成—多模态过滤—任务特定配对”串成一个闭环:先生成具有真实海报语境的 prompts 和 base images,再做严格筛选,最后按任务生成输入输出对再过滤,组成训练与评测数据套件。

(1) 提示词与基图生成(更像“真实设计 brief”)
PosterOmni不是用简单 caption,而是组合“主体/品类 + 场景 + 风格标签”,再让 VLM(如 GPT、Qwen3)写成带排版与美学约束的结构化提示(例如标题/副标题/位置、整体风格意图等),再用强 T2I 生成器(如 Qwen-Image 等)渲染多个候选图,提前剔除缺主体、文字崩坏、布局塌陷的样本。
这一步的意义是:让后续所有任务都围绕“设计侧真实需求”展开,而不只是通用图像编辑。

(2) 多模态过滤(保证“能训练、也能评测”)
合成数据最大的问题不是规模,而是噪声。我们做了分层过滤:
(3) 六类任务的配对构建(把常见设计需求“落到数据上”)
在通过过滤的“文本→海报”基语料上,我们按六类任务生成 image/poster-to-poster 的训练对:Extending / Filling / Rescaling / ID-driven / Layout-driven / Style-driven,分别对应空间补全、比例重排、主体一致性、布局复用与风格迁移等真实需求。并在后续使用VLM/人工过滤保证每个任务的质量。
实现上,每个任务走一个模块化的数据构建器:


直接把六个任务混在一起训练,最容易出现的就是任务干扰:局部任务追求像素对齐,全局任务追求构图与风格抽象,两者在同一参数空间里会互相拉扯,导致模型难以优化收敛。PosterOmni 的做法是:先训练专家,再蒸馏到学生模型。
(1) 专家训练:局部专家 + 全局专家
(2) 蒸馏到单一学生:PosterOmni-SFT
最终统一模型不是靠“参数硬融合”,而是训练一个学生网络去对齐专家的速度场/预测行为:总损失由两部分组成——
论文里把它写成一个总目标(含 Auxiliary Text Rendering Loss + Task Distillation Loss),学生的预测记作 ,专家输出记作 ,从而把“局部精修的确定性”和“全局创作的生成性”一起迁移进同一个 backbone。
这一阶段结束后的 PosterOmni-SFT,可以理解成“一个模型同时继承了两类老师的长处”:既能做严格受控的局部编辑,又能执行抽象的布局/风格指令,而不是依赖多个模型串联。
监督微调能让模型“学会做”,但很难让模型“学会做得更好看、更像设计师”。不同于 SFT 阶段往往存在“审美、保真、任务目标”等目标相互拉扯的情况,最终海报的评价在各个子任务之间其实共享一套通用原则(如构图平衡、层级清晰、色彩和谐、文本可读性等)于是我们训练一个统一奖励模型 ,同时输出通用审美与任务特定完成度的综合奖励,用来驱动后面的强化学习。
(1) 偏好数据怎么来
我们用 PosterOmni-SFT 对同一条 image-to-poster prompt 生成成对结果,先用 Gemini-2.5-Pro 做筛选,再让标注者选择“更美观且更符合任务”的那张。更关键的是,我们加入了一个很实用的 negative-pair 策略:把“输入参考图”当作 rejected,把“模型编辑后的输出”当作 chosen,强迫奖励模型认识到“有意义的改动”本身也是价值,避免模型在某些任务里学会投机——比如 layout/style 任务里直接把参考图 copy 过去。

(2) 模型形式与训练目标
基于 Qwen3-VL 编码器 + 轻量 MLP head,同时编码“视觉质量 + 指令 + 任务类型”,用 Bradley–Terry 目标把偏好对转成可优化的排序损失: 促使 chosen 的分数高于 rejected。
结果就是: 学到的不只是“好看”,还学到“对这个任务来说什么算做对、什么算偷懒”。
有了奖励模型之后,关键问题是:如何把奖励真正“写回”扩散/流匹配模型里,并且训练稳定。PosterOmni 沿用 DiffusionNFT 这类思路:不走传统逆过程的策略梯度(容易不稳定),而是在正向扩散过程上做直接优化,用一种对比式 diffusion loss 把速度预测器推向高奖励行为、远离低奖励行为。DiffusionNFT 会从旧策略 构造隐式正/负策略 、,并用奖励 加权的目标函数,把更新方向稳定地约束在“更高奖励”的区域;奖励还会做归一化以稳定尺度。
我们把评测拆成三块:统一基准(PosterOmni-Bench)→ 自动评测与对比 → 关键模块消融。
我们首先做了一个专门面向 image/poster-to-poster 的多任务基准 PosterOmni-Bench,覆盖六类任务:Extend / Fill / Rescale / ID-driven / Layout-driven / Style-driven。
为了更贴近真实使用场景,Bench 同时包含中英文提示:540 条中文 + 480 条英文,共 1020 条,并且在六大主题(产品、美食、活动/旅行、自然、教育、娱乐)上均匀分布,既有单参考图也有多参考图的输入形式。
评测方式上,我们采用强 VLM(Gemini-2.5-Pro)对结果进行打分:
直观理解:这个基准不是在测“会不会画图”,而是在测“会不会像设计师一样做海报改稿/再设计”。
在 PosterOmni-Bench 上,我们对比了主流开源系统(如 Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、UniWorld-V2 等)以及强闭源系统(如 Seedream 系列)。结果非常一致:PosterOmni对比所有开源模型 在六项任务上全部拿到最高分,在整体评价上也超过现有的部分闭源模型,并且提升不只来自某一个任务,而是“局部精修 + 全局创作”两条能力线同时变强。
定性结果里最典型的两类失败,我们在很多 baseline(包括部分闭源系统)上都能反复看到:

我们做了系统消融,核心想回答:PosterOmni 的提升来自哪里——是“多训点数据”还是“确实解决了多任务互相干扰 + 审美对齐”。
(a) 任务蒸馏 vs 直接混训:
我们对比了:
结果显示:
(b) 专家融合方式:为什么“参数硬融合”不行?
我们还对比了常见的 LoRA 融合方式(线性插值、ZipLoRA 等)和我们的蒸馏策略:

[1] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback