作者:Ao Ma等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2508.08949
与SOTA方法的比较
亮点直击
Lay2Story-1M 是专为布局可切换故事生成(Layout-Togglable Storytelling)任务设计的数据集。它包含约20万组帧序列,每组包含4至6张图像,均以同一主题为核心且分辨率不低于720p。数据集总计约100万张图像。每张图像均标注了全局描述(格式为“身份提示+帧提示”),与其他故事生成方法类似。为实现对主题生成的精准控制,本文额外标注了布局条件,包括主题位置和描述性文本。
为简化任务并降低标注工作量, 本文聚焦卡通场景数据,仅标注每帧中最显著的主题角色(即使存在多个主题)。如下表1所示,Lay2Story-1M在现有故事生成数据集中规模最大、分辨率最高且标注最细。该数据集还可用于其他任务,如高质量卡通图像生成和布局到图像生成。接下来介绍数据收集与筛选流程,帧序列构建流程,基于Lay2Story-1M构建的测试集Lay2Story-Bench。
视频收集:鉴于视频数据天然具备主题一致性,本文选择视频作为主要数据源。从互联网采集三类视频:
视频筛选:
如下图3所示,本文开发了一套鲁棒的数据处理流程来生成符合训练和测试要求的帧序列。该流程包含以下关键步骤:
(1) 帧提取 对于每个输入视频,我们使用FFmpeg以0.25 FPS的速率采样帧。过高的采样率会导致帧冗余,而过低的采样率可能造成显著数据丢失。
(2) 主题检测 采用GroundingDINO-B检测采样帧中的主题,仅保留检测分数最高的边界框作为主题位置。
(3) 特征提取与聚类 使用CLIP-L提取每帧主主题区域的视觉特征,并通过K-means聚类对相似帧分组。为平衡聚类效率与效果:
(4) 分组 聚类后,按预设概率分布将帧组织为4、5、6帧的序列,以丰富训练和测试数据。
(5) 标注 对每组帧序列:
该流程确保了数据集的高质量生成,同时保持训练与评估的一致性和多样性。通过此流程,处理了前面筛选的视频,最终得到约102万张图像的Lay2Story-1M数据集。其中4、5、6帧序列分别占总帧数的50%、30%和20%。
从Lay2Story-1M中精选了3,000个样本构建Lay2Story-Bench,确保其中帧序列长度为4、5和6的比例与训练集中的比例一致。最终测试集包含375个长度为4的序列、180个长度为5的序列和100个长度为6的序列。 为了提升最终测试结果的视觉质量,从美学评分排名前10%的视频中筛选序列。并通过限制每个视频类别的帧序列集不超过8个,手动维护测试数据集的多样性和平衡性。为确保公平性,我们记录了所选序列的视频ID,并保证训练集中不会出现来自相同视频的其他序列。
如下表2所示,与之前最常用的基准测试ConsiStory相比,Lay2Story-Bench提供了更大规模的提示集、更高的提示多样性、高分辨率的原始帧作为真实值(GT),以及详细的主体标注。
在布局可切换的故事生成任务中,模型需要根据主体的位置和描述性标题精确控制图像中主体的位置和外观。为此,本文提出了Lay2Story,如下图4所示。它是一个故事生成模型,需要参考图像及其对应的边界框,以及故事中每张图像的主体边界框。边界框和会被处理成掩码和以供进一步计算。Lay2Story包含两个主要分支:全局分支和主体分支。全局分支的输入是噪声潜在表示,并以全局标题为指导,专注于图像的整体质量。主体分支的输入则包括噪声潜在表示、参考图像的潜在表示以及给定图像的掩码。在主体分支中,模型使用主体标题作为条件,并利用主体位置约束注意力计算的范围,确保注意力仅计算在包含主体的区域内。此外,还采用了跳跃连接设计,将每个模块的输出返回到全局分支,促进全局和局部信息的更好融合。为确保故事中不同图像的主体外观一致性,主体分支引入了3D注意力机制,并以主体标题为指导。
本文使用在Lay2Story训练集上微调的PixArt-α模型作为全局分支。PixArt-α中的每个Transformer模块包含三个核心组件:AdaLN-single、自注意力和交叉注意力。
AdaLN-single 在AdaLN-single中,使用第一个模块中的时间嵌入计算一组全局的平移和缩放参数,这些参数在所有模块中共享。对于每个模块,通过特定于层的可训练嵌入调整参数,使模型能够独立调整每个模块的平移和缩放。具体而言,给定当前时间步作为输入,通过多个MLP层映射得到六个参数,用于调整不同模块中的缩放和平移参数。
自注意力层 DiTs中的自注意力机制在捕获输入数据不同部分之间的依赖关系方面起着关键作用。对于第个模块,自注意力层将第个模块输出的噪声潜在表示作为输入,并将其用作查询()、键()和值()。
交叉注意力层 在自注意力和前馈层之间插入了一个多头交叉注意力层,使模型能够与全局文本嵌入灵活交互。全局文本嵌入通过语言模型T5获得,即。在交叉注意力层中,我们使用噪声潜在表示作为查询(),全局文本嵌入作为键()和值()。
Lay2Story中主体分支的设计旨在实现更可控的故事生成。该分支的设计灵感来源于ControlNet。为节省计算资源,我们每经过两个全局分支模块后引入一个主体分支模块的输出。为提高训练效率,我们部分复用了全局分支的参数。主体分支的指导条件包括主体的掩码及其详细描述。该分支的核心由四个关键组件组成:AdaLN-single(遵循PixArt-α的设置)、掩码自注意力、掩码交叉注意力和掩码3D自注意力。掩码注意力的计算可以优雅地统一如下。
其中表示掩码,其维度与相同,背景区域值被设置为较大数值,表示softmax函数。
参考图像拼接 对于输入部分,首先将参考图像通过VAE编码得到四通道特征图。根据帧中主体边界框信息生成参考图像的掩码。对和进行零填充使其通道数扩展至与噪声潜在表示的帧数一致。随后沿通道维度拼接图像特征、掩码和噪声潜在表示,得到9通道输出。最终通过卷积层将通道数降为4,生成主体噪声潜在表示作为主体分支的输入。
掩码自注意力层 为加强对主体区域空间上下文的关注,采用掩码自注意力机制。根据跨帧主体边界框生成掩码作为自注意力机制的输入掩码。第个模块中,掩码自注意力层将第个模块输出的噪声潜在表示作为输入,并分别作为查询()、键()和值(),同时以作为注意力掩码。
当用户未提供边界框时,初始化25%的掩码为全有效值,即在训练时将整个区域标记为主体区域。该策略促使模型在标注缺失时仍能优先关注主体区域,同时保持空间感知鲁棒性。
掩码交叉注意力层 为融入更细粒度的主体外观描述,本文引入掩码交叉注意力层。首先使用T5编码主体标题获得文本嵌入。在掩码交叉注意力中应用掩码(为标题长度),以主体噪声潜在表示作为查询(),主体文本嵌入作为键()和值(),作为注意力掩码。该设计旨在增强模型捕获主体细节属性的能力,同时保持空间一致性。
当用户未提供主体标题时,我们以25%概率将随机替换为全局标题进行训练。
掩码3D自注意力层 为确保跨图像主体一致性,借鉴视频生成任务设计了掩码3D自注意力机制。首先将主体噪声潜在表示重塑为以实现跨帧信息传播,并应用注意力掩码约束模型仅关注主体位置。该层以作为查询()、键()和值(),作为掩码,有效保障故事生成中主体的连贯性。
主体分支信息传播 采用类似ControlNet的方式将主体分支更新后的特征传播至全局分支。由于跳跃连接结构的设计,全局分支每经过两个基础模块后,其输出将同步接收经过零线性层处理的主体分支输出。该过程可表示为:
基线方法与基准测试 将本方法与以下故事生成方法进行对比:BLIP-Diffusion、StoryGen、ConsiStory、StoryDiffusion、1Prompt1Story 和 FLUX.1-dev IP-Adapter。采用其论文或开源实现中指定的默认配置。
在评估阶段,使用Lay2Story-Bench对上述方法进行定性与定量比较。定性比较中,所有方法均采用4帧提示集生成推理结果。需特别说明,由于本方法支持布局条件(包括主体位置和标题)的可切换输入,分别展示包含与不包含这些输入的生成结果。定量比较中,所有方法均在Lay2Story-Bench完整提示集上评估,同样展示带/不带布局条件输入的生成结果。 评估方法 基于先前方法[38,80],采用DreamSim和CLIP-I评估主体一致性。为确保相似度测量仅聚焦主体身份,参照DreamSim方案,使用CarveKit去除图像背景并替换为随机噪声。同时采用FID指标评估生成图像质量,Recall@1衡量top-1图文匹配准确率,人工偏好度反映三位标注者的平均二元评分。
如下图5所示,定性对比了Lay2Story与StoryDiffusion、ConsiStory、1Prompt1Story和FLUX.1-dev IP-Adapter。现有研究在保持图像序列主体一致性方面存在困难(如StoryDiffusion中的棕熊和ConsiStory中的加菲猫),并出现语义关联错误(如1Prompt1Story第7帧和FLUX.1-dev IP-Adapter第4帧)及美学质量失真(如StoryDiffusion第4帧和ConsiStory第4帧)。综合比较表明,Lay2Story在一致性、语义相关性和美学质量上均优于基线方法。
同时展示Lay2Story带/不带布局条件的生成结果(最后两行)。当提供布局条件(含主体标题和位置)时,Lay2Story能实现更精细的主体控制(例如末行中加菲猫在第2帧穿着绿裙,熊在第5帧佩戴眼镜)。
如下表3所示,定量对比了Lay2Story(带/不带布局条件输入)与基线方法。在主体一致性指标(DreamSim和CLIP-I)方面,当提供布局条件时,Lay2Story优于所有其他方法——CLIP-I超过第二名约1.6个百分点,DreamSim领先约2个百分点。语义相关性指标(Recall@1)上,带布局条件的Lay2Story同样超越所有方法,较第二名提升约2个百分点。美学质量指标(FID)显示,布局条件下的Lay2Story显著优于其他方法,较第二名高出约6.4个百分点。
即使不提供布局条件输入,Lay2Story仍具竞争力:CLIP-I排名第二,Recall@1、DreamSim和FID均位列第三。推理时间对比表明,无布局条件时Lay2Story仅产生0.4秒差异,速度仅次于BLIP-Diffusion但性能全面领先。
Lay2Story关键组件消融 如下表4所示,评估了主体分支、参考图像拼接和掩码3D自注意力层的影响。通过FID、Recall@1和人工偏好度三项指标验证了各核心组件的有效性。
布局条件输入消融 如下图6所示,通过调整去噪步数(带/不带布局条件)评估模型性能。测试提示为"夜晚森林中,小象和小熊围着篝火跳舞"。结果表明布局条件能显著提升效果,尤其在早期去噪阶段(如T=5时小象轮廓更清晰)。后期阶段(T=30)带布局条件的图像质量同样更优。
本文提出故事生成任务的进阶形式——布局可切换故事生成(Layout-Togglable Storytelling),支持通过布局条件实现精准主体控制,同时保留用户选择权。构建了Lay2Story-1M数据集,包含超100万张720p及以上分辨率的高质量图像及精细主体标注;基于此推出含3000条提示的评估基准Lay2Story-Bench。提出的Lay2Story方法基于DiTs架构,实验表明其在一致性、语义相关性和美学质量上均超越现有方法。
[1] Lay2Story: Extending Diffusion Transformers for Layout-Togglable Story Generation
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。