作者:Tianyang Han等
解读:AI生成未来

文章链接:https://arxiv.org/abs/2511.18271
本文第一作者Tianyang Han是美团MeiGen团队的算法研究科学家,主要研究方向是图像生成和多模态大语言模型。

亮点直击
当前的评估方法主要关注语义的一致性和组合的准确性,在很大程度上未对模型理解基本世界动态的能力进行评估。为了填补文本生成图像(T2I)模型隐性世界认知评估的空白,本工作构建了 PicWorld,旨在对 T2I 模型学习到的隐性自然规律进行整体且细粒度的评估。
如下图 3 所示,PicWorld 包含总共 1,100 个精心策划的提示词(prompts),系统地组织在三个主要领域中。本工作手动设计了复杂的提示词模板,每个模板都针对世界理解的特定方面。随后,利用 Gemini-2.5-Pro 生成了大量的候选提示词语料库,并经过人类专家的严格筛选和完善,以确保清晰度和复杂性。具体而言,这三个部分的细节如下:

PicWorld 的物理世界领域旨在评估模型理解和视觉模拟支配现实的基本规律的能力。一个真正理解世界的模型不仅应该识别物体,还应该呈现它们在各种物理约束下的行为。缺乏这种内在物理引擎的模型只能是一个非智能的生成器,只能描绘静态物体,无法捕捉世界的动态因果本质。本工作将该领域进一步细分为三个核心类别:
该领域包含 200 个提示词,旨在评估模型理解并准确再现纯粹存在于人类认知和文化空间中的概念的能力。缺乏这种能力的模型只能生成字面描绘,而无法掌握概念、图表和文化叙事在世界中扮演的抽象符号角色。它分为三个类别:
该领域评估需要模型推断逻辑关系并构建连贯场景的高阶认知能力。没有这种推理能力的模型生成的图像虽然包含正确的元素,但在逻辑上是有缺陷的、空间不一致的或因果关系破裂的。本工作将该领域构建为三个类别:
如下图 2 所示,本工作展示了 PicWorld 的一些数据样本。

与以前直接评估图像真实性或美学质量的方法不同,本工作设计了 PW-Agent,这是一个层次化、分步的分析框架,采用结构化、非线性且感知置信度的评分机制。PW-Agent 能够对 AI 生成图像的物理世界理解进行最终判断,该判断既具有高度区分性又非常可靠。PW-Agent 的整体流程如下图4 所示。

本工作通过一个包含四个模块的证据驱动管道来评估针对提示词 生成的图像 :世界知识提取器 (World Knowledge Extractor, WKE)、假设制定器 (Hypothesis Formulator, HF)、视觉感知器 (Visual Perceptor, VP) 和 推理评判器 (Reasoning Judger, RJ) 。这种设计是受到单次评判和粗略代理指标失败的启发,以及近期在问题驱动评估和以能力为中心的 T2I 基准测试(强调组合性、常识、物理和世界知识)方面取得的进展所驱动。
本工作在补充材料中提供了 PW-Agent 的伪代码。
给定一个自然语言提示词 ,WKE 推断出一个结构化的原子级、图像可验证的期望清单(checklist)。这些期望必须在 隐含的任何正确单帧描绘中成立,重点关注文字暗示的内容,而不仅仅是重述它们。每个期望被定义为静态图像中的可见痕迹(例如,“圆润的冰边缘和周围的水坑”,而不是“冰正在融化”),复合主张被系统地分解为最小的、独立的项目,以确保全面覆盖 可能仅隐式包含的潜在物理定律、因果后置条件、空间关系和事实知识。除了期望之外,WKE 还会输出一个数值重要性值,定义了该期望应被强制执行的程度。 通常,WKE 生成一个集合 :
其中 是文本描述, 是重要性权重(低/中/高)。
HF 将每个高级期望 转化为具体的视觉问答(VQA)对,作为可审计的证据。这是通过生成一组二元或描述性问题 来实现的,如果这些问题的回答是肯定的,即确认了期望的满足。这一步弥合了抽象推理与具体像素级检测之间的差距。
VP 充当系统的眼睛。它接收图像 和问题集 ,并输出答案 以及置信度分数 和作为基本原理的边界框或区域描述。为了尽量减少幻觉,我们利用具有强大视觉能力的 MLLM(如 GPT-4o 或 Gemini)来执行此任务,并明确指示仅基于可见像素进行回答。 对于每个问题 ,VP 输出:
其中 是文本答案, 反映了检测的确定性。
RJ 模块并不进行简单的平均,而是应用逻辑层次结构来计算最终得分。它通过三个层次聚合证据:
第 1 层:指令依从性 (Instruction Adherence)该层定量衡量模型遵循提示词中显式、字面指令的能力。它作为基础检查,用于验证类型为 Existence(存在性)的问答对,例如核心主体的存在和指定属性的准确性。它在一个扣分系统上运行,其中高重要性指令的严重失败会导致最低分。 得分 计算如下:
其中 是所有失败的 Existence 类型事实的集合, 是基于事实 的重要性的惩罚分数(高:5.0,中:3.0,低:1.0)。
第 2 层:物理/逻辑真实性 (Physics/Logical Realism)第 2 层评估生成的图像在多大程度上符合物理和逻辑的基本定律,这是模型世界知识和推理能力的主要指标。该分数是通过根据重要性和相应的置信度分数对每个正确描述的现象(类型为 State)进行加权来计算的。 得分 计算如下:
其中 是事实 的重要性权重, 是相应的置信度分数, 是实现情况的指示函数。
第 3 层:细节与综合细微差别 (Detail & Synthesis Nuance)第 3 层评估正确渲染的物理现象的质量和复杂性,旨在区分合格的输出和卓越的输出。它使用加分和扣分规则:奖励极其详细的渲染以加分,同时惩罚不同效果之间的逻辑不一致。这一层反映了模型以细微差别模拟世界复杂性的高级能力。 得分 计算如下:
其中 代表基础分数, 代表卓越加分, 代表不一致惩罚。
最终聚合与报告本工作通过以下公式计算名为 PW-Score 的总分:
为了进一步利用 MLLM 强大的推理能力,还需要模型记录一个人类可读的思维过程,枚举满足/失败的期望、应用的惩罚/奖励以及上述公式中的中间值。
本工作选择了 17 个最先进的模型进行评估,涵盖三类架构:
如下表 1 所示:

PW-Agent 的评估 (验证 PW-Agent 的有效性):



PicWorld,这是一个以能力为中心的基准测试,直接测试 T2I 模型是否可以利用隐性世界知识并生成符合物理定律和因果逻辑的图像。PicWorld 将评估从粗略的“提示词-图像”相关性转变为经过验证的、针对每个事实的证据,揭示了模型在知识落地、多物理交互以及超出提示词显式说明的逻辑后果方面的行为。
本工作进一步提出了 PW-Agent,这是一个基于证据的评估器,它将提示词转化为可审计的检查项,并将像素级的发现聚合成透明的、分层的分数。这种方法既保留了基于查询的评估的可扩展性,又减少了单次(one-shot)评判的偏差和不可靠性。
在 PicWorld 上的实验表明,尽管具有强大的提示词依从能力,最先进的系统——尤其是开源模型——在物理真实感和因果推理方面仍然举步维艰。本工作希望 PicWorld 和 PW-Agent 的结合使用能为模型比较提供可操作的诊断,从而指导数据整理和推动方法的进一步发展。
[1] Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models