作者:Dewei Zhou等
解读:AI生成未来

论文链接: https://arxiv.org/abs/2606.05031 论文标题: MetaPoint: Unlocking Precise Spatial Control in Agentic Visual Generation
【导语】 现在的多模态生成模型已经能理解复杂提示词,也能生成高质量图像,但在“把东西准确放到哪里”这件事上仍然经常失手:给出明确坐标,模型可能放偏;要求多个物体按布局排列,数量和位置容易混乱;让模型只编辑指定区域,也常常波及背景。其根本原因在于,模型虽然能读懂文本中的坐标描述,却很难把数字坐标直接映射到二维图像画布。为此,研究团队提出了 MetaPoint——一种轻量、通用、无需改模型结构的空间控制方法。它将连续二维坐标表示为一个特殊 token,并直接复用统一多模态模型的原生位置编码,让生成模型获得像素级空间感知能力。该工作已被 ECCV 2026 接收。
统一多模态模型 (Unified Multimodal Models, UMMs) 在理解和生成两端都快速发展,但当任务需要严格空间控制时,仍然暴露出明显短板:

MetaPoint 的目标就是用一个尽可能简单的接口,同时解决 像素级精度、token 效率、模型兼容性 三个问题。


1. 一个特殊 token 表示一个连续二维坐标
MetaPoint 定义了一个特殊文本 token:<mp>。当它绑定到二维坐标(u, v)时,模型不再把坐标当作普通文本数字理解,而是像处理图像 token 一样,为<mp>注入对应位置的二维位置编码:
<mp> 的词向量表示“这里是一个空间控制点”;(u, v) 的位置编码表示这个点在图像画布上的精确位置;关键在于,MetaPoint 直接复用 UMM 中已有的 2D Sinusoidal PE 或 3D RoPE 等位置编码机制,因此 不需要新增网络模块、不需要设计复杂 mask,也不需要扩展庞大的位置词表。
传统位置 token 往往是离散的,只能表示有限网格;MetaPoint 则利用位置编码公式本身可接收浮点输入的特性,将坐标视为连续变量。这使得模型可以跳出 patch 网格限制,实现更精细的定位能力。
换句话说,MetaPoint 不是让模型“读懂坐标文本”,而是把坐标直接翻译成模型视觉空间中的原生位置表示。
MetaPoint 的强大之处不只在单点定位,更在于它天然可组合:
因此,MetaPoint 可以覆盖从生成到编辑的一系列任务:布局生成、多实例生成、对象插入、移动、缩放、替换、删除,以及同时编辑多个对象。
仅有空间 token 还不够。真实用户往往不会手动输入坐标,而是会说:
“把鱼变大一点。” “删掉最高的那个人。” “生成一排不同颜色和材质的玩具。”
为此,团队进一步提出 MetaPoint-Agent:由 VLM 作为 planner,先理解图像和用户意图,再将自然语言请求分解为结构化的 MetaPoint 指令。
在图像生成中,Agent 会把自由文本扩写为高质量生成 prompt,同时规划出每个对象的位置或框,形成layout_json,再转换为 MetaPoint token 输入生成模型。
在图像编辑中,Agent 会定位目标对象,生成每个对象对应的编辑指令和 bounding box。例如“删除右边的猫”会被转化为“删除猫 + 目标区域 MetaPoint”,从而让下游编辑模型准确作用于指定对象。
更进一步,MetaPoint 还支持 生成-反思-修正 的闭环:VLM 可以检查生成结果,发现缺失物体、数量不对、尺寸不对等问题,再用精确坐标发起二次编辑,实现更可靠的自主修正。

为了训练模型掌握这种空间控制能力,团队构建了三类 point-anchored 数据:
针对布局生成任务,利用 Seed-VL、SAM、DAM 等工具为图像生成密集标注,包括目标类别、bounding box、mask 和区域描述,并将这些区域语义绑定到 MetaPoint 上。
针对参考物体插入任务,从视频帧对中挖掘同一对象的跨帧对应关系,让模型学习如何把一个视觉 exemplar 插入到 MetaPoint 指定的位置。
针对指令编辑任务,从视频帧对中检测全局与区域变化,自动生成 add、move、resize、remove 等局部编辑指令,并与对应 MetaPoint 区域绑定。
最终训练数据混合了原有 T2I/OCR 数据与新构建的数据,其中 PACL、PAEI、PAIE 分别包含 3M、3M、2M 样本,为布局、插入和编辑三类能力提供了大规模监督。

在 COCO-MIG 多实例生成基准上,BAGEL + MetaPoint 显著超越先前方法:

相比先前 SOTA,MetaPoint 将平均 Instance Success Rate 从 66.44% 提升到 84.72% ,mIoU 从 59.23% 提升到 77.29% 。更重要的是,任务难度越高,优势越明显:在更多对象的场景中,MetaPoint 依然保持稳定的空间控制能力。
论文还展示了 MetaPoint 可以可靠控制多达 30 个对象 的复杂布局,说明其能力并不局限于 benchmark 的 6 对象设定。

在 T2I-CoReBench 上,MetaPoint 将 BAGEL 的整体得分从 38.2 提升到 66.1,相对提升 73% ,在开源模型中达到新的领先水平。

提升最显著的任务包括 Logical Reasoning、Geometric Reasoning 和 Text Rendering。这说明空间显式建模不仅提升“放在哪里”,还会间接增强复杂场景中的属性绑定、文本布局和视觉推理。



在 ImgEdit 图像编辑基准上,MetaPoint 将 BAGEL 的 Overall 分数从 3.42 提升到 3.94,相对提升 15.2% 。其中 Remove 类任务从 3.16 提升到 4.20,达到该项最佳表现。
MetaPoint 的优势尤其体现在:

为了验证 MetaPoint 的关键作用,论文比较了两种方式:
<mp> token。结果显示,MetaPoint 带来决定性提升:

这说明问题的关键不是“模型是否见过坐标数字”,而是坐标信息是否以模型真正能利用的视觉空间形式进入生成过程。
MetaPoint 为可控视觉生成提供了一种极简但有效的空间接口:
当然,MetaPoint 仍有进一步拓展空间。当前它主要控制位置和区域,未来还可以扩展到旋转、深度、姿态、颜色、纹理等更丰富的可控维度,并与更多工具型 Agent 形成动态协同。
结语
MetaPoint 的意义在于,它把视觉生成中的空间控制从“文本描述”推进到“原生坐标编程”。当一个 <mp> token 就能指向画布上的精确位置,生成模型就不再只是依赖提示词猜测布局,而是拥有了可组合、可执行、可扩展的空间原语。从多实例生成到对象级编辑,从复杂布局到 Agent 自主反思,MetaPoint 为下一代可靠、可交互、可编程的视觉生成系统打下了重要基础。