作者:Shilin Lu等
解读:AI生成未来

文章链接: https://arxiv.org/abs/2509.21278 git链接: https://github.com/ZhumingLian/SHINE
你有没有发现:把一个物体“P”进照片里,最难的从来不是抠图——而是光。 阴影对不对?水面倒影有没有?夜景/逆光会不会穿帮?再加上背景分辨率一高,很多方法直接崩掉。
这篇 ICLR 2026 论文问了一个很直接的问题:像 FLUX 这种文生图扩散模型,可能已经学会了大量“物理/分辨率先验”,只是我们不会把它逼出来?
作者给的答案是:可以,而且不需要再训练一个新模型——他们提出了 SHINE:一个免训练的高保真插入框架(Seamless, High-fidelity Insertion with Neutralized Errors)。

SHINE 用“三板斧”把“主体像不像 + 场景融不融”这对矛盾同时拉起来: 1)用“锚点式”的 latent 优化把主体身份稳住; 2)用一种“反向变差”的引导把画面质量拉回正轨; 3)用注意力生成的自适应 mask 把边缘缝合得更自然。
作者点名了两类常见翻车:
而免训练方向又常被两座大山卡住:
论文里把流程画得很清楚: (1)不用 inversion,先做一次“带描述的补洞”当起点 → (2)MSA 优化稳住主体 → (3)DSG 抑制画质劣化 → (4)ABB 自适应融合边界。

下面按这三块核心贡献拆开讲。
作者直接把“复制粘贴 inverted latent”这条路绕开了:他们先用 VLM 给主体图做描述,再配合 inpainting 在背景的用户 mask 区域生成一个“主体已在场景里”的初始图,然后加噪得到起始 latent。
直观理解:
MSA 的关键想法很“工程但聪明”:

一句话类比:
适配器负责“像他/它”,锚点负责“别把房间装修拆了”。
MSA 会把主体拉准,但作者观察到:优化 + 采样的随机性会让结果偶尔出现过饱和、画质下降、身份不稳的问题,于是加了 DSG。
有意思的是:在 FLUX 上,“写负面提示词”基本没用——模型依旧很高保真。 那怎么办?作者做了一个系统实验:分别“模糊”注意力里的不同分量,发现模糊 (图像 query)能在保持结构的同时显著拉低质感,最适合作为“负方向”。


所以 DSG 的直觉可以理解为:
先构造一个“会变糟但不乱结构”的负例方向(通过 blur ),再像 CFG 那样把采样轨迹从它身边推开。
很多插入方法最后都死在边缘:你用用户矩形/粗 mask 去 blend,边界很容易出现“接缝”。作者提出 ABB:


传统基准多是 512×512,太“温室”。作者做了 ComplexCompo:
论文强调:在 ComplexCompo 和 DreamEditBench 上达到 SOTA,且在人类对齐指标(DreamSim / ImageReward / VisionReward)上表现突出。
(数字细节可参考论文实验表格与附录)

消融结果的直观结论是:


[1] Does FLUX Already Know How to Perform Physically Plausible Image Composition?