11月11日,豆包大模型团队正式发布了一款名为SeedEdit的通用图像编辑模型,该模型能够根据用户的自然语言指令,对图像进行多样化的编辑操作,包括但不限于修图、换装、美化、风格转换以及在特定区域添加或删除元素等。
在过去,图像编辑模型的效果存在两大局限性:一是指令响应成功率较低,容易误解用户的意图。
二是编辑过程可能导致图片质量下降,比如出现结构变形、图像模糊等问题。
而SeedEdit通过采用创新的、多尺度且多规则的数据获取和过滤方案,实现了精准编辑,并且能够保持高质量的图像生成,有效解决了上述问题。
SeedEdit具有三大显著特点,使其成为图像编辑领域的革新者。
首先,它拥有高精度的指令理解能力,无论是中文还是英文输入,无论是成语还是专有名词,都能准确响应。
例如,输入“街道上车水马龙”,SeedEdit能够迅速捕捉到关键词,将原图转换为展现交通繁忙景象的画面。
又如,“驴打滚换成拿破仑”这样的指令,模型也能准确识别并完成美食的替换操作,满足用户的编辑意图。
其次,SeedEdit在处理图像时能够保持极高的质量。
与传统的涂抹选中修改目标的方式相比,SeedEdit直接通过文字指令编辑图像,尤其在处理如裂纹、发丝等细节时展现出独特的优势。
它能够更加灵活、精准地选择目标,在编辑过程中最大限度地保持原图的完整性。
比如,当需要移除玻璃裂纹时,SeedEdit只会处理涉及的文字指令区域,而不会影响到图像的其他部分。
第三,SeedEdit支持多轮编辑,这得益于其隐空间编辑技术。
该技术能够在编辑过程中维持图片像素的清晰度和画面结构的稳定性,支持用户进行长时间、复杂的编辑任务。
一个普通的茶杯,通过多轮编辑后,可以变成带有“WOW”字样的大理石花纹咖啡杯,体现了SeedEdit强大的编辑功能。
此外,SeedEdit的高效创新模型也是一大亮点。
相较于传统的图像编辑方法,SeedEdit充分发挥了通用图像编辑模型的优势,用户只需通过简单的指令调优,即可轻松完成换背景、变换风格、物体增删、替换等多样的编辑任务,大幅提升了编辑效率。
例如,一张腊肠狗在充满泡泡的浴缸中看报纸的照片,经过SeedEdit编辑后,整体风格自然流畅,完全没有贴图感。
为了实现上述功能,豆包大模型团队提出了SeedEdit框架,该框架不引入新的参数,而是将图像生成扩散模型转换为图像编辑模型。
团队认为,图像编辑本质上是图像重建和再生成之间的平衡,因此他们开发了一个Pipeline,首先生成散布在这两个方向上的多样化成对数据,然后逐渐将一个图像条件扩散模型对齐,以在这两项任务之间达到最佳平衡。
成对图像数据的稀缺性是图像编辑问题的核心难点,而SeedEdit通过将文本到图像(T2I)模型视为一个弱编辑模型,改造其通过生成带有新提示的新图像来实现“编辑”。
随后,该弱编辑模型被反复进行蒸馏和对齐,以最大限度地继承再生成能力,同时提高图像的一致性。
通过结合多种再生技术和调整参数,生成大规模配对数据集,并增加随机性以确保数据多样性,再通过过滤器筛选优质例子,用于模型训练和对齐。
实验结果显示,SeedEdit在HQ-Edit数据集上的编辑分数明显高于开源基线,效果优于目前任何开源方案,具有更高的CLIP图像相似度,原始图像保持更完整。
在Emu Edit基准上,SeedEdit相比原有方法,分数实现提升或持平。
这些结果表明,SeedEdit在处理模糊指令和执行细颗粒度编辑方面具有较高的成功率。
目前,SeedEdit模型已经在豆包PC端和即梦网页端开启了测试。
相比行业内的现有研究成果,SeedEdit首次以产品形态零样本稳定跟随用户需求编辑图片,同时增强了响应能力和保持能力。
在玩法创新方面,现阶段SeedEdit主要专注于单图编辑,未来将拓展多图联动玩法,通过构建稳定且连贯的场景、人体与物体组合,以“讲故事”的方式赋予图像序列生命力,为用户的创意表达开辟更为广阔的空间,激发无限创作潜能。
领取专属 10元无门槛券
私享最新 技术干货