过去,生成一致性角色图像的最佳方法依赖于训练好的LoRA模型。这需要创建一个图像数据集,然后在FLUX LoRA上进行训练。更早之前,则不得不使用ComfyUI工作流,该流程需要结合SDXL、ControlNet、IPAdapter以及一些非商业的面部特征点模型。如今,情况已变得异常简单。
现在,已经可以选择能从单一参考图像中准确完成此任务的先进图像模型。本文将重点介绍哪些模型可以做到这一点,以及根据需求哪个是最佳选择。
截至2025年7月,有四个模型能够根据单一参考图像创建逼真且准确的输出。按发布时间顺序排列:
在本文撰写后,又有两款新模型发布:
FLUX.1 Kontext有几个不同的版本:pro、max 和 dev。Dev 是 kontext 的开源版本,可控性和可微调性更强,但功能不如 pro 版强大。
为了撰写本文,专门创建了一个模型来方便比较输出结果。这是一个并行运行 FLUX.1 Kontext、SeedEdit 3.0、gpt-image-1 和某机构的 Gen-4 的对比模型:fofr/compare-character-consistency。
首先,是核心指标:速度和成本。下表显示了每个模型的价格和速度。gpt-image-1 的价格取决于选择的输出质量(低、中、高)。Gen-4 Image 的价格取决于选择 720p 还是 1080p 分辨率。
总而言之,gpt-image-1 是最慢且最昂贵的模型,而 Kontext Dev 是最便宜且最快的。代价在于质量,下文将对此进行更详细的分析。
模型商 | 模型 | 价格(每图) | 速度 | 发布日期 |
|---|---|---|---|---|
某中心 | gpt-image-1 | $0.04 – $0.17 | 16s – 59s | 2025年4月 |
某机构 | Gen-4 Image | $0.05 – $0.08 | 20s – 27s | 2025年4月 |
Black Forest Labs | FLUX.1 Kontext Pro | $0.04 | 5s | 2025年5月 |
Black Forest Labs | FLUX.1 Kontext Max | $0.08 | 7s | 2025年5月 |
Black Forest Labs | FLUX.1 Kontext Dev | $0.025 | 4s | 2025年5月 |
Bytedance | SeedEdit 3 | $0.03 | 13s | 2025年7月 |
接下来比较每个模型保留角色身份特征的能力。
在以下对比中,gpt-image-1 使用了高质量和高保真度设置。选择 FLUX.1 Kontext Pro 作为质量和速度之间的最佳折衷方案。某机构的 Gen-4 Image 则使用 1080p 分辨率。
摄影精度
以下是一组不同的示例,展示了每个模型在摄影输出方面的优势和劣势。
新的活动
在这两个示例中,可以看到 Gen-4 的优势得以体现。其构图最具吸引力,角色也最准确。
微调场景
如果想保持大部分原始构图,只改变场景的一小部分,所有模型都处理得很好。
半身肖像与特殊的发色和瞳色
这是一个更具挑战性的对比,角色拥有异色瞳、双色头发以及一些面部标记。
可以看到每个模型都能处理头发和眼睛。
刮胡子、穿外套和下雨
这次不要求完全一致,而是尝试保持同一个人但改变一些特征。
结果好坏参半,只有 SeedEdit 3 和 gpt-image-1 能处理“刮干净胡子”的要求。但 gpt-image-1 生成的人物也完全变成了另一个人,这可能是最差的结果。
尝试纹身
这里尝试一个具有多个独特纹身的角色,以观察每个模型对它们的处理效果。没有一个模型是完美的,Gen-4 和 gpt-image-1 在保留颈部纹身方面做得最好。
在这些示例中,目标是将角色转换成其他事物,或以不同风格展示他们。一个好的模型应在执行转换的同时保持角色的身份特征。
改变风格
通过这些简单的风格变化,可以很快看出 Gen-4 不应被用于此类风格化任务。
变成其他事物
万圣节到了。将她变成女巫,将他变成兽人,将另一个人变成潘多拉星的蓝色纳美人。Gen-4 输出了最佳的女巫图像,但也生成了最不像的兽人。
在这个示例中,Kontext Pro 不愿意创建蓝色纳美人的图像,因此展示的是 Kontext Dev 的结果。
总体发现如下:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。