

在 AI 图像生成领域,谷歌从未缺席。其旗下的图像生成模型 NanoBanana 迎来了里程碑式的更新——NanoBanana Pro 正式上线。
为了探究其真实能力边界,AGI-Eval 评测社区对模型进行了开箱实测,旨在为大家揭晓 NanoBanana Pro 在局部精细编辑、全局风格把控及视觉参考编辑能力的具体表现。
谷歌 NanoBanana Pro 基于 Gemini 3 Pro 打造,在画质上实现了从基础可用到工作应用级的提升,并在逻辑推理、多模态交互及内容透明度上带来了显著改进。NanoBanana Pro 三大核心亮点:
(内容索引来自NanoBanana Pro官网)
此外,为了应对 AI 伦理挑战,所有由 NanoBanana Pro 生成的媒体文件均嵌入了 SynthID 数字水印,用户通过 Gemini 应用即可鉴定图片来源,提升了生成内容的透明度与可信度。
本次AGI-Eval评测主要采用主观评测(Side-by-Side)的方法。我们基于一个含166条指令的图像编辑评测集,通过人工评审对 NanoBanana Pro、Qwen-image-edit、Seedream4.0 及 FLUX.1-Kontext Pro 四款模型生成的结果进行评测。
同时,为了更直观地量化模型在对决中的综合表现,我们引入了胜率(Winrate)指标。该指标不仅考虑获胜次数,也给予平局一定的权重,以更公允地反映模型的相对竞争力。
Winrate = (模型获胜次数 × 1 + 平局次数 × 0.5) / 对战总数
公式解释:
Winrate 的计算逻辑源于竞技评分系统,其核心思想是:在一次对决中,获胜方得1分,失败方得0分,而平局则意味着双方各得0.5分。将一个模型在所有对战中获得的总分,除以对战总场次,就得到了它的胜率。
这个公式能够有效地衡量一个模型在与众多对手的竞争中,平均每次对决能获得多少胜利份额。我们选择了如 Qwen-image-edit、Seedream4.0 等业界具备中上能力的模型作为标杆,通过 SBS 的评测方式来衡量各参评模型与它们的表现差异,并最终得出榜单。
为了客观地衡量 Nano Banana Pro 在行业中的真实水平,仅有理论上的定义是不够的。一个模型的强大与否,应在同行模型的对比中得到验证。基于此,我们对现有行业内具备竞争力的模型进行了测试。(如下图)

通过 Winrate 这一量化指标,我们能够快速、客观地评估各模型在不同评测维度上的相对强弱,为模型的横向比较提供了数据支撑。
进入实测环节,我们将关注点从功能清单转向具体的量化表现。通过多维度的样本测试,还原模型在不同难度指令下的响应能力。
总体评价:在图像编辑综合能力上,NanoBanana Pro 实现了断层领先,综合表现超越本次评测的其他模型。
基于量化评测数据,我们得出如下结论:
局部编辑旨在考察模型对画面特定元素的精准增删改能力,要求模型在修改目标区域的同时,严格保持非目标区域的原始特征。
Prompt1: 在图中的空白缺失部分填充一个与图中人物上衣颜色一致的篮球。(难易度:易)
生成效果:Seedream4.0>Qwen-image-edit=FLUX.1-Kontext Pro=Nanobanana pro
原图:

NanoBanana Pro :

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt2:图片中其他内容不变,只将汉堡改成一个同样风格的三明治,这个三明治夹着两片番茄、一片蔬菜和一片黄油。(难易度:易)
生成效果:Nanobanana pro>Seedream4.0>Qwen-image-edit >FLUX.1-Kontext Pro
原图:

NanoBanana Pro:

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt3: 将图片的英文字母“H”和“I”由墨绿色变成红色,其他内容均保持不变。(难易度:中)
生成效果:Nanobanana pro>Qwen-image-edit =Seedream4.0=FLUX.1-Kontext Pro
原图:

NanoBanana Pro :

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt4:请帮我对这张照片的左边进行扩展填充。要求扩充画面中有一只正在飞行的鸟,原图中人物的姿势、位置等均不发生改变;画面扩展后,鸟和男性均位于图片中间。其余内容自行扩充,整体画面协调即可。(难易度:难)
生成效果:Nanobanana pro>Seedream4.0>FLUX.1-Kontext Pro>Qwen-image-edit
原图:

NanoBanana Pro:

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt5:请帮我扩展图片边界并对扩展部分进行合理的内容填充,要求扩展内容中包括一只与原图中小猫相同品种的猫,其余内容自行扩充,整体画面协调即可。(难易度:难)
生成效果:Nanobanana pro>Qwen-image-edit >Seedream4.0>FLUX.1-Kontext Pro
原图:

NanoBanana Pro:

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

在全局维度,我们重点考察模型对整体艺术风格的迁移能力及画面氛围的把控。
Prompt6:帮我生成一幅海底世界的图片,其中有色彩斑斓的珊瑚礁群,一只优雅的海龟在珊瑚间穿行,艺术风格与我提供的图片一致。(难易度:易)
生成效果:Nanobanana pro=Seedream4.0=FLUX.1-Kontext Pro>Qwen-image-edit
原图:

NanoBanana Pro:

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt7: 将这张真实摄影图片转化为水墨画风格,并且确保所有元素都呈现在画中。(难易度:中)
生成效果:Seedream4.0>FLUX.1-Kontext Pro>Qwen-image-edit >Nanobanana pro
原图:

NanoBanana Pro :

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt8:保持图片前景中两个人的姿势、表情、服装等不变,把背景的街道场景,改为在会议室内的场景。(难易度:中)
生成效果:FLUX.1-Kontext Pro>Qwen-image-edit F=Nanobanana pro>Seedream4.0
原图:

NanoBanana Pro:

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt9:将图片中的动物保护主题海报改为植物主题,图片风格保持一致。(难易度:难)
生成效果:Seedream4.0>Qwen-image-edit >FLUX.1-Kontext Pro>Nanobanana pro
原图:

NanoBanana Pro:

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

该环节主要测试模型在引入参考图的情况下,对主体特征保持与场景融合的控制力。
Prompt10:生成一只和图片轮廓相同的可爱仓鼠,它的眼睛是黑色,身体毛发的颜色主要是黄色和白色,真实摄影风格。(难易度:易)
生成效果:Nanobanana pro=Seedream4.0>FLUX.1-Kontext Pro>=Qwen-image-edit
原图:

NanoBanana Pro :

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt11: 保持图片中的小猫外观不变,生成这只小猫正在牵牛花花丛边伸懒腰的画面。(难易度:中)
生成效果:Nanobanana pro>Seedream4.0>Qwen-image-edit >FLUX.1-Kontext Pro
原图:

NanoBanana Pro :

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt12:保持图中小猫的轮廓不变,将小猫颜色填充为黑白色。另外生成一张蓝色布艺沙发,填色后的小猫在沙发上安静地睡觉,整体为真实摄影风格。(难易度:难)
生成效果:Nanobanana pro>Seedream4.0=Qwen-image-edit >FLUX.1-Kontext Pro
原图:

NanoBanana Pro :

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

Prompt13: 保持图中的轮廓不变,将图片填充为一个金发女人,穿着一件黑粉色碎花抹胸裙,拿着透明雨伞站在花丛中。(难易度:难)
生成效果:Nanobanana pro>=Seedream4.0=FLUX.1-Kontext Pro>Qwen-image-edit
原图:

NanoBanana Pro:

Qwen-image-edit :

Seedream4.0:

FLUX.1-Kontext Pro:

基于 166 条有效样本 的量化评测与实测验证,NanoBanana Pro 展现了其在图像编辑领域的综合竞争力。
依托 Gemini 3 Pro 的多模态理解能力,该模型在局部编辑精度与多图一致性保持方面表现突出,实测综合胜率领先,有效提升了图像修改任务的指令遵循度。尽管评测中也反映出模型在处理复杂空间位置关系及特定文化风格迁移时仍存在一定的语义理解偏差,但在降低设计门槛、提升生成内容可用性方面,NanoBanana Pro 具有一定的工作流实现能力。
NanoBanana Pro 的发布体现了谷歌在视觉生成领域的持续技术迭代。随着该架构逐步向视频与音频生成领域拓展,结合 SynthID 数字水印等规范化技术的部署,未来的 AIGC 内容生产生态将更加智能化与个性化。AGI-Eval 将持续跟踪这一技术演进路径,为行业提供及时的深度评测。
以上就是本次解读的全部内容,更多前沿大模型评测与技术解读,请持续关注 AGI-Eval 评测社区。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。