首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AGI-Eval 实测:NanoBanana Pro 综合实力稳居第一梯队,图像编辑进入精细化时代

AGI-Eval 实测:NanoBanana Pro 综合实力稳居第一梯队,图像编辑进入精细化时代

原创
作者头像
AGI-Eval评测社区
发布2025-12-11 12:57:07
发布2025-12-11 12:57:07
1300
举报

在 AI 图像生成领域,谷歌从未缺席。其旗下的图像生成模型 NanoBanana 迎来了里程碑式的更新——NanoBanana Pro 正式上线。

为了探究其真实能力边界,AGI-Eval 评测社区对模型进行了开箱实测,旨在为大家揭晓 NanoBanana Pro 在局部精细编辑、全局风格把控及视觉参考编辑能力的具体表现。

1. NanoBanana Pro 模型介绍

谷歌 NanoBanana Pro 基于 Gemini 3 Pro 打造,在画质上实现了从基础可用到工作应用级的提升,并在逻辑推理、多模态交互及内容透明度上带来了显著改进。NanoBanana Pro 三大核心亮点:

  • 高精度画质与多模态理解:支持生成高达 2K 和 4K 分辨率 的高清晰度图像,细节表现力与文本渲染准确性大幅提升。结合多模态理解能力,模型能够直接将图片中的文字翻译成其他语言,并保留原有设计风格,为跨语言营销和设计工作提供了新的工具选择。
  • 精细化的局部与全局控制:NanoBanana Pro 强化了定点编辑能力。用户可以精准选择图像的特定区域进行优化,包括调整相机角度、改变焦点、修正色彩分级及改变场景光照,使图像编辑过程更加可控和精确。
  • 多图一致性控制:针对 AI 视频和长图生成中的一致性难点,NanoBanana Pro 支持同时输入 最多 14 张参考图片,旨在复杂场景中保持风格与元素的高度统一。同时,它能确保 最多 5 位人物 的面部特征和形象在生成结果中保持连贯,适用于广告宣传与多角色内容制作。

(内容索引来自NanoBanana Pro官网)

此外,为了应对 AI 伦理挑战,所有由 NanoBanana Pro 生成的媒体文件均嵌入了 SynthID 数字水印,用户通过 Gemini 应用即可鉴定图片来源,提升了生成内容的透明度与可信度。

2. AGI-Eval 评测方法论

本次AGI-Eval评测主要采用主观评测(Side-by-Side)的方法。我们基于一个含166条指令的图像编辑评测集,通过人工评审对 NanoBanana Pro、Qwen-image-edit、Seedream4.0 及 FLUX.1-Kontext Pro 四款模型生成的结果进行评测。

同时,为了更直观地量化模型在对决中的综合表现,我们引入了胜率(Winrate)指标。该指标不仅考虑获胜次数,也给予平局一定的权重,以更公允地反映模型的相对竞争力。

Winrate = (模型获胜次数 × 1 + 平局次数 × 0.5) / 对战总数

公式解释:

Winrate 的计算逻辑源于竞技评分系统,其核心思想是:在一次对决中,获胜方得1分,失败方得0分,而平局则意味着双方各得0.5分。将一个模型在所有对战中获得的总分,除以对战总场次,就得到了它的胜率。

这个公式能够有效地衡量一个模型在与众多对手的竞争中,平均每次对决能获得多少胜利份额。我们选择了如 Qwen-image-edit、Seedream4.0 等业界具备中上能力的模型作为标杆,通过 SBS 的评测方式来衡量各参评模型与它们的表现差异,并最终得出榜单。

为了客观地衡量 Nano Banana Pro 在行业中的真实水平,仅有理论上的定义是不够的。一个模型的强大与否,应在同行模型的对比中得到验证。基于此,我们对现有行业内具备竞争力的模型进行了测试。(如下图)

  • 编辑一致性维度分析:此维度反映了模型对指令遵循的精确度。
  • Nano Banana Pro 的精准度: 其在该维度的 Winrate 为 59.9%,同样是所有参评模型中最高的,这印证了其在理解并执行复杂、精细指令方面的强大能力。
  • 一致性与综合表现的关联: 通常情况下,编辑一致性高的模型,综合判断的得分也会更高,因为准确地实现用户意图是获得好评的基础。Nano Banana Pro 的双高 Winrate 就很好地证明了这一点。反之,FLUX.1-Kontext Pro 在此维度的 Winrate 仅为 37.0%,是所有模型中最低的,这也直接影响了其最终的综合判断表现。
  • 综合判断维度分析:这是衡量模型最终效果的核心指标。从表格中我们可以清晰地看到。
  • Nano Banana Pro 表现卓越: 其“综合判断”Winrate 高达 65.7%。这个数字表明,在 166 次对决中,它所获得的“胜利分数”(85次获胜 + 33次平局/2)远超基准模型,以相对优势领跑
  • 实力梯队清晰: Nano Banana 初代 (60.8%) 和 Seedream 4.0 (56.9%) 的 Winrate 也均显著高于 50%,证明它们同样是性能强劲的模型,表现出色。
  • 相对弱势模型: Qwen (41.3%) 和 FLUX.1-Kontext Pro (39.5%) 的 Winrate 则低于 50%,这说明在本次“综合判断”的较量中,它们面对基准模型时,落败的次数多于获胜的次数,整体表现相对较弱。

通过 Winrate 这一量化指标,我们能够快速、客观地评估各模型在不同评测维度上的相对强弱,为模型的横向比较提供了数据支撑。

3. AGI-Eval 开箱评测

进入实测环节,我们将关注点从功能清单转向具体的量化表现。通过多维度的样本测试,还原模型在不同难度指令下的响应能力。

3.1 评测核心结论

总体评价:在图像编辑综合能力上,NanoBanana Pro 实现了断层领先,综合表现超越本次评测的其他模型。

基于量化评测数据,我们得出如下结论:

  • 综合胜率领先: 在与业内主流模型的横向对比中,NanoBanana Pro 的综合判断胜率达到 65.7%。众数统计结果显示,其对战胜率显著高于对比模型,展现了较强的鲁棒性。
  • 局部编辑优势明显: 在“局部编辑”细分领域,NanoBanana Pro 对指令的遵循度较高,展现了像素级的修改能力,尤其擅长特定区域的增删改操作。
  • 综合能力均衡: 在全局风格调整和视觉参考编辑方面,模型表现稳健,未出现明显的短板,能够适应多样化的编辑需求。

3.2 局部编辑能力实测

局部编辑旨在考察模型对画面特定元素的精准增删改能力,要求模型在修改目标区域的同时,严格保持非目标区域的原始特征。

Prompt1: 在图中的空白缺失部分填充一个与图中人物上衣颜色一致的篮球。(难易度:易)

生成效果:Seedream4.0>Qwen-image-edit=FLUX.1-Kontext Pro=Nanobanana pro

原图:

图片
图片

NanoBanana Pro :

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Seedream 4.0:自行修改了原图主体形象,但满足颜色一致的要求;
  • Qwen-image-edit :自行修改了原图主体形象,但满足颜色一致的要求;
  • NanoBanana Pro:完全未按要求进行生成,生成失败;
  • FLUX.1-Kontext Pro:生成结果与任务要求无关,完全不满足指令要求。

Prompt2:图片中其他内容不变,只将汉堡改成一个同样风格的三明治,这个三明治夹着两片番茄、一片蔬菜和一片黄油。(难易度:易)

生成效果:Nanobanana pro>Seedream4.0>Qwen-image-edit >FLUX.1-Kontext Pro

原图:

图片
图片

NanoBanana Pro:

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Qwen-image-edit :自行修改了原图色彩,且不满足指令数量要求;
  • Nanobanana pro:完全满足指令;
  • Seedream4.0:自行修改了原图色彩;
  • FLUX.1-Kontext Pro:完全不满足指令要求。

Prompt3: 将图片的英文字母“H”和“I”由墨绿色变成红色,其他内容均保持不变。(难易度:中)

生成效果:Nanobanana pro>Qwen-image-edit =Seedream4.0=FLUX.1-Kontext Pro

原图:

图片
图片

NanoBanana Pro :

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估: 
  • NanoBanana Pro:模型成功识别并修改了第一行字母的颜色属性,但在多目标识别上存在遗漏,未能覆盖第二行相同字符的修改需求。这表明模型在处理重复性、多位置的细粒度元素时,其注意力机制仍有优化空间;
  • Qwen-image-edit :模型对指令的理解出现严重偏差,生成结果与指令要求完全相悖,判定为生成失败;
  • Seedream4.0:完全不满足指令要求;
  • FLUX.1-Kontext Pro:完全不满足指令要求。

Prompt4:请帮我对这张照片的左边进行扩展填充。要求扩充画面中有一只正在飞行的鸟,原图中人物的姿势、位置等均不发生改变;画面扩展后,鸟和男性均位于图片中间。其余内容自行扩充,整体画面协调即可。(难易度:难)

生成效果:Nanobanana pro>Seedream4.0>FLUX.1-Kontext Pro>Qwen-image-edit 

原图:

图片
图片

NanoBanana Pro:

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Qwen-image-edit :自行修改了原图主体形象,生成实体变形;
  • Nanobanana pro:满足指令,仅生成场景略微不自然;
  • Seedream4.0:满足指令,但生成实体略微变形;
  • FLUX.1-Kontext Pro:拓展部分较小,且实体生成位置不符合指令。

Prompt5:请帮我扩展图片边界并对扩展部分进行合理的内容填充,要求扩展内容中包括一只与原图中小猫相同品种的猫,其余内容自行扩充,整体画面协调即可。(难易度:难)

生成效果:Nanobanana pro>Qwen-image-edit >Seedream4.0>FLUX.1-Kontext Pro

原图:

图片
图片

NanoBanana Pro:

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Qwen-image-edit :基本满足指令,但生成实体与原主体风格不太一致;
  • Nanobanana pro:满足指令;
  • Seedream4.0:满足指令,但生成实体变形严重;
  • FLUX.1-Kontext Pro:原画面主体改变,且生成实体不满足指令。

3.3 全局与风格编辑实测

在全局维度,我们重点考察模型对整体艺术风格的迁移能力及画面氛围的把控。


Prompt6:帮我生成一幅海底世界的图片,其中有色彩斑斓的珊瑚礁群,一只优雅的海龟在珊瑚间穿行,艺术风格与我提供的图片一致。(难易度:易)

生成效果:Nanobanana pro=Seedream4.0=FLUX.1-Kontext Pro>Qwen-image-edit 

原图:

图片
图片

NanoBanana Pro:

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Qwen-image-edit :生成实体,但画风不一致,原画为3d风格,生成实体偏写实;
  • Nanobanana pro:满足指令,风格基本一致;
  • Seedream4.0:满足指令,风格一致;
  • FLUX.1-Kontext Pro:满足指令,风格基本一致。

Prompt7: 将这张真实摄影图片转化为水墨画风格,并且确保所有元素都呈现在画中。(难易度:中)

生成效果:Seedream4.0>FLUX.1-Kontext Pro>Qwen-image-edit >Nanobanana pro

原图:

图片
图片

NanoBanana Pro :

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Qwen-image-edit :带有水墨画风格,但同时具有水彩风格;
  • Nanobanana pro:更偏向于水彩风格;
  • Seedream4.0:满足指令,风格一致;
  • FLUX.1-Kontext Pro:风格正确,仅船尾数字出现错误。

Prompt8:保持图片前景中两个人的姿势、表情、服装等不变,把背景的街道场景,改为在会议室内的场景。(难易度:中)

生成效果:FLUX.1-Kontext Pro>Qwen-image-edit F=Nanobanana pro>Seedream4.0

原图:

图片
图片

NanoBanana Pro:

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Qwen-image-edit :满足指令要求,主体发生部分变化,人像ai感较重;
  • Nanobanana pro:满足指令,但人物被拉长;
  • Seedream4.0:满足指令,主体形变明显;
  • FLUX.1-Kontext Pro:满足指令,主体基本未变。

Prompt9:将图片中的动物保护主题海报改为植物主题,图片风格保持一致。(难易度:难)

生成效果:Seedream4.0>Qwen-image-edit >FLUX.1-Kontext Pro>Nanobanana pro

原图:

图片
图片

NanoBanana Pro:

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Qwen-image-edit :不满足指令要求,仅增加了符合指令主体的实体--植物;
  • Nanobanana pro:满足指令,但风格不太一致,且原画完全看不出;
  • Seedream4.0:满足指令,风格基本一致;
  • FLUX.1-Kontext Pro:不满足指令要求,仅增加植物且数量较少。

3.4 视觉参考编辑能力

该环节主要测试模型在引入参考图的情况下,对主体特征保持与场景融合的控制力。


Prompt10:生成一只和图片轮廓相同的可爱仓鼠,它的眼睛是黑色,身体毛发的颜色主要是黄色和白色,真实摄影风格。(难易度:易)

生成效果:Nanobanana pro=Seedream4.0>FLUX.1-Kontext Pro>=Qwen-image-edit 

原图:

图片
图片

NanoBanana Pro :

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Nanobanana pro:满足指令,仅颜色不太符合现实;
  • Qwen-image-edit :满足指令,但主体畸形,AI 感明显;
  • Seedream4.0:满足指令,但主体部分畸形;
  • FLUX.1-Kontext Pro:主体改变,部分畸形。

Prompt11: 保持图片中的小猫外观不变,生成这只小猫正在牵牛花花丛边伸懒腰的画面。(难易度:中)

生成效果:Nanobanana pro>Seedream4.0>Qwen-image-edit >FLUX.1-Kontext Pro

原图:

图片
图片

NanoBanana Pro :

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Nanobanana pro:主体些微变化(耳朵尖的毛),动作生成完美,真实性强;
  • Qwen-image-edit :主体有变化(无斑纹变成了有斑纹);部分畸形;伸懒腰动作有体现但不够明确;
  • Seedream4.0:满足指令,但主体部分细节变化(瞳色、毛发斑纹);
  • FLUX.1-Kontext Pro:主体有变化;不满足动作。

Prompt12:保持图中小猫的轮廓不变,将小猫颜色填充为黑白色。另外生成一张蓝色布艺沙发,填色后的小猫在沙发上安静地睡觉,整体为真实摄影风格。(难易度:难)

生成效果:Nanobanana pro>Seedream4.0=Qwen-image-edit >FLUX.1-Kontext Pro

原图:

图片
图片

NanoBanana Pro :

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • Nanobanana pro:满足指令;
  • Qwen-image-edit :满足指令,但主体ai感明显; Seedream4.0:满足指令,但主体部分畸形,不真实感较强; FLUX.1-Kontext Pro:不满足颜色要求,且主体畸形。

Prompt13: 保持图中的轮廓不变,将图片填充为一个金发女人,穿着一件黑粉色碎花抹胸裙,拿着透明雨伞站在花丛中。(难易度:难)

生成效果:Nanobanana pro>=Seedream4.0=FLUX.1-Kontext Pro>Qwen-image-edit 

原图:

图片
图片

NanoBanana Pro:

图片
图片

Qwen-image-edit :

图片
图片

Seedream4.0:

图片
图片

FLUX.1-Kontext Pro:

图片
图片
  • 实测评估:
  • NanoBanana Pro:跟随要求生成了图像,且无畸形等缺陷问题,整体真实,但背景有部分空白;
  • Qwen-image-edit :未按照要求生成图像,属于生成失败;
  • Seedream4.0:满足指令,但主体畸形明显;
  • FLUX.1-Kontext Pro:主体改变,部分畸形。

4. 总结与展望

基于 166 条有效样本 的量化评测与实测验证,NanoBanana Pro 展现了其在图像编辑领域的综合竞争力。

依托 Gemini 3 Pro 的多模态理解能力,该模型在局部编辑精度与多图一致性保持方面表现突出,实测综合胜率领先,有效提升了图像修改任务的指令遵循度。尽管评测中也反映出模型在处理复杂空间位置关系及特定文化风格迁移时仍存在一定的语义理解偏差,但在降低设计门槛、提升生成内容可用性方面,NanoBanana Pro 具有一定的工作流实现能力。

NanoBanana Pro 的发布体现了谷歌在视觉生成领域的持续技术迭代。随着该架构逐步向视频与音频生成领域拓展,结合 SynthID 数字水印等规范化技术的部署,未来的 AIGC 内容生产生态将更加智能化与个性化。AGI-Eval 将持续跟踪这一技术演进路径,为行业提供及时的深度评测。

以上就是本次解读的全部内容,更多前沿大模型评测与技术解读,请持续关注 AGI-Eval 评测社区。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 📷
  • 1. NanoBanana Pro 模型介绍
  • 2. AGI-Eval 评测方法论
  • 3. AGI-Eval 开箱评测
    • 3.1 评测核心结论
    • 3.2 局部编辑能力实测
    • 3.3 全局与风格编辑实测
    • 3.4 视觉参考编辑能力
  • 4. 总结与展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档