Google提出的图片生成和编辑模型
这个不过多阐述
这个模型重点是解决了什么问题? 为什么我们需要使用这个模型来解决问题, 对比传统的解决方案存在什么显著的优势?
对于已有图片的二次编辑, 以及基于已有概念图的图片绘制. 这些问题都可以很好的被解决, 这是一个商业业务级别上都带来的巨大的性能提升的模型.
分享自己用到过的细致的使用场景:
这个绘制环节如果找咸鱼外包出去也需要几十块钱到十几块钱不等.
困难体现在修改内容之前需要完全重新绘制全部的图片文件, 耗时长, 成本高 使用了AI之后, 这种修改可以让AI在10+Sec的时间完成需求, 耗时短, 成本低
举一个例子: 我认为模型在相邻像素点之间的绘制是高度相关的(所以, 模型处理的好), 但是, 有些时候, 我们的图片元素呈现出有间隔的(例如, 物体之间存在空白背景等分割了物体像素点之间的直接联系)多个物体之间的关联(这些物体相互构成了一个图片的组, 一个组包含多个物体, 组内存在理解上的语义联系).
参考 https://zhuanlan.zhihu.com/p/1944320444653105712 专栏中提到的内容, 但是指的注意的是: AI提示词工程需要的是临机应变, 尤其是我认为针对nano banana模型提示词格式很多时候并没有最佳实践范式
我说明一下我的个人对于构建这个模型提示词的理解, 比较宽泛.
考虑到需要连贯的英文自然语言来描述修改的需求, 所以, 使用LLM辅助进行提示词生成没准是个不错的选择.
我考虑使用gemini
给我一个英文提示词, 我需要操作nano banana模型进行图片编辑, 实现[你的需求].
- 提示词不要过于冗长
从而, gemini往往会给你多个简短提示词, 选择你需要的prompt
最后, 我认为人为的核验和校对十分重要, 这个模型还是容易出现单词拼写错误的情况. 针对错误的地方, 配合手动的PS修复图片内容.
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。