前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GPT-4o的多模态生图,让整个设计圈都开始emo了。

GPT-4o的多模态生图,让整个设计圈都开始emo了。

作者头像
数字生命卡兹克
发布于 2025-04-14 13:56:13
发布于 2025-04-14 13:56:13
1390
举报

GPT4o的多模态生图前天上线之后。

经过两天的发酵,含金量还在不断提升。

在我的群里,已经能看到越来越多的,进入到实际生产环节的例子。

比如@银海的直接做商品图的翻译和合成,这是原来的算法,很难做的效果,但是现在,有手就行。

非常复杂的电商流程,一张原始图,换产品换脸换衣服。

比如@歸藏的直接把UI图放样机里面的例子,如果做过UI或者产品设计的朋友肯定都知道,以前我们在做做展示,或者做汇报的时候,经常做样机做的挺痛苦的。

比如给他头像,画的两套表情包,是可以直接上架到微信表情商店的那种。

来自设计大佬@付遥,用GPT-4o来直接做之前非常流行的3D品牌海报。

比如我一个很喜欢的小红书AI博主@Rico有三猫,用GPT-4o给她做小红书封面。

也用GPT-4o直接做商品图翻译出海。

群友@默月佥在用GPT-4o出蜜蜂的解剖科普图。

一个很专业的公众号AI博主@阿真lrene,不仅用GPT-4o生成复杂的漫画,还能抠图,一键直出透明通道的PNG图。

干死各种抠图软件的不是更牛逼的抠图软件,而是大模型。。。

还有朋友@不知名网友虎子哥,用GPT-4o给他自己家的房子装修。。。

还有一些我确实不知道源头的但是被传播的蛮广的例子(如有作者,欢迎评论区认领)。

给几个家具做一个展示图,这个场景在电商领域无敌。

之前我写可灵的AI模特的时候,很多人问,能不能让模特带首饰?现在,可以了。

还用它,直接P图,消除人物。

老照片一键修复+上色。

甚至,还可以模仿字体做自体设计。

在GPT-4o的冲击下,N多的设计师和创业者,都有点emo了。

比如就有大佬在X上感叹道:

朋友圈里还看到了一张图,是glif的老板,在X上发的。

纪念ComfyUI,纪念一切的AI图像工作流。

OpenAI的一次更新,又屠杀了一堆公司。

又一次深刻的阐明了那句《三体》中的经典台词:

我消灭你,与你无关。

GPT-4o的冲击当然是有,但是,他的上限在哪?能做到什么地步?真的能彻底替代ComfyUI的AI图像工作流吗?

我想弄清楚这个答案。

首先我觉得我还是要跟大家非常简单的用一两句话解释一下ComfyUI,让大家知道这玩意是个啥,我们才好继续往下聊。

ComfyUI是一个非常专业的工作流工具,不局限于AI绘图,AI视频啥的也都可以往里面接。他的界面大概是这样的,很像电路板。

这个就是在Liblib上搭的ComfyUI工作流。

它是以节点方式,把各个工具、各个模型给串起来,形成一整套的工作流,比如一张图进去,经过各种节点和插件,输出一个完全风格不同的AI视频,这都是OK的。

坦率的讲,我不是ComfyUI的专家的,做过的工作流也不多,我觉得在这个领域,我并没有那么强的发言权,所以。

我去请教了一下我的1个好朋友,AI绘图大神@炼丹师忠忠。

我想听听,他的看法。

首先是,GPT-4o对电商设计的冲击到底有多大?

我跟忠忠聊了很久。

最后得到的结论,跟我自己在设计行业里感受到的水温差不多。

对于普通水平的电商设计师,肯定是有打击的,他们原有的技能水平也就只能产出跟gpt4o差不多的图,相对来说意义不大了。

上游的运营专员可以自己操作工具来生产一样质量的图。跟被冲击的插画师类似,可能会变为帮忙修补gpt4o产出的图的bug,还有叠加原图部分细节上去加强细节还原(类似于高低频修复流程)。

生产成本降低后,需求量会变大,原本用不起各种华丽背景图包装的商家,现在也用的起了。

从效果上极简操作就能生图的工具有美图设计室等一堆工具,GPT4o只是在某些效果方面更进一步而已,对于专业级的实际商业生产的影响可能没有那么大。

而从视觉设计角度,对现有的整个开源生态,反而是利好作用。

忠忠举了自己设计的公司IP的例子。

现在,可以一句话把IP的3D模型,直出到品牌海报上,不需要走以前的3D建模+渲染了,大大节省了时间。

同时,更有趣的一点是,GPT-4o可以根据一张IP草图,来生成这个IP的各角度视图。

而这些图,会进一步推动flux等开源模型的微调版本的效果。

你可能会问,都有GPT-4o了,为什么还要去微调flux,在ComfyUI搭工作流用呢?这不是脱裤子放屁多此一举呢?

其实有两个原因。

数据隐私性和精准性。

数据隐私很好解释,就是GPT-4o是一个闭源的模型,后面最多最多也就是开放一个API,让大家接到ComfyUI里面去用,但是,就OpenAI这个尿性,我们给过去的东西,大概率就成他后续的训练素材了。

举个例子,《流浪地球3》2027年上映,要是现在美术组把核心概念图或者设定图直接灌给GPT-4o做一些处理,到时候,《流浪地球3》电影还没上映,设定图你可以直接在GPT-5o里面让它画出来,这特么就炸了。。。

所以,数据隐私性至关重要,在真正的生产环境里,特别是一些大厂里,必须只能用本地的ComfyUI搭,真正的输出,必须是本地环境,用开源的模型。

所以,这个时候,我们就可以用一些不敏感的信息,扔给GPT-4o,来辅助生成数据集,反过来微调自己的flux模型,这个点,真的很有用。

精准性其实也很简单,我们回过头来看忠忠用GPT-4o输出的自己家IP的海报。

先不说其他的细节了,这几处,你是能发现一些明显的BUG的。

这其实在生产环境里,这种BUG是品牌方觉得不可能接受的,就想你给一个手机产品做广告,你把人手机弄变形了,你跟人说不行AI出得就是这样的,你看对面会不会把你挂在电风扇上转着打。

而这个时候,用Flux专门微调的Lora,是可以完美的解决这种精准性和一致性的问题的。

这其实就是普通设计场景和专业设计场景的区别。

GPT-4o当然可以替代大部分的普通工作流,会让ComfyUI里一大批的工作流失去价值,但是这就不代表,ComfyUI失去价值了。

很简单的一点是,在专业的设计工作里,纯对话式的简单界面满足不了复杂专业的需求的。

就像你问一个专业设计师,为什么设计是用PS做设计,而不用美图秀秀来做设计,对方只会把你当傻子。

在真正的专业的AI设计工作里,可控性,很多时候非常的重要。

需要精确的规定重绘区域,需要精确的调节风格效果,出图尺寸比例等,所以在专业生产中需要精确调节的细节,不能指望OpenAI全做成功能。

还有前后处理流程,比如说前置的裁剪,抠图,语义识别,后置的比如对图片的放大,贴回原图细节(高低频修复),再接入其他工作流继续处理等。

自动化一键完成的效率要比多轮对话高很多。

包括在一些精准度要求高的产品和场景上,GPT-4o目前还达不到专业级的水准。

看个例子。

比如我们要把问界M9这款车,换到另一个场景里。车这种产品,跟笔、戒指、香水等等要求的精细度,完全不一样。

这是GPT-4o出的图。

而如果我们用大佬的牛逼工作流呢?

生成出来的效果在整体比例和质感上,是更好的。

对比应该非常直观了。

这里我要给自己叠个甲,我并不是在这里鼓吹,GPT-4o不行,ComfyUI的效果可以吊打GPT-4o。

如果是这样的话,我也不会连更两篇,来给大家看一看,GPT-4o,有多酷,有多强。

我想说的是,GPT-4o,跟当年的SD、Midjorney、Runway、可灵等等AI工具是一样的。

会无差别替代所有这个行业里面的初级执行职位。

屠杀所有曾经在工程层面对大模型进行的一些优化。

然后,一点一点侵蚀更上层的建筑。

它更像是一层层汹涌上涨的潮水,将整个AI图像领域原有的边界打得支离破碎。

都说做AI产品,要看到大模型的边界,在边界之外的安全地带做。

但是现在,你根本不知道边界在何方。

那些看似高耸的技术壁垒与工作流程,如果只是基于简单组装或者初级执行的逻辑,正在被GPT-4o以近乎暴力的方式消解。

绝大多数机械式的制作工作,一旦被强大的多模态理解与生成替代,就会像那些轰然倒塌的围墙一样,被历史的风尘轻易覆盖。

有没有一种第一次工业革命时候,机器代替手工劳动的即视感?

历史总是在不断的重复。

可一如上文所言,这绝不代表ComfyUI之流就会被完全淘汰。

在工业级、专业级的深度工作流里,人们对数据安全、设计精度、可控度的需求不可能凭空消失。

那种图像与视频的多次处理、分层输出、版本管理、脚本化批量运行、自动化节点衔接,只要是大型企业或核心团队,都会很在意。

GPT-4o会在C端和中小B端市场里摧枯拉朽,取代了大量低端或者重复性工作。

而ComfyUI、Flux、ControlNet等开源生态则在更专业的领域继续进化,利用它们精细、可控、可离线部署的特性,为高端客户或机密项目提供服务。

这气势就像云端办公与本地办公的关系一样,前者无限便捷,后者安全可控。

也如同家用轿车与顶级跑车的分别,各自目标用户并不冲突。

GPT-4o也一定会不断进化,去扩大自己的边界蚕食更多的场景。

开源生态也会有各种可以复刻效果的模型、产品出来,从而进行私有化。

没什么能够阻止浪潮向前。

要么成为浪潮的追随者,要么成为浪潮的推手。

这二者,都肯定比做一块沉在海底的礁石,要精彩得多。

你说是吗。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数字生命卡兹克 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GPT-4o “吉卜力”爆火,Prompt、SD 白学了?!大模型能力进化碾压一切
ChatGPT 的新 AI 图像生成功能上线仅两天,社交媒体上便已充斥着以日本动画工作室吉卜力风格的 AI 生成梗图,埃隆·马斯克、《指环王》和美国总统唐纳德·特朗普都没“逃过”,甚至 OpenAI 首席执行官萨姆·奥尔特曼也将他的新头像设置为吉卜力风格的图片。(吉卜力工作室以制作《龙猫》和《千与千寻》等热门影片而闻名。)
深度学习与Python
2025/03/29
2650
GPT-4o “吉卜力”爆火,Prompt、SD 白学了?!大模型能力进化碾压一切
一手实测深夜发布的世界首个设计Agent - Lovart。
可能很多老粉都知道,我其实是设计师出身,所以对这种AI设计类的产品,还是Agent的产品,本身就比较关注。
数字生命卡兹克
2025/05/14
3570
一手实测深夜发布的世界首个设计Agent - Lovart。
【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出
25 日 Open AI 宣布将自己迄今为止最先进的图像生成器构建到 GPT‑4o 中。使用能够实现精确、准确、逼真的输出的原生多模式模型来解锁有用且有价值的图像生成。此次发布的报告中能和其他多模态模型对比突出的亮点:
AGI-Eval评测社区
2025/03/28
5500
【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出
“杀疯了”!GPT-4o的图像生成能力,彻底颠覆整个设计圈,灵感、审美,AI说我全都要!
大家好,我是小义。这几天,小红书满屏都是蓝天白云、龙猫巴士、魔女宅急便的画风,恍惚间以为误入动画电影节。这不是魔法,而是OpenAI最新发布的GPT-4o文生图功能掀起的飓风。一句“把婚纱照变成《千与千寻》油屋背景”,AI不仅精准还原宫崎骏笔触,连光影的呼吸感都拿捏到位,一键就可以生成“吉卜力大片”。
程序员小义
2025/03/31
1270
“杀疯了”!GPT-4o的图像生成能力,彻底颠覆整个设计圈,灵感、审美,AI说我全都要!
「开源版GPT-4o」来了!这个17B国产模型生图效果比肩4o,还可商用
前段时间,GPT-4o 火出了圈,其断崖式提升的生图、改图能力让每个人都想尝试一下。虽然 OpenAI 后来宣布免费用户也可以用,但出图慢、次数受限仍然困扰着没有订阅 ChatGPT 的普通人。
机器之心
2025/04/16
2250
「开源版GPT-4o」来了!这个17B国产模型生图效果比肩4o,还可商用
【零绘画基础程序员必学】AI绘画入门笔记03—初识ComfyUI+FlUX
前面介绍的SD的操作界面其实叫做 WebUI,这是SD的入门操作界面,它非常适合初学者快速上手。它的界面简洁,功能展示清晰,很适合用户理解SD的生图方式。
CS逍遥剑仙
2025/04/18
3230
[官方]你好 GPT-4o [译]
我们很高兴地宣布,推出了全新的旗舰模型 GPT-4o,能够在音频、视觉和文本之间实时进行推理。
硬核编程
2024/05/20
2160
[官方]你好 GPT-4o [译]
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
今日凌晨,OpenAI在毫无预兆的情况下,向全球用户推送了GPT-4o原生图像生成功能。这项被内部称为“视觉大爆炸”的更新,标志着语言模型首次突破文本界限,将图像生成能力内化为核心功能。从产品海报到科学图解,从动漫转绘到历史场景重建,用户只需用自然语言描述需求,GPT-4o即可在1分钟内生成专业级图像——甚至支持多轮对话迭代优化。这不仅是技术层面的突破,更是一场从工具到生态的全方位革命。
AI研思录
2025/03/27
2410
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
[AI OpenAI] 您好,GPT-4o
GPT-4o(“o”代表“omni”)是朝着更加自然的人机交互迈出的一步——它可以接受任何组合的文本、音频和图像作为输入,并生成任何组合的文本、音频和图像输出。它可以在短至232毫秒内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英文文本和代码处理方面与GPT-4 Turbo的性能相当,在非英语语言的文本处理上有显著提升,同时API的速度更快且成本降低50%。与现有模型相比,GPT-4o在视觉和音频理解方面特别出色。
从零开始学AI
2024/05/14
1750
[AI OpenAI] 您好,GPT-4o
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二
基于文本指令的图像编辑任务一直都是图像生成、编辑领域的一大热点,从Prompt2prompt到InstructPix2Pix,从EmuEdit再到最新的GPT4o,都在不断的拔高AI图像编辑的水平。
新智元
2025/05/08
1530
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议上发表多篇研究成果。共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。项目负责作者为该校校长青年教授寿政。
机器之心
2025/06/10
1070
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
实测全球第一个专业设计agent:对设计师来说是福不是祸(附10+case)
然后@数字生命卡兹克 卡神在群里发了一个新玩意的申请截图,想着点进去看看,这是什么好玩的东西。
AIGC新知
2025/05/14
4420
实测全球第一个专业设计agent:对设计师来说是福不是祸(附10+case)
360联合国内15个最强大模型推出“AI助手”碾压GPT4o!全球首部《人工智能法案》正式生效!|AI日报
Apple Intelligence将在今年10月推出?AI毛绒玩具BubblePal回答人类幼崽十万个为什么!|AI日报
可信AI进展
2024/08/05
5070
免费GPT-4o来袭,音频视觉文本实现「大一统」
今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。
AI科技评论
2024/05/14
2580
免费GPT-4o来袭,音频视觉文本实现「大一统」
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。
新智元
2024/05/22
6740
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
“破解”GPT-4o生图技术:万物皆可吉卜力的技术路线推测
最近 GPT-4o 生图模型横空出世,效果和玩法上都有突破性的进展,笔者整理了一下目前相关的技术,抛砖引玉一下,希望有更多大神分享讨论。
腾讯云开发者
2025/04/11
2200
“破解”GPT-4o生图技术:万物皆可吉卜力的技术路线推测
全球实时语音交互AI产品大比拼!阶跃AI和豆包问鼎,超越GPT-4o!
去年 5 月,OpenAI 发布全模态 AI 模型 GPT-4o,凭借实时处理文本、图像、音频输入的强大功能,以及像电影《Her》中一样媲美人类对话的响应速度、音色、声调和情感,瞬间成为科技领域的焦点,引发无数人对未来语音交互的遐想。实时语音交互 AI 产品的进化,早已超越了单纯模仿声调的“鹦鹉学舌”,短短一年间,它正向着理解、共情与创造发展。如今究竟进化至何种境地,离真正的人类对话,究竟还差几个次元壁?当冰冷的算法被赋予富有情感的声线、流畅的表达,是否能以假乱真,骗过我们的耳朵?
AGI-Eval评测社区
2025/06/25
1170
GraphRAG + GPT-4o mini 低成本构建 AI 图谱知识库
简单来说,RAG(Retrieval-Augmented Generation,检索增强生成) 的工作原理是将大型文档分割成多个小段落或片段。主要原因是,大语言模型的上下文窗口长度有限,无法一次处理超过上下文窗口长度的信息。
王树义
2024/07/30
5840
GraphRAG + GPT-4o mini 低成本构建 AI 图谱知识库
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。
机器之心
2024/05/14
3330
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
从零到高手:轻松掌握蓝耘元生代 AIDC OS 中的 ComfyUI 抠图技术
随着图像处理技术的不断发展,抠图作为其中的重要任务,广泛应用于电商、广告、创意设计等领域。蓝耘元生代 AIDC OS 中的 ComfyUI 工作流通过结合深度学习与先进的图像处理技术,提供了高效、精准的抠图解决方案。
云边有个稻草人
2025/04/24
1590
从零到高手:轻松掌握蓝耘元生代 AIDC OS 中的 ComfyUI 抠图技术
推荐阅读
GPT-4o “吉卜力”爆火,Prompt、SD 白学了?!大模型能力进化碾压一切
2650
一手实测深夜发布的世界首个设计Agent - Lovart。
3570
【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出
5500
“杀疯了”!GPT-4o的图像生成能力,彻底颠覆整个设计圈,灵感、审美,AI说我全都要!
1270
「开源版GPT-4o」来了!这个17B国产模型生图效果比肩4o,还可商用
2250
【零绘画基础程序员必学】AI绘画入门笔记03—初识ComfyUI+FlUX
3230
[官方]你好 GPT-4o [译]
2160
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
2410
[AI OpenAI] 您好,GPT-4o
1750
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二
1530
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
1070
实测全球第一个专业设计agent:对设计师来说是福不是祸(附10+case)
4420
360联合国内15个最强大模型推出“AI助手”碾压GPT4o!全球首部《人工智能法案》正式生效!|AI日报
5070
免费GPT-4o来袭,音频视觉文本实现「大一统」
2580
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
6740
“破解”GPT-4o生图技术:万物皆可吉卜力的技术路线推测
2200
全球实时语音交互AI产品大比拼!阶跃AI和豆包问鼎,超越GPT-4o!
1170
GraphRAG + GPT-4o mini 低成本构建 AI 图谱知识库
5840
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
3330
从零到高手:轻松掌握蓝耘元生代 AIDC OS 中的 ComfyUI 抠图技术
1590
相关推荐
GPT-4o “吉卜力”爆火,Prompt、SD 白学了?!大模型能力进化碾压一切
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档