Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一手实测深夜发布的世界首个设计Agent - Lovart。

一手实测深夜发布的世界首个设计Agent - Lovart。

作者头像
数字生命卡兹克
发布于 2025-05-14 05:06:43
发布于 2025-05-14 05:06:43
2940
举报

说个超级有意思的事。

今天凌晨,一个AI设计类的垂直Agent工具,在X上爆了。

可以直接看一下他们的片子。

可能很多老粉都知道,我其实是设计师出身,所以对这种AI设计类的产品,还是Agent的产品,本身就比较关注。

不过比较尴尬的是,他们又是那种内测制,要排队。

不过好像海外都看到Manus的火爆了,所以他们也搞了邀请码机制,关注评论就送码。

我也就去随手留了个言,大概意思就是:

我是一个中国的AI博主,有一点名气,对Lovart产品很感兴趣,希望可以获得内测资格。

结果,没一会,发现我的X,真的收到了一条私信。。。

说实话,我对这种机会一般是不抱有啥希望的,结果没想到,居然还真的,拿到了邀请码。

本来都准备睡了,于是果断起床,一手体验了一波。

这个设计类的Agent产品,Lovart。

在玩到早上6点以后,我想说,Lovart真的是有一点东西,虽然因为是内测版,在很多细节上,做的还有一点粗糙,但是大的框架,已经很看到了。

而且,是真实的有用。

这是我做的一些小case。

网址在此:https://www.lovart.ai/

一进来,就是一个非常有视觉冲击力的主页。

直接点Get Started就行,你们可能还没有资格,就正常按照流程申请排队就行,当然,你也可以去他们的X评论区留言看看,说不定也会直接给你发。

发完就在这个邀请码的地方填就行。

如果你有资格了之后。

一进来,是一个非常像AI Chat的界面。

很简洁。

但是其实我在各种场合表达过很多次观点,在我的认知里,从来没有什么AI+行业,而是行业+AI,就像我之前写飞猪那个垂直的旅游Agent的时候。

行业里的Know How,才是最重要的,你到底是有什么痛点,有什么需求,有什么场景,什么时候该调用什么模型,什么时候该调用什么工具,这些东西,叠加你的AI的能力,才是真正的护城河。

所以我对Lovart,是真的还有一些期待的。

我们可以在对话框中,随便跟他提一个设计要求。

比如我就写了一段:

帮我画一组“猫猫去世界各地旅行”的插画系列,总共8张图,每张都画一只米白色、站着走路的Q版猫猫,穿着当地的传统服饰,比如去日本就穿和服,去法国就带贝雷帽,去西安就穿唐装。猫的形象要一模一样,要站在画面中间偏下,后面是有代表性的地标,比如东京的街道、巴黎铁塔、西安城墙等等,但背景不要太复杂。画风要偏日系插画,线条细一点,颜色柔和一点,每张右下角能加一句旅游口号,比如“Spring in Tokyo”。整套适合做小红书日签那种风格,尺寸是3:4。

发给Lovart之后,我直接录了个屏,大家可以看一下,就是原来稍微有点慢,一个任务三分钟,我就给加了2倍速。

大家也可以看看复现过程:https://www.lovart.ai/r/f1mjl6f

8个小猫咪,是不是超级可爱的。

毕竟是Agent产品,中间的思考过程,其实非常有趣。

在收到我的任务之后,其实不同于所有的其他Agent产品,它做的第一步,永远是匹配风格。

我这个任务,虽然显示没有匹配到风格,但是我还是想说下。

他这个第一步,是完全没毛病的。

这个其实就是设计任务场景,跟其他的场景不太一样的地方了。

因为在设计场景里,画风就是影响最大的那个爹,就是最高决策。

你风格一旦错了,后面哪怕你画得再好,都是废图。

就像你做一张海报,客户说想要极简风,你整了一套写实叠素材+渐变爆炸+颗粒反光上去,你就是在纯种找骂。

风格不对,全盘否定。

风格对了,哪怕细节差点,大家都觉得你是在一个频道上。

这就是我所说的行业的Kow How,如果你是不懂这个行业的人,你可能意识不到,风格这事,会有这么高的优先级,甚至高于怎么把这玩意画出来的优先级。

我自己写的风格其实比较模糊,但是如果我们非常明确的写一个,噪点插画,它可能就会匹配上了。

而且这效果确实很好。

我大概扒了一下,这应该是1个LoRA模型。

所以在Lovart的判断逻辑里,应该是会先判断你的设计任务所要求的风格,在他们的库里去匹配是否有LoRA模型能够满足,如果能满足的话,不管从效果还是推理成本的角度,都应该用LoRA模型去做执行。

如果匹配不上的话,才会用其他的大模型比如Flux、GPT4o等等来去画图。

这个逻辑完全没毛病,就是不知道他们库里有多少LoRA。

在匹配之后,其实就是创建执行计划了。

不过有时候,匹配风格这一步,也有可能会被Lovart放在执行计划里,不过概率比较小。

我这个画猫咪的小任务,就被拆成了3步,获取知识、用GPT4o生图、结束。

获取知识这块很有意思,其实就是把我的Prompt,变成了一个超级详细的Prompt。

我必须要全部放出来给你们看,这也是我第一次见到这么详细的在AI上的设计拆解。。。

不仅写了通用性的设计规范,确定好的IP的样式和总体布局,然后,还列了8个城市,给每个城市,单独固定了调色板和单独的Prompt。。。

真的,要是每一个设计师,在做一些系列化设计的时候,都能把设计规范和一些差异化的点,描述的这么清楚,那真的不用浪费那么多时间去做一些无用的所谓的视觉统一的工作了。。。

最后,是选择调用了GPT4o,一口气把八张图,全部画了出来。

效果非常好。

在我自己一夜的测试过程中,除了GPT4o之外,还有Flux、Gemini,还有Poster Gen,做海报的时候经常会用的,但是我查半天也不知道底层是什么模型,感觉是他们自己做的。

最后,全流程Ending,Lovart,把所有的图,给你放在了左边的画板上。

并且,二次编辑的功能,做的还蛮全的。

顶上的放大、扩图、抠图、消除、修复、涂抹模糊,主流的功能,基本全都支持了。

而每一张图,也可以单独点击,进行选区选择。比如这个城市,我希望在右上角加一些和平鸽,peace and love才是真正的主旋律。

我涂上右上角的区域,就可以直接点下面的编辑,也可以添加到对话框中进行精准修改。

发送给他,很快,他就自己把和平鸽加上了。

除了小猫旅游之外,我又让他做了一些海报。

还做了一整套游戏UI,我超级喜欢的蒸汽波+复古像素的风格。是我心中的404世界,那种在虚拟空间中,被废弃的城市。

而且在我们日常设计任务中,其实还有很多尺寸延展的场景的,比如这个404世界的首页。

我们可以让他把这个竖着的,再延展成1:1,3:2,16:9这3个尺寸。

几分钟以后,他就全部给你改好。

可惜就是出现了一些语义理解的问题,最后的16:9没给我生成,还是按3:2去生的。

同时,这里需要特别注意,如果是是写的英文,在英文里,这种延展或者适配设计,一定要写Generate,而不是写Extend,Extend不是延展,是扩图,所以,如果你跟他说Extend的话,会很崩。

走的是纯扩图的逻辑,直接没眼看了。

甚至我还发现了,一个非常有趣的事,就是,你可以直接把生成的海报,扔到对话框中,然后说:Generate an editable text version of this poste。

你就会发现文字和背景图,真的被分离了,出来了一个可编辑的版本。

这个文字和背景分离的功能,其实是个超级刚需,做过AI绘图的都知道,文字有时候是要重改的,明明手敲就行,但是很多时候,AI出来的就是一张,根本改无可改。

但是如果我们一句话,能把字体样式、字体本身、背景图给分离出来,那绝对是一件所有设计师有巨大加持的大事。

只不过现在Lovart虽然有了这个意思,会把字符、位置几乎完美的还原,但是把背景做了一些很细节的微调,字体样式也还没有保持住,不过至少看到了希望,未来可期。

而且,他们不止能传图改图,甚至他们还集成了可灵、11labs、suno,可以把图片,生成视频,再配上音乐和配音,然后剪辑在一起。。。

比如我就扔了一张非常经典的口红战神Dior999的产品图上去。

给了一段Prompt:

我上传了一张高品质的Dior999的口红产品图,请基于这张图的质感和品牌定位,帮我生成一支专业感极强的Dior999品牌广告片段,时长控制在30秒以内。 整个广告需要延续这张图的调性,镜头语言可以参考过去Dior、香奈儿、兰蔻等高端美妆品牌的广告片风格。 请生成完整的视频脚本分镜图,包括文字、画面描述和转场逻辑。然后把这些图转成视频,根据图片主题,加背景音乐。

Lovart先分析了图像,然后写了一段非常详细的,广告视频脚本。

然后,画了所有的分镜图,和一个可视化的脚本。

随后,他就给这些图片,都用可灵转成了视频,还用Suno,生成了BGM音乐。

在跑了十几分钟以后,一个还算好看的Dior999的广告视频,出现了。

真的,搓个小的广告片demo,Lovart真的没啥问题。

核心能力,其实还是来自于设计领域的Know How。

用Agent来生成视频+配乐这件事,其实不是啥难事,很多通用Agent都可以做,接接几个API或者MCP就行,但是大家可以去对比一下一些通用的Agent产品,用相同的产品图和Prompt,生成出来的视频审美和质量。

其实你就能看出来差别。

本来我还想用这个功能,来直接搓一段故事脚本,但是我发现,它的人物一致性和影视级别的镜头语言,还有一些进步空间,就作罢了= =

最后的最后,我还是想来聊聊Lovart的意义。

他当然,还有很多的细节问题和不足。

就像我当年第一次看到Figma,意识到设计协作这个赛道会被重写一样。

今天第一次看到Lovart跑完需求→生成→尺寸延展→图文分离→视频合成→二次修改这一整链条,我也觉得:

在Agent的加持下,设计的工作流,未来也不一定是现在这样了。

甚至设计师的定义,可能也是另一个描述。

在没有所谓的设计Agent的时候。

你跟任何AI说我要一张图,它给你的是作品。

但是,在Agent的加持下,你现在跟Lovart说我要一张图,它给你的是产品。

是交付,是资源,是资产。

未来,直接一句话,生成潮玩IP、生成这个IP所有的延展、做完视频、直出3D模型,并不是不可能。

可能,就在很快的未来。

现在的图景,非常的清晰。

每一个垂类赛道,可能都会有它一个专属的最牛逼的Agent。

有大通用的、有研究的、有旅游的、有设计的。

未来,垂直Agent的,一定会更快速的涌现。

现在又是凌晨6点了。

但是我还是还想感慨一句。

亲身参与这个时代里。

实在是,太酷了。

>/ 作者:卡兹克

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数字生命卡兹克 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
实测 Google I/O 放出来的 Imagen4,不如GPT4o、甚至不如Imagen3。。
写公众号这么久,封面图这事儿吧,以前我基本都交给 Whisk(或者说老版本的 Imagen3)来搞定,省心省力。
AI进修生
2025/05/22
2090
实测 Google I/O 放出来的 Imagen4,不如GPT4o、甚至不如Imagen3。。
即梦图片3.0又重磅更新,这可能是对普通人最有用的一次。
我人真的傻了,我真的不愿意用一些什么很夸张的词语,但是即梦的绘图,每一次,带给我的震撼,都会觉得,我这么多年的设计师生涯,在AI的进化速度面前,不值一提。
数字生命卡兹克
2025/06/08
810
即梦图片3.0又重磅更新,这可能是对普通人最有用的一次。
试完这个神级Prompt,我发现Claude3.5确实就是现在的No.1。
他的作用,是“汉语新解”,你可能不太理解这个字面意思,但是没关系,给你看一张图,你就理解了。
数字生命卡兹克
2025/04/14
910
试完这个神级Prompt,我发现Claude3.5确实就是现在的No.1。
实测全球第一个专业设计agent:对设计师来说是福不是祸(附10+case)
然后@数字生命卡兹克 卡神在群里发了一个新玩意的申请截图,想着点进去看看,这是什么好玩的东西。
AIGC新知
2025/05/14
4150
实测全球第一个专业设计agent:对设计师来说是福不是祸(附10+case)
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
今日凌晨,OpenAI在毫无预兆的情况下,向全球用户推送了GPT-4o原生图像生成功能。这项被内部称为“视觉大爆炸”的更新,标志着语言模型首次突破文本界限,将图像生成能力内化为核心功能。从产品海报到科学图解,从动漫转绘到历史场景重建,用户只需用自然语言描述需求,GPT-4o即可在1分钟内生成专业级图像——甚至支持多轮对话迭代优化。这不仅是技术层面的突破,更是一场从工具到生态的全方位革命。
AI研思录
2025/03/27
2310
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
GPT-4o的多模态生图,让整个设计圈都开始emo了。
比如@银海的直接做商品图的翻译和合成,这是原来的算法,很难做的效果,但是现在,有手就行。
数字生命卡兹克
2025/04/14
1210
GPT-4o的多模态生图,让整个设计圈都开始emo了。
精选最新 30+ GPT4o图像生成用例!提示词 / 最全资料 / 打开思路,ChatGPT一小时暴增百万用户!
ChatGPT 刚出来那会儿,病毒式传播。现在 GPT-4o 自带的图像功能一出,又刷屏了:
AI进修生
2025/04/02
1.4K0
精选最新 30+ GPT4o图像生成用例!提示词 / 最全资料 / 打开思路,ChatGPT一小时暴增百万用户!
炸裂,GPT-4o生成图片已达新高度
本文旨在收集和展示由 OpenAI 最新的旗舰多模态模型 GPT-4o 生成的精彩、有趣或具有代表性的图片案例。
wayn
2025/04/15
4480
炸裂,GPT-4o生成图片已达新高度
实测完Runway深夜上线的最新模型Gen4,我觉得可灵还是No.1。
这玩意,可以说是AI视频的鼻祖,很多人知道AI视频生成模型,可能是2023年11月爆火的PIKA,可能是2024年2月16号的Sora,可能是同年6月6号的国产之光可灵。
数字生命卡兹克
2025/04/14
1600
实测完Runway深夜上线的最新模型Gen4,我觉得可灵还是No.1。
一键生成完整海报,这个AI是要革PS和Canva的命。
不过如果一说前段时间,有个在AI绘图竞技场上匿名屠榜的模型,叫Red_Panda,可能很多人就知道了。
数字生命卡兹克
2025/04/14
530
一键生成完整海报,这个AI是要革PS和Canva的命。
Midjourney应用场景、特点、生成图片带来影响
Midjourney是一个基于GPT-3.5系列接口开发的免费AI机器人,旨在提供多领域的智能对话服务。本文主要介绍Midjourney的应用场景、功能特点、图片生成后可以做什么?
正在走向自律
2024/12/18
5500
Midjourney应用场景、特点、生成图片带来影响
手搓智能体的这一年
过去的一年多,大模型风起云涌,不断迭代,作为一个多年 NLP 产品方向的从业者,可以说是享受其中,惊喜连连。记得22年底,那时疫情放开,身边的人全部病倒,在身体冷热交加中看到了 ChatGPT 的发布,马上在病榻上完成了注册,那时的感觉就仿佛黑暗中看到了曙光。当时我在一家物联网公司的 AI 研究院工作,基于 ChatGPT 开始设计很多 demo 取代之前的 NLP 任务 bert 方案,后面一年多不断地实验各种大模型的应用方法,颇为有趣。
腾讯云开发者
2024/06/05
6181
手搓智能体的这一年
用过星流AI之后,我觉得自己也可以当专业设计师了
相信很多朋友用过AI绘画的产品及模型,或许对国产AI生图大模型了解不太多,部分朋友又苦于midjourney无法科学上网使用,于是在我近期与多家模型的对比之后,我发现一家较为突出和小众的AI生图工具———— 
AIGC新知
2024/12/20
1.2K0
用过星流AI之后,我觉得自己也可以当专业设计师了
「MarketingGPT」掀翻全球千亿美金市场!国内首个带货AI全家桶,不玩你就out了
---- 新智元报道   编辑:Aeneas 好困 【新智元导读】在试了这个很新的「搞钱GPT」之后,我们差点进军直播带货。 在全世界掀起狂飙巨变的ChatGPT、GPT-4、Midjourney v5等AI工具,改变的可不仅仅是码农、文案工作者和画师。 直播、电商、广告……所有这些你能想得到的领域,也都开始用它们来搞钱了。 很快,我们看到的小红书爆品文案、广告大片、营销脚本,背后的作者没准就是AI。 而根据Acumen Research and Consulting的预测,全球的AIGC市场规模,预
新智元
2023/05/09
2790
「MarketingGPT」掀翻全球千亿美金市场!国内首个带货AI全家桶,不玩你就out了
保姆级 Stable Diffusion 教程|送书
2022 年 8 月,在美国科罗拉多州举办了一场新兴数字艺术家竞赛,一幅名为《太空歌剧院》的作品获得“数字艺术/数字修饰照片”类别的一等奖,神奇的是,该作品的作者并没有绘画基础,这幅画是他用 AI 生成的。
HelloGitHub
2024/02/17
3581
保姆级 Stable Diffusion 教程|送书
详解阿里海报设计AI“鲁班”,没错,人类设计师危险了
李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你的双11,买买买。 阿里海报设计师的双11,在一个名为“资源位小组”的小黑屋连续通宵加班。 做海报、改文字、换商品、调设计、换banner,每个设计师对接几个运营人员,富士康流水线一样的重复性工作。一年双11下来,完成上亿张海报。 然而,这一切正在成为过去。 AI改变了围棋,现在也在改变海报设计。 这是一个名为“鲁班”的AI设计师,没错,它将担纲今年双11的banner海报设计,数量高达4亿张。 但考虑到鲁班平均1秒钟就能完成8000张海报设计
量子位
2018/03/23
2K0
AI绘画:解锁商业设计新宇宙(6/10)
近年来,AI 绘画技术以惊人的速度发展,从最初简单的图像生成,逐渐演变为能够创造出高度逼真、富有创意的艺术作品。随着深度学习算法的不断优化,AI 绘画工具如 Midjourney、Stable Diffusion 等的出现,更是让这一技术走进了大众的视野,引发了广泛的关注和讨论。这些工具不仅操作简便,而且能够在短时间内生成多种风格的绘画作品,大大降低了绘画创作的门槛。
正在走向自律
2025/02/06
2780
AI绘画:解锁商业设计新宇宙(6/10)
AI绘画程序Midjourney强势来袭!你准备好了吗?
如果说GPT4接入Microsoft的应用极大程度减轻了文字工作者的工作负担,甚至一定程度上造成文字工作者的职业焦虑。那AI绘画程序Midjourney的诞生极有可能洗盘整个设计圈,颠覆整个设计行业。
奔跑的小鹿
2023/04/04
1.1K0
AI绘画程序Midjourney强势来袭!你准备好了吗?
最强中文AI绘图模型即梦3.0上线,设计师们又一次emo了。
先是Gemini 2.0上线原生多模态生成,让行业里的人好好玩了一波,然后紧接着就是GPT-4o的原生多模态图片生成上线,彻底破圈,直接让我的朋友圈和X上,全是GPT-4o生成的图,我也第一时间,给大家连更两篇。
数字生命卡兹克
2025/04/14
2420
最强中文AI绘图模型即梦3.0上线,设计师们又一次emo了。
【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出
25 日 Open AI 宣布将自己迄今为止最先进的图像生成器构建到 GPT‑4o 中。使用能够实现精确、准确、逼真的输出的原生多模式模型来解锁有用且有价值的图像生成。此次发布的报告中能和其他多模态模型对比突出的亮点:
AGI-Eval评测社区
2025/03/28
5210
【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出
推荐阅读
实测 Google I/O 放出来的 Imagen4,不如GPT4o、甚至不如Imagen3。。
2090
即梦图片3.0又重磅更新,这可能是对普通人最有用的一次。
810
试完这个神级Prompt,我发现Claude3.5确实就是现在的No.1。
910
实测全球第一个专业设计agent:对设计师来说是福不是祸(附10+case)
4150
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
2310
GPT-4o的多模态生图,让整个设计圈都开始emo了。
1210
精选最新 30+ GPT4o图像生成用例!提示词 / 最全资料 / 打开思路,ChatGPT一小时暴增百万用户!
1.4K0
炸裂,GPT-4o生成图片已达新高度
4480
实测完Runway深夜上线的最新模型Gen4,我觉得可灵还是No.1。
1600
一键生成完整海报,这个AI是要革PS和Canva的命。
530
Midjourney应用场景、特点、生成图片带来影响
5500
手搓智能体的这一年
6181
用过星流AI之后,我觉得自己也可以当专业设计师了
1.2K0
「MarketingGPT」掀翻全球千亿美金市场!国内首个带货AI全家桶,不玩你就out了
2790
保姆级 Stable Diffusion 教程|送书
3581
详解阿里海报设计AI“鲁班”,没错,人类设计师危险了
2K0
AI绘画:解锁商业设计新宇宙(6/10)
2780
AI绘画程序Midjourney强势来袭!你准备好了吗?
1.1K0
最强中文AI绘图模型即梦3.0上线,设计师们又一次emo了。
2420
【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出
5210
相关推荐
实测 Google I/O 放出来的 Imagen4,不如GPT4o、甚至不如Imagen3。。
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档