Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >外星人的梦境?CLIP模型让GAN用一句话生成奇幻艺术作品

外星人的梦境?CLIP模型让GAN用一句话生成奇幻艺术作品

作者头像
新智元
发布于 2021-07-29 08:42:54
发布于 2021-07-29 08:42:54
1.2K0
举报
文章被收录于专栏:新智元新智元


新智元报道

来源:berkeley

编辑:好困

【新智元导读】或许,工科和艺术之间并不存在一个明显的界限。就像用AI生成的这些图像,可以说就是一幅幅艺术作品。而这些模型和代码的背后,又似乎只是一些被认为是与艺术毫无关系的程序员。

最近几个月,AI生成艺术领域的发展如同雨后春笋一般。

自从OpenAI开源了CLIP模型的权重和代码之后,网友们就开始利用它去创造各种有趣的视觉艺术。

而CLIP模型创造力是如此之强,仅根据这些短短的文字,就能以不可思议的抽象风格将它们呈现出来。

而你,并不会知道出现的会是什么:可能是迷幻的伪现实场景,或者是更加抽象的东西。

例如,输入 「夜晚的城市景观」,就会生成这种很酷、很抽象的画面。

亦或是生成「吉卜力画风的场景」。

CLIP也可以用来生成短的动画,例如这个「星空」。

自然语言输入是一个完全开放的沙盒,如果能按照模型的喜好使用文字,你几乎可以创造任何东西。

在概念上,这种从文本描述生成图像的想法与OpenAI的DALL-E模型惊人地相似。但实际上却完全不同。

DALL-E是直接从语言中产生高质量的图像而进行的端到端训练,而CLIP则是使用语言来引导现有的无条件图像生成模型。

DALL-E文本到图像的端到端生成

CLIP是如何生成艺术作品的

不过,这些基于CLIP的方法要相对拙略一些,所以输出的结果并不像DALL-E那样具有很高质量和精确度。相反,这些生成的图像是怪异、迷幻和抽象的。

正是这种怪异使这些基于CLIP的作品如此独特,让人在熟悉的事物上看到完全不同的结果。

「牛油果形状的扶手椅」:上图由DALL-E生成,下图由CLIP生成的

CLIP:一个意想不到的故事

2021年1月5日,OpenAI开源了CLIP:一个用来给图像进行标注的模型。

在数以亿计的图像中学习之后,CLIP不仅在给图像挑选最佳的标注方面变得相当熟练,而且在分类方面还展示出了比以往任何模型都更强大的鲁棒性。

除此以外,CLIP还学会了抽象的视觉表征,在某种程度上这还是第一次。

但很显然,没有任何迹象表明CLIP还能在生成艺术方面带来任何帮助。

然而,网友们只花了一天时间就发现,通过一个简单的技巧,CLIP就可以用来指导现有的图像生成模型(如GANs、Autoencoders或像SIREN这样的隐式神经表征),输出基于给定文字描述的图像。

其中,CLIP在生成模型的潜在空间进行搜索,从而找到与给定的文字描述相匹配的潜在图像。

然而,这种方法在早期生成的图像可以说十分诡异。

Big Sleep:一切的开始

不过,在短短的几周之后就有了突破性进展,advadnoun发布并开源了Big Sleep的代码:一种基于CLIP并使用Big GAN作为生成模型的文本到图像技术。

有趣的是,模型的名字起源于一部超现实主义的黑色电影The Big Sleep。

The Big Sleep以其独特的方式,几乎可以呈现任何能用文字表达的东西。

日落——The Big Sleep

起风了——The Big Sleep

在一切的尽头,摇摇欲坠的建筑和刺破天空的武器——The Big Sleep

看到这些作品,也就不难想象为何网友给出一个富有「哲学」的观点了:

你可以把CLIP的输出看作是单纯的统计平均数的产物:计算语言和视觉之间的相关性的结果,因为它们存在于互联网上。因此,从这个角度来看,CLIP的输出更像是在窥视时代潮流,并把事情看成是类似于 「互联网的统计平均值」。

VQ-GAN:一个新的超级生成模型

2020年12月17日,海德堡大学的研究人员发表了他们的论文「Taming Transformers for High-Resolution Image Synthesis」,提出了一种新的GAN架构:VQ-GAN。

VQ-GAN将conv-nets和transformers结合在一起,并充分地利用了conv-nets在局部感应偏差和transformers在全局注意力上的优势。

在四月初,advadnoun和RiversHaveWings开始把VQ-GAN和CLIP结合到一起,尝试从文本提示中生成图像。

新的方法与The Big Sleep基本相同,只不过原本的生成模型Big-GAN,变成了VQ-GAN。

结果就是,生成的图像在风格上发生了巨大的转变。

一系列的管道——VQ-GAN+CLIP

在月光下跳舞——VQ-GAN+CLIP

以武器作为枝条的树——VQ-GAN+CLIP

VQ-GAN+CLIP的输出看起来不像是The Big Sleep那样的绘画,而更像一个雕塑。

这个结果有些出乎意料,只是把生成模型从Big-Gan换成VQ-Gan,就能获得一个全新风格的「艺术家」。

当然,这也从侧面说明了CLIP的通用性:可以插入任何一个生成模型,并在之后产生具有全新风格和形式的艺术。

虚幻引擎(Unreal Engine )技巧

除了可以切换生成模型来改变输出的风格以外,还有一个更简单的技巧可以做到这一点。

只需要添加一些特定的关键词到文字提示中,CLIP就能对输出的图像做出相应地修改——以它所「理解」的方式。

这其中最有吸引力的一个技巧就是:「虚幻引擎技巧」。其中,虚幻引擎是一个由Epic Games开发的3D创作渲染工具。

网友jbustter发现,如果在文字提示中加入 「在虚幻引擎中渲染」,输出结果看起来会更真实。

CLIP似乎学习了很多被标记为「用虚幻引擎渲染」的电脑游戏图片,因此,通过在文字提示中加入这一点,就能有效地激励了模型去「复现」那些由虚幻引擎渲染的图像。

一个神奇的童话屋,虚幻引擎——VQ-GAN+CLIP

在某种程度上,虚幻引擎的技巧是一种突破。它使人们认识到在提示中添加关键词可以有多大的效果。

于是,有越来越多复杂的提示被使用,用来尽可能地提取最高质量的输出。

「山顶附近暴风雪中的小木屋,黄昏时分打开一盏灯 | artstation | 虚幻引擎」——VQ-GAN+CLIP

「山顶上的房子在午夜时分的哑光画,小萤火虫在周围飞来飞去,是吉卜力工作室的风格 | artstation | 虚幻引擎」——VQ-GAN+CLIP

这些看起来与之前VQ-GAN+CLIP生成的图像完全不同。它们看起来更像是经过编辑的照片或视频游戏的场景。

根据这些关键词,模型将会输出风格各异的艺术作品,同时,随着生成模型的发展,也将会有更多更出色的作品产生。

而这仅仅是个开始。

参考资料:

https://ml.berkeley.edu/blog/posts/clip-art/?continueFlag=ae8c92b06679c71e74349cb040d81f29

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用AI指挥另一个AI,GAN+CLIP的组合成了“CG艺术家”
不需要改变数据集,只需要给CLIP下达的命令中把“虚幻引擎”几个字加上,再让CLIP去指挥GAN,图像就立马变成了高大上的CG艺术风。
量子位
2021/07/19
7890
原画师惊呆:这个爆火AI真把梦境画成现实了!下载APP人人可用
明敏 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 没想到,平常都是我拿着最新AI的Demo到处去安利。 这回竟然被美术圈的朋友安利了一个AI绘画APP??? 话不多说先看效果: 这摩登又玄幻的画面,一上来就冲击到我了。 抽象的线条兼具了美感和想象力,同时还传递出未来城市的感觉。 要不是被剧透,我还真不一定能立刻猜出来这是出自AI之手。 而且除了能对照片进行二改,这个AI还能根据文字命题、凭自己想象作画。 比如输入落日飞车四个字,在AI的“想象”中会是这样: 另外还可以画出不同画风,目前已支持2
量子位
2022/04/28
1.2K0
原画师惊呆:这个爆火AI真把梦境画成现实了!下载APP人人可用
特别详细!带你一文了解扩散模型(不含任何公式)
扩散模型(Diffusion Models)能够生成超棒的图片、视频和音乐。它们的名字来源于自然界的扩散现象,就像水里的墨水慢慢散开一样。在AI的世界里,扩散模型通过逆转扩散过程来生成新数据,也就是说,它通过在数据中添加随机噪声,然后再逆转这个过程,从而从噪声数据中恢复原始数据分布,这样就能创造出新的数据。
ShuYini
2024/03/11
14.1K0
特别详细!带你一文了解扩散模型(不含任何公式)
图像、视频生成大一统!MSRA+北大全华班「女娲」模型怒刷8项SOTA,完虐OpenAI DALL-E
前脚刚推出取得了40多个新SOTA的Florence「佛罗伦萨」吊打CLIP,横扫40多个SOTA。
新智元
2021/11/29
9071
图像、视频生成大一统!MSRA+北大全华班「女娲」模型怒刷8项SOTA,完虐OpenAI DALL-E
效率碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS
Alex 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 新年伊始,谷歌AI又开始发力文字-图像生成模型了。 这次,他们的新模型Muse(缪斯)在CC3M数据集上达成了新SOTA(目前最佳水平)。 而且其效率远超火爆全球的DALL·E 2和Imagen (这俩都属于扩散模型),以及Parti (属于自回归模型)。 ——单张512x512分辨率图像的生成时间被压缩到仅1.3秒。 在图像编辑方面,只需一句文字指令,就可以对原始图像进行编辑。 (貌似不用再为学ps头秃了~) 如果想要效果更精准,还能选定
量子位
2023/02/28
2680
效率碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS
Nvidia「艺术家神器」GauGAN发布第二代!训练超1000万张图片,两个词就能生成风景画
最近,英伟达发布了实时绘画工具GauGAN的第二代,主要特性是支持输入文本来生成图像。
磐创AI
2021/12/01
1.5K0
Nvidia「艺术家神器」GauGAN发布第二代!训练超1000万张图片,两个词就能生成风景画
OpenAI DALL·E 3来了,集成ChatGPT,生图效果太炸了
终于,OpenAI 的文生图 AI 工具 DALL-E 系列迎来了最新版本 DALL・E 3,而上个版本 DALL・E 2 还是在去年 4 月推出的。
机器之心
2023/09/21
9870
OpenAI DALL·E 3来了,集成ChatGPT,生图效果太炸了
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
---- 新智元报道   编辑:LRS 【新智元导读】大艺术家重磅升级!最近OpenAI发布升级版DALL·E 2,不仅分辨率提升了4倍,准确率更高,业务也更广了:除了生成图像,还能二次创作! 2021年1月,OpenAI放了一个大招:DALL-E模型,让自然语言和图像成功牵手,输入一段不管多离谱的文本,都能生成图片! 比如经典的「牛油果形状的扶手椅」,还有新奇生物「一个长颈鹿乌龟」。 当时看着已经够神奇了吧? 时隔一年,OpenAI结合另一个多模态模型CLIP,发布了第二个版本DALL·E 2!
新智元
2022/04/11
5230
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
一段话让模型自曝「系统提示词」!ChatGPT、Bing无一幸免
而这位名为Bryce Drennan的网友则表示,可以让ChatGPT自己说出来!
量子位
2023/10/25
3921
一段话让模型自曝「系统提示词」!ChatGPT、Bing无一幸免
独家 | 这张骑马的宇航员图片是AI感知世界的一个里程碑(附链接)
文:Will Douglas Heaven April 6, 2022(2022 年4月6日)翻译:陈超校对:zrx 本文约3400字,建议阅读10分钟本文介绍了DALL-E的升级版,DALL-E 2对于人工智能的意义。 DALL-E 2021年初OpenAI的制图神经网络DALL-E一经发布,该项目便以新方法整合不同概念的类人化能力得到瞩目。DALL-E根据需求制作的图片是超现实且卡通化的,他们展现出了AI已经学会了世界是如何融合在一起的关键课程。DALL-E的鳄梨手扶椅具有鳄梨和椅子的关键特征;穿着t
数据派THU
2022/04/27
1.8K0
独家 | 这张骑马的宇航员图片是AI感知世界的一个里程碑(附链接)
AIGC生图技术:从GAN到最新的生成模型架构
人工智能生成内容(AIGC)技术,尤其是在图像生成领域,近年来取得了显著的进展。从最初的生成对抗网络(GAN)到如今的多种生成模型架构,AIGC技术已成为图像创作、艺术生成、虚拟现实、游戏开发等领域的重要工具。本文将深入探讨AIGC生图技术的演变历程,重点从GAN模型的基础到目前的最新生成模型架构,并结合代码实例展示其实现过程。
一键难忘
2025/03/12
5330
详解AI作画算法原理
在艺术与科技的交汇处,AI作画正以惊人的创造力刷新着我们对美的认知。这一领域融合了深度学习、计算机视觉和生成模型的前沿技术,让机器能够“想象”并创作出令人惊叹的图像。本文将深入浅出地探讨AI作画的核心算法原理,分析常见问题与易错点,并通过一个简单的代码示例,带领大家一窥AI艺术创作的奥秘。
Jimaks
2024/04/29
6660
1句话生成视频AI爆火!Meta最新SOTA模型让网友大受震撼
---- 新智元报道   编辑:编辑部 【新智元导读】Meta新模型Make-A-Video,可以从文本一键生成视频了!AI的进展太神了…… 给你一段话,让你做个视频,你能行吗? Meta表示,我可以啊。 你没听错:使用AI,你也可以变成电影人了! 近日,Meta推出了新的AI模型,名字起得也是非常直接:做个视频(Make-A-Video)。 这个模型强大到什么程度? 一句话,就能实现「三马奔腾」的场景。 就连LeCun都说,该来的总是会来的。 视觉效果超炫 话不多说,咱们直接看效果。 俩袋鼠在厨
新智元
2022/10/08
1.1K0
1句话生成视频AI爆火!Meta最新SOTA模型让网友大受震撼
吴恩达的2022年终盘点:生成式AI、ViT、大模型
近日,吴恩达在圣诞节的《The Batch》特刊上发布了一年一度的年终盘点。在过去的一年,生成式AI迎来爆发式增长,由人工智能生成的图片在社交平台疯狂传播,引发大量争议的同时也推动了投资;视觉 Transformer(ViT) 的工作也出现爆炸性增长,在过去一年中,研究人员共计发表超过 17,000 篇 ViT 论文;AlphaCode、Codex 等的推出便利了开发者,大受欢迎;与此同时,研究人员也在不断拓宽语言模型的边界,在解决可信度、偏见和实时性等问题方面做出持续不断的努力。
Datawhale
2023/01/10
6750
吴恩达的2022年终盘点:生成式AI、ViT、大模型
首次不依赖生成模型,一句话让AI修图!
来源:机器之心 本文约4500字,建议阅读9分钟 本文为你介绍一套基于可微矢量渲染器的解决方案。 2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型,不仅数据采集和训练成本高昂,且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛,限制了 AIGC 的发展和创造力发挥。 针对以上痛点,网易互娱 AI Lab 与上海交通
数据派THU
2023/03/29
4410
首次不依赖生成模型,一句话让AI修图!
分享15个全球顶尖的AIGC图片生成平台
人工智能正在改变许多行业的格局,而其中改变最直观和影响最大的就是AIGC领域的图像创作。
非喵鱼
2022/12/31
33.2K0
分享15个全球顶尖的AIGC图片生成平台
生成式AI正在改变一切,但热度散后,还会剩什么呢?
大数据文摘转载自数据派THU 作者:Will Douglas Heaven 翻译:顾伟嵩 校对:欧阳锦 没有人知道OpenAI的DALL-E在2022年会那么受欢迎,也没有人知道它的崛起会留给我们什么。 数字艺术家埃里克·卡特(Erik Carter)使用文本转换到图像的AI工具DALL-E2创作了这幅令人不安的图像。 显然,OpenAI已经引起了一些轰动。2021年快结束的时候,一小队研究人员在该公司旧金山办事处正讨论一个想法。他们建立了OpenAI的文本到图像模型DALL-E的新版本,这是一种将简短
大数据文摘
2023/02/23
3400
生成式AI正在改变一切,但热度散后,还会剩什么呢?
广告创意行业的AI革命
近年来,生成式人工智能(Generative AI)的突破性进展正在重塑广告创意行业。作为OpenAI与微软联合推出的尖端技术,DALL-E 3通过Azure云平台的深度集成,不仅大幅提升了图像生成的效率与质量,还为广告行业带来了从创意构思到落地的全链条革新。本文将深入探讨DALL-E 3的技术优势、与Azure结合的实际应用场景,以及其对广告行业的影响与未来潜力。
Michel_Rolle
2025/03/24
1.2K0
多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像
最近,OpenAI官宣了一个基于Transformer的语言模型--DALL-E,使用了GPT-3的120亿参数版本。取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。
新智元
2021/01/11
1.4K0
多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像
AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介
在过去的几年里,人工智能(AI)取得了极大的进展,而AI的新产品中有AI图像生成器。这是一种能够将输入的语句转换为图像的工具。文本转图像的AI工具有许多,但最突出的就属DALLE 2、Stable Diffusion和Midjourney了。
Freedom123
2024/03/29
5480
AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介
推荐阅读
相关推荐
用AI指挥另一个AI,GAN+CLIP的组合成了“CG艺术家”
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档