Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

作者头像
量子位
发布于 2024-07-05 02:42:56
发布于 2024-07-05 02:42:56
4940
举报
文章被收录于专栏:量子位量子位
LlamaGen团队 投稿 量子位 | 公众号 QbitAI

只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。

来自港大和字节的研究人员,提出了基于自回归模型Llama的图像生成方法。

目前该模型已经开源,并在GitHub斩获了近900颗星标。

扩散模型出现后,取代了自回归方法,一度成为图像生成的主流技术路线。

但在ImageNet测试基准上,作者提出的LlamaGen表现超越了LDM、DiT等扩散模型

作者的这一发现,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。

LlamaGen生图示例,第一行为class调控生成,第二行为文生图

那么,基于自回归模型,或者说基于Llama的图像生成,是如何实现的呢?

用自回归模型做图像生成

作者介绍,开源社区对自回归模型做图像生成的印象大多停留在2020年的VQ-GAN的ImageNet基准上取得的15左右的FID分数。

然而,早在2021年的ViT-VQGAN已经达到了FID 3.0左右的性能,DALL-E 1,Parti等更是在文生图领域展现了巨大的潜力。

不过这些工作都没有开源,于是,研究团队将目标设定成了推出开源版的基于自回归图像生成模型。

针对现有的先进的图像生成模型,作者总结出其成功的三点关键设计:

  • 图像压缩/量化器(Image Compressors/Tokenizers)
  • 可scale up的图像生成模型(Scalable Image generation models)
  • 高质量的训练数据(High-quality Training Data)

于是,作者采用了与VQ-GAN同样的CNN架构,将连续的图像转化成离散的Token。

相比2020年的VQ-GAN,作者对Image Tokenizer有了更多的认知:

一个优秀的Tokenizer需要更大的Codebook Size,更低的Codebook Vector Dimension,同时,更好的图像重建需要更多的Token数量。

VQ-GAN架构,非本项目

架构方面,LlamaGen的模型架构主要基于Llama语言模型,包括使用RMSNorm的Pre-Normalization、SwiGLU和RoPE。

尽管图像生成领域一些常用的技术(如AdaLN)可能进一步提高性能,但作者还是尽可能保持与Llama语言模型一模一样的架构。

在Class-Conditional和Text-Conditional(文生图)图像生成模型中,作者采用了使用最简单的实现:

Class或文本嵌入直接作为起始Token,后续的Image Token应用next-Token预测范式产生。

训练的过程则分为两个阶段进行。

在第一阶段,模型在LAION-COCO的50M子集上进行训练,图像分辨率为 256×256。

LAION-COCO原始数据集有6亿图文对,作者通过有效的图像URL、美学分数、水印分数、CLIP图文相似度分数和图像大小来筛选这些图像。

在第二阶段,模型在1千万规模的内部高美学质量图像上进行微调,图像分辨率为512×512。

这些美学图像的文本描述由LLaVa产生。

到了部署阶段,基于原生自回归模型架构的图像生成模型可以无缝采用现有的LLM部署框架,例如vLLM。这也是统一模型架构的一大优势。

同时,基于vLLM的框架部署方式,为LlamaGen带来了326%-414%的加速。

效果不输扩散模型

那么,作者研究出的这款模型效果究竟怎样呢?

先说作者重新训练的Image Tokenizer,它在ImageNet和COCO上优于以前的Tokenizers,包括VQGAN,ViT-VQGAN和MaskGI等。

重要的是,基于离散表征的Tokenizer与基于连续表征的VAE性能持平(例如在扩散模型中被广泛使用的SD VAE),这表明图像量化的离散表征不再是图像重建的一大瓶颈。

实际生成过程中,在ImageNet测试集上,LlamaGen在FID、IS、Precision和Recall等指标上都表现出了极强的竞争力。

其中,LlamaGen-3B模型优于广为流行的扩散模型 LDM和DiT。这表明最朴素的自回归模型架构有能力作为先进图像生成系统的基础模型。

同时,与之前的自回归模型相比,LlamaGen在各个参数量级上均优于以前的模型。

作者分析,这样的成绩是得益于更好的Image Tokenizer和Llama架构更好的扩展性。

文生图方面,经过第一阶段的训练,模型基本拥有了图文对齐的能力,但其生成图像的视觉质量有待提高。

第二阶段的训练显著提高了生成图像的视觉质量,作者认为这种提高来自两个方面——

  • 第二阶段的训练使用了高质量的美学图像;
  • 第一阶段的图像分辨率是256x256,第二阶段是512x512,更大的图像分辨率会带来更好的视觉效果。

当输入更长的文本时,LlamaGen也可以生成兼具图文对齐与视觉质量的图像。

不过作者也坦言,如果类比扩散模型的发展路线,目前的LlamaGen只是做到了Stable Diffusion v1阶段,未来的改进方向包括SDXL(更大的分辨率,更多的Aspect Ratio),ControlNet(更高的可控性),Sora(视频生成)。

从多模态大模型的视角看,自回归模型分别实现理解任务和生成任务都被证明了可行性,下一步就是在同一个模型中联合训练。

目前该项目已经开源,而且还支持在线体验,感兴趣的话不妨一试。

在线体验: https://huggingface.co/spaces/FoundationVision/LlamaGen 论文地址: https://arxiv.org/abs/2406.06525 项目主页: https://peizesun.github.io/llamagen/ GitHub: https://github.com/FoundationVision/LlamaGen Hugging Face: https://huggingface.co/FoundationVision/LlamaGen

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
论文解读 - 统一的多模态理解和生成模型综述(上)
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
合合技术团队
2025/05/29
1190
论文解读 - 统一的多模态理解和生成模型综述(上)
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
来源:机器之心本文约2200字,建议阅读5分钟一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT,在性能和速度上都获得了大幅改进。 来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT,在性能和速度上都获得了大幅改进。‍ 生成式 transformer 在合成高保真和高分辨率图像方面得到了快速普及。但迄今为止最好的生成式 transformer 模型仍是将图像视为一系列 token,并按照光栅扫描顺序(即逐行)解码图像。然而这
数据派THU
2022/03/18
4680
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
本文的共同一作为墨尔本大学的胡冬庭和香港科技大学的陈捷润和黄悉偈,完成于在 Snap 研究院 Creative Vision 团队实习期间。主要指导老师为任健、徐炎武和 Anil Kag,他们均来自 Snap Creative Vision 团队。该团队的主要研究方向包括 Efficient AI 和图像/视频/三维生成模型。
机器之心
2025/02/15
830
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了
当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 个颜色通道)。每个数字代表一个像素点的颜色深浅,从 0 到 255。
机器之心
2025/03/21
840
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了
【源头活水】在图像生成领域,自回归可以打败扩散模型吗?
图像生成领域,有这么几种方法,Flow-Based、GAN-Based、VAE+Pixel-CNN系列、扩散模型自回归。更早期的是基于自编码器的图像生成,各种Auto-Encoder模型,以及影响很大的变分自编码器d-VAE。后面又有Flow-Based,不过似乎Flow-Based引起的注意不是那么大。然后是名噪一时的GAN。2020年之后,扩散模型逐渐火热,一直到现在慢慢扩展到视频生成、3D生成、目标检测和语义分割等领域。
马上科普尚尚
2024/07/05
2660
【源头活水】在图像生成领域,自回归可以打败扩散模型吗?
完整解读:从DeepSeek Janus到Janus-Pro!
Take Home Message: Janus 是一个简单、统一且可扩展的多模态理解与生成模型,其将多模态理解与生成的视觉编码进行解耦,缓解了两个任务潜在存在的冲突。可在未来通过拓展,纳入更多的输入模态。Janus-Pro 在此基础上,优化训练策略(包括增加训练步数、调整数据配比等)、增加数据(包括使用合成数据等)、扩大模型规模(扩大到 70 亿参数),使得模型多模态理解和文本到图像指令遵循能力方面取得了进步。
Datawhale
2025/02/05
1.4K0
完整解读:从DeepSeek Janus到Janus-Pro!
只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染出的图像通通都是高保真效果,仿佛是用真相机拍出来的一样。 最近一段时间,用2D图片合成3D场景的研究火了一波又一波。 但是过去的许多研究,合成场景往往都局限在一个范围比较小的空间里。 比如此前大火的NeRF,效果就是围绕画面主体展开。 这一次的新进展,则是将视角进一步延伸,更侧重让AI预测出远距离的画面
量子位
2022/03/24
3540
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画
上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。
机器之心
2025/05/08
1050
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
机器之心报道 机器之心编辑部 来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT,在性能和速度上都获得了大幅改进。 生成式 transformer 在合成高保真和高分辨率图像方面得到了快速普及。但迄今为止最好的生成式 transformer 模型仍是将图像视为一系列 token,并按照光栅扫描顺序(即逐行)解码图像。然而这种策略既不是最优的,也不高效。 近日,来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型
机器之心
2022/03/14
3870
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
最近,YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。
新智元
2025/02/14
990
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
李飞飞、吴佳俊团队新作:FlowMo如何以零卷积、零对抗损失实现ImageNet重构新巅峰
自VQGAN和潜在扩散模型等流行的视觉生成框架出现以来,最先进的图像生成系统一般都是两阶段系统,首先将视觉数据标记化或压缩到低维潜在空间,然后再学习生成模型。标记化训练通常采用标准方法,即根据MSE、实际损失和对抗损失的组合对图像进行压缩和重建。扩散自动编码器在之前的工作中已被提出,作为一种学习端到端感知导向图像压缩的方法,但在ImageNet-1K重构这一竞争性任务中尚未显示出最先进的性能。我们提出的FlowMo是一种基于变换器的扩散自动编码器,它能以多种压缩率实现最新的图像标记化,而无需使用卷积、对抗损失、空间对齐的二维拉编码或从其他标记化器中提炼。我们的主要见解是,FlowMo训练应分为模式匹配前训练阶段和模式搜索后训练阶段。此外,我们还进行了广泛的分析,并探索了在FlowMo标记器上训练生成模型的方法。
CoovallyAIHub
2025/03/27
1330
李飞飞、吴佳俊团队新作:FlowMo如何以零卷积、零对抗损失实现ImageNet重构新巅峰
谷歌提出MaskGIT:掩码生成图像Transformer
生成式 transformer 在合成高保真和高分辨率图像方面得到了快速普及。但迄今为止最好的生成式 transformer 模型仍是将图像视为一系列 token,并按照光栅扫描顺序(即逐行)解码图像。然而这种策略既不是最优的,也不高效。
Amusi
2022/04/18
9410
谷歌提出MaskGIT:掩码生成图像Transformer
“破解”GPT-4o生图技术:万物皆可吉卜力的技术路线推测
最近 GPT-4o 生图模型横空出世,效果和玩法上都有突破性的进展,笔者整理了一下目前相关的技术,抛砖引玉一下,希望有更多大神分享讨论。
腾讯云开发者
2025/04/11
1910
“破解”GPT-4o生图技术:万物皆可吉卜力的技术路线推测
超越BigGAN,DeepMind提出「史上最强非GAN生成器」VQ-VAE-2
去年 9 月,BigGAN 横空出世,被誉为「史上最强 GAN 生成器」,其逼真程度众多研究者高呼「鹅妹子嘤」!相关论文也被 ICLR 2019 接收为 Oral 论文。
机器之心
2019/06/14
1.3K0
超越BigGAN,DeepMind提出「史上最强非GAN生成器」VQ-VAE-2
每周AI论文速递(240610-240614)
最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为此,我们提出了一种新的方法,通过Mixture-of-Agents (MoA) 方法来利用多个LLMs的集体优势。在我们的方法中,我们构建了一个分层的MoA架构,每层包含多个LLM智能体。每个智能体在生成响应时将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能,超过了GPT-4 Omni。例如,我们仅使用开源LLMs的MoA在AlpacaEval 2.0中以65.1%的得分显著领先,而GPT-4 Omni的得分为57.5%。
叶子的技术碎碎念
2025/04/08
730
每周AI论文速递(240610-240614)
复旦 & 港科技 & 港中文 &腾讯联合提出 OSV | 实现高质量图像到视频生成只需一步 !
视频合成提供了丰富的视觉效果和创意表达,对于电影、电视、广告和游戏具有重要作用。扩散模型在视频合成中发挥着越来越重要的作用。扩散模型通常涉及一个前向过程和一个反向过程。在正向过程中,真实数据通过迭代地扰动噪声直到收敛于一个简单的噪声分布,通常为高斯分布。在反向过程中,噪声逐渐被移除,最终返回到目标数据分布。
未来先知
2024/10/30
2080
复旦 & 港科技 & 港中文 &腾讯联合提出 OSV | 实现高质量图像到视频生成只需一步 !
CART: 用于图像生成的复合自动回归Transformer !
最近在图像合成和编辑方面的生成AI的进步,在研究和产业领域都引起了广泛关注。生成AI的常规方法,包括生成对抗网络(GANs)[13, 27]和变分自编码器(VAEs)[20, 37],通常旨在一次生成整个场景。然而,人类对视觉场景的感知和理解本质上具有组合性。例如,在创建场景时,艺术家通常遵循逐步迭代的过程,从粗糙的轮廓开始,逐步完善形状,并逐渐添加细节和阴影。一次性生成整个场景可能会排除这种逐步添加细节的过程,因此在扩展到高分辨率图像时面临挑战。
AIGC 先锋科技
2024/12/23
2520
CART: 用于图像生成的复合自动回归Transformer !
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
机器之心报道 机器之心编辑部 继 Imagen 后,谷歌又推出了文本 - 图像生成模型 Parti。 你见过一只小狗破壳而出吗?或者用飞艇俯瞰蒸汽朋克中的城市?又或者两个机器人在电影院像人类一样看电影…… 这些听起来可能有些天马行空,但一种名为「文本到图像生成」的新型机器学习技术使这些成为可能。 谷歌研究院的科学家和工程师一直致力于探索使用各种 AI 技术生成文本到图像的方法。 今年 5 月底,谷歌推出 AI 创作神器 Imagen,它结合了 Transformer 语言模型和高保真扩散模型的强大功能,在
机器之心
2022/06/27
4950
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
字节最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!
来源:本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处本文约1300字,建议阅读9分钟本文介绍了字节的最新text2image模型,实现了文本-图像都不使用,也可以让AI学会看文作图。 一个文本-图像对数据都不用,也能让AI学会看文作图? 来自字节的最新text2image模型,就做到了。 实验数据显示,它的效果比VQGAN-CLIP要真实,尤其是泛化能力还比不少用大量文本-图像数据对训练出来的模型要好很多。 嗯?不给文字注释AI怎么知道每一张图片代表什么? 这个模型到底咋训
数据派THU
2022/04/08
1.2K0
字节最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!
模型老矣,尚能sota!Google Brain拿着2015年的扩散模型称霸图像合成,评分接近完美
自然图像合成(Natural Image Synthesis)是一类应用广泛的机器学习任务,但在不同的应用场景中都存在多种多样的设计难点。
新智元
2021/07/29
7020
推荐阅读
论文解读 - 统一的多模态理解和生成模型综述(上)
1190
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
4680
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
830
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了
840
【源头活水】在图像生成领域,自回归可以打败扩散模型吗?
2660
完整解读:从DeepSeek Janus到Janus-Pro!
1.4K0
只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022
3540
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画
1050
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
3870
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
990
李飞飞、吴佳俊团队新作:FlowMo如何以零卷积、零对抗损失实现ImageNet重构新巅峰
1330
谷歌提出MaskGIT:掩码生成图像Transformer
9410
“破解”GPT-4o生图技术:万物皆可吉卜力的技术路线推测
1910
超越BigGAN,DeepMind提出「史上最强非GAN生成器」VQ-VAE-2
1.3K0
每周AI论文速递(240610-240614)
730
复旦 & 港科技 & 港中文 &腾讯联合提出 OSV | 实现高质量图像到视频生成只需一步 !
2080
CART: 用于图像生成的复合自动回归Transformer !
2520
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
4950
字节最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!
1.2K0
模型老矣,尚能sota!Google Brain拿着2015年的扩散模型称霸图像合成,评分接近完美
7020
相关推荐
论文解读 - 统一的多模态理解和生成模型综述(上)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档