Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

作者头像
量子位
发布于 2024-07-05 02:42:56
发布于 2024-07-05 02:42:56
4940
举报
文章被收录于专栏:量子位量子位
LlamaGen团队 投稿 量子位 | 公众号 QbitAI

只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。

来自港大和字节的研究人员,提出了基于自回归模型Llama的图像生成方法。

目前该模型已经开源,并在GitHub斩获了近900颗星标。

扩散模型出现后,取代了自回归方法,一度成为图像生成的主流技术路线。

但在ImageNet测试基准上,作者提出的LlamaGen表现超越了LDM、DiT等扩散模型

作者的这一发现,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。

LlamaGen生图示例,第一行为class调控生成,第二行为文生图

那么,基于自回归模型,或者说基于Llama的图像生成,是如何实现的呢?

用自回归模型做图像生成

作者介绍,开源社区对自回归模型做图像生成的印象大多停留在2020年的VQ-GAN的ImageNet基准上取得的15左右的FID分数。

然而,早在2021年的ViT-VQGAN已经达到了FID 3.0左右的性能,DALL-E 1,Parti等更是在文生图领域展现了巨大的潜力。

不过这些工作都没有开源,于是,研究团队将目标设定成了推出开源版的基于自回归图像生成模型。

针对现有的先进的图像生成模型,作者总结出其成功的三点关键设计:

  • 图像压缩/量化器(Image Compressors/Tokenizers)
  • 可scale up的图像生成模型(Scalable Image generation models)
  • 高质量的训练数据(High-quality Training Data)

于是,作者采用了与VQ-GAN同样的CNN架构,将连续的图像转化成离散的Token。

相比2020年的VQ-GAN,作者对Image Tokenizer有了更多的认知:

一个优秀的Tokenizer需要更大的Codebook Size,更低的Codebook Vector Dimension,同时,更好的图像重建需要更多的Token数量。

VQ-GAN架构,非本项目

架构方面,LlamaGen的模型架构主要基于Llama语言模型,包括使用RMSNorm的Pre-Normalization、SwiGLU和RoPE。

尽管图像生成领域一些常用的技术(如AdaLN)可能进一步提高性能,但作者还是尽可能保持与Llama语言模型一模一样的架构。

在Class-Conditional和Text-Conditional(文生图)图像生成模型中,作者采用了使用最简单的实现:

Class或文本嵌入直接作为起始Token,后续的Image Token应用next-Token预测范式产生。

训练的过程则分为两个阶段进行。

在第一阶段,模型在LAION-COCO的50M子集上进行训练,图像分辨率为 256×256。

LAION-COCO原始数据集有6亿图文对,作者通过有效的图像URL、美学分数、水印分数、CLIP图文相似度分数和图像大小来筛选这些图像。

在第二阶段,模型在1千万规模的内部高美学质量图像上进行微调,图像分辨率为512×512。

这些美学图像的文本描述由LLaVa产生。

到了部署阶段,基于原生自回归模型架构的图像生成模型可以无缝采用现有的LLM部署框架,例如vLLM。这也是统一模型架构的一大优势。

同时,基于vLLM的框架部署方式,为LlamaGen带来了326%-414%的加速。

效果不输扩散模型

那么,作者研究出的这款模型效果究竟怎样呢?

先说作者重新训练的Image Tokenizer,它在ImageNet和COCO上优于以前的Tokenizers,包括VQGAN,ViT-VQGAN和MaskGI等。

重要的是,基于离散表征的Tokenizer与基于连续表征的VAE性能持平(例如在扩散模型中被广泛使用的SD VAE),这表明图像量化的离散表征不再是图像重建的一大瓶颈。

实际生成过程中,在ImageNet测试集上,LlamaGen在FID、IS、Precision和Recall等指标上都表现出了极强的竞争力。

其中,LlamaGen-3B模型优于广为流行的扩散模型 LDM和DiT。这表明最朴素的自回归模型架构有能力作为先进图像生成系统的基础模型。

同时,与之前的自回归模型相比,LlamaGen在各个参数量级上均优于以前的模型。

作者分析,这样的成绩是得益于更好的Image Tokenizer和Llama架构更好的扩展性。

文生图方面,经过第一阶段的训练,模型基本拥有了图文对齐的能力,但其生成图像的视觉质量有待提高。

第二阶段的训练显著提高了生成图像的视觉质量,作者认为这种提高来自两个方面——

  • 第二阶段的训练使用了高质量的美学图像;
  • 第一阶段的图像分辨率是256x256,第二阶段是512x512,更大的图像分辨率会带来更好的视觉效果。

当输入更长的文本时,LlamaGen也可以生成兼具图文对齐与视觉质量的图像。

不过作者也坦言,如果类比扩散模型的发展路线,目前的LlamaGen只是做到了Stable Diffusion v1阶段,未来的改进方向包括SDXL(更大的分辨率,更多的Aspect Ratio),ControlNet(更高的可控性),Sora(视频生成)。

从多模态大模型的视角看,自回归模型分别实现理解任务和生成任务都被证明了可行性,下一步就是在同一个模型中联合训练。

目前该项目已经开源,而且还支持在线体验,感兴趣的话不妨一试。

在线体验: https://huggingface.co/spaces/FoundationVision/LlamaGen 论文地址: https://arxiv.org/abs/2406.06525 项目主页: https://peizesun.github.io/llamagen/ GitHub: https://github.com/FoundationVision/LlamaGen Hugging Face: https://huggingface.co/FoundationVision/LlamaGen

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LED行业深度报告
LED海兹定律推动行业发展:与半导体领域的摩尔定律类似,LED作为一种半导体发光技术,也遵循着海兹定律——预计每十年LED的光效提升20倍,同时成本下降90%。这意味着,LED芯片光效将不断提升、体积持续缩小、成本也快速降低,而LED作为最基本的发光/显示技术(发光二极管),一旦光效、体积或成本到达临界点,往往带来应用端的迅速爆发。
FPGA技术江湖
2021/12/04
1.2K0
LED行业深度报告
华引芯孙雷蒙:主攻高端LED芯片,推出全球可量产的最小尺寸Mini LED | 镁客请讲
在刚刚于武汉举办的光博会上,光源供应厂商华引芯首发了全球可量产的最小尺寸Mini LED产品,这也意味着国内创企在高端LED芯片上取得了新进展。
镁客网
2019/11/27
6740
华引芯孙雷蒙:主攻高端LED芯片,推出全球可量产的最小尺寸Mini LED | 镁客请讲
microLED技术
MicroLED技术,即LED微缩化和矩阵化技术,指在一个芯片上集成高密度微小尺寸的LED阵列,是将LED进行薄膜化、微缩化和矩阵化的结果。
用户2760455
2022/06/08
4520
microLED技术
堆料堆不出电视头部玩家
随着各行各业落地成果显现,技术创新来到深水区,这一点如今体现得更真切了。表面上看,引领企业技术发展的应该是技术本身。但事实是,想抢先发优势、以新技术为噱头的企业,往往无法充分利用新技术红利,进而做大做深做长远。
量子位
2022/12/08
3460
堆料堆不出电视头部玩家
Mini LED产业
18年TCL的一个老总拉一帮技术大牛进军miniLED,但是对此物知道的甚少。本篇普及一下知识:
用户2760455
2022/06/08
1K0
OLED和LCD对比
今天等离子已不复存在,OLED 出现了新的竞争者。在本概述中,我们将了解这两种技术之间的差异、优缺点等。
天天Lotay
2023/10/15
5650
OLED和LCD对比
屏显有啥硬科技可卷?让现在电视厂商这么拼
比如,抱着大尺寸4K 120Hz OLED电视看电影,沉浸感绝不是手机、平板电脑可比拟。
量子位
2021/09/29
3840
CES2022上的中国力量:QD-Mini LED
作为引领全球消费科技产业技术的顶级盛会,CES不仅是最新科技成果的展示舞台,更是消费电子行业的风向标。
罗超频道
2022/02/09
4660
CES2022上的中国力量:QD-Mini LED
面板行业上演第三次革命,TCL Mini LED引领行业走向次时代
你可能已经注意到,在近年推出的各种显示设备上,一个看起来既熟悉又陌生的名词“Mini LED”开始频频出现。作为显示行业里备受追捧的前沿科技,近些年来Mini LED技术势头强劲、需求一路猛涨。随着苹果、华为、三星等头部企业的产品开始搭载Mini LED屏幕,其应用领域也不断被拓宽,Mini LED技术似乎在不知不觉中已经成为了一台高端显示产品的准入门槛。
罗超频道
2021/08/13
4080
聊聊身边的嵌入式,靓丽的LED广告屏
不知道你的记忆中是否还记得这种用多个显示器拼接起来的大屏幕。虽然整体看起来是一个比较大的画面,但中间的拼接线却让人感觉特别的不舒服。
用户2366192
2021/05/31
8650
TCL量子点电视是噱头吗?比OLED好在哪里?
在智能电视面世之前,电视机的比拼始终围绕着“屏幕”,从黑白到彩色电视,从13寸到110寸,从CRT到PDP等离子到LED再到OLED,科技不断让人们看电视更加舒适、高清、健康和环保。TCL又宣称带来下一代显示技术量子点电视,是噱头还是真的有革命性进步? 量子点电视来了 12月6日下午,由中国电子商会消费电子产品调查办公室主办的“平板电视色彩主观评测”活动在京举行。评测数据显示,相比市面上色域值100%NTSC色域的OLED电视,彩电巨头TCL带来的基于未来新一代显示技术的量子点电视色域则高达110%NTSC
罗超频道
2018/04/28
1.2K0
面板显示技术:LCD与OLED
面板显示技术(FPD)大致分为三个阶段:CRT(阴极射线管)、LCD液晶显示器、OLED(有机发光半导体),未来有望发展的技术有Mini-LED、Micro-LED。
硬件大熊
2022/12/06
1.5K0
面板显示技术:LCD与OLED
苹果再加码,Mini LED成显示行业深水炸弹
4月21日凌晨,苹果在春季发布会上发布全新配色iPhone 12,搭载M1芯片的全新iMac、智能防丢设备AirTags等新品。压轴亮相的是果粉期待多时、媒体反复爆料的新款iPad Pro。搭载基于Mini LED打造的Liquid Retina XDR屏幕,使得12.9英寸的iPad Pro成为最大看点之一,这是继Retina屏幕后iPad屏幕规格的又一次革命性提升,苹果再度刷新平板电脑显示水准。
罗超频道
2021/04/26
5220
三星电视“上新”在即,将有哪些新杀器?
硅谷创投教父彼得·蒂尔曾在采访中将公司分为两种类型,一类是复制现有的东西,一类是创造新的事物。
Alter聊科技
2023/01/13
2240
屏幕显示技术进化史
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 ---- 编译:Alex 技术审校:赵军 显示技术   视 野 #010# 每一天,我们都在透过电视、电脑和手机等设备的屏幕观看流媒体内容。随着硬件设备和流媒体技术的不断发展和更新,屏幕显示技术也在不断进化。今天,就让我们跟随历史的脚步,一起来回顾一下屏幕显示技术发展历程中的重要里程碑。 CRT的问世 1869年,德国物理学家Julius Plücker和Johann Wilhe
LiveVideoStack
2022/07/01
1.5K0
屏幕显示技术进化史
科普|实力解说Micro LED与OLED、LCD有何差异
有传言表明:苹果在过去数年内一直在研究一种名为Micro LED的新型显示屏,并已取得了较大进展。未来两年内,苹果生产的Micro LED显示屏将有望应用至Apple Watch,及智能手机和平板电脑
VRPinea
2018/05/18
2.6K0
电子行业2022年度策略报告
汽车电动化:即汽车以电能作为能源供给,电机作为动力引擎,具有节能、零排放等特点。目前常见的有BEV(电池动力),HEV(油电混动)、MHEV(轻混)、PHEV(插电混)和REEV(增程式)等。
FPGA技术江湖
2022/05/23
7360
电子行业2022年度策略报告
拥抱高清时代,三星Neo QLED 8K电视发力高端市场
在消费者高品质生活需求和超高清内容增长等因素的推动下,彩电市场正从“低价竞争”转向“价值升级”,呈现大屏化、高清化和高端化的趋势。基于对行业趋势的有效预判和用户需求的精准洞察,依托强大的技术积累,三星打造了高端产品线Neo QLED 8K系列。4月7日,三星举行三星家电2022年新品发布会,宣布对Neo QLED 8K系列产品进行了技术升级与产品扩充。通过升级的MiniLED、量子点矩阵和Neo量子点8K处理器,三星Neo QLED 8K系列为用户带来更为震撼的视觉体验;更为丰富的产品线,覆盖55-85英寸
曾响铃
2022/04/28
3340
拥抱高清时代,三星Neo QLED 8K电视发力高端市场
【常用传感器】LCD1602液晶工作原理详解及例程代码[通俗易懂]
LCD ( Liquid Crystal Display 的简称)液晶显示器。能够同时显示16×2,32个字符,是一种专门用来显示字母、数字、符号等的点阵型液晶模块。
全栈程序员站长
2022/07/28
5.3K0
【常用传感器】LCD1602液晶工作原理详解及例程代码[通俗易懂]
百年电视行业,正在迎来四大关键转折 | CES 2020
到2020年这一届,CES(国际消费类电子产品展览会)已有52年历史。随着中国科技产业的崛起,中国企业在这一舞台上的存在感正在越来越强烈。在CES最核心的场馆Central Hall的黄金位置,中国科技巨头TCL、海尔,与Panasonic、索尼和夏普等日本企业和LG、三星等韩国巨头同台竞技。
罗超频道
2020/02/13
4630
百年电视行业,正在迎来四大关键转折 | CES 2020
推荐阅读
相关推荐
LED行业深度报告
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档