近日,字节跳动宣布推出最新研发的文生图模型——SDXL-Lightning,该模型在保持极高图像质量和细节的同时,实现了令人惊叹的生成速度,打破了现有的技术壁垒,为生成式AI领域树立了新的里程碑。
字节跳动正式将这一开创性成果开源并向全球社区开放,进一步推进人工智能技术的创新和应用。
在生成式AI领域,基于文本提示生成高质量图像的技术日新月异,尤其在扩散模型的引导下,艺术创作与想象力得以跨越文字边界,迅速转化为栩栩如生的视觉表达。
然而,此类模型普遍存在计算消耗大、生成速度慢的问题,极大地限制了其在实时应用中的普及与发展。
如今,字节跳动推出的SDXL-Lightning模型成功攻克了这一难题,以革命性的渐进式对抗蒸馏技术,将文生图的生成速度提升至前所未有的水平。
SDXL-Lightning通过精心设计的渐进式对抗蒸馏算法,在仅仅2步或4步之内即可生成媲美原生20至40步扩散模型质量的高清图像,显著降低了计算成本和生成时间,甚至在1步内就能为对时间要求极为严苛的应用提供图像生成服务,尽管在一定程度上可能牺牲部分细节质量。
原始模型(20 步),SDXL-Lightning 模型(2 步)
在模型效果展示环节,SDXL-Lightning无论是在4步还是2步生成的图像中,均展现出高度逼真且富有创意的画面。
从微笑的女孩、爬山的皮卡,到骑自行车的鱼、戴着太阳镜的亚洲女士,再到精致茶杯、素描版蒙娜丽莎,以及游泳的熊猫、沙漠中的奇幻房屋,每一幅图像都生动展现了SDXL-Lightning在保持多样性和图文对应性的同时,全面提升的图像质量和细腻程度。
相比于现有的加速技术如Turbo和LCM,SDXL-Lightning在细节捕捉和忠实于原模型风格布局方面表现出明显优势,标志着文生图生成技术的一次重大飞跃。
为了推动AI领域的进步与共享,字节跳动选择将SDXL-Lightning模型开源,并融入蓬勃发展的开源社区。
该模型源于广受欢迎的SDXL开放模型,并完美兼容多种风格化的图像生成模型,成为一款即插即用的增速插件。
不仅如此,SDXL-Lightning还能够与ControlNet插件紧密结合,实现对生成图像的快速精细控制,并支持当下热门生成软件ComfyUI,大大提升了使用者的便捷性与创造性。
图:生成流程(图片来自:https://arxiv.org/abs/2011.13456)
在技术层面,SDXL-Lightning团队巧妙地针对扩散模型的复杂转化过程提出了一种新颖的对抗性训练策略。
图:曲线流程(图片来自:https://arxiv.org/abs/2210.05475)
不同于传统的每次迭代微调噪声样本以逼近最终图像分布的方式,该模型通过训练学生网络预测教师网络多步推理后的结果,有效减少了生成图像所需的步骤数,并通过对抗训练确保学生网络在概率分布上与教师网络保持一致性,避免了因预测误差累积而导致的图像质量损失。
图:渐进式蒸馏,学生网络预测老师网络多步后的结果
尽管此次发布的SDXL-Lightning着重于静态图像生成,但其所采用的渐进式对抗蒸馏技术同样适用于快速生成高质量视频、音频及其他多模态内容的广阔天地。字节跳动诚邀全球开发者、研究者和创作者通过HuggingFace平台体验SDXL-Lightning模型的强大功能,并积极贡献意见与反馈,共同推进人工智能技术的前沿探索。
字节跳动通过SDXL-Lightning模型的发布,不仅打开了文生图技术在速度和质量上的新纪元,也为整个AI社区带来了一场技术盛宴,让我们共同见证这场人工智能的风暴如何席卷而来,重塑未来的创造力与想象边界。
参考论文:https://arxiv.org/abs/2402.13929
领取专属 10元无门槛券
私享最新 技术干货