这个由华为诺亚方舟实验室联合多个研究机构共同开发的项目,推出了一款名为PixArt-Σ的扩散变换器模型(DiT),它能够直接根据文本提示生成高达4K分辨率的图像。
与之前的模型PixArt-α相比,PixArt-Σ在图像保真度和文本提示对齐方面都有了显著提升。它的训练效率也是一个亮点,通过从基础预训练开始,逐步引入更高质量的数据,实现了从“弱”到“强”的模型进化。
两大进步:
高质量训练数据:引入了更高质量的图像数据,配合更精确和详细的图像标题。
高效的令牌压缩:在DiT框架内提出了一个新的注意力模块,能够压缩键和值,显著提高效率,从而支持超高分辨率图像的生成。
这些改进使得PixArt-Σ在模型大小(0.6B参数)上远小于现有的文本到图像扩散模型,如SDXL(2.6B参数)和SD Cascade(5.1B参数),同时在图像质量和用户提示遵循能力上都有了显著提升。此外,PixArt-Σ生成4K图像的能力,为电影和游戏等行业的高质量视觉内容制作提供了强大支持。
项目地址:
https://pixart-alpha.github.io/PixArt-sigma-project/
领取专属 10元无门槛券
私享最新 技术干货