昨日,全球知名AI创新企业 Stability AI
推出了一款新的AI图像生成模型 Stable Cascade
,并且同步在GitHub上开源了对应的微调、ControlNet 和 LoRA 训练的脚本。
Stable Cascade
是一款三阶段的文本到图像转换模型,利用高压缩率的潜在空间,实现了灵活性和高效性,提供优质的图像生成结果。
GitHub:https://github.com/Stability-AI/StableCascade
体验地址:https://huggingface.co/spaces/multimodalart/stable-cascade
该模型基于 Würstchen
架构,可以显著降低模型训练的算力成本,比 SD2.1
的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。
●🚀 模型由三个阶段组成,专注于图像压缩和生成。
●🌐 以非商业许可发布,支持普通用户硬件进行训练和微调。
●🔍 潜在生成阶段(C阶段)将用户输入转换为24x24像素的潜在空间,实现高效压缩。
●🔧 重点在C阶段进行额外学习和微调,A和B阶段可根据需要进行微调。
●💡 C和B阶段拥有不同的参数大小,减少硬件要求,同时提供高质量图像。
●🔬 在命令对齐和美学质量上超越其他模型。
●🎨 可以生成多样化图像和图像到图像的转换。
●📚 将公开训练、微调、ControlNet、LoRA的代码,支持更广泛的使用和定制。
除了标准的文本到图像生成之外,Stable Cascade 还可以执行图像变化和图像到图像生成。
局部重绘:输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。
Canny Edge:通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。
2x超分辨率:也可用于C阶段生成的潜在空间。