多知网2月23日消息,Stability AI今天发布了其 Stable Diffusion 3.0下一代旗舰文本到图像生成 AI 模型的早期预览版,在图像质量、多个对象、拼写能力方面都有显著提高,它采用了与Sora模型类似的架构。
根据介绍,Stable Diffusion 3.0旨在提供改进来自多主题提示的图像质量和生成图像有更好的性能,它还将提供比之前的Stable Diffusion更好的文字渲染,从而使生成的图像内部的拼写更加准确和一致。
(Stable Diffusion3生成的图片,文字清晰可见)
Stability AI的首席执行官Emad Mostaque提到,Stable Diffusion 3 采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近推出的Sora模型采用的架构相似。
(Stable Diffusion3生成的图片,图像质量高)
在过去的一年里,Stability AI一直在稳步迭代并发布多个图像模型,每个模型的复杂程度和质量都在不断提高。7月份发布的 SDXL极大地改进了Stable Diffusion 的基础模型,现在该公司正在寻求进一步的改进。
对于文生图模型来说,根据Prompt让生成的图像中带有指定的文字一直是个难题,Stable Diffusion 3.0则能很好的解决这个问题。
(Stable Diffusion3生成的图片,文字清晰可见)
Stable Diffusion 3.0的模型参数在以800M 到 8B之间。
根据介绍,现在用户已经可以在加入候补名单,申请Stable Diffusion 3.0的访问权限了:https://stability.ai/stablediffusion3
实际上,Stability AI在文生视频上也在发力,此前已经推出Stable Video,目前已经开放公测。
刚刚第一季度,AIGC赛道已经热闹非凡,就文生图来说还有Midjourney及OpenAI旗下的DALL-E 3,个个身怀绝技。(多知网 Penny)
领取专属 10元无门槛券
私享最新 技术干货