关键词:Stable Diffusion 3 Medium, MMDiT, 文本到图像模型, 图像质量, 排版, 复杂提示理解, 资源效率
大家好,我是猫头虎😺!今天要为大家介绍一款革命性的图像生成模型——Stable Diffusion 3 Medium。这款模型不仅提升了图像质量,还在排版和复杂提示理解方面表现出色,同时具备极高的资源效率。想了解更多关于这款模型的细节,请继续阅读下去!📖
Stable Diffusion 3 Medium 是一款多模态扩散变换器(MMDiT)文本到图像模型,其性能在图像质量、排版、复杂提示理解和资源效率方面有了显著提升。更多技术细节请参阅 研究论文。
请注意:此模型发布于 Stability 非商业研究社区许可下。若需创作者或企业许可,请访问 Stability.ai 或 联系我们 获取商业许可详情。
本地或自托管使用推荐使用 ComfyUI 进行推理。
Stable Diffusion 3 Medium 可在 Stability API 平台 上获取。
训练模型时使用了合成数据和经过筛选的公开数据。模型预训练了 10 亿张图像,微调数据包括 3000 万高质量美学图像,专注于特定的视觉内容和风格,以及 300 万首选数据图像。
├── comfy_example_workflows/
│ ├── sd3_medium_example_workflow_basic.json
│ ├── sd3_medium_example_workflow_multi_prompt.json
│ └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── ...
用于生成艺术作品,并在设计和其他艺术过程中使用。 用于教育或创意工具。 研究生成模型,包括理解生成模型的局限性。
所有模型的使用都应符合 可接受使用政策。
模型未经过训练以生成对人物或事件的真实表述。因此,使用模型生成此类内容超出了模型能力的范围。
作为设计安全性和负责任 AI 部署方法的一部分,模型开发的各个阶段都实施了安全措施,从预训练模型到模型的持续开发、微调和部署。实施的一系列安全缓解措施旨在减少严重危害的风险,但开发者仍需根据其具体使用情况进行测试并应用其他缓解措施。更多关于安全性的方法,请访问 安全页面。
评估方法包括结构化评估和针对特定、严重危害(如儿童性虐待和剥削、极端暴力和血腥、色情内容和非自愿裸体)的内部和外部红队测试。测试主要在英语环境中进行,可能无法涵盖所有可能的危害。如同任何模型一样,模型可能在某些时候会生成不准确、带有偏见或令人反感的响应。
Stable Diffusion 3 Medium 是一款革命性的图像生成模型,通过其多模态扩散变换器技术,实现了卓越的图像质量和复杂提示理解。无论是用于艺术创作、教育工具还是生成模型研究,这款模型都将带来全新的体验。
⚠️ 版权声明: 本文为原创文章,版权归作者所有。未经许可,禁止转载。更多内容请访问猫头虎的博客首页。