作者:IT Admin
10月29日更新,发布 Stable Diffusion 3.5 Medium
核心要点:
- 今天我们推出 Stable Diffusion 3.5。此次开放发布包含多个模型变体,包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo,以及截至 10 月 29 日的 Stable Diffusion 3.5 Medium。
- 这些模型在其尺寸范围内具有高度可定制性,可在消费级硬件上运行,并根据宽松的 Stability AI 社区许可证 免费用于商业和非商业用途。
- 您现在可以从 Hugging Face 下载所有 Stable Diffusion 3.5 模型,并从 GitHub 获取推理代码。
今天我们发布 Stable Diffusion 3.5,这是我们迄今为止最强大的模型系列。此次开放发布包含多个可定制的变体,可在消费级硬件上运行,并根据宽松的 Stability AI 社区许可证 供使用。您现在可以从 Hugging Face 下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo 模型,并从 GitHub 获取推理代码。
今年 6 月,我们发布了 Stable Diffusion 3 Medium,这是 Stable Diffusion 3 系列的首次开放发布。那次发布并没有完全达到我们的标准或社区的期望。在听取了宝贵的社区反馈后,我们没有选择快速修复,而是花时间进一步开发了一个版本,以推进我们改变视觉媒体的使命。
Stable Diffusion 3.5 体现了我们的承诺,即为构建者和创作者提供广泛可访问、前沿且对大多数用例免费的工具。我们鼓励在整个流程中分发作品并实现货币化——无论是微调、LoRA、优化、应用程序还是艺术作品。
发布内容
Stable Diffusion 3.5 提供多种模型,旨在满足科研人员、爱好者、初创企业和企业的需求:
- Stable Diffusion 3.5 Large:拥有 81 亿参数,具有卓越的质量和提示词遵循度,这个基础模型是 Stable Diffusion 家族中最强大的。该模型非常适合 1 兆像素分辨率的专业用例。
- Stable Diffusion 3.5 Large Turbo:Stable Diffusion 3.5 Large 的蒸馏版本,仅需 4 步即可生成具有出色提示词遵循度的高质量图像,使其比 Stable Diffusion 3.5 Large 快得多。
- Stable Diffusion 3.5 Medium:拥有 25 亿参数,采用改进的 MMDiT-X 架构和训练方法,该模型设计为可在消费级硬件上"开箱即用",在质量和定制易用性之间取得平衡。它能够生成 0.25 到 2 兆像素分辨率范围的图像。
模型开发
在开发这些模型时,我们优先考虑可定制性,以提供一个灵活的基础来构建。为了实现这一点,我们将查询-键归一化集成到 Transformer 块中,稳定了模型训练过程,并简化了进一步的微调和开发。
为了支持这种程度的下游灵活性,我们不得不做出一些权衡。相同提示词在不同种子下可能会产生更大的输出变化,这是有意为之的,因为这有助于在基础模型中保留更广泛的知识库和多样化的风格。然而,因此,缺乏特异性的提示词可能会导致输出的不确定性增加,美学水平可能会有所不同。
特别是对于 Medium 模型,我们对架构和训练方案进行了几项调整,以提高质量、连贯性和多分辨率生成能力。
模型的优势领域
Stable Diffusion 3.5 版本在以下领域表现出色,使其成为市场上最具可定制性和可访问性的图像模型之一,同时在提示词遵循度和图像质量方面保持顶级性能:
- 可定制性: 轻松微调模型以满足您的特定创意需求,或基于定制工作流构建应用程序。
- 高效性能: 经过优化,可在标准消费级硬件上运行而不会产生过高需求,尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 模型。
我们研究了运行 Stable Diffusion 3.5 Medium 与其他开源图像基础模型的硬件兼容性。该模型仅需要 9.9 GB 的显存(不包括文本编码器)即可发挥其全部性能,使其具有高度可访问性,并与大多数消费级 GPU 兼容。
- 多样化输出: 创建代表世界的图像,而不仅仅是一种类型的人,具有不同的肤色和特征,无需广泛的提示词。
- 多功能风格: 能够生成广泛的风格和美学,如 3D、摄影、绘画、线稿,以及几乎任何可以想象的视觉风格。
此外,我们的分析表明,Stable Diffusion 3.5 Large 在提示词遵循度方面处于市场领先地位,在图像质量方面可与更大的模型相媲美。
Stable Diffusion 3.5 Large Turbo 提供了与其尺寸相称的一些最快推理时间,同时在图像质量和提示词遵循度方面保持高度竞争力,即使与类似尺寸的非蒸馏模型相比也是如此。
Stable Diffusion 3.5 Medium 优于其他中型模型,在提示词遵循度和图像质量之间取得平衡,使其成为高效、高质量性能的首选。
Stability AI 社区许可证概览
我们很高兴根据我们宽松的社区许可证发布此模型。以下是许可证的关键组成部分:
- 非商业用途免费: 个人和组织可以免费将模型用于非商业用途,包括科学研究。
- 商业用途免费(年收入不超过 100 万美元): 初创企业、中小型企业和创作者可以免费将模型用于商业目的,只要其年总收入低于 100 万美元。
- 输出所有权: 保留生成媒体的所有权,不受限制性许可影响。
对于年收入超过 100 万美元的组织,请在此处联系我们以咨询企业许可证。
更多访问模型的方式
虽然模型权重现已在 Hugging Face 上提供用于自托管,但您也可以通过以下平台访问该模型:
我们对安全的承诺
我们信奉安全、负责任的 AI 实践,并采取审慎措施确保诚信从开发的早期阶段就开始。这意味着我们已经并将继续采取合理措施,防止不良行为者滥用 Stable Diffusion 3.5。有关我们安全方法的更多信息,请访问我们的 Stable Safety 页面。
即将推出
我们还将很快推出 ControlNets,为各种专业用例提供高级控制功能。
我们期待听到您对 Stable Diffusion 3.5 的反馈,并看到您用这些模型创造的作品。您可以通过此表单直接与我们分享想法。
要随时了解我们的进展,请在 X、LinkedIn、Instagram 上关注我们,并加入我们的 Discord 社区。