介绍 Stable Diffusion 3.5 - Stable Diffusion

作者：IT Admin

10月29日更新，发布 Stable Diffusion 3.5 Medium

核心要点：

今天我们推出 Stable Diffusion 3.5。此次开放发布包含多个模型变体，包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo，以及截至 10 月 29 日的 Stable Diffusion 3.5 Medium。
这些模型在其尺寸范围内具有高度可定制性，可在消费级硬件上运行，并根据宽松的 Stability AI 社区许可证免费用于商业和非商业用途。
您现在可以从 Hugging Face 下载所有 Stable Diffusion 3.5 模型，并从 GitHub 获取推理代码。

今天我们发布 Stable Diffusion 3.5，这是我们迄今为止最强大的模型系列。此次开放发布包含多个可定制的变体，可在消费级硬件上运行，并根据宽松的 Stability AI 社区许可证供使用。您现在可以从 Hugging Face 下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo 模型，并从 GitHub 获取推理代码。

今年 6 月，我们发布了 Stable Diffusion 3 Medium，这是 Stable Diffusion 3 系列的首次开放发布。那次发布并没有完全达到我们的标准或社区的期望。在听取了宝贵的社区反馈后，我们没有选择快速修复，而是花时间进一步开发了一个版本，以推进我们改变视觉媒体的使命。

Stable Diffusion 3.5 体现了我们的承诺，即为构建者和创作者提供广泛可访问、前沿且对大多数用例免费的工具。我们鼓励在整个流程中分发作品并实现货币化——无论是微调、LoRA、优化、应用程序还是艺术作品。

发布内容

Stable Diffusion 3.5 提供多种模型，旨在满足科研人员、爱好者、初创企业和企业的需求：

Stable Diffusion 3.5 Large：拥有 81 亿参数，具有卓越的质量和提示词遵循度，这个基础模型是 Stable Diffusion 家族中最强大的。该模型非常适合 1 兆像素分辨率的专业用例。
Stable Diffusion 3.5 Large Turbo：Stable Diffusion 3.5 Large 的蒸馏版本，仅需 4 步即可生成具有出色提示词遵循度的高质量图像，使其比 Stable Diffusion 3.5 Large 快得多。
Stable Diffusion 3.5 Medium：拥有 25 亿参数，采用改进的 MMDiT-X 架构和训练方法，该模型设计为可在消费级硬件上"开箱即用"，在质量和定制易用性之间取得平衡。它能够生成 0.25 到 2 兆像素分辨率范围的图像。

模型开发

在开发这些模型时，我们优先考虑可定制性，以提供一个灵活的基础来构建。为了实现这一点，我们将查询-键归一化集成到 Transformer 块中，稳定了模型训练过程，并简化了进一步的微调和开发。

为了支持这种程度的下游灵活性，我们不得不做出一些权衡。相同提示词在不同种子下可能会产生更大的输出变化，这是有意为之的，因为这有助于在基础模型中保留更广泛的知识库和多样化的风格。然而，因此，缺乏特异性的提示词可能会导致输出的不确定性增加，美学水平可能会有所不同。

特别是对于 Medium 模型，我们对架构和训练方案进行了几项调整，以提高质量、连贯性和多分辨率生成能力。

模型的优势领域

Stable Diffusion 3.5 版本在以下领域表现出色，使其成为市场上最具可定制性和可访问性的图像模型之一，同时在提示词遵循度和图像质量方面保持顶级性能：

可定制性： 轻松微调模型以满足您的特定创意需求，或基于定制工作流构建应用程序。
高效性能： 经过优化，可在标准消费级硬件上运行而不会产生过高需求，尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 模型。

我们研究了运行 Stable Diffusion 3.5 Medium 与其他开源图像基础模型的硬件兼容性。该模型仅需要 9.9 GB 的显存（不包括文本编码器）即可发挥其全部性能，使其具有高度可访问性，并与大多数消费级 GPU 兼容。