Stable Diffusion 4 发布：4K原生分辨率与电影级真实感 - Stable Diffusion

2026年4月6日，Stability AI 正式发布 Stable Diffusion 4——这是自2022年初代Stable Diffusion发布以来，最具里程碑意义的一次代际飞跃。

从V1到V4，从U-Net到DiT，从512分辨率到4K——Stable Diffusion用不到四年的时间，走完了别人可能需要十年的路。

架构全面升级：DiT的胜利

SD4 最核心的变化，是完全迁移到扩散Transformer（Diffusion Transformer, DiT）架构。

如果说SD3还是"半只脚"迈进Transformer时代（保留了一些传统组件），那么SD4就是彻底的Transformer化。整个模型架构围绕DiT重新设计，每一个组件都为Transformer的特性做了优化。

为什么DiT如此重要？

可预测的扩展性 Transformer模型有一个宝贵的特性：当你增加参数量、训练数据和计算量时，模型质量的提升是可预测的、近似线性的。而U-Net架构在规模扩大到一定程度后，就会遇到瓶颈，投入产出比越来越低。

DiT架构让Stability AI可以更有信心地"砸钱砸算力"，因为他们知道，投入会转化为可预测的质量提升。

优化的注意力机制 SD4采用了混合局部-全局注意力层的设计。对于图像的局部细节，使用局部注意力来节省计算；对于整体构图和长距离依赖，使用全局注意力来保证质量。这种设计让SD4在高分辨率下依然高效。

RoPE位置编码 SD4引入了旋转位置编码（Rotary Position Embedding, RoPE），这是一种在大语言模型中被广泛验证的位置编码方式。它让模型对空间位置的理解更加准确，显著改善了构图的连贯性——物体在画面中的空间关系更加自然合理。

4K原生分辨率：Ultra版的杀招

SD4 分为两个版本，定位截然不同：

特性	SD4 Base	SD4 Ultra
架构	精简版DiT	全功能升级版DiT
最大原生分辨率	1024×1024	4096×4096
最低显存需求	12GB	24GB
文字渲染模块	无	有
PBR光照模型	部分	完整
定位	社区与爱好者	专业与企业

SD4 Ultra 是当之无愧的旗舰。4096×4096的原生分辨率，意味着什么？

打印级画质：直接用于印刷、海报、大型广告牌
无需放大：一步到位，避免放大算法带来的伪影
极致细节：每一根毛发、每一处纹理都清晰可见
专业工作流：直接对接影视、游戏、广告等专业生产管线

更重要的是，这是原生4K，不是"先出小图再放大"。原生高分辨率带来的画质提升，是任何后期放大都无法比拟的。

而SD4 Base，则是为社区准备的礼物。12GB显存的门槛，让大多数拥有中端显卡的用户都能运行。它延续了Stable Diffusion"让每个人都能用上AI"的传统。

电影级真实感

SD4 在真实感上的提升，可以用"电影级"来形容。

解剖学准确性 手部生成，这个困扰了AI图像多年的难题，在SD4上终于有了突破性进展。官方数据显示，SD4 Ultra在标准引导强度下，手部解剖学正确率达到约87%。作为对比，SDXL大约只有60%，SD3.5大约是72%。

87%虽然还不是100%，但已经从"经常崩坏"进步到了"大多正常"。对于大多数应用场景来说，这个水平已经足够实用了。

PBR光照模型 SD4的训练数据中，加入了大量基于物理渲染（Physically Based Rendering, PBR） 的数据集。这些数据集带有精确的光照元信息，让模型真正理解了光的物理规律。

结果就是：

高光反射位置正确
皮肤的次表面散射自然
阴影方向一致
材质属性（金属、塑料、玻璃、皮肤）区分准确

这些细节的提升，普通人可能说不清楚"到底哪里变好了"，但就是会觉得"看起来更像真的了"。

文字渲染：从"能看"到"能用"

SD4 引入了一个专用的文字字形条件模块（Text Glyph Conditioning Module）——这是Stable Diffusion系列中第一次出现专门的文字渲染模块。

以前的模型，文字生成是"顺便"的——模型在学习图像的同时，顺带学了点文字。而SD4不一样，它有一个专门的模块来处理文字。

效果提升是显著的：

短单词和短语的准确率大幅提高
支持多种字体和风格
文字与画面融合更加自然
招牌、标签、标题等实用场景基本可用

虽然和DALL-E 4的文字能力还有差距（尤其是长文本和艺术字体），但对于绝大多数实际应用来说，SD4的文字生成已经从"玩具"变成了"工具"。

海报、封面、广告图——这些以前必须后期加文字的工作，现在SD4一步就能搞定了。

开源：不变的承诺

无论技术怎么迭代，Stable Diffusion 始终坚守着一个承诺：开源。

SD4 同样不例外。SD4 Base 完全开放权重，社区可以自由下载、使用、微调、二次开发。SD4 Ultra虽然定位专业版，但也提供了社区许可证，个人和小型团队可以免费使用。

这意味着：

你可以在自己的电脑上运行SD4
你可以用自己的数据微调SD4
你可以基于SD4构建商业产品
你可以为SD4的生态贡献代码和模型

在越来越多AI公司选择闭源的今天，Stability AI依然坚持开放。这份坚持，也许就是Stable Diffusion能够长久不衰的根本原因。

生态与未来

SD4 的发布，不是终点，而是一个新的起点。

按照Stability AI的规划，SD4平台未来还会扩展更多能力：

视频生成 SD4-Video 正在开发中，目标是将SD4的图像质量带到视频领域。如果开源视频生成能够达到接近商业产品的质量，那将是又一场革命。

3D生成 从图像到3D，是AI内容生成的下一个战场。Stability AI已经在3D领域有所布局（SPAR3D等），未来很可能会将3D能力整合进SD4生态。

多模态理解 更强的图像理解、视频理解能力，让AI不只是生成，更能"看懂"内容。

结语

从2022到2026，四年时间，Stable Diffusion 走过了四代。

V1 让AI图像生成走进了千家万户； SDXL 让开源模型有了比肩商业产品的画质； SD3 完成了从U-Net到Transformer的架构蜕变； SD4 将画质、分辨率、真实感推向了新的高度。

四年间，AI图像生成的世界天翻地覆。新的模型不断涌现，旧的王者不断被挑战。但Stable Diffusion，始终站在开源的最前沿。

因为它代表的不只是一个模型，更是一种信念——AI技术，应该属于每一个人。

SD4 来了，而下一个传奇，正在路上。