Stable Diffusion 4 发布:4K原生分辨率与电影级真实感

2026年4月6日,Stability AI 正式发布 Stable Diffusion 4——这是自2022年初代Stable Diffusion发布以来,最具里程碑意义的一次代际飞跃。

从V1到V4,从U-Net到DiT,从512分辨率到4K——Stable Diffusion用不到四年的时间,走完了别人可能需要十年的路。

架构全面升级:DiT的胜利

SD4 最核心的变化,是完全迁移到扩散Transformer(Diffusion Transformer, DiT)架构

如果说SD3还是"半只脚"迈进Transformer时代(保留了一些传统组件),那么SD4就是彻底的Transformer化。整个模型架构围绕DiT重新设计,每一个组件都为Transformer的特性做了优化。

为什么DiT如此重要?

可预测的扩展性 Transformer模型有一个宝贵的特性:当你增加参数量、训练数据和计算量时,模型质量的提升是可预测的、近似线性的。而U-Net架构在规模扩大到一定程度后,就会遇到瓶颈,投入产出比越来越低。

DiT架构让Stability AI可以更有信心地"砸钱砸算力",因为他们知道,投入会转化为可预测的质量提升。

优化的注意力机制 SD4采用了混合局部-全局注意力层的设计。对于图像的局部细节,使用局部注意力来节省计算;对于整体构图和长距离依赖,使用全局注意力来保证质量。这种设计让SD4在高分辨率下依然高效。

RoPE位置编码 SD4引入了旋转位置编码(Rotary Position Embedding, RoPE),这是一种在大语言模型中被广泛验证的位置编码方式。它让模型对空间位置的理解更加准确,显著改善了构图的连贯性——物体在画面中的空间关系更加自然合理。

4K原生分辨率:Ultra版的杀招

SD4 分为两个版本,定位截然不同:

特性SD4 BaseSD4 Ultra
架构精简版DiT全功能升级版DiT
最大原生分辨率1024×10244096×4096
最低显存需求12GB24GB
文字渲染模块
PBR光照模型部分完整
定位社区与爱好者专业与企业

SD4 Ultra 是当之无愧的旗舰。4096×4096的原生分辨率,意味着什么?

  • 打印级画质:直接用于印刷、海报、大型广告牌
  • 无需放大:一步到位,避免放大算法带来的伪影
  • 极致细节:每一根毛发、每一处纹理都清晰可见
  • 专业工作流:直接对接影视、游戏、广告等专业生产管线

更重要的是,这是原生4K,不是"先出小图再放大"。原生高分辨率带来的画质提升,是任何后期放大都无法比拟的。

而SD4 Base,则是为社区准备的礼物。12GB显存的门槛,让大多数拥有中端显卡的用户都能运行。它延续了Stable Diffusion"让每个人都能用上AI"的传统。

电影级真实感

SD4 在真实感上的提升,可以用"电影级"来形容。

解剖学准确性 手部生成,这个困扰了AI图像多年的难题,在SD4上终于有了突破性进展。官方数据显示,SD4 Ultra在标准引导强度下,手部解剖学正确率达到约87%。作为对比,SDXL大约只有60%,SD3.5大约是72%。

87%虽然还不是100%,但已经从"经常崩坏"进步到了"大多正常"。对于大多数应用场景来说,这个水平已经足够实用了。

PBR光照模型 SD4的训练数据中,加入了大量基于物理渲染(Physically Based Rendering, PBR) 的数据集。这些数据集带有精确的光照元信息,让模型真正理解了光的物理规律。

结果就是:

  • 高光反射位置正确
  • 皮肤的次表面散射自然
  • 阴影方向一致
  • 材质属性(金属、塑料、玻璃、皮肤)区分准确

这些细节的提升,普通人可能说不清楚"到底哪里变好了",但就是会觉得"看起来更像真的了"。

文字渲染:从"能看"到"能用"

SD4 引入了一个专用的文字字形条件模块(Text Glyph Conditioning Module)——这是Stable Diffusion系列中第一次出现专门的文字渲染模块。

以前的模型,文字生成是"顺便"的——模型在学习图像的同时,顺带学了点文字。而SD4不一样,它有一个专门的模块来处理文字。

效果提升是显著的:

  • 短单词和短语的准确率大幅提高
  • 支持多种字体和风格
  • 文字与画面融合更加自然
  • 招牌、标签、标题等实用场景基本可用

虽然和DALL-E 4的文字能力还有差距(尤其是长文本和艺术字体),但对于绝大多数实际应用来说,SD4的文字生成已经从"玩具"变成了"工具"。

海报、封面、广告图——这些以前必须后期加文字的工作,现在SD4一步就能搞定了。

开源:不变的承诺

无论技术怎么迭代,Stable Diffusion 始终坚守着一个承诺:开源

SD4 同样不例外。SD4 Base 完全开放权重,社区可以自由下载、使用、微调、二次开发。SD4 Ultra虽然定位专业版,但也提供了社区许可证,个人和小型团队可以免费使用。

这意味着:

  • 你可以在自己的电脑上运行SD4
  • 你可以用自己的数据微调SD4
  • 你可以基于SD4构建商业产品
  • 你可以为SD4的生态贡献代码和模型

在越来越多AI公司选择闭源的今天,Stability AI依然坚持开放。这份坚持,也许就是Stable Diffusion能够长久不衰的根本原因。

生态与未来

SD4 的发布,不是终点,而是一个新的起点。

按照Stability AI的规划,SD4平台未来还会扩展更多能力:

视频生成 SD4-Video 正在开发中,目标是将SD4的图像质量带到视频领域。如果开源视频生成能够达到接近商业产品的质量,那将是又一场革命。

3D生成 从图像到3D,是AI内容生成的下一个战场。Stability AI已经在3D领域有所布局(SPAR3D等),未来很可能会将3D能力整合进SD4生态。

多模态理解 更强的图像理解、视频理解能力,让AI不只是生成,更能"看懂"内容。

结语

从2022到2026,四年时间,Stable Diffusion 走过了四代。

V1 让AI图像生成走进了千家万户; SDXL 让开源模型有了比肩商业产品的画质; SD3 完成了从U-Net到Transformer的架构蜕变; SD4 将画质、分辨率、真实感推向了新的高度。

四年间,AI图像生成的世界天翻地覆。新的模型不断涌现,旧的王者不断被挑战。但Stable Diffusion,始终站在开源的最前沿。

因为它代表的不只是一个模型,更是一种信念——AI技术,应该属于每一个人

SD4 来了,而下一个传奇,正在路上。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签