Stable Diffusion 评测：开源 AI 绘画的自由与门槛

结论

Stable Diffusion 是 AI 绘画领域自由度最高的工具，开源、免费、模型生态丰富。但本地部署需要一定技术能力，且出图质量高度依赖模型和参数调校。适合技术爱好者、有隐私需求或需要批量生成的用户。

去官网看看 →

优缺点

优点

完全开源免费，本地运行不联网
模型生态极其丰富（数千个微调模型）
出图参数完全可控，精细调整空间大
支持 ControlNet 等高级功能
商业使用无限制

缺点

本地部署需要一定技术能力
出图质量依赖模型选择，新手容易踩坑
对显卡要求高（推荐 8GB+ VRAM）
中文提示词支持不如商业工具

Stable Diffusion 是 Stability AI 发布的开源文生图模型，也是整个 AI 绘画生态的基石。Midjourney、DALL-E 3 都是闭源产品，Stable Diffusion 是唯一的开源主流选择。

和 Midjourney、DALL-E 3 有什么区别

工具	自由度	上手难度	画质上限	成本
Stable Diffusion	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	免费
Midjourney	⭐⭐⭐	⭐⭐	⭐⭐⭐⭐⭐	$10/月
DALL-E 3	⭐⭐⭐	⭐	⭐⭐⭐⭐	$20/月

Stable Diffusion 的核心差异：完全开源、完全可控、完全免费。但代价是你需要花时间去学习和调校。

模型生态

Stable Diffusion 最大的优势是模型生态：

基础模型：

SD 1.5：经典版本，模型数量最多
SDXL 1.0：画质更好，但资源消耗更大
SD 3.0：最新版本，理解力更强

微调模型（LoRA / Checkpoint）：

动漫风格（Anything V5、Counterfeit）
写实风格（Realistic Vision、Deliberate）
国风/水墨（墨心、国风模型）
特定角色/风格（成千上万）

这些模型在 Civitai 上免费下载，让 Stable Diffusion 的风格覆盖远超任何闭源工具。

硬件要求

配置	体验
NVIDIA RTX 3060 12GB	流畅，SD 1.5 实时
NVIDIA RTX 4090 24GB	极速，SDXL 无压力
Apple M3 Pro 18GB	可用，但速度慢
无独显（CPU）	极慢，不推荐

如果没有好显卡，可以使用在线服务（如 Stability AI 的 DreamStudio）或 Google Colab 免费额度。

进阶使用技巧

ControlNet 是 SD 的杀手锏：ControlNet 允许你用线稿、深度图、人体姿态图来控制生成结果。比如你画一个简单的人体骨架，SD 就按这个姿态生成人物；你上传一张产品的线稿，SD 就在线稿基础上渲染成品。这是 Midjourney 和 DALL-E 3 都做不到的精确控制。常用的 ControlNet 模型有 Canny（边缘检测）、Depth（深度图）、OpenPose（人体姿态）、Tile（细节增强）。

LoRA 是效率关键：不需要训练完整模型，只需下载几 MB 到几十 MB 的 LoRA 文件，就能让基础模型学会新风格或新角色。使用方法：将 LoRA 文件放入 models/Lora/ 文件夹，在提示词中用 <lora:文件名:权重> 调用。权重建议从 0.6-0.8 开始调试，过高会导致画面异常。

提示词反面词（Negative Prompt）：SD 的负面提示词比 Midjourney 的 --no 参数更强大。推荐的基础反面词：low quality, blurry, distorted, deformed, ugly, bad anatomy, extra limbs, watermark, text。不同风格需要不同的反面词集，Civitai 上很多模型作者会提供推荐的负面提示词。

采样器和步数选择：新手常被采样器选项弄晕。简单建议：日常生成用 Euler a（快速、效果好），追求细节用 DPM++ 2M Karras（更精细），步数 20-30 够用。超过 40 步通常收益递减，浪费时间。

质量实测细节

写实人物：使用 Realistic Vision checkpoint + ADetailer（面部修复扩展），生成的人像可以做到与真实照片难以区分。但手部生成仍是 SD 的弱项，经常出现多指或扭曲，需要后期修复。

动漫风格：SD 在动漫领域表现最出色，Anything V5 或 Counterfeit 模型 + 对应 LoRA，效果远超 Midjourney 的动漫输出。这也是 SD 社区最活跃的方向，Civitai 上动漫相关模型占一半以上。

中文场景：使用国风 LoRA（如”水墨""工笔""国潮”），可以生成不错的中国风图片。但提示词仍需要用英文，中文提示词在 SD 中效果很差。建议用英文写提示词，搭配国风 LoRA 控制风格。

批量生成：SD 最大的商业优势是可以无人值守批量生成。设置好参数后，用 XYZ Plot 脚本一次跑几十组参数对比，或用 API 批量生成产品图。这是所有闭源工具做不到的。

适合谁

最适合：

有技术背景，愿意花时间学习
对隐私有要求（本地运行不上传图片）
需要批量生成图片（无 API 调用限制）
需要特定风格（LoRA 模型生态无可替代）

不太适合：

想即开即用的普通用户（Midjourney 更简单）
没有好显卡且不想用在线服务
只需要偶尔生成几张图（商业工具更省心）

常见问题

Stable Diffusion 真的免费吗？ 模型本身完全免费。但你需要一台有足够显存的电脑，或者使用付费的在线服务。

Stable Diffusion 生成的图片可以商用吗？ 可以。Stable Diffusion 的许可证允许商业使用，无限制。

不会编程能用 Stable Diffusion 吗？ 可以。使用 WebUI 不需要写代码，但安装和配置需要一些技术基础。也有图形化的一键安装包。

Stable Diffusion 和 Midjourney 哪个画质更好？ 默认情况下 Midjourney 更好。但用对模型和参数，Stable Diffusion 可以达到甚至超越 Midjourney 的画质。

Stable Diffusion 的 ControlNet 是什么？ ControlNet 是一种让 Stable Diffusion 根据参考图（线稿、深度图、姿态图）控制生成结果的技术。没有 ControlNet，SD 只能靠文字描述控制画面；有了 ControlNet，你可以精确控制构图、姿态、布局，这是 SD 相比闭源工具最大的技术优势。

FAQ

Stable Diffusion 真的免费吗？

模型本身完全免费。但你需要一台有足够显存的电脑，或者使用付费的在线服务。

Stable Diffusion 生成的图片可以商用吗？

可以。Stable Diffusion 的许可证允许商业使用，无限制。

不会编程能用 Stable Diffusion 吗？

可以。使用 WebUI 不需要写代码，但安装和配置需要一些技术基础。也有图形化的一键安装包。

Stable Diffusion 和 Midjourney 哪个画质更好？

默认情况下 Midjourney 更好。但用对模型和参数，Stable Diffusion 可以达到甚至超越 Midjourney 的画质。