Stable Diffusion

4天前发布 4 0 0

开源AI生图生态，可本地部署训练LoRA。自由度最高。

收录时间：

2026-06-14

打开网站手机查看

AI图片处理 AI工具 # AI图片处理 # AI工具 # Stable Diffusion

Stable Diffusion

打开网站

Stable Diffusion

定位

开源AI图片生成模型和工具生态——是所有AI生图方案中自由度最高、可控性最强的一个。和Midjourney、即梦等闭源服务不同，SD的模型权重公开可下载到本地运行，庞大的开源社区为其开发了ControlNet（精确构图控制）、LoRA（自定义风格训练）、Textual Inversion等扩展。核心价值是”无限的自由”——可以本地运行不依赖任何公司的服务器、可以训练自己的模型和风格、可以做到任何闭源工具做不到的精确控制。代价是学习门槛和硬件门槛——一张推荐12GB显存以上的NVIDIA显卡和10到20小时的学习投入。

核心能力

基础能力——开源的三个核心价值

本地部署和隐私零风险
SD核心模型从Hugging Face等平台免费下载，在自己的电脑上运行（需要NVIDIA显卡，最低6GB显存起步）。本地部署意味着：无限生成次数、不依赖任何公司的服务器、数据不传输到网络（隐私100%保障）、不受任何内容审核限制（在合法范围内完全自由）。官方平台stability.ai提供API和云端服务。社区最主流的本地运行方式是Automatic1111 WebUI（简称A1111）或ComfyUI（节点式操作，更灵活但更复杂）。

海量社区模型——像换滤镜一样变换风格
Civitai等社区平台上有数以万计的微调模型和LoRA文件。不同模型擅长完全不同的风格：DreamShaper擅长写实和概念艺术、Anything系列擅长二次元、Realistic Vision擅长超写实人像、建筑专用、服装设计专用、产品设计专用……模型之间的风格差异不是”调一下参数”能做到的——每个模型代表了一整套视觉审美的重新训练。切换模型=切换一套全新的视觉风格。

文生图和图生图
支持从文字生成全新图片，也支持上传照片让AI做风格化、变体、局部修改。图生图（img2img）功能让SD可以作为”AI滤镜”——把你的草稿、3D模型截图、手机拍的照片转化成不同风格的画面。

进阶能力——ControlNet和LoRA：让”随机”变”可控”

ControlNet——精确控制构图、姿势、轮廓的杀手级功能
ControlNet是SD生态最大的技术壁垒。你可以上传一张参考图作为”构图约束”，SD在保持这个约束的前提下生成新内容。常用的ControlNet模式：OpenPose——上传一张火柴人的骨骼图或人物姿势图，SD保持人物姿势不变，但换了衣服、场景、风格。Canny——上传一张线稿或边缘检测图，SD保持轮廓不变但渲染成不同风格——线稿→精美插画。Depth——上传一张深度图，SD保持空间远近关系不变——在建筑可视化和室内设计中价值极高。MLSD——保持直线结构不变——适合建筑、室内效果图。IP-Adapter——上传一张参考图的”视觉风格”，SD模仿这种风格来生成新内容——相当于”视觉风格克隆”。

LoRA——训练你自己的AI风格模型
LoRA是一种轻量化模型微调技术。给SD 20到50张同一人物或同一风格的参考照片，训练一个LoRA文件（通常几十到几百MB），之后所有生成都能保持这个人物的形象或这种风格的视觉特征。品牌IP形象、游戏角色设计、特定画师风格学习——一旦训练好LoRA，无限复现。训练一个LoRA需要：准备20-50张高质量且风格统一的图片、使用Kohya或SD WebUI自带的训练脚本、训练时间约30分钟到1小时（取决于图片数量和显卡）。社区上有大量别人训练好的LoRA可以免费下载使用——不用自己训练也能直接用。

高级工具和工作流
inpainting（局部重绘）：圈出一个区域让SD替换内容——修图、换装、改背景的神器。outpainting（向外扩展画面）：给图片加外框让SD补全扩展区域。img2img（图生图+降噪强度）：控制原图和新生成图之间的”变化程度”——想要小小变化（0.2-0.4）、想要彻底变换（0.6-0.8）。ADetailer（自动细节增强）：自动检测人脸和手部并做专门的细节修复——是处理多人合影和复杂手部场景时的救命功能。

标准使用流程

场景：从一张随手画的草图生成精美概念设计

1. 安装A1111 WebUI并下载模型
去GitHub搜索”stable-diffusion-webui”按README指示安装。首次安装自动下载依赖和基础模型。去Civitai.com下载一个适合你的风格的模型（如DreamShaper写实/概念风），放到SD安装目录的models/Stable-diffusion/文件夹下。重启WebUI——在左上角的模型下拉框中选中新下载的模型。

2. 安装ControlNet扩展（核心！）
在WebUI的Extensions→Available中搜索”ControlNet”，点击Install。安装完成后重启WebUI，ControlNet面板会出现在文生图界面下方。

3. 准备草图并导入ControlNet
画一张简单草图——可以是一张随手拍的线稿、一张火柴人姿势图、或是一张用手机拍的照片。把草图拖入ControlNet面板的图片区域。启用ControlNet→选择控制模式——如果是线稿选”Canny”、如果是人物姿势选”OpenPose”、如果是建筑和室内选”MLSD”。

4. 撰写Prompt并生成（可直接复制指令）

在Prompt输入框（正向）中输入想要的视觉效果：
fantasy warrior character, full armor with intricate golden engravings, standing in an ancient temple ruin, dramatic lighting from above, concept art, highly detailed, 4K, by Wlop and Rossdraws

在Negative Prompt输入框（反向）中输入不想出现的内容：
low quality, blurry, distorted face, extra fingers, bad anatomy, watermark, text

设置参数：Sampling steps 25-30、CFG Scale 6-8、分辨率768×1024竖版。点击Generate——SD在ControlNet的约束下，按照草图的构图生成精美画面。

5. 迭代优化
如果第一次生成不满意——调整Prompt中的描述、切换到另一个模型重试、调整ControlNet的控制强度（降低让AI有更多自由、升高让AI更严格遵循约束）。多轮迭代后选出最满意的一张。

Prompt/指令模板专区

以下为A1111 WebUI的配置指令，可直接参考使用。

模板1：写实人物（正向+反向+参数）
正向Prompt: realistic portrait of【人物描述】,【场景和光线】, shot on【相机型号】, 85mm lens, f/1.4, natural lighting, highly detailed skin texture, 8K, photorealistic
反向Prompt: cartoon, painting, illustration, 3d render, low quality, blurry, distorted face, bad anatomy, extra limbs
参数: Steps 25-30, CFG 6-8, 分辨率根据画幅选择

模板2：二次元/动漫风格
切换到Anything或Counterfeit等二次元模型。
正向Prompt: masterpiece, best quality,【人物描述】,【场景】, detailed background, anime style, by【画师名】
反向Prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality
参数: Steps 20-25, CFG 7-10

模板3：建筑/室内效果图+ControlNet Canny/MLSD
正向Prompt: modern minimalist living room interior design, warm neutral tones, natural wood and white marble, large windows with city view, afternoon sunlight, architectural photography, 8K, ultra realistic
反向Prompt: people, furniture clutter, low quality, blurry, distorted perspective
ControlNet: 上传建筑线稿或照片→选Canny或MLSD→控制强度0.7-0.9
参数: Steps 25-30, CFG 7-9

模板4：使用LoRA保持角色一致性
先训练或下载好角色LoRA，放入models/Lora文件夹。
正向Prompt中加:【你的角色描述】, <lora:你的LoRA文件名:0.8>
LoRA强度0.6-0.9之间调整——0.8是常用平衡点。

适合谁用

有技术的重度创作者——愿意投入学习时间换取最大创作自由。需要角色和风格一致性的品牌和IP设计——LoRA训练是关键能力。需要精确控制构图、姿势的场景——ControlNet是必杀技。数据隐私要求高的项目和企业——本地运行保障数据不外泄。开源社区和AI艺术研究者——深入理解扩散模型工作原理、实验各种工作流。

不适合：想简单快速出图的普通用户——SD学习成本太高。没有NVIDIA好显卡的用户——本地跑不动。只想偶尔出几张图的轻度需求——即梦和Flux Art更省事。不愿投入10-20小时学习投入的用户。

真实优缺点

优点：自由度无限——开源、本地运行、模型可选、参数全可控。ControlNet让AI生图从”抽卡”变”精确控制”。LoRA让你训练自己的AI——品牌和个人风格的最佳方案。社区生态极度活跃——每天新模型、新工具、新工作流层出不穷。完全免费——所有模型和工具不花钱。

缺点：学习曲线真实存在且有成本——安装+掌握ControlNet+训练第一个LoRA需要10-20小时。硬件门槛——需要NVIDIA显卡12GB显存以上推荐。出图质量下限低——随便写个Prompt可能出丑图，所有质量取决于你的Prompt水平和模型选择。更新和技术跟进需持续投入——SD世界变化快。

优缺点触发条件：显卡好→流畅体验、显卡差→极慢或跑不动。用了ControlNet+好Prompt→精准高质量、没有ControlNet→随机天堂或地狱。英文Prompt→最佳效果、中文Prompt→效果不稳定。训练了LoRA→风格一致性强、没有→风格随机。

常见失败原因和修正方法

失败1：第一次装就跑不起来——各种环境报错
原因：SD的安装依赖复杂——Python版本、CUDA版本、显卡驱动版本需要匹配。
修正：去A1111 GitHub的Issues页面搜索你的报错信息——99%的问题都有解决方案。确保NVIDIA驱动更新到最新、Python版本一般为3.10或3.11。如果实在搞不定——用在线Stable Diffusion平台（如stablediffusionweb.com）作为捷径。

失败2：生成的图太暴露或有不适当内容——想控制风格但跳不出去
原因：某些模型训练时偏向NSFW内容。
修正：在Civitai下载模型时查看模型描述和预览图——选择偏向SFW（Safe For Work）的模型。在反向Prompt加入nsfw, nude, explicit等词。

失败3：ControlNet约束不起作用或约束太”死”
原因：控制强度设置不当。
修正：控制强度0.7-0.9是常用范围。太低了AI脱离约束、太高了画面僵硬不自然。不是所有ControlNet模式对所有场景都适合——OpenPose适合人物姿势、不适合建筑。调低控制强度让AI有适度的自由度。

失败4：多人生成的面部都变形了
原因：SD在处理多人时注意力分散，每张脸的细节都不够。
修正：启用ADetailer扩展——自动检测每张脸并单独增强。降低分辨率——分辨率越高多人变形越严重。先单人再Photoshop合成——也是常用的安全方法。

失败5：训练LoRA后生成的角色和原角色有偏差
原因：训练数据质量不够或训练参数不优。
修正：确保训练图片高质量、风格统一、不同角度和表情的图都有。训练时增加图片数量（从20张加到40张）和训练步数（不能太多也不能太少）。

访问方式和价格

模型和代码从Hugging Face（huggingface.co）和Civitai（civitai.com）免费下载。A1111 WebUI和ComfyUI从GitHub免费下载。在线体验版stablediffusionweb.com有免费额度限制。云GPU租用（AutoDL等）约2-5元/小时。

价格：完全免费——核心模型、社区模型、工具代码全部开源免费。成本只在硬件投入（显卡）和电费。

一句话总评：AI生图的终极自由方案——所有的门都对你敞开，但钥匙你得自己去配。适合愿意投入学习的重度用户和追求最大化创作自由的创作者。不适合追求简单快捷的普通用户——即梦和Flux Art为他们准备好了开箱即用的方案。

如果它不适合你：不想学技术→即梦或Flux Art、追求极致画质且愿付费→Midjourney、免费在线体验→stablediffusionweb.com、设计师工作流集成→Adobe Firefly。

Stable Diffusion的性能配置建议和硬件选购指南

入门配置（最低门槛）：显卡NVIDIA GTX 1660 Ti 6GB或RTX 2060 6GB——可以跑但处理速度较慢，一张图约30-60秒。适用场景：偶尔生图、学习和实验、不以AI生图为主要工作流。推荐配置（性价比之选）：RTX 3060 12GB——一张图约8-15秒，批处理体验流畅。显存12GB让你可以跑更大的模型和更高的分辨率。这是目前SD社区最主流的配置——性能和价格平衡最好。专业配置（追求极致效率）：RTX 4070 Ti 12GB或RTX 4090 24GB——一张图约3-6秒，处理超大分辨率和高强度批处理无压力。24GB显存可以同时加载多个大型模型和ControlNet。适合职业AI创作者和高频用户。

显卡选购决策：优先显存——SD最吃显存而非核心频率。12GB显存是目前的”甜蜜点”——价格合理且满足绝大多数SD工作流。避免买AMD显卡——SD对NVIDIA CUDA的依赖度高，AMD显卡虽然能跑但兼容性和效率差很多。CPU和内存：不需要顶级——主流的Intel i5/Ryzen 5+16GB DDR4内存就够。

数据统计

暂无评论

暂无评论...

Stable Diffusion

定位

核心能力

场景：从一张随手画的草图生成精美概念设计

以下为A1111 WebUI的配置指令，可直接参考使用。

适合谁用

真实优缺点

访问方式和价格

价格：完全免费——核心模型、社区模型、工具代码全部开源免费。成本只在硬件投入（显卡）和电费。

如果它不适合你：不想学技术→即梦或Flux Art、追求极致画质且愿付费→Midjourney、免费在线体验→stablediffusionweb.com、设计师工作流集成→Adobe Firefly。

数据统计

相关导航

剪映AI

Perplexity AI

Amazon Q Developer

Audo AI

文心一格（百度）

博思AIPPT

Copy.ai

Ideogram AI

暂无评论

标签云