SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思?下载时怎么选择?

siliconplayers

2025年6月5日

the-ai-model-showdown-understanding-stable-diffusion-pony-and-other-generative-ais

1. SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思?​

我记得在2023使用stable diffusion webui 生成图片的时候,在模型市场里下载模型基本上只有两种选择,主要是SD,少量是SDXL。 

而如今,情况发生了非常大的变化,出现了 Pony, Flux,SVD,Wan Video等新的类型。很多时候这会让人感到迷惑。过多的选择,也意味着不知道怎么选择。所以我这总结了一个的表格,供大家参考一下。

模型名称 类型/基础模型 主要特点 优势 劣势 适用场景
Stable Diffusion 系列
SD1.4 文本到图像 早期版本,分辨率较低 早期普及,社区资源丰富 图像质量和细节相对较差,已过时 学习和研究早期扩散模型
SD1.5 文本到图像 广泛使用的基础模型,512px原生分辨率 社区支持最广泛,模型和LoRA资源丰富,硬件要求相对较低 图像质量和分辨率相对SDXL低,需要Hires Fix或ADetailer提升细节 广泛的图像生成,艺术创作,LoRA微调
SD1.5 LCM SD1.5加速 基于LCM(Latent Consistency Model)的SD1.5加速版本 显著减少生成步骤,提高生成速度 图像质量可能略有下降 需要快速生成图像的场景
SD1.5 Hyper SD1.5加速 基于Hyper-SD技术的SD1.5加速版本 1-8步高效生成高质量图像 需要快速生成图像且对质量有较高要求的场景
SD2.0 文本到图像 SD1.x的后续版本 改进了图像质量和多样性 社区接受度不如SD1.5,已过时
SD2.1 文本到图像 SD2.0的改进版本 进一步提升图像质量 社区接受度不如SD1.5,已过时
SDXL 1.0 文本到图像 SD1.5的继任者,1024px原生分辨率 细节、分辨率和提示词遵循性更好 社区资源不如SD1.5丰富 高质量图像生成,复杂场景和细节表现
SDXL Lightning SDXL加速 基于SDXL的快速生成模型 快速生成图像,提升效率 需要快速生成高质量图像的场景
SDXL Hyper SDXL加速 基于Hyper-SD技术的SDXL加速版本 1-8步高效生成高质量图像 需要快速生成高质量图像且对质量有较高要求的场景
SD3 文本到图像 最新一代Stable Diffusion模型 提示词遵循性显著提升,图像质量更高 高质量图像生成,复杂提示词理解
SD3.5 文本到图像 SD3的改进版本 进一步提升图像质量和提示词理解 高质量图像生成,复杂提示词理解
SD3.5 Medium SD3.5变体 SD3.5的中等版本
SD3.5 Large SD3.5变体 SD3.5的大型版本
SD3.5 Large Turbo SD3.5加速 SD3.5的大型加速版本 极速生成图像 需要极速生成高质量图像的场景
其他图像生成模型
Pony 文本到图像 基于SDXL训练,但改动较大 独特的风格和生成能力 与SDXL LoRA兼容性较差 特定艺术风格创作
Flux.1S 文本到图像 提示词遵循性好
Flux .1 D 文本到图像
Aura Flow 文本到图像 社区兴趣短暂,后逐渐淡出
PixArt-α 文本到图像
PixArt-Σ 文本到图像 社区兴趣短暂,后逐渐淡出
Hunyuan 1 文本到图像 腾讯开发的模型
Kolors 文本到图像 社区兴趣短暂,后逐渐淡出
Illustrious 文本到图像 基于SDXL训练,但改动较大 与SDXL LoRA兼容性较差 特定艺术风格创作
Mochi 文本到视频 视频生成
LTXV 文本到视频 视频生成
NoobAI 文本到图像 基于Illustrious训练
视频生成模型
SVD 文本到视频/图像到视频 Stable Video Diffusion,从单帧图像生成14帧视频 视频生成能力 视频创作,动画制作
CogVideoX 文本到视频 视频生成
Wan Video 1.3B t2v 文本到视频 1.3B参数,文本到视频 显存占用低(8.19 GB VRAM),兼容消费级GPU,生成速度快 视频质量可能不如大型模型 消费级硬件上的快速视频生成
Wan Video 14B t2v 文本到视频 14B参数,文本到视频 高质量视频生成,SOTA性能 显存要求较高 专业级视频创作,需要高质量输出
Wan Video 14B i2v 480p 图像到视频 14B参数,图像到视频,480p分辨率 高质量图像到视频转换 图像到视频转换,视频编辑
Wan Video 14B i2v 720p 图像到视频 14B参数,图像到视频,720p分辨率 高质量图像到视频转换 图像到视频转换,视频编辑
HiDream 文本到视频 视频生成
Lumina 文本到图像 20亿参数流式扩散Transformer 改进图像质量、排版、复杂提示理解和资源效率 高质量图像生成,复杂提示词处理

2. 下载时怎么选择?

  • 图像质量和细节: 如果您追求最高质量和细节,SDXL 1.0或SD3系列是更好的选择。SD3在提示词遵循性方面表现更优 。

  • 生成速度: 如果您需要快速生成图像,可以考虑SD1.5 LCM、SD1.5 Hyper、SDXL Lightning或SDXL Hyper等加速模型 。

  • 硬件要求: SD1.5对硬件要求相对较低 ,而SDXL和SD3可能需要更强大的GPU。

  • 社区资源: SD1.5拥有最庞大的社区和模型资源,如果您喜欢尝试各种LoRA和微调模型,SD1.5可能更适合您 。

  • 特定风格: 如果您追求特定的艺术风格,可以尝试Pony或Illustrious等经过大量修改的模型 。

  • 视频生成: 如果您的需求是生成视频,那么SVD、Wan Video系列、CogVideoX、Mochi、LTXV和HiDream是您应该关注的模型。Wan Video系列提供了不同参数和分辨率的选择,以适应不同的硬件和质量需求 。

发表评论