1. SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思?
我记得在2023使用stable diffusion webui 生成图片的时候,在模型市场里下载模型基本上只有两种选择,主要是SD,少量是SDXL。
而如今,情况发生了非常大的变化,出现了 Pony, Flux,SVD,Wan Video等新的类型。很多时候这会让人感到迷惑。过多的选择,也意味着不知道怎么选择。所以我这总结了一个的表格,供大家参考一下。
模型名称 | 类型/基础模型 | 主要特点 | 优势 | 劣势 | 适用场景 |
---|---|---|---|---|---|
Stable Diffusion 系列 | |||||
SD1.4 | 文本到图像 | 早期版本,分辨率较低 | 早期普及,社区资源丰富 | 图像质量和细节相对较差,已过时 | 学习和研究早期扩散模型 |
SD1.5 | 文本到图像 | 广泛使用的基础模型,512px原生分辨率 | 社区支持最广泛,模型和LoRA资源丰富,硬件要求相对较低 | 图像质量和分辨率相对SDXL低,需要Hires Fix或ADetailer提升细节 | 广泛的图像生成,艺术创作,LoRA微调 |
SD1.5 LCM | SD1.5加速 | 基于LCM(Latent Consistency Model)的SD1.5加速版本 | 显著减少生成步骤,提高生成速度 | 图像质量可能略有下降 | 需要快速生成图像的场景 |
SD1.5 Hyper | SD1.5加速 | 基于Hyper-SD技术的SD1.5加速版本 | 1-8步高效生成高质量图像 | 需要快速生成图像且对质量有较高要求的场景 | |
SD2.0 | 文本到图像 | SD1.x的后续版本 | 改进了图像质量和多样性 | 社区接受度不如SD1.5,已过时 | |
SD2.1 | 文本到图像 | SD2.0的改进版本 | 进一步提升图像质量 | 社区接受度不如SD1.5,已过时 | |
SDXL 1.0 | 文本到图像 | SD1.5的继任者,1024px原生分辨率 | 细节、分辨率和提示词遵循性更好 | 社区资源不如SD1.5丰富 | 高质量图像生成,复杂场景和细节表现 |
SDXL Lightning | SDXL加速 | 基于SDXL的快速生成模型 | 快速生成图像,提升效率 | 需要快速生成高质量图像的场景 | |
SDXL Hyper | SDXL加速 | 基于Hyper-SD技术的SDXL加速版本 | 1-8步高效生成高质量图像 | 需要快速生成高质量图像且对质量有较高要求的场景 | |
SD3 | 文本到图像 | 最新一代Stable Diffusion模型 | 提示词遵循性显著提升,图像质量更高 | 高质量图像生成,复杂提示词理解 | |
SD3.5 | 文本到图像 | SD3的改进版本 | 进一步提升图像质量和提示词理解 | 高质量图像生成,复杂提示词理解 | |
SD3.5 Medium | SD3.5变体 | SD3.5的中等版本 | |||
SD3.5 Large | SD3.5变体 | SD3.5的大型版本 | |||
SD3.5 Large Turbo | SD3.5加速 | SD3.5的大型加速版本 | 极速生成图像 | 需要极速生成高质量图像的场景 | |
其他图像生成模型 | |||||
Pony | 文本到图像 | 基于SDXL训练,但改动较大 | 独特的风格和生成能力 | 与SDXL LoRA兼容性较差 | 特定艺术风格创作 |
Flux.1S | 文本到图像 | 提示词遵循性好 | |||
Flux .1 D | 文本到图像 | ||||
Aura Flow | 文本到图像 | 社区兴趣短暂,后逐渐淡出 | |||
PixArt-α | 文本到图像 | ||||
PixArt-Σ | 文本到图像 | 社区兴趣短暂,后逐渐淡出 | |||
Hunyuan 1 | 文本到图像 | 腾讯开发的模型 | |||
Kolors | 文本到图像 | 社区兴趣短暂,后逐渐淡出 | |||
Illustrious | 文本到图像 | 基于SDXL训练,但改动较大 | 与SDXL LoRA兼容性较差 | 特定艺术风格创作 | |
Mochi | 文本到视频 | 视频生成 | |||
LTXV | 文本到视频 | 视频生成 | |||
NoobAI | 文本到图像 | 基于Illustrious训练 | |||
视频生成模型 | |||||
SVD | 文本到视频/图像到视频 | Stable Video Diffusion,从单帧图像生成14帧视频 | 视频生成能力 | 视频创作,动画制作 | |
CogVideoX | 文本到视频 | 视频生成 | |||
Wan Video 1.3B t2v | 文本到视频 | 1.3B参数,文本到视频 | 显存占用低(8.19 GB VRAM),兼容消费级GPU,生成速度快 | 视频质量可能不如大型模型 | 消费级硬件上的快速视频生成 |
Wan Video 14B t2v | 文本到视频 | 14B参数,文本到视频 | 高质量视频生成,SOTA性能 | 显存要求较高 | 专业级视频创作,需要高质量输出 |
Wan Video 14B i2v 480p | 图像到视频 | 14B参数,图像到视频,480p分辨率 | 高质量图像到视频转换 | 图像到视频转换,视频编辑 | |
Wan Video 14B i2v 720p | 图像到视频 | 14B参数,图像到视频,720p分辨率 | 高质量图像到视频转换 | 图像到视频转换,视频编辑 | |
HiDream | 文本到视频 | 视频生成 | |||
Lumina | 文本到图像 | 20亿参数流式扩散Transformer | 改进图像质量、排版、复杂提示理解和资源效率 | 高质量图像生成,复杂提示词处理 |
2. 下载时怎么选择?
-
图像质量和细节: 如果您追求最高质量和细节,SDXL 1.0或SD3系列是更好的选择。SD3在提示词遵循性方面表现更优 。
-
生成速度: 如果您需要快速生成图像,可以考虑SD1.5 LCM、SD1.5 Hyper、SDXL Lightning或SDXL Hyper等加速模型 。
-
硬件要求: SD1.5对硬件要求相对较低 ,而SDXL和SD3可能需要更强大的GPU。
-
社区资源: SD1.5拥有最庞大的社区和模型资源,如果您喜欢尝试各种LoRA和微调模型,SD1.5可能更适合您 。
-
特定风格: 如果您追求特定的艺术风格,可以尝试Pony或Illustrious等经过大量修改的模型 。
-
视频生成: 如果您的需求是生成视频,那么SVD、Wan Video系列、CogVideoX、Mochi、LTXV和HiDream是您应该关注的模型。Wan Video系列提供了不同参数和分辨率的选择,以适应不同的硬件和质量需求 。