SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思？下载时怎么选择？

导航

1.SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思？
2.下载时怎么选择？

1.SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思？

我记得在2023使用stable diffusion webui 生成图片的时候，在模型市场里下载模型基本上只有两种选择，主要是SD，少量是SDXL。

而如今，情况发生了非常大的变化，出现了 Pony, Flux，SVD，Wan Video等新的类型。很多时候这会让人感到迷惑。过多的选择，也意味着不知道怎么选择。所以我这总结了一个的表格，供大家参考一下。

模型名称	类型/基础模型	主要特点	优势	劣势	适用场景
Stable Diffusion 系列
SD1.4	文本到图像	早期版本，分辨率较低	早期普及，社区资源丰富	图像质量和细节相对较差，已过时	学习和研究早期扩散模型
SD1.5	文本到图像	广泛使用的基础模型，512px原生分辨率	社区支持最广泛，模型和LoRA资源丰富，硬件要求相对较低	图像质量和分辨率相对SDXL低，需要Hires Fix或ADetailer提升细节	广泛的图像生成，艺术创作，LoRA微调
SD1.5 LCM	SD1.5加速	基于LCM（Latent Consistency Model）的SD1.5加速版本	显著减少生成步骤，提高生成速度	图像质量可能略有下降	需要快速生成图像的场景
SD1.5 Hyper	SD1.5加速	基于Hyper-SD技术的SD1.5加速版本	1-8步高效生成高质量图像		需要快速生成图像且对质量有较高要求的场景
SD2.0	文本到图像	SD1.x的后续版本	改进了图像质量和多样性	社区接受度不如SD1.5，已过时
SD2.1	文本到图像	SD2.0的改进版本	进一步提升图像质量	社区接受度不如SD1.5，已过时
SDXL 1.0	文本到图像	SD1.5的继任者，1024px原生分辨率	细节、分辨率和提示词遵循性更好	社区资源不如SD1.5丰富	高质量图像生成，复杂场景和细节表现
SDXL Lightning	SDXL加速	基于SDXL的快速生成模型	快速生成图像，提升效率		需要快速生成高质量图像的场景
SDXL Hyper	SDXL加速	基于Hyper-SD技术的SDXL加速版本	1-8步高效生成高质量图像		需要快速生成高质量图像且对质量有较高要求的场景
SD3	文本到图像	最新一代Stable Diffusion模型	提示词遵循性显著提升，图像质量更高		高质量图像生成，复杂提示词理解
SD3.5	文本到图像	SD3的改进版本	进一步提升图像质量和提示词理解		高质量图像生成，复杂提示词理解
SD3.5 Medium	SD3.5变体	SD3.5的中等版本
SD3.5 Large	SD3.5变体	SD3.5的大型版本
SD3.5 Large Turbo	SD3.5加速	SD3.5的大型加速版本	极速生成图像		需要极速生成高质量图像的场景
其他图像生成模型
Pony	文本到图像	基于SDXL训练，但改动较大	独特的风格和生成能力	与SDXL LoRA兼容性较差	特定艺术风格创作
Flux.1S	文本到图像		提示词遵循性好
Flux .1 D	文本到图像
Aura Flow	文本到图像			社区兴趣短暂，后逐渐淡出
PixArt-α	文本到图像
PixArt-Σ	文本到图像			社区兴趣短暂，后逐渐淡出
Hunyuan 1	文本到图像	腾讯开发的模型
Kolors	文本到图像			社区兴趣短暂，后逐渐淡出
Illustrious	文本到图像	基于SDXL训练，但改动较大		与SDXL LoRA兼容性较差	特定艺术风格创作
Mochi	文本到视频				视频生成
LTXV	文本到视频				视频生成
NoobAI	文本到图像	基于Illustrious训练
视频生成模型
SVD	文本到视频/图像到视频	Stable Video Diffusion，从单帧图像生成14帧视频	视频生成能力		视频创作，动画制作
CogVideoX	文本到视频				视频生成
Wan Video 1.3B t2v	文本到视频	1.3B参数，文本到视频	显存占用低（8.19 GB VRAM），兼容消费级GPU，生成速度快	视频质量可能不如大型模型	消费级硬件上的快速视频生成
Wan Video 14B t2v	文本到视频	14B参数，文本到视频	高质量视频生成，SOTA性能	显存要求较高	专业级视频创作，需要高质量输出
Wan Video 14B i2v 480p	图像到视频	14B参数，图像到视频，480p分辨率	高质量图像到视频转换		图像到视频转换，视频编辑
Wan Video 14B i2v 720p	图像到视频	14B参数，图像到视频，720p分辨率	高质量图像到视频转换		图像到视频转换，视频编辑
HiDream	文本到视频				视频生成
Lumina	文本到图像	20亿参数流式扩散Transformer	改进图像质量、排版、复杂提示理解和资源效率		高质量图像生成，复杂提示词处理

2.下载时怎么选择？

图像质量和细节： 如果您追求最高质量和细节，SDXL 1.0或SD3系列是更好的选择。SD3在提示词遵循性方面表现更优。
生成速度： 如果您需要快速生成图像，可以考虑SD1.5 LCM、SD1.5 Hyper、SDXL Lightning或SDXL Hyper等加速模型。
硬件要求： SD1.5对硬件要求相对较低，而SDXL和SD3可能需要更强大的GPU。
社区资源： SD1.5拥有最庞大的社区和模型资源，如果您喜欢尝试各种LoRA和微调模型，SD1.5可能更适合您。
特定风格： 如果您追求特定的艺术风格，可以尝试Pony或Illustrious等经过大量修改的模型。
视频生成： 如果您的需求是生成视频，那么SVD、Wan Video系列、CogVideoX、Mochi、LTXV和HiDream是您应该关注的模型。Wan Video系列提供了不同参数和分辨率的选择，以适应不同的硬件和质量需求。

SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思？下载时怎么选择？

1.SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思？​

2.下载时怎么选择？

发表评论 取消回复

1.SD, SDXL, Pony, Flux.1S, lux .1 D 是什么意思？

发表评论取消回复