这是基于官方的稳定扩散存储库 compVIS/Stable- Difusion。我们保持了模型结构不变,以便可以直接加载开源权重。我们的实现不包含训练代码。
我们已经在 p romptart.labml.ai 部署了基于扩散的稳定图像生成服务
核心是潜在扩散模型。它包括:
我们还(可选)将 Flash Actontion 集成到我们的 U-Net 注意力中,这使您可以在 RTX A6000 GPU 上将性能提高近50%。
扩散是基于 CLIP 嵌入来调节的。
我们已经实现了以下采样算法:
以下是图像生成脚本:
util.py
定义了实用函数。