Stable Diffusion

DDPM 模型

基础模型：DDPM（Denoising Diffusion Probabilistic Model）

普通的生成模型：GAN、VAE

加噪声：

\boldsymbol{x}_t = \alpha_t\boldsymbol{x}_{t-1} + \beta_t\boldsymbol{\varepsilon}_t,\, \boldsymbol{\varepsilon}_t \sim \mathcal{N}(0,\,\boldsymbol{I})

\alpha_t^2 + \beta_t^2 = 1

当 $t$ 增大的时候， $\beta_t$ 不断变大。

\boldsymbol{x}_t = \overbrace{(\alpha_t\cdots\alpha_1)}^{\text{记为}\,\overline{\alpha}_t}\boldsymbol{x}_0 + \underbrace{\sqrt{1 - \left(\alpha_t\cdots\alpha_1\right)^2} } _{\text{记为}\,\overline{\beta}_t} \overline{\boldsymbol{\varepsilon} }_t,\, \overline{\boldsymbol{\varepsilon} }_t \sim \mathcal{N}(0,\,\boldsymbol{I})

训练神经网络损失函数：

\frac{\beta^2_t}{\alpha_t^2}\left\| \varepsilon_t - \boldsymbol{\epsilon_\theta}(\boldsymbol{x}_t,\,t) \right\|^2

其中 $\boldsymbol{\epsilon_\theta}$ 为 U-net 神经网络， $t$ 为噪声强度，其中 $\dfrac{\beta^2_t}{\alpha_t^2}$ 为损失权重。

重构过程：

\begin{aligned} \boldsymbol{x}_t &= \alpha_t \boldsymbol{x}_{t-1} + \beta_t\boldsymbol{\varepsilon}_t \\ \boldsymbol{x}_{t-1} &= \frac{1}{\alpha_t}\left( \boldsymbol{x}_t - \beta_t\boldsymbol{\epsilon_\theta} \left(\boldsymbol{x}_t,\,t\right) \right) \end{aligned}

而实际应用中需要加入随机性，所以其表达式如下：

\boldsymbol{x}_{t-1} = \frac{1}{\alpha_t}\left( \boldsymbol{x}_t - \beta_t\boldsymbol{\epsilon_\theta} \left(\boldsymbol{x}_t,\,t\right) \right) + \sigma_t\boldsymbol{z},\, \boldsymbol{z} \sim \mathcal{N}(0,\,\boldsymbol{I})

将模型视为概率模型，那么前一个部分的表达式可以看做均值，而随机噪声部分可以看做方差。

噪声估计：

\tilde{\boldsymbol{\epsilon} }_\theta(\bold{z}_t,\,\bold{c}) = w\boldsymbol{\epsilon}_\theta(\bold{z}_t,\,\bold{c}) + (1 - w)\boldsymbol{\epsilon}_\theta(\bold{z}_t)

文本反演（Textual Inversion）