Diffusion数学推导

M13c

生成模型

基于的生成模型:给定一个数据集,训练使得模型最大化

VAE

Variational AutoEncoder

Encoder:
Decoder:

对于潜在变量(latent variable) z 的分布一般选择高斯分布

优化目标

目标:使得建模的趋于真实分布

  • 但是直接建模 是非常困难的。

    (1)边缘化

    (2)链式法则

  • 引出ELBO
    表达式如下:

    其中, 是一个近似变分分布,其参数为我们寻求优化的

    同时和满足关系

    • 证明:
      (1)琴声不等式 (2) KL散度
  • 优化目标的转变
    优化VAE,其实就是最大化ELBO

    解释:VAE是通过decoder和encoder分别拟合,来间接拟合
    上式KL散度反映的就是encoder对真实的拟合程度,要最小化它。但是直接优化KL散度不现实,因为不知道这个
    是真实的数据分布,对于给定数据集,是一个固定的值,与模型无关。
    所以最小化KL散度等价于最大化ELBO

  • ELBO的解释

    • 最大化: 让能最大可能的从隐变量生成原始数据x。
    • 最小化 :让 将真实数据映射到隐变量后,尽量能满足我们指定的分布,一般为
    • : 如果把这项损失去掉,就是AE模型。没有P项,没有趋向于正态分布,故AE的分布未知,没法有效采样,所以也不能作为生成模型。

VAE架构

  • 图中公式:

    优化目标的均值项使用蒙特卡洛模拟采样

  • 重参数化

MHVAE

Markovian Hierarchical Variational AutoEncoder

MHVAE 就是级联的马尔可夫VAE链

VDM

Variational Diffusion Model

从MHVAE到VDM

  • 三个限制
    1. 数据x和所有隐变量z的维度相同
    2. 每个时间步的潜在编码器的结构都没有被学习;它被预先定义为线性高斯模型。换句话说,它是一个以前一个时间步的输出为中心的高斯分布 其中
    3. 最终时间步长 T 的潜在分布是标准高斯分布

ELBO的解释

粉色和绿色箭头指的Consisitency term的KL散度

  • Prior matching term最后一步推导
  • Consisitency term最后一步推导
  • 问题与改进

    最后的Consisitency中需要对两个变量进行蒙特卡洛模拟,可能有较大的方差。
    采用贝叶斯定理

    重写ELDBO

如何求出去噪项的

答:使用贝叶斯

  • 递推

  • 代入

  • 特性

    1. 是个高斯分布
    2. 方差只和有关,故是个常数
    3. 均值是关于的函数

Loss

  • 拟合均值

    其中两个高斯分布的KL散度为

    最小化KL散度等价于拟合的均值

  • 拟合

    均值的表达式

    拟合的推导

    最小化KL散度等价于根据拟合

  • 拟合噪声

    用噪声表达

    待入

    拟合噪声的推导

Inference

  • 标题: Diffusion数学推导
  • 作者: M13c
  • 创建于 : 2024-09-26 15:57:25
  • 更新于 : 2024-09-26 22:40:35
  • 链接: https://m13c.top/Diffusion/Diffusion数学推导.html
  • 版权声明: 版权所有 © M13c,禁止转载。