生成模型底层原理

在看了无数文章之后的大彻大悟，故按照自己的理解总结了一下生成模型的底层原理。

包括：VAE、Diffusion、GAN、FLOW、所有生成式语言模型

生成模型的训练目标是什么？

在图像领域，一个好的生成模型应该尽可能地生成与给定图像（大部分情况下是真实图像）相似的图像。所以，生成模型最底层的训练目标是：让生成图像的分布和给定图像的分布尽可能相似。

生成的过程，可以理解为从一个分布中采样的过程。

但是，我们无法得知，也无法直接计算给定图像的分布。为什么呢？因为如果能够得到给图图像的分布，那随机采样不就可以直接生成图像了，那还要做什么工作呢。事实上，我们这两个分布一个都求不出来。

所以，需要运用一些方法来等价这个训练目标：

方法一：最大化似然，可以证明最大化似然就是在最小化两个分布的KL散度。

相关工作有：VAE、Diffusion、FLOW 以及它们的变体

方法二：生成对抗训练，可以证明生成对抗训练就是在最小化两个分布的JS散度。

相关工作有：GAN 以及它的变体

拓展到文字领域，语言生成模型其目标也是：让生成文字的分布和给定文字的分布尽可能相似。不过，文字的分布是离散的。离散的分布之间的相似程度有一个很好衡量方法，那就是交叉熵损失。这就可以解释几乎所有语言模型的损失函数都是交叉熵损失的原因。

拓展到音频领域，音频分布和图像分布一样也是连续的，因此可以把图像领域的模型搬到音频领域来，这就是很多音频生成模型和图像生成模型原理一致的本质原因。

对于所有模态的生成任务，本质都是一样的，一切生成都可认为是分布采样的问题。包括：字体生成、排版生成、3D生成、视频生成、生物分子生成等等。

感叹一句，数学是理科之基不是吹的...

非常重要的结论！

生成模型的核心原理

总结一下五大类生成模型：VAE Diffusion FLOW GAN 语言模型

下面是我呕心沥血得到的结论，已死...

类型	核心原理	求解思路	具体求解方法
VAE	最大化似然/最小化KL散度	求解最大化似然的一种下界 A - B	设计了VAE模型，模型生成分布和真实分布的逼近程度为 A，模型的隐变量的分布和标准正太分布的逼近程度为 B，模型的训练目标为max A min B。
Diffusion	最大化似然/最小化KL散度	求解最大化似然的另一种下界 C - D + E	设计了Diffusion模型，D是常量不用管，C和E类似，E表示为前向过程的分布和逆向过程的分布的KL散度，而前向过程的分布的方差和均值确定，故模型训练目标使逆向过程接近前向过程的分布即可（均值方差）
FLOW	最大化似然/最小化KL散度	求解最大化似然的等价形式 X	X需要模型多步可逆，否则不等价，所以FLOW类方法都是设计一个巧妙的可逆的模型
GAN	生成对抗训练/最小化JS散度	最小化设计的LOSS A + B ，而这个LOSS等价于-2log2 + 2JS	- A - B 就是0-1交叉熵损失，判别器目标是最小化这个交叉熵损失函数，生成器目标是最大化这个交叉熵损失函数（即最小化LOSS A + B）。
语言模型	最小化交叉熵	直接使用交叉熵损失函数	原理上任何模型都可以成为语言模型，只是效果好不好的问题，因为交叉熵损失函数可以直接算，也不用精巧的设计。模型的好坏会影响交叉熵的最小值。模型越好交叉熵越小。

为什么语言模型可以简单地直接用交叉熵损失？语言是离散分布，而图像、音频是连续分布。

为什么所有模态可通用？

图像、音频虽然是连续分布，但是我们可以将其变为离散分布，方法挺多的，不同模型用的不同，可以考虑单开一节。简单就直接取像素的整数值即可。

文字虽然是离散分布，但是embedding可以将其变为连续分布，套一个连续分布的生成模型，最后再近似转回到离散分布就OK了。比如 diffsion可以用于文字生成、item推荐。

图仅为个人理解。

最大化似然=最小化KL散度？

↓ 这段话想了很久，表述是精准的，只是不太好理解。

假设对于任意一张给定的图，我们都能够计算模型(θ)产生它的概率。那么从数学上，我们可以证明：求解θ使“模型产生一组给定的图（真实的图）的概率的积”最大的过程，等同于使“模型产生图的分布（Pθ()）接近于真实图像分布（Preal()）”的过程。这就意味着，我们如果想要产生任意真实的图，只需要使模型产生一组给定的图（真实的图）的概率的积最大，证明过程如下所示：

这就解释了：为什么在很多生成模型中，我们要最大化似然。

如何计算最大化似然？

直观上，最大化对数似然的下界，可以最大化对数似然。但是我们无法得到精确下界，而泛下界其实有很多种，所以不同的模型会给出不同的下界，比如VAE和Diffusion。他们模型的设计和损失函数的设计都是为了最大化这个下界。

FLOW不太一样，FLOW找到了似然的等价公式，而不是其下界，其训练目标直接是最大化似然的等价形式（比较顶）。然而这很难设计模型，因此效果不是很好。

VAE 的最大化下界

我们可以证明给定任意一个分布q（z|x），都可以求出对数似然关于该分布的下界，证明如下：

将（1）和（6）联立，变形一下就有：

而这个东西就是VAE推导出来的最大化似然的下界。

那这个和VAE模型的训练目标有什么关系呢？解释如下：

所以说，前半部分就是输入和输出的差异，这也是模型的第一个损失函数MSE；后半部分，我们假设了后延概率是正太分布，先验概率是标准正太分布，两者的差异就是第二个损失函数如下所示：

至此，我们就能解释，为什么VAE要这样设计训练目标（损失函数）啦！

所以VAE不同于Autoencoders！！！Autoencoders是一个确定性模型，主要的作用的学习一个数据的隐性表达，因此可以用来压缩数据。而VAE是一个概率模型，它把深度模型和概率方法结合了起来，也因此取名Variational Autoencoder。它的主要作用是生成新的相似的数据而非学习一个低维的隐性表达（压缩）。