
现代生成式人工智能,特别是大型模型、变分自编码器(VAE)与去噪扩散模型(DDM),展现了强大的数据生成能力。这些技术常常被视为一种全新的范式,但其核心驱动力源自一个古老且根本的统计学难题:如何对复杂的高维数据分布进行最大似然估计(MLE)。
我们观察到的世界,无论是图像、文本还是语音,都是复杂数据()的实例。统计建模的目标是找到一个模型参数(),使其描述的概率分布()尽可能接近真实世界的数据分布。然而,我们通常假设这些观测数据是由一些更简单、未被观测到的潜在变量()生成的。这种潜在变量模型(LVM)极大地增强了模型的表达能力,但也带来了一个核心的计算障碍:要计算观测数据的似然 ,必须对所有可能的潜在变量 进行积分,即 。
在图像或文本等高维空间中,这个积分是无法直接计算的(intractable)。这个 intractable 的积分问题,是生成式人工智能需要解决的“原罪”。直接的最大似然估计(MLE)路径被阻断。因此,整个现代生成式人工智能的发展史,可以被理解为一部不断寻找可扩展、可计算的“近似”方法,以绕过这个积分障碍的历史。
本文从剥离了贝叶斯学派的先验假设的频率主义(Frequentist)的统计学视角出发,让我们得以清晰地看到 VAE 和 DDM 并非凭空出现,而是从经典的期望最大化(EM)算法开始,经过一系列严谨的、以计算可行性为导向的妥协与创新的演进结果。本文将遵循这一逻辑脉络,深入分析从 EM 算法到 VAE,再到 DDM 的演进,揭示这一过程如何定义了现代 AI 产品的核心架构、优化目标和最终的行业价值。本文的阅读友好的精美PDF版本及参考资料都已收录到走向未来知识星球,有兴趣的读者可加入星球获取。
在观测数据 存在,潜在变量 缺失的情况下,EM 算法是统计学上解决最大似然估计问题的经典方案。EM 算法的核心思想是“迭代优化”。它不直接最大化那个包含棘手积分的观测似然 ,而是转而最大化一个更易于处理的替代目标:在给定当前参数 下,完整数据()对数似然的“期望”,即 函数。
EM 算法的执行分为两个步骤:
EM 算法在数学上保证了每一步迭代都会使观测似然 非递减,使其能够稳定地收敛到一个(可能是局部的)最大值。
然而,EM 算法的优雅在面对高维数据时迅速失效。其“阿喀琉斯之踵”在于 E-step 本身。为了计算 函数,我们必须能够计算潜在变量的后验分布 。在 VAE 和 DDM 所处理的复杂模型中,这个后验分布 同样包含一个 intractable 的积分(在分母上,即 ),导致其无法以闭合形式(closed-form)解出。
因此,EM 算法的 E-step 本身就是 intractable 的。这构成了第一个重大的计算壁垒。
为了克服这个壁垒,统计学家提出了蒙特卡洛 EM(MCEM)。MCEM 的思路是用“采样”来近似“期望”。它不计算 函数的精确解析解,而是通过从 中抽取 个样本 ,然后用这些样本的平均值来近似 函数。
这在理论上可行,但在实践中,尤其是在现代 AI 面对的高维空间(例如百万像素的图像)中,MCEM 遭遇了灾难性的困难。从 这个复杂的高维分布中进行有效采样(例如使用 MCMC 方法)本身就极其缓慢,且需要大量的样本 才能获得稳定的估计。

EM 和 MCEM 的局限性揭示了一个深刻的教训:依赖精确计算或高保真采样的“纯粹”统计方法,在计算尺度上无法满足现代 AI 任务的需求。 任何希望在大型数据集上运行的生成模型,都必须寻找一条摆脱精确 E-step 依赖的道路。
变分推断(VI)的出现,是解决 intractable E-step 的第一个“范式转移”。其核心思想是:如果我们无法计算那个真实的、复杂的后验分布 ,我们能否用一个我们已知的、简单的、可计算的分布 去“近似”它?
被称为变分分布,它来自一个我们自己选择的简单分布族(例如,多元高斯分布),由一组新的参数 控制。VI 的目标就是调整这些变分参数 ,使得 尽可能地接近 。
这一“近似”替换,彻底改变了优化目标。通过在观测对数似然 上应用 Jensen 不等式,VI 导出了一个全新的优化目标:证据下界(ELBO)。
这个 ELBO 具有两个关键特性:
更重要的是,ELBO 可以被分解为:
其中 是 的熵。
这个形式揭示了 VI 的本质。对比 EM 算法的(修正后)目标 :
两者在结构上几乎一致。VI 本质上是用可计算的变分分布 替换了 EM 算法 E-step 中那个 intractable 的真实后验 。
这是一个根本性的妥协。我们不再追求找到“真实”的后验分布,而是满足于找到一个“最好”的近似分布。优化的目标从“最大化似然”转变为“最大化似然的下界”。这种“以近似换可解”的策略,是现代大规模 AI 得以实现的核心工程哲学。
VI 还带来了另一个关键工具:重参数化技巧(reparameterization trick)。为了使用梯度上升法优化 ELBO,我们需要计算 。重参数化技巧(例如,对于高斯分布,将 写成 ,其中 )使得梯度计算得以穿透采样步骤,让整个 ELBO 目标函数对于 和 都是可微的。
可微性(Differentiability)是至关重要的。它意味着我们可以使用现代深度学习框架(如 PyTorch, TensorFlow)中的自动微分和随机梯度上升(SGA)来高效优化模型。VI 成功地将一个棘手的统计积分问题,转化为了一个大规模的、可微的优化问题。
尽管 VI 解决了 E-step 的 intractable 问题,但它自身存在一个致命的扩展性(scaling)缺陷。
在经典的 VI 中,我们需要为每一个数据点 优化一组独立的变分参数 。如果我们的数据集有 个样本(例如 ),我们就需要寻找和存储 组参数。随着 的增长,计算和存储成本线性增长。这使得 VI 无法应用于真正的大规模数据集。
摊销变分推断(Amortized Variational Inference, AVI) 是解决这个扩展性问题的核心突破。
AVI 的思想极具工程智慧:与其为每个 单独学习 ,不如学习一个“函数” ,这个函数以 作为输入,直接“预测”出最佳的变分参数。
这个函数(通常是一个深度神经网络)由一组全局共享的参数 控制。无论数据集 有多大,我们始终只需要优化这一套固定的参数 。AVI 将原先 个独立的优化问题,“摊销”为了一个单一的、在所有数据上共享的优化问题。
这一转变具有深远的产品意义。它直接催生了现代生成模型中最著名的架构:变分自编码器(VAE)。

在 VAE 框架中,AVI 的两个核心组件被赋予了新的名称:
VAE 的训练过程,就是同时优化编码器参数 和解码器参数 ,其共同目标是最大化所有数据点的总 ELBO:
VAE 架构的出现,是 AI 从统计模型走向工程产品的关键一步。它不是一个单一模型,而是一个由两个(通常是深度神经网络)模型构成的、可端到端训练的系统。编码器实现了高效的、可扩展的“推断”(inference),而解码器则负责“生成”(generation)。这种“推断-生成”的对称架构,成为了后续所有大型生成模型(包括 DDM)的基础模板。
如果说 VAE 是一个“浅层”的潜在变量模型(),那么去噪扩散模型(DDM) 就是 VAE 思想在“深度”和“层次化”上的自然延伸。
DDM 不再满足于单一的潜在变量 。它构建了一个由 步(例如 )构成的马尔可夫链。这个链从纯粹的噪声 (例如一个标准高斯分布)开始,一步一步地“去噪”,最终在 时刻生成清晰的观测数据 (即 )。
这个多步骤的生成过程,就是一个深度层次化的潜在变量模型。在这个模型中, 都是潜在变量。其联合概率分布可以分解为:
这在 VAE 的语境下非常清晰:
解码器(Decoder):就是这个“反向过程(Reverse Process)”。它由一系列神经网络 组成,学习如何从一个较噪的 预测(解码)出一个较清晰的 。这是模型的“生成”部分。
这个模型的似然 需要对 这 个高维变量进行积分,这比 VAE 的单层积分更加 intractable。因此,DDM 同样必须使用 VI 和 AVI 来进行近似推断。
DDM 需要一个对应的“编码器”。它被设计为上述生成过程的“逆过程”,即“前向过程(Forward Process)”:
这个前向过程 扮演了 VAE 中编码器 的角色,它就是 DDM 的“变分近似分布”。

DDM 的一个核心设计选择是:这个“编码器”(前向过程)被设计得极其简单,甚至被固定为超参数,而不需要学习。
具体来说,每一步 被定义为一个简单的、固定的高斯噪声添加过程:
, 其中
这个设计天才地解决了推断问题。因为这个 过程是固定的、可解析的,我们可以轻易地从中采样,计算它的熵,甚至可以直接一步到位地计算 。
DDM 同样通过最大化 ELBO 来训练。其 ELBO 结构与 VAE 类似,只是变成了 个步骤的求和。DDM 训练的本质,就是运行这个固定的、简单的“前向加噪”过程(编码),然后训练那个复杂的、参数化的“反向去噪”过程(解码),使其能够逆转前向过程。
DDM 的成功,是 VAE 架构思想的巨大胜利。它证明了通过构建更深、更具层次化的潜在结构,并辅以一个精心设计的、固定的变分近似( 过程),模型可以学习到比 VAE 远为复杂和精细的数据分布。
DDM 理论上的 ELBO 目标虽然可解,但在实际工程中依然复杂。真正让 DDM 成为可训练、可扩展并最终统治图像生成领域(在 DALL-E 2, Stable Diffusion 等产品中应用)的,是其后续的“简化目标”(Simplified Objective)。
通过一系列数学变换和工程假设(例如,固定前向过程 ,固定反向过程的方差,共享解码器参数 ),那个复杂的 ELBO 最大化问题,可以被等价地(或近似地)转化为一个极其简单的噪声预测(Noise Prediction)任务。
这个简化的目标本质上是一个加权的均方误差(MSE)损失:
这里的 ,是原始图像 添加了噪声 后的结果。 则是那个(重新参数化后的)解码器神经网络。
这个目标的含义非常直白:
这就是 DDM 训练的全部。一个极其复杂的统计推断问题,最终被转化成了一个简单的、可大规模并行化的“监督学习”问题。
这个“简化的目标”是 DDM 得以产品化的关键。它使得训练变得异常稳定和高效。它不再需要计算复杂的 ELBO 项,只需要计算一个简单的 MSE。这个目标函数对现代硬件(GPU/TPU)极其友好,因为它本质上就是海量的矩阵乘法和元素间操作,这正是 AI 芯片设计的优化重点。
从 EM 的 intractable 积分,到 VI 的 ELBO 近似,到 VAE 的摊销架构,再到 DDM 的简化噪声预测目标——这条演进路径清晰地展示了现代 AI 产品是如何通过一系列“有损”但“可控”的统计近似和目标工程,最终将一个无法求解的统计问题,转化为一个可以利用海量数据和算力(芯片)暴力求解的工程问题的。
现代生成模型(VAE, DDM)中的潜在变量,其角色已经从“科学可解释性”转向了“生成效用性”。

在经典的统计模型(如因子分析)中,潜在变量 被假设为真实世界中存在的、有意义的“因子”(例如“智力”、“经济景气度”)。模型的首要目标是“解释”数据,潜在变量的“可解释性”是至高无上的。
但在 VAE 和 DDM 中,潜在变量 (或 )的角色发生了根本性转变。它不再被要求对应任何物理上或哲学上可解释的构念。 纯粹是一种计算工具,一个灵活的“信息瓶颈”或“草稿空间”,其存在的唯一目的是为了构建一个足够强大和灵活的模型 ,使其能够近似复杂的数据分布。
我们不再关心 的某个维度“代表”什么,我们只关心从 中采样能否“生成”逼真的图像。
这一哲学上的转变,是 AI 市场和产品战略的根基。AI 产业(特别是生成式 AI)的价值,不是来自它对世界的“解释”,而是来自它的“效用”——即生成高质量、有价值内容的能力。
从 EM 到 DDM 的频率主义演进路径,向我们揭示了这一效用是如何实现的。它是通过一系列务实的工程妥协(VI, AVI)和精巧的架构设计(VAE, DDM),最终将一个 intractable 的统计推断问题,转化为一个 tractable 的、可被 AI 芯片加速的大规模优化问题(简化的 DDM 目标)。
因此,AI 芯片(GPU, NPU, TPU)的设计也不是为了执行 MCMC 采样(EM/MCEM 的需求),而是为了大规模并行地计算梯度和均方误差(VI/VAE/DDM 的需求)。硬件架构的发展,完全是沿着这条“近似推断”和“目标工程”的路径演进的。
总而言之,现代生成式 AI 的胜利,不是统计学“纯粹主义”的胜利,而是“工程实用主义”的胜利。它是一部关于如何用可控的“近似”去换取“可扩展性”和“计算可行性”的宏大叙事。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。