从概率角度出发，对交叉熵和 KL 散度进行分析和推导

叶庭云

发布于 2024-05-25 07:51:09

7480

文章被收录于专栏：Python进阶之路Python进阶之路

1. 定义与推导

交叉熵（Cross Entropy）

交叉熵是一个衡量两个概率分布之间差异的指标。在机器学习中，这通常用于衡量真实标签的分布与模型预测分布之间的差异。对于两个概率分布

和

，其中

是真实分布，

是模型预测分布，交叉熵的定义为：

H (P, Q) = -\sum_{x} P (x) \log Q (x)

这里的求和是对所有可能的事件

进行的。

KL 散度（Kullback-Leibler Divergence）

KL 散度用于衡量两个概率分布之间的非对称差异。对于真实概率分布

和模型预测分布

，KL 散度定义为：

D_{KL}(P \| Q) = \sum_{x} P (x) \log \frac {P (x)}{Q (x)}

这同样是对所有可能的事件

进行求和。KL 散度是一种测量模型预测分布

如何偏离实际分布

的评价标准。

2. 计算方法

计算交叉熵

在计算机实现中，交叉熵通常应用于分类问题。对于一个有

个类的问题，如果

是一个使用 one-hot 编码 的标签向量，

\hat {y}

是模型的输出概率向量，则交叉熵可以计算为：

H (y, \hat {y}) = -\sum_{i=1}^{C} y_i \log \hat {y}_i

计算 KL 散度

在实际应用中，计算

D_{KL}(P \| Q)

通常需要保证

Q (x)

对于所有

都不为零（即

Q (x) > 0

），以避免在计算

\log \frac {P (x)}{Q (x)}

时出现数学上的未定义行为。

3. 应用

在信息论和机器学习中，交叉熵和 KL 散度都被广泛使用：

信息论：交叉熵可以被理解为在错误地假设概率分布是

而不是

的情况下，描述事件平均所需的比特数。KL 散度则衡量了用分布

来编码来自分布

的数据所需的额外信息量。

机器学习：交叉熵常用作损失函数，帮助模型学习以逼近数据的真实分布。KL 散度用于如变分自编码器（VAE）等模型中，以确保潜在空间的分布接近先验分布。

4. 相互关系和区别

交叉熵和 KL 散度之间存在紧密的联系：

H (P, Q) = H (P) + D_{KL}(P \| Q)

这里

H (P)

是

的熵，表示了在完全知道真实分布情况下描述事件所需的最少信息量。可以看出，交叉熵不仅包含了当

被用作模型预测时所带来的额外成本（即 KL 散度），还包括了数据本身的不确定性

H (P)

。

5. 在评估模型性能时的作用和重要性

评估模型性能：在机器学习中，降低交叉熵意味着提高模型对数据生成分布的逼近程度，从而提高模型的性能。
模型调优：通过最小化 KL 散度，可以使模型预测的分布更接近真实分布，这对于生成模型和概率模型尤为重要。

总之，交叉熵和 KL 散度在机器学习中是评价和优化模型的重要工具，它们帮助我们理解模型与数据之间的信息差异，从而指导模型的改进和优化。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2024-04-30，如有侵权请联系 cloudcommunity@tencent.com 删除

数据

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度