开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >信息熵、条件熵、联合熵、互信息、相对熵、交叉熵

信息熵、条件熵、联合熵、互信息、相对熵、交叉熵

统计学家

发布于 2019-07-30 15:27:48

4.1K1

发布于 2019-07-30 15:27:48

举报

文章被收录于专栏：机器学习与统计学

信息熵、联合熵、条件熵、互信息的关系

1、信息量

信息量是通过概率来定义的：如果一件事情的概率很低，那么它的信息量就很大；反之，如果一件事情的概率很高，它的信息量就很低。简而言之，概率小的事件信息量大，因此信息量可以定义如下：

下面解释为什么要取倒数再去对数。

（1）先取倒数：

这件事表示：“信息量”和“概率”呈反比；

（2）在取对数：

取对数是为了将区间

映射到

。

再总结一下：

2、信息熵

信息熵是信息量的数学期望。理解了信息量，信息熵的定义式便不难理解。定义如下：

熵越小表示越“纯”，决策树算法在进行特征选择时的其中标准之一就是选择使得通过该特征分类以后的类的熵最小；
上面是熵越小越好，而有的时候，我们需要熵越大越好，简单来说就是“鸡蛋不要放在一个篮子里”（见吴军《数学之美》），最大熵原理就是这样，这部分内容可以参考李航《统计机器学习》逻辑回归模型相关部分。

3、条件熵

条件熵的定义为：在

给定的条件下，

的条件概率分布的熵对

的数学期望。

条件熵一定要记住下面的这个定义式，其它的式子都可以由信息熵和条件熵的定义式得出。

理解条件熵可以使用决策树进行特征选择的例子：我们期望选择的特征要能将数据的标签尽可能分得比较“纯”一些，特征将数据的标签分得“纯”，则熵就小，信息增益就大。

因为

条件熵可以变形成如下：

说明：有些教材直接把最后一步

定义成条件熵，其实是一个意思，我个人觉得

这种定义式更好理解，而这个定义式可以参考李航《统计学习方法》P61 ，并不难记忆，其实条件熵就是“被特征分割以后的信息熵的加权平均”。

4、联合熵

两个变量

和

的联合熵的表达式：

5、互信息

根据信息熵、条件熵的定义式，可以计算信息熵与条件熵之差：

同理

因此：

定义互信息：

即：

互信息也被称为信息增益。用下面这张图很容易明白他们的关系。

信息熵、联合熵、条件熵、互信息的关系

信息熵：左边的椭圆代表

，右边的椭圆代表

。互信息（信息增益）：是信息熵的交集，即中间重合的部分就是

。联合熵：是信息熵的并集，两个椭圆的并就是

。条件熵：是差集。左边的椭圆去掉重合部分就是

，右边的椭圆去掉重合部分就是

。

还可以看出：

5、相对熵

相对熵又称 KL 散度，如果我们对于同一个随机变量

有两个单独的概率分布

和

，使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。差异越大则相对熵越大，差异越小则相对熵越小。

计算公式如下：

如何记忆：如果用

来描述样本，那么就非常完美（因为

认为是真实的情况）。而用

来描述样本，虽然可以大致描述，但是不是那么的完美，信息量不足，需要额外的一些“信息增量”才能达到和

一样完美的描述。如果我们的

通过反复训练，也能完美的描述样本，那么就不再需要额外的“信息增量”，

等价于

。即

和

的分布完全一致的时候，KL 散度的值等于

。

6、交叉熵

我是这样记忆交叉熵的定义的，通过逻辑回归的损失函数记忆交叉熵。

认为是类标，是独热编码（也可以认为是概率分布），而

认为是逻辑回归预测的概率分布。

交叉熵是对数似然函数的相反数。对数似然的值我们希望它越大越好，交叉熵的值我们希望它越小越好。

结论：KL 散度 = 交叉熵 - 熵。这一点从相对熵的定义式就可以导出。

这里

就是交叉熵的定义式。

相对熵与交叉熵的关系：

参考资料

1、一文搞懂交叉熵在机器学习中的使用，透彻理解交叉熵背后的直觉

地址：https://blog.csdn.net/tsyccnh/article/details/79163834

2、机器学习各种熵：从入门到全面掌握

地址：https://zhuanlan.zhihu.com/p/35423404

3、信息增益（互信息）非负性证明

地址：https://blog.csdn.net/MathThinker/article/details/48375523

4、如何通俗的解释交叉熵与相对熵?

地址： https://www.zhihu.com/question/41252833

5、相对熵（KL散度）

地址： https://blog.csdn.net/ACdreamers/article/details/44657745

6、KL(kullback-Leibler-devergence)散度（相对熵）非负性

地址：https://blog.csdn.net/KID_yuan/article/details/84800434

7、简单的交叉熵，你真的懂了吗？ https://zhuanlan.zhihu.com/p/61944055

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-07-27，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自机器学习与统计学微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

1、信息量
2、信息熵
3、条件熵
- 4、联合熵
- 5、互信息
5、相对熵
6、交叉熵
- 结论：KL 散度 = 交叉熵 - 熵。这一点从相对熵的定义式就可以导出。
- 相对熵与交叉熵的关系：

相关产品与服务

腾讯云 TI 平台

腾讯云 TI 平台（TencentCloud TI Platform）是基于腾讯先进 AI 能力和多年技术经验，面向开发者、政企提供的全栈式人工智能开发服务平台，致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路，帮助用户快速创建和部署 AI 应用，管理全周期 AI 解决方案，从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。

11.11 上云拼团GO