什么是信息熵？如何衡量信息的价值？ #机器学习001

Piper蛋窝

发布于 2020-11-19 15:14:43

2.4K0

导读：笔者在大三上学期学习了清华大学MOOC袁博老师的《数据挖掘》课程，第一次了解到“信息熵”的概念。之后在某门课程上展示，又恰逢Bilibili的科普视频竞赛活动，便做成了视频去参赛。但皆给人一种“不知所云”的感觉。今天再来聊聊这个概念。

引例：小善同学是一位犬科鉴定专家，你只需要向他描述几个特征，他便能告诉你，这种动物是狼还是狗。

半夜，山区。你正走在回家的路上，突然，前面一个巍峨的身影挺立在路中间。它可能是张大爷养的狼狗，从不伤人；也可能是误打误撞跑到这里的野狼。你分不清，你没流量了，你给小善打电话求助。

“小善，”你惊恐道，“前面有只家伙，我不知道它是狗还是狼。”

“说特征吧，三个便够了。”

此时，你能获得的特征有：耳朵形状（树立还是下垂）、尾巴长度、尾巴动作（翘起还是下榻）、眼神特点（凶狠还是温顺）、有没有后倒爪。

那你将告诉小善哪个三特征呢？你肯定是挑对小善判断的准确性提升最大的三个特征。在统计学、机器学习中，信息熵可以帮助你进行挑选，进而提升小善判断的准确率。

信息熵，是由信息论鼻祖香农等人提出的，由热力学引申出的概念，用于描述信息的不确定度。

再举一个有公式的例子。

假设天津大学一万名同学，南开大学一万名同学，在其中随机抽取一名同学。

现在让你猜测这名同学来自哪所学校？你猜对的概率为0.5。

使用公式：

计算信息熵为：

（天津大学同学出现概率乘log_2的天津大学同学出现概率，

加南开大学同学出现概率乘log_2的南开大学同学出现概率，取负值）

现在你得知了一项信息：天津大学同学中，有八千人主修工程技术，两千人主修人文社科；南开大学同学中，有三千人主修工程技术，七千人主修人文社科。

那么，现在告诉你迎面走来的同学是主修工程技术的，你更倾向于认为他来自哪所学校？

很显然，得知了“主修学科：工程技术”这项信息，我们更倾向于认为他来自天津大学。

现在你又得知了一项信息：天津大学同学中有九千九百九十九人穿蓝色内衣，一人穿紫色内衣；南开大学同学中有九千九百九十九人穿紫色内衣，一人穿蓝色内衣。

那么，告诉你迎面走来的同学内衣是紫色的，你更倾向于认为他来自哪所学校？

很显然，得知了“内衣颜色：紫色”这项信息，我们几乎可以判断这名同学来自南开大学。

显然，内衣颜色这个信息比主修学科这个信息价值更大，利用熵值计算公式，我们可以得到两种信息的信息熵。

其中，H(S│主修)=0.8088，H(S│内衣)=0.0015，而一开始计算的H(S│什么都不知道)=1。

可见，相比什么信息都不知道的熵值，内衣颜色让这个值降得更多了，内衣颜色这个信息所带来的信息增益更大。可以说，如果只能知道一种信息的话，那我们应该选“内衣颜色”。

信息熵的简单应用如上。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-10-19，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Piper蛋窝微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度