首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >什么是信息熵?如何衡量信息的价值? #机器学习001

什么是信息熵?如何衡量信息的价值? #机器学习001

作者头像
Piper蛋窝
发布2020-11-19 15:14:43
发布2020-11-19 15:14:43
2.4K0
举报
文章被收录于专栏:Piper蛋窝Piper蛋窝

导读:笔者在大三上学期学习了清华大学MOOC袁博老师的《数据挖掘》课程,第一次了解到“信息熵”的概念。之后在某门课程上展示,又恰逢Bilibili的科普视频竞赛活动,便做成了视频去参赛。但皆给人一种“不知所云”的感觉。今天再来聊聊这个概念。

引例:小善同学是一位犬科鉴定专家,你只需要向他描述几个特征,他便能告诉你,这种动物是狼还是狗。

半夜,山区。你正走在回家的路上,突然,前面一个巍峨的身影挺立在路中间。它可能是张大爷养的狼狗,从不伤人;也可能是误打误撞跑到这里的野狼。你分不清,你没流量了,你给小善打电话求助。

“小善,”你惊恐道,“前面有只家伙,我不知道它是狗还是狼。”

“说特征吧,三个便够了。”

此时,你能获得的特征有:耳朵形状(树立还是下垂)、尾巴长度、尾巴动作(翘起还是下榻)、眼神特点(凶狠还是温顺)、有没有后倒爪。

那你将告诉小善哪个三特征呢?你肯定是挑对小善判断的准确性提升最大的三个特征。在统计学、机器学习中,信息熵可以帮助你进行挑选,进而提升小善判断的准确率。

信息熵,是由信息论鼻祖香农等人提出的,由热力学引申出的概念,用于描述信息的不确定度。

再举一个有公式的例子。

假设天津大学一万名同学,南开大学一万名同学,在其中随机抽取一名同学。

现在让你猜测这名同学来自哪所学校?你猜对的概率为0.5。

使用公式:

计算信息熵为:

(天津大学同学出现概率乘log_2的天津大学同学出现概率,

加南开大学同学出现概率乘log_2的南开大学同学出现概率,取负值)

现在你得知了一项信息:天津大学同学中,有八千人主修工程技术,两千人主修人文社科;南开大学同学中,有三千人主修工程技术,七千人主修人文社科。

那么,现在告诉你迎面走来的同学是主修工程技术的,你更倾向于认为他来自哪所学校?

很显然,得知了“主修学科:工程技术”这项信息,我们更倾向于认为他来自天津大学。

现在你又得知了一项信息:天津大学同学中有九千九百九十九人穿蓝色内衣,一人穿紫色内衣;南开大学同学中有九千九百九十九人穿紫色内衣,一人穿蓝色内衣。

那么,告诉你迎面走来的同学内衣是紫色的,你更倾向于认为他来自哪所学校?

很显然,得知了“内衣颜色:紫色”这项信息,我们几乎可以判断这名同学来自南开大学。

显然,内衣颜色这个信息比主修学科这个信息价值更大,利用熵值计算公式,我们可以得到两种信息的信息熵。

其中,H(S│主修)=0.8088,H(S│内衣)=0.0015,而一开始计算的H(S│什么都不知道)=1。

可见,相比什么信息都不知道的熵值,内衣颜色让这个值降得更多了,内衣颜色这个信息所带来的信息增益更大。可以说,如果只能知道一种信息的话,那我们应该选“内衣颜色”。

信息熵的简单应用如上。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Piper蛋窝 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档