
导读:笔者在大三上学期学习了清华大学MOOC袁博老师的《数据挖掘》课程,第一次了解到“信息熵”的概念。之后在某门课程上展示,又恰逢Bilibili的科普视频竞赛活动,便做成了视频去参赛。但皆给人一种“不知所云”的感觉。今天再来聊聊这个概念。
引例:小善同学是一位犬科鉴定专家,你只需要向他描述几个特征,他便能告诉你,这种动物是狼还是狗。
半夜,山区。你正走在回家的路上,突然,前面一个巍峨的身影挺立在路中间。它可能是张大爷养的狼狗,从不伤人;也可能是误打误撞跑到这里的野狼。你分不清,你没流量了,你给小善打电话求助。
“小善,”你惊恐道,“前面有只家伙,我不知道它是狗还是狼。”
“说特征吧,三个便够了。”
此时,你能获得的特征有:耳朵形状(树立还是下垂)、尾巴长度、尾巴动作(翘起还是下榻)、眼神特点(凶狠还是温顺)、有没有后倒爪。
那你将告诉小善哪个三特征呢?你肯定是挑对小善判断的准确性提升最大的三个特征。在统计学、机器学习中,信息熵可以帮助你进行挑选,进而提升小善判断的准确率。
信息熵,是由信息论鼻祖香农等人提出的,由热力学引申出的概念,用于描述信息的不确定度。
再举一个有公式的例子。
假设天津大学一万名同学,南开大学一万名同学,在其中随机抽取一名同学。

现在让你猜测这名同学来自哪所学校?你猜对的概率为0.5。
使用公式:

计算信息熵为:

(天津大学同学出现概率乘log_2的天津大学同学出现概率,
加南开大学同学出现概率乘log_2的南开大学同学出现概率,取负值)
现在你得知了一项信息:天津大学同学中,有八千人主修工程技术,两千人主修人文社科;南开大学同学中,有三千人主修工程技术,七千人主修人文社科。

那么,现在告诉你迎面走来的同学是主修工程技术的,你更倾向于认为他来自哪所学校?
很显然,得知了“主修学科:工程技术”这项信息,我们更倾向于认为他来自天津大学。
现在你又得知了一项信息:天津大学同学中有九千九百九十九人穿蓝色内衣,一人穿紫色内衣;南开大学同学中有九千九百九十九人穿紫色内衣,一人穿蓝色内衣。

那么,告诉你迎面走来的同学内衣是紫色的,你更倾向于认为他来自哪所学校?
很显然,得知了“内衣颜色:紫色”这项信息,我们几乎可以判断这名同学来自南开大学。
显然,内衣颜色这个信息比主修学科这个信息价值更大,利用熵值计算公式,我们可以得到两种信息的信息熵。

其中,H(S│主修)=0.8088,H(S│内衣)=0.0015,而一开始计算的H(S│什么都不知道)=1。
可见,相比什么信息都不知道的熵值,内衣颜色让这个值降得更多了,内衣颜色这个信息所带来的信息增益更大。可以说,如果只能知道一种信息的话,那我们应该选“内衣颜色”。
信息熵的简单应用如上。