信息熵用来描述信息的不确定性,如果不确定性越高,那么信息熵越大,否则则越低。
I(X)称为自信息,I(x)=-logP(x)。通过公式可以看出,P(x)越大,自信息就越小。当然,如果一件事情发生的概率为1,那么他的自信息就是0.
假设X的分布为P(X),那么其信息熵为:
假设X,Y的联合分布为P(X,Y),那么其信息熵为:
在信息论中,条件熵描述了在已知第二个随机变量XX的值的前提下,随机变量YY的信息熵还有多少。 如果H(Y|X=x)表示已知X=x的情况下,YY的信息熵,那么我们有:
条件熵与联合熵的关系
在信息论中,两个随机变量的互信息是变量间相互依赖的量度。 一般的,连个离散随机变量X和Y的互信息可以定义为:
I(X;Y)=0当且仅当X,Y互为独立随机变量 互信息又可以表示为:
上面是对于两个随机变量的,下面介绍对于两个分布的。 H,Q是两个分布函数,则他们的交叉熵为:
交叉熵越小,说明这两个分布越相似
KL散度,也称相对熵
。用于度量两个概率分布之间的差异,给定两个概率分布P,Q,两者之间的KL散度为:
参考资料 https://zh.wikipedia.org/wiki/%E8%81%94%E5%90%88%E7%86%B5 https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)