公式
定义
在信息论中,若一个符号字符串中的每个字符的出现概率
已知,则可用香农熵估计该字符串中每个符号
编码所需的平均最小位数....除了数学表达式相似以外,完全可以将这里的熵和其热力学概念联系起来....在对符号进行编码时,如果假设了其他的概率
而非真实概率
,则对每个符号所需的编码的长度就会更大.这正是交叉熵所发挥作用的时候....作为一个损失函数假设p为所期望的输出和概率分布("编码"),其中实际值 有100%,而其他任何值为0,将q作为由模型计算得到的输出,请牢记,sigmoid函数的输出是一个概率值....有这样一个定理:当p=q时,交叉熵去的最小值.因此可以利用交叉熵比较一个分布与另一个分布的吻合情况.交叉熵越接近与熵,q便是针对p更好的逼近,实际上,模型的输出与期望输出越接近,交叉熵也会越小,这正是损失函数所需要的