交叉熵损失函数

2020-01-15

在理解交叉熵损失函数之前，有必要先来说一下信息熵这个概念

信息熵

信息熵可以理解为信息杂乱程度的量化描述：信息越多，概率越均等则信息熵就越大；反之，信息越单一，概率越偏向其中某一个信息，那么熵值就越小

公式如下：

$$
H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)})
$$

其中，

$$
-logP(x^{(i)})
$$
表示一个信息的信息量，概率越小，信息量就越大，这很好理解，比如“太阳从西边出来了”，这几乎不可能发生，如果发生了，那对于我们来说其所含的信息量是巨大的

先给出公式：
$$
L(\hat y,y)=-[ylog\hat y+(1-y)log(1-\hat y)]
$$
其中ŷ为预测值

我们来解释一下这个公式为什么能起作用：

对于损失函数，我们希望它越小越好

当y=1时，L(ŷ,y)=-log ŷ，则ŷ应尽可能接近于1，才能让损失函数尽可能地小
当y=0时，L(ŷ,y)=-(1-y)log(1-ŷ)，则ŷ应尽可能接近于0，才能让损失函数尽可能地小

在逻辑回归中，预测值是一个概率，它表示与样本的拟合程度，而该公式既很好地表达了这种关系，也满足了损失函数的定义

本文作者： Galin
本文链接： https://ga-lin.cn/2020/01/15/交叉熵损失函数/
版权声明： 署名-非商业性使用-禁止演绎 4.0 国际（CC BY-NC-ND 4.0）转载请保留原文链接及作者