在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念
信息熵
信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小
公式如下:
$$
H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)})
$$
其中,
$$
-logP(x^{(i)})
$$
表示一个信息的信息量,概率越小,信息量就越大,这很好理解,比如“太阳从西边出来了”,这几乎不可能发生,如果发生了,那对于我们来说其所含的信息量是巨大的
交叉熵损失函数
先给出公式:
$$
L(\hat y,y)=-[ylog\hat y+(1-y)log(1-\hat y)]
$$
其中ŷ为预测值
我们来解释一下这个公式为什么能起作用:
对于损失函数,我们希望它越小越好
当y=1时,L(ŷ,y)=-log ŷ,则ŷ应尽可能接近于1,才能让损失函数尽可能地小
当y=0时,L(ŷ,y)=-(1-y)log(1-ŷ),则ŷ应尽可能接近于0,才能让损失函数尽可能地小
在逻辑回归中,预测值是一个概率,它表示与样本的拟合程度,而该公式既很好地表达了这种关系,也满足了损失函数的定义
本文作者:
Galin
本文链接: https://ga-lin.cn/2020/01/15/交叉熵损失函数/
版权声明: 署名-非商业性使用-禁止演绎 4.0 国际(CC BY-NC-ND 4.0) 转载请保留原文链接及作者
本文链接: https://ga-lin.cn/2020/01/15/交叉熵损失函数/
版权声明: 署名-非商业性使用-禁止演绎 4.0 国际(CC BY-NC-ND 4.0) 转载请保留原文链接及作者