二分分类
公式
当$x$只有一个属性时:
$f(x)=wx+b$
当$x$的属性不止一个时:
这时我们就可以转换成矩阵运算了
$f(x)=w^Tx$
即
logistic 回归
对于二分分类问题,我们最终想要的结果是0和1,但实际情况很难得到这样的结果。
所以我们就引入了激活函数,在二分分类问题中我们一般使用$\sigma$函数,这个函数公式为:$f(x)= \frac{1}{1+e^{-x}}$。这个函数的图像为
其结果都在0~1之间,我们可以通过四舍五入,将所有结果置为整数。
我们的公式就变为:$\hat{y}=\sigma(w^Tx+b)$,这里的$\hat{y}$就是我们要求的预测值。
接着就引出了我们的代价函数(成本函数),他的公式为:
单个样本:
m个样本:
推导
开始之前希望大家了解一些极大似然估计:https://blog.csdn.net/u014182497/article/details/82252456
之前我们求的$\hat{y}$的范围处于0~1,这样我们就可以将他的值看做$p(y=1|x)$的概率了,于是$p(y=1|x)=\hat{y},则p(y=0|x)=1-\hat{y}$。
我们可以将这个式子整合到一起,变成$f(y;p)=p^y(1-p)^{(1-y)}$,因为$y\in(0,1)$,
当y=1时,$f(y;p)=p^1(1-p)^{(1-1)}=p$,
当y=0时,$f(y;p)=p^0(1-p)^{1-0}=1-p$,满足上面的式子。
$L=p^y(1-p)^{(1-y)}=\hat{y}^y(1-\hat{y})^{(1-y)}$然后两边同时取log,得到$logL=ylog\hat{y}+(1-y)log(1-\hat{y})$,最后我们的成本函数又取$L(\hat{y},y)=-logL$,取这个的原因:https://www.jianshu.com/p/1bf35d61995f
梯度下降
注:接下来将用$da$表示$\frac{dL(a,y)}{da}$,$dz$表示$\frac{dL(a,y)}{dz}$,$dw$表示$\frac{dL(a,y)}{dw}$ 首先列出下列公式: $z=w^Tx+b$ $\hat{y}=a=\sigma(z)=\frac{1}{1+e^{-(w^T+b)}}$ $L(a,y)=-(yloga+(1-y)log(1-a))$ 1.计算$da$ $da=\frac{dL(a,y)}{da}=-\frac{y}{a}+\frac{1-y}{1-a}$ 2.计算$dz$ 这时我们需要用到链式法则 $dz=\frac{dL(a,y)}{dz}=\frac{dL(a,y)}{da}\frac{da}{dz}=(-\frac{y}{a}+\frac{1-y}{1-a})\frac{da}{dz}$ 此时需要求$\frac{da}{dz}$,我们可以设$1+e^{(w^T+b)}=x$,则变成对$\frac{1}{x}$求导,对$\frac{1}{x}$求导等于 $-(\frac{1}{x^2}x’)=-(\frac{1}{(1+e^{-z})^2})(-e^{-z})$
$=\frac{1+e^{-z}-1}{(1+e^{-z})^2}$
$=\frac{1}{1+e^{-z}}-(\frac{1}{1+e^{-z}})^2$
$=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})$
$=a(1-a)$ 所以$dz=a(1-a)(-\frac{y}{a}+\frac{1-y}{1-a})=a-y$ 3.计算$dw$ 同样利用链式法则 $dw=\frac{dL(a,y)}{dw}=(\frac{dL(a,y)}{da}\frac{da}{dz})\frac{dz}{dw}$ $\frac{dz}{dw}=x$ 所以$dw=xdz$,这里的$dz=\frac{dL(a,y)}{dz}$ 4.计算db $db=\frac{dL(a,y)}{dw}=(\frac{dL(a,y)}{da}\frac{da}{dz})\frac{dz}{db}$ $\frac{dz}{db}=1$ 所以$db=dz$,这里的$dz=\frac{dL(a,y)}{dz}$ 接着就可以进行迭代,这里的$\alpha$是学习率 $w:=w-\alpha dw$ $b:=b-\alpha db$
刚入门,还有很多不足之处,请大家多多指出。