在《从零开始学Python【20】--线性回归(理论部分)》和《从零开始学Python【24】--岭回归及LASSO回归(理论部分)》我们已经详细介绍了线性回归及带惩罚项的岭回归、LASSO回归的理论知识,但这些线性回归一般用来解决类似房价、身高、GDP、学生成绩等连续数值的建模和预测。如果你的因变量并非是这些连续的数值型,而是类似于成功或失败、流失或不流失、涨或跌等二元问题,那就不能使用线性回归了。
所以,我们接着线性回归,再跟大家聊聊Logistic回归。它是一个非线性的回归模型,其最大的好处恰恰是可以解决二元类问题,目前在金融行业,基本都是使用Logistic回归来预判一个用户是否为好客户,因为它还弥补了其他黑盒模型(SVM、神经网络、随机森林等)不具解释性的缺点。接下来,我们先从理论的角度,好好剖析一下这个神奇而强大的回归模型。
对于Logistic回归来说,它的思想就是依赖已知的X变量,去构造Y变量(某个事件发生)的概率值,说白了就是一个条件概率:P=P(y=1X)。我们都知道,概率的范围是0~1,而且还是连续值,那接下来是不是就可以往线性回归这个思路去延伸了呢。那问题来了,如何根据X的值,去构造一个属于0~1之间的概率值呢?聪明的统计学家们,构造了一个Logit函数,其函数形式为:
如果把这个函数以图形的方式展示的话,将会是:
从图形上来看,确实y值是落在0~1之间的。假设线性回归写成如下表达式:
再将g(x)套入到Logit函数,再来看看某个事件发生的概率表达式:
OK,请睁大眼睛,接下来就要开始变魔术了,通过详细的推导就能将上面的非线性函数变成一个线性回归模型啦:
上面得到的exp(g(x)),一般称为事件的发生比,即某个事件发生概率与不发生概率的比值。如果将上式的两边取一下对数,那么不就演变成了一个线性回归模型了嘛:
问题又来了,只要能够通过X数据集,找到对应的beta系数,就能够计算出某个感兴趣事件发生的概率P,那这个beta系数该如何求解呢?对于聪明的统计学家兼数学家来说,他们构造了极大似然函数,作为一个搬运工的我来说,就简单说说这个似然函数是怎么实现beta系数求解的。
对于每一个观测样本(不妨有n个样本),某个事件发生的概率(y变量不妨用1表示)和不发生(y变量用0表示)的概率可以表示成:
其中概率pi就是关于beta系数的Logit函数。那么,将上面两种情况合起来,就是一个简单的二元分布,可以表示为:
二元分布是一种常用的离散型分布,接下来我们就可以应用这个二元分布构造似然函数。在Logistic回归中,一般会假设样本之间是相互独立的,那么 它们的联合分布就可以表示为各边缘分布的乘积。可以通过下面这个式子来表达这个似然函数:
要想求得beta系数,可以根据上面这个似然函数计算它的极大值,具体求解的推导步骤如下:
为了求解上式的极大值,我们可以对每一个beta进行偏导,并将求导结果设置为0,最后就可以得到n+1个方程组,再根据这么多的方程组求出每一个beta系数值。下面不妨对beta1求偏导作为演示:
为了能够让大家理解上面式子的进一步求解,我们再来回顾一下大学里学习的微分知识点:
OK,有了上面的理论铺垫,你再看下面这个式子就一定很轻松了:
上面理论知识的推导过程是不是比较容易理解呢?小编特别希望各位看官能够推导一遍,这对数学知识的提升有一定的帮助,反过来,也会促进你理解模型的结果。
OK,关于Logistic回归模型的理论部分我们就分享到这里,下一期我们将针对该回归模型进行使用Python和R语言进行实战分析。如果你有任何问题,欢迎在公众号的留言区域表达你的疑问。同时,也欢迎各位朋友继续转发与分享文中的内容,让更多的人学习和进步。
关注“每天进步一点点2015”,与小编同进步!
领取专属 10元无门槛券
私享最新 技术干货