又是一个月左右没写了,没别的,除了忙就是累,毕竟是业余爱好,现在接着进行统计学习的分类数据处理,首先是逻辑回归。
上一章的内容是关于线性回归定量分析的内容,但在很多情况下,响应变量 Y 属于定性数据,本章节的内容则是关于定性数据的分析,主要是三种流行的分析方法,分别为:逻辑回归(logistic regression),线性判别分析(linear discriminant analysis),K 最临近算法(K-nearest neighbors)。
这个很好理解,我们举例说明就可以了,假定观测值也即观测值有三种,分别为:obs1,obs2以及obs3。我们可以将其解码为定量变量处理:
但是这种方法有一个顺序的问题,即我可以按照其他顺序进行编码,例如:
而如果使用不同的顺序,显而易见得到的模型是不同的。如果使用线性回归,这将导致很多问题。
5.2 逻辑回归
假定我们的观测值有两个类别: “是” 和 “否”,逻辑回归并非直接模拟响应变量 Y,二是模拟 Y 最终属于某个类别的可能性。
假定我们使用最简单的 0,1 来编码响应变量,那么使用逻辑回归,怎么来拟合 p(X)=Pr(Y=1|x) 与 X 之间的关系?使用逻辑方程如下:
其拟合,我们使用最大似然估计的方法,后面会详细介绍。
将方程重组后我们可以得到:
左边的比值我们称之为事件的 odds,实际为默认事件发生的概率,显而易见该值取值范围在 0 ~ ∞ ,接近于 0 是表示默认事件几乎不可能发生,接近于 1 时则表明极有可能发生。在上述方程两侧取对数,则有:
此时方程的左边我们就称之为 log-odds 或 logit 。此时方程的右边为我们熟
悉的线性关系,但右侧 X 每增加一个单位,左侧则增加 e^β1 ,原因很简单,我
们的 p(X) 和 X 并非简单的直线关系,但这个变化给我们带来了很多方便。
5.2.1 估计回归系数
尽管使用非线性拟合也可以求解逻辑回归的参数,但我们通常使用更加通用
的最大似然估计,简言之,也就是找到一个最合适的β0 和β1 ,使求得的 p(x i )
尽可能的接近所有的单个观测的默认状态。
求解的函数被成为似然函数:
对 β0 和β1 求解即为得到似然函数的最大值。
具体求解过程我们可以不用头疼,因为统计软件会帮我们做,我们来看一下他的预测,这个其实和线性回归相似,他的零假设为:
如果 p 值足够小,我们就可以用上文提到的公式做预测。
5.3 多元逻辑回归
上面讲到的只是最简单的情况,也就是仅考虑变量 X 有两种观测值,我们用来预测。如同线性回归存在多元线性回归,我们的逻辑回归仍然有多元逻辑回归,也就是我们最开始举例的时候,我们可能有两个以上的编码,即:
在上面的学习过程中或许很多童鞋想问,我如果不只是求 Pr(Y = obs1|X),我还同时要求 Pr(Y = obs2|X)以及剩余的可能性 1 - Pr(Y = obs1|X) - Pr(Y = obs2|X),那该如何操作,这个是可以操作的,但我们通常使用下面要讲的判别分析来进行,此处不再展开。
就是这些内容:
领取专属 10元无门槛券
私享最新 技术干货