Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >逻辑斯谛回归

逻辑斯谛回归

作者头像
hotarugali
发布于 2023-02-02 07:47:58
发布于 2023-02-02 07:47:58
3930
举报

1. 简介

逻辑斯谛回归是统计学习中的经典分类方法。

2. 逻辑斯谛分布

  • 定义:设 XXX 是连续随机变量,XXX 服从逻辑斯谛分布是指 XXX 具有下列分布函数和密度函数: F(x)=P(X≤x)=11+e−(x−μ)/γf(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2F(x) = P(X \leq x) = \frac{1}{1 + e^{-(x-\mu)/\gamma}} \\ f(x) = F^{'}(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1 + e^{-(x-\mu)/\gamma})^2} F(x)=P(X≤x)=1+e−(x−μ)/γ1​f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ​ 其中,μ\muμ 是位置参数,γ>0\gamma > 0γ>0 为形状参数。

逻辑斯谛分布的 PDF 和 CDF 函数曲线如下图所示:

3. 二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是一种分类模型,其由条件概率分布 P(Y∣X)P(Y | X)P(Y∣X) 表示,形式为参数化的逻辑斯谛分布。随机变量 XXX 取值为实数,随机变量 YYY 取值为 111 或 000,我们通过监督学习的方法来估计模型参数。

  • 定义:二项逻辑斯谛回归模型是如下的条件概率分布:P(Y=1∣x)=exp⁡(w⋅x+b)1+exp⁡(w⋅x+b)P(Y=0∣x)=11+exp⁡(w⋅x+b)P(Y = 1 | x) = \frac{\exp(w \cdot x + b)}{1 + \exp(w \cdot x + b)} \\ P(Y = 0 | x) = \frac{1}{1 + \exp(w \cdot x + b)} P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)​P(Y=0∣x)=1+exp(w⋅x+b)1​ 其中,x∈Rnx \in \mathbf{R}^nx∈Rn 为输入,Y∈{0,1}Y \in \{0, 1\}Y∈{0,1} 为输出,w∈Rnw \in \mathbf{R}^nw∈Rn 和 b∈Rb \in \mathbf{R}b∈R 为模型参数,www 为权值向量,bbb 为偏置,w⋅bw \cdot bw⋅b 表示 www 和 bbb 的内积。

对于给定实例 xxx,按照上式分别计算 P(Y=1∣x)P(Y = 1 | x)P(Y=1∣x) 和 P(Y=0∣x)P(Y = 0 | x)P(Y=0∣x),然后比较两个条件概率值,将实例 xxx 分到概率值较大的那一类。

几率:一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 ppp,那么该事件的几率是 p1−p\frac{p}{1-p}1−pp​,该事件的对数几率或 logit 函数是 logit(p)=log⁡p1−p\mathrm{logit}(p) = \log{\frac{p}{1-p}} logit(p)=log1−pp​

对于二项逻辑斯谛回归模型,其 logit 函数为

log⁡P(Y=1∣x)1−P(Y=1∣x)=w⋅x+b\log{\frac{P(Y = 1 | x)}{1 - P(Y = 1 | x)}} = w \cdot x + b log1−P(Y=1∣x)P(Y=1∣x)​=w⋅x+b

也即是说,输入 Y=1Y = 1Y=1 的对数几率是由输入 xxx 的线性函数表示的模型,即逻辑斯谛回归模型。

  • 参数估计:对于给定的训练数据集 T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\}T={(x1​,y1​),(x2​,y2​),⋯,(xN​,yN​)},其中 xi∈Rnx_i \in \mathbf{R}^nxi​∈Rn,yi∈{0,1}y_i \in \{0, 1\}yi​∈{0,1},可以应用极大似然估计法估计二项逻辑斯谛模型参数。设 P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)P(Y = 1 | x) = \pi(x), P(Y = 0 | x) = 1 - \pi(x)P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x),似然函数为 ∏i=1N[π(xi)]yi[1−π(xi)]1−yi\prod_{i=1}^N [\pi(x_i)]^{y_i} [1-\pi(x_i)]^{1-y_i}∏i=1N​[π(xi​)]yi​[1−π(xi​)]1−yi​,则对数似然函数为 L(w)=∑i=1N[yilog⁡π(xi)+(1−yi)log⁡(1−π(xi))]=∑i=1N[yilog⁡π(xi)1−π(xi)+log⁡(1−π(xi))]=∑i=1N[yi(w⋅x+b)−log⁡(1+exp⁡(w⋅x+b))]\begin{aligned} L(w) & = \sum_{i=1}^N [y_i \log{\pi(x_i)} + (1-y_i) \log{(1-\pi(x_i))}] \\ & = \sum_{i=1}^N \left[ y_i \log{\frac{\pi(x_i)}{1 - \pi(x_i)} + \log{(1-\pi(x_i))}} \right] \\ & = \sum_{i=1}^N [y_i (w \cdot x + b) - \log{(1 + \exp(w \cdot x +b))}] \end{aligned} L(w)​=i=1∑N​[yi​logπ(xi​)+(1−yi​)log(1−π(xi​))]=i=1∑N​[yi​log1−π(xi​)π(xi​)​+log(1−π(xi​))]=i=1∑N​[yi​(w⋅x+b)−log(1+exp(w⋅x+b))]​ 对 L(w)L(w)L(w) 求极大值,即可得到 www 的估计值。 −L(w)-L(w)−L(w) 即对应交叉熵损失。

这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法或拟牛顿法。

4. 多项逻辑斯谛回归

二项逻辑斯谛回归可以推广为多项逻辑斯谛回归模型,用于多类分类。假设离散型随机变量 YYY 的取值集合为 {1,2,⋯ ,K}\{1, 2, \cdots, K\}{1,2,⋯,K},那么多项逻辑斯谛回归模型是

P(Y=k∣x)=exp⁡(wk⋅x)1+∑k=1K−1exp⁡(wk⋅x),k=1,2,⋯ ,K−1P(Y=K∣x)=11+∑k=1K−1exp⁡(wk⋅x)P(Y = k | x) = \frac{\exp(w_k \cdot x)}{1 + \sum_{k=1}^{K-1} \exp(w_k \cdot x)}, k = 1, 2, \cdots, K-1 \\ P(Y = K | x) = \frac{1}{1 + \sum_{k=1}^{K-1} \exp(w_k \cdot x)} P(Y=k∣x)=1+∑k=1K−1​exp(wk​⋅x)exp(wk​⋅x)​,k=1,2,⋯,K−1P(Y=K∣x)=1+∑k=1K−1​exp(wk​⋅x)1​

其中,为了简便,wk=(wk(1),⋯ ,wk(n),b)Tw_k = (w_k^{(1)}, \cdots, w_k^{(n)}, b)^Twk​=(wk(1)​,⋯,wk(n)​,b)T,x=(x(1),⋯ ,x(n),1)Tx = (x^{(1)}, \cdots, x^{(n)}, 1)^Tx=(x(1),⋯,x(n),1)T;x∈Rn+1,wk∈Rn+1x \in \mathbf{R}^{n+1}, w_k \in \mathbf{R}^{n+1}x∈Rn+1,wk​∈Rn+1。二项逻辑斯谛回归模型的参数估计方法也可以推广到多项逻辑斯谛回归模型中。

附录

  • 《统计学习方法》by 李航
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
逻辑斯谛回归(对数几率回归)
线性回归完成了数据的拟合,我们通过引入一个sigmoidsigmoidsigmoid函数,即可在线性回归模型的基础上实现分类。
JNJYan
2019/01/18
7740
逻辑斯谛回归及其物理含义
先来看看书上逻辑斯谛回归模型的公式吧,再了解公式的情况下,我们再来谈谈它实际的物理含义。吼吼,它貌似蛮有内涵的,也是从生物学上挖过来的一条曲线吧。
用户1147447
2019/05/26
1K0
支持向量回归(Support Vector Regression)
回归的目的是得到一个能够尽量拟合训练集样本的模型 f ( x ) f(\mathbf{x}) f(x),通常用的方法是构建一个样本标签与模型预测值的损失函数,使损失函数最小化从而确定模型 f ( x ) f(\mathbf{x}) f(x)。
全栈程序员站长
2022/09/06
1.4K0
支持向量回归(Support Vector Regression)
逻辑斯谛回归模型( Logistic Regression,LR)& 最大熵模型(Max Entropy,ME)
binomial logistic regression model 是一种分类模型,由条件概率分布
Michael阿明
2020/07/13
9810
逻辑斯谛回归模型( Logistic Regression,LR)& 最大熵模型(Max Entropy,ME)
因果推断学习笔记三——Uplift模型「建议收藏」
因果推断在互联网界应用主要是基于Uplift model来预测额外收益提升ROI。Uplift模型帮助商家计算人群营销敏感度,驱动收益模拟预算和投放策略制定,促成营销推广效率的最大化。同时如何衡量和预测营销干预带来的“增量提升”,而不是把营销预算浪费在“本来就会转化”的那部分人身上,成为智能营销算法最重要的挑战。
全栈程序员站长
2022/11/15
12.6K0
图解机器学习总结——2、回归
回归指的是对于训练数据集{xi,yi}\left \{\mathbf{ x}_i,y_i \right \},其中,yiy_i是连续值。用过学习,找到函数fθ(x)f_\theta \left ( \mathbf{ x}\right ),使得:
felixzhao
2019/02/14
4600
条件随机场学习笔记
这是在《统计学习方法》中学习到的最后一个方法了,不像其他统计方法,学完精气神超足,都能让我继续振奋好几日。然学完该方法,我陷入了沉思与迷茫。首先,对条件随机场的【提出】和【应用场景】一片混沌,其次,说说它的思想吧,无非加入了【空间属性】,相比最大熵模型,多加入了【边特征函数】,而随机变量【X,Y】的联合概率分布的表达式并没有发生本质变化,所以说,它还是一个我认为的【概率模型】。既然是【概率模型】,那么它依旧可以用【对数似然函数】进行迭代求解,事实也是这样做的。但我所不解的是为何概率表达式清一色的表示为exp和规范化因子呢?难道仅仅因为exp在求导和概率计算中有很好的性质么?
用户1147447
2019/05/26
7170
【ML】支持向量机(SVM)从入门到放弃再到掌握
朋友,你通过各种不同的途经初次接触支持向量机(SVM)的时候,是不是会觉得这个东西耳熟能详,感觉大家都会,却唯独自己很难理解? 每一次你的老板或者同仁让你讲解SVM的时候,你觉得你看过这么多资料,使用过这么多次,讲解应该没有问题,但偏偏在分享的时候结结巴巴,漏洞百出? 每一次机器学习相关的面试在问到支持向量机(SVM)的时候,尽管你觉得你都准备好了,可是一次又一次败下阵来,以至于觉得问那些问题的人(是不是脑子有…)是那么的厉害,每一次都能精准发觉到你的不足和漏洞,让你怀疑你掌握的是假的SVM,然后让你怀疑人生? 那还等什么,快来看看这篇文章吧,原价998,现在只要。。。(不好意思,扯偏了。)
全栈程序员站长
2022/09/06
5740
【ML】支持向量机(SVM)从入门到放弃再到掌握
机器学习中的常见问题——损失函数
J\left ( \mathbf{w} \right )=\sum_{i}L\left ( m_i\left (\mathbf{ w} \right ) \right )+\lambda R\left ( \mathbf{w} \right )
felixzhao
2019/01/31
1.2K0
机器学习中的常见问题——损失函数
支持向量机(Support Vector Machines,SVM)
线性可分SVM学习方法,对线性不可分训练数据是不适用的,怎么将它扩展到线性不可分,需要修改硬间隔最大化,使其成为软间隔最大化。
Michael阿明
2020/07/13
2K1
支持向量机(Support Vector Machines,SVM)
【番外】负采样原理
P(y=k∣x)=exp⁡(wkTx+bk)∑jexp(wjTx+bj) =exp⁡(wkTx+bk)Z P(y=k|x) = \frac{\exp(w_k^T x + b_k)}{\sum_j exp(w_j^T x + b_j)} \\ \, \\ = \frac{\exp(w_k^T x + b_k)}{Z} P(y=k∣x)=∑j​exp(wjT​x+bj​)exp(wkT​x+bk​)​=Zexp(wkT​x+bk​)​
ApacheCN_飞龙
2019/02/15
9400
【番外】负采样原理
AdaBoost详解
对于一个复杂任务,将多个决策进行适当的综合所得出的判断,要比其中任何一个决策更为准确.
JNJYan
2019/01/18
9070
支持向量机学习笔记--原理篇(一)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014688145/article/details/52906162
用户1147447
2019/05/26
5660
感知机及其R实现
定义:假设输入空间(特征空间)是 χ ⊆ R n \chi\subseteq R^n χ⊆Rn,输出空间是 Y = { + 1 , − 1 } Y=\{+1,-1\} Y={ +1,−1}。输入 x ∈ χ x\in \chi x∈χ表示实例的特征向量,对应于输入空间的点;输出 y ∈ Y y\in Y y∈Y表示实例的类别。由输入空间到输出空间的如下函数 f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w\cdot x+b) f(x)=sign(w⋅x+b) 称为感知机。其中, w w w和 b b b为感知机模型参数, w ∈ R n w\in R^n w∈Rn叫做权值, b ∈ R b\in R b∈R叫做偏置, w ⋅ x w\cdot x w⋅x表示 w w w和 x x x的内积。 s i g n sign sign为符号函数。
全栈程序员站长
2022/09/27
2690
感知机及其R实现
朴素贝叶斯以及三种常见模型推导
朴素贝叶斯算法Naive Bayes定义中有两个关键定义:特征之间强假设独立和贝叶斯定理.这两个定义就是朴素贝叶斯的关键.接下来先了解一下这两个定义.
公众号-不为谁写的歌
2020/07/23
1.5K0
感知机(Perceptron)
感知机1957年由Rosenblatt(罗森布拉特)提出,是神经网络与支持向量机的基础。
Michael阿明
2020/07/13
1.3K0
感知机(Perceptron)
最大熵模型与GIS ,IIS算法
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014688145/article/details/55003910
用户1147447
2019/05/26
1.7K0
最大熵模型与GIS ,IIS算法
推荐系统(十四)——kdd'19动态定价方法(APP-LM,APP-DES,DNN-CL)
本文以航空服务为场景,设计了一系列动态定价方法,对于其他场景具有借鉴意义。
秋枫学习笔记
2022/09/19
1.2K0
【机器学习-监督学习】逻辑斯谛回归
  在介绍了机器学习中相关的基本概念和技巧后,本章我们继续讲解参数化模型中的线性模型。有了前文的基础,我们可以先来对KNN算法和线性回归进行比较,进一步回答“什么是参数化模型”这一问题。对于机器学习算法来说,其目标通常可以抽象为得到某个从输入空间到输出空间的映射
Francek Chen
2025/01/22
2020
【机器学习-监督学习】逻辑斯谛回归
统计学习方法(一)——统计学习方法概论
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。现在人们提到的机器学习往往是指统计机器学习。
Tyan
2019/05/25
9210
相关推荐
逻辑斯谛回归(对数几率回归)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档