Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”

大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”

作者头像
大数据文摘
发布于 2018-05-24 10:19:02
发布于 2018-05-24 10:19:02
7860
举报
文章被收录于专栏:大数据文摘大数据文摘

摘自《数据思维》 作者:王汉生

学过统计学的同学们都知道一件事情,回归分析师数据分析的一个非常重要的模型方法。而且这些模型很可能是线性的、非线性的,也可能是参数的、非参数的,甚至是一元的、多元的,低维的、高维的,不尽相同。所以,把数据转化为价值,需要一个非常重要且精妙的思想方法:回归分析。

另外,这些都是在“术”的层面讨论回归分析。除了“术”,回归分析还有一个更高的“道”的层面。

回归分析的“道”

在这个层面,回归分析可以被抽象成为一种重要的思想。在这种思想的指引下,人们可以把一个业务问题定义成一个数据可分析问题。什么样的问题可以被看作数据可分析问题呢?只需要回答两点:第一,Y是什么;第二,X是什么。

Y,俗称因变量,即因为别人的改变而改变的变量。在实际应用中,Y刻画的是业务的核心诉求,是科学研究的关键问题。

举一个征信方面的例子。对于征信而言,业务的核心指标是什么?就是隔壁老王找我借钱,结果有两种:他还给我还是不还给我。如果还,定义老王的Y=0,这说明老王是好人;如果不还,定义老王的Y=1,这说明老王是坏人。这就是征信的核心业务诉求,即因变量Y。在这种情况下,因变量是一个取值为0-1的变量,俗称0-1变量。

而对于车险而言,业务的核心指标就是是否出险。比如隔壁老王买了我家车险,接下来12个月,他是否会出险呢?如果他出险,定义老王的Y=1,这说明老王是个马路杀手;如果他不出险,定义老王的Y=0,这说明老王是个天使。这种情况下,因变量Y又是一个取值为0-1的因变量。

对于车险而言,还有一个核心的业务指标,就是赔付金额。也就是说,一旦出险,保险公司到底要赔多少。例如,老王、老李都买了我家车险,结果这两个客户都出险了。老王属于轻微刮蹭,保险公司赔付600元。那么,对于赔付金额这个业务指标而言,老王的因变量Y=600(元)。老李在高速公路上出了一次大车祸,人和车都伤得不轻,保险公司赔付60000元。那么,老李的因变量Y=60000(元)。这种情况下的因变量,即赔付金额,是一个连续的取值为正的因变量。如果再取一个对数,那么就是一个取值可以是正负无穷的、连续的因变量。

人类医学的一个重要使命就是攻克癌症,为此,科学家需要理解不同类型癌症的形成机制。隔壁老王,还有马路对面的老李,平时看起来身体都倍儿棒,吃嘛嘛香。可是,老王得了某种癌症,而老李没有。对于这个问题,老王的因变量Y=1,表示老王是个倒霉蛋;而老李的因变量Y=0,表示老李不是倒霉蛋。因此,这又是一个取值为0-1的变量。

所以,我们可以得出结论:Y就是实际业务的核心诉求,或者科学研究的关键问题。

X是什么?

X就是用来解释Y的相关变量,可以是一个,也可以是很多个。我们通常把X称作解释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么,X到底是什么样的?

对于征信而言,我们已经讨论了,Y=0或者1,表示隔壁老王是否还钱,这是业务的核心指标。当老王找我借钱的那个时刻,我并不知道老王将来是否会还钱,也就是说,我不知道老王的Y。怎么办?我只能通过当时能够看得到的,关于老王的X,去预测老王的Y。这种预测是否会100%准确呢?答:基本不可能。但是,希望能够做得比拍脑袋准确,这是非常有可能的。为此,我们需要寻找优质的X。

举一个例子,假设老王想找我借1万元现金,我得想想,他会还吗?此时,如果知道他家境富裕,房产价值几千万元,我就不会担心他不还钱。因为如果他不还钱,可以用他的房子进行抵押。这说明充足的实物资产,尤其是可以抵押的实物资产,是有可能极大地影响一个人的还钱行为的。如果这个业务分析是正确的,那么可以定义很多X,用于描述老王的财产情况。例如,X1表示是否有房;X2表示是否有车;X3表示是否有黄金首饰可以抵押,等等。这些X都是围绕老王的实物资产设定的。

除了实物资产,老王还有哪些特征有可能影响他的还钱行为呢?如果老王月工资收入10万元,那么还款1万元,不是小菜一碟吗?相反,如果老王月工资收入1000元,估计吃饭都有问题,哪来的钱还呢?这说明老王的收入可能同他的还款行为有相关关系。那么,是否可以构造一系列的X,用于描述老王的收入情况呢?例如,可以重新定义X1是老王的工资收入;X2是老王的股票收入;X3是老王太太的收入,等等。于是,朴素的业务直觉又引导产生了一系列新的X变量,它们都是围绕老王的收入设定的。

除了实物资产、收入,老王还有什么值钱的呢?有,老王有自己在社交圈中的尊严。就像电影《老炮儿》里面的顽主六爷那样,面子老大了,不会为了万把块钱去赖账,然后让街坊邻居、同事朋友都笑话,丢不起那人。如果老王是一个这样的人,那他的还款意愿会很强烈。这个朴素的业务直觉说明,一个人的社交圈即他的社交资产是可以影响他的还款行为的。如果这个直觉是对的,那么哪些指标能刻画一个人的社交资产呢?例如,定义X1是老王的微信好友数量;X2是他的微博好友数量;X3是他的电话本上的好友数量;X4是他的QQ好友数量,等等。又可以生成一系列新的X变量,它们都是围绕老王的社交资产设定的。

由此可以看出,对于征信这个业务问题而言,简单地进行头脑风暴,就产生了许多X变量。所以,依赖于人们的想象力以及数据采集能力,可以产生成千上万,甚至上百万、上千万个X变量。有了X,也就有了Y。至此,回归分析“道”的使命已经完成,因为一个业务问题已经被定义成数据可分析问题。

回归分析的“术”

接下来,从“术”的层面探讨,回归分析还要完成什么使命。一般而言,至少对于参数化的线性回归模型来说,它要完成三个重要的使命。

使命1:回归分析要去识别并判断,哪些X变量是同Y真的相关,哪些不是。而那些不相关的X变量会被抛弃,不会被纳入最后的预测模型。因为不干活的人多了会捣蛋,即没有用的X不会提高Y的预测精度,而且会狠狠地捣蛋,拉后腿,所以必须抛弃。关于这方面的统计学论述很多,以至于统计学中有一个非常重要的领域,叫做“变量选择”。

使命2:有用的X变量同Y的相关关系是正的还是负的。也就是说,要把一个大概的方向判断出来。例如,对于老王的借贷还款行为而言,老王的股票收入同他的还款行为可能性是正相关,还是负相关?如果是正相关,那么老王的股票收入越高,还款能力越强,我越敢借钱给他;如果是负相关,那么老王的股票收入越高,说明他赌性越大,我越不敢借钱给他。

使命3:赋予不同X不同的权重,也就是不同的回归系数,进而可以知道不同变量之间的相对重要性。例如,老王、老李都找我借钱。老王每月基本工资X1=1(万元),但是股票收入X2=0。老李恰恰相反,没有基本工资,因此X1=0,但是每个月股票收入X2=1(万元)。请问哪一个还款能力更强?请注意,他们的月总收入都是1万元。但他们的还款能力恐怕是不同的。此时,如果我们能够通过数据建模,赋予X1和X2不同的权重,也就是不同的回归系数,这个问题就容易回答了。

这就是回归分析要完成的三个使命:识别重要变量;判断相关性的方向;估计权重(回归系数)。

简单总结一下。什么是回归分析?从“道”的层面而言,回归分析就是一种把业务问题定义成一个数据可分析问题的重要思想。而从“术”的层面,回归分析要完成三个重要的使命。

再举一个例子,有一次参观一家世界500强的制造企业,对方意识到,数据之于企业非常重要。因此,集团特意成立了大数据部门,购买了几百台高性能服务器,并配备所有需要的存储、软硬件环境,以及人才。

然后,数据部门的老大非常骄傲地介绍他们这个部门计算机有多牛,做了哪些有趣的分析。但是,从熊大的角度看,这些分析都是趣味性很大,可没有朴素的业务价值。

熊大终于忍不住问了一个问题:“请问,咱们大数据部门,在集团内部主要支持哪些业务部门?”对方腰板一挺,大声回答:“所有业务部门!”

大家觉得可信吗?反正我不信。企业这么大,实话实说,一定有大量的甚至大多数业务部门同数据无关,至少现在是这样。就在这时,旁边的一个业务部门的老大忍不住了,说:“不对啊,我们就觉得你们对我们支持不够!没什么支持啊!”数据部门老大很生气:“你提需求啊!只要你提需求,我都能帮你搞定。”结果业务部门老大一脸懵圈:“我提不出需求啊。”

这是一个非常典型的问题。业务部门就是数据部门的客户,可是,客户只知道自己需要数据分析支持,但是提不出需求。为什么?大家还记得回归分析的理念吗?即从道的层面帮助我们把业务问题定义为数据可分析问题。而业务部门的绝大多数人员没有受过这样的训练,因此,无法洞见自己正在操心的业务问题,其实是数据可分析的。为此,他只需要把Y定义清楚,给一些关于X的想法,剩下的事情,数据分析的小伙伴们就可以全力以赴了。

所以,从这个角度看,数据之于企业的价值,最需要被普及教育的,不是数据分析部门,而是业务部门。当然,数据分析部门也需要。只有全员都具备朴素的数据价值观,都使用同一种回归分析的语言,需求才有可能被说清楚。

本文节选自:《数据思维——从数据分析到商业价值》

中国人民大学出版社

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
3分钟,看回归分析模型怎么做
总有小伙伴想看分析模型,我们就从最简单的回归分析模型讲起。回归分析是所有分析模型里最浅显,最容易懂的,并且回归分析有很多变化形态,能适用于很多问题场景。今天就一起来看一下。
码工小熊
2021/10/25
7550
回归分析详解及matlab实现
当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法建立数学模型。如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是搜集大量数据,基于对数据的统计分析去建立模型。本章讨论其中用途非常广泛的一类模型——统计回归模型。回归模型常用来解决预测、控制、生产工艺优化等问题。
全栈程序员站长
2022/11/17
2.2K0
一元回归分析
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。
润森
2019/08/29
1.1K0
一元回归分析
机器学习中的回归分析:理论与实践
回归分析是统计学和机器学习中广泛使用的技术,主要用于建立因变量与自变量之间的关系模型。在实际应用中,回归分析不仅可以帮助我们理解数据,还能进行有效的预测。本文将深入探讨回归分析的基本概念、常用的回归算法、应用场景,以及如何使用 Python 实现回归模型。
平凡之路.
2024/10/10
1730
机器学习中的回归分析:理论与实践
MADlib——基于SQL的数据挖掘解决方案(13)——回归之逻辑回归
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/79217198
用户1148526
2019/05/25
1.4K0
数据分析之回归分析
回归,最初是遗传学中的一个名词,是由生物学家兼统计学家高尔顿首先提出来的。他在研究人类的身高时,发现高个子回归于人口的平均身高,而矮个子则从另一个方向回归于人口的平均身高。
黄成甲
2018/09/12
3.6K0
数据分析之回归分析
对比R语言和Python,教你实现回归分析
r的取值范围是[-1,1],r=1表示完全正相关!r=-1表示完全负相关!r=0表示完全不相关。
1480
2020/03/03
1.9K0
一文学会如何用Excel做回归分析
一 什么是回归分析法 “回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法: 1.根据预测目标,确定自变量和因变量 明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。 2.建立回归预测模型 依据自变
灯塔大数据
2018/04/09
2K0
一文学会如何用Excel做回归分析
回归分析
在一些问题中,常常希望根据已有数据,确定目标变量(输出,即因变量)与其它变量(输入,即自变量)的关系。当观测到新的输入时,预测它可能的输出值。这种方法叫回归分析(确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法)。
爱编程的小明
2022/09/05
9180
回归分析
多元回归分析
前面我们讲了一元线性回归,没看过的可以先去看看:一元线性回归分析。这一篇我们来讲讲多元线性回归。一元线性回归就是自变量只有一个x,而多元线性回归就是自变量中有多个x。
张俊红
2019/11/07
1.4K0
关于线性回归分析的理解
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
python与大数据分析
2022/03/11
4040
关于线性回归分析的理解
「回归分析」知识点梳理
这正是回归分析所追求的目标。它是最常用的预测建模技术之一,有助于在重要情况下做出更明智的决策。在本文中,我们将讨论什么是回归分析,它是如何工作的。
Ai学习的老章
2020/12/08
9630
「回归分析」知识点梳理
用Excel进行数据分析:回归分析
在日常数据分析工作当中,回归分析是应用十分广泛的一种数据分析方法,按照涉及自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 回归分析的实施步骤: 1)根据预测目标,确定自变量和因变量 2)建立回归预测模型 3)进行相关分析 4)检验回归预测模型,计算预测误差 5)计算并确定预测值 我们接下来讲解在Excel2007中如何进行回归分析? 一、案例场景 为了研究某产品中两种成分A与B之间的关系,现在想建立不同成分A情况下对应成分B的拟合曲线以
小莹莹
2018/04/23
1.6K0
用Excel进行数据分析:回归分析
【深度学习—线性回归预测销售额(含源码,CSV文件)】
进行程序训练之前,需已经成功安装好深度学习环境 若没有安装环境,可以参考:深度学习环境安装教程,进行环境安装。
magize
2023/07/11
1.4K1
【深度学习—线性回归预测销售额(含源码,CSV文件)】
【学习】用Excel进行回归分析
在日常数据分析工作当中,回归分析是应用十分广泛的一种数据分析方法,按照涉及自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 回归分析的实施步骤: 1)根据预测目标,确定自变量和因变量 2)建立回归预测模型 3)进行相关分析 4)检验回归预测模型,计算预测误差 5)计算并确定预测值 我们接下来讲解在Excel2007中如何进行回归分析? 一、案例场景 为了研究某产品中两种成分A与B之间的关系,现在想建立不同成分A情况下对应成分B的拟合曲线以
小莹莹
2018/04/18
1.7K0
【学习】用Excel进行回归分析
【学习】让你欲罢不能的回归分析
本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/
小莹莹
2018/04/20
1.2K0
【学习】让你欲罢不能的回归分析
[Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)
监督学习(Supervised Learning)包括分类算法(Classification)和回归算法(Regression)两种,它们是根据类别标签分布的类型来定义的。回归算法用于连续型的数据预测,分类算法用于离散型的分布预测。回归算法作为统计学中最重要的工具之一,它通过建立一个回归方程用来预测目标值,并求解这个回归方程的回归系数。
Eastmount
2021/12/02
1.3K0
[Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)
【数据分析 R语言实战】学习笔记 第九章(中)多元回归分析 回归诊断
多元线性回归分析同样由函数lm()完成,但参数formula的表达式应表示为多元形式
Ai学习的老章
2019/04/10
5.3K0
【数据分析 R语言实战】学习笔记 第九章(中)多元回归分析 回归诊断
回归分析技术|机器学习
原文:http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 回归分析是建模和分析数据的重要工具。本文
陆勤_数据人网
2018/02/28
9970
回归分析技术|机器学习
大数据数仓建模
    数据库(database)是按照数据结构来组织,存储和管理数据的建立在计算机存储设备上的仓库。     数据库是长期存储在计算机内,有组织的,可共享的数据集合。数据库中的数据指的是以一定的数据模型组织,描述和 存储在一起,具有尽可能小的冗余度,较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。     常用的数据库有mysql,oracle,sqlserver等。作用不一样,数据库是用来支撑业务(1)的,需要响应速度特别快,没 有延时,查询起来都是一条条查询,把相关的数据全部得到,适合用这种关系型数据库。数据仓库主要用来支撑分析的。 问题:公司的多个部门,对相同的数据描述会不一样,在汇总的时候会出问题。
全栈程序员站长
2022/08/23
5360
大数据数仓建模
相关推荐
3分钟,看回归分析模型怎么做
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档