首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

风险建模的“利器”(1)

请大家关注我的公众号“数据风控和模型那些事”,如有错误或遗漏或约稿请留言给我。如需转载请注明原作者及出处,正文不建议修改,正文标题前的闲扯部分请随意。

风险模型浅谈(八)

风险建模的“利器”(1)

上期传送门

“工欲善其事必先利其器”,也就说为了建模,我们要有好用的数据模型,为了避免像上一篇那样一篇拖拖拉拉讲那么久,我将会把模型的讲解分成了两部分,分别是模型和建模,说白了他们分别就是,我们之前提到的下图的F和(x,p)

其实现在被用烂的人工智能、深度学习、大数据等从本质上来说就是一个建模(建立数学模型)的过程,而这个建模,不是发明一个新模型,而是在业务场景下,“发现或找到”合适的模型、以及模型对应的自变量和所需的必要参数。

图片中的Y,我们已经在第七篇中有过比较详细的介绍了。

其实各种数学模型,已经被各类书刊和文章讲烂了,我也不打算再卖弄,万一哪里说错,反倒被大家耻笑。我打算换个角度去讲模型,一个是模型演变的历史脉络,一个是模型的应用范围和局限。跟传统的各类书籍和文章机械的介绍数学原理相比,我选的这两个话题作用非常明显,简史可以用来吹牛,应用可以帮助我们再合适的场景下选择合适的方法。

简明模型史

目前在我们行业中主要用来建模的数学工具,按照在历史长河中出现时间顺序,如下排列:

线性回归

(Ordinary Linear Regression)

线性回归是研究一个和多个变量和另一个连续型随机变量相关关系的模型。我找了好久,感觉到底是谁第一个使用了线性模型,已经无法考证,但是第一个使用最小二乘估计(Least Square Estimator)还是可以找到的。我们平时说的线性回归其实就是用了最小二乘估计法进行参数估计的一种模型。

(维基百科)

The least-squares method is usuallycredited toCarl Friedrich Gauss(1795),but it was first published byAdrien-Marie Legendre(1805).

Carl Friedrich Gauss(1777-1855)

Adrien-Marie Legendre(1752-1833),我不知道为什么维基百科上这人的照片这么写意

基于最小二乘估计的线性回归有一个很好听的名字“BLUE” (Best Least Unbiased Estimator),因为它是有很多优良的性质,但是也有一些类似极致敏感等一些缺点。

从机器学习的角度来看,统计学家们说的“Estimator”,其实是解决一个损失函数的最优求解问题。为了改进最小二乘估计,有很多科学家都提出了很多改进的Estimator,其中比较有名的有,岭估计(Ridge Estimator),LASSO(Least absolute shrinkage and selection operator),弹性网(elastic net)。这几种方法对应的相关关系及损失函数的变化,见下图

这里的需要强调的时候,这些新研发的方法,并不是“一致优”,而是在某些特定应用场景下会比之前的方法好。只不过有时身边的场景通常“恰巧”是那些“特定”的应用场景,给我产生了“一致优”的幻觉。

逻辑回归

(Logistic Regression)

在回归分析的实际的应用中,大家逐渐发现我们的分析目标不总是一个连续型的变量,在更多的时候更可能是一个二元的结果,如,好人|坏人,下雨|不下雨,等等。于是下面这个大神就出场了,

Cox, DR (1958). "The regression analysis of binary sequences (with discussion)".J Roy Stat Soc B.20: 215–242.JSTOR2983890.

David Cox(1924-)

逻辑回归后面我们还会详细说,这里不赘述。

梯度提升

(Gradient Boosting)

在回归分析和决策树(没找到具体的发明人)在分析领域得到广泛的应用后,由于这两种在表面看起来很简单的数据模型,在很多时候没法“更精确的”描述实际场景。很多将简单的模型通过一定的规则进行组合的思想或方法被科学家们提出来,Gradient Boosting就是其中的佼佼者。

Gradient boostingis a machine learning technique for regression and classification problems, which produces a prediction model in the form of an ensemble of weak prediction models, typically decision trees. It builds the model in a stage-wise fashion like other boosting methods do, and it generalizes them by allowing optimization of an arbitrary differentiable loss function.

The idea of gradient boosting originated in the observation byLeo Breiman[1]that boosting can be interpreted as an optimization algorithm on a suitable cost function.

Leo Breiman(1928-2005),第一个有彩色照片的

集成学习(Ensemble Learning)

集成学习说白了就是把好多相对简单的模型(也叫做学习器、分类器)通过一定的规则聚合起来,形成“三个臭皮匠、顶个诸葛亮”、“一支竹竿呦,难度汪洋海,众人划桨哟,开动大帆船”的效果。除了Gradient Boosting以外,还有自助聚合(Bagging),堆叠(Stacking),贝叶斯最优分类器(Bayes Optimal Classifier)等等

梯度提升决策树

(Gradient Boosting Decision Tree)

1999年,下面这个慈祥的老爷爷首次提出了GBM的概念

Jerome H. Friedman(1939-)男神必须高清大图

Friedman, J. H. "Greedy Function Approximation: A Gradient Boosting Machine." (February 1999)

老爷子现在还在斯坦福任教(貌似),所以有机会还是可以去膜拜。

另外除了GBDT以外,近两年的相关方法的推动者中终于出现了华人的身影。

Tianqi Chen. XGBoost: A Scalable Tree Boosting System. KDD, 2016.

还有微软为开源社区贡献的LightGBM

同GBDT相比,xgBoost和LightGBM主要有一下几点改进:

对损失函数Loss Funtion的搜索算法进行改进;

增加了模型复杂度函数(正则化函数);

加入了并行计算框架以改进搜索速度。

现在市面绝大多数号称人工智能大数据的公司对于正常数据源(声音、文字、图像除外)的处理应该就到此为止了。

今天先到这里了,求转发,求点广告!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180410G1J4P000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券