Python数据建模-回归分析

文章来源：企鹅号 - SAMshare

主题数据建模

我还是一次性将一些理论的知识整理完呗，大家可以选择性地看看就好，后续会找一些实例来练练。

一、分类与预测

分类与预测是预测问题的2种主要实现类型。分类指的是预测分类情况（离散属性），而预测则是建立连续值函数模型，预测给定自变量对应的因变量的值。

1. 常用预测与分类算法

1）回归分析

确定预测属性（数值型）与其他变量间相互依赖的定量关系最常用的统计学方法，包括线性回归、非线性回归、logistic回归、岭回归、主成分回归、偏最小二乘回归。

2）决策树

决策树采用自顶而下的递归方式，在内部节点进行属性值的比较，并根据不同的属性值从该节点向下分支，最终得到的叶节点是学习划分的类。

3）人工神经网络

指的是一种模仿大脑神经网络结构和功能而建立的信息处理系统，表示神经网络的输入与输出之间关系的模型。

4）贝叶斯网络

又称为信度网络，是bayes方法的扩展，为目前不确定知识表达和推理领域较为有效的理论模型之一。

5）支持向量机

指的是一种通过某种非线性映射，把低维的非线性可分转化为高维的线性可分，在高维空间进行线性分析的算法。

2. 回归分析

常用的回归模型包括：

线性回归

非线性回归

Logistic回归

岭回归

主成分分析

可以看出，这个使用机器学习scikit-learn得到的模型的正确率为81.43%，还是蛮准的，而且过程还是感觉比较轻松的呢。

（是不是勾起了使用python建模的兴趣了哈哈哈）

这里是使用Scikit-Learn对数据进行逻辑回归分析，最重要的特征筛选有很多方法，主要包含在scikit-learn的feature_selection库中，包括：

1）简单的F检验

通过计算出各个特征的F值和p值，从而筛选变量。

2）递归特征消除（recursice feature elimination，RFE）

主要的思想就是反复的构建模型，选择出最好的特征，把特征放在一边，剩余的特征重复上述操作，直到遍历了所有特征。

3）稳定性选择（stability selection）

是一种基于二次抽样和选择算法相结合的方法，主要的思想就是在不同的数据子集和特征子集上运行特征选择算法，不断重复，最终汇总特征选择结果。

小节：

1）因篇幅有限，本文只是讲一下逻辑回归建模的一些算法，后续还会继续讲一下决策树、人工神经算法等的一些python实例；

2）本文的使用到的Scikit-Learn，是一种机器学习的建模方法，我从网上也找到了一些栗子，大家可以看一下附录提供的链接；

3）附录还有一个也是关于逻辑回归建模的另一个栗子，大家可以点击一下链接看看；

发表于: 2017-12-172017-12-17 22:45:52
原文链接：http://kuaibao.qq.com/s/20171217G0N06N00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python数据建模-回归分析

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐