首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python数据建模-回归分析

主题 数据建模

我还是一次性将一些理论的知识整理完呗,大家可以选择性地看看就好,后续会找一些实例来练练。

一、分类与预测

分类与预测是预测问题的2种主要实现类型。分类指的是预测分类情况(离散属性),而预测则是建立连续值函数模型,预测给定自变量对应的因变量的值。

1. 常用预测与分类算法

1)回归分析

确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法,包括线性回归、非线性回归、logistic回归、岭回归、主成分回归、偏最小二乘回归。

2)决策树

决策树采用自顶而下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类。

3)人工神经网络

指的是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出之间关系的模型。

4)贝叶斯网络

又称为信度网络,是bayes方法的扩展,为目前不确定知识表达和推理领域较为有效的理论模型之一。

5)支持向量机

指的是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法。

2. 回归分析

常用的回归模型包括:

线性回归

非线性回归

Logistic回归

岭回归

主成分分析

可以看出,这个使用机器学习scikit-learn得到的模型的正确率为81.43%,还是蛮准的,而且过程还是感觉比较轻松的呢。

(是不是勾起了使用python建模的兴趣了哈哈哈)

这里是使用Scikit-Learn对数据进行逻辑回归分析,最重要的特征筛选有很多方法,主要包含在scikit-learn的feature_selection库中,包括:

1)简单的F检验

通过计算出各个特征的F值和p值,从而筛选变量。

2)递归特征消除(recursice feature elimination,RFE)

主要的思想就是反复的构建模型,选择出最好的特征,把特征放在一边,剩余的特征重复上述操作,直到遍历了所有特征。

3)稳定性选择(stability selection)

是一种基于二次抽样和选择算法相结合的方法,主要的思想就是在不同的数据子集和特征子集上运行特征选择算法,不断重复,最终汇总特征选择结果。

小节:

1)因篇幅有限,本文只是讲一下逻辑回归建模的一些算法,后续还会继续讲一下决策树、人工神经算法等的一些python实例;

2)本文的使用到的Scikit-Learn,是一种机器学习的建模方法,我从网上也找到了一些栗子,大家可以看一下附录提供的链接;

3)附录还有一个也是关于逻辑回归建模的另一个栗子,大家可以点击一下链接看看;

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171217G0N06N00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券