主题 数据建模
我还是一次性将一些理论的知识整理完呗,大家可以选择性地看看就好,后续会找一些实例来练练。
一、分类与预测
分类与预测是预测问题的2种主要实现类型。分类指的是预测分类情况(离散属性),而预测则是建立连续值函数模型,预测给定自变量对应的因变量的值。
1. 常用预测与分类算法
1)回归分析
确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法,包括线性回归、非线性回归、logistic回归、岭回归、主成分回归、偏最小二乘回归。
2)决策树
决策树采用自顶而下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类。
3)人工神经网络
指的是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出之间关系的模型。
4)贝叶斯网络
又称为信度网络,是bayes方法的扩展,为目前不确定知识表达和推理领域较为有效的理论模型之一。
5)支持向量机
指的是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法。
2. 回归分析
常用的回归模型包括:
线性回归
非线性回归
Logistic回归
岭回归
主成分分析
可以看出,这个使用机器学习scikit-learn得到的模型的正确率为81.43%,还是蛮准的,而且过程还是感觉比较轻松的呢。
(是不是勾起了使用python建模的兴趣了哈哈哈)
这里是使用Scikit-Learn对数据进行逻辑回归分析,最重要的特征筛选有很多方法,主要包含在scikit-learn的feature_selection库中,包括:
1)简单的F检验
通过计算出各个特征的F值和p值,从而筛选变量。
2)递归特征消除(recursice feature elimination,RFE)
主要的思想就是反复的构建模型,选择出最好的特征,把特征放在一边,剩余的特征重复上述操作,直到遍历了所有特征。
3)稳定性选择(stability selection)
是一种基于二次抽样和选择算法相结合的方法,主要的思想就是在不同的数据子集和特征子集上运行特征选择算法,不断重复,最终汇总特征选择结果。
小节:
1)因篇幅有限,本文只是讲一下逻辑回归建模的一些算法,后续还会继续讲一下决策树、人工神经算法等的一些python实例;
2)本文的使用到的Scikit-Learn,是一种机器学习的建模方法,我从网上也找到了一些栗子,大家可以看一下附录提供的链接;
3)附录还有一个也是关于逻辑回归建模的另一个栗子,大家可以点击一下链接看看;
领取专属 10元无门槛券
私享最新 技术干货