统计学和机器学习是两个联系特别紧密的领域
事实上,这两者的界限有时候非常模糊。然而有一些明显属于统计学领域的方法,不仅可用于机器学习的项目,并且极具价值。公平地说,需要统计学方法来有效地完成机器学习预测建模项目。
问题架构:
这包括了问题类型的选择,例如是回归还是分类,也许还有这个问题的输入和输出的结构及类型。问题的架构并不是一直都很清晰,对于某个领域的新手,可能需要对这个领域中的观察值进行一些深入探索。
统计方法在问题的架构阶段有助于对数据的探索,其中包括:
1、探索性的数据分析。为了从数据中探索到特别的观点,从而进行的汇总和可视化。
2、数据挖掘。自动探索数据间的结构关系和模式。
数据理解:
数据理解意思是对变量的分布和变量之间的关系有一个更详细的理解。这些知识其中一部分来自于这个领域的专业知识,或者需要专业知识去解释。
用在理解数据的统计学模型的两类主流分支是:
1、汇总统计。使用统计数值来汇总变量间的分布和关系的方法。
2、数据可视化。总结变量间的分布和关系的方法需要用到可视化的方法,例如:图表,绘图和图形。
数据清洗:
虽然数据是数字化的,但存在一些过程会降低数据的精确性,反过来,后续用到数据的过程及模型也会受其影响。例如:数据破坏、数据损失、数据错误
识别和修复这些问题数据的过程也叫做数据清洗。
统计方法应用于数据清洗中例子有:
1、异常点检测。在数据分布中识别出离期望值很远的观察值的方法。
2、数据填补。修复或填补观察值中损坏或缺失数据的方法。
数据选择:
在建模时,不是所有观察值或所有变量都是相关的。减小这些元素的数据范围的操作对于做出预测值是很有用的,这个过程叫做数据选择。
应用在数据选择的两种统计学方法:
1、数据采样。从较大的数据集中系统化创建较小的代表性样本的方法。
2、特征选择。自动识别与结果变量更有相关性的变量的方法。
领取专属 10元无门槛券
私享最新 技术干货