统计和机器学习是两个密切相关的领域。两者之间的界线有时会非常模糊。然而,有些方法显然属于统计领域,不仅在机器学习项目中有用,而且在其他领域中也非常有价值。可以说,通过机器学习预测建模项目可以有效地选择工作需要的统计方法。
了解问题
预测模型中最具影响力的环节也许就是了解问题。这是问题类型的选择,例如回归或分类,也许是问题的输入和输出的结构和类型。了解问题一开始可能有点难度,数据分析对于这个领域的新手来说,可能需要对该领域内的预测内容进行重大探索。
可以在搭建问题框架时期协助探索的统计方法包括数据探索,还可以使用摘要和可视化来构建数据分析的临时视图。最后,进行模式分析,从而发现数据中的结构化关系和模式。
理解数据
理解数据分析意味着要对变量的分布和变量之间的关系有充分的了解。这可能需要来自数据分析领域的专业知识才能进行解释。无论哪种方式,数据分析研究领域的专家和新手都将从实际处理过程中的实际观察结果中受益。摘要数据是了解统计数据的其中一个方面,这是使用统计量总结变量分布和关系的方法之一。
此外,还有数据可视化技术,使用图表,图表和图形等可视化方法总结变量之间的分布和关系的方法。
数据清理
在现实世界中,数据是杂乱无章的。尽管数据是数字化的,但它可能会受到破坏数据保真度的处理,进而可能会影响到利用该数据作的任何下游处理或模型。数据分析的实例包括有数据丢失和数据损坏。此外,还有用于纠正数据问题的方法,其中两个典型的示例是异常值检测和估算。离群值是远远超出标准的数据值,而插补正在取代缺失值。
资料选择数据分析
几乎没有数据处于模型就绪状态。数据分析通常需要进行转换,以更改数据的形式或结构,使其更适合于所选择的问题框架或学习算法。使用统计方法进行数据准备的时候,缩放和编码是其中两个步骤。缩放包括标准化和规范化,而经常使用的编码方法是独热编码。
评估模型
预测建模问题的重要方法是评估的手段。数据分析师对于在模型训练期间未看到的数据分析过程进行预测时,通常需要估计模型的技能。一般情况下,计划训练和评估预测模型的过程称为实验设计。在实施实验设计时,使用正确的方法对数据集进行重新采样,以便顺利地利用可用数据,从而估算模型的技能。例如,有重采样方法。这些方法用于系统地将数据集拆分为子集,以训练和评估预测模型。数据分析
模型调整
机器学习模型通常会具有一组超参数,这些超参数使学习方法可以针对特定问题进行特殊设计。本质上,超参数的配置通常是具有经验性的,需要大量的实验才能评估不同超参数值对模型技能的影响。使用两个统计子域首先就是对不同的超参数配置之间的结果进行解释和比较,其次是统计假设检验和估计统计。数据分析
选择模型
对于给定的问题可能有许多模型,选择一种方法作为解决方案的过程称为模型选择。这可能涉及项目利益相关者的一套标准,也包括对问题评估方法的技能的详细解释。与模型调整相似,出于模型选择的目的,数据分析可以使用两类统计方法来解释不同模型的估计技能:统计假设检验和估计统计。
评分模型
选定了最终模型后,可以在部署模型以对实际数据进行实际预测之前,与其他团队成员共享该模型,呈现最终模型的其中一部分涉及呈现模型的相关技能。估计统计数据域中的方法可用于通过使用容差区间和置信区间来量化机器学习模型的估计技能中的不确定性,对模型评分包括估计统计,这些是量化模型技能中不确定性的方法。
模型预测
最后,当我们要确定分析最终模型以预测新数据时,我们还不知道实际结果。作为进行预测的一部分,量化预测的置信度很重要。与模型表示过程类似,我们可以使用估计统计数据领域中的方法来量化此不确定性,例如置信区间和预测区间,数据分析师需要的能力你了解了吗?
领取专属 10元无门槛券
私享最新 技术干货