本文介绍机器学习的标准流程,整个机器学习步骤与数据挖掘流程前期是有部分重合的,首先数据获取,数据清洗,设定训练数据集和测试数据集合,简要过程如下:
完整机器学习步骤可以分为七部曲:
第一步:数据获取
从已有日志,数据库或者文件中收集可用历史数据,这一步非常重要,收取数据的全面性和正确性直接影响后续每一步的结果。
第二步:数据准备
将收集好的数据进行清洗,经过预处理后,进行打标签等等操作,并将收集好的数据分为训练集和测试集备用。
第三步:模型选择
根据需求目的,进行现有模型算法选择,确定是分类还是回归,选择适应于现有样本的模型算法。
第四步:学习训练
利用训练样本进行模型学习训练,不断优化模型算法参数:
第五步:模型评估
上一步完成后,得到算法的精准率和召回率,然后尽心初步的算法模型评估,将测试集应用到模型中,最终得到测试集上算法模型表现,判断是否达标。
第六步:参数优化
评估完成后,通常需要不断优化模型的表现,那么需要对现有算法模型的参数甚至超参数进行调整,然后重复训练模型并验证评估,不断提高模型的整体表现。
第七步:应用
模型优化直至可用后,将最终模型投入生产环境,进行实际项目的应用,并不断验证模型的可用性,一旦发生模型误差过大,需要及时调整模型参数,不断调优,直至恢复模型的良好表现。
实际工作中,数据的获取和数据准备统称为特征工程,此过程是极其重要和复杂的,通常占用整个项目80%以上的时间,特征工程的方法也非常多,日后会进行详细的介绍。
领取专属 10元无门槛券
私享最新 技术干货