✕
✕
前言
✕
✕
Scikit-learn是目前Python环境下最常用也是最好用的机器学习函数库。Sklean里边几乎集成了所有经典的机器学习算法,同时配以非常简单的实现语句(通常为1-2行代码)以及模式化的调参过程,使得我们可以花费更多时间在特征工程及数据处理上,并且使得我们建模的过程集中于算法比较以及模型选择上。
当然,Sklearn并不是没有他的弊端,比如过于简单的语句使得其功能相对固定,这就让我们构建定制化的模型变得相对困难。以个人经验来说,当我们需要换掉模型中的损失函数或其他一些评判方式时,我们必须从源代码中找出对应模块,然后按照源代码的方式来编写自己需要的程序。
虽然听起来很麻烦,但Sklearn还是为我们提供了非常大的便利,如果每一个算法都要由我们自己从零开始搭建的话,且不说费时费力,单单是代码的可靠性我们就已经无法保证。从这个角度来讲,Sklearn的确是目前机器学习的首选函数库。
基本语句及格式介绍
Sklearn内部有非常多的模块,每个模块的功能都很丰富,但是调用的方式却基本上是一致的。如下代码所示,我们这里边用到了Sklearn的预处理模块,用到了K-NN算法构建模型,用到了训练集及测试集分离模块等等,从中不难看出,读Sklearn的代码像是在读文章一样,一目了然且很容易get到写代码者的意图。
数据预处理
标准化
归一化
二值化
分类变量的编码
补全缺失值
创建高次幂特征
模型的构建
监督学习模型
无监督学习
构建模型
利用模型进行预测
结语
今天为大家简单介绍了Sklearn内的语句以及构建模型的流程,同时也为大家展示了Sklearn语句的格式,总体来讲是很好记忆的,具体的细节需要大家参考Sklearn的官方文档来细致的了解。
想成为一名合格的机器学习工程师吗?关注“机器学习学社”获取每天一份的新鲜咨询,为你开拓属于你自己的机器学习之路
RECOMMEND
领取专属 10元无门槛券
私享最新 技术干货