机器学习之Scikit-learn篇（一）

文章来源：企鹅号 - 机器学习学社

前言

Scikit-learn是目前Python环境下最常用也是最好用的机器学习函数库。Sklean里边几乎集成了所有经典的机器学习算法，同时配以非常简单的实现语句（通常为1-2行代码）以及模式化的调参过程，使得我们可以花费更多时间在特征工程及数据处理上，并且使得我们建模的过程集中于算法比较以及模型选择上。

当然，Sklearn并不是没有他的弊端，比如过于简单的语句使得其功能相对固定，这就让我们构建定制化的模型变得相对困难。以个人经验来说，当我们需要换掉模型中的损失函数或其他一些评判方式时，我们必须从源代码中找出对应模块，然后按照源代码的方式来编写自己需要的程序。

虽然听起来很麻烦，但Sklearn还是为我们提供了非常大的便利，如果每一个算法都要由我们自己从零开始搭建的话，且不说费时费力，单单是代码的可靠性我们就已经无法保证。从这个角度来讲，Sklearn的确是目前机器学习的首选函数库。

基本语句及格式介绍

Sklearn内部有非常多的模块，每个模块的功能都很丰富，但是调用的方式却基本上是一致的。如下代码所示，我们这里边用到了Sklearn的预处理模块，用到了K-NN算法构建模型，用到了训练集及测试集分离模块等等，从中不难看出，读Sklearn的代码像是在读文章一样，一目了然且很容易get到写代码者的意图。

数据预处理

标准化

归一化

二值化

分类变量的编码

补全缺失值

创建高次幂特征

模型的构建

监督学习模型

无监督学习

构建模型

利用模型进行预测

结语

今天为大家简单介绍了Sklearn内的语句以及构建模型的流程，同时也为大家展示了Sklearn语句的格式，总体来讲是很好记忆的，具体的细节需要大家参考Sklearn的官方文档来细致的了解。

想成为一名合格的机器学习工程师吗？关注“机器学习学社”获取每天一份的新鲜咨询，为你开拓属于你自己的机器学习之路

RECOMMEND

发表于: 2019-01-252019-01-25 12:50:07
原文链接：https://kuaibao.qq.com/s/20190125G0JFOT00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

机器学习之Scikit-learn篇（一）

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐