本节开始一个全新的系列,是整套 Python 第四阶段 (最后一阶段) 的课。我把整套知识体系分成四个模块:
在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理,如下图从其官网的截屏。
要使用上述六大模块的方法,可以用以下的伪代码,注意 import 后面用的都是一些通用名称如 SomeClassifier, SomeRegressor, SomeModel,具体化的名称由具体问题而定,比如
上面具体化的例子分别是随机森林分类器、线性回归器、K 均值聚类、主成分分析、网格追踪法、独热编码。
本此课程用以下思路来讲解:
先介绍 Sklearn,从其 API 设计原理出发分析其五大特点:一致性、可检验、标准类、可组合和默认值。最后再分析 Sklearn 里面自带数据以及储存格式。
再介绍机器学习,从定义出发引出机器学习四要素:数据、任务、性能度量和模型。
最后介绍 Sklearn 里面的三大核心 API,包括估计器、预测器和转换器。此内容最重要,几乎所有模型都会用到这三大 API。
估计器
预测器
转换器