监督学习是一种在样本知识指导下通过学习构建一个分类器(或预测模型)的方法。基于监督学习的分类分析通常分为两步:第一步是学习和训练的过程,要根据提供的带有标签的样本数据进行学习(这种标签内涵着明确的业务意义,也即常说的知识。有关样本数据的选择是另外一个非常重要的话题,暂不在此论述),构建分类器或预测模型。第二步是利用这个分类器或预测模型对其它数据进行分类和预测。
下面仍然以前面使用过的模型数据进行说明。在“机器学习理解篇之五”中,我们构建了一个原始数据集A(没有标记),通过对数据集A的聚类分析,将数据集A标记为三类,得到的聚类结果为数据集B。我们将数据集B中的三类数据分别设置为“红”、“绿”、“蓝”(也可以赋予其他含义),这里不同的颜色代表不同的意义。为了说明分类的工作原理,我们将实现思路归纳为二步:首先在数据集B中取出部分数据作为样本数据用于学习,用分类算法进行学习构建分类器,然后用该分类器对原始数据集A进行分类,检验数据集A的分类效果。
下图显示了从数据集B中抽取1/4的数据用于学习的样本数据。这里采用的监督
学习方法为贝叶斯算法。下图为利用学习构建的分类器对原始数据集A进行分类
的结果(数据集C)。可以看出,通过对样本数据的学习,可以很好的对原始数据进行分类了。当然,如果你将数据集C和数据集B进行队对比,可以发现在蓝色的分类数据集中仍有两个数据点(红色)没有得到正确的分类。其原因可能是多方面的,一方面可能是样本数据,另一方面可能是方法本身可能在某个方面的局限性。
下图是我在96年发表的一个研究成果,即通过样本学习识别某一种指定的波
形。其中左图为原始数据。中间图件中的红色箭头指示了选择的样本数据,红色矩形框中指示了要识别的波形(主要是时序数据中波峰对应的时间),右图显示了应用神经网络经学习样本后识别的结果。从中可见,指定的波形(波峰时间)得到有效的识别,取得了预期的效果。
基于“机器学习理解篇之五”和本篇的实例,可以比较容易的理解非监督学习(聚类)、监督学习(分类)的基本原理。这里再简单的小结一下,非监督学习是一个自学过程,其结果是实现聚类,其聚类的特点只是给出了标签,而不具具体意义;监督学习是一个在指导环境下的学习过程,其结果是构建分类器(实现认知),用于对其他数据(或物体)的识别(分类)。与“机器学习理解篇之六”所述类似,在实际应用中面临的挑战也是多样的。
(茶歇杂谈,见仁见智)
领取专属 10元无门槛券
私享最新 技术干货