在机器学习领域,有两种主要类型的任务:监督式和无监督式。这两种类型的主要区别在于,监督式学习是使用基础事实完成的,或者换句话说,我们事先知道样本的输出值应该是多少。
因此,监督学习的目标是学习一个函数,该函数在给定样本数据和期望输出的情况下,最接近于数据中可观察到的输入和输出之间的关系。另一方面,无监督学习没有标注输出,因此其目标是推断一组数据点中存在的自然结构。
监督学习
当我们想要将输入映射到输出标签或回归时,监督学习通常是在分类的背景下完成的,当我们想要将输入映射到连续输出时。监督学习中的常用算法包括逻辑回归、朴素贝叶斯、支持向量机、人工神经网络和随机森林。在回归和分类中,目标都是找到输入数据中的特定关系或结构,以便我们有效地生成正确的输出数据。
请注意,“正确的”输出完全取决于训练数据,因此尽管我们确实有一个基本事实,即我们的模型假设是真实的,但并不是说现实世界中的数据标签总是正确的。嘈杂或不正确的数据标签将明显降低模型的有效性。
在进行监督学习时,主要考虑的是模型复杂性和权衡方差和偏差。请注意,这两者都是相互关联的。
模型的复杂性是指你试图学习的函数的复杂性 - 类似于多项式的程度。模型复杂程度的适当水平通常取决于你的训练数据的性质。如果你的数据量很少,或者如果你的数据在各种可能的情况下不一致分布,则应选择低复杂度模型。这是因为如果在少量数据点上使用,高复杂度模型将会过度使用。过度拟合是指学习的功能非常适合你的训练数据,但不会推广到其他数据点。
换句话说,你严格学习生成训练数据,而无需了解数据中的实际趋势或结构输出。想象一下,试图在2点之间拟合一条曲线。从理论上讲,你可以使用任何程度的函数,但在实践中,你将会仔细地增加复杂性,并使用线性函数。
权衡方差和偏差也涉及模型泛化。在任何模型中,在偏差(恒定误差项)与方差之间都存在平衡,偏差是不同训练集之间误差可能变化的量。因此,高偏差和低方差将是20%时间内始终错误的模型,而低偏差和高方差模型可能在5%-50%时间范围内是错误的,具体取决于用来训练它的数据。
请注意,偏差和方差通常沿彼此相反的方向移动;增加偏差通常会导致方差降低,反之亦然。在制作模型时,你的具体问题和数据的性质应使你能够根据偏差变化谱做出明智的决定。一般而言,增加偏差(并减少方差)会导致具有相对有保证的基准性能水平的模型,这在某些任务中可能至关重要。
此外,为了生成通用性较好的模型,模型的方差应该随着训练数据的大小和复杂程度而变化,通常应该使用低方差模型和大型复杂的数据集来学习小而简单的数据集,集合通常需要更高方差的模型来充分了解数据的结构。
无监督学习
无监督学习中最常见的任务是聚类,表示学习和密度估计。在所有这些情况下,我们希望了解我们数据的内在结构,而不使用显式提供的标签。一些常用算法包括k均值聚类、主成分分析和自动编码器。由于没有提供标签,因此没有具体的方法来比较大多数无监督学习方法中的模型性能。
无监督学习的两种常见用例是探索性分析和降维。
无监督学习在探索性分析中非常有用,因为它可以自动识别数据结构。例如,如果分析师试图对消费者进行细分,那么无监督聚类方法将成为他们分析的一个很好的起点。在人们提出数据趋势是不可能或不切实际的情况下,无监督学习可以提供初始见解,然后用于检验个人的假设。
降维指的是使用较少的列或特征来表示数据的方法,可以通过无监督的方法来实现。在表示学习中,我们希望了解各个特征之间的关系,使我们能够使用与我们初始特征相互关联的潜在特征来表示我们的数据。这种稀疏的潜在结构通常比我们开始使用的功能要少得多,因此它可以使进一步的数据处理变得更加密集,并且可以消除冗余功能。
TLDR:
领取专属 10元无门槛券
私享最新 技术干货