监督学习与分类问题

原创

LucianaiB

发布于 2025-01-16 10:57:52

4210

文章被收录于专栏：AIAI

无监督学习与聚类问题：K-Means、PCA等

无监督学习是一种机器学习类型，它在没有标签数据的情况下从数据中学习结构和模式。与监督学习不同，无监督学习没有目标变量或标签，而是通过对数据本身的分析，找到数据的内在规律或潜在结构。聚类（Clustering）是无监督学习中的一种重要任务，旨在将相似的数据点分组，从而揭示数据的潜在结构。本文将详细介绍无监督学习中的聚类问题，并深入讲解常见的聚类算法：K-Means和主成分分析（PCA）。

1. 无监督学习的概述

无监督学习是一种机器学习方法，其中系统被提供大量数据，算法要通过对这些数据的分析，发现数据的结构、关系或隐藏的模式。与监督学习不同，无监督学习没有标签，数据集中的每个样本的类别是未知的。

无监督学习常见的应用包括：

聚类：将数据分组，使得同一组内的数据点相似，而不同组之间的数据点差异大。
降维：减少数据中的特征数目，同时尽可能保留数据的主要信息。

2. 聚类问题：K-Means算法

聚类是无监督学习中最重要的任务之一，它试图将数据集中的对象根据相似性进行分组。K-Means算法是最经典的聚类算法之一，它基于样本间的距离度量，将数据划分为K个簇（Cluster）。

K-Means算法原理

K-Means是一种迭代算法，通过以下几个步骤进行聚类：

初始化：随机选择K个初始中心（或称为质心）。
分配阶段：将每个数据点分配给最近的质心，形成K个簇。
更新阶段：计算每个簇的新的质心，质心为簇内所有点的均值。
迭代：重复分配和更新阶段，直到质心不再变化或达到最大迭代次数。

K-Means的优缺点

优点：
- 简单易懂，计算效率高，适用于大规模数据集。
- 对于聚类较为均匀、形状规则的数据表现良好。
缺点：
- K值需要预先指定，且不同的K值可能导致不同的结果。
- 对异常值敏感，异常点可能会影响聚类结果。
- 假设簇是球形的，且各簇之间方差相似，限制了其应用场景。

K-Means示例：使用Python进行K-Means聚类

假设我们有一个二维数据集，我们想将其分成3个簇，使用K-Means算法进行聚类。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 创建一个二维数据集
X, y = make_blobs(n_samples=300, centers=3, cluster_std=0.60, random_state=0)

# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

# 获取聚类结果
y_kmeans = kmeans.predict(X)

# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='X')
plt.title("K-Means Clustering")
plt.show()

在这个例子中，我们使用了make_blobs生成一个模拟的二维数据集，然后通过KMeans类来进行聚类。最终，我们绘制了每个数据点的颜色表示其所属的簇，并且标出了每个簇的中心点。

3. 主成分分析（PCA）：无监督的降维方法

**主成分分析（PCA）**是一种常用的无监督学习算法，主要用于数据的降维和特征提取。PCA的目标是将高维数据映射到低维空间，同时尽量保留数据的方差信息。它通过计算数据的协方差矩阵，并对其进行特征值分解，从而找出数据的主要方向（即主成分）。

PCA的原理

PCA的基本步骤如下：

中心化数据：从每个特征中减去其均值，使数据的均值为零。
计算协方差矩阵：计算数据的协方差矩阵，表示各特征之间的关系。
特征值分解：计算协方差矩阵的特征值和特征向量，特征值表示方差的大小，特征向量表示数据的主方向。
选择主成分：选择具有最大特征值的特征向量作为主成分，将数据投影到这些主成分上。

通过PCA，数据的维度可以大大减少，但仍然保留数据的大部分信息。

PCA的优缺点

优点：
- 可以有效降低数据的维度，减少计算开销。
- 去除冗余特征，提高后续分析的效率。
缺点：
- PCA假设数据呈线性关系，无法处理非线性数据。
- 结果不易解释，主成分是原始特征的加权组合，难以直接理解。

PCA示例：使用Python进行PCA降维

假设我们有一个高维数据集，使用PCA将其降到二维，并进行可视化。

from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# 加载Iris数据集
iris = load_iris()
X = iris.data
y = iris.target

# 使用PCA将数据降到2维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 绘制降维后的数据
plt.figure(figsize=(8, 6))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', edgecolor='k', s=100)
plt.title('PCA - Iris Dataset')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.colorbar(label='Target Class')
plt.show()

在这个例子中，我们首先加载了Iris数据集，并使用PCA将数据从四维降到二维。然后，我们通过散点图将降维后的数据进行可视化，颜色表示不同的鸢尾花类别。

4. 聚类与降维的结合

聚类和降维可以结合使用，PCA通常用于数据的预处理，尤其是在数据维度很高时，PCA有助于去除冗余信息并减少噪声。在降维后，K-Means等聚类算法可以更加高效地执行聚类任务。

结合PCA和K-Means的示例：

from sklearn.cluster import KMeans

# 使用PCA将数据降到2维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 使用K-Means进行聚类
kmeans = KMeans(n_clusters=3)
y_kmeans = kmeans.fit_predict(X_pca)

# 绘制结果
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='X')
plt.title("K-Means Clustering After PCA")
plt.show()

在这个例子中，我们首先用PCA将数据降到二维，然后对降维后的数据进行K-Means聚类。这样，结合PCA和K-Means的方式，可以有效地处理高维数据并进行聚类分析。

5. 总结与推荐参考

无监督学习通过分析数据的内在结构，揭示数据的潜在模式。聚类是无监督学习中的重要任务之一，K-Means算法是最常用的聚类方法之一，它通过迭代优化来将数据分成不同的簇。而**主成分分析（PCA）**是常见的降维方法，能帮助我们在保留数据大部分信息的同时减少特征空间的维度。