Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >PCA算法原理及实现

PCA算法原理及实现

作者头像
guichen1013
发布于 2020-08-13 07:39:42
发布于 2020-08-13 07:39:42
1.2K00
代码可运行
举报
文章被收录于专栏:海边的拾遗者海边的拾遗者
运行总次数:0
代码可运行

导读

今天是该系列第十篇文章,介绍PCA原理及实现。

众所周知,PCA(principal component analysis)是一种数据降维的方式,能够有效的将高维数据转换为低维数据,进而降低模型训练所需要的计算资源。

以上是比较官方的说法,下面是人话(正常人讲的话)版。

pca就是一种能够有效压缩数据的方法!打个不太准确的例子:我们现在有一个描述人的健康状况的数据:(年龄,身高,体重,地区,血压,心率,肺活量,体温,体脂),也就是说(年龄,身高,体重,地区,血压,心率,肺活量,体温,体脂)这些东西是特征,而这些特征对应的标签是健康状况:健康/亚健康/不健康。那么pca就是通过一些方法,将这9个特征压缩到只有4个,3个甚至更少的特征(暂且称之为x1, x2, x3, x4),但是我们仍能用这些特征来准确预测它们对应的健康状况。

在这里补充一下,在数学/机器学习中,我们会把特征抽象为向量,比如上面提到的健康状况的数据:(年龄,身高,体重,地区,血压,心率,肺活量,体温,体脂),我们会抽象为(18, 180, 70, 广东, 100, 80, 5000, 37, 0.1), 其中地区这一项显得与众特别,毕竟其他的维度都是数值,就它是文字。我们把这样的维度称为类别,因为它是在有限的选项中选出来的(从世界上所有的地区中取一个),在计算机中表示这样的信息,我们可以有很多方式,但是为了简化难度,这边我就暂且不搞,直接把这一列删掉。于是乎我们的数据(其实就是向量!)就是(18, 180, 70, 100, 80, 5000, 37, 0.1),值得一提的是,这样的一个数据是属于一个实体的(也就是说这是描述一个人的健康状况的),在机器学习中,我们倾向于将一个实体的数据排成一列,也就是(18, 180, 70, 100, 80, 5000, 37, 0.1)^T(转置)。

本文要介绍的目录为

  • 使用PCA的必要性
  • PCA的本质
  • 前置知识的介绍
  • PCA的数学原理
  • PCA的思想
  • PCA的实现

使用PCA的必要性

前面说了,pca就是将高维(很多列属性)数据转换为低维(较少列)数据的方法,同时保留大部分信息(可以用保留的信息准确预测)。但是我们可能会想:如果我不压缩的话,那我不就可以有100%的数据吗?我闲着没事干压缩干哈?其实我一开始使用的时候也有这样的疑惑,因为我一开始是用在图像上的,而一个图像只有500多个维度(列)的数据,使用pca压缩到100列可以保存原始数据95%的信息,但是我发现我用压缩的数据和不压缩的数据对模型的训练速度并没有什么影响。。。但是后来我做其他一些有500000维度的数据的时候,发现使用pca将维度降到5000就能保存接近98%的数据,而且训练速度可以提升数十倍!于是我就成了pca的脑残粉了。。。所以pca在应对高维度数据的时候是有奇效的!它不仅可以有效减少训练时间而且还可以防止过拟合,前面一点上文已给出原因,防止过拟合在下文给出。

PCA的本质

其实pca的本质很简单,上面也有说,就是将高维度数据转换到低维度,不过在这里为了让大家能够有所体会,我使用2维数据降到1维在解释这点。

如上图所示,假设我们的原始数据A, B, C是在直角坐标系中的三个点,它们的坐标分别为A(x_a, y_a), B(x_b, y_b), C(x_c, y_c),那么我们现在想要使用pca,将这三个在平面上的点降维到直线上(也就是上图中黄色的线上)。那么现在的问题就是:

  • 平面中的A, B, C点(高维数据)可以通过怎样的映射关系降维到黄线上(也就是高维的数据如何在低维中表示)。
  • 这条黄线(就是低维)怎么求/确定?

前置知识的介绍

对于上面提到的题一个问题(如何将高维度数据映射到低维度中),我们需要先知道数据点如何被表示。

这看起来似乎是一个很蠢的问题,因为答案貌似很简单,比如图xx中的点ABC不就是A(x1, y1), B(x2, y2), C(x3, y3)吗?对滴!这个答案是没有问题的,但是这样的答案并不具有普遍性,也就是说如果我们的坐标系发生了变化(类比直角坐标系变化到极坐标系),那就不能再用(x, y)这样的形式进行表示了,那么我们这里需要更加普遍的方法。

我先说答案,再说为什么是这个答案~。答案就是通过坐标系的基向量来表示数据(向量)。如图所示,我们取i和j作为基向量(在这里i的坐标为(1,0), j的坐标为(0, 1)),那么数据A(1, 2),就可以表示为(1*i, 2*j)。于是我们把这个问题拓展开来,二维上的数据点可以通过(基向量i*数据点在基向量i上的投影长度,基向量j*数据点在基向量j上的投影长度)表示,那么三维上的数据点也可以用这样的方式,于是乎n(n>=2)维上的点可以表示为:(基向量i*数据点在基向量i上的投影长度,基向量j*数据点在基向量j上的投影长度,…,基向量n * 数据点在基向量n上的投影长度),于是乎我们这个子问题就解决了,即找到了一种在不同维度坐标系下表示数据的方法。

PCA的数学原理

那么接下来的问题就是,我们如何把一个数据点从一个维度转变到另一个维度。

在解决这个问题之前,我们先用矩阵描述一下上一个问题,比如我们现在基向量为(0,1)和(1,0)的坐标中表示(3,2),则可以写作为:

假设我们现在有一个新的坐标系,这个坐标系的基向量 i 和 j 在普通平面直角坐标系中的表示是(0, -1)和(1, 0),(其实就是普通直角坐标系顺时针旋转90度), 如下图所示(黑色为新的坐标系):

A点在普通直角坐标系中为(3, 2),在新的直角坐标系中为(-2, 3)。新的坐标(-2, 3)可以通过以下方式计算:

于是乎我们找到了二维空间下数据变换的方式:

新的基向量矩阵 * 原基向量矩阵的转置 * 原数据向量 = 新的数据向量

也就是说我们想要将高维数据转换为低维数据可以通过:

低维空间的基向量矩阵 * 高维空间的基向量矩阵的转置 * 高维数据向量 = 低维数据向量

而参考上图,我们可以知道‘高维空间的基向量矩阵的转置 * 高维数据向量’是等于高维数据向量本身的,于是乎可以得到:

低维空间的基向量矩阵 * 高维数据向量 = 低维数据向量(此处应有数学公式)

接下来我们解决第二个大问题,也就是如下这条黄线(就是低维)怎么求/确定?

PCA的思想

这样要确定低维,要么就要给出标准,也就是什么样的低维是好的?

在这里先确定两个标准,稍后解释为什么确定这两标准:

  • 不同特征之间的方差尽可能大。
  • 不同特征之间的协方差等于0。

设立这两个标准的原因是这样的:

先做一个前提假设哈!

假设我们现在有两个样本(在这个例子中就是两个人),他们的健康状况如下:

好了,我要来解释了。

第一个标准的解释其实不算太难,假设我们现在要处理上面的数据,也就是要将小王和老丁的数据的进行降维,而他们的健康数据包含9个特征(健康水平是算作label而不是特征X,相当于y=f(X)中的y), 理想状态是每个特征描述的东西都是完全不同的(因为特征描述的是对象的特性,如果两个特征描述的东西很类似甚至可以被代替,那就浪费了大把的计算资源了。比如说现在有这样两个特征,第一个特征是:是否为男性,第二个特征是:是否为女性。如果第一个特征为真,则第二个特征必定为假,也就是这两个东西描述的都是同一个特性,就是性别),也就是说在原始数据中,不同的特征它们之间的方差应该是很大的(可以理解为方差越大,这两个东西越不同)。而每个特征之间我们希望降维之后它们也和原来的数据一样,不同的特征之间保持有大的方差,于是乎就有了第一个标准:不同特征之间的方差尽可能大。

第二个标准的解释其实和第一个标准是类似的,只不过形式不同。上面说过了,我们是希望原数据中不同的特征降维后还是不同,而希望它们不同就等价于说它们之间不相关,而协方差就是用来衡量两个特征之间的相关程度的,当协方差等于0的时候,就说明这两个特征之间是无关的。所以就有了这个标准:不同特征之间的协方差等于0。

好了!现在我们已经有了处理标准了,接下来我们就要把这个标准给抽象化(就是写成数学公式)方便我们计算!

我重新上面的数据贴出来:

写成向量的形式

让我们先写出标准1的公式吧:

其中X就是一个特征的数据,用我们上面的例子来说,假设X是身高,则X为(180, 175),则/mu就是177.5,m等于2,于是就求得Var(X) = xxx,同样的道理可以用来算年龄呀,血压呀,心率呀啥的。

这里有个技巧,就是我们先对X进行处理,就是将其减去它的均值:X = X - /mu,于是乎我们的公式就变成了:

标准2的公式如下:

我们用上面的技巧,于是乎我们的公式就变成了:

现在我们把这两个标准给写成数学的公式了,这样我们就可以用计算机来算了。但是这两个公式是分开的。。(就是说他们是两个公式),这样并不太方便于我们计算,我们要像个办法把他们组合起来,这样优化起来才能”联动”。在这里我介绍一个矩阵,叫做协方差矩阵:

可以发现,这个矩阵的正对角线就是我们的标准1,也就是方差,而其他的位置则为协方差。所以我们的目的就是使得协方差的位置为0,然后选取方差最大的值(选取方差最大的值可能有点疑惑,是这样的:我们的特征矩阵X是可以有很多特征的,比如年龄,血压,心率,肺活量等等,而方程右边的a和b就是这些特征中的一个,那么势必有些特征的方差比较大,有些特征的方差比较小。而那些方差比较小的特征我们就觉得它们没有那么好的区分效果,而那些方差大的就觉得它们有很好的区分效果,于是乎就把它们选中)。

于是乎我们的目标就变成了,通过优化方法,使得协方差矩阵对角化(就是非对角线的位置值为0)。接下来是很简单的数学推导了。

假设我们最终的协方差矩阵(就是上面说的对角化后的矩阵)为D,X为我们的特征矩阵,C为我们特征矩阵X的协方差矩阵,我们要找到一个矩阵P,使得我们的X特征矩阵可以变成D矩阵。

也就是说,我们现在的目标就变成了找到一个矩阵P,使得矩阵以上等式成立。这里需要一丢丢线性代数的知识,主要是关于实对称矩阵的知识,但是这里就不说啦!

最后我们就可以得到矩阵P,这个矩阵P是由我们的特征X矩阵找到的,你也可以理解为它蕴含着我们X矩阵的信息,而这些信息的重要性是越往上的越重要,比如:

则第一行中的(0.2 0.3)的重要性要高于第二行的(0.4 0.2),然后我们想将我们的数据降到一维度,则:

其中X是原始特征,newX是降维后的特征,而(0.2 0.3)就是我们P矩阵的第一列。从之前的知识可以知道,我们是将X矩阵降维到一维。

PCA的实现

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

定义一个均值函数。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#计算均值,要求输入数据为numpy的矩阵格式,行表示样本数,列表示特征    
def meanX(dataX):
    return np.mean(dataX,axis=0)#axis=0表示依照列来求均值。假设输入list,则axis=1

开始实现pca的函数:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def pca(XMat, k):
    """
    XMat:传入的是一个numpy的矩阵格式,行表示样本数,列表示特征    
    k:表示取前k个特征值相应的特征向量
    finalData:指的是返回的低维矩阵
    reconData:相应的是移动坐标轴后的矩阵
    """
    average = meanX(XMat) 
    m, n = np.shape(XMat)
    data_adjust = []
    avgs = np.tile(average, (m, 1))
    data_adjust = XMat - avgs
    covX = np.cov(data_adjust.T)   #计算协方差矩阵
    featValue, featVec=  np.linalg.eig(covX)  #求解协方差矩阵的特征值和特征向量
    index = np.argsort(-featValue) #依照featValue进行从大到小排序
    finalData = []
    if k > n:
        print("k must lower than feature number")
        return
    else:
        #注意特征向量时列向量。而numpy的二维矩阵(数组)a[m][n]中,a[1]表示第1行值
        selectVec = np.matrix(featVec.T[index[:k]]) #所以这里须要进行转置
        finalData = data_adjust * selectVec.T 
        reconData = (finalData * selectVec) + average  
    return finalData, reconData

到这里整个流程基本就结束了~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 海边的拾遗者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
简单易学的机器学习算法——主成分分析(PCA)
       对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系,例如函数
felixzhao
2019/02/13
9240
简单易学的机器学习算法——主成分分析(PCA)
PCA 的数学原理和可视化效果
本文结构: 什么是 PCA 数学原理 可视化效果 ---- 1. 什么是 PCA PCA (principal component analysis, 主成分分析) 是机器学习中对数据进行降维的一种方法。 例如,我们有这样的交易数据,它有这几个特征:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额),从经验可知,“浏览量”和“访客数”,“下单数”和“成交数”之间会具有较强的相关关系。这种情况下,我们保留其中的两个维度就可以保证原有的信息完整。 但是当我们在做降维的时候,会丢失掉一部分信息。 例如,
杨熹
2018/04/03
9820
PCA 的数学原理和可视化效果
算法理论+实战之PCA降维
如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,在这简单的先捋一捋, 常见的机器学习算法:
lyhue1991
2020/07/20
1.3K0
算法理论+实战之PCA降维
机器学习算法(四)之PCA降维算法理论
PCA降维又称为主成分分析法,顾名思义找到数据中的主要成分,用数据的主要特征对数据进行限定。举一个直接的例子如下:
千与编程
2023/04/28
3420
机器学习算法(四)之PCA降维算法理论
主成分分析(PCA)原理总结
    主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。
刘建平Pinard
2018/08/14
1.1K0
主成分分析(PCA)原理总结
教程 | 从特征分解到协方差矩阵:详细剖析和实现PCA算法
选自deeplearning4j 机器之心编译 参与:蒋思源 本文先简要明了地介绍了特征向量和其与矩阵的关系,然后再以其为基础解释协方差矩阵和主成分分析法的基本概念,最后我们结合协方差矩阵和主成分分析法实现数据降维。本文不仅仅是从理论上阐述各种重要概念,同时最后还一步步使用 Python 实现数据降维。 首先本文的特征向量是数学概念上的特征向量,并不是指由输入特征值所组成的向量。数学上,线性变换的特征向量是一个非简并的向量,其方向在该变换下不变。该向量在此变换下缩放的比例称为特征值。一个线性变换通常可以由其
机器之心
2018/05/09
4.8K0
教程 | 从特征分解到协方差矩阵:详细剖析和实现PCA算法
pca主要成分分析_通俗易懂的俗语
转载自:http://blog.codinglabs.org/articles/pca-tutorial.html
全栈程序员站长
2022/11/03
2530
pca主要成分分析_通俗易懂的俗语
三个主要降维技术对比介绍:PCA, LCA,SVD
随着数据集的规模和复杂性的增长,特征或维度的数量往往变得难以处理,导致计算需求增加,潜在的过拟合和模型可解释性降低。降维技术提供了一种补救方法,它捕获数据中的基本信息,同时丢弃冗余或信息较少的特征。这个过程不仅简化了计算任务,还有助于可视化数据趋势,减轻维度诅咒的风险,并提高机器学习模型的泛化性能。降维在各个领域都有应用,从图像和语音处理到金融和生物信息学,在这些领域,从大量数据集中提取有意义的模式对于做出明智的决策和建立有效的预测模型至关重要。
deephub
2023/10/09
1.5K0
三个主要降维技术对比介绍:PCA, LCA,SVD
降维方法(一):PCA原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 PCA的作用 你手上有一批数据,但是特征太多,你感觉数据太稀疏了 你选了一堆特征,但是感觉某些特征之间的相关性太高了,比如用户月消费预测的时候,你选了用户身高以及用户性别这两个特征,一般男生的身高比较高,你觉得特征有点冗余 你的小霸王内存不够,内存只有4个G,装不下太大的矩阵,但是你又不想减少训练数据,N
智能算法
2018/04/02
1.6K0
降维方法(一):PCA原理
PCA降维推导
Principal Component Analysis (PCA) 主成分分析,是多变量分析中最老的技术之一,PCA来源于通信中的K-L变换。1901年由Pearson第一次提出主成分分析的主要方法,直到1963年Karhunan Loeve对该问题的归纳经历了多次的修改。 它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多 的原数据点的特性。通俗的理解,如果把所有的点都映射到一起,那么几乎所有的信息 (如点和点之
Pulsar-V
2018/04/18
9970
PCA降维推导
PCA详解
对于数组和Series而言,维度就是shape返回的数值shape中 返回了几个数字,就是几维。
皮大大
2021/03/02
1.7K0
数据挖掘实战:PCA算法
PCA 算法也叫主成分分析(principal components analysis),主要是用于数据降维的。 为什么要进行数据降维?因为实际情况中我们的训练数据会存在特征过多或者是特征累赘的问题,比如: 一个关于汽车的样本数据,一个特征是”km/h的最大速度特征“,另一个是”英里每小时“的最大速度特征,很显然这两个特征具有很强的相关性 拿到一个样本,特征非常多,样本缺很少,这样的数据用回归去你和将非常困难,很容易导致过度拟合 PCA算法就是用来解决这种问题的,其核心思想就是将 n 维特征映射到 k 维上
机器学习AI算法工程
2018/03/12
1.5K0
数据挖掘实战:PCA算法
pca
混乱的数据中通常包含三种成分:噪音、旋转和冗余。在区分噪音的时候,可以使用信噪比或者方差来衡量,方差大的是主要信号或者主要分量;方差较小的则认为是噪音或者次要分量;对于旋转,则对基向量进行旋转,使得信噪比或者方差较大的基向量就是主元方向;在判断各个观测变量之间是否冗余时,可以借助协方差矩阵来进行衡量和判断。
pydata
2018/08/02
8650
pca
图解机器学习 | 降维算法详解
教程地址:http://www.showmeai.tech/tutorials/34
ShowMeAI
2022/03/11
1.3K0
图解机器学习 | 降维算法详解
使用Python实现主成分分析(PCA)
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术,它通过线性变换将原始数据映射到一个新的坐标系中,使得数据在新坐标系中的方差最大化。在本文中,我们将使用Python来实现一个基本的PCA算法,并介绍其原理和实现过程。
Echo_Wish
2024/04/16
1.1K0
机器学习(20)——数据降维为什么要降维?PCA原理LDA比较:
前言:正所谓每一个结果的出现都是一系列的原因导致的,当构建机器学习模型时候,有时候数据特征异常复杂,这就需要经常用到数据降维技术,下面主要介绍一些降维的主要原理 为什么要降维? 在实际的机器学习项目中,特征选择/降维是必须进行的,因为在数据中存在以下几个 方面的问题: 数据的多重共线性:特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定, 从而导致模型的泛化能力弱; 高纬空间样本具有稀疏性,导致模型比较难找到数据特征; 过多的变量会妨碍模型查找规律; 仅仅考虑单个变量对于目标属性的影响可能忽略变
DC童生
2018/04/27
19.5K0
机器学习(20)——数据降维为什么要降维?PCA原理LDA比较:
机器学习算法之PCA算法
在机器学习中降维是我们经常需要用到的算法,在降维的众多方法中PCA无疑是最经典的机器学习算法之一,最近准备撸一个人脸识别算法,也会频繁用到PCA,本文就带着大家一起来学习PCA算法。
BBuf
2019/12/04
1.2K0
机器学习算法之PCA算法
PCA系列(一):降维基础知识及PCA原理总结
  降维分为三种:特征选择、线性降维和非线性降维。本文主要介绍一些关于降维的基础知识以及线性降维的典例PCA(主成分分析法)。
Cyril-KI
2022/07/29
1.9K0
PCA系列(一):降维基础知识及PCA原理总结
抓住主要信息,线性降维的技术——PCA
随着通信技术、计算能力、数据采集等领域的发展成熟,企业积累了大量的数据,这里的“大量”体现在数据的条数多,海量的数据,同时也体现在维度、字段上的多;面对大量字段,数据分析师在建立模型时,除了会面临字段理解上的困难(数量多,内容多),若不事先预处理就把全部特征纳入模型,那只会“垃圾进垃圾出”,除了给模型增加复杂度,带来过拟合的风险,其他作用微乎其微;
CDA数据分析师
2021/12/27
5920
抓住主要信息,线性降维的技术——PCA
PCA算法 | 数据集特征数量太多怎么办?用这个算法对它降维打击!
今天是机器学习专题的第27文章,我们一起来聊聊数据处理领域的降维(dimensionality reduction)算法。
TechFlow-承志
2020/07/02
3.1K0
推荐阅读
相关推荐
简单易学的机器学习算法——主成分分析(PCA)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验