前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习实战 - 读书笔记(13) - 利用PCA来简化数据

机器学习实战 - 读书笔记(13) - 利用PCA来简化数据

作者头像
绿巨人
发布2018-05-17 11:15:59
9760
发布2018-05-17 11:15:59
举报
文章被收录于专栏:绿巨人专栏

前言

最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第13章 - 利用PCA来简化数据。 这里介绍,机器学习中的降维技术,可简化样品数据。

降维技术的用途

  • 使得数据集更易使用;
  • 降低很多算法的计算开销;
  • 去除噪声;
  • 使得结果易懂。

基本概念

  • 降维(dimensionality reduction)。 如果样本数据的特征维度很大,会使得难以分析和理解。我们可以通过降维技术减少维度。 降维技术并不是将影响少的特征去掉,而是将样本数据集转换成一个低维度的数据集。
  • 协方差(covariance) 协方差用于衡量两个变量的总体误差.
  • 协方差矩阵(covariance matrix) 对于一个N维的样品数据,X=[x_1, x_2, ..., x_n]^T,其协方差矩阵是一个n * n的matrix, 元素C_{ij}x_ix_j的协方差。
  • 协方差矩阵的特征值(Eigenvalues)和特征向量(eigenvectors) 特征值:表示特征向量对应列的权重,越大说明特征向量对应列的影响越大。 特征向量:是一个n * n 的matrix,n是样本数据的特征数。用于降维转换。 降维转换过程: 在特征向量中,选出特征值最大的m列,形成一个m * n的降维向量矩阵。 对(去除平均值的)样本数据的每行数据,和降维矩阵相乘,得到一个m维的**降维数据**。 重构的数据 = **降维数据** * **降维矩阵的转置** + 平均值

核心算法解释

主成分分析(Principal Component Analysis,PCA)

  • 基本原理 线性代数的理论:
    • 对一个n维的样本数据,通过其协方差矩阵,可以计算出特征值和特征向量。
    • 选择特征值最大的前m项,可以将样本数据和特征向量进行计算,得到一个m维的降维数据集。
  • 输入
    • 数据集
    • 应用的Feature数
  • 输出
    • 降维数据集
    • 重构的数据集(可用于与原数据集比较)
  • 逻辑过程 对数据集的每个Feature的数据,减去Feature的平均值。 计算协方差矩阵 计算协方差矩阵的特征值和特征向量 将特征值从大到小排序 保留最上面的N个特征向量 使用前面提到的降维转换过程,转换数据集为降维数据集和重构的数据集

核心公式

协方差(covariance)

协方差用于衡量两个变量的总体误差. \begin{align} cov(X, Y) & = E[(X-E(X))(Y-E(Y))] \\ & = E[XY] - E[X]E[Y] \end{align} \\ where \\ \qquad E(X): mean(X)

Matrix乘法运算

a * b = [a_{11}b_{11} + a_{12}b_{21} + ... + a_{1n}b_{n1}, ..., a_{11}b_{1m} + a_{12}b_{2m} + ... + a_{1n}b_{nm}] \\ a * b^T = [a_{11}b_{11} + a_{12}b_{12} + ... + a_{1n}b_{1n}, ..., a_{11}b_{1m} + a_{12}b_{2m} + ... + a_{1n}b_{nm}] \\ where \\ \qquad \text{a: a is a n-dimensions vector.} \\ \qquad \text{b: b is a m * n of matrix).}

参考

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016-08-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 降维技术的用途
  • 基本概念
  • 核心算法解释
    • 主成分分析(Principal Component Analysis,PCA)
    • 核心公式
      • 协方差(covariance)
        • Matrix乘法运算
        • 参考
        相关产品与服务
        腾讯云 TI 平台
        腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档