参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广
。
,使得原始数据投影到这些向量的线性子空间的投影误差最小。
,然后将原始数据中所有维度都减去该维度的 均值
,即令
,如果特征在不同的数量级上,还需要将其除以该维度自身的 标准差
Note 如果
本身是以行向量的方式存储,假设 X 是样本
逐层堆叠而成的样本矩阵,则有:
即
上式的 U 是一个具有与数据之间最小投射误差的方向向量构成的矩阵 。如果我们希望 将数据从 N 维降至 K 维 ,我们只需要从 U 中选取前 K 个向量即上图中的
,获得一个 N×K 维度的矩阵,使用
表示,然后通过如下计算获得要求的新特征向量
,即有
其中
是 N _ 1 维的样本向量, 而
是一个 K _ N 维的方向向量构成的矩阵,因此最终结果 Z^{(i)}是一个 K * 1 维的向量 ,即是 通过 PCA 得到的新的特征向量
[1]
吴恩达老师课程原地址: https://study.163.com/course/courseMain.htm?courseId=1004570029