1
1
3
−7
...
−10.5
−8.2
2
2
5
−14
...
2.7
4
...
...
...
...
...
...
...
−3
−7
2
...
55
13.6
那么这个样本集的矩阵形式就是这样的:
这个矩阵是
维的,其中每一行表示一个样本,每一列表示一维特征。我们将这个矩阵称为样本矩阵,现在我们的问题是能不能通过某种方法找到一种变换,其可以减少这个矩阵的列数,也就是特征的维数,并且尽可能保留原始数据中的有用信息?针对这个问题,PCA方法提出了一种可行的解决方案。它包括以下4个主要的步骤。
(1)标准化样本矩阵中的原始数据。
(2)获取标准化数据的协方差矩阵。
(3)计算协方差矩阵的特征值和特征向量。
(4)依照特征值的大小挑选主要的特征向量,以转换原始数据并生成新的特征。
1.标准化样本矩阵中的原始数据之前我们已经介绍过基于Z分数的特征标准化,这里我们需要进行同样的处理才能让每维特征的重要性具有可比性。需要注意的是,这里标准化的数据是针对同一种特征,也是在同一个特征维度之内。不同维度的特征不能放在一起进行标准化。
2.获取标准化数据的协方差矩阵首先,我们来看一下什么是协方差(covariance),以及协方差矩阵。协方差用于衡量两个变量的总体误差。假设两个变量分别是