PCA 降维以及维数的确定

概述

PCA（principal components analysis）即主成分分析技术，又称为主分量分析，旨在利用降维的思想，把多个指标转换为少数的几个综合指标。

主成分分析是一种简化数据集的技术，它是一个线性变换。这个线性变化把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标上（称为第一主成分），第二个大的方差在第二个坐标上（称为第二主成分），以此类推。主成分分析经常用于减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。

PCA 的原理就是将原来的样本数据投影到一个新的空间中。其中就是将原来的样本数据空间经过坐标变换矩阵变到新空间坐标下，新空间坐标由其原数据样本中不同维度之间的协方差矩阵中几个最大特征值对应的前几个特征向量组成。较小的特征值向量作为非主要成分去掉，从而可以达到提取主要成分代表原始数据的特征，降低数据复杂度的目的。

算法步骤

将 n 次采样的 m 维数据组织成矩阵形式 $X \in R^{n \times m} X \in R^{n \times m}$ 。具体形式如下所示：

$x_{11} x_{21} x_{12} x_{22} ⋮ x_{n 1} ⋮ x_{n 2} \dots \dots x_{1 m} x_{2 m} ⋱ \dots ⋮ x_{nm}$
将样本矩阵 $XX$ 的每一列零均值化得新矩阵 $X^{'} X^{'}$ 。

$x_{i} \leftarrow x_{i} - \frac{1}{m} i = 1 \sum m x_{i}$
计算其样本数据维度之间的相关度，此处使用协方差矩阵 $CC$ ：

$co v = \frac{1}{m} X^{'} X^{'}^{T}$
计算协方差矩阵 $CC$ 的特征值及其对应的特征向量，并特征值按照从大到小排列。

$(λ_{1}, λ_{2}, \dots, λ_{t}) = p_{11} p_{21} p_{12} p_{22} ⋮ p_{n 1} ⋮ p_{n 2} \dots \dots p_{1 t} p_{2 t} ⋱ \dots ⋮ p_{n t} = (P_{1}, P_{2}, \dots, P_{i}), (其中 λ_{1} > λ_{2} > \dots > λ_{t})$
根据降维要求，比如此处降到 $kk$ 维，取其前个 $kk$ 向量组成降维矩阵 $PP$ ，如下所示：

$P = (P_{1}, P_{2}, \dots, P_{k})^{T}, P \in R^{k \times n}$
通过变换矩阵 P 对原样本数据 $XX$ 进行坐标变换，从而达到数据降维与主成分提取的目的。

$Y = X ∙ P, Y \in R^{k \times m}$

重建误差的计算

在投影完成之后，需要对投影的误差进行重建，从而计算数据降维之后信息的损失，一般来说通过以下公式来计算。

error_{1} = \frac{1}{k} i = 1 \sum k ∣∣ x^{(i)} - x_{a pp ro x}^{(i)} ∣ ∣^{2}

error_{2} = \frac{1}{m} i = 1 \sum m ∣∣ x^{(i)} ∣ ∣^{2}

其中：

$mm$ 个样本表示为 $(x^{(1)}, x^{(2)}, \dots, x^{(m)}) (x^{(1)}, x^{(2)}, \dots, x^{(m)})$
对应投影后的数据表示为 $(x_{a pp ro x}^{(1)}, x_{a pp ro x}^{(2)}, \dots, x_{a pp ro x}^{(m)}) (x_{a pp ro x}^{(1)}, x_{a pp ro x}^{(2)}, \dots, x_{a pp ro x}^{(m)})$ 。

则其比率 $ηη$ 为

η = \frac{error _{1}}{error _{2}}

通过 $ηη$ 来衡量数据降维之后信息的损失。

算法描述

进而我们总结出算法描述如下：

输入： 样本集 $D = {x_{1}, x_{2}, \dots, x_{m}} D = {x_{1}, x_{2}, \dots, x_{m}}$ ；


低维空间维数

$kk$

过程：

对所有样本进行零均值化： $x_{i} \leftarrow x_{i} - \frac{1}{m} \sum_{i = 1}^{m} x_{i} x_{i} \leftarrow x_{i} - \frac{1}{m} \sum_{i = 1}^{m} x_{i}$ ；
计算样本的协方差矩阵 $XX^{T} XX^{T}$ ；
对协方差矩阵 $XX^{T} XX^{T}$ 做特征值分解；
取最大的 $kk$ 个特征值所对应的特征向量 $(P_{1}, P_{2}, \dots, P_{k}) (P_{1}, P_{2}, \dots, P_{k})$ ；
进行矩阵变换 $Y = P ∙ X, Y \in R^{k \times m} Y = P ∙ X, Y \in R^{k \times m}$

输出： 变换后的矩阵 $Y = X ∙ P, Y \in R^{k \times m} Y = X ∙ P, Y \in R^{k \times m}$

算法实现

选用的数据集

使用数据集为：Imported Analog EMG – Voltage 下的 EMG1、EMG2、…、EMG8 部分的数据

实验代码展示


fileName = 'c:\Users\Administrator\Desktop\机器学习作业\PCA\pcaData1.csv';
X = csvread(fileName); 
m = size(X,1);
meanLine = mean(X,2);
R = size(X ,2);
%对原始数据做均值化处理，每一列都减去均值
A = [];
for i = 1:R
    temp = X(:,i) - meanLine;
    A = [A temp];
end
%求其协方差矩阵
C = A'*A/R; 
%求协方差矩阵的特征值及其特征向量
[U,S,V] = svd(C); 
%设置降维的维度数k，从1维计算到R-1维
k=8; 
%计算投影后的样本数据Y
P=[];
for x = 1:k
    P = [P U(:,x)]; 
end
Y = X*P;
%计算数据重建误差以及比率
err1 = 0;
%获取样本X重建后的矩阵XR
XR= Y * pinv(P);
for i = 1:m
    err1 = norm(X(i,:)-XR(i,:))+err1;
end
%计算数据方差
err2 = 0;
for i=1:m
    err2 = norm(X(i,:))+err2;
end
eta = err1/err2

结果展示与分析

通过计算我们发现对应的特征值以及其对应的投影方向如下：

$λ_{1} λ_{1}$ =1.8493 对应的投影方向为 $(- 0.0164, 0.0300, - 0.2376, 0.4247, - 0.6717, 0.2356, - 0.2196, 0.4551) (- 0.0164, 0.0300, - 0.2376, 0.4247, - 0.6717, 0.2356, - 0.2196, 0.4551)$

$λ_{2} λ_{2}$ =1.3836 对应的投影方向为 $(0.0910, 0.1724, - 0.0097, - 0.8267, - 0.1464, 0.3599, 0.0025, 0.3570) (0.0910, 0.1724, - 0.0097, - 0.8267, - 0.1464, 0.3599, 0.0025, 0.3570)$

$λ_{3} λ_{3}$ =0.5480 对应的投影方向为 $(- 0.1396, - 0.4457, - 0.1668, 0.0870, 0.2812, 0.7696, - 0.1742, - 0.2115) (- 0.1396, - 0.4457, - 0.1668, 0.0870, 0.2812, 0.7696, - 0.1742, - 0.2115)$

$λ_{4} λ_{4}$ =0.4135 对应的投影方向为 $(0.0622, 0.1782, 0.3136, - 0.0080, - 0.5387, 0.2841, 0.3300, - 0.6214) (0.0622, 0.1782, 0.3136, - 0.0080, - 0.5387, 0.2841, 0.3300, - 0.6214)$

$λ_{5} λ_{5}$ =0.3218 对应的投影方向为 $(0.2126, - 0.7813, 0.3136, - 0.0080, - 0.5387, 0.2841, 0.3300, - 0.6214) (0.2126, - 0.7813, 0.3136, - 0.0080, - 0.5387, 0.2841, 0.3300, - 0.6214)$

$λ_{6} λ_{6}$ =0.1322 对应的投影方向为 $(- 0.0959, 0.0340, - 0.6943, 0.0068, 0.0269, 0.0042, 0.7119, 0.0064) (- 0.0959, 0.0340, - 0.6943, 0.0068, 0.0269, 0.0042, 0.7119, 0.0064)$

$λ_{7} λ_{7}$ =0.0620 对应的投影方向为 $(0.8881, - 0.0497, - 0.3407, - 0.0198, - 0.0103, - 0.0424, - 0.2075, - 0.2176) (0.8881, - 0.0497, - 0.3407, - 0.0198, - 0.0103, - 0.0424, - 0.2075, - 0.2176)$

$λ_{8} = 9.5959 \times 1 0^{- 17} λ_{8} = 9.5959 \times 1 0^{- 17}$ 对应的投影方向为 $(0.3536, 0.3536, 0.3536, 0.3536, 0.3536, 0.3536, 0.3536, 0.3536) (0.3536, 0.3536, 0.3536, 0.3536, 0.3536, 0.3536, 0.3536, 0.3536)$

k 取不同值时对应的误差比率如下所示：

k 的取值	数据重建误差 eat
1	0.8265
2	0.7105
3	0.6499
4	0.5940
5	0.5521
6	0.5294
7	0.5162

参考

PCA 主成分数量（降维维度）选择
Imported Analog EMG – Voltage 下的 EMG1、EMG2、…、EMG8 部分进行 PCA/NMF 降维

PCA 降维以及维数的确定

概述

算法步骤

算法描述

算法实现

选用的数据集

实验代码展示

结果展示与分析

参考

相关帖子

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

欢迎来到这里！