13.5 PCA的流形解释

书籍名:《深度学习》作者：伊恩.古德费洛

线性因子模型，包括PCA和因子分析，可以理解为学习一个流形（Hinton et al.，1997）。我们可以将概率PCA定义为高概率的薄饼状区域，即一个高斯分布，沿着某些轴非常窄，就像薄饼沿着其垂直轴非常平坦，但沿着其他轴是细长的，正如薄饼在其水平轴方向是很宽的一样。图13.3解释了这种现象。PCA可以理解为将该薄饼与更高维空间中的线性流形对准。这种解释不仅适用于传统PCA，而且适用于学习矩阵W和V的任何线性自编码器，其目的是使重构的x尽可能接近于原始的x。

图13.3　平坦的高斯能够描述一个低维流形附近的概率密度。此图表示了“流形平面”上“馅饼”的上半部分，并且这个平面穿过了馅饼的中心。正交于流形方向（指向平面外的箭头方向）的方差非常小，可以被视作“噪声”，其他方向（平面内的箭头）的方差则很大，对应了“信号”以及降维数据的坐标系统

编码器表示为

编码器计算h的低维表示。从自编码器的角度来看，解码器负责计算重构：

能够最小化重构误差

的线性编码器和解码器的选择对应着V＝W，，W的列形成一组标准正交基，这组基生成的子空间与协方差矩阵C

的主特征向量所生成的子空间相同。在PCA中，W的列是按照对应特征值（其全部是实数和非负数）幅度大小排序所对应的特征向量。

我们还可以发现C的特征值λi对应了x在特征向量ν(i)方向上的方差。如果x∈，h∈并且满足d＜D，则（给定上述的µ，b，V，W的情况下）最佳的重构误差是

因此，如果协方差矩阵的秩为d，则特征值λd+1到λD都为0，并且重构误差为0。

此外，我们还可以证明上述解可以通过在给定正交矩阵W的情况下最大化h元素的方差，而不是最小化重构误差来获得。

从某种程度上说，线性因子模型是最简单的生成模型和学习数据表示的最简单模型。许多模型如线性分类器和线性回归模型可以扩展到深度前馈网络，而这些线性因子模型可以扩展到自编码器网络和深度概率模型，它们可以执行相同任务但具有更强大和更灵活的模型族。

————————————————————

(1) 第3.8节讨论了不相关变量和独立变量之间的差异。