乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

13.5 PCA的流形解释

书籍名:《深度学习》    作者:伊恩.古德费洛



线性因子模型,包括PCA和因子分析,可以理解为学习一个流形(Hinton  et  al.,1997)。我们可以将概率PCA定义为高概率的薄饼状区域,即一个高斯分布,沿着某些轴非常窄,就像薄饼沿着其垂直轴非常平坦,但沿着其他轴是细长的,正如薄饼在其水平轴方向是很宽的一样。图13.3解释了这种现象。PCA可以理解为将该薄饼与更高维空间中的线性流形对准。这种解释不仅适用于传统PCA,而且适用于学习矩阵W和V的任何线性自编码器,其目的是使重构的x尽可能接近于原始的x。

图13.3 平坦的高斯能够描述一个低维流形附近的概率密度。此图表示了“流形平面”上“馅饼”的上半部分,并且这个平面穿过了馅饼的中心。正交于流形方向(指向平面外的箭头方向)的方差非常小,可以被视作“噪声”,其他方向(平面内的箭头)的方差则很大,对应了“信号”以及降维数据的坐标系统

编码器表示为

编码器计算h的低维表示。从自编码器的角度来看,解码器负责计算重构:

能够最小化重构误差

的线性编码器和解码器的选择对应着V=W,,W的列形成一组标准正交基,这组基生成的子空间与协方差矩阵C

的主特征向量所生成的子空间相同。在PCA中,W的列是按照对应特征值(其全部是实数和非负数)幅度大小排序所对应的特征向量。

我们还可以发现C的特征值λi对应了x在特征向量ν(i)方向上的方差。如果x∈,h∈并且满足d<D,则(给定上述的µ,b,V,W的情况下)最佳的重构误差是

因此,如果协方差矩阵的秩为d,则特征值λd+1到λD都为0,并且重构误差为0。

此外,我们还可以证明上述解可以通过在给定正交矩阵W的情况下最大化h元素的方差,而不是最小化重构误差来获得。

从某种程度上说,线性因子模型是最简单的生成模型和学习数据表示的最简单模型。许多模型如线性分类器和线性回归模型可以扩展到深度前馈网络,而这些线性因子模型可以扩展到自编码器网络和深度概率模型,它们可以执行相同任务但具有更强大和更灵活的模型族。


————————————————————

(1)  第3.8节讨论了不相关变量和独立变量之间的差异。