13.1 概率PCA和因子分析

书籍名:《深度学习》作者：伊恩.古德费洛

概率PCA（probabilistic  PCA）、因子分析和其他线性因子模型是上述等式（式（13.1）和式（13.2））的特殊情况，并且仅在对观测到x之前的噪声分布和潜变量h先验的选择上有所不同。

在因子分析（factor  analysis）（Bartholomew，1987；Basilevsky，1994）中，潜变量的先验是一个方差为单位矩阵的高斯分布

同时，假定在给定h的条件下观察值xi是条件独立（conditionally  independent）的。具体来说，我们可以假设噪声是从对角协方差矩阵的高斯分布中抽出的，协方差矩阵为ψ＝diag（σ2），其中表示一个向量，每个元素表示一个变量的方差。

因此，潜变量的作用是捕获不同观测变量xi之间的依赖关系。实际上，可以容易地看出x服从多维正态分布，并满足

为了将PCA引入到概率框架中，我们可以对因子分析模型作轻微修改，使条件方差等于同一个值。在这种情况下，x的协方差简化为，这里的σ2是一个标量。由此可以得到条件分布，如下：

或者等价地

其中是高斯噪声。之后Tipping  and  Bishop（1999）提出了一种迭代的EM算法来估计参数W和σ2。

这个概率PCA（probabilistic  PCA）模型利用了这样一种观察现象：除了一些微小残余的重构误差（reconstruction  error）（至多为σ2），数据中的大多数变化可以由潜变量h描述。通过Tipping  and  Bishop（1999）的研究我们可以发现，当σ→0时，概率PCA退化为PCA。在这种情况下，给定x情况下h的条件期望等于将x-b投影到W的d列所生成的空间上，与PCA一样。

当σ→0时，概率PCA所定义的密度函数在d维的W的列生成空间周围非常尖锐。这导致模型会为没有在一个超平面附近聚集的数据分配非常低的概率。