乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

第13章 线性因子模型

书籍名:《深度学习》    作者:伊恩.古德费洛



许多深度学习的研究前沿均涉及构建输入的概率模型pmodel(x)。原则上说,给定任何其他变量的情况下,这样的模型可以使用概率推断来预测其环境中的任何变量。许多这样的模型还具有潜变量h,其中。这些潜变量提供了表示数据的另一种方式。我们在深度前馈网络和循环网络中已经发现,基于潜变量的分布式表示继承了表示学习的所有优点。

在本章中,我们描述了一些基于潜变量的最简单的概率模型:线性因子模型(linear  factor  model)。这些模型有时被用来作为混合模型的组成模块(Hinton  et  al.,1995a;Ghahramani  and  Hinton,1996;Roweis  et  al.,2002)或者更大的深度概率模型(Tang  et  al.,2012)。同时,也介绍了构建生成模型所需的许多基本方法,在此基础上更先进的深度模型也将得到进一步扩展。

线性因子模型通过随机线性解码器函数来定义,该函数通过对h的线性变换以及添加噪声来生成x。

有趣的是,通过这些模型我们能够发现一些符合简单联合分布的解释性因子。线性解码器的简单性使得它们成为了最早被广泛研究的潜变量模型。

线性因子模型描述如下的数据生成过程。首先,我们从一个分布中抽取解释性因子h,

其中p(h)是一个因子分布,满足p(h)=∏ip(hi),所以易于从中采样。接下来,在给定因子的情况下,我们对实值的可观察变量进行采样

其中噪声通常是对角化的(在维度上是独立的)且服从高斯分布。这在图13.1有具体说明。

图13.1 描述线性因子模型族的有向图模型,其中我们假设观察到的数据向量x是通过独立的潜在因子h的线性组合再加上一定噪声获得的。不同的模型,比如概率PCA、因子分析或者是ICA,都是选择了不同形式的噪声以及先验p(h)