乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

20.5 实值数据上的玻尔兹曼机

书籍名:《深度学习》    作者:伊恩.古德费洛



虽然玻尔兹曼机最初是为二值数据而开发的,但是许多应用,例如图像和音频建模似乎需要表示实值上概率分布的能力。在一些情况下,我们可以将区间[0,1]中的实值数据视为表示二值变量的期望。例如,Hinton(2000)将训练集中灰度图像的像素值视为定义[0,1]间的概率值。每个像素定义二值变量为1的概率,并且二值像素的采样都彼此独立。这是评估灰度图像数据集上二值模型的常见过程。然而,这种方法理论上并不特别令人满意,并且以这种方式独立采样的二值图像具有噪声表象。在本节中,我们介绍概率密度定义在实值数据上的玻尔兹曼机。



20.5.1 Gaussian-Bernoulli  RBM


受限玻尔兹曼机可以用于许多指数族的条件分布(Welling  et  al.,2005)。其中,最常见的是具有二值隐藏单元和实值可见单元的RBM,其中可见单元上的条件分布是高斯分布(均值为隐藏单元的函数)。

有很多方法可以参数化Gaussian-Bernoulli  RBM。首先,我们可以选择协方差矩阵或精度矩阵来参数化高斯分布。这里,我们介绍选择精度矩阵的情况。我们可以通过简单的修改获得协方差的形式。我们希望条件分布为

通过扩展未归一化的对数条件分布可以找到需要添加到能量函数中的项:

此处f封装所有的参数,但不包括模型中的随机变量。因为f的唯一作用是归一化分布,并且我们选择的任何可作为配分函数的能量函数都能起到这个作用,所以我们可以忽略f。

如果我们在能量函数中包含式(20.39)中涉及ν的所有项(其符号被翻转),并且不添加任何其他涉及ν的项,那么我们的能量函数就能表示想要的条件分布p(ν|h)。

其他条件分布比较自由,如p(h|ν)。注意式(20.39)包含一项

因为该项包含hihj项,它不能被全部包括在内。这些对应于隐藏单元之间的边。如果我们包括这些项,将得到一个线性因子模型,而不是受限玻尔兹曼机。当设计我们的玻尔兹曼机时,简单地省略这些hihj交叉项。省略这些项不改变条件分布p(ν|h),因此式(20.39)仍满足。然而,我们仍然可以选择是否包括仅涉及单个hi的项。如果假设精度矩阵是对角的,就能发现对于每个隐藏单元hi,我们有一项

在上面,我们使用了的事实(因为hi∈{0,1})。如果我们在能量函数中包含此项(符号被翻转),则当该单元的权重较大且以高精度连接到可见单元时,偏置hi将自然被关闭。是否包括该偏置项不影响模型可以表示的分布族(假设我们包括隐藏单元的偏置参数),但是它确实会影响模型的学习动态。包括该项可以帮助隐藏单元(即使权重在幅度上快速增加时)保持合理激活。

因此,在Gaussian-Bernoulli  RBM上定义能量函数的一种方式:

但我们还可以添加额外的项或者通过方差而不是精度参数化能量。

在这个推导中,我们没有在可见单元上添加偏置项,但添加这样的偏置是容易的。Gaussian-Bernoulli  RBM参数化一个最终变化的来源是如何处理精度矩阵的选择。它可以被固定为常数(可能基于数据的边缘精度估计)或学习出来。它也可以是标量乘以单位矩阵,或者是一个对角矩阵。在此情况下,由于一些操作需要对矩阵求逆,我们通常不允许非对角的精度矩阵,因为高斯分布的一些操作需要对矩阵求逆,一个对角矩阵可以非常容易地被求逆。在接下来的章节中,我们将看到其他形式的玻尔兹曼机,它们允许对协方差结构建模,并使用各种技术避免对精度矩阵求逆。



20.5.2 条件协方差的无向模型


虽然高斯RBM已成为实值数据的标准能量模型,Ranzato  et  al.(2010a)认为高斯RBM感应偏置不能很好地适合某些类型的实值数据中存在的统计变化,特别是自然图像。问题在于自然图像中的许多信息内容嵌入于像素之间的协方差而不是原始像素值中。换句话说,图像中的大多数有用信息在于像素之间的关系,而不是其绝对值。由于高斯RBM仅对给定隐藏单元的输入条件均值建模,所以它不能捕获条件协方差信息。为了回应这些评论,已经有学者提出了替代模型,设法更好地考虑实值数据的协方差。这些模型包括均值和协方差RBM(mean  and  covariance  RBM,mcRBM)(1)、学生t分布均值乘积(mean  product  of  Student  t-distribution,mPoT)模型和尖峰和平板RBM(spike  and  slab  RBM,ssRBM)

均值和协方差RBM mcRBM使用隐藏单元独立地编码所有可观察单元的条件均值和协方差。mcRBM的隐藏层分为两组单元:均值单元和协方差单元。建模条件均值的那组单元是简单的高斯RBM。另一半是协方差RBM(covariance  RBM,cRBM)(Ranzato  et  al.,2010a),对条件协方差的结构进行建模(如下所述)。

具体来说,在二值均值的单元h(m)和二值协方差单元h(c)的情况下,mcRBM模型被定义为两个能量函数的组合:

其中Em为标准的Gaussian-Bernoulli  RBM能量函数(2),

Ec是cRBM建模条件协方差信息的能量函数:

参数r(j)与关联的协方差权重向量对应,b(c)是一个协方差偏置向量。组合后的能量函数定义联合分布,

以及给定h(m)和h(c)后,关于观察数据相应的条件分布(为一个多元高斯分布):

注意协方差矩阵是非对角的,且W是与建模条件均值的高斯RBM相关联的权重矩阵。由于非对角的条件协方差结构,难以通过对比散度或持续性对比散度来训练mcRBM。CD和PCD需要从x、h(m)、h(c)的联合分布中采样,这在标准RBM中可以通过Gibbs采样在条件分布上采样实现。但是,在mcRBM中,从中抽样需要在学习的每个迭代计算(C  mc)−1。这对于更大的观察数据可能是不切实际的计算负担。Ranzato  and  Hinton(2010)通过使用mcRBM自由能上的哈密尔顿(混合)蒙特卡罗(Neal,1993)直接从边缘p(x)采样,避免了直接从条件抽样。

学生t分布均值乘积 学生t分布均值乘积(mPoT)模型(Ranzato  et  al.,2010b)以类似mcRBM扩展cRBM的方式扩展PoT模型(Welling  et  al.,2003a),通过添加类似高斯RBM中隐藏单元的非零高斯均值来实现。与mcRBM一样,观察值上的PoT条件分布是多元高斯(具有非对角的协方差)分布。然而,不同于mcRBM,隐藏变量的互补条件分布是由条件独立的Gamma分布给出。Gamma分布是关于正实数且均值为kθ的概率分布。我们只需简单地了解Gamma分布就足以理解mPoT模型的基本思想。

mPoT的能量函数为

其中r(j)是与单元相关联的协方差权重向量,如式(20.44)所定义。

正如mcRBM一样,mPoT模型能量函数指定一个多元高斯分布,其中关于x的条件分布具有非对角的协方差。mPoT模型中的学习(也像mcRBM)由于无法从非对角高斯条件分布采样而变得复杂。因此Ranzato  et  al.(2010b)也倡导通过哈密尔顿(混合)蒙特卡罗(Neal,1993)直接采样p(x)。

尖峰和平板RBM 尖峰和平板RBM(spike  and  slab  RBM,ssRBM)(Courville  et  al.,2011b)提供对实值数据的协方差结构建模的另一种方法。与mcRBM相比,ssRBM具有既不需要矩阵求逆也不需要哈密尔顿蒙特卡罗方法的优点。就像mcRBM和mPoT模型,ssRBM的二值隐藏单元通过使用辅助实值变量来编码跨像素的条件协方差。

尖峰和平板RBM有两类隐藏单元:二值尖峰(spike)单元h和实值平板(slab)单元s。条件于隐藏单元的可见单元均值由给出。换句话说,每一列定义当hi=1时可出现在输入中的分量。相应的尖峰变量hi确定该分量是否存在。如果存在的话,相应的平板变量si确定该分量的强度。当尖峰变量激活时,相应的平板变量将沿着定义的轴的输入增加方差。这允许我们对输入的协方差建模。幸运的是,使用Gibbs采样的对比散度和持续性对比散度仍然适用。此处无须对任何矩阵求逆。

形式上,ssRBM模型通过其能量函数定义:

其中bi是尖峰hi的偏置,Λ是观测值x上的对角精度矩阵。参数αi>0是实值平板变量si的标量精度参数。参数Φi是定义x上的h调制二次惩罚的非负对角矩阵。每个μi是平板变量si的均值参数。

利用能量函数定义的联合分布,能相对容易地导出ssRBM条件分布。例如,通过边缘化平板变量s,给定二值尖峰变量h,关于观察量的条件分布由下式给出

其中。最后的等式只有在协方差矩阵正定时成立。

尖峰变量选通意味着h⊙s上的真实边缘分布是稀疏的。这不同于稀疏编码,其中来自模型的样本在编码中“几乎从不”(在测度理论意义上)包含零,并且需要MAP推断来强加稀疏性。

相比mcRBM和mPoT模型,ssRBM以明显不同的方式参数化观察量的条件协方差。mcRBM和mPoT都通过建模观察量的协方差结构,使用hj>0的隐藏单元的激活来对方向r(j)的条件协方差施加约束。相反,ssRBM使用隐藏尖峰激活hi=1来指定观察结果的条件协方差,以沿着由相应权重向量指定的方向捏合精度矩阵。ssRBM条件协方差与一个不同模型给出的类似:概率主成分分析的乘积(PoPPCA)(Williams  and  Agakov,2002)。在过完备的设定下,ssRBM参数化的稀疏激活仅允许在稀疏激活hi的所选方向上有显著方差(高于由Λ−1给出的近似方差)。在mcRBM或mPoT模型中,过完备的表示意味着,捕获观察空间中特定方向上的变化需要在该方向上的正交投影下去除潜在的所有约束。这表明这些模型不太适合于过完备设定。

尖峰和平板RBM的主要缺点是,参数的一些设置会对应于非正定的协方差矩阵。这种协方差矩阵会在离均值更远的值上放置更大的未归一化概率,导致所有可能结果上的积分发散。通常这个问题可以通过简单的启发式技巧来避免。理论上还没有任何令人满意的解决方法。使用约束优化来显式地避免概率未定义的区域(不过分保守是很难做到的),并且这还会阻止模型到达参数空间的高性能区域。

定性地,ssRBM的卷积变体能产生自然图像的优秀样本。图16.1中展示了一些样例。

ssRBM允许几个扩展,包括平板变量的高阶交互和平均池化(Courville  et  al.,2014)使得模型能够在标注数据稀缺时为分类器学习到出色的特征。向能量函数添加一项能防止配分函数在稀疏编码模型下变得不确定,如尖峰和平板稀疏编码(Goodfellow  et  al.,2013g),也称为S3C。