乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

20.2 受限玻尔兹曼机

书籍名:《深度学习》    作者:伊恩.古德费洛



受限玻尔兹曼机以簧风琴(harmonium)之名(Smolensky,1986)面世之后,成为了深度概率模型中最常见的组件之一。我们之前在第16.7.1节简要介绍了RBM。在这里我们回顾以前的内容并探讨更多的细节。RBM是包含一层可观察变量和单层潜变量的无向概率图模型。RBM可以堆叠起来(一个在另一个的顶部)形成更深的模型。图20.1展示了一些例子。特别地,图20.1(a)显示RBM本身的图结构。它是一个二分图,观察层或潜层中的任何单元之间不允许存在连接。

我们从二值版本的受限玻尔兹曼机开始,但如我们之后所见,这还可以扩展为其他类型的可见和隐藏单元。

更正式地说,令观察层由一组nν个二值随机变量组成,我们统称为向量v。我们将nh个二值随机变量的潜在或隐藏层记为h。

就像普通的玻尔兹曼机,受限玻尔兹曼机也是基于能量的模型,其联合概率分布由能量函数指定:

RBM的能量函数由下给出

其中Z是被称为配分函数的归一化常数:

从配分函数Z的定义显而易见,计算Z的朴素方法(对所有状态进行穷举求和)计算上可能是难以处理的,除非有巧妙设计的算法可以利用概率分布中的规则来更快地计算Z。在受限玻尔兹曼机的情况下,Long  and  Servedio(2010)正式证明配分函数Z是难解的。难解的配分函数Z意味着归一化联合概率分布P(ν)也难以评估。

图20.1 可以用受限玻尔兹曼机构建的模型示例。(a)受限玻尔兹曼机本身是基于二分图的无向图模型,图的一部分具有可见单元,另一部分具有隐藏单元。可见单元之间没有连接,隐藏单元之间也没有任何连接。通常每个可见单元连接到每个隐藏单元,但也可以构造稀疏连接的RBM,如卷积RBM。(b)深度信念网络是涉及有向和无向连接的混合图模型。与RBM一样,它也没有层内连接。然而,DBN具有多个隐藏层,因此隐藏单元之间的连接在分开的层中。深度信念网络所需的所有局部条件概率分布都直接复制RBM的局部条件概率分布。或者,我们也可以用完全无向图表示深度信念网络,但是它需要层内连接来捕获父节点间的依赖关系。(c)深度玻尔兹曼机是具有几层潜变量的无向图模型。与RBM和DBN一样,DBM也缺少层内连接。DBM与RBM的联系不如DBN紧密。当从RBM堆栈初始化DBM时,有必要对RBM的参数稍作修改。某些种类的DBM可以直接训练,而不用先训练一组RBM



20.2.1 条件分布


虽然P(ν)难解,但RBM的二分图结构具有非常特殊的性质,其条件分布P(h  |  v)和P(v  |  h)是因子的,并且计算和采样是相对简单的。

从联合分布中导出条件分布是直观的:

由于我们相对可见单元v计算条件概率,相对于分布P(h  |  v)我们可以将它们视为常数。条件分布P(h  |  v)因子相乘的本质,我们可以将向量h上的联合概率写成单独元素hj上(未归一化)分布的乘积。现在原问题变成了对单个二值hj上的分布进行归一化的简单问题。

现在我们可以将关于隐藏层的完全条件分布表达为因子形式:

类似的推导将显示我们感兴趣的另一个条件分布,P(ν  |  h)也是因子形式的分布:



20.2.2 训练受限玻尔兹曼机


因为RBM允许高效计算的估计和微分,并且还允许高效地(以块吉布斯采样的形式)进行MCMC采样,所以我们很容易使用第18章中训练具有难以计算配分函数模型的技术来训练RBM。这包括CD、SML(PCD)、比率匹配等。与深度学习中使用的其他无向模型相比,RBM可以相对直接地训练,因为我们可以以闭解形式计算P(h  |  ν)。其他一些深度模型,如深度玻尔兹曼机,同时具备难处理的配分函数和难以推断的难题。