20.2 受限玻尔兹曼机

书籍名:《深度学习》作者：伊恩.古德费洛

受限玻尔兹曼机以簧风琴（harmonium）之名（Smolensky，1986）面世之后，成为了深度概率模型中最常见的组件之一。我们之前在第16.7.1节简要介绍了RBM。在这里我们回顾以前的内容并探讨更多的细节。RBM是包含一层可观察变量和单层潜变量的无向概率图模型。RBM可以堆叠起来（一个在另一个的顶部）形成更深的模型。图20.1展示了一些例子。特别地，图20.1（a）显示RBM本身的图结构。它是一个二分图，观察层或潜层中的任何单元之间不允许存在连接。

我们从二值版本的受限玻尔兹曼机开始，但如我们之后所见，这还可以扩展为其他类型的可见和隐藏单元。

更正式地说，令观察层由一组nν个二值随机变量组成，我们统称为向量v。我们将nh个二值随机变量的潜在或隐藏层记为h。

就像普通的玻尔兹曼机，受限玻尔兹曼机也是基于能量的模型，其联合概率分布由能量函数指定：

RBM的能量函数由下给出

其中Z是被称为配分函数的归一化常数：

从配分函数Z的定义显而易见，计算Z的朴素方法（对所有状态进行穷举求和）计算上可能是难以处理的，除非有巧妙设计的算法可以利用概率分布中的规则来更快地计算Z。在受限玻尔兹曼机的情况下，Long  and  Servedio（2010）正式证明配分函数Z是难解的。难解的配分函数Z意味着归一化联合概率分布P(ν)也难以评估。

图20.1　可以用受限玻尔兹曼机构建的模型示例。（a）受限玻尔兹曼机本身是基于二分图的无向图模型，图的一部分具有可见单元，另一部分具有隐藏单元。可见单元之间没有连接，隐藏单元之间也没有任何连接。通常每个可见单元连接到每个隐藏单元，但也可以构造稀疏连接的RBM，如卷积RBM。（b）深度信念网络是涉及有向和无向连接的混合图模型。与RBM一样，它也没有层内连接。然而，DBN具有多个隐藏层，因此隐藏单元之间的连接在分开的层中。深度信念网络所需的所有局部条件概率分布都直接复制RBM的局部条件概率分布。或者，我们也可以用完全无向图表示深度信念网络，但是它需要层内连接来捕获父节点间的依赖关系。（c）深度玻尔兹曼机是具有几层潜变量的无向图模型。与RBM和DBN一样，DBM也缺少层内连接。DBM与RBM的联系不如DBN紧密。当从RBM堆栈初始化DBM时，有必要对RBM的参数稍作修改。某些种类的DBM可以直接训练，而不用先训练一组RBM

20.2.1　条件分布

虽然P(ν)难解，但RBM的二分图结构具有非常特殊的性质，其条件分布P(h  |  v)和P(v  |  h)是因子的，并且计算和采样是相对简单的。

从联合分布中导出条件分布是直观的：

由于我们相对可见单元v计算条件概率，相对于分布P(h  |  v)我们可以将它们视为常数。条件分布P(h  |  v)因子相乘的本质，我们可以将向量h上的联合概率写成单独元素hj上（未归一化）分布的乘积。现在原问题变成了对单个二值hj上的分布进行归一化的简单问题。

现在我们可以将关于隐藏层的完全条件分布表达为因子形式：

类似的推导将显示我们感兴趣的另一个条件分布，P(ν  |  h)也是因子形式的分布：

20.2.2　训练受限玻尔兹曼机

因为RBM允许高效计算的估计和微分，并且还允许高效地（以块吉布斯采样的形式）进行MCMC采样，所以我们很容易使用第18章中训练具有难以计算配分函数模型的技术来训练RBM。这包括CD、SML（PCD）、比率匹配等。与深度学习中使用的其他无向模型相比，RBM可以相对直接地训练，因为我们可以以闭解形式计算P(h  |  ν)。其他一些深度模型，如深度玻尔兹曼机，同时具备难处理的配分函数和难以推断的难题。