20.8 其他玻尔兹曼机

书籍名:《深度学习》作者：伊恩.古德费洛

玻尔兹曼机的许多其他变种是可能的。

玻尔兹曼机可以用不同的训练准则扩展。我们专注于训练为大致最大化生成标准log p(ν)的玻尔兹曼机。相反，旨在最大化log p(y｜ν)来训练判别的RBM也是有可能的（Larochelle and Bengio，2008a）。当使用生成性和判别性标准的线性组合时，该方法通常表现最好。不幸的是，至少使用现有的方法来看，RBM似乎并不如MLP那样的监督学习器强大。

在实践中使用的大多数玻尔兹曼机在其能量函数中仅具有二阶相互作用，意味着它们的能量函数是许多项的和，并且每个单独项仅包括两个随机变量之间的乘积。这种项的一个例子是νiWi,jhj。我们还可以训练高阶玻尔兹曼机（Sejnowski，1987），其中能量函数项涉及许多变量的乘积。隐藏单元和两个不同图像之间的三向交互可以建模从一个视频帧到下一个帧的空间变换（Memisevic and Hinton，2007，2010）。通过one-hot类别变量的乘法可以根据存在哪个类来改变可见单元和隐藏单元之间的关系（Nair and Hinton，2009）。使用高阶交互的一个最近的示例是具有两组隐藏单元的玻尔兹曼机，一组同时与可见单元ν和类别标签y交互，另一组仅与输入值ν交互（Luo et al.，2011）。这可以被解释为鼓励一些隐藏单元学习使用与类相关的特征来建模输入，而且还学习额外的隐藏单元（不需要根据样本类别，学习逼真ν样本所需的繁琐细节）。高阶交互的另一个用途是选通一些特征。Sohn et al.（2013）介绍了一个带有三阶交互的玻尔兹曼机，以及与每个可见单元相关的二进制掩码变量。当这些掩码变量设置为0时，它们消除可见单元对隐藏单元的影响。这允许将与分类问题不相关的可见单元从估计类别的推断路径中移除。

更一般地说，玻尔兹曼机框架是一个丰富的模型空间，允许比迄今为止已经探索的更多的模型结构。开发新形式的玻尔兹曼机相比于开发新的神经网络层需要更多细心和创造力，因为它通常很难找到一个能保持玻尔兹曼机所需的所有不同条件分布的可解性的能量函数。尽管这需要努力，该领域仍对创新开放。