乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

16.5 学习依赖关系

书籍名:《深度学习》    作者:伊恩.古德费洛



良好的生成模型需要准确地捕获所观察到的或“可见”变量v上的分布。通常v的不同元素彼此高度依赖。在深度学习中,最常用于建模这些依赖关系的方法是引入几个潜在或“隐藏”变量h。然后,该模型可以捕获任何对(变量vi和vj间接依赖可以通过vi和h之间直接依赖,h和vj直接依赖捕获)之间的依赖关系。

如果一个良好的关于v的模型不包含任何潜变量,那么它在贝叶斯网络中的每个节点需要具有大量父节点或在马尔可夫网络中具有非常大的团。仅仅表示这些高阶相互作用的成本就很高了,首先从计算角度考虑,存储在存储器中的参数数量是团中成员数量的指数级别,接着在统计学意义上,因为这些指数数量的参数需要大量的数据来准确估计。

当模型旨在描述直接连接的可见变量之间的依赖关系时,通常不可能连接所有变量,因此设计图模型时需要连接那些紧密相关的变量,并忽略其他变量之间的作用。机器学习中有一个称为结构学习(structure  learning)的领域专门讨论这个问题。Koller  and  Friedman(2009)是一个不错的结构学习参考资料。大多数结构学习技术基于一种贪婪搜索的形式。它们提出了一种结构,对具有该结构的模型进行训练,然后给出分数。该分数奖励训练集上的高精度并对模型的复杂度进行惩罚。然后提出添加或移除少量边的候选结构作为搜索的下一步。搜索向一个预计会增加分数的新结构发展。

使用潜变量而不是自适应结构避免了离散搜索和多轮训练的需要。可见变量和潜变量之间的固定结构可以使用可见单元和隐藏单元之间的直接作用,从而建模可见单元之间的间接作用。使用简单的参数学习技术,我们可以学习到一个具有固定结构的模型,这个模型在边缘分布p(ν)上拥有正确的结构。

潜变量除了发挥本来的作用,即能够高效地描述p(v)以外,还具有另外的优势。新变量h还提供了v的替代表示。例如,如第3.9.6节所示,高斯混合模型学习了一个潜变量,这个潜变量对应于输入样本是从哪一个混合体中抽出。这意味着高斯混合模型中的潜变量可以用于做分类。我们可以看到第14章中简单的概率模型如稀疏编码,是如何学习可以用作分类器输入特征或者作为流形上坐标的潜变量的。其他模型也可以使用相同的方式,但是更深的模型和具有多种相互作用方式的模型可以获得更丰富的输入描述。许多方法通过学习潜变量来完成特征学习。通常,给定v和h,实验观察显示或arg  maxh  p(h,ν)都是ν的良好特征映射。