乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

15.5 得益于深度的指数增益

书籍名:《深度学习》    作者:伊恩.古德费洛



我们已经在第6.4.1节中看到,多层感知机是万能近似器,相比于浅层网络,一些函数能够用指数级小的深度网络表示。缩小模型规模能够提高统计效率。在本节中,我们描述如何将类似结果更一般地应用于其他具有分布式隐藏表示的模型。

在第15.4节中,我们看到了一个生成模型的示例,能够学习人脸图像的潜在解释因子,包括性别以及是否佩戴眼镜。完成这个任务的生成模型是基于一个深度神经网络的。浅层网络例如线性网络不能学习出这些抽象解释因子和图像像素之间的复杂关系。在这个任务和其他AI任务中,这些因子几乎彼此独立地被抽取,但仍然对应到有意义输入的因素,很有可能是高度抽象的,并且和输入呈高度非线性的关系。我们认为这需要深度分布式表示,需要许多非线性组合来获得较高级的特征(被视为输入的函数)或因子(被视为生成原因)。

在许多不同情景中已经证明,非线性和重用特征层次结构的组合来组织计算,可以使分布式表示获得指数级加速之外,还可以获得统计效率的指数级提升。许多种类的只有一个隐藏层的网络(例如,具有饱和非线性,布尔门,和/积,或RBF单元的网络)都可以被视为万能近似器。在给定足够多隐藏单元的情况下,这个模型族是一个万能近似器,可以在任意非零允错级别近似一大类函数(包括所有连续函数)。然而,隐藏单元所需的数量可能会非常大。关于深层架构表达能力的理论结果表明,有些函数族可以高效地通过深度k层的网络架构表示,但是深度不够(深度为2或k−1)时会需要指数级(相对于输入大小而言)的隐藏单元。

在第6.4.1节中,我们看到确定性前馈网络是函数的万能近似器。许多具有单个隐藏层(潜变量)的结构化概率模型(包括受限玻尔兹曼机、深度信念网络)是概率分布的万能近似器(Le  Roux  and  Bengio,2008,2010;Montúfar  and  Ay,2011;Montúfar,2014;Krause  et  al.,2013)。

在第6.4.1节中,我们看到足够深的前馈网络会比深度不够的网络具有指数级优势。这样的结果也能从诸如概率模型的其他模型中获得。和—积网络(sum-product  network,SPN)(Poon  and  Domingos,2011)是这样的一种概率模型。这些模型使用多项式回路来计算一组随机变量的概率分布。Delalleau  and  Bengio(2011)表明存在一种概率分布,对SPN的最小深度有要求,以避免模型规模呈指数级增长。后来,Martens  and  Medabalimi(2014)表明,任意两个有限深度的SPN之间都会存在显著差异,并且一些使SPN易于处理的约束可能会限制其表示能力。

另一个有趣的进展是,一系列和卷积网络相关的深度回路族表达能力的理论结果,即使让浅度回路只去近似深度回路计算的函数,也能突出反映深度回路的指数级优势(Cohen  et  al.,2015)。相比之下,以前的理论工作只研究了浅度回路必须精确复制特定函数的情况。