乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

6.6 历史小记

书籍名:《深度学习》    作者:伊恩.古德费洛



前馈网络可以被视为一种高效的非线性函数近似器,它以使用梯度下降来最小化函数近似误差为基础。从这个角度来看,现代前馈网络是一般函数近似任务的几个世纪进步的结晶。

处于反向传播算法底层的链式法则是17世纪发明的(Leibniz,1676;L'Hôpital,1696)。微积分和代数长期以来被用于求解优化问题的封闭形式,但梯度下降直到19世纪才作为优化问题的一种迭代近似的求解方法被引入(Cauchy,1847)。

从20世纪40年代开始,这些函数近似技术被用于导出诸如感知机的机器学习模型。然而,最早的模型都是基于线性模型。来自包括Marvin  Minsky的批评指出了线性模型族的几个缺陷,例如它无法学习XOR函数,这导致了对整个神经网络方法的抵制。

学习非线性函数需要多层感知机的发展和计算该模型梯度的方法。基于动态规划的链式法则的高效应用开始出现在20世纪60年代和70年代,主要用于控制领域(Kelley,1960;Bryson  and  Denham,1961;Dreyfus,1962;Bryson  and  Ho,1969;Dreyfus,1973),也用于灵敏度分析(Linnainmaa,1976)。Werbos(1981)提出应用这些技术来训练人工神经网络。这个想法以不同的方式被独立地重新发现后(LeCun,1985;Parker,1985;Rumelhart  et  al.,1986a),最终在实践中得以发展。《并行分布式处理》(Parallel  Distributed  Processing)一书在其中一章提供了第一次成功使用反向传播的一些实验的结果(Rumelhart  et  al.,1986b),这对反向传播的普及做出了巨大的贡献,并且开启了一个研究多层神经网络非常活跃的时期。然而,该书作者提出的想法,特别是Rumelhart和Hinton提出的想法远远超过了反向传播。它们包括一些关键思想,关于可能通过计算实现认知和学习的几个核心方面,后来被冠以“联结主义”的名称,因为它强调了神经元之间的连接作为学习和记忆的轨迹的重要性。特别地,这些想法包括分布式表示的概念(Hinton  et  al.,1986)。

在反向传播的成功之后,神经网络研究获得了普及,并在20世纪90年代初达到高峰。随后,其他机器学习技术变得更受欢迎,直到2006年开始的现代深度学习复兴。

现代前馈网络的核心思想自20世纪80年代以来没有发生重大变化,仍然使用相同的反向传播算法和相同的梯度下降方法。1986∼2015年,神经网络性能的大部分改进可归因于两个因素:第一,较大的数据集减少了统计泛化对神经网络的挑战的程度。第二,神经网络由于更强大的计算机和更好的软件基础设施已经变得更大。然而,少量算法上的变化也显著改善了神经网络的性能。

其中一个算法上的变化是用交叉熵族损失函数替代均方误差损失函数。均方误差在20世纪80年代和90年代流行,但逐渐被交叉熵损失替代,并且最大似然原理的想法在统计学界和机器学习界之间广泛传播。使用交叉熵损失大大提高了具有sigmoid和softmax输出的模型的性能,而当使用均方误差损失时会存在饱和和学习缓慢的问题。

另一个显著改善前馈网络性能的算法上的主要变化是使用分段线性隐藏单元来替代sig-moid隐藏单元,例如用整流线性单元。使用max{0,z}函数的整流在早期神经网络中已经被引入,并且至少可以追溯到认知机(Cognitron)和神经认知机(Neocognitron)(Fukushima,1975,1980)。这些早期的模型没有使用整流线性单元,而是将整流用于非线性函数。尽管整流在早期很普及,在20世纪80年代,整流很大程度上被sigmoid所取代,也许是因为当神经网络非常小时,sigmoid表现更好。到21世纪初,由于有些迷信的观念认为,必须避免具有不可导点的激活函数,所以避免了整流线性单元。这在2009年开始发生改变。Jarrett  et  al.(2009b)观察到,在神经网络结构设计的几个不同因素中“使用整流非线性是提高识别系统性能的最重要的唯一因素”。

对于小的数据集,Jarrett  et  al.(2009b)观察到,使用整流非线性甚至比学习隐藏层的权重值更加重要。随机的权重足以通过整流网络传播有用的信息,允许在顶部的分类器层学习如何将不同的特征向量映射到类标识。

当有更多数据可用时,学习开始提取足够的有用知识来超越随机选择参数的性能。Glorot  et  al.(2011a)说明,在深度整流网络中的学习比在激活函数具有曲率或两侧饱和的深度网络中的学习更容易。

整流线性单元还具有历史意义,因为它们表明神经科学继续对深度学习算法的发展产生影响。Glorot  et  al.(2011a)从生物学考虑整流线性单元的导出。半整流非线性旨在描述生物神经元的这些性质:(1)对于某些输入,生物神经元是完全不活跃的。(2)对于某些输入,生物神经元的输出和它的输入成比例。(3)大多数时间,生物神经元是在它们不活跃的状态下进行操作(即它们应该具有稀疏激活(sparse  activation))。

当2006年深度学习开始现代复兴时,前馈网络仍然有不良的声誉。从2006∼2012年,人们普遍认为,前馈网络不会表现良好,除非它们得到其他模型的辅助,例如概率模型。现在已经知道,只要具备适当的资源和工程实践,前馈网络表现得非常好。今天,前馈网络中基于梯度的学习被用作发展概率模型的工具,例如第20章中描述的变分自编码器和生成式对抗网络。前馈网络中基于梯度的学习自2012年以来一直被视为一种强大的技术,并应用于许多其他机器学习任务,而不是被视为必须由其他技术支持的不可靠技术。2006年,业内使用无监督学习来支持监督学习。现在更讽刺的是,使用监督学习来支持无监督学习更常见。

前馈网络还有许多未实现的潜力。未来,我们期望它们用于更多的任务,优化算法和模型设计的进步将进一步提高它们的性能。本章主要描述了神经网络模型族。在接下来的章节中,我们将讨论如何使用这些模型——如何对它们进行正则化和训练。


————————————————————

(1)  译者注:这里原文是“If  we  use  a  diagonal  matrix,or  a  scalar  times  the  diagonal  matrix…”,即“如果我们使用对角矩阵,或者是一个标量乘以对角矩阵……  ”,但一个标量乘以对角矩阵和对角矩阵没区别,结合上下文可以看出,这里原作者误把“identity”写成了“diagonal  matrix”,因此这里采用“常数乘以单位矩阵”的译法。

(2)  之所以认为c是潜在的,是因为我们不能直接在数据中观测到它:给定输入x和目标y,不可能确切地知道是哪个高斯组件产生y,但我们可以想象y是通过选择其中一个来产生的,并且将那个未被观测到的选择作为随机变量。