9.11 卷积网络与深度学习的历史

书籍名:《深度学习》作者：伊恩.古德费洛

卷积网络在深度学习的历史中发挥了重要作用。它们是将研究大脑获得的深刻理解成功用于机器学习应用的关键例子。它们也是首批表现良好的深度模型之一，远远早于任意深度模型被认为是可行的之前。卷积网络也是第一个解决重要商业应用的神经网络，并且仍然处于当今深度学习商业应用的前沿。例如，在20世纪90年代，AT＆T的神经网络研究小组开发了一个用于读取支票的卷积网络（LeCun  et  al.，1998c）。到90年代末，NEC部署的这个系统已经被用于读取美国10％以上的支票。后来，微软公司部署了若干个基于卷积网络的OCR和手写识别系统（Simard  et  al.，2003）。关于卷积网络的这种应用和更现代应用的更多细节，参考第12章。读者可以参考（LeCun  et  al.，2010）了解2010年之前的更为深入的卷积网络历史。

卷积网络也被用作在许多比赛中的取胜手段。当前对深度学习的商业兴趣的热度始于Krizhevsky  et  al.（2012a）赢得了ImageNet对象识别挑战，但是在那之前，卷积网络也已经被用于赢得前些年影响较小的其他机器学习和计算机视觉竞赛了。

卷积网络是第一批能使用反向传播有效训练的深度网络之一。现在仍不完全清楚为什么卷积网络在一般的反向传播网络被认为已经失败时反而成功了。这可能可以简单地归结为卷积网络比全连接网络计算效率更高，因此使用它们运行多个实验并调整它们的实现和超参数更容易。更大的网络也似乎更容易训练。利用现代硬件，大型全连接的网络在许多任务上也表现得很合理，即使使用过去那些全连接网络被认为不能工作得很好的数据集和当时流行的激活函数时，现在也能执行得很好。心理可能是神经网络成功的主要阻碍（实践者没有期望神经网络有效，所以他们没有认真努力地使用神经网络）。无论如何，幸运的是卷积网络在几十年前就表现良好。在许多方面，它们为余下的深度学习传递火炬，并为一般的神经网络被接受铺平了道路。

卷积网络提供了一种方法来特化神经网络，使其能够处理具有清楚的网格结构拓扑的数据，以及将这样的模型扩展到非常大的规模。这种方法在二维图像拓扑上是最成功的。为了处理一维序列数据，我们接下来转向神经网络框架的另一种强大的特化：循环神经网络。

————————————————————

(1)  译者注：本书中operation视语境有时翻译成“运算”，有时翻译成“操作”。

(2)  译者注：原文将此处误写成了I′。

(3)  译者注：原文将K误写成了k。