第42章

书籍名:《复杂性中的思维物质》作者：克劳斯·迈因策尔

                                    如果所希望的输出等于0，实际上输出等于1，那么所有具有激活元素的权重都会消失，或形式上有wij（t＋1）＝wij（t）－σoj。

        感知机看来是以无所不能的神经网络开创了一个计算机技术的新时代。感知机小组在早期的文章中进行了如此的夸张。但是，1969年，尖锐的批评使得这种热情消失了。那一年，马尔文·闵斯基和西摩·帕佩特出版了一本著名的书《感知机》，书中以数学精确性讨论了感知机的局限性。对于这一分析的反应是，大多数研究小组都放弃了它们对于神经网络和复杂系统探究方式的兴趣，而转向经典的AI和计算机技术，看来这比感知机迷的“猜测”要更有益。

        但是1969年以后的这种科学共同体的态度，当然是又一次反应过度了。无批判的热情和无批判的谴责，对于科学的进化都是不合适的做法。达尔文进化用了成千上万年，才使得我们的大脑具有了模式识别的能力。如果我们的工程师只用几年就成功地构造出来类似的神经计算机，那就是奇迹了。

        关键是随后的一些问题。感知机能够干什么？不能干什么？感知机为何不能干？回答这些问题的一个基本步骤是闵斯基和帕佩特证明的所谓感知机收敛定理。它保证了原则上可用此种网络学习并可在有限的学习步骤中发现解。在这种意义上，系统收敛到一个解已经得到了证明。

        但是由此引出的问题是，特定的解是否原则上可以用感知机进行学习。一般地说，我们必须确定适用于感知机的问题类型。一些简单的例子表明，感知机并非如最初热情中所相信的那样是通用的。例如，一台感知机是不可能区别偶数和奇数的。一个特例是所谓的奇偶性问题对于初等逻辑的如下应用。

        感知机不能学习排除OR（缩写为XOR）。这种无法解决的认知任务是感知机应用于AI的一个严重局限。此原因容易说明。排除OR对于xXORy，仅当或x或y为真时为真，并非x和y都为真。一条OR语句的xORy，仅当x和y都为假时为假，否则为真。如下的表提供了布尔函数OR和XOR的值：

        现在，设想一个网络，有两个输入单元x和y，以及一个输出单元z，它们可以采取状态1（激活）和0（末激活）。要模拟XOR，对于一个偶的输入（两个输入单元都是激活的或都是末激活的），输出应该为0，而对于一个奇的输入（一个单元是激活的，另一个是末激活的），输出应该为1。在图5．19a，b中OR和XOR的可能输入构型示意在一个坐标系中，其中输人x和y作为坐标。

        坐标x和y的每一对（x，y）具有相应的值z，它是用白点（0）或黑点（1）来标记的。一个线性的阈值元素Θ计算加权输入x和y，权重是w1和w2，形式上即是Θ＝w1x＋w2y。一个简单的求导提供了一条直线，示意在图5．19a，b中。直线的位置是由权重w1和w2确定的。它将阈值元素的激活和末激活的状态隔离开来。

        为了求解（“学习”）OR问题或XOR问题，权重w1和w2必须以这样的方式加以调整，使点（x，y）以及值z＝1与具有0值的点隔离开。这种线性的隔离对于OR问题从几何上是可能的，但是对于XOR问题是不可能的。一般地说，感知机对于输入模式的分类，局限在线性隔离模式的范围。

        这种结果能够容易地被推广到两个以上输入单元和真值。许多问题在线性不可隔离的意义上，类似于XOR。实际上大多数有趣的计算问题都具有这种特征。XOR问题可以由加上一个隐含单元到具有两个输入与输出相关联的网络中来解决。隐含的元素是与输入和输出都关联的（图5.19c）。

        当两个输入都是0时，具有正值的隐含中间单元就关闭了。一个0信号到达输出，以及由于在这种情况下阈值为正，所以输出为零。如果两个输入中只有一个为1，隐含单元保持关闭，输出单元由输入和输出之间的直接关联而接通。最后，当两个输入都是1，隐含的单元发放到1，并以负的权重-2抑制了输出的接通。

        因此，隐含单元允许某种适当的内部表示。XOR问题已经成为一个在三维坐标体系中用二维平面进行线性分隔的问题，3维坐标系以输出单元的3个输入为坐标。分割是可能的，因为输入（1，1），现在z平面上移动到了点（1，1，1）（图5．19d）。

        一台感知机只有一个中间层，它是可以学习的处理元素。对于多层网络，问题是，对于与外界没有关联的多层神经元，产生的错误是不可能直接察觉的。一个错误可以是直接在输出层和其下的中间层之间产生的。

        多层神经网络可能具有的表示能力和问题求解能力，取决于学习层的数目和在这些层中的单元数目。因此，对于神经计算机的一个至关重要的问题就是要研究计算的复杂性，因为神经网络的复杂性的增加是从感知机的局限性中走出来的方式。

        在4．2节中，我们已经讨论了在多层神经网络中的后向传播（图4．17）。一个后向传播的学习算法使得我们去定义甚至处于隐含层上的一个错误的信号。输出层上的错误是递归地向后传播给下面的层次的。该算法是能够构造具有许多隐含层的网络的，其神经元能够进行学习。比起单层网络来，多层网络在其隐含的层次中可以表示多得多的信息，所以后向传播网络对于克服感知机的弱点是非常有用的模型。

        但是，后向传播仅仅从技术上提供了成功的模型，这些模型一般并不与生物进化相类似。它们的权重调整看来很不同于人们所知道的生物突触的行为。计算机技术的目的并不在于模拟大脑，而是在合理的时间内实现的问题有效求解。另一方面，我们必须要放弃孩童式的幻想，认为自然是类似上帝的工程师，进化中他总是在发现最好的解。正如我们在前面的章节已经强调的，自然中没有集中化的控制和编程单元。常常只有局部的解。它们一般并非是“最优”的。

        1988年，戈尔曼和西杰诺夫斯基设计了一种馈向网络，并用误差后向传播方法对其进行训练，试图将其用于区别岩石与矿石的声纳系统。要区别出岩石与矿石的回声是相当困难的，甚至用受过训练的人耳也难以胜任，而这对于海底的工程是相当重要的，海底工程需要能区别爆炸矿石和岩石的声纳系统。用于这种目的的网络构造中，输入层有60个单元，隐含层有1－24个单元以及两个输出单元，每一个代表将要进行区别的原型“矿石”或“岩石”（图5．20）。

        最初，一定的声纳回声是用频率分析器来处理的，它分解成60个不同的频率带。每一复盖间隔的值域在0和1之间。这些60个值是一个输入矢量的组分，输入矢量给予相应的输入单元。它们由隐含的单元进行变换，导致了两个输出单元之一的激活，这里的值也在0和1之间。因此在一个经过训练的很好调节了权重的网络中，一种矿石的回声导致输出信号（1，0），而岩石的回声则具有输出信号（0，1）。

        为了训练此网络，我们必须向它输入矿石和岩石回声的样品。在每一种情况下，输出单元的实际值，都按照相应的输入，进行了测量并与预期值进行比较。其差异是错误信号，引发单元中的权重发生小的变化。用这种梯度下降的程序，网络的权重就缓慢地进行了调整。

        戈尔曼和西杰诺夫斯基的矿石－岩石网络是复杂系统对于AI的一种应用。当然，它并没有声称，此系统在模拟人的大脑来区分像“矿石”和“岩石”这样两个概念。但是，我们可以说，这种技术系统也具有某种内部表示，即表示了作为其隐含层中原型矢量的两个概念。在这种限制的意义上，人工系统是有“智能”的，因为它可以完成在人脑情况下用智能来进行评价的任务。人工网络并不局限于对概念进行二元区分。1986年，西杰诺夫斯基和罗森伯格设计了一种叫做NETalk的网络，它已经学会了如何阅读。它采取从英语教科书中形成的字符串，并将它们转化成音素串以输入到语音合成器中。惊人的事实并不是它像小孩似的口吃的声音，在通俗书中它已经被赞为辉煌的成功。NETalk的基本能力是对于若干拼音概念的内部表示。对于字母表中的每一字母，至少有一个音素指定给它。对于许多字母，其中有若干音素需要标记，这取决于词汇的上下文。

        西杰诺夫斯基和罗森伯格运用了3层馈向网络。它有一个输入层，一个中间隐含层和一个输出层。尽管后向传播与生物学大脑中“自然地”实现颇为不同，但与其他的解相比，它都表现为最快的学习程序。输入层注视课文的七字符窗口，例如，图5．21a中的短语“The－phone－is－”中的词“phone”。每一个七字符都被29个神经元相继地进行了分析，每一神经元代表了字母表中的一个字母，也包括括号和标点。因此，正好是每一具有29个元素的神经子系统的一个神经元被激活。

        输出层包括26个神经元，每一个神经元表示一个拼音组分。