乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

2.7 特征分解

书籍名:《深度学习》    作者:伊恩.古德费洛



许多数学对象可以通过将它们分解成多个组成部分或者找到它们的一些属性来更好地理解。这些属性是通用的,而不是由我们选择表示它们的方式所产生的。

例如,整数可以分解为质因数。我们可以用十进制或二进制等不同方式表示整数12,但是12=2×2×3永远是对的。从这个表示中我们可以获得一些有用的信息,比如12不能被5整除,或者12的倍数可以被3整除。

正如我们可以通过分解质因数来发现整数的一些内在性质,我们也可以通过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。

特征分解(eigendecomposition)是使用最广的矩阵分解之一,即我们将矩阵分解成一组特征向量和特征值。

方阵A的特征向量(eigenvector)是指与A相乘后相当于对该向量进行缩放的非零向量ν:

其中标量λ称为这个特征向量对应的特征值(eigenvalue)。(类似地,我们也可以定义左特征向量(left  eigenvector),但是通常我们更关注右特征向量(right  eigenvector))。

如果ν是A的特征向量,那么任何缩放后的向量也是A的特征向量。此外,sν和ν有相同的特征值。基于这个原因,通常我们只考虑单位特征向量。

假设矩阵A有n个线性无关的特征向量,对应着特征值。我们将特征向量连接成一个矩阵,使得每一列是一个特征向量:。类似地,我们也可以将特征值连接成一个向量。因此A的特征分解(eigendecomposition)可以记作

我们已经看到了构建具有特定特征值和特征向量的矩阵,能够使我们在目标方向上延伸空间。然而,我们也常常希望将矩阵分解(decompose)成特征值和特征向量。这样可以帮助我们分析矩阵的特定性质,就像质因数分解有助于我们理解整数。

不是每一个矩阵都可以分解成特征值和特征向量。在某些情况下,特征分解存在,但是会涉及复数而非实数。幸运的是,在本书中,我们通常只需要分解一类有简单分解的矩阵。具体来讲,每个实对称矩阵都可以分解成实特征向量和实特征值:

其中Q是A的特征向量组成的正交矩阵,Λ是对角矩阵。特征值Λi,i对应的特征向量是矩阵Q的第i列,记作Q:,i。因为Q是正交矩阵,我们可以将A看作沿方向ν(i)延展λi倍的空间,如图2.3所示。

图2.3 特征向量和特征值的作用效果。特征向量和特征值的作用效果的一个实例。在这里,矩阵A有两个标准正交的特征向量,对应特征值为λ1的ν(1)以及对应特征值为λ2的ν(2)。(左)我们画出了所有单位向量的集合,构成一个单位圆。(右)我们画出了所有Au点的集合。通过观察A拉伸单位圆的方式,我们可以看到它将ν(i)方向的空间拉伸了λi倍

虽然任意一个实对称矩阵A都有特征分解,但是特征分解可能并不唯一。如果两个或多个特征向量拥有相同的特征值,那么在由这些特征向量产生的生成子空间中,任意一组正交向量都是该特征值对应的特征向量。因此,我们可以等价地从这些特征向量中构成Q作为替代。按照惯例,我们通常按降序排列Λ的元素。在该约定下,特征分解唯一,当且仅当所有的特征值都是唯一的。

矩阵的特征分解给了我们很多关于矩阵的有用信息。矩阵是奇异的,当且仅当含有零特征值。实对称矩阵的特征分解也可以用于优化二次方程,其中限制。当x等于A的某个特征向量时,f将返回对应的特征值。在限制条件下,函数f的最大值是最大特征值,最小值是最小特征值。

所有特征值都是正数的矩阵称为正定(positive  definite);所有特征值都是非负数的矩阵称为半正定(positive  semidefinite)。同样地,所有特征值都是负数的矩阵称为负定(negative  definite);所有特征值都是非正数的矩阵称为半负定(negative  semidefinite)。半正定矩阵受到关注是因为它们保证。此外,正定矩阵还保证。