3.8 期望、方差和协方差

书籍名:《深度学习》作者：伊恩.古德费洛

函数f(x)关于某分布P(x)的期望（expectation）或者期望值（expected  value）是指，当x由P产生，f作用于x时，f(x)的平均值。对于离散型随机变量，这可以通过求和得到

对于连续型随机变量，可以通过求积分得到

当概率分布在上下文中指明时，我们可以只写出期望作用的随机变量的名称来进行简化，例如。如果期望作用的随机变量也很明确，我们可以完全不写脚标，就像。默认地，我们假设表示对方括号内的所有随机变量的值求平均。类似地，当没有歧义时，我们还可以省略方括号。

期望是线性的，例如，

其中α和β不依赖于x。

方差（variance）衡量的是当我们对x依据它的概率分布进行采样时，随机变量x的函数值会呈现多大的差异：

当方差很小时，f(x)的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差（standard  deviation）。

协方差（covariance）在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度：

协方差的绝对值如果很大，则意味着变量值变化很大，并且它们同时距离各自的均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值，反之亦然。其他的衡量指标如相关系数（correlation）将每个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。

协方差和相关性是有联系的，但实际上是不同的概念。它们是有联系的：如果两个变量相互独立，那么它们的协方差为零；如果两个变量的协方差不为零，那么它们一定是相关的。然而，独立性又是和协方差完全不同的性质。两个变量如果协方差为零，它们之间一定没有线性关系。独立性是比零协方差的要求更强，因为独立性还排除了非线性的关系。两个变量相互依赖，但是具有零协方差是可能的。例如，假设我们首先从区间［−1，1］上的均匀分布中采样出一个实数x，然后对一个随机变量s进行采样。s以的概率值为1，否则为−1。我们可以通过令y=sx来生成一个随机变量y。显然，x和y不是相互独立的，因为x完全决定了y的尺度。然而，Cov(x,y)=0。

随机向量的协方差矩阵（covariance  matrix）是一个n×n的矩阵，并且满足

协方差矩阵的对角元是方差：