3.12 连续型变量的技术细节

书籍名:《深度学习》作者：伊恩.古德费洛

连续型随机变量和概率密度函数的深入理解需要用到数学分支测度论（measure  theory）的相关内容来扩展概率论。测度论超出了本书的范畴，但我们可以简要介绍一些测度论用来解决的问题。

在第3.3.2节中，我们已经看到连续型向量值随机变量x落在某个集合中的概率是通过p(x)对集合积分得到的。对于集合的一些选择可能会引起悖论。例如，构造两个集合和使得并且是可能的。这些集合通常是大量使用了实数的无限精度来构造的，例如通过构造分形形状（fractal-shaped）的集合或者是通过有理数相关集合的变换定义的集合。(3)测度论的一个重要贡献就是提供了一些集合的特征，使得我们在计算概率时不会遇到悖论。在本书中，我们只对相对简单的集合进行积分，所以测度论的这个方面不会成为一个相关考虑。

对于我们的目的，测度论更多的是用来描述那些适用于上的大多数点，却不适用于一些边界情况的定理。测度论提供了一种严格的方式来描述那些非常微小的点集。这种集合被称为“零测度（measure  zero）”的。我们不会在本书中给出这个概念的正式定义。然而，直观地理解这个概念是有用的，可以认为零测度集在我们的度量空间中不占有任何的体积。例如，在R2空间中，一条直线的测度为零，而填充的多边形具有正的测度。类似地，一个单独的点的测度为零。可数多个零测度集的并仍然是零测度的（所以，所有有理数构成的集合的测度为零）。

另外一个有用的测度论中的术语是“几乎处处（almost  everywhere）”。某个性质如果是几乎处处都成立的，那么它在整个空间中除了一个测度为零的集合以外都是成立的。因为这些例外只在空间中占有极其微小的量，它们在多数应用中都可以被放心地忽略。概率论中的一些重要结果对于离散值成立，但对于连续值只能是“几乎处处”成立。

连续型随机变量的另一技术细节涉及处理那种相互之间有确定性函数关系的连续型变量。假设有两个随机变量x和y满足y=g(x)，其中g是可逆的、连续可微的函数。可能有人会想。但实际上这并不对。

举一个简单的例子，假设有两个标量值随机变量x和y，并且满足以及x∼U(0,1)。如果我们使用py(y)=px(2y)，那么py除了区间以外都为0，并且在这个区间上的值为1。这意味着

而这违背了概率密度的定义（积分为1）。这个常见错误之所以错，是因为它没有考虑到引入函数g后造成的空间变形。回忆一下，x落在无穷小的体积为δx的区域内的概率为p(x)δx。因为g可能会扩展或者压缩空间，在x空间内的包围着x的无穷小体积在y空间中可能有不同的体积。

为了看出如何改正这个问题，我们回到标量值的情况。我们需要保持下面这个性质：

求解上式，我们得到

或者等价地，

在高维空间中，微分运算扩展为Jacobian矩阵（Jacobian  matrix）的行列式——矩阵的每个元素为。因此，对于实值向量x和y，