乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

3.13 信息论

书籍名:《深度学习》    作者:伊恩.古德费洛



信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。在这种情况下,信息论告诉我们如何对消息设计最优编码以及计算消息的期望长度,这些消息是使用多种不同编码机制、从特定的概率分布上采样得到的。在机器学习中,我们也可以把信息论应用于连续型变量,此时某些消息长度的解释不再适用。信息论是电子工程和计算机科学中许多领域的基础。在本书中,我们主要使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。有关信息论的更多细节,参见Cover  and  Thomas(2006)或者MacKay(2003)。

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。消息说:“今天早上太阳升起”,信息量是如此之少,以至于没有必要发送;但一条消息说:“今天早上有日食”,信息量就很丰富。

我们想要通过这种基本想法来量化信息。特别是:

非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件应该没有信息量。

较不可能发生的事件具有更高的信息量。

独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

为了满足上述3个性质,我们定义一个事件x=x的自信息(self-information)为

在本书中,我们总是用log来表示自然对数,其底数为e。因此我们定义的I(x)单位是奈特(nats)。一奈特是以的概率观测到一个事件时获得的信息量。其他的材料中使用底数为2的对数,单位是比特(bit)或者香农(shannons);通过比特度量的信息只是通过奈特度量信息的常数倍。

当x是连续的,我们使用类似的关于信息的定义,但有些来源于离散形式的性质就丢失了。例如,一个具有单位密度的事件信息量仍然为0,但是不能保证它一定发生。

自信息只处理单个的输出。我们可以用香农熵(Shannon  entropy)来对整个概率分布中的不确定性总量进行量化:

也记作H(P)。换言之,一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。它给出了对依据概率分布P生成的符号进行编码所需的比特数在平均意义上的下界(当对数底数不是2时,单位将有所不同)。那些接近确定性的分布(输出几乎可以确定)具有较低的熵;那些接近均匀分布的概率分布具有较高的熵。图3.5给出了一个说明。当x是连续的,香农熵被称为微分熵(differential  entropy)。

图3.5 二值随机变量的香农熵。该图说明了更接近确定性的分布是如何具有较低的香农熵,而更接近均匀分布的分布是如何具有较高的香农熵。水平轴是p,表示二值随机变量等于1的概率。熵由(p−1)log(1−p)−p  log  p给出。当p接近0时,分布几乎是确定的,因为随机变量几乎总是0。当p接近1时,分布也几乎是确定的,因为随机变量几乎总是1。当p=0.5时,熵是最大的,因为分布在两个结果(0和1)上是均匀的

如果对于同一个随机变量x有两个单独的概率分布P(x)和Q(x),可以使用KL散度(Kullback-Leibler(KL)divergence)来衡量这两个分布的差异:

在离散型变量的情况下,KL散度衡量的是,当我们使用一种被设计成能够使得概率分布Q产生的消息的长度最小的编码,发送包含由概率分布P产生的符号的消息时,所需要的额外信息量(如果我们使用底数为2的对数时,信息量用比特衡量,但在机器学习中,我们通常用奈特和自然对数。)

图3.6 KL散度是不对称的。假设我们有一个分布P(x),并且希望用另一个分布q(x)来近似它。我们可以选择最小化或最小化。为了说明每种选择的效果,我们令p是两个高斯分布的混合,令q为单个高斯分布。选择使用KL散度的哪个方向是取决于问题的。一些应用需要这个近似分布q在真实分布p放置高概率的所有地方都放置高概率,而其他应用需要这个近似分布q在真实分布p放置低概率的所有地方都很少放置高概率。KL散度方向的选择反映了对于每种应用,优先考虑哪一种选择。(左)最小化的效果。在这种情况下,我们选择一个q,使得它在p具有高概率的地方具有高概率。当p具有多个峰时,q选择将这些峰模糊到一起,以便将高概率质量放到所有峰上。(右)最小化的效果。在这种情况下,我们选择一个q,使得它在p具有低概率的地方具有低概率。当p具有多个峰并且这些峰间隔很宽时,如该图所示,最小化KL散度会选择单个峰,以避免将概率质量放置在p的多个峰之间的低概率区域中。这里,我们说明当q被选择成强调左边峰时的结果。我们也可以通过选择右边峰来得到KL散度相同的值。如果这些峰没有被足够强的低概率区域分离,那么KL散度的这个方向仍然可能选择模糊这些峰

KL散度有很多有用的性质,最重要的是,它是非负的。KL散度为0,当且仅当P和Q在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的。因为KL散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。然而,它并不是真的距离,因为它不是对称的:对于某些P和Q,。这种非对称性意味着选择还是影响很大。更多细节可以看图3.6。

一个和KL散度密切联系的量是交叉熵(cross-entropy),即,它和KL散度很像,但是缺少左边一项:

针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。

当我们计算这些量时,经常会遇到0  log  0这个表达式。按照惯例,在信息论中,我们将这个表达式处理为limx→0  x  log  x=0。