乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

20.14 评估生成模型

书籍名:《深度学习》    作者:伊恩.古德费洛



研究生成模型的研究者通常需要将一个生成模型与另一个生成模型比较,通常是为了证明新发明的生成模型比之前存在的模型更能捕获一些分布。

这可能是一个困难且微妙的任务。通常,我们不能实际评估模型下数据的对数概率,但仅可以评估一个近似。在这些情况下,重要的是思考和沟通清楚正在测量什么。例如,假设我们可以评估模型A对数似然的随机估计和模型B对数似然的确定性下界。如果模型A得分高于模型B,哪个更好?如果我们关心确定哪个模型具有分布更好的内部表示,我们实际上不能说哪个更好,除非我们有一些方法来确定模型B的边界有多松。然而,如果我们关心在实践中该模型能用得多好,例如执行异常检测,则基于特定于感兴趣的实际任务的准则,可以公平地说模型是更好的,例如基于排名测试样例和排名标准,如精度和召回率。

评估生成模型的另一个微妙之处是,评估指标往往是自身困难的研究问题。可能很难确定模型是否被公平比较。例如,假设我们使用AIS来估计log  Z,以便为我们刚刚发明的新模型计算。AIS计算经济的实现可能无法找到模型分布的几种模式并低估Z,这将导致我们高估。因此可能难以判断高似然估计是否是良好模型或不好的AIS实现导致的结果。

机器学习的其他领域通常允许在数据预处理中有一些变化。例如,当比较对象识别算法的准确性时,通常可接受的是对每种算法略微不同地预处理输入图像(基于每种算法具有何种输入要求)。而因为预处理的变化,会导致生成式建模的不同,甚至非常小和微妙的变化也是完全不可接受的。对输入数据的任何更改都会改变要捕获的分布,并从根本上改变任务。例如,将输入乘以0.1将人为地将概率增加10倍。

预处理的问题通常在基于MNIST数据集上的生成模型产生,MNIST数据集是非常受欢迎的生成式建模基准之一。MNIST由灰度图像组成。一些模型将MNIST图像视为实向量空间中的点,而其他模型将其视为二值。还有一些将灰度值视为二值样本的概率。我们必须将实值模型仅与其他实值模型比较,二值模型仅与其他二值模型进行比较。否则,测量的似然性不在相同的空间。对于二值模型,对数似然可以最多为零,而对于实值模型,它可以是任意高的,因为它是关于密度的测度。在二值模型中,比较使用完全相同的二值化模型是重要的。例如,我们可以将0.5设为阈值后,将灰度像素二值化为0或1,或者通过由灰度像素强度给出样本为1的概率来采一个随机样本。如果我们使用随机二值化,我们可能将整个数据集二值化一次,或者我们可能为每个训练步骤采不同的随机样例,然后采多个样本进行评估。这三个方案中的每一个都会产生极不相同的似然数,并且当比较不同的模型时,两个模型使用相同的二值化方案来训练和评估是重要的。事实上,应用单个随机二值化步骤的研究者共享包含随机二值化结果的文件,使得基于二值化步骤的不同输出的结果没有差别。

因为从数据分布生成真实样本是生成模型的目标之一,所以实践者通常通过视觉检查样本来评估生成模型。在最好的情况下,这不是由研究人员本身,而是由不知道样品来源的实验受试者完成(Denton  et  al.,2015)。不幸的是,非常差的概率模型可能会产生非常好的样本。验证模型是否仅复制一些训练示例的常见做法如图16.1所示。该想法是根据在x空间中的欧几里得距离,为一些生成的样本显示它们在训练集中的最近邻。此测试旨在检测模型过拟合训练集并仅再现训练实例的情况。甚至可能同时欠拟合和过拟合,但仍然能产生单独看起来好的样本。想象一下,生成模型用狗和猫的图像训练时,但只是简单地学习来重现狗的训练图像。这样的模型明显过拟合,因为它不能产生不在训练集中的图像,但是它也欠拟合,因为它不给猫的训练图像分配概率。然而,人类观察者将判断狗的每个个体图像都是高质量的。在这个简单的例子中,对于能够检查许多样本的人类观察者来说,确定猫的不存在是容易的。在更实际的设定中,在具有数万个模式的数据上训练后的生成模型可以忽略少数模式,并且人类观察者不能容易地检查或记住足够的图像以检测丢失的变化。

由于样本的视觉质量不是可靠的标准,所以当计算可行时,我们通常还评估模型分配给测试数据的对数似然。不幸的是,在某些情况下,似然性似乎不可能测量我们真正关心的模型的任何属性。例如,MNIST的实值模型可以将任意低的方差分配给从不改变的背景像素,获得任意高的似然。即使这不是一个非常有用的事情,检测这些常量特征的模型和算法也可以获得无限的奖励。实现接近负无穷代价的可能性存在于任何实值的最大似然问题中,但是对于MNIST的生成模型问题尤为严重,因为许多输出值是不需要预测的。这强烈地表明需要开发评估生成模型的其他方法。

Theis  et  al.(2015)回顾了评估生成模型所涉及的许多问题,包括上述的许多想法。他们强调了生成模型有许多不同的用途,并且指标的选择必须与模型的预期用途相匹配。例如,一些生成模型更好地为大多数真实的点分配高概率,而其他生成模型擅长于不将高概率分配给不真实的点。这些差异可能源于生成模型是设计为最小化还是,如图3.6所示。不幸的是,即使我们将每个指标的使用限制在最适合的任务上,目前使用的所有指标仍存在严重的缺陷。因此,生成式建模中最重要的研究课题之一,不仅仅是如何提升生成模型,事实上还包括了设计新的技术来衡量我们的进步。