3.10 常用函数的有用性质

书籍名:《深度学习》作者：伊恩.古德费洛

某些函数在处理概率分布时经常会出现，尤其是深度学习的模型中用到的概率分布。

其中一个函数是logistic  sigmoid函数：

logistic  sigmoid函数通常用来产生Bernoulli分布中的参数φ，因为它的范围是（0,1），处在φ的有效取值范围内。图3.3给出了sigmoid函数的图示。sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和（saturate）现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。

图3.3　logistic  sigmoid函数

另外一个经常遇到的函数是softplus函数（softplus  function）（Dugas  et  al.，2001）：

softplus函数可以用来产生正态分布的β和σ参数，因为它的范围是（0,∞）。当处理包含sigmoid函数的表达式时，它也经常出现。softplus函数名来源于它是另外一个函数的平滑（或“软化”）形式，这个函数是

图3.4给出了softplus函数的图示。

图3.4　softplus函数

下面一些性质非常有用，你可能要记下来。

函数σ−1(x)在统计学中被称为分对数（logit），但这个函数在机器学习中很少用到。

式（3.41）为函数名“softplus”提供了其他的正当理由。softplus函数被设计成正部函数（positive  part  function）的平滑版本，这个正部函数是指x+=max{0,x}。与正部函数相对的是负部函数（negative  part  function），即x−=max{0,−x}。为了获得类似负部函数的一个平滑函数，我们可以使用ζ(−x)。就像x可以用它的正部和负部通过等式x+−x−=x恢复一样，我们也可以用同样的方式对ζ(x)和ζ(−x)进行操作，就像式（3.41）中那样。