平滑最大值是最大值函数
的光滑函数。其是一个参数族,在
中,对于每个参数α,函数
都是平滑的。参数族内包含最大值函数,并且
当
。 平滑最小值的概念也是类似的。 在大多数情况下,一个族满足两个条件:当参数趋向于正无穷大时为函数变为最大值函数,当参数变为负无穷大时函数变为最小值函数;符号表示为:
当
,
当
。平滑最大值也可以用于描述行为类似于最大值函数的其他平滑函数,而不一定必须在此参数族中。
平滑最大值应用于具有各种系数的'-x'和x函数。 非常光滑当
= 0.5,而
= 8更加平滑。
当正值参数较大时,且
,下列公式是最大函数的平滑函数,可微、近似于最大值函数。 对于绝对值较大的负值参数,其近似最小值函数。
![{\displaystyle {\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\sum _{i=1}^{n}x_{i}e^{\alpha x_{i}}}{\sum _{i=1}^{n}e^{\alpha x_{i}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ea5302e6fb5d229d98126f2de7e61b22d1010501)
具有以下属性:
当![{\displaystyle \alpha \to \infty }](https://wikimedia.org/api/rest_v1/media/math/render/svg/1488b56a327cc223bac1548a520344c56552abf2)
是其输入的算术平均值
当![{\displaystyle \alpha \to -\infty }](https://wikimedia.org/api/rest_v1/media/math/render/svg/d0f2a7db323c5c99c0c4527fa868a025a43a38aa)
的梯度近似于softmax函数,由以下公式可得:
![{\displaystyle \nabla _{x_{i}}{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {e^{\alpha x_{i}}}{\sum _{j=1}^{n}e^{\alpha x_{j}}}}[1+\alpha (x_{i}-{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n}))].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1a1ed2997b3a0ceb8682440a0374158074ee3c73)
这使softmax函数使用梯度下降的优化时很有用。
另一个平滑最大值函数例子是LogSumExp :
![{\displaystyle \mathrm {LSE} (x_{1},\ldots ,x_{n})=\log(\exp(x_{1})+\ldots +\exp(x_{n}))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/00650a76fc9b92afe8bb6517482174867c510c3a)
如果
都是非负的,可产生定义域是
和值域是
的函数 :
![{\displaystyle g(x_{1},\ldots ,x_{n})=\log(\exp(x_{1})+\ldots +\exp(x_{n})-(n-1))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b008d984668d67fc1a852725de948363080e292a)
项通过消除除零以外的所有零指数使得
,以及
当
为零。
另一个平滑最大值函数是p范数 :
![{\displaystyle ||(x_{1},\ldots ,x_{n})||_{p}=\left(|x_{1}|^{p}+\cdots +|x_{n}|^{p}\right)^{1/p}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/32d1a42688b5aef3572e5dda63588cea23824afa)
当
,收敛到
。
p范数的一个优点是它是一个范数 。 因此,它是“尺度不变”的(同质的):
,它满足三角不等式。
![{\displaystyle {\mathcal {max}}_{\alpha }(x_{1},x_{2})=0.5\left((x_{1}+x_{2})+{\sqrt {(x_{1}-x_{2})^{2}+\alpha }}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0deebed52b9d9605bafdc3ed52aa8e16e3bded3d)
M. Lange, D. Zühlke, O. Holz, and T. Villmann, "Applications of lp-norms and their smooth approximations for gradient based learning vector quantization," in Proc. ESANN, Apr. 2014, pp. 271-276. (https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2014-153.pdf (页面存档备份,存于互联网档案馆))