GELU激活函数

论文：GAUSSIAN ERROR LINEAR UNITS (GELUS)

年份：2016

ReLU激活函数的公式可以理解为：
$x\cdot \begin{cases} 1,&x\ge 0\\ 0,&x<0 \end{cases}$
ReLU、Dropout等机制都希望将\textbf{不重要}的激活信息规整为零。也就是对于输入的值，根据它需要的情况乘以1或0，需要乘以谁不像ReLU人工定义，而是根输入有关。更为数学的描述，对于一个输入 $x\sim N(0, 1)$ ，即 $x$ 服从标准正态分布，而输入 $x$ 还要乘上一个伯努利分布 $Bernoulli(\Phi(x))$ 。
随着 $x$ 的降低，输出值被归为0的概率就会升高。对于ReLU,这个界限就是0，输入小于0时，输出就归为0。
则怎么判断这个伯努利试验到底失败还是成功呢？则在引入 $\Phi(x)$ 来控制伯努利试验成功的概率即：
$\Phi(x)\cdot Ix + (1-\Phi(x))\cdot 0x=x\cdot \Phi(x)$
这个表达式表示根据 $x$ 比其它输入大多少来缩放它。由于高斯分布的累积分布函数通常用误差函数来计算，因此将高斯误差线性单元)(GELU)定义为：
$x\Phi(x) = x\cdot \frac{1}{2}(1+erf(x/\sqrt{2}))$
近似于
$\approx 0.5x(1+tanh(\sqrt{2/\pi}(x+0.044715x^3)))\approx x\cdot sigmoid(1.702x)$

当 $\mu = 0,\sigma=1$ 时，将GELU称为Sigmoid Linear Unit(SiLU)激活函数。

GELU激活函数的曲线和导数曲线如下图所示。

GELU为非单调激活函数,有助于保持小的负值,从而稳定网络梯度流;
GELU在0附近接近与恒等函数 $x$ 。
GELU的最小值为-0.21，值域为 $+\infty]$ 。上界是任何激活函数都需要的特征,因为这样可以避免导致训练速度急剧下降的梯度饱和,因此加快训练过程。无下界有助于实现强正则化效果;
GELU的梯度不容易造成梯度爆炸和梯度消失。
光滑性:光滑的激活函数有较好的泛化能力和稳定的优化能力,可以提高模型的性能

上述资讯来自网友投稿，如有侵犯了您的权益，请来信告诉我们：liujun100@vip.qq.com