首页 > 其他分享> 文章详细

激活函数篇（整理自网上的资源，侵删）

2021-09-05 23:33:25 阅读：392 来源： 互联网

标签：函数梯度 Relu deadly relu 图像激活侵删

1.sigmoid

函数图像：

上图分别为其函数图像和导函数图像 .

优点：

1. 函数平滑，易于求导

缺点：

1. 梯度值均小于1，容易梯度消失

2.使用指数运算，计算耗时

3.输出数据不是0均值的，收敛缓慢（模型的梯度值恒为正或者恒为负，导致会呈现Z字形的收缩方式）

收敛缓慢的图像。

2. tanh

函数图像：

导函数为

优点：

1. 是0均值的，收敛较快

2.类似于sigmoid，曲线平滑，易于求导

缺点：

1.指数运算，计算耗时

2. 只是将导数范围由（0， 0.25）放大到了（0， 1），仍然存在梯度消失问题

3. Relu

函数图像：

左侧为原函数，右侧为导数，其中在x=0处不可导。

优点：

1.计算速度快

2.在x>0时，导数恒为1，解决了梯度消失问题（正区间上的）

注：此时在正方向上的梯度则全部取决于权重值，激活函数的输出是无上限的，可能出现梯度爆炸的问题。因此需要保证权重值在（0，1), 或者使用梯度裁剪: g=min⁡(6,max(0, x))。

3.由于导数为1，故而收敛的比sigmoid和tanh更快

缺点：

1.存在deadly relu，即当输入为负时，某些神经元不更新

注：deadly relu也有好处，即带来了输出的稀疏性，能够提高时间和空间效率

尽可能避免deadly relu的策略：不要过大的学习率；Xavier参数初始化；自适应调节学习率

2.输出不是0均值的

4.leaky Relu：

函数图像类似于Relu，只不过在负区间上的导数为0.01。

优点：

1.解决了deadly relu的问题

2.收敛较快

3.计算速度快

缺点：

1.不是0均值的

5. ELU（Exponential Linear Units）：

函数图像及导函数图像：

优点：

1.解决了Relu的deadly relu问题

2. 是0均值的

缺点：

1.使用了指数运算，计算耗时

其中leaky Relu的参数人工设定，P Relu的参数是可学习的，而Random Relu中的参数在训练时随机抽取，而在测试时是固定的。

6. maxout

主要思想：

类似于池化层，其中有k组w和b，k是一个人工设定的参数，相当于做了k个不同的线性变换得到k中feature map，然后做最大池化。

7. Selu：扩展型指数线性激活函数

函数图像：

导函数及其图像：（0， lambda * alpha）

其中： lambda = 1.05， alpha=1.673

优点：

1.输出是自归一化的，因此收敛更快

2. 不会出现梯度消失和梯度爆炸的问题

缺点：

1. 指数运算，计算耗时

2. 在CNN和RNN中目前用的还是较少，具体怎么更好地应用效果仍然值得研究

8. Gelu：高斯误差线性单元激活函数

优点：

1. 不会出现梯度消失问题

2. 引入了随机正则（依据输入数据的概率分布）

具体函数的由来：

对于一个输入x，它服从于标准正态分布N（0，1), 然后乘一个伯努利分布。得到：

逼近后即为上式的数值函数。

函数思想是：

类似于dropout，将输入较小的值认为是不重要的额，因此倾向于将其归整为0。

注： Gelu用于transformer、bert和gpt中，是目前最好的激活函数。

标签：函数,梯度,Relu,deadly,relu,图像,激活,侵删
来源： https://blog.csdn.net/qq_39667545/article/details/120122530

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

激活函数篇（整理自网上的资源，侵删）

1.sigmoid

优点：

1. 函数平滑，易于求导

缺点：

1. 梯度值均小于1，容易梯度消失

2.使用指数运算，计算耗时

3.输出数据不是0均值的，收敛缓慢（模型的梯度值恒为正或者恒为负，导致会呈现Z字形的收缩方式）

2. tanh

优点：

1. 是0均值的，收敛较快

2.类似于sigmoid，曲线平滑，易于求导

缺点：

1.指数运算，计算耗时

2. 只是将导数范围由（0， 0.25）放大到了（0， 1），仍然存在梯度消失问题

3. Relu

优点：

1.计算速度快

2.在x>0时，导数恒为1， 解决了梯度消失问题（正区间上的）

3.由于导数为1，故而收敛的比sigmoid和tanh更快

缺点：

1.存在deadly relu，即当输入为负时，某些神经元不更新

2.输出不是0均值的

4.leaky Relu：

优点：

1.解决了deadly relu的问题

2.收敛较快

3.计算速度快

缺点：

1.不是0均值的

5. ELU（Exponential Linear Units）：

优点：

1.解决了Relu的deadly relu问题

2. 是0均值的

缺点：

1.使用了指数运算，计算耗时

6. maxout

主要思想：

7. Selu：扩展型指数线性激活函数

优点：

1.输出是自归一化的， 因此收敛更快

2. 不会出现梯度消失和梯度爆炸的问题

缺点：

1. 指数运算，计算耗时

2. 在CNN和RNN中目前用的还是较少，具体怎么更好地应用效果仍然值得研究

8. Gelu：高斯误差线性单元激活函数

优点：

1. 不会出现梯度消失问题

2. 引入了随机正则（依据输入数据的概率分布）

具体函数的由来：

函数思想是：

2.在x>0时，导数恒为1，解决了梯度消失问题（正区间上的）

1.输出是自归一化的，因此收敛更快