首页 > 其他分享> 文章详细

“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

2021-09-06 20:33:27 阅读：314 来源： 互联网

标签：Nesterov 梯度 RMSprop 下降 Adam AdaGrad 动量

“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

随机梯度下降法
牛顿法
动量法
Nesterov
- 学习率应该慢慢减小的。
AdaGrad
RMSprop
Adam
Nadam

随机梯度下降法

怎么减小每次计算的参数量？
梯度下降法性价比低。
mini-batch等价于随机梯度下降法。
在这里插入图片描述
步长越大和理想下降路径偏离越大。

牛顿法

在这里插入图片描述

实用性较差

动量法

在这里插入图片描述

指数加权移动平均法

动量法：把历史的数据也考虑进来，对参数的修改进行一些修正。

Nesterov

动量法：梯度和冲量共同决定下降方向。
在这里插入图片描述
怎么做到超前？
Nesterov：不止利用历史数据，还要向前超前一步，然后再修正下降方向。

学习率应该慢慢减小的。

最简单的方法，每迭代一步，学习率减少一个固定的数值。
当然这种方法并不好用。

AdaGrad

在这里插入图片描述
在学习率下面除以一个数值，这个数值是历史上所有的梯度数据的平方再开方。

适用于稀疏数据，更容易出现震荡，adagrad能够很好的解决这种情况。

RMSprop

在adagrad的基础上，采用指数加权移动平均法，强调了近的历史数据的影响，忽略了远的历史数据的影响，这样下降时该快的时候就快，该慢的时候就慢。
在这里插入图片描述

Adam

RMSprop和动量法的结合
在这里插入图片描述

Nadam

AdaGrad 和Nesterov结合

标签：Nesterov,梯度,RMSprop,下降,Adam,AdaGrad,动量
来源： https://blog.csdn.net/weixin_44623752/article/details/120142958

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”