ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Batch Normalization的理解

2022-01-29 16:35:09  阅读:205  来源: 互联网

标签:特征 梯度 矩阵 Batch 理解 激活 Normalization 神经元


原文链接:

  Batch Normalization原理与实战 - 知乎 (zhihu.com)

 

总结:

  背景:权重矩阵W的梯度与其左边那一层的激活值有关(参考:理解方向传播(BP算法) - Hisi - 博客园 (cnblogs.com)),而且如果用ReLU激活函数会导致梯度爆炸会消失,或者是sigmoid函数以及tanh函数会导致梯度消失,所以权重矩阵W可能会立马更新到+-inf,或者是更新的很慢很慢,为了解决W与激活值的关系,提出了PCA白化(过渡品),但是PCA白化太复杂,开销大,于是在此基础之上提出了Btach Normalization。

  思路:对第L层的激活值的每个特征做标准化,也就是对L层的输出矩阵的非线性激活矩阵的每一行单独做标准化,到这步,由于标准化会损失底层神经网络的学习成果,所以再用线性变换弥补学习效果。

 

tip:原文中的“对每个特征进行normalization”(如下图)中的特征指的就是网络中某一层的第k个神经元,第一个特征指的就是第一个神经元,第二个特征指的就是第二个神经元。

 

标签:特征,梯度,矩阵,Batch,理解,激活,Normalization,神经元
来源: https://www.cnblogs.com/hisi-tech/p/15855309.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有