从MAP角度理解神经网络训练过程中的正则化

2019-06-27 22:49:42 阅读：290 来源： 互联网

标签：似然 MAP boldsymbol 正则神经网络 theta 先验概率

在前面的文章中,已经介绍了从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化,本次我们从最大后验概率点估计(MAP,maximum a posteriori point estimate)的角度来理解神经网络中十分重要的weight decay正则化方法.

前面的文章中讲到了梯度下降法可以从最大似然概率估计(ML)的角度来理解,最大似然是一种典型的频率统计方法,还有一种非常不同的贝叶斯统计方法(具体的区别请参考花书).由于贝叶斯统计方法很多时候是复杂不易于处理的,因此我们更想要一种类似与ML的点估计方法.而MAP正是一种点估计的近似贝叶斯估计方法.MAP选择使得后验概率最大的点作为最优估计,定义如下:\[ \boldsymbol{\theta}_{MAP} = \underset{\boldsymbol{\theta}}{argmax}p(\boldsymbol{\theta}|x) = \underset{\boldsymbol{\theta}}{argmax}log(x|\boldsymbol{\theta})+logp(\boldsymbol{\theta})\]
上式右边\(log(x|\boldsymbol{\theta})\)项正是对数最大似然部分,而\(logp(\boldsymbol{\theta})\)项是先验概率部分.

相较于最大似然估计,MAP多了先验概率部分,而这部分是无法从训练样本中得到的,利用先验概率部分可以起到减小泛化误差的作用.

例如,将先验概率设为权重\(\boldsymbol{w}\)符合均值为0,方差为\(\frac{1}{\lambda}I^{2}\)的高斯分布,则上式中的先验概率项,就可化为形如\(\lambda w^{T}w\)的L2正则化项.
MAP方法提供了一种设计复杂的可解释的正则化方法的直接途径.

标签：似然,MAP,boldsymbol,正则,神经网络,theta,先验概率
来源： https://www.cnblogs.com/hello-ai/p/11100091.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

从MAP角度理解神经网络训练过程中的正则化