1、近端梯度下降 proximal gradient descent
对于凸优化问题,当其目标函数存在不可微部分(例如目标函数中有 [公式] -范数或迹范数)时,近端梯度下降法才会派上用场
https://zhuanlan.zhihu.com/p/82622940
2、神经网络中使用L1z正则,获取参数的稀疏性
https://zhuanlan.zhihu.com/p/22099871
Caffe中每层使用L1正则,参数并不是稀疏的原因:1、CNN的参数和Loss关系并不是凸函数,并且Caffe中求解L1的算法使用的是最基础的subgradient descent,所以不能达到稀疏的效果 2、实验使用近端梯度下降可以达到稀疏性效果
3、
标签:梯度,L1,稀疏,Caffe,深度,范数,近端 来源: https://www.cnblogs.com/pyclq/p/15389386.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。