ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【论文考古】神经网络优化 Qualitatively Characterizing Neural Network Optimization Problems

2022-02-25 19:05:55  阅读:239  来源: 互联网

标签:loss Network Neural 局部 Problems 神经网络 优点 alpha theta


I. J. Goodfellow, O. Vinyals, and A. M. Saxe, “Qualitatively characterizing neural network optimization problems,” arXiv:1412.6544 [cs, stat], May 2015. [Online]. Available: http://arxiv.org/abs/1412.6544

主要工作

文章提出一种方法,用来检测训练好的神经网络,在初始参数与最终解的直线路径上,有没有遇到局部最优点等阻碍。利用\(\theta_0,\theta_f\)两个参数点的凸组合,通过改变\(\alpha\)的值来计算合成的参数\(\theta= (1-\alpha)\theta_0+\alpha \theta_f\)的损失函数\(J(\theta)\)。对于两个不同随机种子下找到的解\(\theta_{f_1},\theta_{f_2}\),图像如下:

  • 两个不同的局部最优点之间包含了一个高loss的障碍,但没有其他局部最优点了。这个性质被McMahan发现后,应用在了相同初始点的过拟合网络合并上,发现loss反而下降。
  • 两个局部最优点更像是经过一个鞍点后的不同选择,而不是完全有不同效果的两个解

这个文章的价值在于提出了一种检测的方法,但是实际应用很窄,毕竟直线路径里包含的线性子空间太小了。但是McMahan用这个方法来验证了网络的合并,还是很有创意的。

观点

  • SGD在有偏的loss估计时是行不通的。也就是说每轮选取一个non iid data的用户来更新全局梯度,最后多半不收敛。

    SGD of course only ever acts on unbiased stochastic approximations to this loss function.

  • 局部最优点在训练大型神经网络时不是什么大问题。

    These results are consistent with recent empirical and theoretical work arguing that local minima are not a significant problem for training large neural networks.

    通过实验找了一个随机点和参数点的线性空间中loss的值,没有明显上升,所以局部最优点是稀疏的。(有点太随机了,说服力不够)

    image-20220225171918593

标签:loss,Network,Neural,局部,Problems,神经网络,优点,alpha,theta
来源: https://www.cnblogs.com/mhlan/p/15937388.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有