标签:剪枝 training shot network 微调 稀疏 网络 group 冗余
问题:
1、大型神经网络学习速度很快,性能也往往优于其他较小的模型,但它们对资源的巨大需求限制了其在现实世界的部署,所以当部署网络到资源有限的设备上,需要对网络进行剪枝(识别和剪枝冗余的结构),使性能几乎无损失情况下,网络更苗条更简单。
2、剪枝方法:a、采用L1或L2正则化的细粒度剪枝方法,根据一定的固定阈值对小权重连接进行剪枝 b、过滤器的重要性,通过删除不重要的特征映射来加速网络 c、利用强化学习代理预测压缩行为等
这些方法都需要重新训练和微调模型,以在修剪过程中优化准确率;
这些方法无法避免额外且通常耗时的微调步骤,因为已识别的冗余结构(即使用零参数化)实际上有助于模型输出,因此额外的微调步骤是绝对必要的;
且知识应用与特定的网络结构,应用和任务
3、最近的研究,使用稀疏诱导正则化器训练网络train the network with sparsity inducing regularizers,提供了通用性和收敛性保证。然而这些方法要么只关注参数的个体稀疏性,要么关注滤波器的群体稀疏性,因为这些0值和bias,BN,跳接纠缠在一起,不能直接进行删除,需要微调。并且优化算法不能有效探索DNN中的组的稀疏性,需要一个后处理步骤来产生精确的零
目标:通过Only-Train-Once (OTO)无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力;适合各种架构和应用,因此具有通用性和有效性。
主要技术:
1、Zero-Invariant Group(ZIG)。我们将DNN识别模型参数并将其划分为零不变组,使我们能够根据零组修剪冗余结构,而不影响网络的输出
2、Half-Space Stochastic Projected Gradient(HSPG),新的结构化稀疏优化算法,解决结构化稀疏正则化问题,促进 zero group 方面表现出的优势
研究者定义了神经网络的 zero-invariant group。如果一个框架被划分为 ZIG,它就允许我们修剪 zero group,同时不影响输出,这么做的结果是 one-shot 剪枝。这种特性适用于全连接层、残差块、多头注意力等多种流行结构
标签:剪枝,training,shot,network,微调,稀疏,网络,group,冗余 来源: https://www.cnblogs.com/pyclq/p/15383660.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。