ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%

2021-04-25 23:30:52  阅读:192  来源: 互联网

标签:slimmable 涨点 训练 剪枝 网络 gate 动态 门控


 

动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%

 

论文链接:

https://arxiv.org/abs/2103.13258

代码:

https://github.com/changlin31/DS-Net

 

 

一、研究动机

动态剪枝算法及其问题

图片

动态网络为每个输入自适应地配置不同的网络结构,而不是像神经网络搜索(NAS)或剪枝那样在整个数据集上优化网络结构,例如,根据每张输入图像的分类难度,将其路由到不同的计算复杂度的网络结构减少了在简单样本上的计算浪费,提高网络效率(见上图)。

其中动态剪枝方法,作为剪枝的自然扩展,在运行时根据不同的输入对卷积滤波器进行预测剪枝。这种变化的稀疏模式(spasepattern)与硬件计算不兼容。实际上,许多算法都是以零掩码(zero-masking)或低效路径索引(indexing)的方式实现的,这使得理论分析与实际加速之间存在很大的差距。如上表所示,masking和indexing都没有实际的加速效果,导致了计算浪费。本文作者提出一种致密(dense)的动态channel切分(dynamic channel slicing)方法,达到了与理论相符的加速效果(见上表)。

二、动态宽度可变超网络

Dynamic Slimmable Supernet

图片

动态宽度可变网络(DS-Net)通过学习一个宽度可变超网络和一个动态门控机制来实现不同样本的动态路由。如上图所示,DS-Net中的超网络(上图黄色框)是指承担主要任务的整个模块。相比之下,动态门控(上图蓝色框)是一系列预测模块,它们将输入样本路由到超网络的不同宽度的子网络。

之前的动态网络工作将门控和超网络一起训练,而本文为了提高超网络中每个子网络的泛化性,提出了解缠的两阶段训练方法

在第一阶段,禁用门控并用IEB技术训练超网络;

在第二阶段,固定超级网的权重并用SGS技术训练动态门控。

1.动态超网络(supernet)和动态可切分(slice-able)卷积

为避免产生稀疏channel,作者提出动态可切分(slice-able)卷积,通过预测出的剪枝率

标签:slimmable,涨点,训练,剪枝,网络,gate,动态,门控
来源: https://blog.csdn.net/jacke121/article/details/116140608

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有