首页 > 其他分享> 文章详细

移动平台模型裁剪与优化的技术

2021-07-11 15:53:17 阅读：227 来源： 互联网

标签：Neon 模型裁剪数据类型指令寄存器优化 ARM 向量

此为初稿，后续将继续完善。

移动平台包含的范围

移动电话
平板电脑
可穿戴设备
智能手环、智能手环、智能眼镜、智能腰带
嵌入式设备：树莓派
边缘计算节点

边缘计算

基本概念

在边缘测发起应用
就近提供服务
更快响应用户
实时、智能、安全与隐私

本质

在本地完成计算而不交给云端处理
确保处理稳定，降低云端的工作负载

面临的挑战

传输带宽
硬件性能与软件优化
5G

万物互联，参数了边缘计算。边缘测
在这里插入图片描述

边缘计算应用

消防与安全监控
环境控制
油、气远程监测
交通管理
自动驾驶

Machine learing on the go
在这里插入图片描述

云计算与边缘计算的区别
在这里插入图片描述

移动平台

内存体系结构

计算问题

模型文件巨大，临时内存空间，计算过程中占据的内存空间。
在这里插入图片描述
tf pytoch
指令集加速
减小模型体积
TF-Lite 前向引擎，在移动平台。

速度越快，加剧负载。普遍性的优化。特定性的场景优化有时无能为力。
移动深度学习框架开发。
国内：
腾讯 NCNN
百度 PaddleLite

不能完全依赖框架
稀疏量化
有时牺牲精度，追求速度，平衡点。

总结：
在移动就是在移动平台运行。
云端： ws

实时本地运行技术，尤为关键。自动驾驶，
降低功耗，提高性能和效率。

在这里插入图片描述

移动平台化

ARM体系结构、Neon指令集、Neon Intrinsics、线性倒数优化问题、卷积、池化、ARM Linux开发基地、ARM工具链、主流前向引擎和框架、架构、代码结构等、ARM内存模型、指令加速。

数据预处理

缺失值处理、去噪声、平滑、去均值、归一化、标准化、使用和掌握实时处理系统、编程实战等

二、移动端开发核心学习路径

在这里插入图片描述

三、ARM体系结构

概述

ARM体系结构时一种精简指令集计算（Reduced Instruction Set Commpution, RISC）体系结构。
内置大量通用寄存器。
体系结构设计采用了加载/存储模式，也就是所有的数据处理都是在寄存器中完成的，无法直接处理内存。
寻址模式简单，所有的加载/存储地址都来自寄存器内容和指令字段。
ARM体系结构充分考虑了实现规模、架构性能和低功耗，这些特定使得其非常适用于具有不同要求的场景。

X86 复杂指令集计算。

执行模式

AArch64，也就是64位执行模式，一般体系结构称之为aarch64。这种执行模式是ARMv8的新执行模型。
AArch32，也就是32执行模式，一般体系结构称之为arm，这种执行模式是ARM v7a架构，同时也支持AArch64模式带来的一些增强特性。

性能优化模式

SIMD指令
浮点指令集

v8向下兼容

CPU下的SIMD指令：单指令，多数据。
类似于pc和服务器端采用的：Gpu计算采用的模式

基础数据类型

整形：字节（Byte, 8位）；半字（Halfword, 16位）；字（word， 32位）；双字（Doubleword, 64位）；4字（Quadword, 128位）
浮点类型：半精度（16位）；单精度（32位）；双精度（64位）；32位和64位的定点数表示

AArch64向量格式

在AArch64状态下，使用Vn表示SIMD和浮点数寄存器，其中n的取值范围是0~31，也就是一共32个寄存器。引用寄存器的方式为Vn*CM，SIMD和浮点寄存器提供了3种具体的数据格式，分别是：

单元素标量，也就是整个寄存器的最低部分。
64位向量
字节（Byte, 8位）；半字（Halfword, 16位）；字（word， 32位）
引用方式，Vn{.2S， .4H, .8B}
128位向量
字节（Byte, 8位）；半字（Halfword, 16位）；字（word， 32位）；双字（Doubleword, 64位）
引用方式：Vn{.2D, .4S, .8h, 16B}

AArch32向量格式

32位模式的ARM使用的向量寄存器类型描述方式与64位不同
- 64位在寄存器引用种说明了向量数据类型
- 32位模式则选择在指令中说明具体向量数据类型
  比如向量乘法指令是VMUL，数据类型说明符是.F32，那么针对这种数据类型的向量赋值指令就是VMUL.F32。
数据类型说明符

Neon指令集

Neon是由ARM提出的一种压缩SIMD技术
Neon指令将寄存器看出相同数据类型的向量，并且支持多种数据类型
Neon指令可以对所有支持的寄存器执行相同的操作
不同的数据类型支持不同的数量的操作指令
在新的ARM v8.2-A和ARM v8-A/R体系结构中，Neon甚至还能支持多指令并行，使得整体运算效率更上一层楼。
ARM支持的数据类型表

Neon指令集处理模式

单指令单数据
- 每个指令指定单个数据源，处理多个数据时需要多条指令
- 速度慢
单指令多数据（向量模式）
- 使用同一条指令处理多个数据源（如果控制器寄存器的长度为N，那么一条向量可以执行N个运算）
- 多次运算操作时依次执行而不是同时执行的
- 速度快于单指令单数据
单指令多数据（组合数据模式）
- 将一个寄存器分为N个D位的独立运算部分；
- 各个部分独立运算（比如64位寄存器拆分为4个16位数据）；
- N个部分运算不会互相产生影响；
- 速度最快，目前的主流模式。

ARM内存模式

ARMv8定义了多层次的存储系统

在主存和CPU之间设计了多层次的缓存（Cache）,以平衡存储器大小和内存访问言辞
ARM只是一个标准，各个厂家的具有实现可以不同

在这里插入图片描述

ARM加速方法

内存
- 内存对齐：访问非对齐内存的指令一般会消耗比较多的指令周期，因此在涉及大量数据计算时必须确保数据存储、数据访问尽量保持内存对齐。
- 缓存预加载：使用指令将自己后续一段时间希望使用的内存地址告知硬件的存储管理器，但处理器可以自行决定如何处理，因此具有不确定性。
Neon指令集
- 开源库：如OpenBLAS, Eigen等
- 编译器的自动向量化特性
- Compiler intrinsics: ARM提供的编译器内联函数，可读性较好，编译器可以再次自动优化
- 汇编指令：可读性与维护性较差，AArch64不支持内联汇编，一般建议采用Compiler instinsics

在这里插入图片描述

四、优化以及案例分析

Tensoflow Lite案例

Tensoflow Lite构建

Tensoflow Lite构建基于Bazel

多语言支持：Bazel支持Java、Objective-C和C/C++，可以扩展支持任务语言
高级别的构建语言：通过BUILD的DSL支持构建，可以简单描述复杂的构建任务
多平台支持：支持多平台构建
伸缩性：可以灵活采用多台服务器并行处理构建

Tensoflow Lite构建

BUILD文件裁剪
- CPU体系结构
- 系统平台
裁剪操作
- 位置：kernel/mutable_op_resolver
- 处理内置函数：AddBuiltin
- 处理自定义函数：AddCustom
- 可以根据情况自行裁剪操作符
操作符扩展与优化

build可以删除不需要的平台支持，得到tf-lite的二进制文件会小的多，删除不需要的操作符。
删除操作符注册信息和源代码，这样可以大幅减小tf-lite编译出来的文件。
直接找到addBuilitin和AddCustom，然后针对某些操作进行改进，用到arm指令集的优化，做针对性的优化。

案例

图像分类
在这里插入图片描述

对象检测
在这里插入图片描述

语言识别
在这里插入图片描述
链接：https://github.com/tensorflow/examples/tree/master/lite/examples

提高预测性能和降低功耗。
其实，研发专有芯片，解决专有问题，软件优化加硬件优化，这才是最好的优化。

标签：Neon,模型,裁剪,数据类型,指令,寄存器,优化,ARM,向量
来源： https://blog.51cto.com/u_11495341/3036165

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

移动平台模型裁剪与优化的技术

目录

移动平台包含的范围

边缘计算

基本概念

本质

面临的挑战

边缘计算应用

移动平台化

数据预处理

概述

执行模式

性能优化模式

基础数据类型

AArch64向量格式

AArch32向量格式

Neon指令集

Neon指令集处理模式

ARM内存模式

ARM加速方法

Tensoflow Lite案例

Tensoflow Lite构建

Tensoflow Lite构建

案例