深度学习在移动端的应用_第1页
深度学习在移动端的应用_第2页
深度学习在移动端的应用_第3页
深度学习在移动端的应用_第4页
深度学习在移动端的应用_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度学习在移动端的应用目录深度学习简介移动端落地方案移动端局限及解决技巧f

你好f

猫f

嗨!

你好深度学习

-

目标:寻找最佳函数卷积池化归一化深度学习

-

结构:基于层与层的连接以GoogLeNet

v1丼例1-2-11104-20.980.12 -2-1-12 0.86 3-1-140.110.620.8300-221-1深度学习

-

层(丼例):全连接层1-10.620.83猫…………Inputx

1x

2x

25616x16=

256Ink→

1Noink→

0……Is

9The

imageis

“2”is

20.620.83...0.050.80.1输出is

0Output向量

概率f

深度学习

-

预测过程Y

0Y

2Y

9NNNNNN…………y1y2yR12𝑅1…………NNy3323𝑅f

深度学习

-

训练过程目录深度学习简介移动端落地方案移动端局限及解决技巧服务端训练

+

服务端识别移劢端训练

+

移劢端识别服务端训练

+

移劢端识别落地方案

-

可能的服务端及移劢端分工PC

Server

训练模型文件Model

File移动端加载模型进行识别落地方案

-

移劢端只适合识别过程• GPU门槛2:Mali

T820

4核以上CPU

:高通

&

(三星、联发科、华为)GPU:Mali

GPUCPU门槛1:骁龙600以上CPU

98.1%

是ARMv7GPUARM:

51.3%Qualcomm:

39.2%落地方案

-

Android硬件现状Device

DriverOS

Kernelkernel

space高通GPUMali

GPUOther

cpuhardware高通cpuapplication

ui主体识别分类风格化...computelibOpenCLRender

ScriptVulkanARMComputeLibrary落地方案

-

Android深度学习软件现状两个卷积核Only9x2=

18parameters最大池化100001010010001100100010010010001010-11-1-11-1-11-11-1-1-11-1-1-11原图落地方案

-

模型选择

CNN卷积和池化cator

dogxyw

hConvolutionMax

PoolingConvolutionMax

PoolingFlattenRepeatmany

timesFullyConnectedFeedforward

network落地方案

-

模型选择

CNN常见拓扑以GoogLeNet

v1丼例落地方案

-

框架选择基于Caffe二次开发可读性通用性图像领域应用已丽移植成功案例针对CPU做主要优化GPU的内存拷贝成本与运算效率的综合考量目录深度学习简介移动端落地方案移动端局限及解决技巧移劢端局限

-

安卓落地难点服务端移动端SO体积无限制特定App下严格限制模型体积500M+<10M加密无需考量特定App下严禁泄露预测速度类库极其成熟有待填补内存限制无严格限制内存极其有限耗电量无限制严格限制Tricks

-

SO体积:代码剪枝37MB->

100kBeforeAfterOpenBlas手工实现Glog、Gflag摘除Protobuf手工实现Json解析后向传播摘除层缩减数量CatTricks

-

模型体积:权值共享Tricks

-

模型体积:量化24.2->

4.5MBmin-10^8max-10^8桶1号桶256号……Tricks

-

模型体积:纠正量化的误差min-10^8max-10^8桶1号桶256号……桶X号桶

(1号):min桶

(256号):max桶

(X号):剩余N-2个元素误差来源Tricks

-

模型体积:纠正量化的偏好min-10^8max-10^8桶1号桶256号……桶X号桶

(X号): 11.2估值偏小桶

(X+1号): 2桶

(X号): 11.2(0.8)桶

(X+1号): 21.2(0.2)Tricks

-

模型体积:加密min-10^8max-10^8桶1号桶256号……Meta头部:min???max???Tricks

-

速度:常规优化

调整overheadLoadReshapeForward(malloc

blob)Final

DataTricks

-

速度:常规优化

数值计算记录Taylor展开的系数,用以实现快速的近似计算Tricks

-

速度:CPU

Affinity设置亲密度:减少线程切换。强制使用Big核心。卷积池化LocalRespNormTricks

-

速度:NEON

intrinsicsTricks

-

速度:内联汇编assembly文件纯汇编文件,后缀为”.S”或”.s”。注意对寄存器数据的保存。inline

assembly内联汇编在C/C++代码中嵌入汇编,调用简单,容易调试。Tricks-

速度:Loop

UnrollingTricks

-

速度:利用拓扑结构执行多线程利用SplitLayer和ConcatLayer,自动进行多线程分配Tricks

-

速度:改用MobileNet模型Depthwise

SeparableConvolution由两部分组成:depthwise

convoluti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论