版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度学习在移动端的应用目录深度学习简介移动端落地方案移动端局限及解决技巧f
你好f
猫f
嗨!
你好深度学习
-
目标:寻找最佳函数卷积池化归一化深度学习
-
结构:基于层与层的连接以GoogLeNet
v1丼例1-2-11104-20.980.12 -2-1-12 0.86 3-1-140.110.620.8300-221-1深度学习
-
层(丼例):全连接层1-10.620.83猫…………Inputx
1x
2x
25616x16=
256Ink→
1Noink→
0……Is
9The
imageis
“2”is
20.620.83...0.050.80.1输出is
0Output向量
概率f
深度学习
-
预测过程Y
0Y
2Y
9NNNNNN…………y1y2yR12𝑅1…………NNy3323𝑅f
深度学习
-
训练过程目录深度学习简介移动端落地方案移动端局限及解决技巧服务端训练
+
服务端识别移劢端训练
+
移劢端识别服务端训练
+
移劢端识别落地方案
-
可能的服务端及移劢端分工PC
Server
训练模型文件Model
File移动端加载模型进行识别落地方案
-
移劢端只适合识别过程• GPU门槛2:Mali
T820
4核以上CPU
:高通
&
(三星、联发科、华为)GPU:Mali
GPUCPU门槛1:骁龙600以上CPU
98.1%
是ARMv7GPUARM:
51.3%Qualcomm:
39.2%落地方案
-
Android硬件现状Device
DriverOS
Kernelkernel
space高通GPUMali
GPUOther
cpuhardware高通cpuapplication
ui主体识别分类风格化...computelibOpenCLRender
ScriptVulkanARMComputeLibrary落地方案
-
Android深度学习软件现状两个卷积核Only9x2=
18parameters最大池化100001010010001100100010010010001010-11-1-11-1-11-11-1-1-11-1-1-11原图落地方案
-
模型选择
CNN卷积和池化cator
dogxyw
hConvolutionMax
PoolingConvolutionMax
PoolingFlattenRepeatmany
timesFullyConnectedFeedforward
network落地方案
-
模型选择
CNN常见拓扑以GoogLeNet
v1丼例落地方案
-
框架选择基于Caffe二次开发可读性通用性图像领域应用已丽移植成功案例针对CPU做主要优化GPU的内存拷贝成本与运算效率的综合考量目录深度学习简介移动端落地方案移动端局限及解决技巧移劢端局限
-
安卓落地难点服务端移动端SO体积无限制特定App下严格限制模型体积500M+<10M加密无需考量特定App下严禁泄露预测速度类库极其成熟有待填补内存限制无严格限制内存极其有限耗电量无限制严格限制Tricks
-
SO体积:代码剪枝37MB->
100kBeforeAfterOpenBlas手工实现Glog、Gflag摘除Protobuf手工实现Json解析后向传播摘除层缩减数量CatTricks
-
模型体积:权值共享Tricks
-
模型体积:量化24.2->
4.5MBmin-10^8max-10^8桶1号桶256号……Tricks
-
模型体积:纠正量化的误差min-10^8max-10^8桶1号桶256号……桶X号桶
(1号):min桶
(256号):max桶
(X号):剩余N-2个元素误差来源Tricks
-
模型体积:纠正量化的偏好min-10^8max-10^8桶1号桶256号……桶X号桶
(X号): 11.2估值偏小桶
(X+1号): 2桶
(X号): 11.2(0.8)桶
(X+1号): 21.2(0.2)Tricks
-
模型体积:加密min-10^8max-10^8桶1号桶256号……Meta头部:min???max???Tricks
-
速度:常规优化
调整overheadLoadReshapeForward(malloc
blob)Final
DataTricks
-
速度:常规优化
数值计算记录Taylor展开的系数,用以实现快速的近似计算Tricks
-
速度:CPU
Affinity设置亲密度:减少线程切换。强制使用Big核心。卷积池化LocalRespNormTricks
-
速度:NEON
intrinsicsTricks
-
速度:内联汇编assembly文件纯汇编文件,后缀为”.S”或”.s”。注意对寄存器数据的保存。inline
assembly内联汇编在C/C++代码中嵌入汇编,调用简单,容易调试。Tricks-
速度:Loop
UnrollingTricks
-
速度:利用拓扑结构执行多线程利用SplitLayer和ConcatLayer,自动进行多线程分配Tricks
-
速度:改用MobileNet模型Depthwise
SeparableConvolution由两部分组成:depthwise
convoluti
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 胆囊炎课件总结
- 医疗数据安全与医疗科研数据管理
- 医疗数据存证:区块链电子病历的实践路径
- 医疗数据备份的频率优化策略
- 医疗数据备份的区块链数据迁移策略
- 医疗数据区块链隔离技术的综合解决方案
- 医疗数据区块链完整性与临床决策支持
- 云南省师范大学附属中学2026届英语高三第一学期期末考试模拟试题含解析
- 医疗数据共享的精准医疗赋能
- 医疗数据共享的激励机制设计:理论与实践
- 超精密加工技术期末考试
- 食堂干货调料配送方案(3篇)
- 医院住院部2024工作总结及2025工作计划
- 线边物料管理办法
- 水泵房卫生管理制度
- 山东中医药大学学位考试-中医学毕业综合考试试题及参考答案
- 病房质量管理分析
- 广西南宁二中、柳州高中2025届高三最后一模物理试题含解析
- 高空作业登高车施工方案
- 学生心理健康教育与校园文化建设的融合
- 绵阳市2024-2025学年高一上学期期末考试 英语试卷(含答案详解)
评论
0/150
提交评论