高效代码原理与实践.ppt

上传人：g*** IP属地：河南上传时间：2020-01-30 格式：PPT 页数：51 大小：1.13MB 积分：20 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

高效代码原理与实践目录高效源自设计优化始于剖析编译器优化的两个障碍存储器循环查表并行与SIMD 高效源自设计高效的误区影响效率的因素算法的选择相关与重复存储器的分配与使用数据类型的选择运算技巧高效的误区终于可以跑了却发现输在设计高效的误区某次给机顶盒频道切换功能中加入码流搜索但是切换频道的时候图像经常是花的后来发现是丢包造成图像花块但是码流搜索和收包有什么关系码流搜索函数效率低导致CPU占有率瞬时升高收包线程受到影响发生丢包漫不经心地编码高效的误区优化某解码器使用开源代码解标清图像初始CPU占有率在1000 以上 3个人优化3个月天天加班达到标清实时自己开发同等难度的另一解码器开发阶段12个人月 2个人优化2周不加班达到标清实时仅依靠优化来达到高效高效来自优秀的设计和编码高效的误区向某厂商洽购某模块做评估时发现效率很低只有每秒5帧且占有率已经达到80 以上结果抛弃自己开发历时一个人月未做任何优化开发后测试每秒25帧占有率40 效率就是金钱高效的误区效率无所谓功能实现就好X漫不经心地设计编码再优化X精心设计精心编码再做适当优化好慢啊愁死了高效三阶段设计确定功能和效率目标设计算法缓存编码选择适当的数据类型数据存放方式数据表示方式循环内要选择适当的变量个数编码标准规范优化确定要优化哪些模块逐块优化尽量保持代码的可读性和可维护性影响效率的因素算法存储器并行算法的选择在效果和速度之间取得平衡算法的选择去除相关重复是优良算法的共性相关与重复循环中与循环变量无关的代码多次重复计算的公共子式把中间结果保存到内存中然后再从内存中读取能查表计算的却一次次重复地算存储器的分配与使用大量数据的运算尽量放在片内内存中连续访问内存不要随机访问缓存中的数据尽量用短的类型能用单字节表示的不用双字节尽量减少存储器访问提倡一次读4个字节中间结果尽量不要再放到内存中注意数据的对齐数据类型的选择缓存中的数据用短类型函数中的变量长度和符号对效率不产生重大影响只用整数运算技巧移位代替除法使用位运算只使用整数做运算使用乘法移位位运算不使用除法模运算局部变量使用32位类型尽量少用if switch等跳转语句优化始于剖析问题某系统中各个模块对时间的占用如下图所示如果要达到T优化前 T优化后 1 1 那么需要优化几个模块每个模块优化多少如果T优化前 T优化后为1 5 2 3 4 5呢优化始于剖析 Amdahl定理某模块占系统的比例为a 如果优化后该模块的速度提高到原来的k倍那么整个系统在优化前后的时间比例为多少呢 Told Tnew 1 1 a a k 计算 a 0 1 k 100a 0 8 k 2a 0 01 k 10000系统优化某部件所获得的系统性能的改善程度取决于该部件被使用的频率或所占总执行时间的比例优化始于剖析结论系统性能的提高不但取决于被优化的模块所提高的倍数也取决于该模块的在系统中所占的比例所以当需要极大提高性能时往往需要对系统的各个模块做广泛的优化优化始于剖析 Profiling的作用提供系统中各个模块对CPU资源的占用情况的分析为优化方案提供决策依据通常先做Profiling 然后结合Amdahl定理可以估计出对每个模块需要做多少优化便于估计最终的优化性能优化始于剖析 Profiling工具 VC下自带一个ProfilerIntel的工具 VTuneCCS下有自带的Profilergccprofiling 编译器优化的两个障碍存储器别名函数调用现在的编译器效率已经很高了打开优化选项后往往能使效率几倍地提高要充分使用编译器优化就必须知道什么样的代码能得到充分优化或者说什么样的代码得不到充分优化编译器优化的两个障碍下面两个函数哪个效率高两个函数是否等价编译器优化的两个障碍在上面的函数中当xp与yp相等时称为指针别名这种情况下会发生什么编译器优化的两个障碍下面两个函数哪个效率高两个函数是否等价编译器优化的两个障碍如果f x 中存在一个全局变量count 并且有语句count 会发生什么编译器优化的两个障碍结论在拿不准的情况下编译器只能假设指针存在别名并假设函数调用存在副作用从而采取保守的优化策略我们的优化也经常会从这两个方面着手编译器优化的两个障碍使用restrict关键字说明两指针所指向的数据不存在别名使用const说明某缓存是只读的不使用记忆性变量存储器存储器的层次结构Cache友好的代码存储器山局部性存储器的层次结构存储器的层次结构结论越靠近CPU的存储器容量越小速度越快越远离CPU的存储器容量越大但是速度也越慢 Cache友好的代码 Cache的特性当不命中时会一次性读取该数据及临近的几个数据到cahe中 Cache友好的代码 for i 0 i N i sum v i Cache友好的代码 for j 0 j N j for i 0 i M i sum v i j 这两段代码哪个效率高 for i 0 i M i for j 0 j N j sum v i j Cache友好的代码存储器山局部性时间局部性 Temporallocality 如果被访问过的存储器地址在较短时间内被再次访问则程序具有良好的时间局部性在一定的时间内重复访问同一个地址的次数越多时间局部性越好换句话说对同一个地址的两次访问间隔时间越短时间局部性越好空间局部性 Spatiallocality 如果程序访问某个存储器地址后又在较短时间内访问临近的存储器地址则程序具有良好的空间局部性两次访问的地址越接近空间局部性越好局部性局部性原理如何体现在代码中减少缓存大小降低访问步长使用顺序访问而非随机访问循环中尽量使用较少的变量同一个变量尽可能地多使用局部性局部性的一个应用使用分块来计算矩阵乘法详见深入理解计算机系统 P443 循环循环中只保留与循环变量相关的运算尽量不要使用break continue if等跳转语句核心循环中变量尽量少对arm 建议不超过12个建议使用i 不用i 查表表格较小运算复杂什么时候使用表格查表访问越频繁该表格所对应的cache会越来越热 cachemiss的次数越来越少到最后相当于该表格被直接放到了cache中此时访问速度就很快了这也是局部性的体现当表格在一段时间内频繁使用时效率会比较高为什么并行与SIMD 软件流水DMASIMD 软件流水软件流水循环体尽量小不使用break if else等跳转操作 DMA DMA DirectMemoryAccess不占用CPU资源直接把数据搬到想放的地方去 DMA DMA的典型用法把片外数据搬到片内做运算运算完之后再搬到片外在算法设计阶段就要考虑哪些运算放在片内如何搬运 SIMD SIMD singleinstructionmultipledata 例子 dotpsu4 d c SIMD 两个像素a b 用一个4字节整数表示其中 RGB 各用一个字节表示那么如果要把a b的对应的R G B 做平均如何做效率最高 a b a b 0 xFEFEFEFE 1 实际的SIMD是硬件实现的这个例子只是提示大家注意代码中一次性计算多个数据的可能性能使用4字节数运算一次就不要使用单字节数计算四次总结精

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

高效代码原理与实践.ppt

文档简介

温馨提示

最新文档

评论

高效代码原理与实践.ppt

文档简介

温馨提示

最新文档

评论

相关文档