代码优化-之-优化除法

上传人：清*** IP属地：河南上传时间：2020-04-04 格式：DOC 页数：10 大小：35.57KB 积分：12 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

HouSisong GM tag 代码优化除法牛顿迭代减法代替除法除法优化说明文章中的很多数据可能在不同的 CPU 或不同的系统环境下有不同的结果数据仅供参考 x86 系列的 CPU 对于位运算加减等基本指令都能在 1 个 CPU 周期内完成现在的 CPU 还能乱序执行从而使指令的平均 CPU 周期更小现在的 CPU 做乘法也是很快的需要几个 CPU 周期每个周期可能启动一个新的乘指令 x87 但作为基本指令的除法却超出很多人的预料它是一条很慢的操作整数和浮点的除法都慢我测试的英特尔 P5 赛扬 CPU 浮点数的除法差不多是 37 个 CPU 周期整数的除法是 80 个 CPU 周期 AMD2200 浮点数的除法差不多是 21 个 CPU 周期整数的除法是 40 个 CPU 周期改变 FPU 运算精度对于除法无效 SSE 指令集的低路单精度数除法指令 DIVPS 18 个 CPU 周期四路单精度数除法指令 DIVSS 36 个 CPU 周期 x86 求余运算和除法运算是用同一条 CPU 指令实现的据说很多 CPU 的整数除法都是用数学协处理器的浮点除法器完成的有一个推论就是浮点除法和整数除法不能并行执行 ps intel 的 p4 imul 指令可能有 14 周期或 15 18 的延迟才能得到结果本文将给出一些除法的优化方法或替代算法警告某些替代算法并不能保证完全等价 1 尽量少用除法比如 if x y z 改成 if y 0 assert index count index index count 2 用减法代替除法如果知道被除数是除数的很小的倍数那么可以用减法来代替除法比如 uint32 x 200 uint32 y 70 uint32 z x y 改成 uint z 0 while x y x y z 一个用减法和移位完成的除法如果你没有除法指令可用 uint32 div uint64 u uint32 z return u z uint32 x uint32 u 32 uint32 y uint32 u y 保存商 x 保存余数 for int i 0 i 31 x x 31 y y z x z y return y 该函数经过了测试 z 0 需要自己处理对于有符号除法可以用取绝对值的方法当然也不是轻松就能写出完全等价的有符号除法的如果不需 s 的 64bit 长度仅需要 32bit 那么可以化简这个函数但改进不多 3 用移位代替除法很多编译器能自动做好这个优化要求除数是 2 的次方的常量同理对于某些应用可以优先选取这样的数来做除数比如 uint32 x 213432575 uint32 y x 8 改成 y x 3 对于有符号的整数比如 int32 x 213432575 int32 y x 8 改成 if x 0 y x 3 else y x 1 3 4 合并除法替代方法不等价很多编译器都不会帮你做这种优化适用于不能用其它方法避免除法的时候比如 double x a b c 改成 double x a b c 比如 double x a b c b 改成 double x a c b 比如 double x a b double y c d double z e f 改成 double tmp 1 0 b d f double x a tmp d f double y c tmp b f double z e tmp b d 5 把除法占用的时间充分利用起来 CPU 在做除法的时候可以不用等待该结果也就是后面插入的指令不使用该除法结果而插入多条简单整数指令不包含整数除法而且结果不能是一个全局或外部变量等把除法占用的时间节约出来当除法不可避免的时候这个方法很有用 6 用查表的方法代替除法适用于除数和被除数的可能的取值范围较小的情况否则空间消耗太大比如 uint8 x uint8 y uint8 z x y 改成 uint8 z table x y 其中 table 是预先计算好的表 table i j i j 对于除零的情况需要根据你的应用来处理或者 uint8 z table x 8 i 比如 uint8 x uint8 z x 17 改成 uint8 z table x 其中 table i i 17 7 用乘法代替除法替代方法不等价很多编译器都不会帮你做这种优化比如 double x y 21 3432575 改成 double x y 1 21 3432575 如果编译器不能优化掉 1 21 3432575 请预先计算出该结果对于整数可以使用与定点数相似的方法来处理倒数该替代方法不等价比如 uint32 x y x y 213 改成 x y 1 16 某些应用中 y 1 16 213 可能会超出值域这时候可以考虑使用 int64 来扩大值域 uint32 x uint64 y 1 31 也可以使用浮点数来扩大值域 uint32 x uint32 y 1 0 213 警告浮点数强制类型转换到整数在很多高级语言里都是一条很慢的操作在下几篇文章中将给出其优化的方法对于这种方法某些除法是有与之完全等价的优化方法的无符号数除以 3 uint32 x y x y 3 推理 y y y 1 x x x 表示取整 3 3 3 1 33 3 1 33 y 1 可证明 0 3 1 33 其中魔法数 M 1 33 1 3 2863311531 0 xAAAAAAAB 无符号数除以 5 uint32 x y x y 5 y 1 31 推理 y y 3 y 1 x x x 5 5 5 1 33 5 1 33 3 y 1 可证明 0 5 1 33 其中魔法数 M 1 33 y 3 其中魔法数 M 1 35 3 7 1 32 613566757 0 x24924925 对于这种完全等价的替代还有其他替代公式不再讨论对于有符号除法的替代算法没有讨论很多数都有完全等价的替代算法那些魔法数也是有规律可循的有进取心的编译器应该帮助用户处理掉这个优化 vc6 中就已经见到偷懒的办法是直接看 vc6 生成的汇编码 8 对于已知被除数是除数的整数倍数的除法能够得到替代算法或改进的算法这里只讨论除数是常数的情况比如对于 32 位除法 x y a 已知 y 是 a 的倍数并假设 a 是奇数如果 a 是偶数先转化为 a a0 1 k a0 为奇数求得 a 使 a a 1 x y a a a 1 x y a 1 32 这里并不需要实际做一个求余指令该算法可以同时支持有符号和无符号除法比如 uint32 y uint32 x y 7 已知 y 是 7 的倍数改成 uint32 x uint32 y M 其中 M 5 1 8 这个误差在颜色处理中很多时候都是可以接受的如果要减小误差可以改成 uint8 color colorsum colorsum 8 8 推导 x 255 x x 255 255 1 x A 8 A x 255 把 A 改成 A x 8 引入小的误差带入公式就得到了 x 255 约等于 x x 8 8 的公式同理可以有 x 255 约等于 x x 8 x 16 8 等其它更精确的公式请推导出误差项已确定是否精度足够比如 x 255 写成 x x 8 1 8 当 0 x 65535 的时候都完全等价 10 牛顿迭代法实现除法很多 CPU 的内部除法指令就是用该方法或类似的方法实现的假设有一个函数 y f x 求 0 f x 时 x 的值这里不讨论有多个解的情况或逃逸或陷入死循环或陷入混沌状态的问题参考图片求函数的导函数为 y f x 可以这样来理解这个函数的意思 x 点处函数 y f x 的斜率 a 取一个合适的 x 初始值 x0 并得到 y0 f x0 b 过 x0 y0 作一条斜率为 f x0 的直线与 x 轴交于 x1 c 然后用得到的 x1 作为初始值进行迭代当进行足够多次的迭代以后认为 x1 将会非常接近于方程 0 f x 的解这就是牛顿迭代把上面的过程化简得到牛顿迭代公式 x n 1 x n y x n y x n 这里给出利用牛顿迭代公式求倒数的方法用倒数得到除法 y x a x 1 a 求 1 a 令 a 1 x 有方程 y a 1 x 求导得 y 1 x 2 代入牛顿迭代方程 x n 1 x n y x n y x n 有迭代式 x next 2 a x x 可证明该公式为 2 阶收敛公式也就是说计算出的解的有效精度成倍增长证明收敛性令 x 1 a dx dx 为一个很小的量则有 x next 1 a 2 a 1 a dx 1 a dx 1 a a dx 2 表示指数运算符证毕程序可以用该方法来实现除法并按照自己的精度要求来决定迭代次数对于迭代初始值可以使用查表法来得到或者利用 IEEE 浮点格式得到一个近似计算的表达式在 SSE 指令集中有一条 RCPPS RCPSS 指令也可以用来求倒数的近似值有了初始值就可以利用上面的迭代公式得到更精确的结果附录用牛顿迭代法来实现开方运算开方运算可以表示为 y x 0 5 1 1 x 0 5 先求 1 x 0 5 求 1 a 0 5 令 a 1 x 2 有方程 y a 1 x 2 求导得 y 2 x 3 代入牛顿方程 x n 1 x n y x n y x n 有迭代式 x next 3 a x x x 0 5 可证明该公式为 2 阶收敛公式方法同上证明过程略分享到分享到上一篇一个高效的二进制数据补丁算法下一篇几个库 DGL STL vc6 STL SGI DCL DeCal EZDSL 的容器性能对比测试查看评论查看评论 8 楼 housisong 2006 12 28 10 51 发表回复谢谢提醒对于 uint32 div uint64 u uint32 z 这个函数我建议你不要自己改这个函数了先扎实的学好基础推荐编程卓越之道深入理解计算机这个函数针对整数做了一些特殊的处理你就不要在它的基础上来修改你想要的浮点版本了你可以用递减法来实现你要的除法如果你要手工实现高效的浮点除法建议使用牛顿迭代法实现 7 楼 isline 2006 12 27 13 56 发表回复我改的 double div me int64 s int z return u z int x int s32 int y int s y 保存商 x 保存余数 for int i 0 i32 i int t int x 31 x x1 y31 y y1 if x t z x z y return y 调用 div me 20 2 结果为 0 我是想传入 www div me 20 34 2 21 www 返回带小数的结果 6 楼 isline 2006 12 27 13 43 发表回复谢谢你 housisong uint32 和 uint64 分别可以用 c 中的哪种类型变量代替呢 int32 就是 c 中的 int 是吧我是这样改的 uint32 div uint64 s uint32 z return u z 改成 double div int s int z return u z 因为我把 uint32 和 uint64 都用 int 代替了结果移位好像溢出了另外您的函数标注 return u z 应该是 return s z 吧我找不到 u uint32 div uint64 s uint32 z return u z uint32 x uint32 s32 uint32 y uint32 s y 保存商 x 保存余数 for int i 0 i32 i uint32 t int32 x 31 x x1 y31 y y1 if x t z x z y return y 5 楼 housisong 2006 12 26 14 46 发表回复 to isline 建议先看看书 vs2003 Visual c 下你可以使用 double 或者 float 来做运算他们直接支持带有小数的除法不需要手工写代码来实现除法如果你需要试验只用整数来模拟带有小数的除法可以考虑定点数方案 4 楼 isline 2006 12 26 13 35 发表回复我是在 vs2003 Visual c 下用的我也是初学 c 对变量类型不是很了解 3 楼 housisong 2006 12 21 15 43 发表回复 to isline 环境能描述详细一点吗 2 楼

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

代码优化-之-优化除法

文档简介

温馨提示

最新文档

评论

相关文档