(信号与信息处理专业论文)powerpc下h264运动估计硬件加速器研究.pdf_第1页
(信号与信息处理专业论文)powerpc下h264运动估计硬件加速器研究.pdf_第2页
(信号与信息处理专业论文)powerpc下h264运动估计硬件加速器研究.pdf_第3页
(信号与信息处理专业论文)powerpc下h264运动估计硬件加速器研究.pdf_第4页
(信号与信息处理专业论文)powerpc下h264运动估计硬件加速器研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(信号与信息处理专业论文)powerpc下h264运动估计硬件加速器研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

p o w e r p c 下h 2 6 4 运动估计硬件加速器研究 摘要 h 2 6 4 是由i s o i e c 与i t u t 组成的联合视频组( j v 7 ) 带0 定的新一代面向未 来i p 和无线环境下的视频压缩标准,它在视频压缩效率方面比目前其它的视频 压缩标准都要高,但是h 2 6 4 也具有相当复杂的编码技术,运算复杂度远高于 其它的编码标准,因此实时编码难度较大。其中运动估计在整个编码中占有 6 0 8 0 的运算量,是视频压缩编码中的关键技术。目前运动估计的方法有多 种,全搜索运动估计算法有很好的预测效果而且搜索窗数据有很大的相关性, 易于硬件实现,但运算量大对硬件的要求高。快速运动估计算法不需要对搜索 窗内的每个位置进行匹配,减少了运算量,但由于匹配位置数据的不规则,不 能并行地进行多个位置的匹配,也不利于用硬件实现。本文的研究目标是对运 动估计算法进行优化以期在f p g a 中实现运动估计硬件加速器。 本文的主要工作: ( 1 ) 、对运动估计算法进行分析,从减少计算量和适合于硬件实现两个方 面对运动估计算法进行优化,给出了隔像素抽样搜索和局部全搜索两种适合于 硬件实现的运动估计算法。将本文的算法在a v c 下用f o r e m a n ,f o o t b a l l ,n e w s 三个序列与全搜索进行了对比,在减小平均o 4 5 d b 和o 6 7 d b 的p s n r 情况下, 分别减少了约5 0 和6 8 7 的计算量。 ( 2 ) 、在分析典型的运动估计硬件结构的基础上,结合不同的应用场合给 出资源优先和速度优先两种硬件结构。完成基于f p g a 的硬件加速器总体结构 和各处理模块的设计,并在i s e 下对硬件加速器的各个模块进行了综合与仿真。 ( 3 ) 、在v i r t e x l i 开发板上构建了p o w e r p c 最小系统。将自行设计的h 2 6 4 运动估计硬件加速器创建为i p 核,并挂接到p o w e r p c 的最小系统中,完成运 动估计硬件加速器验证平台的构建。对硬件加速器加载了真实的视频数据,得 到了与p c 机运动估计c 代码相同的运行结果,结果表明本文设计的运动估计 硬件加速器能够正确完成h 2 6 4 运动估计的数据处理。 关键词:h 2 6 4运动估计硬件结构硬件加速器p o w e r p c r e s e a r c ho fh 2 6 4m o t i o ne s t i m a t i o nh a r d w a r e a c c e l e r a t o rb a s e do np o w e r p c a b s t r a c t h 2 6 4i san e wf u t u r ei pa n dw i r e l e s se n v i r o n m e n to r i e n t e dv i d e oc o m p r e s s i o n s t a n d a r d ,i ti ss e t t e du pb yj v 7w h i c hi sc o m p o s e db yi s o i e ca n di t u - t i n a s p e c to ft h ev i d e oc o m p r e s s i o ne f f i c i e n c y , h 。2 6 4i sm o r eb e t t e rt h a na l lo t h e r s c o m p r e s s i o ns t a n d a r d s ,h o w e v e r ,t h ee n c o d i n gt e c h n o l o g y o fh 2 6 4i sv e r y c o m p l e x ,c o m p u t i n gi sm o r ec o m p l e xt h a no t h e re n c o d i n gs t a n d a r d s ,s ot h er e a l t i m ee n c o d i n gi sv e r yd i f f i c u l t m o t i o ne s t i m a t i o ni st h ek e yt e c h n o l o g yo fv i d e o c o m p r e s s i o ne n c o d i n g m ,i ts h a r e s 6 0 一8 0 o ft h ec o m p u t i n gi nt h ew h o l e e n c o d i n gp r o c e s s a tp r e s e n t ,t h e r ea r eav a r i e t yo fm o t i o ne s t i m a t i o nm e t h o d s ,f u l l s e a r c hm o t i o ne s t i m a t i o na l g o r i t h mh a sg o o df o r c a s te f f e c ta n dt h es e a r c hw i n d o w d a t ah a v e g r e a tr e l a t i v i t y ,i t i s e a s y f o rh a r d w a r ei m p l e m e n t a t i o n ,b u tt h e r e q u i r e m e n to fh a r d w a r ei sv e r yh i g hd u et ot h el a r g ea m o u n to fc o m p u t i n g ,f o rf a s t m o t i o ne s t i m a t i o na l g o r i t h m ,i ti sn o tn e c e s s a r yt om a t c he v e r yp o s i t i o ni nt h e s e a r c hw i n d o w ,t h a tw i l lr e d u c et h ea m o u n to fc o m p u t i n g ,b u tb e c a u s et h ed a t ea t t h em a t c hp o s i t i o ni sa n o m a l o u s ,i tc a nn o tm a t c hm u l t i p o s i t i o ni np a r a l l e l ,t h a tg o a g a i n s tt oh a r d a r ei m p l e m e n t t h er e s e a r c ho b j e c to ft h i sa r t i c l ei so p t i m i z i n gt h e m o t i o ne s t i m a t i o na l g o r i t h ma n da c t u a l i z em o t i o ne s t i m a t i o nh a r d w a r ea c c e l e r a t o r b a s i n go nf p g a m a i nw o r ko ft h i sp a p e r : ( 1 ) a n a l y s i st h em o t i o ne s t i m a t i o na l g o r i t h m ,o p t i m i z i n gt h em o t i o ne s t i m a t i o n a l g o r i t h mw i t ht h ep i n c i p l eo fr e d u c i n gt h ea m o u n to fc o m p u t i n ga n ds u i t a b l ef o r h a r d w a r ei m p l e m e n t a t i o n ,b r i n gf o r w a r dt w om o t i o ne s t i m a t i o na l g o r i t h ms u i t a b l e f o rh a r d w a r ei m p l e m e n t a t i o n ,t h a ta r es a m p l ep e rp i x e ls e a r c ha n dp a r tf u l ls e a r c h u n d e ra v c ,b yu s i n gt h r e es e q u e n c e s f o r e m a n ,f o o t b a l la n dn e w s ,c o m p a r e d t h e s et w oa l g o r i t h m sw i t hf u l ls e a r c h ,w i t ht h ea v e r a g er e d u c t i o no nt h ep s n ri s o n l yo 4 5 d ba n d0 6 7 d b t h ec a l c u l a t i o nw o r kc a nb er e d u c e db y5 0 a n d6 7 8 r e s p e c t i v e l y ( 2 ) b a s e do na n a l y s i n gt y p i c a lm o t i o ne s t i m a t i o nh a r d w a r ea r c h i t e c t u r ea n d w i t ht h ed i f f e r e n ta p p l i c a t i o n s ,r a i s e du ps p e e dp r i o r i t ya n dr e s o u r c ep r i o r i t y h a r d w a r ea r c h i t e c t u r e f i n i s h e dt h ed e s i g no ft h eo v e r a l ls t r u c t u r ea n de a c hp r o c e s s m o d u l eo ft h eh a r d w a r ea c c e l e r a t o rb a s i n go nf p g a ,a n di n t e g r a t e da n ds i m u l a t e e v e r ym o d u l eo ft h eh a r d w a r ea c c e l e r a t o ru n d e ri s e ( 3 ) e s t a b l i s h e dt h em i n i m u mp o w e r p cs y s t e mo nv i r t e x - i ie x p l o i t e d b o a r d c r e a t e dt h ei pc o r eo ft h eh 2 6 4m o t i o ne s t i m a t i o nh a r d w a r ea c c e l e r a t o ra n d a d d e di tt ot h em i n i m u mp o w e r p cs y s t e mt oc o m p l e t et h eh a r d w a r ea c c e l e r a t o r v e r i f i c a t i o np l a t f o r m l o a d e dt h et u r ev i d e od a t af o rt h eh a r d w a r ea c c e l e r a t o r i tc a n g e tt h es a m er e s u l t sw i t ht h em o t i o ne s t i m a t i o ncc o d er u no np c s o ,t h em o t i o n e s t i m a t i o nh a r d w a r ea c c e l e r a t o rt h a t t h i sp a p e rd e s ig n e dc a na c c o m p li s ht h ed a t a p r o c e s so fh 2 6 4m o t i o ne s t i m a t i o n k e y w o r d s :h 2 6 4 ,m o t i o ne s t i m a t i o n ,h a r d w a r e a r c h i t e c t u r e ,h a r d w a r e a c c e l e r a t o r ,p o w e r p c 插图清单 图1 1h 2 6 4 编码框图1 图1 2 多处理器结构3 图1 3 微控制器与编码器结构3 图1 4 单处理器+ 硬件加速器结构4 图2 1h 2 6 4 帧问预测宏块划分模式6 图2 2 块匹配运动估计示意图7 图2 3 三步搜索法1 0 图2 44 s s 算法可能的搜索模式10 图2 54 s s 算法搜索过程1 1 图2 6d s 搜索示意图1 1 图2 7 六边形搜索示意图1 2 图2 8 抽样搜索示意图1 3 图2 9 局部全搜索示意图1 4 图3 1 串行并行处理的比较。1 7 图3 2 完整的f p g a 设计流程1 9 图3 3 三种性能评价关系2 1 图3 4i n t e rs a d 型运动估计硬件结构2 2 图3 5i n t r as a d 型运动估计硬件结构2 3 图3 6 资源优先的整体结构2 4 图3 7p e 阵列结构2 4 图3 8p e 结构2 5 图3 9 速度优先的整体结构2 6 图3 1 0p a 阵列结构图2 6 图3 1 l 加速器总体结构2 7 图3 1 2r a m 端口描述图2 8 图3 1 3 存储单元仿真图2 8 图3 1 4 地址产生模块端口描述图2 9 图3 15 地址产生模块仿真图2 9 图3 16p e 计算单元仿真图31 图3 17 比较输出模块端口描述结构图3 2 图3 18 比较输出模块仿真图,3 2 图4 1p o w e r p c 硬核的内部结构示意图3 4 图4 2o p b 总线结构组成示意图3 5 图4 3p l b 总线结构组成示意图3 6 图4 4f s l 总线方块图3 6 图4 5x u p v 2 p 开发板框图3 7 图4 6 基于e d k 的嵌入式设计流程3 8 图4 7p o w e r p c 4 0 5 最小系统4 0 图4 8 开发板选择界面4 0 图4 9 处理器配置界面4 1 图4 1 0e d k 下构建的p o w e r p c 最小系统4 2 图4 1 l测试程序运行结果4 2 图4 12 i p i f 服务选择界面4 3 图4 1 3p c 机和硬件加速器运行结果一4 7 表格清单 表1 1 按文件排列的h 2 6 4 编码器复杂度情况2 表2 1 匹配准则的运算复杂度8 表2 2 各种搜索算法的平均搜索点数9 表2 3 抽样搜索与全搜索性能比较1 3 表2 4 局部全搜索与全搜索性能比较1 4 表3 1 几款芯片性能比较1 7 表3 2 本文资源优先结构与几种运动估计结构的性能比较2 5 表3 3 本文速度优先结构与几种运动估计结构的性能比较2 7 表4 1p o w e r p c3 层结构说明3 4 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得 金日巴王些太堂 或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签字撕签字目期:勿。年月j 歹日 学位论文版权使用授权书 本学位论文作者完全了解金胆王些盔堂 有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人 授权 盒胆王些太堂 可以将学位论文的全部或部分论文内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名:槲 签字日期:洲口年印月渺日 学位论文作者毕业后去向: 工作单位: 通讯地址: 刷帷辄瓤l f 签字日期:珈0 年f 月沈日 电话: 邮编: 致谢 研究生生活即将划上句号,两年半的时光短暂而又漫长,在这期间我成长 了很多,学会了如何与人相处、如何做研究、如何做工程。在这近三年的学习 和生活中,老师、同学、亲人和朋友们给予我的关心和帮助将永远珍藏在我心 灵最深处。 首先感谢我的导师吴从中副教授,吴老师渊博的知识、丰富的项目经验、 严谨的治学态度以及对学生的关心给了我很大触动。还要感谢实验室的蒋建国 教授和齐美彬教授,两年来,我所取得的每一点进步,都与蒋老师和齐老师的 悉心指导和帮助分不开的。感谢实验室的其他各位老师,在平时的学习和生活 中给予我的热心的指导和帮助。感谢我的师兄项磊和李化雷,他们带我做了很 多项目,让我在做项目过程中学习了很多东西。 另外,还要感谢我同届的各位同学,感谢他们给我带来了一个值得回忆的 研究生生活,让我拥有了一个良好的学习环境,使我能够严格要求自己,不断 进步。 还要感谢我的父母,在我成长的道路上给予我的无私关怀和爱。感谢我的 女朋友,在三年的研究生生活中,她给了我很大的动力,每当困难的时候她都 会给我默默的支持。 最后,感谢所有对本文提出宝贵意见的专家、教授,有了你们的指导与建 议才会使我的论文更加完善。 作者:李本斋 2 0 10 年4 月 第一章绪论 1 i h 2 6 4 视频编码介绍 h2 6 4 标准是出i t u t v c e g 和i s o 仃e c m p e o 联台组成的_ v t 开发的最新一代 的视频压缩标准,是目前图像通信领域研究的热点。h2 6 4 标准与先前的一些编 码标准相比在结构上并没有变化,继承了h2 6 3 和m p e g 4 视频标准枷议的 优点,只是为了提高编码教率在主要的功能模块内部使用了一些先进的技术。 这主要表现在;编码在4 x 4 大小的块上进行残差的变换编码,不再是基于8 x 8 的块进行。所采用的变换编码方式也是一种整数变换编码,而不再是d c t 变换。 采川具有更高编码效率的e 下文自适应二进制算术编码( c a b a c ) ,同时相应 的量化过程也有区别。h2 6 4 标准具有算法简单易于实现、运算精度高且不溢 出、运算速度快、占用内存小、消弱块效应等优点,是一种更为实用有效的图 像编码标准。与目前常用的m p e g 一2 编码算法相比,在同等质量的情况下可以 节约6 0 的传输带宽和存储空间,与m p e g 4 编码算法相比,也可咀节约3 0 以上, h2 6 4 编码器框图如图11 所示,编码器包括两条数据流路径吲,一条为重 建路径( 从右到左) ,一条为前向路径( 从左到右) 。用f n 表示需要进行编码的帧, 进行处理时需要将一帧图像分成多个不同大小的宏块,每个宏块进行编码的模 式有帧间或帧内两种,这两种模式f 都有一个预测宏块p ,它是基于参考帧重 构出来的。在帧间模式下,p 的得到是通过对参考帧进行运动补偿预测。参考 帧用f n 一1 表示,在实践顺序上已经编码重构的图像来表示参考帧:在帧内模式 下,需要通过对当前帧已编码的模块但没有进行滤波的老块预测得到p 。得到 预测块信息之后,为得到一个残差块d n ,需要将当前编码块和预测块相减。 帼 叶囝廿 , r e 日j 国11h2 6 4 编码框图 h2 6 4 图像编码的实现方式有很多,可以使用p c 机来实现,也能基于d s p 实现,还有基于f p g a 的实现方法。基于p c 机的实现方法通常作为f i ,2 6 4 算 法研究,不适合做嵌入式的应用;基于通用d s p 实现的方式的灵活性较强,能 满足特殊处理需求,具有很好的可扩展性、可升级性和易维护性,但是这种方 式的并行处理速度不高,很难实现高速处理:基于f p g a 实现压缩算法的纯硬 件,并行处理速度高,可完成高速处理,实现实时编码。随着视频编码技术的 发展,对实时编码的要求越来越强烈,因此,基于f p g a 实现h 2 6 4 硬件化的 研究成为当下热点。 1 2 h 2 6 4 编码复杂度分析 h 2 6 4 编码实时实现一直是h 2 6 4 研究人员追求的目标,为此算法设计人 员致力于快速算法的研究,硬件设计人员研究h 2 6 4 的硬件高效实现。为了说 明h 2 6 4 各模块的计算复杂度,常用运行时的周期数表示。表1 1 列出了采用 i n t e lp e n t i u mi i i 通用处理器时h 2 6 4 编码器各模块周期数占总周期数的比例 3 1 。 表1 1 按文件排列的h 2 6 4 编码器复杂度情况 功能模块占总周期数的百分比 m v s e a r c h c 6 7 3 1 b l o c k c8 1 9 r e f b u f c6 9 5 m a c r o b l o c k c3 4 8 r d o p t c 3 3 7 b i a r i e n c o d e c 3 2 1 c a b a c c 2 9 8 m e m c p y a s m 2 9 1 a b s c0 5 7 i m a g e c 0 5 4 r d o p t c o d i n g s t a t e c 0 4 6 l o o p f i l t e r c o 0 3 可见,运动搜索是整个编码中占用运行周期最大的模块,该模块的算法复 杂度直接影响整个编码器的效率,通常将其作为基本的硬件加速单元。 h 2 6 4 的运动搜索之所以具有这么高的复杂度,主要有一下几点决定: 1 、1 4 象素精度的运动搜索:相对于整象素预测,运用1 4 象素精度的运 动估计可以节省2 0 的码率,但是进行1 4 象素精度运动搜索要先进行1 2 象 素运动搜索,这时要对待预测图像和参考帧图像进行半象素内插,然后在进行 1 4 象素的内插,完成1 4 象素精度的搜索,这极大的增加了运动搜索的复杂度。 2 、7 种分块方式:h 2 6 4 有从4 x 4 到1 6 x 1 6 等7 种不同的分块方式,每次预测 需要先进行分块模式的选择,即对7 种方式进行循环搜索确定最佳分块方式,同时也 可以得到该模式对应的最佳运动矢量。这样提高运动匹配的效果,但是循环的计 算也给运动搜索的复杂度带来了很大的影响。 3 、多参考帧技术:在h 2 6 4 中,允许编码器使用多于一帧的先前帧用于运 动估计,这就是常说的多参考帧技术,这种通过比较不同参考帧选取最佳参考 帧的方法,能很大程度的提高编码的效率,同时提供的多个参考帧还有助于提 高h 2 6 4 位流的容错能力。但是这种方式需要对多个参考帧进行运动搜索,增 加了整个搜索过程的计算复杂度,而且由于需要在内存中保存多个参考帧,增 加了编码器的内存需求。所以多参考帧的数目会对h 2 6 4 运动搜索的复杂度有 很大的影响,而且成线性增长。 1 3h 2 6 4 硬件编码技术研究现状 随着视频监控技术的发展,h 2 6 4 视频编码标准也得到了越来越广的应用, 目前市场上常用的h 2 6 4 的编解码方案有以下几种。 1 ) 、多处理器结构:如图1 。2 是多处理器方案的基本结构,市面上比较典型 的方案是t i 的o m a p 架构1 3 】。t i 的这种o m a p 结构中使用了两个处理器,分 别是a r m 系列处理器和t i 系列的d s p 。此外芯片中还包括图像、图形的加速 器以及一些接口。在芯片中利用低功耗的a r m 处理器实现接口和控制方面的 需要,而d s p 用来增加芯片对音视频应用中的信号处理能力。这种结构的优点 是处理能力突出,支持多种操作系统,适用较高端的应用。而且这种架构还有 一个优点是在此结构上容易实现多种应用。但这种应用设计复杂度大,多个处 理器和加速器导致芯片面积较大和成本较高。 图1 2 多处理器结构 2 ) 、微控制器与编解码器结构:典型的结构如图1 3 所示,微控制器用来进 行控制,视频编解码由专用硬件组成。在这种结构中由于编解码操作全部由硬 件完成,微控制器可以处理人机界面、网络通信、视频播放等多种功能,能够 适应各种复杂的应用。 图1 3 微控制器与编码器结构 由于h 2 6 4 本身的复杂性,方案一往往芯片面积较大、实时性不够理想。 为了解决高清视频图像的实时处理,解决h2 6 4 编码标准所用算法的计算复杂 度以及算法和数据并行性等要求,h2 6 4 的编解码的“全硬件化”实现已经成为 了目前业界的研发潮流。 3 ) 、单处理器+ 硬件加速器结构:如图14 所示,这种方案属于典型的s o c 设计,被众多i c 设计厂商所采用。这种设计方案一般使用一个处理器加若干个 视频编解码加速器;也可以对视频编码器进行模块划分,将一些主要功能模块 如变换、运动补偿、运动估计等作为硬件加速器单独实现。其中处理器使用较 多的主要有a r m 系列和m 1 p s 系列处理器。这些处理器主要用于接口和控制, 视频编解码应用则使用专门的硬件加速器来提高处理速度。在这样的芯片上, 可以实现不同的编解码应用而且设计的复杂度和成本相对第一种结构来说比较 低。目前市场上基于这种架构的编解码器较多。 图i4 单处理器+ 硬件加速器结构 随着h d t v 等高清资源的兴起,h2 6 4 这个规范已得到了广泛的应用, h d - d v d 和蓝光d v d 均计划采用这一标准进行节目制作。而且自2 0 0 5 年下半 年以来,无论是n v i d i a 还是a t 都把支持h2 6 4 硬件解码加速作为自己最值 得自豪的视频技术。其中x i l i n x 公司开发的运动估计i p 核能够接受输入的帧的 参数和宏块的尺寸,将根据宏块级的像素流生成最佳运动矢量,最小s a d 值输 出,该i p 选择1 1 2 1 2 8 的搜索宙,完成1 0 8 0 i 6 0 s 或1 0 8 0 p 3 0 帧s 仅需要 2 7 5 m h z 。2 0 0 6 年底,a l t e r a 公司和高级视频和音频编码技术硬件及软件世界领 先提供商a t e m e 在国家广播联盟上展示了业内第一款基于f p g a 的h 2 6 4 实 时视频编码器,其实现了高质量的广播视频,使得设计人员能够轻松定制实现视 频系统。全球设计服务领导厂商创意电子开发了第一个全实时d 1 编解码的监 控系统s o c ( s y s t e m0 1 1c h i p ) 设计解决方案。g p l 6 8 0 设计解决方案以高度整舍的 s o c 为基础,备有4 个h2 6 4 编码器和解码器来达到影像录制和播放,每个h2 6 4 装置拥有每秒3 0 个面面之d i 解析度( 7 2 0 x 4 8 0 或7 2 0 x 5 7 6 ) 影像,其也支持c i f 模式。每个h2 6 4 编码器采用四级流水,为了降低计算的复杂度,将整数运动 估计和分数运动估计分丌设计,但由此使得搜索模式选择较困难,只能完成8 8 块搜索、比较和s a d 运算。 1 4 本文主要工作与结构安排 本课题基于h 2 6 4 运动估计算法的硬件实现展开,主要工作有: l 、在分析h 2 6 4 运动估计算法的基础上,对h 2 6 4 运动估计算法进行优化, 提出两种适合于硬件实现的运动估计方法。 2 、通过分析典型的运动估计硬件结构,根据不同应用场合给出资源优先和 速度优先两种硬件结构,并对比它们的性能。 3 、对硬件加速器的总体进行设计,且分模块实现并仿真。完成基于f p g a 的h 2 6 4 运动估计的硬件加速器设计。 4 、构建基于p o w e r p c 的验证平台,将设计的硬件加速器加载到系统中验 证该运动估计硬件加速器的数据处理能力的j 下确性。 本文共分为五章: 第一章绪论部分介绍了h 2 6 4 视频编码系统,h 2 6 4 编码的复杂度分析和 h 2 6 4 硬件编码技术的研究现状。 第二章简要介绍运动估计算法,分析对比几种典型的h 2 6 4 算法和并对针 对硬件实现的特点对h 2 6 4 运动估计算法进行优化,给出两种适合硬件实现的 优化算法。 第三章分析典型的运动估计硬件结构,提出资源优先和速度优先的两种硬 件结构,并分析对比它们的性能。同时介绍基于f p g a 的h 2 6 4 运动估计硬件 加速器设计。 第四章阐述了基于p o w e r p c 的验证平台构建,给出硬件加速器的验证策略, 并对设计的硬件加速器进行验证。 第五章总结本文的主要工作,并对未来的研究方向做出展望。 5 第二章h 2 6 4 运动估计算法针对硬件实现的优化 2 1h 2 6 4 运动估计概述 作为降低视频信号时间冗余的最基本和最重要的方法之一,运动估计是视频处理 系统的一个重要组成部分,并己成功应用于正在定制和已定制的视频编码国际标准 中。相比以往的视频编码标准,h 2 6 4 中的运动估计采用了多种不同大小预测块、1 4 像素精度和多参考帧的新技术。h 2 6 4 采用树形结构运动估计,这种方法支持变块尺 寸,如图2 1 所示,范围从4 x 4 到1 6 x 1 6 。对于亮度分量f 4 】,每个1 6 x 1 6 宏块可以有 1 6 x 1 6 、1 6 x 8 、8 x 1 6 或8 8 块尺寸,同时将8 8 块再划分为8 x 4 、4 x 8 和4 x 4 块尺寸。 树形结构运动补偿允许组合大量的变块尺寸来匹配图像序列中不同形状的对象,提供 了选择块尺寸的灵活性。因此,相比以前的标准树形运动估计方法有更高的编码效率。 1 6 8r88 田:目:田 田:目:田 图2 1h 2 6 4 帧间预测宏块划分模式 运动估计算法被归纳为两大类:一类是像素递归算法p r a ( p i x e lr e c u r s i v e a l g o r i t h m ) ;另一类是块匹配算法b m a ( b l o c km a t c h i n ga l g o r i t h m ) 。p a r 是基于递归 思想【5 】,为了预测该像素的位移,假定连续帧中,像素数据的变化是因为物体的位移 引起的,这样算法就会在梯度方向几个像素周围的若干像素做迭代运算,连续的运算 最后收敛于一个运动估计矢量,即为该像素位移;而b m a 则是基于当前帧中一定大 小的块【6 】,在当前帧的前后帧的一定区域内搜索该像素块的最佳匹配块,作为它的预 测块。对于比较复杂的运动形式来说,p r a 的预测精度要高于b m a ,但其计算量要 比b m a 大的多。所以b m a 以其本身较好的性能,被目前的视频压缩编码国际标准 普遍采用。 块匹配运动估计的基本思想【7 】是将图像序列的每一帧分成许多互不重叠的宏块, 并认为宏块内的所以象素的位移量都相同,然后对每个宏块到参考帧某一给定搜索范 围内根据一定的匹配准则找出与当前块最相似的块,即匹配块,匹配块与当前块的相 对位移即为运动矢量。视频压缩的时候只需要保存运动矢量和残差数据就可以完全恢 复出当前块。如图2 2 所示,当前帧用k 表示,参考帧用k 1 表示,i k ( x ,y ) 和i k 1 ( x ,y ) 分别定义为第k 帧和第k 1 帧中位于图像( x ,y ) 处的灰度矩阵。 当前块用a 表示,图中a 0 位置表示a 没有运动时在参考帧中的对应位置,它是 得到最优匹配块前首先要确定的位置。可见,运动向量为o 时,图像块a 0 为最优匹 6 配块,而如果图像中存在运动物体时,图像块a 0 不可能是与当前块最匹配的,这时 要在a 0 周围一定区域内进行搜索来寻找最优匹配块。假设搜索到的最优匹配块在参 考帧中的b 0 位置,那么从a 0 指向b 0 的向量就是当前块a 的最佳运动矢量,用 m v ( m o t i o nv e c t o r ) 表示,并分别用d x 、d y 表示水平和垂直方向的位移。 图2 2 块匹配运动估计示意图 在视频编码过程中,采用的匹配准贝, l j t 8 1 决定了运动估计的匹配运算复杂度、估计 精度、内存管理复杂度和数据读取复杂度。匹配准则作为衡量两个子块的相似程度的 标准,实质上是一种误差度量函数,它的选取直接关系到运动位移估值的准确性。采 用不同的匹配准则在块匹配算法中会获得不尽相同的运动估计结果。常用的块匹配准 则一般有如下几种:绝对偏差$ i j ( s a d ) 、互相关函数( c c f ) 、均方误差( m s e ) 、最大 误差最小函数( m m e ) 、平均绝对误差函数( m a e ) 和最大匹配像素数( m p c ) 等,它们的 表达式分别如下: ( 1 ) 、均方误差( m s e ) : , 1x + n 一1v + n 一1 m s e ( i ,) = 吉瞰聊,n ) - q 一。( 聊+ f ,玎+ 川2 ”。”妙 ( 2 1 ) 上式中,( m ,n ) 为位移矢量,n 表示图像块的大小,当前帧和参考帧的图像灰度矩 阵分别为i k 和i k _ i ( 公式2 2 2 6 中的符号意义与这里相同) ,m s e 的值越小表明匹配程 度越高。 ( 2 ) 、互相关函数( c c f ) j + n 一1p + 一1 j ,i ( 脚,门) ,川( 肌+ f ,疗+ ) c c f ( i ,) = i 酉丽_ 竺i 而丽丁一 【,。( 聊,门) 】f 2 i ( m + f ,珂+ 朋“2 肛。”,”。”y ( 2 2 ) c c f 的值越大匹配的越好。 ( 3 ) 、平均绝对误差函数( m a e ) t+ f v lv + n - ! m a e ( i ,歹) = 啬il k ( 肌,n ) - i + f ,玎+ 川 ”。胆y ( 2 3 ) m a e 的值越小越好。 7 ( 4 ) 、绝对偏差和( s a d ) 一l n i s a d ( i ,) = li k ( 坍, ) 一,( 研+ f ,玎+ ,) m = 0 n = 0 s a d 的值越小越好。 ( 5 ) 、最大误差最小函数( m m e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论