(通信与信息系统专业论文)h264解码算法优化及在arm上的移植.pdf_第1页
(通信与信息系统专业论文)h264解码算法优化及在arm上的移植.pdf_第2页
(通信与信息系统专业论文)h264解码算法优化及在arm上的移植.pdf_第3页
(通信与信息系统专业论文)h264解码算法优化及在arm上的移植.pdf_第4页
(通信与信息系统专业论文)h264解码算法优化及在arm上的移植.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(通信与信息系统专业论文)h264解码算法优化及在arm上的移植.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在信息化发展的当前,音视频等多媒体作为信息的载体,在社会生活的各 个领域,起着越来越重要的作用。数字视频的海量性成为阻碍其应用的的瓶颈 之一。在这种情况下,h 2 6 4 作为新一代的视频压缩标准,以其高性能的压缩效 率,成为备受关注的焦点和研究问题。h 2 6 4 通过运动估计运动补偿( m p m c ) 消除视频时间冗余,对差值图像进行离散余弦变换( d 消除空间冗余,对量化 后的系数进行可变长编码( 呛) 消除统计冗余,获得了极高的压缩效率。随着嵌 入式处理器性能的逐渐提升和3 g 网络即将商用的推动,f i 2 6 4 以其优秀的压缩 性能,无论是无线信道传输方面,还是存储容量有限的嵌入式设备都具有广阔 的应用前景。 但h 2 6 4 在提升压缩性能的同时付出的代价是算法复杂度的成倍增加,实际 应用中人们对视频解码的实时性要求严格,已出现的对应算法代码多基于p c 通 用处理器实现,而嵌入式设备的主频和处理能力仍然相对有限,存储容量相对 较小,总线速率相对偏低,因此必须对标准对应算法进行优化移植,才能满足 实际应用的需求。 本文在对h 2 6 4 标准及其新特性进行详细介绍后,重点研究了在解码端如何 针对解码耗时较多的模块进行改进,然后将算法移植到a r m 平台,并针对平台 特点作出相应优化,最后完成解码图象显示,并给出了测试结果。本文主要完 成的工作如下: 详细分析了h 2 6 4 的参考软件j m 中解码流程,并利用测试工具分析了各模 块耗时,针对耗时较多的模块如插值运算及去块滤波模块,提出了对应的改进 算法并在h 2 6 4 的参考软件j m 8 6 上进行了实现,p c 测试实验证明了算法改进 的优越性和运算优化的可行性。最后针对a r m 平台,在对程序结构和对应代码 进行优化之后,将其移植到w i n c e 系统之下,同时给出了w i n c e 平台解码后 图象加速显示方法,并对最终测试结果与性能做出了评价。 关键字:h 2 6 4 、运动补偿、1 4 像素插值、去块滤波、a r m 、w i n c e a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,a st h ei n f o r m a t i o nc a r r i e r , v i d e oa n da u d i oa n do t h e rm u l t i m e d i ap l a ya ni m p o r t a n tr o l ei nv a r i o u sf i e l d so f s o c i a ll i f e 。b u tt h em a s so fd i g i t a lv i d e oh i n d si t sa p p l i c a t i o n 。i nt h i sc a s e ,a san e w g e n e r a t i o no fv i d e oc o m p r e s s i o ns t a n d a r d sa n di t sh i g h p e r f o r m a n c ec o m p r e s s i o n e f f i c i e n c y ,h 2 6 4b e o ) m e st h ef o c u so f c o n c e r na n dr e s e a r c hi s s u e s u s i n gm c m pt o e l i m i n a t et e m p o r a lr e d u n d a n c y ,d c tt oe l i m i n a t es p a t i a lr e d u n d a n c y , a l s os t a t i s t i c a l t oe l i m i n a t es t a t i s t i c a lr e d u n d a n c y , h 2 6 4g e tah i g h - p e r f o r m a n c ec o m p r e s s i o n e f f i c i e n c y 。w i t ht h ed e v e l o p m e n to f t h ep e r f o r m a n c eo fe m b e d d e dp r o c e s s o ra n dt h e c o m m e r c i a la p p l i c a t i o no f3 6 ,h 2 6 4w i l lh a v eag r e a ta s p e c tb o t hi nt h ew i r e l e s s t r a n s m i s s i o nc h a n n e la n dt h el i m i t e d r e s o u r c ee m b e d e ds y s t e md e v i c e 。 h o w e v e r ,t h ep e r f o r m a n c eo fh 2 6 4c o m p r e s s i o ne f f i c i e n c yr a i s e sa tt h ec o s to f g r o w t ho ft h ea l g o r i t h mc o m p l e x i t y a n dp e o p l e c a r em o r ea b o u tt h er e a l - t i m e d e c o d i n gi np r a c t i c a lu s e a n de m b e d d e dd e v i c e sa r el i m i t e di nf r e q u e n c y , p r o c e s s a b i l i t y , s t o r a g ec a p a c i t i e sa n db u ss p e e d i ti sn e c e s s a r yt oo p t i m i z et h et r a n s p l a n t a t i o n m e t h o d t h i sp a p e rf l r s ti n t r o d u c et h eh 2 6 4s t a n d a r da n di t sn e wf e a t u r e si nd e t a i l t h e n f o c u so nh o wt oi m p r o v et h em o d u l ec o n s u m i n gt i m em o s t a n dt h e nt r a n s p l a n t e d a l g o r i t h mt oa r mp l a t f o r ma n do p t i m i z ei t f i n a l l yf i n i s ht h ei m a g ed e c o d i n ga n d s h o w t h ec o r r e s p o n d i n gt e s tr e s u l ti sg i v e na tt h ee n d t h ea r t i c l ea n a l y z e st h ed e c o d i n gf l o wo fh 2 6 4r e f e r e n c es o f t w a r ej mh 2 6 4 v i d e oe n c o d i n gs t a n d a r di nd e t a i l ,u s e st h et o o lt of i g u r eo u tt h em o d u l e t i m e _ c o s u m i n g ,g i v e st h eo p t i m i z e dm e t h o dt o t h em o s tt i m e _ c o n s u m i n gm o d u l e s u c ha ss u b _ _ p i x e li n t e r p o l a t i o na n db l o c kf i l t e r i n g p ct e s t i n gl a b o r a t o r i e sp r o v et h e s u p e r i o r i t y o ft h e a l g o r i t h m t o i m p r o v e a n d o p t i m i z e t h e f e a s i b i l i t y o f c o m p u t i n g f i n a l l yt h ea l g o r i t h mi st r a n s p l a n t e d t ot h ew i n c es y s t e m ,g i v e st h e m e t h o dt oa c c e l e r a t ei m a g ed i s p l a y , a n dm a k et h ef i n a lt e s tr e s u l t sa n dp e r f o r m a n c e e v a l u a t i o n s k e y w o r d :h 2 6 4 、m o t i o nc o m p e n s a t i o n 、1 4s u b p i x e li n t e r p o l a t i o n 、d e b l o c k i n g f i l t e r 、a r m 、w 酣c e n 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:塞尘些e t 期:垄哩垒 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 武汉理工人学硕士学位论文 1 1 研究背景 第1 章绪论 随着数字通信技术和网络技术的迅猛发展,人们对于传输内容的要求早已 从语音、数据到了图像视频。视频通信和多媒体通信成了当前国内外研究的热 点。与视频相关的应用也越来越广泛,如可视电视、v o d 、视频会议、m 上的 视频服务、数字图像监控、数字电视等。而这些都与视频的核心内容视频 的压缩编码有密切的联系。如何设计出一个高效的视频编解码器一直是近二十 年来人们研究的重点。为此,人们做出了不懈的努力。自1 9 8 8 年以来,国际电 信联盟( 删t ) 、视频编码专家组( v c e g ) 和国际标准化组织( i s o ) 国际电 工委员会( i e c ) 活动图像专家组( m p e g ) 分别制定出了h 2 6 x t h 2 1 和m p e g x 1 3 巧l 两大系列视频编码标准。这一系列标准的不断推陈出新,推动着视频技术的发 展,同时也使得人们对视频通信提出了越来越高的要求。进入新世纪,如何具 有更高的压缩比,更好的图象质量,以及更好的网络亲和力,人们对新_ 代的 视频标准提出了挑战。 h 2 6 4 标准由此应运而生。h 2 6 4 ,a v c 是由联合视频小组j v t 发布的最新 的视频编码标准【6 1 。它仍然采用的是基于块变换的混合视频编码框架,由于增加 了许多先进的编码技术,包括可变块大小运动估计与补偿、方向性帧内预测以 及基于上下文二进制算术编码等,使h 2 6 4 a v c 的编码性能大大优于当前其他 的视频编码标准,具有很高的编码效率。在相同的重建图象质量下,相比m p e g 4 和h 2 6 3 ,能够节省5 0 以上的比特率,更加适用于无线信道传输。 但h 2 6 4 在提高性能的同时,代价的是更加复杂的计算。因此需要具有更 强大处理能力的硬件平台,研究软硬件的结合,使h 2 6 4 更快的走向实际运用, 是视频压缩发展领域的一个重要方向。 1 2 国内外研究现状 现有对于h 2 6 4 解码算法实现和优化方案相继推出,具体实现的方法也比较 武汉理:i :大学硕七学位论文 多,但基本可分为如下几类: 针对解码定制或者半定制平台实现:研究分析2 6 4 算法或某些模块,如熵 解码,插值运算,块滤波,结合定制或半定s u s o c 器件,根据双方特点达到软硬 件的协同工作,此方式一般用于支持m a i n 和e x t e n d e d 高档次,应用于高端领域, 如高清电视( 1 9 2 0 x 1 0 8 8 ) 等,要求较高,但是具体实现难度较大,目前真正实 现全套方案的较少。此方案在提高r a m 及寄存器重用,并行处理方面具有优势, 但完整性较差。目前已经出现了h 2 6 4 的集成视频解码芯片,但大多价格不菲, 主要应用在数字高清领域,如s i g n a l d e s i g n ,s t m i c r o e l e c t r o n i c s ,国内的富瀚,及 华为海思都有此类产品推出。 通用p c 全软件实现:如现在的有些商用播放器就已经支持h 2 6 4 普通图象 的实时解码,p c 通用处理器平台的处理能力强大,正往并行多核趋势发展,完 成一路或者若干普通分辨率的实时解码,不存在多大问题,p c 平台的研究重点 主要是如何利用多核的特点,以及平台特有的多媒体扩展指令集来优化运算, 如i n t e l 平台的m m x ,s s e ,o p e n m p 等技术。 d s p 实现d s p + a r m 实现。d s p 平台专门用于数字信号处理,因此d s p 在 视频编解码方面可以说是具有先天的优势,可以以最少时钟周期处理乘加,卷 积,f f r 等运算。比如c 6 x 系列中的d m 6 4 2 在6 0 0 m 时钟下,其数字处理可达每 秒4 0 0 0 m i p s 以上,同时还具有丰富的网络和音视频外设,无论是图象编码和解 码都可以胜任,主要用于监控方面。通常消费电子或者机顶盒产品的解决方案 采用d s p + a r m 实现,d s p 专注于算法,a r m 专注于控制。 嵌入式处理器软件实现。由于消费类电子及网络发展的需求,基于m i p s 和a r m ,嵌入式x 8 6 等平台的h 2 6 4 算法优化研究,也是一个分支。在这方面,国 外的f a s t v d o 公司号称能在2 0 0 m h za r m 核上实现q v g a 的实时解码,为a r m 平 台低码率低档次h 2 6 4 解码指出了可能性。同时,由于更为强劲a r m 核心及先进 的处理器架构,如x s c a l e ,也为2 6 4 解码提供了更好的嵌入式硬件支持。此方案 可降低消费电子采用d s p + a r m 解决h 2 6 4 解码的成本,同时可提供更少字节的 码流,适用于无线信道传输。缺点在于仍然受限于硬件平台,码率和分辨率不 够,对于高清领域的h 2 6 4 解码仍然望尘莫及,同时可能使功耗上升,影响消费 电子续航能力。总的说来,在a r m 上的h 2 6 4 解码研究是非常有意义的尝试。 2 武汉理工人学硕士学位论文 1 3 主要工作及内容安排 本文的研究目标是通过分析算法耗时瓶颈,针对时耗模块进行算法优化, 同时在a r m 平台上有针对性的进行程序结构,运算和编译优化,从算法和代码两 方面提高解码速度,争取做至l j a r m 平台实时解码。论文主要包括如下三个方面: 一、在熟悉和掌握h 2 6 4 标准及其编解码流程的基础上,针对解码端使复杂 性提高的标准新特性和模块进行理论学习和研究。 二、解码端耗时分析和耗时模块的优化。这是论文工作的重点。从算法,平 台,代码三个方面进行优化,并对j m 中对算法从理论到实现应用做详细的介绍。 三、优化具体实现和结果测试。本文进行了对单个算法优化的实现和局部 测试结果以及a r m 端综合测试结果。证明了算法的优越性。 本文内容安排如下: 第一章,介绍了课题研究的背景和选题意义,国内外的研究现状及本文研 究的主要内容。 第二章,介绍h 2 6 4 编解码标准,及编解码流程,引入的新技术等。 第三章,对j m 模型进行了性能时耗的分析,并针对耗时模块,如运动补偿 和去块滤波模块进行了算法优化。 第四章,介绍了本课题硬件平台,分析了a r m 平台做视频解码的缺点,并针 对平台特点对程序结构,局部代码,数学运算进行了优化。 第六章,介绍了w i n c e 系统下的移植和后处理过程,并给出了移植测试结 果。 第六章,对本文进行了总结,并对进一步的研究工作进行了展望。 3 武汉理工大学硕十学位论文 第2 章h 2 6 4 视频编解码标准 2 1h 2 6 4 标准简介及档次划分 随着多媒体技术的飞速发展,人们获取和处理信息更为快捷,方式更为多 样,信息也已经从简单的文字图片向更为复杂的音视频多媒体信息转变,但信 息量的大幅度增长给通信和网络造成巨大困难,采用多媒体音视频信息的压缩 技术成为解决问题的关键。为了实现各种网络和多媒体系统地互通互连,建立 统一的多媒体压缩编码国际标准已成为工业界一个极为迫切的需求。国际标准 组织( r r o t ) 和国际电信联盟( i s o h e c ) 两大标准化组织由于在组织背景、发展目 标等方面的不同,使得两大组织的技术专家基于不同的目的相对独立地进行标 准制定工作。i s o h e c 的活动图像专家组( m p e g ) 制定了m p e g x 系列( 主要应 用于视频存储、视频广播和视频流方面) ,1 1 r u t 的视频编码专家组( v c e g ) 制 定了h 2 6 x 系列( 主要应用于实时视频通信,如视频会议、视频电话等) 视频标 准。2 0 0 1 年,两大组织携手组建了联合视频组0 v t ) ,于2 0 0 3 年推出了新的视 频编码标准h 2 “a v c ( 或i s om p e g - - 4v i s u a lp a r t1 0 ) 。 h 2 6 4 标准定义了三个档次:基本档次、主要档次和扩展档次i l l j 。 基本档次( b a s e l i n e ) :简单版本,主要用于会议电视、可视电话、无线通信 等实时视频通信。相关技术选项包括: 一i 帧和p 帧; 一环路滤波器; 一帧编码( 不支持场编码及帧场自适应编码) ; 一采用z i g z a g 扫描,不支持交替扫描: 一运动补偿采用1 4 像素精度; 一树状运动补偿划分模式( 最小4 4 像素块) ; 一基于v l c 的熵编码模式; 一任意片组排序( a r b i t r a r ys l i c eo r d e r ,a s o ) ; 一灵活宏块排序( f m o ) ; 一采样格式4 :2 :0 : 4 武汉理工人学硕士学位论文 一冗余帧; 主要档次( m a i np r o f i l e ) :采用了多项提高图像质量和增加压缩比的技术措 施,主要用于视频广播,如s d t v 、h d t v 和d v d 等。相关技术选项: 一支持b 帧; 一熵编码模式采用a 墟a c ; 一自适应双向预测( 加权预测) ; 一其他所有b a s e l i n e 的选项,除a s o 和f m o 外; 一支持场编码及帧场自适应编码; 扩展档次( e x t e n d e dp r o f i l e ) :应用于各种网络的视频流传输。相关技术选项 包括: 一支持b 帧; 一支持s p ,s i 帧; 一可采用数据分割; 一自适应双向预测( 加权预测) ; 一其他所有b a s e l i n e 的选项; 一支持场编码; 一支持宏块的帧场自适应编码。 档次划分有利于根据不同场合选择不同的应用,不同的档次也对应着不同 的运算复杂度,将档次与等级相结合,h 2 6 4 的应用变得广泛和灵活。本课题中 仅仅针对b a s e l i n e 档次。 2 2h 2 6 4 解码器结构 h 2 6 4 只定义了码流格式和句法语义,并没有像其他标准那样规定了解码器 的实现。但总体来说,解码器结构大致相同,框架类似,是编码的逆过程。h 2 6 4 解码器的功能组成如图2 1 所示。 武汉理工大学硕士学位论文 图2 1 解码器的结构 可以看出h 2 6 4 和基于以前的标准( 如h 2 6 3 、m p e g 2 、m p e g - 4 ) 中的解 码器的组成并没有什么很大的区别,主要的不同在于各功能块的细节。首先输 出的码流经过熵解码后得到量化后的一组变换系数x ,再经过反量化、反变换, 得到残差见。从比特流中解码出头信息之后,解码器就产生一个预测块数据 p r e d ,它和编码器中的原始p r e d 是相同的。将p r e d 与残差d :相加后,就 产生h e ,再经过滤波后,最后就得到重建的e ,这个e 就是最后的解码图像 的输出。 2 3h 2 6 4 解码模块原理 h 2 “之所以能取得显著的编码效果,是因为它相对之前的几种编码标准 ( 如m p e g 2 等) ,采用了一系列新的编码工具,即使是相同的编码技术,也 挖掘出了新的特性,使得压缩性能大大增加。某种意义上说,相比于m p e g 4 的 对象编码,h 2 6 4 更趋向于质朴。下面重点介绍算法优化所涉及到的理论知识。 2 3 1 帧内预测 对于一帧图像,空间像素之间存在很强的相关性。消除空间冗余可以极大 地压缩数据。在以往的视频标准中( 如h 2 6 3 、m p e g 4 等) ,帧内编码被引入 变换域。虽然在变换域,如d c t 变换后,对数据进行处理可以消除部分数据冗 余,但是它仅仅是从整体的角度进行了考虑。事实上块与块之间的数据具有很 强的相关性。在h 2 6 4 中,灵活地使用了这种相关性,引入了一种新的方法,就 是帧内预测。它在对当前块或宏块进行编码时,先利用相邻宏块的已编码并重 建的数据进行预测,然后对预测所得的值与原始数据的差值( 即残差) 进行变 换编码、量化【1 2 l 。这样可以从最大程度上消除数据空间冗余。 6 武汉理工大学硕士学位论文 帧内预测对亮度信号和色度信号分别独立进行编解码。其中亮度信号根据 图像的平坦程度不同可以在1 6 x1 6 宏块或4 x 4 子块之间进行选择,最近又引 入了8 x8 ( 在此不做分析) 。对于4 x 4 子块,总共有9 种预测模式,对于1 6 1 6 宏块,有4 种预测模式。而对于色度信号信号,由于色度块的大小是8 x 8 , 而且人眼对色度信号的敏感程度不如亮度信号,所以对8 x8 的色度块不再细分, 且也只提供了4 种模式进行选择。 ( 1 ) 4 x 4 亮度预测模式 如图2 2 所示,4 x 4 亮度块的上方和左方像素为已编码并重构的像素,用 作编码器中的预测参考像素,可利用从q 的值和9 种模式实现对阴影部分象素 值的预测。其中模式0 ( 垂直预测) 根据从d 中已编码像素进行预测。 0 ( 垂直) mbcd efgh i j k l1 1 1 【 6 ( 下水平) l ma b c def0 h 龄i ;:、:| :惫= i 刊 7 ( 左鼍直) 2 ( d c ) m bc defgh l m c 盯 j f a d k1 l l l ,( 右垂直) ma ib c d 一_ efg h i j j 玉j _ j _ 。 k l 图2 24 x 4 亮度块预测模式 ( 2 ) 1 6 x1 6 亮度预测模式 如图2 3 所示,1 6 x1 6 宏块由左边和上方的3 2 个像素的重构值进行预测。 四种模式的描述见表2 - 1 。 武汉理工大学硕士学位论文 0 ( w m i c a l ) 图2 31 6 x1 6 预测模式 表2 - 14 种帧内预测模式 h ? v 一 、j 7 。 ,- :髦 模式 描述 模式0 ( 垂直)由上边像素推出相应的像素值 模式1 ( 水平)由左边像素推出相应的像素值 模式2 ( d c )由上边和左边像素平均值推出相应的像素值 模式3 ( 平面)利用线性“p l a n e ”函数及左、上像素推出相应的像素值 ( 3 ) 8 x 8 色度块预测模式 色度宏块包含u 和v 两个色度分量宏块。两种色度宏块通常共用同一种预 测模式。8 8 色度块共有4 种预测模式,相当于1 6 x1 6 灰度块的4 种预测模式, 即模式0 ( d c ) ,模式1 ( 水平) ,模式2 ( 垂直) 和模式3 ( 平面) 。h 2 6 4 的参 考软件j m 中对色度的预测与对灰度预测方式相同,只不过将其计算的步长缩短 了一半,即灰度的4 x 4 相当于色度的2 2 ,灰度的1 6 x1 6 相当于色度的8 x 8 , 详情可参考文献i ”】。 2 3 2 帧间预测 在时域上,相邻帧的图像之间存在着很大的相关性。与以往的标准类似, h 2 6 4 采用了帧间预测以去除时域冗余,但是h 2 6 4 又采取了很多新的技术以获 得更好的压缩性能。特别是采用了树状运动补偿,1 4 像素精度的运动估计等, 使得预测精度得到了极大的提高。 ( 1 ) 树状运动补偿 h 2 6 4 采用了一种叫做树状结构的运动补偿,它对宏块的分割不是采用一种 单一的方式1 1 4 以6 1 ,而是自适应地决定宏块的分割方式,以期最佳地描述出一个 8 武汉理t 大学硕+ 学位论文 宏块的运动细节。每个1 6 x1 6 宏块可以按照4 种方式进行分割:1 个1 6 x1 6 , 或2 个1 6 x8 ,或2 个8 1 6 ,或4 个8 8 。其中对于每个8 8 ,还可以进一 步以4 种方式进行分割:1 个8 8 ,或者2 个4 x8 ,或者2 个8 4 ,或者4 个 4 x 4 ,分割方式如图2 4 所示。 8 8 目田田 8 44 x 8 目田田 图2 4 宏块分割示意图 每个分割或子块都有一个独立的运动补偿。每个m v ( 运动矢量) 都会被编 码、传输,分割的模式选择也会被编码压缩到比特流中。大尺寸的分割,分割 类型和m v 只需要传输少量的字节,但是这样的预测精度必然比较低,得到的 编码的残差能量必然比较高,需要较多的字节;小尺寸的分割,运动估计精度 比较高,可以得到能量较低的残差,但是它却要对每个子块都要传输m v 相关 信息,同时分块类型也需要较多的字节。因此,分割方式的选择对编解码器性 能有重大影响。大区域适合图像平缓区域,而小区域适合图像复杂,纹理较多 的区域。 ( 2 ) 1 4 像素精度的运动估计 由于自然图像的固有特性,即图像时间上的连续性,使得相邻两帧之间块 的运动矢量具有一定的连续性,因此h 2 6 相对于h 2 6 3 、m p e g 2 等标准支持 更为精确的1 4 像素精度( 色度块采用1 8 像素精度) 的运动矢量【1 8 d 引。1 4 像 素精度相对与1 2 精度像素的编码效率有很明显的提高,又因1 8 像素的内插公 式更为复杂,因此在h 2 6 4 的制定过程中,1 8 像素精度的运动矢量模型逐渐被 取消,而只采用了1 4 像素精度的运动矢量模型。h 2 6 4 中1 4 像素精度是通过 像素内插得到的,首先以1 2 像素位置周围的整像素为参考值,使用一个6 抽头 内插滤波器计算的出1 2 像素位置的子采样值。然后对1 4 像素位置使用相邻的 9 武汉理工大学硕士学位论文 1 2 像素和整像素为参考,采用双线性插值的方法得到。6 抽头滤波器的权值为 ( 1 3 2 ,- 5 3 2 ,5 8 ,5 8 ,一5 3 2 ,1 3 2 ) 。 如图2 5 中的1 3 l h 之间的半像素点b ,其中e ,f ,g ,h ,i ,j 为水平方向 上的整像素,其插值公式如下式2 - i : b r o u n d ( ( e - 5 f + 2 0 g + 2 0 h - 5 1 + s ) 3 2 )( 2 - 1 ) 同理,其它的半像素点也由该式计算出。半像素点计算出后,1 4 像素点就 可通过线性内插得出。 图2 5 亮度1 4 像素内插 1 4 像素点a 可由下式计算出: a r o u n d ( ( g + 6 ) 2 ) 2 3 3 变换与量化 gbh 。-+ f e g 力 r 卜 , m 、 r p r 、, m p n ( 2 2 ) ( 1 ) 整数d c t 变换 类似以前的标准,h 2 6 4 同样对帧内或帧间预测后的残差数据进行变换编 码。但h 2 6 3 与m p e g 1 2 4 等都使用了基于8 x 8 的离散余弦变换( d c t ) 作为 基本的变换算法,且都基于浮点计算。h 2 6 4 采用了更小的4 4 块,且采用了整 数变换,减小了计算量,提高了精度1 2 2 1 。 二维的4 x 4 图像块的d c t 变换可以理解为先对图像块的每行进行一维 d c t ,然后对经过行变换的块的每列再进行一维d c t 。可以表示为: k 心c 。荟3 弘3c o s 产c o s 竽 协3 , 用矩阵表示为: 1 0 回回田 武汉理工大学硕士学位论文 y a x a l( 2 - 4 ) 其中y 为变换结果矩阵,x 为变换前的图像块数据。a 中的系数为: a o c ic o s 鼍产 协5 , 对于实数的d c t ,由于在解码端的浮点运算精度问题,会造成解码后数据 漂移。h 2 6 4 对漂移是十分敏感的。为此,h 2 6 4 对4 x 4 d c t 中的a 进行了改 造,采用了整数d c t 技术,从而有效地减少了计算量,又不失图像的精度。 式( 2 - 4 ) 可等效为 y 一( c x c r ) e 11 1d 11 d一1 11 一d一1 11 1一d f 1 11d l 1 1 d一1 1 x i 1 1 一d一1 1 l 1 1 1 1一d l卜 a 2a b a bb 2 a 2a b a bb 2 a 2a b a bb 2 a 2 a b a bb 2 ( 2 6 ) 其中,d c b ( - 0 4 1 4 ) 。符号“ 一表示( c x c r ) 结果中的每个元素乘 于矩阵e 中对应位置上的系数值的运算。经简化得到: y ( c ,x c ,r ) e , 11 21 11 12 11 12 11 2 1 f 1 211 i 1 1 11 2 x l 1 1 112 l 1 1 2 11 l ( 2 7 ) 运算“ 对每个矩阵元素只进行一次乘法,并且归纳到量化运算中。从 而上式只剩下了整数的加法、减法和移位运算。整数d c t 的运算结果与通常的 d c t 近似,但却避免了浮点运算,从而避免了适配问题,并且大大减小了计算 量。 ( 2 ) 量化 h 2 6 4 采用的是分级量化,共支持5 2 级量化1 2 3 1 。与以往标准不同的是,步 长是以1 2 5 的复合率递进的,而不是一个固定常数。它采用的量化参数每增加 6 ,量化步长就增加一倍。量化参数越小,代表越精细的量化。这样在码率和图 像质量之问得到了很好的折衷。 办一2矿一4如一2矿一4,幻一2矿曲一2西一2铲一4曲一2矿一4 , 曲一2 , 曲一2 武汉理工大学硕士学位论文 另外,量化过程中还包含了整数变换中的“ e ,一乘法运算。假设匕是矩 阵y 中的转换系数,z 是对其量化后的系数,q 脚是量化步长,那么量化可以 表示为 z 牙。r 。口d p f i ) ( 2 - 8 , 其中p f 要取决于它所在4 x 4 图像块中的位置,如表2 2 所示: 表2 - 2p f 取值情况 p f 位置 口2 ( 0 ,0 ) ,( 2 ,0 ) ,( 0 ,2 ) 或( 2 ,2 ) b 2 4 ( 1 ,1 ) ,( 1 ,3 ) ,( 3 ,1 ) 或( 3 ,3 ) a b 2 其它 2 3 4 熵编( 解) 码 h 2 6 4 支持两种熵编码:基于上下文的自适应二进制算术编码( c a b a c , c o n t e x t b a s e da d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ) 和基于上下文的自适应可变长 编码( c a v l c ,c o n t e x t b a s e da d a p t i v ev a r i a b l el e n g t hc o d i n g ) 。这里只对课题 涉及到的c a v l c 相关理论作出介绍。 g w l c 是对亮度和色度的残差信号进行编码。残差经过变化编码和量化后, 非零系数主要集中在低频部分,而高频系数大部分为零。这样量化后的数据再 经过锯齿形( z i g z a g ) 扫描,d c 系数附近的非零系数值非常大,而高频部分的 非零值基本为+ 1 或1 ,且相邻4 x 4 块非零系数的数目相关。利用这些特性, c a v l c 可充分减少数据中的冗余信息l 矧。 c a v l c 的特点在于在编码一个块的系数过程中会根据编码系l e v e l ( 数压缩 比率等级) 值进行适应性的码表切换,同时利用联合编码非零系数个数,最后部 分绝对值为1 的系数个数以及非零系数间零的个数等信息。这些编码方法比以前 单纯编码的方法效率要高;c a b a c 的特点则是以算术编码为核心,在编码过程 中会根据编码数据的统计信息进行适应性的模型切换,与传统的v l c 3 9 编码相 比,它能为部分编码信息进行小于1 比特的位分配,因此具有更高的编码效率, 但其实现极为复杂。 1 2 武汉理j r 大学硕十学位论文 2 3 5 去方块滤波 h 2 6 4 中的整数d c t 编码都是基于4 x 4 块的,而在对编码后的系数量化的 过程中存在误差,因此重建后在4 x4 块的边界部分会存在明显的痕迹,呈呈现 方块效应。h 2 6 4 在重建的过程中采用了去方块滤波器,以去除编码算法带来的 方块效应i 矧。在去方块滤波中,非常重要的是去区分图像中的真实边界和d c t 变换系数量化而造成的假边界。 去方块滤波器的原理如图2 6 所示。由于d c t 的边界上也有可能是真实的 边界,因此滤波强度由一定的参数来控制。h 2 6 4 采用的是自适应样点级滤波器。 假设两个相邻4 x 4 块中一条直线上的样点为p 3 、p 2 、p l 、p o 、q o 、q 。、q 2 、 q ,块边界位于p 。和q 。之间。那么只有在下面三条式子全部满足时,样点才需 要进行滤波。 图2 6 去方块滤波原理 i p 。一q o i 口( q 即 ( 2 9 ) i p 。一p o i 卢( q 四( 2 - 1 0 ) l q l q o l f l ( q p ) ( 2 - 1 1 ) 其中q p 是量化参数。门限f l ( q e ) 要小于a ( q e ) 。因此当下两式之一满足时 也就意味着要进行滤波。 i p 2 一q o i 卢( q p ) ( 2 - 1 2 ) l q :一p o l 卢( q p ) ( 2 1 3 ) 通过去方块滤波,方块效应会被滤掉,而真正的边界部分又被很好地保留 了下来,从而图像质量得到了很好的改善。在保证同样质量的前提下,采用去 方块滤波要比不采用去方块滤波,码率普遍减少5 一1 0 。 武汉理j t :大学硕士学位论文 2 4 本章小节 本章首先阐述了h 2 6 4 标准的编解码原理及其基本框架,对h 2 6 4 中的关键 技术做了详细介绍。由于采用了一系列的新技术,使得h 2 6 4 的编码效率大大提 高,同时运算复杂度也大大提高。 1 4 武汉理工火学硕十学位论文 第3 章h 2 6 4 解码器算法优化 h 2 6 4 解码端复杂度达到了m p e g 4 标准的2 倍【删而本课题中算法将要移植 的嵌入式处理器a r b i 9 为r s i c 架构,相对于通用处理器和数字信号处理器而言, 主频和处理能力相对有限,性能要求更注重于解码速度方面,至于牺牲一定的 图像信噪比是能够接受的,这就需要对解码算法做出对应的优化或者折衷,来换 取解码复杂程度的减小和c p u 运算量的降低。本课题选取j m 作为算法研究参考 模型,j m 作为h 2 6 4 官方源码,同其他的开源的优秀算法如t 2 6 4 ,x 2 6 4 相比, 更忠实于h 2 6 4 标准定义的各个环节和语义,便于针对算法中的局部模块进行分 析但比较而言,其解码复杂度最高,达不到实时解码的要求,必须对参考模型 的解码算法作对应优化以达到目的。课题中所有优化工作均基于版本j m 8 6 实 现。 3 1 性能评估 为测试j m 8 6 解码器优化前的性能情况,首先在p c 端进行测试使用j m 8 6 的编码器对q c i f 大小、y u v 格式的测试序列f o r e m a n 及h i g h w a y 进行编码,编 码1 0 0 帧,编码相关参数配置置如下:采用b a s e l i n e 档次码流,采用i 、p 帧,p 帧编码运动搜索范围为1 6 ,最大参考帧为6 ,采用自适应块大小,使用h a d a m a r d 变换和树状分割运动补偿,i 、p 帧的量化参数q p 选择为2 8 ,码流为结构i p p p p p p p 计算机平台环境为:i n t e lp e n t i u md u a lt 2 3 3 0c p u ,1 g 内存,将其分别 在w i n d o w sx p 和l i n u x 操作系统下进行测试,结果如表3 1 ,性能表现有所差 别。 表3 - 1 未优化前解码性能表 操作系统视频序列帧数解码总用时平均解码速度 w i n d o w sf o r e m a nq c i f1 0 00 9 6 9 s 1 0 3 f p s l i n u xf o r e m a nq c i f1 0 01 0 7 s 9 3 f p s 将未进行优化过的j m 8 6 修改为a d s 工程,利用a x d 进行软件模拟a r m 9 1 5 武汉理工大学硕士学位论文 性能仿真,其运行结果如图3 1 所示,平均解码一帧需要3 s 多,同时信噪比下 降严重,完全不能实时解码。 “。_ 。1 一o c - h u 。 ,b _ 目eoi eazie r e 日az 口目口i 3 2 解码流程分析 图3 1a x d 仿真运行结果 对j m 8 6 解码器整个解码流程进行分析,整个解码流程从结构上可以分为 s l i c e 级解码和宏块缓解码过程,对应的解码流程和函数调用图如图3 2 和图 3 3 所示。解码器在r e a d n e w _ s l i c e 函数中完成标准语义的解码之后,主体部分 落在了函数d e c o d co n c $ 1 i c e - d e c o d eo n em a c r o b l o c k 。 在宏块缓解码过程中,如图3 3 ,解码器首先判断是否进行1 6 1 6 的帧内 预测解码,然后以4 4 子块为单位,进行帧内或帧问预测,反变换i t r a n s 。最后 在一帧图象s l i c e 全部解码完成之后进行块滤波d e b l o c k 和误码掩盖等后操作。 由此可知,宏块级解码是整个解码过程的关键和核心但函数 d e c o d eo n em a c r o b l o c k 并没有对老块具体类型进行区分,对于预测模式和预测 方向的判断全部集中在此函数中结构冗长。同时,不管是否存在4 4 的宏块 亚分割,删中的很多操作都是以4 4 子块为基本单位进行,如帧白j 预测解码 插值运算等,程序结构有待进一步整理。 武汉理工大学硕士学位论文 图3 2 解码整体流程图 1 7 武汉理- t 火学硕士学位论文 ,解码一个宏块、解码一个宏块 decodeo n em a c r o b l o c k 人日 帧内道岁叫。怒:恕m 翮a 嫩i 6 x 理1 6 、, j 否 循环4 个8 8 块 卜 , 循环4 个4 x 4 块 ;哄多隙l 插值g e t _ b l o c k 惫内预疹 前向插值g e t _ b l o c k 是 , 4 x 4 帧内预测处理 p 块帧问预测处理 后向插值g e t _ b l o c k i n t r a d r e d 审 4 x 4 反d c t 变换i t r a n s b 块帧间预测处理 , 4 个4 x 4 块完成 丫 4 个8 x 8 块完成 图3 3 宏块解码流程图 3 3 解码时耗分析 分析了整个解码流程之后,还必须得到解码过程主要耗时模块,有针对性 的作出对应处理。分别使用i n t e l 性能分析软件v t u n ep r o f i l e r 和l i n u x 平台分析工 具g p r o fp r o f i l e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论