已阅读5页,还剩68页未读, 继续免费阅读
(通信与信息系统专业论文)基于h264块匹配运动估计的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理上人学硕士学位论文 摘要 h 2 6 4 a v c 是i t u tv c e g 和i s o i e cm p e g 联合制定的最新的视频编码 国际标准,这一编码标准具有较高的编码效率和良好的编码性能,尤其是在低 码率方面比m p e g 4 有明显提高,适合低宽带、高质量网络视频应用的需要。 但是,h 2 6 4 为了提高编码效率,采用了许多高计算复杂度的算法,使编解码 计算量很大。降低编码的复杂度且保证相对质量是一个有意义的研究领域。 运动估计是视频压缩编码中的核心技术之一,采用运动估计和运动补偿技 术可以消除视频信号的时间冗余以提高编码效率,h 2 6 4 中多项新特性的引入 使得运动估计技术的计算复杂度大大增加,这严重影响了h 2 6 4 编码技术的实 时应用。为了方便h 2 6 4 在低码率高实时性应用系统中的实现,必须对其编码 算法进行优化。因此,如何提高运动估计的效率,使运动估计算法搜索过程更 快速、更高效,成为目前研究的热点之一。本文所研究的运动估计是目前应用 最广的块匹配运动估计技术。 。 本文首先详细介绍了h 2 6 4 视频编码标准及视频编码中的关键技术,如帧 内编码、帧间编码等;随后介绍了运动估计技术原理,详细分析其中的关键技 术,然后从模式选择,提前中止技术和匹配准则三个方面对运动估计进行了改 进,在保证图像质量的前提下,降低运算复杂度,提高编码效率。本文的创新 主要集中在以下几个方面: ( 1 ) 通过选择合适的阈值对模式选择过程进行了优化。在原来提前判定 s k i p 模式算法的基础上,进一步对1 6 1 6 和8 * 8 大小的块进行了提前判定。 ( 2 ) 利用提前终止技术对运动估计过程进行了优化。选定合适的阂值,通 过判决当前块是否为p v b ,提前中止运动估计过程。 ( 3 ) 针对现有匹配准则的不足做出改进。在原来s a d 准则的基础上加入 了对图像平滑度的考虑。 最后,结合j m 8 6 校验模型对改进算法的性能进行测试,验证其编码效果 的优越性。实验结果表明,改进算法与h 2 6 4 中采用的u m h e x a g o n s 算法相比, 在编码图像质量相媲美的情况下,编码效率有显著提高。 关键词:h 2 6 4 ,块匹配,运动估计,优化 i 武汉理【:人学硕+ 学位论文 a b s t r a c t h 2 6 4 a v ci st h en e w e s ti n t e r n a t i o n a lv i d e os t a n d a r dd e s i g n e db yb o t hi t u - t v c e ga n di s o i e cm p e g t h i ss t a n d a r dc a no b t a i nh i g hc o d i n ge f f i c i e n c ya n d e x c e l l e n tc o d i n gp e r f o r m a n c e ,a n do u t p e r f o r m st h em p e g 一4i nt h el o wb i tr a t e e n v i r o n m e n te s p e c i a l l y s oi tc a nm e e tt h er e q u i r e m e n to ft h en e t w o r k - v i d e ow i t h l o wb a n d w i d t ha n dh i 【g hq u a l i t y h o w e v e r , i ta l s ol e a d st oh i g h e rc o m p u t a t i o n a l c o m p l e x i t ya tt h ee n c o d e rm a i n l yd u et ot h ef a c tt h a tt h eh 2 6 4e n c o d e re m p l o y s m o r ec o m p l i c a t e da p p r o a c h e sa n df e a t u r e st o e f f i c i e n t l yi m p r o v et h ec o d i n g p e r f o r m a n c e h e n c e ,i ti s a ne s s e n t i a lr e s e a r c ht o p i ct or e d u c et h eh i g he n c o d i n g c o m p l e x i t yw h i l em a i n t a i n i n gt h eg o o dc o d i n gp e r f o r m a n c e m o t i o ne s t i m a t i o ni so n eo ft h ec o r et e c h n i q u e so fv i d e oc o d i n g m o t i o n e s t i m a t i o na n dm o t i o nc o m p e n s a t i o nc a l lr e d u c et h el a r g ea m o u to ft e m p o r a l r e d u n d a n c yt h a te x i s t sb e t w e e nf r a m e so fv i d e os e q u e n c e s ,w h i c hl e a d st oh i g h c o m p r e s s i o n t h e i n t r o d u c t i o no fs o m en e wf e a t u r e si nh 2 6 4m a k e st h e c o m p u t a t i o n a lc o m p l e x i t yd r a m a t i c a l l yi n c r e a s ea n d t h i s t e r r i b l yi n f l u n c e st h e r e a l - t i m ea p p l i c a t i o no fh 2 6 4 i ti se s s e n t i a lt oo p t i m i z et h ee n c o d i n ga l g o r i t h mf o r t h ec o n v e n i e n c eo ft h ea p p l i c a t i o no fh 2 6 4i nl o w r a t ea n dr e a l t i m es y s t e m t h u s , t h er e s e a r c ho nl o o k i n gf o ram o t i o ne s t i m a t i o na l g o r i t h mt h a tc a ng e ta ne f f e c t i v e a n da c c u r a t em o t i o nv e c t o rq u i c k l yb e c o m e sah o tt o p i cr e c e n t l y t h er e s e a r c hi nt h i s t h e s i sf o c u s e so nt h eb l o c km a t c h i n gm o t i o ne s t i m a t i o nw h i c hi sa p p l i e dw i d e l ya t p r e s e n t f i r s t ,t h i st h e s i si n t r o d u c e st h eh 2 6 4s t a n d a r da n dt h ek e yt e c h n i q u e so fv i d e o c o d i n gi nd e t a i l ,s u c ha si n t r a p r e d i c t i o n ,i n t e r p r e d i c t i o na n ds oo n t h e nt h eb a s i c t h e o r yo fm e ( m o t i o ne s t i m a t i o n ) i si n t r o d u c e d ,a n dt h ec o r et e c h n i q u e sa r ea n a l y s e d i nd e t a i l t or e d u c et h ec o m p u t a t i o n a lc o m p l e x i t ya n di n c r e a s et h ee n c o d i n g e f f i c i e n c yi nt h ec o n d i t i o no fg o o di m a g eq u a l i t y ,t h et h e s i sm a k e si m p r o v e m e n t st o m ef r o mt h ea s p e c t so fm o d ed e c i s i o n ,e a r l y t e r m i n a t i o na n dm a t c h i n gc r i t e r i a t h e c r e a t i v ew o r ki nt h i st h e s i sf o c u s e so n : ( 1 ) o p t i m i z et h em o d ed i c i s i o np r o c e s sb ys e t t i n gu par i g h tt h r e s h o l d m a k e h e a r l vi u d g e m e n tt o1 6 1 6a n d8 * 8b l o c kf u r t h e r o nt h eb a s i so ft h ee x s i t i n g e a r l y s t o pf o rs k i p m o d ea l g o r i t h m ( 2 ) 0 1 :i t i m i z e t h em o t i o ne s t i m a t i o np r o c e s su s i n g t h ee a r l y 。t e 册1 n a t l o n t e c h n i q u e c h o o s et h er i g h tt h r e s h o l da n d t e r m i n a t et h em o t i o ne s t i m a t i o np r o c e s s b yj u d g i n gt h e c u r r e n tb l o c ki st h ep v b o rn o t 0 1i m p r o v et h ee x i s t i n gm a t c h i n gc r i t e r i aa c c o r d i n g t oi t sf a u l t ,a n dt a k et h e i m a g es o o m t h n e s si n t oc o n s i d e r a t i o n o nt h eb a s i so ft h eo r i g i n a ls a d c r i t e r i a a tl a s t ,t e s tt h ep e r f o r m a n c eo fn e wa l g o r i t h mo nj m 8 6p l a t f o r ma n dt e s t i f y i t s a d v a n t a g eo fe n c o d i n ge f f e c t t h ee x p e r i m e n t a l r e s u l t ss h o wt h a tt h ee n c o d l n g e f f i c i e n c vo ft h en e wa l g o r i t h mi sh i g h l yi m p r o v e di nt h e c a s eo ft h ee n c o d i n g 蚰a g e q u a l i t yi sg o o de n o u g hc o m p a r e dw i t hu m h e x a g o n sa l g o r i t h m w h i c hh a sb e e n a d o p t e db yh 2 6 4 k e y w o r d s :h 2 6 4 ;b l o c km a t c h i n g ;m o t i o n e s t i m a t i o n ;o p t i m i z a t i o n i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留,使用学位论文的规定,即学校有权 保留,送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印,缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:豸,遍。导师签名: 日期:兰哆从纠 武汉理工大学硕+ 学位论文 1 1 研究背景和意义 第1 章绪论 当今社会是信息化的社会,图像作为一种媒体形式相对于其他形式而言能 带给人们更丰富更准确和更生动的信息,因此备受青睐。然而它本身的数据量 太大,尤其是运动的图像序列视频,这无论对于存储还是传输都造成了很 大的困难。要解决这个难题,我们必须把模拟图像变成数字图像对其进行压缩 编码。 h 2 6 4 标准是由i t u 视频编码专家组v c e g 和i s o i e c 活动图像专家组 m p e g 共同组成的联合视频组j v t 于2 0 0 3 年3 月制定完成的新一代视频压缩 编码标准,它在i s o i e c 中被称为m p e g 4 的第1 0 部分。在相同的重建图像质 量下,h 2 6 4 比h 2 6 3 节约5 0 左右的码率,然而它获得优越图像性能的代价 是计算复杂度增加,编码的计算复杂度大约相当于h 2 6 3 的3 倍,解码复杂度 大约相当于h 2 6 3 的2 倍。运动估计是视频压缩中的关键技术,它将活动图像 分为若干局部结构,并检测出每个局部结构在参考帧图像中的位置,得到运动 矢量。同时运动估计过程是压缩编码的主要开销,约占视频编码计算总量的5 0 以上【1 1 。因此,一种简洁,高效的运动估计算法对整个压缩编码系统来说意义 重大,这也是当前视频编码领域研究的热点问题。 h 2 6 4 标准应用范围非常广阔,它高效的编码性能可满足多种应用的需求, 目前主要应用在以下领域:基于电缆,卫星,m o d e m ,d s t 等信道的广播;视频 数据在光学或磁性设备上的存储;基于i s d n ,以太网,d s l 无线及移动网络 的公话服务,视频流服务,彩信服务等。此外,基于h 2 6 4 平台还会涌现很多 新的应用【2 1 。在即将开通的3 g 市场上,h 2 6 4 的舞台也将越来越大,视频通信 将带给人们更为生动的交流方式。 h 2 6 4 具有较强的抗误码性能,网络亲和性好,能应用于不同网络中的视 频传输。h 2 6 4 的基本系统无需使用版权,具有开放的性质,能很好地适应i p 和无线网络的使用,这对目前的因特网传输多媒体信息,移动网中传输带宽信 息等都具有重要的意义。随着m p e g 的加入及更多新编码技术的采纳,h 2 6 4 将具有更加良好的性能及巨大的商业价值和社会价值,并有望成为新世纪最为 武汉理t 大学硕士学位论文 成功的国际标准之一。 目前由于各种硬件设备的特性不同,因此其运算能力和工作能力也不同, 例如随着便携移动设备的普及,基于便携移动设备的多媒体应用大量出现。但 由于这些设备存在计算能力弱的问题,而多媒体中视频编码的计算复杂度相对 较高,因此传统的视频编码方式无法满足用户对多媒体相关应用的需求。因此 针对不同硬件设备计算能力的不同,需要在运动估计和模式选择时进行优化, 从而降低计算复杂度,进而取得最优的p s n r 和码率。所以研究并提出精确而 又快速的运动估计算法具有十分重要的现实意义。 本文的的研究对象就是新一代视频编码标准h 2 6 4 ,并以h 2 6 4 为基 础,重点对块匹配运动估计算法进行了研究,提出自己的新方法,大大降低了 运动估计的复杂度,提高了编码器编码的速度,为实时应用发挥了积极作用。 1 2 视频编码的主要标准 2 0 世纪8 0 年代中后期以来,视频压缩编码技术得到了飞速的发展。国际 标准化组织( i s o j ,i e c ) 和国际电信联盟( h u t ) 制定了一系列国际视频编码 标准。视频编码标准发展的历程如图1 1 所示。 ih 裂曩列 h 2 6 1h 2 6 3h 2 6 3 h 2 6 3 + + m p e g 1m p e g 4 i m 焉。iilli i i il 1 9 8 41 9 8 81 9 9 21 9 9 62 0 0 0 图1 1 视频编码标准的发展历程 1 2 1i s o i e c 编码标准 ( 1 ) m p e g 一1 标准。m p e g 1 标准制定于1 9 9 2 年,标准编号i s o i e c l l l 7 2 , 2 武汉理上大学硕士学位论文 主要针对1 5 m b p s 以下数据传输率的数字存储媒质运动图像及其伴音编码的国 际标准,它用于在c d r o m 上存储同步和彩色运动视频信号,码率为1 5 m b s 。 该标准包括m p e g 1 视频,音频和系统三部分1 引。 ( 2 ) m p e g 一2 标准。m p e g 2 标准制定于1 9 9 4 年,标准编号i s o i e c l 3 8 1 8 , 该标准最初的目的是在与m p e g 1 兼容的基础上实现低码率和多声道扩展,后 来为了适应演播电视的要求开始致力于定义一个可以获得更高质量的多声道音 频标准1 4 。 ( 3 ) m p e g 一4 标准。m p e g 4 标准于1 9 9 9 年1 月正式颁布,标准编号 i s o i e c l 4 4 9 6 ,后来又出现第二版和第三版。由于具有基于内容的编码方法及 灵活的组合结构,并采用了工具箱的方法,m p e g 一4 能支持各种各样的新功能, 因此应用前景广阔1 5 j 。 m p e g 4 的初衷是针对视频会议,视频电话的超低比特率编码,但在调查 过程中m p e g 感受了两大变化,并据此立即修改计划,制定现在意义上的 m p e g 4 。这两个变化: 物质基础的变化:高性能通用芯片性价比的提高。 需求的变化:对多媒体信息,特别是视频流的应用要求由播放型转向基 于内容访问,操作型。 为了支持对动态视频的内容访问,m p e g 4 中引入了对象( o b j e c t ) 的概念, 实际上就是基于对象方法得到分层区域,因此,基于对象方法是基于内容的压 缩编码中的一类主要算法。 m p e g - 4 视频标准提供在多媒体环境下视频数据的有效存储,传输和操作 方面的核心技术。为了达到这一宽广的目标而不限于某一狭窄的应用,m p e g 一4 考虑了应用集的功能。因此m p e g 4 中视频部分以及工具和算法的形式提供对 各种功能的支持,例如有效的压缩,对象的可扩展性,空域和时域的可扩展性, 纠错等功能。要达到m p e g 4 的目标,主要取决于内容的视频数据表示方法。 一个场景可看作由一系列具有各自特性的视频对象组成,其性质包括形状,运 动,纹理。这种基于对象的表示是在多媒体应用中实现对象交互的关键,在这 样的应用中,用户可以访问任意形状的对象以及操作对象。 m p e g 4 标准的编码是基于对象的,这样就便于操作和控制对象,而传统 压缩方法是基于帧的,显然无法对对象操作。由于传输宽带的限制,必须对压 缩比特率进行控制,这样直接影响图像的质量。过去在比特率低的时候,整帧 图像的质量都受到影响,没有灵活性可亩;而m p e g 4 对比特率的控制可以基于 3 武汉理上大学硕士学位论文 对象,即使在低带宽时,也可以利用码率分配方法,对于用户感兴趣的对象可 以多分配一些比特率,而对于用户小感兴趣的对象可以分配少一些比特率,这 样图像主观质量就得到保证。 m p e g 4 中的对象操作使用户可以在用户端直接将不同对象进行拼接,得 到用户集合成的图。这在传统方法中是无法直接实现的。m p e g 4 在扩展上具 有很好的灵活性,可进行时域和空域的扩展。这在m p e g 2 中也有一些体现, 但它并不突出。而在m p e g 4 中,可根据现场带宽和误码率的客观条件,在时 域空域进行扩展。时域扩展是在带宽的允许时在基木层之上的增强层中增加帧 率,在带宽窄时可在基本层中减少帧率,以达到充分利用带宽,使图像质量更 好的目的。空域扩展是指对基本层中的图像进行采样插值,增加或减少空问分 辨率。 1 2 2i t u t 编码标准 ( 1 ) h 2 6 1 标准。删t 于1 9 9 0 年公布的h 2 6 1 标准,即“p * 6 4 k b s 视听 业务的视频编码器( p = 1 3 0 ) ,具有覆盖整个i s d n ( 综合业务数字网) 基群信 道的功能,适用于会话业务的活动图像编码,广泛用于会议电视和可视电话1 6 j 。 ( 2 ) h 2 6 3 ,h 2 6 3 + ,h 2 6 3 + + 标准。l t u t 于1 9 9 5 年7 月推出了低码率视频 压缩编码的h 2 6 3 建议,其技术核心为混合编码方法,但借鉴了m p e g 2 中的 半像素运动估计和运动补偿技术及双向预测技术,可实现比h 2 6 1 更高的压缩 比,从而用于实现低于6 4 k b s 的视频压缩编码。1 9 9 8 年i t u t 推出的h 2 6 3 + 是h 2 6 3 视频编码标准的第二版,它提供了1 2 个新的可选择模式,进一步提高 了压缩编码性能。2 0 0 0 年i t u t 又推出了h 2 6 3 + + ,对h 2 6 3 又作了一些新的 扩展,赠交了一些新的可选技术,从而更加适应于各种网络环境,并增强差错 恢复的能力1 7 j 。 ( 3 ) h 2 6 4 标准。h 2 6 4 标准是由1 1 r u t 的v c e g ( v i d e oc o d i n ge x p e l s g r o u p ) 和i s o 1 e c 的m p e g ( m o t i o np i c t u r ee x p e l sg r o u p ) 联合成立的“联合视 频组 j v t ( j o i n tv i d e o r e a m ) 共同制定的新一代视频编码新标准,2 0 0 3 年3 月, 同步标准的最终草案,称作h 2 6 4 a v c 或m p e g 4v i s u a lp a r t1 0 剐。h 2 6 4 能提 供比m p e g 4 和h 2 6 3 标准更高的压缩性能,使图像的数据量减少5 0 ;对网 络传输具有更好的支持,引入面向数据包编码,有利于将数据打包在网络中传 输;具有较强的抗误码性能,以适应在噪声干扰大,丢包率高的无线信道中传 4 武汉理工大学硕士学位论文 输;对不同应用的时延要求具有灵活的适应性;编码和解码复杂度具有可扩展 性。 除了上述国际标准之外,中国也在制定具有自主知识产权的音视频编码标 准。2 0 0 3 年1 1 月底,中国国家信息产业部“数字音视频编解码标准组 正式 发a v s ( a u d i ov i d e oc o d i n gs t a n d a r dw o r k i n gg r o u po fc h i n a ) 标准草案【9 1 。标准 草案的视频部分编码效率可以达到m p e g 2 的2 到3 倍,而且编码实现复杂度 明显降低。 1 3 运动估计技术简介 1 3 1 什么是运动估计 在帧间预测编码理论中,由于活动图像临近帧中的景物存在着一定的相关 性,因此,可以将活动图像分成若干块,并设法搜索出每个块在临近帧图像中 的位置,从而得出两者之间的空间位置的相对偏移量,即运动矢量m v ( m o t i o n v e c t o r ) ,得到运动矢量的过程即为运动估计m e ( m o t i o ne s t i m a t i o n ) 。 运动估计技术是以假设同处在_ 个图像块中的所有象素的运动方向一致为 前提的,当图像块划分的足够小的时候认为这种假设成立。运动估计的基本思 想是将当前帧分成许多m * n 大小的互不叠加的图像块,然后将当前待编码的图 像块与前向或者后向参考帧中的搜索区域里部分或者所有的m * n 块相比较,找 出其中的最佳匹配块。传统的给予块的运动估计过程如图1 2 所示,首先把当 前待编码的帧划分成为w 个尺寸均为m * n 大小的图像块b ,然后对当前待编 码的帧的每一个图像块以参考帧中和该图像块对应的位置为中心,在范围 ( m + 2 w ) 簟( n + 2 h ) 内的图像中进行搜索,找出和该块最相似的m * n 大小的 图像块b 1 ,即为最佳匹配块。而该图像块在参考帧中的对应位置的中心点与图 像块b 1 的中心点在x 轴和y 轴方向上的合成位移就是所要的运动矢量m v 。 5 垦塑堡塑丛堂堡主堂堡堡塞 图1 2 运动估计示意图 运动估计是视频压缩中的关键技术,决定了视频压缩的效果。它同时也是 压缩编码的主要计算开销,约占视频编码计算总量的半。因此寻找一种简便、 快速、高效的运动估计算法成了视频编码领域的热点。运动估计方法主要有像 素递归法和块匹配法两大类,前者复杂度很高,实际中应用较少,所以目前 h 2 6 x 和m p e g 两大系列的视频编码标准中都采用的后者,即基于块匹配b m a 的运动估计算法。运动估计进行的越准确,得到的参差块的能量就越低,则所 需要编码的信息量也就越少,编码的比特数也就越少。所以,运动估计的性能 如何既影响编码质量的好坏,又关系到编码的比特数。 为了达到更好的压缩效果h 2 6 4 采用了许多新的编码技术。当前为传统的 视频压缩标准所设计的各种运动估计范畴内的算法并不能完全适用于h 2 6 4 视 频压缩编码标准,所以研究新的运动估计算法对于提高视频编码效率具有很重 1 3 2 运动估计技术要点 运动估计算法通常分为两大类:一类是象素递归算法p r a ( v i x e lr e c u r s i v e a l g o r i t h m ) ;另一类是块匹配算法b m a ( b l o c km a t c h i n ga l g o r i t h m ) 。p r a 是基 于递归思想,如果连续帧中象素数据的变化是因为物体的移位引起的,算法就 会沿着梯度方向对某个象素周围的若干象素做迭代运算,使连续的运算最后收 敛于一个固定的运动估计矢量,从而预测该象素的位移;而b m a 则是基于当前 帧中一定大小的块,在当前帧的前后帧的一定区域内搜索该象素块的最佳匹配 块,作为它的预测块1 1 0 1 。尽管p r a 对比较复杂的运动形式来说,其预测精度要 6 武汉理1 = 大学硕士学位论文 高于b m a ,但是由于其计算量比b m a 大的多,同时b m a 本身也拥有较好的 性能,因此目前的视频压缩编码国际标准普遍都采用b m a 在基于块匹配的运动估计中,最直接的全搜索算法( f u l ls e a r c h ,f s ) 能够得 到全局最优的运动矢量,但该算法的运算量也相当巨大,成为了编码器实时应 用的瓶颈。为了提高运动估计的运算速度,人们不断提出针对块匹配运动估计 的改进快速算法,其目标是在保证编码质量的同时,尽可能的降低运算复杂度。 在本节中对目前己有的基于块匹配的快速算法的优化途径进行了比较合理 的分类,将其分为了提高运动估计速度的技术,包括快速搜索模板、亚采样匹 配、搜索点预先排除、起点预测、提前中止,以及提高运动估计准确度的技术, 包括分层搜索、多起点搜索、提高搜索象素精度、可变块大小搜索等。 ( 1 ) 快速模板搜索。这类算法的主要想法是通过在搜索窗口内按照固定的 模式( 搜索模板) 和步骤相对较少的几个点进行匹配运算来降低运算复杂度。 这类快速模板算法都是基于一个共同的假设,即在搜索窗内有且仅有一个全局 匹配误差最小点,而且匹配误差随着当前点与全局最优点之间距离的增大而增 大。模板搜索快速算法是提出最早,发展最为成熟,也是应用最为广泛的一类 快速算法。它的优点是算法简单,计算量小,加速比较大;缺点是容易陷入局部 极值,尤其在大运动情况下,搜索的准确度难以保证。 ( 2 ) 亚采样匹配。误差计算的抽样化是指在计算匹配误差的时候,并不对 块或者宏块内的全部象素进行差值计算,而是通过一定规则对匹配像素进行选 取。最简单的4 :1 亚像素抽样匹配的计算公式1 1 l j 如下: m , s a d ( , j ) = 芝i 乓溉刀) 丘- 1 似+ 跏+ ) l 。p 帆刀) ( 1 1 ) 其中,当m , n 都是偶数时,p 帆咒) = 1 ;其他情况,p 帆咒) = o 。 亚像素匹配方法大大降低了运算量,在4 :1 抽样的情况下,计算量减少为 原来的1 4 。亚采样匹配能够显著降低运动估计的计算量,但容易造成图像质量 的下降。 ( 3 ) 搜索点预先排除。在运动搜索的过程中,通过数学不等式,及时地直 接或间接排除一些候选点,可以达到提高运动搜索速度的目的。s e a ( s u c c e s s i v e e l i m i n a t i o n a l g o r i t h m ) 算法是该方面的典型算法。该算法描述1 1 2 i 女n t 假设麒,1 ) 表示第k 帧坐标为( 碗_ 1 ) 点的灰度值,则有: 乓,1 ) 乓1 ( m + 咒+ j ) - 爿f k ( m , n ) 。厶1 ( m + i , n + _ ) i ( 卜2 ) 7 武汉理t 大学硕十学位论文 反j 伽+ ,l + j ) 乓( ,1 ) 爿乓1 ( m + i , n + j ) f k ( m , 0 1 ( 卜3 ) 令表示当前块所有象素灰度绝对值的和。m 。,= i ,沏+ 珈+ 川表示前一帧 候选匹配块所有象素绝对值的和。 因此可以得到: 尺= 罗l 厅) i ( 卜4 ) m ,f r s s a d ( i , ,) ( 卜5 ) , 假设之前已经得到了一个运动矢量为魄y ) 匹配候选块的s a d ( x , y ) ,实际在 搜索过程中,只有当当前块与参考块的绝对差值和s a d ( i , j ) d , 于己得到的 s a d ( x , y ) 才需要进行匹配运算。因此具有更高匹配度的块应当满足: s a d ( i , j ) ss a d ( x , y )( 1 6 ) 由公式( 卜4 ) ,( 卜5 ) ,( 卜6 ) 可得: r s a d ( x , y ) s m ,f r + s a d y ) ( 1 7 ) 只有满足( 1 7 ) 式的候选块才有必要进行下一步的计算。参考帧和当前帧中 的块的灰度值只需要计算一次,在搜索过程中不需要重复计算。通过搜索判别 条件排除了不需要进行匹配计算的块,有效地降低了计算量。 ( 4 ) 起点预测。由于相邻块之间和相邻帧之间的运动具有很强的相关性, 可以利用这种相关性先对初始搜索点进行预测,以预测点作为搜索起点。大量 的试验证明预测起点更加靠近最佳匹配点,降低了搜索陷入局部最优的可能性, 提高了运动估计搜索的准确度。 常用的起点预测方法有基s a d 值的起点预测和利用相邻运动矢量的起点 预测。在基于s a d 值的起点预测中,首先求出当前块与它的相邻块的运动矢量 所指向的块之间的s a d 值,然后选取s a d 最小的相邻块的运动矢量作为预测 矢量。由于保存前一帧运动矢量信息在编码端要占用大量内存,使得系统复杂 化,故大多数算法利用考虑同一帧内块的空间相关的矢量来进行预测,其中一 个比较典型的方法是“平均预测 。h 2 6 3 使用上、上右、左边三个相邻块的运 动矢量取其平均值来预测当前块的运动矢量。而在m p e g 4 中使用上、上右、 左边三个相邻块的运动矢量中问大小的值来预测当前块的运动矢量。经过预测 的搜索起点往往更加接近全局最优值,因而提高了运动估计的搜索速度,并可 有效的避免陷入局部最优。 8 武汉理r 人学硕十学位论文 ( 5 ) 提前中止。提前中止的基本思想是“找到足够好的匹配就停止,而并 非要找到最好的匹配”,其基本方法是在运动搜索中预先设定一个阈值,当匹配 误差小于这个阈值时,立即停止搜索过程。由于不需要搜索所有的候选点,因 此提高了运动估计的速度。显然,阈值的选取十分重要,它会在很大程度上影 响搜索的性能。阈值过大,大部分搜索都会提前停止,虽然速度很快,但同时 搜索准确度就会较低。而闽值过小,只有少数的搜索能够提前停止,速度很难 有明显的提高。虽然提前中止技术的引入,会不可避免的造成准确度的损失, 但是较好的阂值自适应计算可以在准确度与速度间取得令人满意的折衷。 ( 6 ) 分层搜索。分层搜索算法的基本方法是在当前帧的抽样图像层上进行 运动搜索。它可以概括为分辨率由粗到细的搜索,即从最低层的原始帧派生出 多层图象,从低层到高层,分辨率依次降低。先在高层搜索进行运动搜索,然 后逐渐降低层数,利用己有的信息不断提高精度,最后在原始帧上进行搜索, 这就是分层快速算法的主要思想。分层搜索方法首先在最高层低分辨率的图像 中找到一个最优的匹配点,然后由粗到细地以上一层的最优匹配点作为起点进 行搜索,可以有效的避免运动估计进入局部最优,提高了运动估计的精确度。 ( 7 ) 多起点搜索。搜索时选择多个匹配度较高的点作为下步搜索的中心 位置,个数可依据搜索速度和精度进行调整。该方法能有效避免进入局部最优, 提高了搜索精度。 ( 8 ) 提高搜索象素精度。在h 2 6 3 中使用了半象素搜索精度,m p e g 4 中 支持1 4 精度,h 2 6 4 也支持1 4 精度搜索,其1 2 象素使用滤波,1 4 象素用六 点插值来提高插值运算精度。通过在匹配位置周围区域内的象素进行内插,然 后进一步搜索,可以找到更精确匹配的位置。运动矢量精度的提高使经运动估 计后帧问预测误差减小,从而降低了码率。 ( 9 ) 可变块大小搜索。帧间预测可以采用大小不同的块来进行运动估计。 h 2 6 3 和m p e g - 4 都支持对宏块中的4 个8 * 8 块分别进行运动估计,得到4 个运 动矢量。在宏块内部各块运动不一致的情况下,利用4 个运动矢量所得的预测 误差比对整个大块进行单一运动矢量所得的预测误差小得多。在h 2 6 4 中,支 持1 6 1 6 ,1 6 8 ,8 1 6 ,8 * 8 ,8 * 4 ,4 * 8 ,4 * 4 等七种分块模式n 副。采用不同大小 的块进行帧间预测,可使运动估计的模型更接近物体的实际运动,因此运动估 计的准确度得到提高。 9 武汉理l 大学硕士学位论文 1 4 论文主要工作 运动估计是视频压缩编码系统中的重要模块,h 2 6 4 相比以往的标准,引 入了许多新的技术,使得其编码效果更加出色,但同时增加了运算的复杂度, 影响了实时应用。本文在对运动估计技术进行详细分析的基础上,从模式选择, 提前中止技术和匹配准则三个方面对运动估计提出改进,减少编码运算量,提 高了运算速度。论文完成的工作主要有: 第1 章绪论部分介绍了视频编码国际标准,并对运动估计技术做概要阐述, 介绍运动估计技术的发展现状。 第2 章主要介绍h 2 6 4 视频编码器原理及其新特性,对编码器中的关键技 术逐一详细介绍,并分析了h 2 6 4 编码器的性能,表明它有较高的编码效率。 第3 章首先介绍运动估计的基本原理,然后对h 2 6 4 中运动估计的关键技 术作详细阐述,这些同时也是对运动估计技术改进的突破点,最后介绍了几种 比较经典的运动估计算法。 第4 章是本文的重点章节,在以前对运动估计技术及其运算复杂度充分分 析的基础上,从模式选择,提前中止技术和匹配准则三个方面做出了改进,力 图在保证图像质量的前提下,提高运算速度。并结合j m 8 6 软件模型,在p c 机 上对改进的新的算法性能进行测试,验证其优越性。 第5 章是全文总结与展望。回顾了本文做作的工作,并指明在该领域今后 继续研究的方向。 1 0 武汉理上大学硕士学位论文 第2 章h 2 6 4 视频编码技术 h 2 6 4 属于混合视频编码,是一种高效的压缩方法。它在吸收现有标准优 点的基础上,首次应用了多个视频编码界的理论和技术成果,从而获得了更高 的编码效率,在网络适应性方面也大有改善。本章首先介绍h 2 6 4 标准的基本 结构和主要特点,然后详细分析h 2 6 4 标准中的关键技术,最后给出h 2 6 4 视 频编码的性能。 2 1h 2 6 4 视频编码标准简介 h 2 6 4 的设计涵盖了视频编码层( v c l ,v i d e oc o d i n gl a y e r ) 和网络提取 层( n a l n e r w o r k a b s t r a c t i o nl a y e r ) 1 4 j 。视频编码层的任务是高效地表达视频 内容;网络提取层的任务则是将v c l 提供的数据格式化并提供头信息,使其适 用于不同的传输层或存储介质。h 2 6 4 的分层编码结构如图2 1 所示。 图2 1h 2 6 4 的分层编码结构 2 1 1h 2 6 4 的视频编解码器 h 2 6 4 编码器如图2 2 所示,包括了两个数据流路径:前向路径和重建路径。 武汉理r 大学硕七学位论文 为了突出编解码器的相似之处,解码器的数据流路径自右向左显示。 ( 1 ) 编码器( 前向路径) 在编码器端,表示当前输入帧。帧以宏块为单位进行处理( 对应原始图像 的1 6 1 6 个像素) 。每个宏块都按帧内或帧间模式进行编码。在任何一种情况下, 都由重建帧得到一个预测宏块p 。在帧内模式下,p 是由当前帧第n 帧中已 进行编码,解码和重建的采样点构建的。在帧间模式下,预测宏块p 由一个或 多个参考帧通过运动补偿预测进行构建。在图中参考帧是作为已编码的帧f 乞j 出现的。每个宏块可由一个或多个已进行编码和重构的前帧或后帧( 以时问为 顺序) 预测得到。 将预测宏块p 从当前宏块中减去,得到一个残差宏块队并对它进行变换, 量化,得到x 。对变换系数x 重新排序后进行熵编码。熵编码后的系数与附加 信息用来从压缩的比特流中解出宏块( 比如宏块的预测模式,量化步长,运动 式量信息等等) 。这些都被递交给网络提取层( n a l ) 进行传输或存储。 图2 2h 2 6 4 编码器 ( 2 ) 编码器( 重建路径) 量化后的宏块系数x 被解码,用来重建一个帧,进而对下一个宏块进行编 码。系数x 经过再次伸缩和反变换,得到残差宏块d _ 。它与原来的残差宏块 1 2 武汉理t 入学硕士学位论文 队已经不同,量化的过程带来了精度上的损失,所以d 名较岛有失真。 预测宏块p 与d _ 相加得到一个重建宏块i tf _ ( 对原宏块的恢复,存在失 真) 。用滤波器去处块效应,重建的参考帧由一系列的宏块f 乞构建。 ( 3 ) 解码器 解码器从网络提取层接收压缩的比特流。对数据元素进行熵解码,重排序, 得到一组量化后的系数x 。然后再对x 进行伸缩和反变换,得到d _ ( 它与编 码器中所示的d 乞相同) 。解码器用从比特流中解出的头信息,构建预测宏块p , 它与编码器中的预测宏块p 相同。p 与d _ 相加得到f _ ,再经过去方块滤波 得到重建解码宏块,_ 。 从图2 3 和以上的论述中我们可以看出,编码器中的重建路径是为了确保 编码器与解码器使用相同的参考帧构建预测宏块p 。否则,编解码器中的预测 宏块p 将会不同,从而导致编解码器之间的误差累积和“漂移( d r i f t ) 现象。 此外h 2 6 4 标准中还支持数据分割( d a t ap a r t i t i o n ) ,即将各个宏块中的同 种类型数据集中放在一起传输。例如:可以将一个s l i c e 中所有宏块的直流系数 放入一个包,所有运动式量放入另一个包,剩余的数据放入一个包。这样在传 输出错的情况下,有利于解码端进行错误掩盖。 2 1 2h 2 6 4 的主要特点 图2 3h 2 6 4 解码器 从上一节的内容可知,h 2 6 4 仍然是一种混合编码方法,其编码过程在以 下几个方面与h 2 6 3 等现有标准类似1 1 5 】: 1 3 武汉理:r 人学硕十学位论文 ( 1 ) 视频图像以宏块为单位进行划分,每个宏块独立进行处理; ( 2 ) 运用空间预测、变换、量化以及炳编码技术去除图像的空间冗余度; ( 3 ) 使用运动预测和运动补偿技术,只对相邻帧的变化进行编码,去除相 邻帧之问的时问冗余度; ( 4 ) 对于运动补偿后产生的残留块,使用变换、量化以及熵编码进一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 不良事件合并用药试题及答案
- 2025-2026学年第一学期八年级物理期中考卷定稿
- 山东省临沂市兰山区实验中学2025-2026学年九年级上学期阶段性检测化学试卷(含答案)
- 2025年浙南高三物理试卷及答案
- 九师医院招聘考试题及答案
- 2025西部计划笔试真题与答案
- 大队委笔试题库论述题及答案
- 小区屋顶绿化与节能方案
- 五金行业线上渠道拓展方案
- 石墨烯复合材料建设项目技术方案
- 酒店ota代运营协议书
- 2025至2030中国碳纳米管行业市场发展现状及调研报告
- 2023-2024年山东省济南市历下区六年级上册期中数学试卷及答案(人教版)
- 抗凝剂皮下注射护理规范专家共识解读课件
- 2025年电气自动化考试试题及答案
- 电解质紊乱课件
- 《富宁县国土空间总体规划(2021-2035)》
- 考研专业课辅导协议合同
- 2025年度个人工作总结
- 服装厂安全生产管理制度汇编
- 跨校合作的小学教师团队实践案例
评论
0/150
提交评论