（计算机应用技术专业论文）基于h264的运动估计技术的研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：78 大小：1.96MB 积分：0 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

（计算机应用技术专业论文）基于h264的运动估计技术的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要 h 2 6 4 是由m p e g 和v c e g 的专家共同组成的联合视频小组j v t ( j o i n t v i d e ot e a m ) 共同制定的新一代视频压缩编码国际标准。运动估计是视频压缩中的关键技术，决定了视频压缩的效果，是压缩的主要计算开销。因此寻找一种快速、高效的运动估计算法成了视频压缩领域的研究热点。h 2 6 4 中运动估计采用的多参考帧、多模式、高像素精度三项新图像处理技术，形成了新的研究方向。本文正是以此为出发点，通过对运动估计过程的各个步骤进行研究分析，在多个环节上进行算法改进，具体内容如下。首先，对高精度块匹配的运动估计技术进行了研究。分别从初始搜索点，整像素搜索，分像素搜索三个方面对该技术进行了研究和算法上的改进，提出了一种新的支持高像素精度的运动估计算法，减少了搜索的点数，提高了编码效率。其次，对帧内和帧间多模式预测的运动估计技术进行了研究。采用自适应阈值方案对帧内预测编码模式选择技术进行了算法上的改进。接着利用空域相关性和时域相关性预测方案对帧间预测编码块模式选择技术进行了算法上的改进。减少了可选预测模式的类型，提高了编码效率。再次，对多参考帧多模式高精度运动估计技术进行了系统的研究。研究了可选参考帧的数目以及如何快速选出一个最佳参考帧的问题。然后综合前面两项研究内容从而提出了一种新的支持多参考帧、多模式、高像素精度的运动估计算法。在保证编码质量的情况下，有效地减少了运动估计时间，提高了编码效率。最后，进行系统仿真实验，来论证论文中改进的算法，通过对实验结果中的数据列表分析、比较，发现改进后的算法均优于现有的同类算法，实现了预期的研究目标。关键词h 2 6 4 ；视频；压缩；编码；运动估计；图像处理燕山大学工学硕士学位论文 a b s t r a c t v c e g ( v i d e oc o d i n ge x p e r t sg r o u p ) a n dm p e g ( m o v i n gp i c t u r ee x p e r t s c r o u p ) p u b l i s h e dh 2 6 4 ，w h i c hi san e ws t a n d a r df o rv i d e oc o m p r e s s i o nc o d i n g m o v e m e n te s t i m a t ei st h ek e yt e c h n o l o g yo fv i d e o c o m p r e s s i o n , w h i c h d o m i n a t e st h ep e r f o r m a n c eo fc o m p r e s s i o na n dt h et i m ef o rc a l c u l a t i n g s oi ti s m a i n l ys t u d i e dt os e a r c hab r i e ff a s te f f i c i e n ta l g o r i t h mo fm o v e m e n te s t i m a t e f o rv i d e o c o d i n g i n h 2 6 4t h e r ea r et h r e en e wt e c h n o l o g i e so fp i c t u r e t r a n s a c t i o na p p l i e dt om o v e m e n te s t i m a t e ，w h i c ha r em u l t i r e f e r e n c ef l a m e ， m u l t i - m o d ea n df r a c t i o n a l - p i x e lp r e c i s i o n n e wt e c h n o l o g i e sb e c o m en wf i e l d t ob es t u d i e d s ot h ep a p e rb a s e do nt h e s ea n ds t u d i e se v e r yp a r to fc 0 1 , r s co f m o v e m e n te s t i m a t et om a k ei t sa l g o r i t h mt ob eb e t t e r t h em a t e r i a lc o n t e n t sa r e a sf o l l o w s f i r s t l y , i nt h ep a p e rt h et e c h n o l o g yo ff r a c t i o n a l - p i x e lp r e c i s i o nb l o c k m a t c h i n gf o rm o v e m e n te s t i m a t ei ss t u d i e d i t st h r e ep a r t s ，t h ei n i t i a l i z a t i o n p o i n tf o rs e a r c h i n ga n dp i x e ls e a r c h i n ga n ds u b - p i x e ls e a r c h i n g , a r es t u d i e da n d t h e i ra l g o r i t h m sa r ei m p r o v e d a sar e s u l t ，t h en u m b e ro fp i x e l sf o rs e a r c h i n g d e s c e n d sa n dt h ee f f i c i e n c yo f c o d i n gi se n h a n c e d s e c o n d l y , t h et e c h n o l o g yo fm u l t i m o d ep r e d i c t i o nc o d i n gf o ri n t r a - f r a m e a n di n t e r - f l a m ei ss t u d i e d t h ea l g o r i t h mo fs e l e c t i n gm o d ef o ri n t r a - f r a m e p r e d i c t i o ni si m p r o v e db yt h em e t h o do fu s i n ga d a p t i v et h r e s h o l d s t h e nt h e a l g o r i t h mo fi n t e r - f l a m ep r e d i c t i o ni si m p r o v e db yt h ea p p l i c a t i o no fs p a t i a l c o r r e l a t i o na n dt e m p o r a lc o r r e l a t i o n a sar e s u l tt h en u m b e ro fm o d e sf o r s e a r c h i n gd e s c e n d sa n dt h ee f f i c i e n c yo f c o d i n gi se n h a n c e d t h i r d l y , t h r e et e c h n o l o g i e so fm o v e m e n te s t i m a t eb a s e do nm u l t i r e l y o n c e f l a m e sa n dm u l t i m o d ea n df r a c t i o n a l p i x e lp r e c i s i o na r es t u d i e da saw h o l e s y s t e m t h en u m b e ro fr e f e r e n c ef r a m e sa n dt h ep r o b l e mo fh o wt os e l e c tt h e a b s t r a c t b e s tr e f e r e n c ef l a m ea r ea n a l y z e d t h e nan e wa l g o r i t h mo fm o v e m e n te s t i m a t e ， w h i c hs u p p o r t st h e s en e wt e c h n o l o g i e s ，i sp r e s e n t e db a s e do nt h e s ea l g o r i t h m s p r e s e n t e da b o v ei nt w oi t e m s a sar e s u l t ，t h ep e r i o do fm o v e m e n te s t i m a t e b e c o m e ss h o r ta n dt h ee f f i c i e n c yo fc o d i n gi se n h a n c e do nt h ec o n d i t i o no f c o d i n gq u a l i t y f i n a l l y ，e x p e r i m e n t sa r em a d et op r o v et h ep e r f o r m a n c eo ft h e s en e w a l g o r i t h m s t h e nw ec a nf i n dt h a tt h e ya r eb e t t e rt h a no t h e r sb ya n a l y z i n gt h e r e s l l l to f t h ee x p e r i m e n ta n dt h ea n t i c i p a t e dr e s u l t sa r er e a l i z e d k e y w o r d sh 2 6 4 ；v i d e o ；c o m p r e s s i o n ；e n c o d e ；m o v e m e n te s t i m a t e ；p i c t u r e t r a n s a c t i o n i 燕山大学硕士学位论文原创性声明本人郑重声明：此处所提交的硕士学位论文基于h 2 6 4 的运动估计技术的研究，是本人在导师指导下，在燕山大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知，论文中除己注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体，均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字赵瓤丑日期：加川年怕f 汨燕山大学硕士学位论文使用授权书基于h 2 6 4 的运动估计技术的研究系本人在燕山大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学所有，本人如需发表将署名燕山大学为第一完成单位及相关人员。本人完全了解燕山大学关于保存、使用学位论文的规定，同意学校保留并向有关部门送交论文的复印件和电子版本，允许论文被查阅和借阅。本人授权燕山大学，可以采用影印、缩印或其他复制手段保存论文，可以公布论文的全部或部分内容。保密口，在年解密后适用本授权书。本学位论文属于不保密( 五 ( 请在以上相应方框内打“4 ”) 作者签名：导师签名：是红显杏歇厶日期：1 叼7 年叶侗f g 日日帔俘厂 f t 第1 章绪论 1 1 研究背景和意义第1 章绪论当前社会是信息化的社会。图像作为一种媒体形式相对于其它形式而言能带给人们更丰富更准确生动的信息，所以备受人们的青睐。然而它有一个严重的缺点，就是本身的数据量太大，尤其是运动的图像序列视频，这无论对于存储还是传输都造成了很大的困难。解决的办法只有一个，即把模拟图像变成数字图像然后对其进行压缩编码。 h 2 6 4 标准是由r r u 的视频编码专家组v c e g 和i s o i e c 的活动图像专家组m p e g 共同组成的联合视频组j 、丌于2 0 0 3 年3 月制定完成的新一代视频压缩编码标准，在i s o i e c 中被称为m p e g - 4 的第1 0 部分高级视频编码a v c f l l ( a d v a n c e d v i d e oc o d e c ) 。在相同的重建图像质量下，h 2 6 4 比h 2 6 3 节约5 0 左右的码率。然而h 2 6 4 获得优越性能的代价是计算复杂度增加，编码的计算复杂度大约相当于h 2 6 3 的3 倍，解码复杂度大约相当于h 2 6 3 的2 倍1 2 1 。运动估计是视频压缩中的关键技术，它是将活动图像分为若干局部结构，并设法检测出每个局部结构在参考帧图像中的位置的过程，它是压缩编码的主要开销，约占视频编码计算总量的5 0 以上，决定了视频压缩的效果。因此寻找一种简便、快捷、高效的运动估计算法成了视频编码领域的重点。 h 2 6 4 的应用范围是非常广阔的，它高效的编码性能可满足多种应用的需求，目前主要应用在以下领域：基于电缆、卫星、m o d e m 、d s t 等信道的广播；视频数据在光学或磁性设备上的存储；基于i s d n 、以太网、d s l 无线及移动网络的公话服务、视频流服务、彩信服务等。除了以上介绍的应用，基于h 2 6 4 的平台，还会涌现很多新的应用。在即将开通的3 g 市场上， h 2 6 4 的舞台也将越来越大，视频通讯将带给人们更为简洁的交流方式。 h 2 6 4 具有较强的抗误码特性，能够获得平稳的图像质量，h 2 6 4 能适燕山大学工学硕士学位论文应于不同网络中的视频传输，网络亲和性好【3 j 。h 2 6 4 的基本系统无需使用版权，具有开放的性质，能很好地适应i p 和无线网络的使用，这对目前的因特网传输多媒体信息、移动网中传输宽带信息等都具有重要的意义。随着m p e g 的加入以及更多新编码技术的采纳，h 2 6 4 将具有更加良好的性能以及巨大的商业价值和社会价值，有望成为新世纪最为成功的国际标准之一。本文对h 2 6 4 标准的关键编码技术运动估计进行了系统的研究、分析，对其中相关的算法进行了改进，并且用实验验证了改进算法的优劣。目的是加快编码速度，提高压缩视频的质量，以便于人们及时的进行存储、传输，享受更高质量的视频节目。 1 2 研究现状人们对数字视频和图像压缩编码的研究已经经历了半个多世纪，无论在编码的理论和工程的应用上都得到了长足的发展。近十年来，视频和图像压缩编码的方法得到了迅速的发展和广泛的应用。 1 2 1 视频标准的发展历史和研究现状视频编码技术起源于静止图像编码技术。1 9 4 8 年，美国人s h a n n o n 和他的两个学生o l i v e r 与p i e r c e 联合发表了对电视信号进行脉冲编码调制 p c m 4 i ( p u l s cc o d i n gm o d u l a t i o n ) 的论文，标志着数字图像压缩编码技术的开始。从五十年代至八十年代初，对静止图像编码技术的大量研究奠定了后来视频编码技术的基础。八十年代初，国际电信联盟制定了针对视频的第一个编码标准，面向i s d n 视频传输的h 2 6 1 】。随后国际上负责视频编码标准化的组织制定了一系列视频编码标准。这些标准的算法主要由运动补偿、正交变换、量化和熵编码四类技术混合构成，代表了视频和图像编码的研究水平。具有代表性的标准，包括用于数字视频和音频传输及存储的m p e g 1 【5 】、支持h d t v 等高品质数字视频和音频传输与存储的m p e g 2 1 6 1 、适于低码率视频传输的h 2 6 3 ”、基 2 至! 量丝丝于对象的视频编码标准m p e g - 4 t 8 1 和致力于低码率高编码效率的h 2 6 4 。视频压缩编码标准发展历程及其应用如表1 1 1 9 1 所示。表1 - 1 视频压缩标准发展历程 t a b l e1 - 1h i s t o r yo f v i d e oc o m p r e s s i o ns t a n d a r dd e v e l o p m e n t 发布日标准标题应用场合期 v i d e oc o d e ef o ra u d i ov i s u a ls e r v i c e sa tp x 6 4 i s d n ( 综合业务数 h 2 6 11 9 9 0 1 2 k b i t s ( p 6 4k b w s 的音视频业务的编解码) 字网1 视频会议 p r o g r e s s i v eb i q e v e li m a g ec o m p r e s s i o n ( 用于二 j b i g1 9 9 1 9 值图像的累进压缩编码) 传真等 d i g i t a lc o m p r e s s i o nc o d i n go fc o n t i n u o u s - t o n e 数字照相、图像视 j p e g1 9 9 2 1 0 s t i l li m a g e ( 连续色调静态图像的数字压缩编码) 频编辑等 c o d i n go f m o v i n gp i c t u r e sa n da s s o c i a t e da u d i ov c d 、光盘存储、 e g - 11 9 9 2 1 l f o r d i g i t a ls t o r a g e m e d i a u p t 0 1 s m b i t s ( 面向数字家用视频，视频监控存储的运动图像及其伴音1 s m b i t s 的编码1等 g e n e r i c c o d i n g o f m o v i n g p i c t u r e sa n d 数字电视、d v d ， h ，e g 21 9 9 4 1 l a s s o c i a t e da u d i oi n f o r m a t i o n ( 运动图像及其伴音高清晰电视、卫星电通用编码) 视 h2 6 31 9 9 6 3 v i d e oc o d i n gf o rl o wb i tr a t ec o m m u n i c a t i o n 桌面可视电话、移 ( 低比特率通信的视频编码) 动视频等 h 2 6 3 +1 9 9 8 1 c o d i n go fa u d i o - v i s u a lo b j e c t s ( 音频视频对象 m 网、交互视频、移动通信、专业视频h 伊e g - 41 9 9 9 5 的通用编码l 等 v i d e oc o d i n gf o rl o wb i tr a t ec o m m u n i c a t i o n 桌面可视电话、移 h 2 6 3 + + 2 0 0 0 1 1 ( 低比特率通信的视频编码) 动视频等 j p e g 2 0 0 0i m a g ec o d i n gs y s t e m ( 下一代静态图数字照相、口网、移动通信、传真、电j p e g 2 0 0 02 0 0 0 1 2 像编码标准1 子商务等 m p e g 4 - 1 0 a v c ( a d v a n c e dv i d e oc o d e e ) ( 先进数字视频存储以及i p t v 、数字卫星h 2 6 42 0 0 3 3 视频编码1 广播、手机电视由表1 1 可见，图像压缩标准可分为两大系列：m p e g - x ；h 2 6 x 。 m p e g - x 是由国际标准化组织( i s o ) 和国际电工委员会( m c ) 提出的标准， h 2 6 x 是由国际电信联盟( 1 1 1 j ) 标准委员会提出的。m p e g x 系列标准侧重压缩图像的质量，h 2 6 x 系列标准则侧重压缩编码的效率，实时性较高。近几年，为了解决自主知识产权和国家安全问题，我国自主制定了自燕山大学工学硕士学位论文己的数字音视频编解码标准a v s i ” ( a u d i o v i d e os t a n d a r d ) 。a v s 视频主要面向高清晰度电视、高密度光存储媒体等应用中的视频压缩。在2 0 0 2 年的最初几次会议中，视频组专家以当前国际上最先进的m p e g - 4a v c h 2 6 4 框架为起点，自主制定适合既定应用的中国标准，其中强调自主知识产权，同时充分考虑了实现复杂度。相对于h 2 6 4 ，a v s 的主要特点有：第一，8 x 8 的整数变换与6 4 级量化；第二，亮度和色度帧内预测都是以8 x 8 块为单位，亮度块采用5 种预测模式，色度块采用4 种预测模式；第三，采用1 6 x 1 6 、 1 6 x 8 、8 1 6 和8 x 8 共4 种块模式进行运动补偿；第四，在1 4 像素运动估计方面，采用不同的四抽头滤波器进行半像素插值和1 4 像素插值；第五， p 帧可以利用最多2 帧的前向参考帧，而b 帧采用前后各一个参考帧。目前对视频编码的研究主要有两大方向，一个是保证视频图像编码前和解码后图像保真度的视频编码质量的研究，另一个是保证编码和解码实时性的视频编解码时间的研究。如何在这两者之间折衷找到一个最优点即是视频压缩编码中研究的重点。 1 2 2 运动估计技术的研究现状运动估计是减少视频图像序列中帧间冗余的关键技术，所以国内外在这方面的研究都比较多。m p e g 和h 2 6 3 等标准也都采用了运动估计算法。为了提高搜索速度和效率，目前研究最多的是基于块匹配b m a 0 1 ( b l o c k m a t c h i n g ) 的搜索算法。其中的全搜索算法f s i l l ( f u l ls e a r c h ) 压缩效果最好，然而计算量太大，不利于实际应用，于是近几年人们又提出了一些快速算法。有代表性的包括，美国人t k o g a 等人提出的三步搜索算法3 s s 0 2 ( t h r e e s t e ps e a r c ha l g o r i t h m ) ，l p o 和w m a 共同提出的六边形搜索算法 h e s e l 3 l ( h e x a g o ns e a r c ha l g o r i t h m ) ，菱形搜索算法d s m 4 1 ( d i a m o n ds e a r c h a l g o r i t h m ) ，以及国内视频专家改进后的新三步搜索算法n 3 s s 【1 5 ( n e w t h r e e s t e ps e a r c ha l g o r i t h m ) 和新提出的非对称十字型多层次六边形格点搜索算法u m h e x a g o n s t l 6 1 ( u n s y m m e t r i c a lc r o s sm u t ih e x a g o ns e a r c h ) 。 3 s s 算法的基本思想是采用一种由粗到细的搜索模式，从初始点开始，按一定步长取周围8 个点构成每次搜索的点群，然后进行匹配计算，跟踪 4 第1 章绪论最小均方差或者最小绝对误差点。一般取最大搜索长度为7 ，搜索精度取1 个像素，则步长为4 ，2 ，l 共三步，所以称作三步搜索算法。菱形搜索算法是以菱形作为匹配模板的，是公认的效率较高的算法之一。该搜索算法利用了视频图像运动矢量的中心偏移特性( a p 运动矢量常常集中在搜索窗口的中心附近) ，减少了总的搜索点数，可以明显提高搜索速度，同时也具有较高的搜索准确度。六边形搜索的块匹配算法是以接近圆的正六边形作为匹配模板的，它充分利用了运动矢量中心分布的特性，六边形搜索算法比菱形搜索算法的搜索准确度更高，但复杂度并没有降低。新三步搜索算法与原三步搜索算法不同的是在第一步对初始点周围最大步长( 一般为4 个像素) 的8 个点进行搜索匹配的同时也对最小步长( 一般为 1 个像素) 的8 个点进行搜索匹配，从而解决了小运动估计问题。 l r m h e x a g o n s 算法综合考虑了大范围运动和缓慢运动的特点，采用了多种搜索模板，适用于不同要求、不同风格式的视频序列帧间运动估计。同时它利用自然图像中水平方向的运动多于垂直方向的运动，将垂直方向搜索步长设置为水平搜索步长的一半，提高了搜索速度。人们从不同的角度对运动估计的搜索算法进行研究。从搜索的单位来分类：一整块，一整个1 6 x 1 6 块作为搜索单位；四小块，4 个8 x 8 的小块，以8 8 小块作为搜索单位。从运动向量的精度来分类：整像素，运动向量精确到整像素；分像素，运动向量精确到1 2 、1 4 、1 8 等像素。在以上各种分类中，前一项准确性低运算时间短，而后一项准确性高运算时间长。生产厂商一般根据各自情况创造和选择各自算法以达到准确性和运算时间的平衡。以往的搜索算法大都是以1 个1 6 1 6 整块作搜索单位，以半像素作搜索精度，来进行搜索块匹配的。与以往的视频编码标准相比，h 2 6 4 中的运动估计采用了1 4 像素精度、多参考帧和多种不同大小预测块的新技术，传统的运动估计算法不再适用。目前标准模型中的块匹配运动估计部分采用的是对整像素周围分像素全搜索的算法，计算量比较大。在帧间预测块模式选择技术中最基本的是全模式遍历搜索选择算法，燕山大学工学硕士学位论文把每一种模式都计算一遍，选取产生信息量最少的模式进行编码。目前标准测试模型中的块模式选择算法采用的是基于拉格朗日的率失真优化 r d o t o l ( r a t ed i s t o r t i o no p t i m a l i t y ) 技术。率指码率，失真是指源图像与预测图像的差值，对所有宏块模式进行运动搜索和率失真计算，寻找其差值编码后码率最小的模式。鉴于该算法计算量大，最近人们又提出了各种各样的快捷算法，有代表性的算法有d w u 等人提出的s o b e l 边缘算予算法【1 7 】和y u c a n d y 提出的离散余弦d c t ( d i s e r e t ec o s m et r a n s f o r m ) 算法【1 8 垮。 s o b e l 算法的基本思想是利用大块模式适合比较平滑区域的特性，通过 s o b e l 边缘算子来判断宏块是否是平滑区域，从而减少待编码的模式数量，提高编码速度。 d c t 算法的基本思想是利用对宏块进行d c t 变换来判断宏块的复杂性，根据不同的复杂度来选择合适的候选模式，从而减少待编码的模式种数，提高编码速度。多参考帧运动估计环节选用的是有限帧数依次参考的算法，运动估计时不能利用所有的可参考帧，降低了编码的质量。以上这些算法有的侧重压缩编码质量，有的侧重编码的实时性，在不同的应用环境中有不同的效果，不能笼统的给它们的性能排序。但总体上说它们的计算量都比较多，计算复杂度大，在编码质量和编码效率方面还有待改进。 1 3 研究内容本文研究内容主要分为以下四个方面。第一，对运动估计块匹配搜索算法进行改进。结合h 2 6 4 标准中新的技术，对传统的快速运动估计算法进行改进。使之能够适用于h 2 6 4 标准中所采用的1 4 像素精度的预测编码技术。从而在保证图像质量的情况下，减少块匹配搜索的点数，降低编码时间，提高编码的效率。第二，对预测编码多种块模式选择算法进行改进。通过对h 2 6 4 视频编码中的多模式预测编码技术的研究，利用块模式时间和空间相关性来改第1 章绪论进基于拉格朗日代价率失真的帧间宏块编码模式预测算法，并利用自适应阈值方案来改进模式选择的帧内模式预测算法。从而减少搜索的预测模式类型，提高编码效率。第三，综合上面的两项研究内容，在它们的基础上提出一种支持多参考帧多模式的精度为1 4 像素的快速运动估计算法。通过减少参考帧数、宏块预测模式种类、块匹配搜索点数，实现预测图像的匹配，提高搜索速度。第四，以标准运动图像序列为素材，在h 2 6 4 性能测试软件所采用的 t 的联合模型j m 9 6 t 1 9 ( j o i n tm o d e l ) 平台上进行实验，来分析论证本文所提出的新算法的优劣，验证算法的正确性。 1 4 论文组织结构本论文的结构安排同所做的工作相对应，论文各章的安排如下。第2 章主要介绍了h 2 6 4 视频标准编码技术的基础知识。对视频压缩编码的基本理论、基本技术、主要编码技术的相关知识进行了简要介绍。第3 章主要研究了高精度运动估计技术。分别从初始搜索点的选择，块匹配准则和搜索终止条件，整像素搜索，分像素搜索四个方面对该技术进行了研究和算法上的改进。第4 章主要研究了多模式选择技术。首先，对帧内预测编码模式进行了研究和算法上的改进；其次，对帧间预测编码模式进行了研究和算法上的改进。第5 章主要研究了多参考帧多模式高精度运动估计技术。首先，研究了可选参考帧的数目，多参考帧运动估计的特点，以及如何选出一个最佳参考帧的问题；其次，综合了第3 章和第4 章的算法设计了一种支持多参考帧、多模式、高像素精度的快速运动估计算法，并给出了实现该算法的主体代码。第6 章做了4 组系统仿真实验分别对第3 章、第4 章、第5 章所提出的算法进行了分析和论证。最后，总结了本文的工作并展望了未来的研究方向。 7 燕山大学工学硕士学位论文第2 章h 2 6 4 视频压缩编码技术 2 1 视频压缩编码基本技术新的h 2 6 4 m p e g - 4a v c ( 以下简称h 2 6 4 ) 视频编码标准在编码质量和压缩比上比原有的视频编码标准都有了明显的提高。为了具有更好的网络友好性，h 2 6 4 编码总体上分为了两层：视频编码层v c l ( v i d e o c o d i n g l a y e r ) 实现对视频内容的有效描述；网络适配层n a l ( n e t w o r ka b s t r a c t i o nl a y e r ) 实现在不同网络上视频数据的打包传输【l l 。论文研究的运动估计技术属于视频编码层，该层技术是重点研究的对象。 2 1 1 压缩编码的理论基础和基本概念压缩编码的理论基础是信息论。从信息论的角度看，压缩就是去掉信息中的冗余，即保留不确定的东西，去掉确定的东西，即可推知的东西，使用一种更接近信息本质的描述来代替原有的冗余的描述。这个本质的东西就是信息量，即不确定的因素。但信息量不是孤立、绝对的，它与信息的传输密切相关。接受者知识世界的改变是信息传输的本质所在，但由于接受者知识世界的复杂性，使得很难构造数学模型，从而只能对其进行具有普遍意义的某种限定。这就是仙农( s l m n o n ) 的信息论【4 】。视频序列中的冗余主要有：时域冗余、空域冗余、视觉冗余等。冗余信息的发掘主要依据图像的统计特性和人类视觉系统特性等两个特性。利用图像的统计特性去消除诸如同一帧同一行相邻像素幅值之间、相邻行像素幅值之间以及活动图像相邻帧同一方位像素幅值之间的相近性，来压缩图像信息的冗余度。利用人眼视觉特性敏感度低的特点，采用粗糙量化等措施，消减那些人眼对之不敏感的信息量，达到压缩效果。在h 2 6 4 标准中以像素块为基本单元进行运动估计，降低了帧序列的时间冗余度；然后，对帧间预测误差进行离散余弦变换，又进一步降低了 s 第2 章h ，2 6 4 视频压缩编码技术空间冗余度；最后用变字长编码降低了比特样本冗余度，达到高压缩比的目的。由此可见h 2 6 4 视频压缩编码算法是建立于运动估计算法、d c t 算法和熵编码算法的基础之上的。其中基于块的运动估计算法则是本文重点研究的对象。为了便于对后面内容的理解，下面介绍一些视频压缩编码标准中的基本概念。 ( 1 ) 帧视频序列中的一幅图像 2 0 , 2 。 ( 2 ) i 帧不做运动补偿预测只采用帧内预测编码的帧1 2 0 , 2 ”。 ( 3 ) p 帧参考时间轴上前向帧做运动补偿的帧间预测编码帧拉o ，2 1 1 。 ( 4 ) b 帧参考时间轴上前向和后向帧做运动补偿的采用帧间预测编码的帧 2 0 , 2 1 1 。 ( 5 ) 运动矢量同一物体在两幅图像中像素位置的位移2 0 , 2 ”。 ( 6 ) 预测图像参考帧图像中的所有像素按照运动矢量做位移后得到当前帧的新图像1 2 0 工”。 ( 7 ) 被压缩图像原图像信息去掉冗余信息后由参考图像、运动矢量和预测误差共同表示的图像【2 0 , 2 。 2 1 2 运动估计和运动补偿技术将活动图像分为若干局部结构，并设法检测出每个局部结构在参考帧图像中的位置，这个过程叫做运动估计。这样，用其在参考帧图像中的对应部分对当前帧中的局部结构进行预测，可大大减小预测误差，这种预测被称为运动补偿。同一子块在不同帧间的位置变化通常叫做运动矢量。将运动矢量和相应的预测误差一起进行编码并传输给接收端，在接收端则按运动矢量指明的位置，从已解码的前一帧图像中找到相应的局部结构，将该局部结构和预测误差相加后就得到了当前帧中的结构。利用预测编码方法消除序列图像在时间上的相关性，从而减低码率，提高压缩比。实际上，将图像分割成静止区域和不同的运动区域是一项困难的工作，当要求实时地完成这项运算时就更加困难。一种简单的办法就是将图像分割成子块，每块看成是一个物体。当子块划分的足够小的时候，可以假设 9 燕山大学工学硕士学位论文子块内所有像素的位移矢量是相同的，运动估计和运动补偿技术正式建立在这样的假设的基础上的。从理论上讲运动补偿包含以下几个步骤阱l 。 ( 1 ) 将单帧图像分割成静止的背景和若干运动的物体，各个物体可能有不同的位移，但是构成同一物体的所有像素的位移相同。通过运动估计值得到每个物体的位移矢量。 ( 2 ) 利用位移矢量计算经运动补偿后的预测值。 ( 3 ) 除了对预测误差进行编码、传送以外，还需要传送位移矢量以及如何进行运动物体和静止背景的分割等方面的附加信息。运动估计是做好运动补偿的关键环节。运动估计使用于帧间编码方式时，通过参考帧图像产生对被压缩图像的估计。因此运动估计的准确程度对帧间编码的压缩效果很重要。如果估计比较准确，那么被压缩图像与估计图像相减后只留下很小的值被编码、传输。运动估计以宏块为单位进行，计算被压缩图像与参考图像的对应位置上的宏块间的位置偏移。这种位置偏移是以运动矢量来描述的，一个运动矢量代表水平和垂直两个方向上的位移。运动估计时，p 帧和b 帧图像所使用的参考帧图像不同。p 帧图像使用前面最近解码的i 帧或p 帧作参考图像，称为前向预测；而b 帧图像使用两帧图像作为预测参考，称为双向预测，其中一个参考帧在显示顺序上先于编码帧( 前向预测) ，另一帧在显示顺序上晚于编码帧( 后向预测) ，b 帧的参考帧在任何情况下都是i 帧或p 帧。利用运动估计算出的运动矢量，将参考帧图像中的宏块移至水平和垂直方向上的相对应位置，即可生成对被压缩图像的预测。在绝大多数的自然场景中运动都是有序的，因此这种运动补偿生成的预测图像与被压缩图像的差值很小，生成的信息量少。在压缩编码中运动估计的目的是为了从参考图像中获取当前图像的最佳预测，以期望得到最大限度地压缩码率，消除视频序列的时间冗余。 2 1 3 d c t 变换编码技术 d c t 编码属于变换编码技术中的一种。离散余弦变换d c t 是数字图像 1 0 第2 章h 2 6 4 视频压缩编码技术信号处理等应用最广泛的变换算法。视频编码算法中帧内和帧问编码的核心算法都是d c t ，它有效地削减了视频序列中帧内图像和预测残差信号空域冗余，且它的性能最接近理论上最优的k l 变换，有相对简单的实现方法，有着广泛的应用。因为图像其实是人类的视觉系统对不同频率光线的感知，d c t 变换的目的是经过多维坐标系中适当的旋转变换，将原始图像由空域转换到频域上，使能量分布集中在低频部分，从而有利于后续的量化和编码，实现信息的压缩。离散余弦变换实际上是离散傅立叶变换的一种简化，是仅取了傅立叶变换系数中的余弦函数部分的变换。d c t 交换的进行过程是在编码端将原始图像分割成许多子像块，对每一个像块进行d c t 变换，生成频域中的系数阵，它是一种无损压缩方法。在视频压缩算法中通常采用的是二维d c t 变换。二维d c t 变换1 1 8 】见公式( 2 1 ) ： f = 志c o ) c ( v ) m 萎- i 善n - i 厂m 。s 产c o s 垦号笋( 2 - ，) d c t 逆变换i d c t i i s l ( i n v e r s ed i s c r e t ec o s i n et r a n s f o r m ) 见公式( 2 2 ) ：瓜y ) = 去篓篓c 。) c ( v 盹v ) c o s ( 2 x ：+ m 1 ) u n c o s 产( 2 - 2 ) 式中，m 和分别是像块水平和垂直分辨率；u 和v 分别是水平和垂直频率索引；f ( u ，v ) 是d c t 变换系数，f ( 0 ，o ) 表示直流分量的系数，f ( u ，v ) 表示不同频率的系数，“和v 的值越大，代表的频率越高；厂o ，y ) 是在( “，v ) 位置处的像素值。而常量c ) 【1 8 】和c ( v ) 1 1 s l o h 公式( 2 3 ) 给出。怛州：o c ( 甜) ，c ( v ) = 2 ， 7 ( 2 - 3 ) h ，p s e 原始图像块经过d c t 变换后，相应的由频域系数组成的图像块具有以下特点：所有图像像素点的均值( 即直流分量) 都位于频域图像矩阵的左上角。离直流分量距离越远的像素点，其系数所代表的图像点的交流成分的频域越高。更具体地说，在频域图像块中，像素的行索引值越大，则其代表的原始图像块在列的方向上的交流成分频率越高。图像块经过d c t 变换燕山大学工学硕士学位论文后，这个数据块中就会有大量的零或非常小的系数，这样经过以后的熵编码就会生成更少的信息量。 2 1 4 熵编码技术视频流经过d c t 变换、量化后仅生成了d c t 系数的一种有效的离散表示，此时，还须对其进行比特流编码，以进一步减小比特样本冗余度。简单的编码方法是采用定长码，即每个量化值以同样数目的比特表示，但这种方法的效率较低。而采用熵编码可以提高编码效率。熵编码是一种基于编码信号的统计特性，使得平均比特率下降的无失真编码。熵指的是数据的平均信息量，即在不丢失信息的前提下，描述信息内容所需的最小比特数。熵编码是在保证信源熵值的前提下，进行的无损数据压缩。设信源符号集a 为k 。，a ：，a 。，其中每个元素q 为信源符号，信源产生符号a ，的概率为p ( a i ) ，且有公式( 2 - 4 ) 成立。上：p ( 口，) = 1 ( 2 - 4 ) 令有式( 2 - 5 ) 成立，则有信源的平均信息量公式( 2 - 6 ) 2 3 1 。 “= 【p ( q ) ，p ( a ：) ，p ( ) r h 日( ) = 一p ( a , ) l o g e ( a ，) t = l ( 2 - 5 ) ( 2 - 6 ) 式中，日似) 成为信源的熵。传统的视频标准使用了一种混合熵编码技术，该技术同时使用了游程长度编码【2 3 埘】和霍夫曼编码【琏刎。游程长度编码最早用于二值图像的压缩编码。二值图像的每一个扫描总是由若干段连着的白像素和黑像素组成，即所谓的白长和黑长。对不同的黑长和白长，按其出项的概率分配以不同的码字。这就是游程长度编码的实质。霍夫曼编码是一种非等长最佳编码，由h u f h l l a i l 于1 9 5 2 年提出而得名。最佳编码是指在具有相同输入概率集合的前提下，其平均码长比其他任何一种唯一可译码都短。在霍夫曼编码中，确定了所有编码信号的概率后生产一个码表，对经常发生的大概率信号分配较少的比特表示，对不常发生的小概率信号分配较多的比特表示，使得第2 章h 2 6 4 视频压缩编码技术整个码流的平均长度趋于最短。 2 2h 2 6 4 标准压缩编码新技术 h 2 6 4 标准的基本编码过程如图2 1 t 1 】所示，解码过程如图2 2 1 1 】所示。如图所示运动估计与运动补偿、d c t 与d c t 反变换o l 、熵编码等几大部分构成了h 2 6 4 编码器和解码器的整体结构，具体说明参见文献【1 】。图2 1h 2 6 4 视频编码过程 f i g u r e2 - 1h 2 6 4v i d e oe n c o d i n gp r o c e d u r e 图2 - 2h 2 6 4 视频解码过程 f i g u r e 2 - 2h 2 6 4v i d e od e c o d i n gp r o c e d u r e h 2 6 4 主导思想是与其它标准是一致的，也是基于块的混合编码方法。但是另外它采用了许多新的技术，进一步提高了压缩编码的性能。本文重燕山大学工学硕士学位论文点介绍其在编码方面采用的一些主要的不同于其它标准的新技术。 2 2 1多参考帧多模式高精度运动估计在h

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于h264的运动估计技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于h264的运动估计技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档