（计算机应用技术专业论文）基于h264标准的运动估计算法的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：68 大小：2.27MB 积分：0 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

（计算机应用技术专业论文）基于h264标准的运动估计算法的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

浙江大学硕士学位论文基于h 2 6 4 标准的运动估计算法的研褒摘要 h 2 6 4 是i t u t 和m p e g 组联合专家组j v t 制定的视频编码标准，这一编码标准可获得很高的编码效率，尤其是在低码率方面比m p e g 一4 有明显提高，适合低宽带、高质量网络视频应用的需要。但是，h 2 6 4 为了提高编码效率，采用了许多高计算复杂度的算法，使编解码计算量很大，因此降低编码的复杂度且保证编码的相对质量是一个有意义的研究领域。为了方便h 2 6 4 在低码率高时性应用系统中的实现，须对其编码算法进行优化。经过对h 2 6 4 编码器的分析可以得出，运动估计是视频压缩编码中的核心技术之一，采用运动估计和运动补偿技术可消除视频信号的时间冗余以提高编码效率。因此，如何提高运动估计的效率，使运动估计算法搜索过程更健壮、更快速、更高效成为目前研究的热点之一。在深入研究现有快速运动估计算法的基础上，通过分析静态宏块和亚宏块的分布特性以及低层块运动矢量对高层块运动矢量的预测特性和影响特性，提出了自适应块匹配算法、基于统计规律的模式过滤算法和分等级多层次的模式过滤算法等运动估计算法，并可以较小的图像质量损失代价就得到与全搜索相当的效果。以上算法充分利用了序列图像的运动矢量时间、空间分布特性和相关性。根据实验统计的数据资料，有效的过滤和排除了一些候选模式的选择判断过程，提高了快速块匹配的搜索速度。实验结果表明，算法在速度和准确性等方面有了较大的提高，也对峰值信噪比降低和码率升高等问题进行了有效的控制。关键词：视频编码，运动估计，块匹配，搜索模式，运动矢量浙江大学硕士学位论文st - h 2 6 4 标准的运动估计算法的研究 a b s t r a c t t h ee m e r g i n gh 2 6 4a d v a n c e dv i d e oc o d i n g ( h 2 6 4 a v c ) s t a n d a r da c h i e v e s s i g n i f i c a n ti m p r o v e m e n ti nc o d i n ge f f i c i e n c yc o m p a r e dw i t ht h ep r e v i o u ss t a n d a r d s t h i ss t a n d a r dc a no b t a i ne x c e l l e n tc o d i n ge f f i c i e n c ya n do u t p e r f o r m st h em p e g - 4i n t h el o wb i tr a t ee n v i r o n m e n t s oi tc a nm e e tt h er e q u i r e m e n to ft h en e t w o r k - v i d e o w i t hl o wb a n d w i t ha n dh i g hq u a l i t y h o w e v e r , i ta l s ol e a d st oh i g h e rc o m p u t a t i o n a l c o m p l e x i t ya tt h ee n c o d e rm a i n l yd u et ot h ev a r i a b l e b l o c k - s i z em o t i o ne s t i m a t i o n ， w h i c ha l s ol e a d st oh i g h e rc o m p u t a t i o n a lc o m p l e x i t y t h i si sm a i n l yd u et ot h ef a c t t h a tt h eh 2 6 4e n c o d e re m p l o y sm o r ec o m p l i c a t e d a p p r o a c h e sa n d f e a t u r e st o e f f i c i e n t l yi m p r o v et h ec o d i n gp e r f o r m a n c e a tt h es a m et i m e ，t h ee n c o d e rc o m p l e x i t y i st r e m e n d o u s l yi n c r e a s e dw i t ht h e s en e wa p p r o a c h e s h e n c e ，i ti sa ne s s e n t i a l r e s e a r c ht o p i ct or e d u c et h eh i g he n c o d i n gc o m p l e x i t yw h i l em a i n t a i n i n gt h eg o o d c o d i n gp e r f o r m a n c e ，e s p e c i a l l yw h e n i tc o m e st or e a l - t i m ev i d e oc o d i n ga p p l i c a t i o n s m o t i o ne s t i m a t i o ni so n eo ft h ec o r et e c h n i q u e so fv i d e oc o d i n g m o t i o n e s t i m a t i o na n dm o t i o nc o m p e n s a t i o nc a nr e d u c et h e l a r g ea m o u n to ft e m p o r a l r e d u n d a n c yt h a te x i s t sb e t w e e nf r a m e so fv i d e os e q u e n c e s ，w h i c hl e a d st oh i 【e , h c o m p r e s s i o n t h er e s e a r c ho nl o o k i n gf o ram o t i o ne s t i m a t i o na l g o r i t h mt h a tc a ng e t a ne f f e c t i v ea n da c c u r a t em o t i o nv e c t o rq u i c k l yb e c o m e sah o tt o p i ca tp r e s e n t b ys t u d y i n gt h ee x i s t i n gr a p i dm o t i o ne s t i m a t i o na l g o r i t h m s ，w ep r o p o s e dt h r e e a l g o r i t h m sf o rm o t i o ne s t i m a t i o n i nh 2 6 4 ：af a s t p r e d i c t i v ev a r i a b l e b l o c k s i z e m o t i o ne s t i m a t i o n a l g o r i t h m f o rh 2 6 4 a v c a p r e d i c t i v e b l o c k s i z e f i l t e r i n g a l g o r i t h mt oe x t r a o r d i n a r i l yi m p r o v et h ee n c o d i n ge f f i c i e n c yi nh 2 6 4 h i e r a r c h i c a l f i l t e r i n gs c h e m e s f o ri n t e rm o d ed e c i s i o ni nh 2 6 4 t h ef i r s ta l g o r i t h mt a k e sa d v a n t a g eo ft h r e ee f f e c t i v ep r e d i c t i v es c h e m e s s t a t i o n a r yb l o c kp r e d i c t i o n ，p r e d i c t i v es e a r c hf o rn o n - s t a t i o n a r yb l o c k sa n dp r e d i c t i v e m u l t i p a t t e r nr e f i n e m e n ts e a r c hi nm e r g i n gp r o c e s s t h es e c o n da l g o r i t h mm a i n l y t a k e sa d v a n t a g eo ft w oe f f i c i e n tp r e d i c t i v em e t h o d s ：o n ei s p r e d i c t i v es k i p p i n g c h e c k i n gt h es u b - m a c r o b l o c k - l e v e lm o d e sa c c o r d i n gt ot h es u mo fa b s o l u t ed i f f e r e n c e ( s a d ) o fe a c hm a c r o b l o c ka n dt h eo t h e ri sf i l t e r i n gs o m es u b m a c r o b l o c k 1 e v e l m o d e sw i t ha na d a p t i v et h r e s h o l do b t a i n e df r o m t h e m o d ei n f o r m a t i o ni nt h ep r e v i o u s d e t e r m i n e d m a c r o b l o c k a c c o r d i n gt o t h e t e m p o r a l l ys t a t i o n a r yc h a r a c t e r i s t i c s i n h e r e n ti nv i d e os e q u e n c e s ，t h et h i r da l g o r i t h mu s e st h r e eh i e r a r c h i c a lf i l t e r i n g s c h e m e s ：m a c r o b l o c k - l e v e lm o d e sf i l t e r i n g , s u b m a c r o b l o c k l e v e lm o d e s f i l t e r i n ga n d t h em o s tt i m e c o n s u m i n gi n t r a 4x4m o d ef i l t e r i n gb a s e do nt h ed i s t r i b u t i o no ft h e s t a t i o n a r yb l o c k sa n da na d a p t i v et h r e s h o l d 浙江大学硕士学位论文基于h 2 6 4 标准的运动估计算法的研究 e x p e r i m e n t a lr e s u l t sa n dc o m p a r a t i v ea n a l y s i sa r eg i v e nt od e m o n s t r a t et h a to u r p r o p o s e da l g o r i t h m sc a ne f f e c t i v e l yf i t e ra n de x c l u d es o m eu n l i k e l yc a n d i d a t em o d e s a n dc a na c h i e v eaf a s ts p e e d - u pf a c t o rc o m p a r e dw i t ht h ec u r r e n tf a s tf u l ls e a r c h a l g o r i t h mi nj m 8 5 m o r e o v e r , o u ra l g o r i t h m sc a ne f f e c t i v e l yc o n t r o lt h ep s n rl o s s a n dt h eb i tr a t ei n c r e a s e k e y w o r d s ：v i d e oc o d i n g ，m o t i o ne s t i m a t i o n ，b l o c km a t c h i n g ，s e a r c hp a r t e m ，m o t i o nv 毫c t o r 塑望查堂堡主堂堡笙苎苎量旦：! 坚堡堡塑堡塑堡：! 墨鲨堕婴基 1 1 引言第一章绪论当今时代，信息技术和计算机互联网飞速发展，在此背景下，多媒体信息已成为人类获取信息的最丰要载体，同时也成为电子信息领域技术丌发和研究的热点。多媒体信息经数字化处理后具有易于加密、抗干扰能力强、可再生中继等优点，但同时也伴随海量数据的产生，这对信息存储设备及通信网络均提出了很高要求，从而成为阻碍人们有效获取和使用信息的重大瓶颈。多媒体计算机集声音、图像和文字于一体，集电视、录像、光盘存储、电子印刷和计算机通信技术之大成，它将把计算机应用引入一个无所不能的广阔领域，成为未来的主要技术之一。通过多媒体，计算机把人们进一步引入信息领域，并以最直观的方式表达多媒体信息。多媒体技术不仅使计算机应用更有效，更接近人类习惯的信息交流方式，而且将开拓前所未有的应用领域，信息空间走向多维化，使人们思想的表述不再局限于顺序的、单调的、狭窄的范围，而有了一个充分的自由空间。多媒体技术为这种自由提供了多维化空间的交互能力，臣前在电影、电视和文艺创作方面已取得了可喜的成果，今后将会越来越多地利用多媒体技术进行各种创作活动。多媒体技术将引起信息社会的一场划时代的革命。目前，视频技术的应用范围很广，如网上可视会议、网上可视电子商务、网上政务、网上购物、网上学校、远程医疗、网上研讨会、网上展示厅、个人网上聊天、可视咨询等业务。但是，以上所有的应用都必须压缩。因为传输的数据量之大，单纯用扩大存储器容量、增加通信干线的传输率的办法是不现实的，数据压缩技术是个行之有效的解决办法，通过数据压缩，可以降低信息数据量，以压缩形式存储、传输，既节约了存储空间，又提高了通信干线的传输效率，同时也可使计算机实时处理音频、视频信息，以保证播放出高质量的音视频节目。因此研究高效的多媒体数据压缩编码方法，以压缩形式存储和传输数字化的多媒体信息具有重要意义。作为多媒体技术的核心及关键，多媒体数据压缩编码近年来在技术及应用方面都取得了长足进展，它的进步和完善f f 深刻影响着现代社会的方方面面。由于多媒体文字、声音、静止图像、视频动态图像等信源数据有极强的相关性，也就是说存在大量的冗余信息。数据压缩可以将庞大数据中的冗余信息去掉( 去除数据之间的相关性) ，保留相互独立的信息分量，多媒体数据压缩是完全可以实现的。因此，研究高效的多媒体数据压缩编码方法，以压缩形式存储和传输数字化的多媒体信息具有重要意义。作为多媒体技术的核心及关键，多媒体数据压缩编码近年来在技术及应用方面都取得了很大进展，它的进步和完善正深刻影响着现代社会的方方面面。浙江人学硕士学何论文基于h 2 6 4 标准的运动估计筹婆史! 翌堕 1 2 研究背景 h 2 6 4 1 】是l t u t 和m p e g 组联合专家组j v t 制定的目前晟新的视频编码标准，这一编码标准可以获得很高的编码效率，尤其是在低码率方面比m p e g - 4 有明显的提高，非常适合低宽带、高质量网络视频应用的需要。但是，h 2 6 4 为了提高编码效率，采用了许多高计算复杂度的算法，使得编解码计算量很大，因此对软硬件的要求甚高，同时也加大了编解码的难度。因为在通常情况下，很多方法无法实现在有限硬件支持的条件下，使得编码质量达到最优。为了使h 2 6 4 能比较容易的在低码率高时性的应用系统中实现，必须对其编码算法进行优化。对h 2 6 4 编码器各个算法模块进行分析可以得出，运动估计模块的计算量占了整个编码器运算量的7 0 以上。因此，要对整个编码器进行优化，运动估计模块应作为首选。 h 2 6 4 在进行运动估计时，首选进行运动矢量预测，预测后获得初始运动矢量，把这个初始的运动矢量作为搜索中心进行块匹配搜索，收缩时采用全搜索算法，即给出搜索中心周围的一个范围，对该范围内矩形区域内的所有的点，都要计算一次匹配结果，从中选出最佳匹配点作为整像素搜索的结果。h 2 6 4 的全搜索算法，优点是可以找到限定范围内的全局最优匹配结果，运动估计精度很高。其不足在于算法的复杂度太高，成为整个编码体系中最为耗时的一部分，因此，在尽可能小的质量损失前提下，提高运动估计搜索速度，是对h 2 6 4 进行优化的关键。在h 2 6 4 编码标准中，运动估计是最复杂也是最能降低复杂度的一个模块。因此有必要对运动估计中块模式选择过程做深入的研究，并且尽可能地降低计算复杂度。在标准的参考代码中，有1 0 个模式可供选择，即s p ，1 6 1 6 ，1 6 8 ，8 1 6 ，8 x 8 ，8 4 ，45 ( 4 8 0 分辨率条件下的彩色视频图像( 2 4 6 i u 像素) ，其总数据量约为7 3 7 m b i t 帧，如果足连续运动的视频图像，假设以每秒3 0 帧或者2 5 帧的速度播放，那么视频信号传输速率为2 2 0 m b i t s ：如粜把这种信号存放在6 5 0 m b 的光盘中，一张光盘只能播放加多秒钟。这么大的数据量无疑给存储器容量、通信干线的信道传输率以及计算机速度都增加了极大的压力。这个问题一直是多媒体技术发展中的一个非常棘手的瓶颈问题。解决这个问题，数据压缩技术是个行之有效的方法。所以，必须对数字化信息进行压缩，用尽可能少的数据柬表达信息，实现快速的编解码算法，节省传输和存储的开销。人们研究发现，图像数据表示叶1 存在大量的冗余。通过去除那些冗余数据可以使原始图像数据极大的减少，从而解决图像数据量巨大的问题。冈此，进行图像压缩研究的起点就是研究如阿去除图像数的冗余性来减少剧像数据量的与法。空间冗余这是静态图像存在的最主要的一种数据冗余。一幅网像记录了画面上可见景物的颜色，同一景物表面上各采样点的颜色之间往往存在着空间连贯性，但是基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种空间连贯性，从而产生了空问，l 余。可以通过改变物体表而颜色的像索存储方式来利用空间连贯性，达到减少数据量的目的。例如，在静态图像中有一块表面颜色均匀的区域，在此区域中所有点的光强和色彩以及饱和度都是相同的。因此数据有匀的区域，在此区域中所有点的光强和色彩以及饱和度部是辑| 同的。因此数据有很大的空间冗余。浙江大学硕十学位论文基丁h 2 6 4 标准的运动估计算法的研究时| 、日j 冗余这是序列图像( 电视图像、运动图像) 表示中经常包含的冗余。序列图像一般位于一对问轴区间内的一组连续画面，其中的相邻帧往往包含相同的背景和移动物体，只不过移动物体所在的空间位置略微不同，所以后一帧数据与前一帧的数据有许多共同的地方，这种共同性是由于相邻帧记录了相邻时刻的同一场景画面，所以称为时间冗余。结构冗余有些图像的纹理区，图像的像素值存在着明显的分布模式。例如方格状的地板图案等。称为结构冗余。已知分布模式，可以通过某一过程生成图像。知识冗余有些图像的理解与某些基础知识有相当大的相关性。例如：人脸的图像有固定的结构。比如说嘴的上方有鼻子，鼻子上方有眼睛，鼻子位于脸的中线上等。这类规律性的结构可有先验知识和背景知识得到称此类冗余为知识冗余。根据已有的知识，对某些图像中所包含的物体，可以构造其基本模型，并创建对应各种特征的图像库，进而图像的存储只需要保存一些特征参数，从而可以大大减少数据量。知识冗余是模型编码主要利用的特征。视觉冗余事实表明，人类的视觉系统对图像场的敏感性是非均匀的和非线性的。然而，在记录的原始图像数据时，通常假设视觉系统是线性的和均匀的，对视觉敏感和不敏感的部分同等对待，从而产生了理想编码( 即把视觉敏感和不敏感的部分区分开来编码、更多的数据，这就是视觉冗余。通过了对人类视觉进行大量的实验，发现了以下的视觉非均匀性： 1 视觉系统对图像的亮度和色彩度的敏感性相差很火。当把r g b 颜色空问转化为n t s c 制的y i q 坐标系后，经试验发现，视觉系统对亮度y 的敏感度远远高于对色彩度( i 和0 1 的敏感度，因此对色彩度( i 和0 1 允许的误差可大于对亮度 y 所允许的误差。 2 随着亮度的增加，视觉系统对量化误差的敏感度降低。这是由于人眼的辨别能力与物体周围的背景亮度成反比。由此说明：在高亮度区间，灰度值的量化可以更粗糙些。 3 人眼的视觉系统把图像的边缘和非边缘区域分开来处理。这是将图像分成非边缘区域和边缘区域分别进行编码的主要依据。这里的边缘是指灰度值发生剧烈变化的地方，而非边缘区域是指除去边缘之外的图像其他任何部分。 4 人类的视觉系统总是把视网膜上的图像分解成若干个空间方向的频道通道后再进一步处理。在编码时，若把图像分解成符合这一一视觉内在的特性的频率通道，则可能获得较大的压缩比。以后提到的小波编码就是在一定的程度上利用了 6 浙江大学硕士学位论文基于h 2 6 4 标准的运动估吐篁鲨塑塑窒这一特征。图像区域的相同冗余它是指在图像中的两个或多个区域所对应的所有像素相同的或相近而产生的数据重复性存储，这就是图像区域的相似性冗余。在以上情况下，记录了一个区域中的各像素的颜色值，则与其相同或相近的其他区域就不再记录其中的各像素的值。向量量化( v e c t o rq u a n t i z a t i o n ) 方法就是针对这种冗余性的图像压缩方法。纹理的统计冗余有些图像的纹理尽管不严格服从某一分布规律，但是它在统计的意义上服从该规律。利用这种性质也可以减少表示图像的数据量，所以称之为纹理的统计冗余。随着对人类视觉系统模型和图像模型的进一步研究，人们可能会发现更多的冗余性，使图像数据压缩编码的可能性越来越大，从而推动图像压缩技术的进一步发展。 2 2 视频图像压缩编码标准近年来，一系列国际视频压缩编码标准的制定极大的促进了视频压缩编码技术和多媒体通信技术的发展。视频压缩编码标准的制定主要是由国际标准化组织 ( i n t e r n a t i o n a l s t a n d a r d i z a t i o n o r g a n i z a t i o n ，简称i s 0 1 和国际电信联盟 f i n t e m a t i o n a l t el e c o m m u n i c a t i o n u n i o n ，简称i t t 0 完成的。由l t u 组织制定的标准主要针对实时视频通讯的应用，如视频会议和可视电话等，他们以h 2 6 x 命名 ( 如h 2 6 1 ”，h 2 6 3 1 3 】和h 2 6l 【4 】1 ：而由i s o 和i e c ( i n t e m a t i o n a le l e c t r o t e 曲n i c a l c o m m i s s i o n ，国际电工委员会1 的共同委员会中的m p e g 组织( m o v i n gp i c t u r e e x p e r tg r o u p ) $ 1 j 定的标准主要针对视频数据的存储( 如d v d ) 、广播电视和视频流的网路传输的应用，他们以m p e g x 命名f 如m p e g 1 【5 1 ，m p e g 一2 f 6 l m p e g 4 7 】， m p e g - 7 等) 。各种视频压缩标准都是根据人们在不同领域中对声像数据的要求制定的，并随着人们的需求不断的发展。f 面分别来介绍m p e g x 系列标准和 h 2 6 x 系列标准： 2 2 1m p e g 系列压缩标准 m p e g 压缩技术已是目前视频压缩的重要技术之。它解决了以往硬盘容量有限及计算机总线瓶颈效应，因而扩大了多媒体应用空问的自由度及灵活度。它开拓了很多不同的数字影像应用，v c d 节目制作就是运用了m p e g 压缩技术。 v c d 盘上存储的影视图像和声音是采用m p e g 算法压缩的数字信息，并按 m p e g 的格式交错存放在v c d 盘上。m p e g 的任务是开发运动图像及其声音的 7 浙江大学硕十学位论文基于h 2 6 4 标准的运动估计算法! ! ! ! 塞数字编码标准。专家组最初的任务有三个：实现1 5 m b s 、1 0 m b s 、4 0 m b s 的压缩编码标准，即m p e g 1 、m p e g 一2 、m p e g - 3 。但因为m p e g 一2 的功能已使 m p e g ，3 为多余，所m 以m p e g 3 于1 9 9 2 年撤消。m p e g 一4 项目是1 9 9 1 年5 月建议并于1 9 9 3 年7 月确认。到现在为止，m p e g 公布的标准有：m p e g 一1 标准：1 9 9 3 年8 月公布。用于传输1 5 m b s 数据传输率的数字存储媒体运动图像及其伴音的编码；m p e g 2 标准：1 9 9 4 年1 1 月公布。其全称为：“运动图像及其伴音的编码”，主要针对高清晰度电视( h d t v ) 所需要的视频及伴音信号，传输速率为1 0 m b p s ，与m p e g 一1 兼容，适用于1 5 m b p s 6 0 m b p s 甚至更高的编码范围；m p e g 4 标准：2 0 0 2 年l o 月公布。浚标准的目标为：支持多种多媒体应用( 主要偶重于多媒体信息内容的访问) ，可根据应用的不同要求现场配置辫码器。露前，m p e g 将研究重点转向了交互性更加高级的形式，在未来的几年罩，技术的发展将使这种高级形式成为可能。面向数字存储的运动图像及其伴音的编码标准m p e g - 1 m p e g 1 标准完成的基本任务就是质量适当的图像( 包括伴音) 数据必须成为计算机数据的一种，和已有的数据( 如文字、绘图等数据) 在计算机内兼容，并且这些数据必须在现有的计算机网络和广播电视等通信网络中兼容传输。 m p e g 一1 标准有3 个组成部分：m p e g 视频、m p e g 音频、m p e g 系统。所以 m p e g 涉及的问题是视频压缩、音频压缩及多种压缩数据流的复合和同步问题。 m p e g 一1 标准是适用于传输1 5 m b p s 数据传输率的数字存储媒体动力图像及其伴音的编码标准，可以处理各种类型的活动图像，其基本算法对于压缩水平方向 3 6 0 个象素、竖直方向2 8 8 个象索的空间分辨力每秒2 4 至3 0 幅顽面的运动图像有很好的效果。与j p e g 不同，它没有定义产生合法数据流所需的详细算法，而是在编码器设计中提供了大量的灵活性，另外定义已编码位流和解码器的一系列参数都包含在位流本身当中，这些特点允许算法可以用于不同大小和宽度比的图像，也可以用在工作速率范围很大的信道和设备上。广播系统压缩编码标准m p e g - 2 m p e g - 2 标准分为八个部分，统称为i s o i e c l 3 1 8 国际标准。第部分：系统，描述多个视频，音频和数据基本码流合成传输玛流和节目码漉的方式；第二部分：视频，描述视频编码方法；第三部分：音频，描述与m p e g 一1 音频标准反向兼容的音频编码方法；第四部分：符合测试，描述测试一个编码码流是否符合m p e g - 2 标准的第一、二、三部分的软件实现方法；第_ 五部分：数字存储器体一命令与控制，描述交互式多媒体网络中服务器与用户间的会话信令集；第六部分；非向后兼容的音频，规定不与m p e g 一1 音频反向兼容的多通道音频编码；第七部分；1 0 比特视频，现已停止；第八部分：实时接e l ，规定了传送码沆的实时接口。 8 塑堑奎堂堡主堂垡堡苎苎王旦：! 坚堡堡堕垩塑笪生簦鎏塑塑塞一 m p e g 2 视频编码标准是一个按等级划分的系列，按编码图像的分辨率分成 4 个“级”：低级( l l ：l o wl e v e l ) ，输入信号的像素为兀1 u r 6 0 1 格式的四分之一；主级( m l ：m a i nl e v e l ) ，输入信号的像素为i t u r 6 0 1 ；高级一1 4 4 0 ( h 1 4 l ： h i g h 1 4 4 0l e v e l ) 为4 ：3 模式电视高清晰度格式；高级( h l ：h i g hl e v e l ) 为1 6 ： 9 模式电视的高清晰度格式。按所使用的编码工具的集合分成5 个“类”：简单类( s p ：s i m p l ep r o f i l e ) ，只有基准帧i 和预测帧p ：主类( m p ：m a i np r o f i l e ) ，比s p 增加了双向推测帧b ；信杂比分层类( s n r p ：s n rs c a l a b l ep r o f i l e ) ；空i 训可分层类( s s p ：s p a t i a ls c a l a b l e p r o f i l e ) ；高类( h p ：hj i g h p r o f i l e ) 。“级”与“类” 的若干组合构成m p e g 2 视频编码标准在某种特定应用下的子集。对某一输入格式的图像，采用特定集合的压缩编码工具，产生规定速率范围内的编码码流。 m p e g 一2 的编码码流分为6 个层次。从上至下依次为：视频序列层( s e q u e n c e ) ；图像组层( g o p ：g r o u p o f p i c t u r e ) ；图像层( p i c t u r e ) ；像条层( s l i c e ) 宏块层 ( m a c r o b l o c k ) 和像块层( b l o c k ) 。基于对象的低码率视频压缩编码标准m p e g 4 m p e g 一4 标准的目标是：支持多种多媒体应用( 主要侧重于对多媒体信息内容的访问) ，可根据应用的不同要求现场配置解码器。m p e g 4 旨在为视( 音) 频数据的通信、存取与管理提供一个灵活的框架与一套开放的编码工具。在m p e g 一4 图像与视频标准中，视频表示工具的目标，是为多媒体环境下的纹理、图像和视频数据的有效存储、传输及管理提供标准化的核心技术。尤其强调这些工具对图像和视频内容的原子单元( 称为视频对象v o ) 的编解码能力。对任意形状的视频对象进行有效的表示，以支持所谓基于内容的功能集。而此功能集支持内容( 即场景中的物理对象v o ) 的单独编码和解码，这一特性为交互性提供了有力的底层机制支持，也为在压缩域对图像或视频的v o 内容进行灵活的表示和管理提供了有利条件。m p e g 一4 图像与视频标准统一支持传统矩形和任意形状图像与视频的编解码。对于基于内容的应用，输入的图像序列可能具有任意形状和位置。形状可以用8 位透明分量表示( 一个v o 由多个其它对象构成时) 或用一个二值掩模描述。另外，通过对场景中每个物理采用适当的和精细的基于对象的运动预测工具，可以大大提高某些视频序列的压缩比。对于m p e g 4 扩展的基于内容的编码可视为传统的v l b v 内核或h b v 工具由矩形输入向任意形状输入的逻辑延伸。从这个意义上，基于内容的编码是v l b v 和h b v 内核的超集。 m p e g - 4 标准在原有的基础上增加了七个新的功能。增加的各个功能的特点：( 1 ) 基于内容的操作与比特流编辑支持无需编码就可进行基于内容的操作与比特流编辑。( 2 ) 自然与合成数据混合编码。提供将自然视频图像同合成数据( 文本、图形) 有效结合的方式，同时支持交互性操作。( 3 ) 增强的时间域随机存取。 9 塑婆奎兰堡堂笪堡苎垄王坚：! 竺堡堡盟堕垫堕生簦鎏塑婴塞一一一 m p e g 4 将提供更有效的随机存取方式：在有限的时间间隔内，可按帧或任意形状的对象，对一音、视频序列进行随机存取。( 4 ) 提高编码效率。在与现有的正在形成的标准的可比拟速率上，m p e g 4 标准将提供更好的主观视觉质量的图像。( 5 ) 对多个并发数据流的编码。m p e g 4 将提供对一景物的有效多视角编码，加上多伴音声道编码及有效的视听同步。在立体视频应用方面，m p e g 一4 将利用同一景物的多视点观察所造成的信息冗余，在足够的观察视点条件f 有效地描述三维自然景物。( 6 ) 错误易发环境中的抗错性“灵活多样”是指允许采用各种有线网和各种存储媒体，m p e g 4 将提高抗错误能力，尤其是在易发生严重错误环境下的低比特应用中( 移动通信链路) 。m p e g 一4 是第一个在其音、视频表示规范中考虑信道特性的标准，目的不是取代已由通信网提供的错误控制技术，而是提供一种对抗残留错误是紧韧性。( 7 ) 基于内容的尺度可变性。内容尺度可变性意味着给图像中的各个对象分配优先级。基于内容的尺度可变性是m p e g 4 的核心，因为一旦图像中所含对象的目录及相应的优先级确定后，其它的集内容的功能就比较容易实现了。对甚低比特率应用来说，尺度可变形成一个关键的因素，因为它提供了自适应可用资源的能力。以上七个新的功能可以归纳为三类：基于内容的交互性、高压缩率和灵活多样的存取模式。前三个功能为基于内容的交互性，四、五为高压缩率模式，最后两个为灵活多样的存取模式。媒体内容描述接口m p e g 7 m p e g 7 像m p e g 家族中其他成员一样，是针对满足特定需要的音、视频信息的标准化表述，m p e g 7 的描述符并不依赖于描述的内容是编码的或存储的方式，可以把m p e g 7 的描述说明附加到模拟制的电影罩或使用纸张打印出来的图片上。然而，尽管m p e g 一7 描述不依赖于所处理素材的( 编码) 表示方式，但由于在一定程度上它是在m p e g 4 的基础上发展起来的，而m p e g 4 采用了按照具有一定时间关系和空间关系的对象来进行音、视频编码的处理方式，因此用m p e g - 4 编码有可能把描述说明附加到场景中的成员( 对象) 。所以，m p e g 7 在描述中要提供不同的程度，才可能实现不同等级的识别。 2 2 2h 2 6 x 系列标准通常情况下，h 2 6 x 标准侧重于视频信息的数据压缩率，以适合调整该系统在特定位速率下传输，其主要应用目标是可视电话和会议电视。h 2 6 1 标准首次尝试综合数字压缩技术和网络技术实现数字图像实时传输，既可以在码率为 p + 6 4 k b i t s ( pl 致t - 3 0 ) 的i s d n ( i n t e g r a t e ds e r v i c e sd i g i t a ln e t w o r k ，综合业务数字网1 上实时传输声音和图像信息。h 2 6 3 标准是i t u t 于1 9 9 5 年制定的一种码率低 1 0 浙江大学硕士学位论文基于h 2 6 4 标准的运动估修算婆的矽堕于6 4 k b i t s 的甚低码率视压缩标准。h 2 6 3 标准不仅着眼于利用p s t n ( p u b l i c s w i t c h e dt e l e p h o n en e t w o r k ，公共开关电话网络) 传输，而且兼顾g s t n ( g e n e r a l s w i t c ht e l e c o m m u n i c a t i o nn e t w o r k ) 移动通信等无线业务。为了进一步改善图像质量，提高压缩比，h 2 6 3 在h 2 6 1 的基础上作了很多改进，如用半像素精度预测取代了全像素预测和环路滤波器，不受限运动矢量，先进预测模式，p b 帧模式，用基于语法的算术编码代替霍夫曼编码等。h 2 6 l 作为面向电视电话、电视会议的新一代编码方式，与h 2 6 3 的原有方式相比，它叮获得两倍以上的编码功能，也就是仅用一半的编码码字就能得到同样清晰的画面。 h 2 6 1 标准描述 h 2 6 1 是r r u t 为在综合业务数字网f l s d n ) 上开展双向声像业务( 呵视电话、视频会议) 而制定的，速率为6 4 k b p s 的整数倍。h 2 6 1 只对c i f 和q c i f 两种图像格式进行处理，每帧图像分成图像层、宏块组( g o b ) 层、宏块( m b ) 层、块( b l o c k ) 层来处理。h 2 6 1 是最早的运动图像编码标准，它详细制定了视频编码的各个部分，包括运动补偿的帧间预测、d c t 变换、量化、熵编码，以及与固定速率的信道相适配的速率控制等部分。 h 2 6 3 标准 h 2 6 3 是r r u t 为低于6 4 k b p s 的窄带通信信道制定的视频编码标准。它是在h 2 6 1 基础上发展起来的，其标准输入图像格式可以是s q c i f 、q c i f 、c i f 、 4 c i f 或者1 6 c i f 的彩色4 ：2 ：0 亚取样图像。h 2 6 3 与h 2 6 1 相比采用了半像素的运动补偿，并增加了4 种有效的压缩编码模式。无限制的运动矢量模式允许运动矢量指向图像以外的区域。当某一运动矢量所指的参考宏块位于编码图像之外时，就用其边缘的图像像素值来代替。当存在跨边界的运动时，这种模式能取得很大的编码增益，特别是对小图像而言。另外，这种模式包括了运动矢量范围的扩展，允许使用更大的运动矢量，这对摄像机运动特别有利。基于句法的算术编码模式使用算术编码代替霍夫曼编码，可在信噪比和重建图像质量相同的情况下降低码率。先进的预测模式允许一个宏块中4 个8 8 亮度块各对应一个运动矢量，从而提高了预测精度；两个色度块的运动矢量则取这 4 个亮度块运动矢量的平均值。补偿时，使用重叠的块运动补偿，8 x 8 亮度块的每个像素的补偿值由3 个预测值加权平均得到。使用该模式可以产生显著的编码增益，特别是采用重叠的块运动补偿，会减少块效应，提高主观质量。 h 2 6 3 标准版本2 r r u t 在h 2 6 3 发布后又修订发布了h 2 6 3 标准的版本2 ，非正式地命名为 h 2 6 3 + 标准。它在保证原h 2 6 3 标准核心句法和语义不变的基础上，增加了若干选项以提高编码效率或改善某方面的功能。原h 2 6 3 标准限制了其应用的图像浙江大学硕+ 学位论文基于h 2 6 4 标准的运动估计算法的研究输入格式，仅允许5 种视频源格式。h 2 6 3 + 标准允许更大范围的图像输入格式，自定义图像的尺寸，从而拓宽了标准使用的范围，使之可以处理基于视窗的计算机图像、更高帧频的图像序列及宽屏图像。目前，h 2 6 1 与h 2 6 3 在视频通信中广泛应用，成熟的产品已经很多。h 2 6 4 标准的推出，是视频编码标准的一次重要进步，它与现有的m p e g - 2 、m p e g 一4s p 及h 2 6 3 相比，具有明显的优越性。尽管h 2 6 4 的算法复杂度是现有编码标准的 4 倍以上，但随着集成电路技术的快速发展，h 2 6 4 的应用将成为现实。为提高编码效率，h 2 6 3 + 采用先进的帧内编码模式；增强的p b 帧模式改进了h 2 6 3 的不足，增强了帧问预测的效果；去块效应滤波器不仅提高了编码效率，而且提供重建图像的主观质量。为适应网络传输，h 2 6 3 + 增加了时间分级、信噪比和空间分级，对在噪声信道和存在大量包丢失的网络中传送视频信号很有意义；另外，片结构模式、参考帧选择模式增强了视频传输的抗误码能力。 h 2 6 3 + + 标准 h 2 6 3 + + 在h 2 6 3 + 基础上增加了3 个选项，主要是为了增强码流在恶劣信道上的抗误码性能，同时为了提高增强编码效率。这3 个选项为：选项u 称为增强型参考帧选择，它能够提供增强的编码效率和信道错误再生能力( 特别是在包丢失的情形下) ，需要设计多缓冲区用于存贮多参考帧图像；选项v 称为数据分片，它能够提供增强型的抗误码能力( 特别是在传输过程中本地数据被破坏的情况下) ，通过分离视频码流中d c t 的系数头和运动矢量数据，采用可逆编码方式保护运动矢量：选项w 在h 2 6 3 + 的码流中增加补充信息，保证增强型的反向兼容性，附加信息包括指示采用的定点i d c t 、图像信息和信息类型、任意的二进制数据、文本、重复的图像头、交替的场指示、稀疏的参考帧识别。 h 2 6

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于h264标准的运动估计算法的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于h264标准的运动估计算法的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档