（通信与信息系统专业论文）基于h264的空间可分级编码算法研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：65 大小：3.03MB 积分：0 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

（通信与信息系统专业论文）基于h264的空间可分级编码算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大连理工大学硕士学位论文摘要近年来，随着编解码技术的进步，视频压缩与传输业务的应用领域不断扩大。对于不同应用场合，传统的视频编解码技术通常压缩率是不变的，这就造成视频信息传输困难，并且传输质量很不稳定。因此，迫切需要一种能够同时适用于各种应用环境的可分级编解码技术。为了满足对可分级编解码的需求，某些传统的视频编码标准( 如m p e g 4 ) 虽进行了适度的可分级扩展，但实际使用的结果表明这些标准仍无法提供满意的可分级性能。 h 2 6 4 标准是一种经典的视频编解码标准，其中各种高效的编解码方法使h 2 6 4 标准具有良好的压缩效率，越来越多的视频已经或即将采用h 2 6 4 a v c 编码标准。基于高性能可分级编解码系统的需求，2 0 0 4 年l o 月，m p e g 组织决定以h 2 6 4 标准为起点制订新一代的可分级编解码标准。2 0 0 5 年1 月，m p e g 组织和v c e g 组织同意把可分级编解码标准作为现有h 2 6 4 标准的扩展和修正。目前，移动视频已经成为一种发展潮流。移动视频会议和视频监控等功能已经初具雏形，这些多媒体服务无疑会带来庞大的数据量。可分级编码的良好性能在这种情况下可以得到更好的发挥，因此可分级编码将有一个良好的发展前景。在可分级编码类型中，空间可分级架构是所有可分级的基础，本论文主要围绕h 2 6 4 空间可分级算法展开。本文首先对视频编码技术及国际编码标准进行了简单回顾，重点对h 2 6 4 中的关键技术进行了分析。然后对h 2 6 4 可分级技术进行介绍，重点对空间可分级的层间预测机制进行研究，并以一些实验数据分别对帧内和帧间编码时层间预测的性能进行了研究。最后，本文给出了一种依据基本层运动特性和变换编码系数等信息对宏块编码模式进行改进的算法。实验结果表明，本文算法可以在编码性能几乎没有损失的情况下，编码时间平均减少6 4 ，并且具有较好的适应性。关键词：h 2 6 4 a v c ；视频编码；空间；可分级；层间预测 r e s e a r c ho ns p a t i a ls c a l a b l ev i d e oc o d i n gb a s e do nh 2 6 4 a b s t r a c t r e c e n t l y ，w i t ht h ed e v e l o p m e n t o fc o d i n gt e c h n i q u e s ，a p p l i c a t i o n so fv i d e oc o m p r e s s i o n a n dt r a n s m i s s i o nb e c o m ew i d e ra n dw i d e r d i f f e r e n tc o m p r e s s i o na n dt r a n s m i s s i o ns y s t e m s h a v et ob ec o n s t r u c t e df o ru s e r si nd i f f e r e n tc o n d i t i o n si ft h e ya r eb u i l to nt h eb a s eo f t r a d i t i o n a ln o n s c a l a b l ev i d e oe n c o d i n gt e c h n i q u e s w i t ht h em a n i f o l do fv i d e oa p p l i c a t i o n ， t h er e b u i l to fc o m p r e s s i o na n dt r a n s m i s s i o ns y s t e m si sah u g ew a s t eo fr e s o u r c e t h e r e f o r e s c a l a b l ev i d e oc o d i n gt e c h n i q u e sa r ed e s i r e df o rc o p i n gw i t hd i f f e r e n ta p p l i c a t i o n f o rt h en e e do fs c a l a b l ev i d e oc o d i n g ，s o m eo fp r i o rv i d e oc o d i n gs t a n d a r dh a sa l r e a d y i n c l u d es o m e w h a ts c a l a b i l i t y b u ti t sp e r f o r m a n c et u r no u tt ob ed i s c o n t e n t e d h 2 6 4i sa c l a s s i c a lv i d e oc o d i n gs t a n d a r d ，s e v e r a lc o d i n gt e c h n i q u e se n a b l ei t ag o o dp e r f o r m a n c e m o r ea n dm o r ev i d e oh a sb e e no rw i l lb ec o d ei nh 2 6 4v i d e oc o d i n gs t a n d a r d t om e e tt h e n e e do fh i g hp e r f o r m a n c es c a l a b l ev i d e oc o d i n g ，m p e gd e c i d e dt od r a wan e ws c a l a b l ev i d e o c o d i n gs t a n d a r db a s e do nh 2 6 4o no c t 2 0 0 4 m p e ga n dv c e ga g r e e dt om a d es c a l a b l e v i d e oc o d i n gs t a n d a r da ne x t e n s i o no fh 2 6 4o nj a n 2 0 0 5 n o w ，m o b i l ev i d e oh a sb e c o m eaf a s h i o n v i d e oc o n f e r e n c i n ga n dv i d e os u r v e i l l a n c e h a v ear u d i m e n t ，t h u sa l lt h a tm u l t i m e d i aw i l lb r i n gu pm a s s i v ed a t at h r o u g h p u t t h eg o o d p e r f o r m a n c eo fs c a l a b l ev i d e oc o d i n gw i l lh a v e ag o o df u t u r e a m o n go ft h et y p eo fs c a l a b l e v i d e oc o d i n g t h es p a t i a ls c a l a b l ev i d e oc o d i n gi st h eb a s eo ft h eo t h e r s i tm o t i v a t e du st o s t u d yo nt h es p a t i a ls c a l a b l ev i d e oc o d i n g t h i st h e s i sf i r s t p r o v i d e sa n o v e r v i e wo ft h ev i d e oc o d i n gt e c h n i q u e sa n dt h e i n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r d ，e s p e c i a l l yo nt h ek e yt e c h n i q u e so fh 2 6 4 t h e nw e a n a l y z et h es c a l a b l et e c h n i q u e so fh 2 6 4 ，e s p e c i a l l yf o rt h ei n t e r l a y e rp r e d i c t i o ni ns p a t i a l s c a l a b i l i t y s t u d i e si n t e ra n di n t r ai n t e r l a y e rp r e d i c t i o nw i t hd e t a i l e dp e r f o r m a n c es t a t i s t i c s ， a n dr e v e a l st h en e c e s s i t yo fo p t i m i z a t i o no fi n t e r l a y e rp r e d i c t i o n b a s e do nt h ea n a l y s i so f t h er e s u l t so fe x p e r i m e n t a t i o n ，f i n a l l y ，a no p t i m i z a t i o nm e t h o db a s e do nt h em o d eo ft h e m a c r o b l o c ki s p r o p o s e db ye x p l o i t i n g t h em o t i o n ，t h ec o e f f i c i e n tv a l u e so ft r a n s f o r m e x p e r i m e n t a lr e s u l t ss h o wt h a tw i t ht h en e g l i g i b l e l o s so ft h ee n c o d i n gp e r f o r m a n c e ，t h e p r o p o s e dm e t h o dc a nr e d u c et h ee n c o d i n gt i m e6 4 o na na v e r a g ea n d s h o w sag o o d a d a p t a b i l i t y k e yw o r d s ：h 2 6 4 a v c ：v i d e oc o d i n g ；s p a t i a l ：s c a l a b i l i t y ；i n t e r l a y e rp r e d i c t i o n 大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究工作所取得的成果。尽我所知，除文中已经注明引用内容和致谢的地方外，本论文不包含其他个人或集体已经发表的研究成果，也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处，本人愿意承担相关法律责任。学位论文题目：基王望：! 垒鲍空闻互佥熟缉璺篡洼珏究作者签名：一垂蟊杰垦日期：! 扯年l 月l 日大连理工大学硕士研究生学位论文大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定，在校攻读学位期间论文工作的知识产权属于大连理工大学，允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版，可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。作者签名：耋氢盐剥醛各耳幽电日期：丑年- l 月上日日期：单年上月旦日大连理工大学硕士学位论文绪论 11 应用背景随着计算机网络、通讯和消费电子等相关领域内技术的日新月异以及消费市场的迅猛扩大，多媒体服务尤其是以视频内容为核心的流媒体服务开始成为最具潜力的增值服务之一，给我们的日常工作和生活带来深远的影响。专家预言，未来的流媒体将不再受时间和空间的限制，并成为未来网络和通讯上应用的主流。图11 t 。1 展示了基于流媒体技术的通讯和服务的广泛应用和发展前景。它们涉及到视频电话会泌、1 p t v ( 互联网络电视) 、手机电视、娱乐和教育等特定应用。圈il 多媒体的广堙应用 f i gl 】e x t e n s i v ea p p l i c a t i o no f m u l t i m e d i a 在传输网络和终端设各上提供有效可靠的流媒体服务成为业界和用广关注的焦点。目前和将来可以预见的流媒体应用环境正变得越来越复杂：刚络异构化、终端设备多样化、服务提供商政荒灵括化和用户需求个性化比以前任何时候都变得突出列络的异构化表现在流媒体服务器到用户终端设备z 间的各个通信子网的处理能力、带宽、 q o s , q u a l i t yo fs e r v i c e ) 和捌塞控制策略等网络资源分打】不平均，并且随着时目发牛变基于h 2 6 4 的空间可分级编码算法研究化，无法给出一致的网络描述，给视频流的传输和编码带来了挑战。此外，视频的传输要求带宽应满足一定的条件，而同样的网络在不同时间呈现出不同的带宽和拥塞状况，而当带宽低于视频流的最低码率时，流媒体播放将受到影响，甚至无法观看视频图像。终端设备异构性表现在用户的流媒体终端设备在c p u 速度、内存大小、缓冲区大小、网络接口能力、屏幕显示尺寸和颜色深度等参数上各不相同。服务提供商政策灵活化和用户需求个性化则表现了流媒体服务提供商和用户之间的互动关系。用户可以根据自己的网络情况、接收设备能力和经济承受能力等选取服务提供商提供的不同质量( 这里的质量指空间分辨率、帧率、码率和清晰度等综合视觉效果) 的节目，而服务提供商对不同质量的节目收取不同的服务费用【i 】。然而在编码时，编码器无法预知传输网络状态和终端设备能力，更无法预知服务商和用户之间的互动关系，因此要求视频编码器能够实现对特定视频传输需求做出自适应性调整或伸缩性编码，使得编码后的码流可以灵活地适应不同网络用户的需求。此种特性对于多媒体传输非常重要并十分具有吸引力，特别是在编码前不知道终端的具体情况时尤其如此。由此，对可分级视频编码技术的研究具有重要的意义。 1 2 可分级编码现状和研究背景可分级性( s c a l a b i l i t y ) ，也称作可分层性、可伸缩性。所谓可分级视频编码( s c a l a b l e v i d e oc o d i n g ，s v c ) 技术要求视频编解码器在比特流级别具有以下可分级特性：通过简单的丢包或截断码流等操作提取出的子码流具有较低的空间一时间分辨率和或较低的码率( 对应于较低的视频质量) ，同时任何可能的子码流的编码效率应该与相应的非可分级视频编解码器相当l z j 。当前，美、德等国的多个视频专家组正在对可分级视频编码进行深入的研究。多家世界顶级的流媒体研究所提出了2 0 多个s v c 实现框架，其中包括h h i ( 德国h e i n r i c h h e r t zi n s t i t u t e ) ，m s r a ( 微软亚洲研究院) ，u n s w ( 澳大利亚新南威尔士大学) 等多家世界项级的流媒体研究所i 引。 s v c 的总体目标是将是构建一个新的编码方案，以便更好地向异构网络上的客户可靠地发布视频，特别是在下行客户端能力、系统资源和网络状态事先不可知的情形下可靠有效地发布视频。例如客户终端设备可能有不同的显示分辨率、系统缓冲区或者临时交换存储空间，网络可能有不同的带宽及波动、丢包率和q o s 能力一j 。在联合视频组( j o i n tv i d e ot e a m ，j v t ) 接受到的所有提案中可以归纳发现，实现可分级视频编码主要有两类架构，一类是基于小波进行分级的方案，一类是是基于h 2 6 4 大连理工大学硕士学位论文进行分级的方案。然而h h i 提出的基于h 2 6 4 分级的方案在后向兼容性、实现复杂度和编码效率等方面更胜一筹。 h 2 6 4 分级的方案是在目前h 2 6 4 视频编码标准的基础上，通过扩展和增加分级的功能( 包含时间分级，空间分级，质量分级等) 来实现s v c 的需求和目标。由于h 2 6 4 标准自身优良的编码性能和开放结构，h 2 6 4 分级既保留和兼容了h 2 6 4 标准的高效，又增加了时间、空间和质量等分级功能，使得其被j v t 定位为s v c 标准化的基础和起点。当前，国际上对视频编码技术的研究热点逐渐集中于在h 2 6 4 a v c 基础上实现 s v c 。2 0 0 5 年1 月，国际标准化组织( i n t e r n a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o n ，i s o ) 的活动图像专家组( m o v i n gp i c t u r ee x p e r tg r o u p ，m p e g ) 和i t u t 的视频编码专家组 ( v i d e oc o d ee x p e r tg r o u p ，v c e g ) ，同意联合起来将s v c 作为h 2 6 4 a v c 的扩展集，并由t 提出草案，收录为h 2 6 4 a v c 的a n n e xg 。此后，每次t 的会议都围绕着 s v c 技术对草案进行修订和完善。在2 0 0 8 年7 月的j v t 会议上，提出了h 2 6 4 a v c 可分级扩展集的第1 4 版草案【5 j 。 1 。3 本文的主要工作及内容安排由于整个s v c 的体系结构是以空间分级为基础构建的，因此本文主要对空间可分级性进行研究。 h 2 6 4 可分级扩展方案在保持较高压缩效率的同时，提供了灵活的可分级模式，满足了实际应用中对可分级系统的需求。草案的参考代码在实现空间可分级性时，编码器采用穷举r d o 判决的方式编码。这种编码方式虽然具有较高的编码性能，但编码速度极其缓慢，这必将影响s v c 在实际中的应用。基于对参考编码器编码过程和结果的统计和分析，本文致力于提出一种空间可分级的基于层间预测的快速编码算法。具体内容安排为：绪论分析了可分级编码技术的应用背景、研究发展现状及研究目的。第二章介绍了视频压缩的可行性及编码采用的主要技术，并回顾了主要的视频编码标准。第三章介绍了h 2 6 4 及其可分级视频编解码中的关键技术。第四章主要介绍了空间可分级的实现方法，并对层间预测的性能进行了实验性的分析比较。第五章提出并实现了一种层间预测的快速预测模式选择方法，并结合参考软件对其性能进行了对比分析。基于h 2 6 4 的空间可分级编码算法研究第六章对全文工作进行了总结，并针对下一步研究工作做出了初步设想。大连理工大学硕士学位论文 2 视频编解码技术 2 1视频编解码的依据 2 1 1 视频信息及特点利用人的视觉获取的信息称为视觉信息，它具有直观性、准确性、高效性和广泛性等特点。视觉信息包含的内容最为丰富，能够给人们以直观、准确和生动的形象，是人类获取外界信息最直接和最重要的方式之一，人类通过视觉所获得的信息占全部信息的 7 0 以上。如何能够实现通信中的视频信息传输一直是人们孜孜追求的目标。人们越来越希望无论何时何地都能够方便、快捷、灵活地通过图像、语音、数据等多种方式进行通信，而其中的难点就是如何通过通信网络获得连续的视频信息。视频信息的表示形式是视频信号，通常为视频的电信号。视频信号所包含的信息量大，一般而言，视频信号信息量大，传输网络所需要的带宽相对较宽。例如，一路可视电话或视频会议信号，由于其活动内容较少，所需带宽较窄，但要达到良好质量，不压缩约需若干m b p s ，压缩后需要3 8 4 k b p s ；又如，一路高清晰度电视信号( h d t v ) ，由于其信息量相当巨大，不压缩需1 g b p s ，利用m p e g 2 压缩后，尚需2 0 m b p s 。可见，视频信息虽然具有直观性、确定性、高效性等优越性能，但要传送包含视频信息的信号却需要较高的网络带宽。这就是为获得视频信息所需付出的代价。 2 1 2 视频压缩的可行性及要求人们研究发现，图像数据表示中存在大量的冗余。通过去除这些冗余数据可以使原始图像数据极大的减少，从而解决图像数据量巨大的问题。因此，进行图像压缩研究的起点就是研究如何去除图像数的冗余性【6 】来减少图像数据量的方法。 ( 1 ) 空间冗余空间冗余【_ 7 j 是存在于同一幅图像中的。它是静态图像存在的最主要的一种数据冗余。一幅图像记录了画面上可见景物的颜色，同一景物表面上各采样点的颜色之间往往存在着空间连贯性，但是基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种空间连贯性，从而产生了空间冗余。可以通过改变物体表面颜色的像素存储方式来利用空间连贯性，达到减少数据量的目的。例如，在静态图像中有一块表面颜色均匀的区域，在此区域中所有点的光强和色彩以及饱和度都是相同的。因此数据有很大的空间冗余。 ( 2 ) 时间冗余基于h 2 6 4 的空间可分级编码算法研究时间冗余是存在于连续图像之间的。它是多媒体视频信息中，即序列图像( 电视图像、运动图像) 表示中通常包含的冗余。序列图像一般位于一时间轴区间内的一组连续画面，其中的相邻帧往往包含相同的背景和移动物体，只不过移动物体所在的空间位置略微不同，所以后一帧数据与前一帧的数据有许多共同的地方，这种共同性是由于相邻帧记录了相邻时刻的同一场景画面，所以称为时间冗余。 ( 3 ) 视觉冗余事实表明，人类的视觉系统对图像的场敏感性是非均匀的和非线性的。然而，在记录的原始图像数据时，通常假设视觉系统是线性的和均匀的，对视觉敏感和不敏感的部分同等对待，从而产生了理想编码( 即把视觉敏感和不敏感的部分区分开来编码) 更多的数据，这就是视觉冗余。通过了对人类视觉进行大量的实验，发现了以下的视觉非均匀性：视觉系统对图像的亮度和色彩度的敏感性相差很大。当把r g b 颜色空间转化为 n t s c 制的y i q 坐标系后，经试验发现，视觉系统对亮度y 的敏感度远远高于对色彩度( i 和q ) 的敏感度，因此对色彩度( i 和q ) 允许的误差可大于对亮度y 所允许的误差。随着亮度的增加，视觉系统对量化误差的敏感度降低。这是由于人眼的辨别能力与物体周围的背景亮度成反比。人眼的视觉系统把图像的边缘和非边缘区域分开来处理。这是将图像分成非边缘区域和边缘区域分别进行编码的主要依据。这里的边缘是指灰度值发生剧烈变化的地方，而非边缘区域是指除去边缘之外的图像其他任何部分。人类的视觉系统总是把视网膜上的图像分解成若干个空间方向的视频流后再进一步处理。在编码时，若把图像分解成符合这一视觉内在的特性的视频流，则可能获得较大的压缩比。上述主要的三种冗余为视频压缩提供了理论上的可行性，但在实际的视频压缩编码中还有以下三个方面要求【8 j ： ( 1 ) 必须压缩在一定的带宽内，即视频编码器应具有足够的压缩比； ( 2 ) 视频信号压缩之后，应保持一定的视频质量。评价视频质量标准见下小节。 ( 3 ) 视频编解码器的实现应力求简单、易实现、成本低、可靠性高。 2 1 3 本文涉及到的几个问题 ( 1 ) 彩色空间所谓彩色空间即表示彩色图像的亮度与色度的方法。众所周知，任何彩色图像可由不同七l i , - 例的红色、绿色和蓝色组合而成，即三基色原理。这种表示彩色图像的方法即大连理工大学硕士学位论文 r g b 彩色空间。人类视觉系统( h d v ) 对亮度比彩色更敏感，因此可以把亮度信息从彩色信息分离出来，并使之具有更高的清晰度，而把彩色信息的清晰度较低些，这样可显著压缩带宽，而人的感觉却没有不同。如果亮度分量用】，表示，色度用c 6 ，d 表示，则由大量实验得出 y = 0 2 9 9 r + 0 5 8 7 g - i - 0 1 4 4 b c b = 0 5 6 4 x ( b 一】，) c r = 0 7 1 3 ( r 一】，) 相反，可由下式计算相应的尺、g 、b r = y + 1 4 0 2 c r g = y 一0 3 4 4 c b 一0 7 1 4 c r b = y + 1 7 7 2 c b ( 2 1 ) ( 2 2 ) ( 2 3 ) ( 2 4 ) ( 2 5 ) ( 2 6 ) ( 2 ) 数字视频采样格式主要有三种不同的彩色电视取样格式，如图2 1 所示。 4 ：4 ：4 ，y 、c b 和c r 具有同样的水平和垂直清晰度，在每一像素位置，都有y 、 c b 和c r 分量，即不论水平方向还是垂直方向，每4 个亮度像素相应的有4 个c b 和4 个c r 色度像素。 ( a ) 4 ：4 ：4 取样 9 孕孕国 o yo c r ( b ) 4 ：2 ：2 取样( c ) 4 ：2 ：0 取样 qo 嗡o o o o q qo 嗡o o o o o o o 嗡o 嗡o o 。oo 。oo 。o 一一嗡嗡嗡 qoqo o 。oo 。oo 。o o o o o o o c bo o o o o o 图2 1 数字视频取样格式 f i g 2 1s a m p l ef o r m a to fd i g i t a lv i d e o 基于h 2 6 4 的空问可分级编码算法研究 4 ：2 ：2 ，这时彩色分量和亮度分量具有同样的垂直清晰度，但水平清晰度彩色分量是亮度分量的一半。水平方向上，每4 个亮度像素具有2 个c b 和2 个c r 。 4 ：2 ：0 ，c b 和c r 水平和垂直清晰度都是y 的一半。4 ：2 ：0 的彩电取样格式广泛应用于数字电视、视频会议、d v d 等。因为三种格式中，4 ：2 ：0 的彩色分量最少，对人彩色感觉而言与其它两种类似，最适合数字压缩。 ( 3 ) 视频质量的评价对压缩后视频质量的评价是一件困难的工作。大体上，有主观视频质量评定和客观视频质量评定两种估计方法【9 】。主观质量的评定由于个人的视觉系统不尽相同，对视频内容的熟悉程度也不一样。为了减少主观随意性，在对视频图像主观评定前，选若干名专家和“非专家”作为评分委员，用随机次序请评委观察比较原始图像和压缩编码的图像。利用五项或七项评分法对同一种视频图像进行压缩编码构图像评定。最后按加权平均法则对该压缩后的图像质量进行主观评定，如表2 1 所示。表2 1 主观评价分数标准 t a b 2 1 s t a n d a r do fs u b j e c t i v ee v a l u a t e 客观质量的评定主观的视频质量评分更接近人的真实视觉感受，但需耗费人力和时间，成本较高。客观质量的测定方法速度快、易实行，但往往不会太符合人眼的视觉感受，只能说大体上的质量。客观质量测定方法应致力于改进其测试标准和测试方法，使其符合人的视觉感受：大连理工大学硕士学位论文最常用的测试标准是峰值信号与噪声之比( p s n r ) ： p s n r 毋= 1 0 l o g l o ( 2 ”一1 ) 2 m s e ( 2 7 ) 其中m s e 为原始和编解码后图像之间的均方误差，( 2 ”一1 ) 2 为图像中最大可能的信号值平方，刀为表示每个像素的比特数。通常情况下，p s n r 愈高，视频质量愈好，反之愈差。但实际上有时因为感兴趣的区域不同而有所出入。 2 2 视频编解码的主要技术图像中存在大量的冗余信息，图像压缩的目的就是如何对图像进行处理，尽可能的降低图像冗余度。目前在数字视频编码领域常用的压缩方法有变换编码、预测编码、熵编码和运动估计几种【1 0 1 。图2 2 视频压缩编码框图 f i g 2 2 b l o c kd i a g r a mo fv i d e oe n c o d i n g 图2 2 是视频压缩编码基本框图，包含了常用的视频压缩方法。下面几小节中我们对图中的各种编码方法进行详细解释。 2 2 1变换编码在一幅视频图像中各个相邻像素点之间存在很大的相关性，在时间域难以进行有效的压缩。如果将图像通过有效的方法变换到频域，就会产生相关性较小的变换系数，大部分情况下高频系数大都接近为零。因为高频成分对图像质量影响不大，通过量化和编码可以丢弃这些系数从而达到压缩的目的。目前，用于图像的常见变换主要有k l 变换 ( k a r h u n e n l o e v et r a n s f o r m ) 、离散余弦变换( d i s c r e t ec o s i n et r a n s f o 咖，d c t l 和离散小基于h 2 6 4 的空间可分级编码算法研究波变换( d i s c r e t ew a v e l e tt r a n s f o r m ，d w t ) 1 1 1 】。前两种是基于块的，最后一种是基于图像的。在这三种变换编码方式当中，k l 变换能最有效的去除图像各个频率分量之间的相关性，效果最好。但由于其计算量庞大，在视频编码中未得到实际应用。具有有效的快速算法而性能接近于理想的d c t 变换被广泛应用于图像压缩领域。 d c t 变换的进行过程是在编码端将原始图像分割成许多子像块，对每一个像块进行 d c t 正交变换，生成频域中的系数阵，变换后的数据经过反变换可以恢复为原有数据，因此它是一种无损压缩方法。 2 2 2 量化编码一般而言，量化是模拟信号到数字信号的映射，而一旦获取到视频信号并数字化后，量化则是指由数字量到数字量的多对一映射。量化器所要完成的功能是按一定的规则对表达式作近似表示，即指量化器用一组有限的实数集作为输出，其中每个数代表一群最接近于它的取样值，量化编码为有损编码。量化常分为三类：标量量化( 零记忆量化或一维量化) 、矢量量化( 分组量化) 和序列量化。在标量量化中，所有采样使用同一个量化器进行量化，每个采样的量化都和其它所有采样无关。矢量量化( 多维量化) 则是从被称为码本的码字集合中选出最紧密适配于序列的一个码字来近似一个采样序列( 即一个向量) ，这种方法以输入序列与选出的字之间失真最小为依据。在视频编码中较多应用量化的过程是对二维d c t 系数的量化处理，由于对于信号矩阵实施正交变换后，系数的能量分布一般比较集中，如二维d c t 变换后的系数矩阵，能量集中在左上角，从而可想办法对于能量或能量差分重新量化以达到信息压缩的目的。 2 2 3 预测编码视频图像在空间上有很大的冗余度，不仅一幅图像的临近像素之间存在相似性，同时在当前帧和与之相邻的几帧图像之间，图像中相对应位置的像素点也有很多相似之处，特别是一段静止不动的视频，相邻帧间的图像几乎完全相同。因此可以通过预测编码来减少冗余，达到压缩目的。它分为两种预测方式，即帧内预测和帧间预测。帧内预测是根据待编码像素所在图像内已经编码过的像素点来产生当前像素的预测值，然后用实际值减去预测值得到差值，再对这个差值进行编码和传输。帧间预测是指将当前帧的前一帧或前几帧作为参考，随后用当前帧减去参考帧，所得到的帧叫残差帧。帧间预测有多种方法，目前常用的方法是基于块的运动估计和运动大连理工大学硕士学位论文补偿方法，即将一帧图像分割成若干个矩形块，然后对每个块进行运动补偿。编码器在参考帧中确定搜索范围后，将需编码的块与这个区域内所有和当前大小一样的块相减，得到的块叫残差块，然后根据预先制定的选择标准确定最佳匹配块，这个过程为运动估计和运动补偿。为了在解码时可以顺利获得预测帧，必须将每个匹配块偏离原来位置的信息即运动矢量传递给解码器，这样才能在解码时根据这些信息重新构建预测帧。因此，运动矢量和残差块数据都要进行变换和编码传送给解码端。通过这一步骤，需要传送的信息量大幅度减少，可以用很少的比特来表示图像，达到了压缩的目的。 2 2 4 熵编码熵编码即统计编码【1 2 】，它依据编码对象出现的概率分布，对出现概率大的对象分配较短的码字，对出现概率小的对象用较长的码字表示，使编码后的平均码长接近信息熵。变换编码后，编码器输出为变换系数矩阵，需要通过重排序和游程编码将系数矩阵用游程编码系数表示。游程编码可以用“0 ”的个数表示码流中连续的“0 ”串。游程编码后，需要通过熵编码将这些符号影射成二进制码并构成码流，目前常用的方法主要是哈夫曼编码。哈夫曼编码是1 9 5 2 年由哈夫曼提出的，它的编码步骤为：首先将需要编码的对象按照其出现概率从大到小排列，然后将概率最小的两个对象挑出构成一组，概率大的对象用1 来表示，小的用0 来表示，然后相加两者概率，构成一个新的对象，一直重复上述过程一直到概率和为l ，最后沿着各个对象符号到概率l 的路径，将该路径上1 和0 记录下来，就得到了各个对象的哈夫曼编码。 2 3 视频编解码技术标准以及其应用数字视频的发展必然要求视频编码的标准化，因此视频标准化被各大国际组织提上议事日程，这些国际组织中以国际标准化组织( i s o ) 、国际电子学委员会( i n t e r n a t i o n a l e l e c t r o n i c sc o m m i t t e e ，i e c ) 和国际电信联盟( i n t e m a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ，i t u ) 影响力最大。 1 9 8 8 年i s o i e c 成立了活动图像专家组( m p e g ) ，活动图像专家组陆续推出了五种 m p e g 标准l l 引。同时，i t u 组织下属的研究小组视频编码专家组( v c e g ) 也推出了四种 h 2 6 x 标准。通过这些国际组织和产业界的大力推动，目前这些标准在多媒体领域的到了广泛的应用。下面对m p e g x 和h 2 6 x 视频编码标准进行介绍，其发展过程如图2 3 所示。基于h 2 6 4 的空间可分级编码算法研究 1 9 8 41 9 8 61 9 8 81 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图2 3 视频编码标准发展史 f i g 2 3h i s t o r yo fv i d e os t a n d a r d 2 3 1 m p e ( x 系列编码标准 m p e g 系列编码标准主要包括m p e g 1 ，m p e g 2 ，m p e g 4 ，m p e g 7 和m p e g 21 ，它们主要应用于通信和数字视频领域。 ( 1 ) m p e g i 标准活动图像专家组( m p e g ) 于1 9 9 1 年正式推出了m p e g 1 标准。它只对y ：c b ：c r 比例为4 ：2 ：0 的视频格式提供支持，p a l 制式的亮度分辨率为3 5 2x2 8 8 ，色度分辨率为1 7 6 x1 4 4 ，视频码率为1 5 m b s 。 m p e g 1 支持三种帧类型：帧内编码帧( i 帧) 、前向预测编码帧( p 帧) 和双向预测编码帧( b 帧) 。i 帧在编码时只需要它本身这一帧而不需其它帧，属于全帧编码帧，它可用作p 帧和b 帧编码的参考帧。由于没有采用帧间预测，因此它的压缩效率低于其它两种类型的帧。编码p 帧时，需要使用已编码的i 帧或p 帧作为参考进行运动估计和运动补偿，得到它与参考帧的差值即残差帧，然后进行编码传输。编码b 帧时，需要使用已编码的i 帧或p 帧作为参考进行运动估计和运动补偿，得到它和前后参考帧之间的差值。 ( 2 ) m p e g - 2 标准随着各种清晰度更高的显示设备的发展，人们对视频图像质量提出了更高要求， m p e g 1 由于清晰度不高，己经不能满足这种要求，因此i s o 组织发布了m p e g - l 的后继标准，即m p e g 2 标准，在1 9 9 5 年正式成为国际标准。m p e g 2 向下兼容m p e g 一1 ，最高数据率为1 5 m b s 。和m p e g 1 不同的是，m p e g 2 对y ：c b ：c r 比例为4 ：2 ：2 和4 ：2 ：0 的视频数据格式都予以支持。同时为了适应不同使用者的求，它引入了档次和等级的概念，分为简单档，主档，信噪比可分级档，空间分级档和最高档等5 个档次，同时按照视频图像分辨率的不同从低到高分为低级分辨率( 3 5 2 x 2 8 8 ，p a l 制式) ，中等级分辨率 ( 7 2 0 5 7 6 ，p a l 制式) ，高级分辨率( 1 4 4 0x1 0 8 0 ，p a l 制式) 和高等级分辨率( 19 2 0x 大连理工大学硕士学位论文 1 0 8 0 ，p a l 制式) 4 个等级【1 4 】。这些档次和等级有2 0 种不同组合，其中1 1 种是可用的，使用者以根据实际情况选用相应的档次和等级组合，具有极大的灵活性。m p e g 。2 视频序列的分层结构和m p e g 1 一样，也分为视频序列、图像组、帧、像条、宏块和块6 个层次。 ( 3 ) m p e g 4 标准近年来网络的发展日新月异，多媒体技术和互联网的结合越来越紧密，同无线通信网络也提出了对实时视频传输的要求，而m p e g 1 和m p e g 2 标准能很好适应这种发展的趋势。因此，在1 9 9 8 年，活动图像专家组正式推出m p e g 一4 标准。它支持低比特率的应用，更适合网络上的应用，标准支持的码率范围为5 - 6 4 k b s 到6 4 k b s - 4 m b s 之间。 m p e g - 4 和m p e g 1 以及m p e g 2 之间最大的区别在于m p e g - 4 引入了视频对象 ( v i d e o0 b j e e t ，v o ) 和视频对象面( v i d e oo b j e c tp l a n e ，v o p ) 这两个概念【1 5 1 。它不再简单按照矩形形状对图像进行分割，而是按照各个物体实际形状进行相分割。视频序列中持续出现的任意形状的视频场景区域称为视频对象，某一时某一帧画面的视频对象叫视频对象面。在对视频对象的编码过程中可以根据视频对象在形状、运动信息和纹理三方面的特点进行处理i l6 1 。 m p e g 4 也采用了与m p e g 2 类似的档次和级别，以提高在实际应用中的活性和选择性。 ( 4 ) m p e g 7 标准 2 0 0 1 年活动图像专家组正式发布了m p e g 7 标准，即多媒体内容描述接口【1 7 】【1 引。，这个标准主要目的是解决多媒体信息定位问题。它引入了描述定义语言( d e s c r i p t i o n d e f i n i t i o nl a n g u a g e ，d d l ) ，通过这种语言对各种类型的多媒体资料进行标准化的描述，在描述的基础上结合多媒体内容本身来提供快速有效的索引，用户在需要进行查找自己感兴趣的内容时，可以利用这个索引来实现快速方便的搜索，它主要应用在数字图书馆、娱乐、教育、互动多媒体服务和多媒体创作等领域1 1 9 1 。 ( 5 ) m p e g 2 1 标准在2 0 0 2 年，活动图像专家组正式发布了m p e g 2 1 标准，即多媒体框架【2 ，目的是将现有标准联系起来互相协调来管理多媒体商务。它主要包括以下一些内容：数字项的声明和鉴权、智能化所有权管理和保护、权利表达和保护、内容表达发布、终端网络资源和文件格式【2 1 , 2 2 】。基于h 2 6 4 的空间可分级编码算法研究 2 3 2 h 2 6 x 系列编码标准 h 2 6 x 系列编码标准是由i t u 推出的视频编码标准，它主要包括陆续推出的h 2 6 1 ， h 2 6 3 ，h 2 6 3 + 和h 2 6 4 等四种标准。从此系列编码标准推出的目的来说，h 2 6 x 标准侧重于视频信息的数据压缩率，以适合调整该系统在特定速率下传输，其主要应用目标是可视电话和视频会议。 ( 1 ) h 2 6 1 标准 1 9 8 0 年，国际电报电话咨询委员会( c c i t t ) 所属的视频编码专家组的h 2 6 1 建议被通过，成为可视电话和视频会议的国际标准【2 3 1 。h 2 6 1 首次使用了运动补偿预测编码和 d c t 变换的方法，其传输码率为p x 6 4 k b p s ，其中p = l - 3 1 可变，根据图像传输清晰度的不同，码率变化的范围在6 4 k b p s 至1 9 2 m b p s 之间。h 2 6 1 只对c i f 和q c i f 两种图像格式进行处理，每帧图像分为图像层、宏块组( g o b ) 层、宏块( m b ) 层和块( b l o c k ) 层来处理。 h 2 6 1 是最早的运动图像压缩标准，它详细制定了视频编码的各个部分，包括运动补偿的帧间预测、d c t 变换、量化、熵编码以及与固定速率的信道相匹配的速率控制等部分。主要是针对i s d n 的视频会议和可视电话等应用制定的，通过缓冲器控制产生恒定的输出码率。h 2 6 1 是j

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）基于h264的空间可分级编码算法研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）基于h264的空间可分级编码算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档