（信号与信息处理专业论文）h264帧内预测算法的研究与优化.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：71 大小：2.76MB 积分：0 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

（信号与信息处理专业论文）h264帧内预测算法的研究与优化.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

h 2 6 4 帧内预测算法的研究与优化摘要 h 2 6 4 a v c 是最新的视频编码国际标准，由i s o m c 的运动图像专家组 m - p e g 和玎u t 的视频编码专家组v c e g 组成的联合视频小组j v t 共同开发完成。h 2 6 4 标准中使用了很多先进的视频压缩编码方法，如帧内编码中的空域预测、可变块尺寸的运动补偿、4 x 4 整数变换、多参考帧预测和内容自适应的二进制算术编码等。与以前的视频编码标准相比有了明显的进步。在相同视觉质量的条件下，h 2 6 4 的编码效率比m p e g 2 提高了5 0 左右，并且有更好的网络友好性。然而，高的编码压缩率是以很高的计算复杂度为代价的，h 2 6 4 标准的计算复杂度约为h 2 6 3 的3 倍，与m p e g - 4 简单配置相比，其编码复杂度更是增加了1 0 倍，所以在实际应用中必须对算法进行优化以提高其编码的时间效率。高算法复杂度限制了其在实时系统中的应用。本文在第一章简单介绍了视频压缩编码的基本原理。接着在第二章，介绍了视频编码标准在国内外的发展及研究现状，分析了包括h 2 6 4 在内的现有各种视频编码标准的技术特点，指出h 2 6 4 的优越性。第三章简要介绍了h 2 6 4 编码标准的编解码器结构，关键技术和主要性能，尤其是对h 2 6 4 的视频编码层中的主要技术做了较详细的描述。在第四章我们对已有的帧内预测快速算法进行了详细分析，对其中计算复杂度很高的预测模式选择部分进行了深入研究，提出一种快速模式选择算法，该算法，改变模式选择的顺序，利用临块之间预测模式的相关性，通过阈值比较的方式，判决当前块是否采用与临块相同的预测模式。仿真结果显示，在性噪比和码率变化很小的前提下，极大的缩短了原有算法的编码时间，提高了h 2 6 4 的编码效率。在第五章开头部分对f p g a 做了简要介绍，包括f p g a 的优点、开发流程、开发工具等。接下来对h 2 6 4 中的4 x 4 哈达码变换、2 x 2 哈达码变换、z i g - z a g 扫描等功能单元做了f p g a 实现，并对这些模块进行了仿真，结果证明设计符合各个模块的功能要求。最后，我们对论文的工作进行了简要总结与展望。关键词：h 2 6 4 a v c ；视频压缩；帧内预测；现场可编程门阵列 t h er e s e a r c ha n do p timiz a tio no fin t r a p r e dic tio n aig o rit h m inh 2 6 4 a b s tr a c t h 2 6 4 a v ci st h en e w e s ti n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r d s i tw a sd e v e l o p e d b yj o i n tv i d e ot c a m ( j v i ) c o n s i s t i n go fe x p e r t sf r o mr r u - t sv i d e oc o d i n ge x p e r t s o r o u p ( v c e g ) a n di s o i e c m o v i n gp i c t u r ee x p e r t sg r o u p ( m p e g ) t oa c h i e v ea b e t t e rc o m p r e s s i o np e r f o r m a n c e ，h 2 6 4b r i n g su pm a n yn e wi d e a s ，s u c ha ss p a r t i a l p r e d i c t i o n i n i n t r a - c o d i n g , a l t e r a b l e b l o c ks i z em o t i o nc o m p c n s a t i o n , 4 x 4i n t e g e r t r a n s f o r m a t i o n ， a n dc o n t e n t a d a p t i v eb i n a r y a r i t h m e t i c c o d i n g ( c a b a c ) ，e t c c o m p a r e dt om p e g - 2 ，h 2 6 4i n c r e a s e db y5 0 i nc o d i n ge f f i c i e n c y b u tt h e p e r f o r m a n c ei m p r o v e m e n ti sa tt h ee x p e n s eo fc o m p u t a t i o n a lc o m p l e x i t yi n c r e a s e h 2 6 4m a i np r o 丘l ed e c o d e rr e q u i r e s3t i m e sc o m p u t i n gc a p a b i l i t yt h a nh 2 6 3 ，a n d1 0 t i m e st h a nm p e g - 4s i m p l ep r o f i l e ，t h ea u g m e n to fc o m p u t a t i o nc o m p l e x i t y c o n s t r a i n si t sa p p l i c a t i o ni nr e a l - t i m es y s t e m i nc h a p t e r1 ，i ti n t r o d u c e dt h eb a s i ct h e o r i e so fv i d e oc o d i n g i nc h a p t e r2 ，i t i n t r o d u c e de x i s t i n gs t a n d a r d so fv i d e oc o d i n g , t h eb a c k g r o u n do fh o m ea n da b r o a d , d e s c r i b e dt h e i rt e c h n o l o g yc h a r a c t e r sa n da tl a s tp o i n t e do u th 2 6 4 a d v a n t a g e s i n c h a p t e r3 ，i ts i m p l yi n t r o d u c e dt h e s t r u c t u r eo fe n c o d e ra n dd e c o d e ro fk e y t e c h n o l o g i e sa n dm a i np e r f o r m a n c eo fh 2 6 4s t a n d a r d , e s p e c i s a l l ye m p h a s i z e di nt h e k e yt e c h n o l o g i e si nv i d e oc o d i n gl a y e ro fh 2 6 4 i nc h a p t e r4 ，i ta n a l y z e dt h ei n t r a - p r e d i c t i o nm e t h o di nd e t a i l ，a n dr e s e a r c h e d d e e p l yt h ec o m p u t a t i o n a l l yc o m p l e xp a r t p r e d i c t i o nm o d es e l e c t i o n ，t h e np r o p o s e da f a s tm o d es e l e c t i o nm e t h o d t h ef a s tm e t h o dc h a n g e dt h eo r d e ro fm o d es e l e c t i o n ， 1 6 x 1 6e n c o d i n gm o d e sw a sp r e f e r e n t i a l l yc o n s i d e r e dt h a n4 x 4e n c o d i n gm o d e s ，a n d u t i l i z e dt h ec o r r e l a t i o no fp r e d i c t i o nm o d e sb e t w e e nn e i g h b o rb l o c k s b ym e a n so f t h r e s h o l dc o m p a r i s o n ，t od e c i d ew h e t h e rt h ec u r r e n tb l o c kc h o o s ei t sn e i g h b o r h o o d s p r e d i c t i o nm o d e 嬲i t so w np r e d i c t i o nm o d e t h es i m u l a t i o nr e s u l t ss h o w e dt h a tt h e f a s tm o d es e l e c t i o nm e t h o ds h o r t e n e dc o d i n gt i m ea n di m p r o v e dt h ec o d i n ge f f i d e n c y w i t hal i t t l ed e c r e a s ef o rp s n ra n dc o d i n gb i t sr a t e i nc h a p t e r 5 ，i ti n t r o d u c e dp f g a ，t h e nr e a l i z e ds o m ef u n c t i o nb l o c k so fh 2 6 4 ab r i e fs u m m a r ya n dp r o s p e c tw a sg i v e ni nt h el a s tc h a p t e r k e yw o r d s ：h 2 6 4 a v c ；v i d e oc o m p r e s s ；i n t r ap r e d i c t i o n ；f p g a 独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含未获得 ( 注：如没有其他需要特别声明的，本栏可空) 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：签字日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库，并通过网络向社会公众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名：导师签字：鸯订乏矽签字日期：年月日签字日期：年月日 h 2 6 4 帧内预测算法的研究与优化 1 1 引言 1绪论在过去的近二十年中，多媒体通信在世界范围内获得了日益广泛的应用，特别是二十世纪九十年代以来，随着i n t e r n e t 和移动通信的迅猛发展，多媒体技术的应用和研究成为全世界范围内电子信息领域技术开发和研究的热点。人类通过视觉获取的信息量约占信息总量的7 0 ，而且视频信息具有直观性、可信性等一系列优点，因而视频信息在多媒体信息中占有重要地位。目前，视频技术的应用范围很广，如网上可视会议、网上可视电子商务、网上政务、网上购物、网上学校、远程医疗、网上研讨会、网上展示厅、个人网上聊天、可视咨询等业务。新的应用仍在继续出现，例如移动视频和数字影院，并以惊人的速度不断增长。多媒体信息经数字化处理后具有易于加密、抗干扰能力强、可再生中继等优点，但同时也伴随海量数据的产生，这对信息存储设备及通信网络均提出了很高要求，从而成为阻碍人们有效获取和使用信息的巨大瓶颈。因此研究高效的多媒体数据压缩编码方法，以压缩形式存储和传输数字化的多媒体信息具有重要意义。作为多媒体技术的核心及关键，多媒体数据压缩编码近年来在技术及应用方面都取得了长足发展，它的进步和完善正深刻影响着现代社会的方方面面。 1 2 视频压缩的可能性视频压缩主要通过消除数据中的冗余信息达到数据压缩的目的。视频图像中含有大量的冗余信息【1 一，主要存在以下形式的冗余：空间冗余：一帧图像某一取样点的亮度和色度信息，与其邻近取样点之间存在极强的相关性。时间冗余：一帧图像某一取样点的亮度和色度信息，与其相邻帧的邻近取样点之间存在极强的相关性。信息熵冗余：信息熵冗余也称为编码冗余，由信息论的有关原理【凋可知， h 2 6 4 帧内预测算法的研究与优化为表示图像数据的一个像素点，只要按其信息熵的大小分配相应的比特数即可。然而对于实际图像的每个像素，很难得到他们的信息熵，在数字化一幅图像时，对每个像素是用相同的比特数表示，这样必然存在冗余。结构冗余：在有些图像的部分区域存在着非常强的纹理结构，或是图像的各个部分之间存在有某种关系，例如自相关性等。知识冗余：在某些图像中包含的信息与某些先验的基础知识有关，这种冗余称为知识冗余。视觉冗余：这是由于人类的视觉系统( h v s ) 特性造成的，比如人眼对色彩分量的高频分量没有对亮度分量的高频分量敏感，对图像高频( 即细节) 处的噪声不敏感等。针对这些冗余，视频压缩算法采用了不同的方法加以利用，但主要还是针对空间冗余和时间冗余。与以前的标准类似，h 2 6 4 也采用了预测编码和变换编码相结合的混合编码方式。对空间冗余，标准通过变换及量化达到消除的目的，这样编码的帧叫做i 帧；而对时间冗余则是通过帧间预测，即运动估计和补偿来去除的，这样编码的帧叫做p 帧或b 帧。 1 3 视频压缩编码的目标如上所述，视频信号由于信息量大，传输网络带宽要求高，就像一辆庞大的货车只有在宽阔的马路上才能行使一样。于是提出了这样一个解决方案：将视频信号在传输前先进行压缩编码，即进行视频源压缩编码，然后再在网络上进行传送，以便节省传送的带宽和存储时间。这里有两个要求： ( 1 ) 必须压缩在一定的带宽内，即视频编码器应具有足够压缩比的功能。 ( 2 ) 视频信号压缩之后，经恢复应保持一定的视频质量。这个视频质量有两个标准：一个是主观质量，由人从视觉上进行评定；一个是客观质量，通常用信噪比 ( s 肘) 表示。如果不考虑质量，一味地压缩，虽然压缩比很高，但压缩后信息严重失真，显然达不到要求；反之只关心质量，压缩比太小，也不符合要求。当然，在以上两个要求下，视频编码器的实现方式应力求简单、易实现、成本低、可靠性高，这也是其基本的要求。 2 h 2 6 4 帧内预测算法的研究与优化 1 4 视频压缩编码的分类根据采用的信源模型，视频编码可以分为两大类【1 , 2 1 ：基于波形的编码和基于内容的编码。如果采用“一幅图像由许多像素构成”的信源模型，这种信源模型的参数就是每个像素的亮度和色度的幅度值。对这些参数进行压缩编码的技术称为基于波形的编码。如果采用一个分量由几个物体构成的信源模型，这种信源模型的参数就是各个物体的形状、纹理和运动。对这些参数进行压缩编码的技术被称为基于内容的编码。 ( 1 ) 基于波形的编码基于波形的编码是根据图像信源的统计特征进行压缩的编码方式，主要采用统计编码法、预测编码法、变换编码法、矢量量化编码法、子带一小波编码法、神经网络编码法等。基于波形的编码采用了预测编码和变换编码相结合的基于块的混合编码方法。为了减少编码的复杂性，使视频编码操作易于执行，采用混合编码方法时，首先把一幅图像分成固定大小的块，例如8 8 块( 即每块8 行，每行8 个像素) 、 1 6 x 1 6 块( 每块1 6 行，每行1 6 个像素) 等等，然后对块进行压缩编码处理。自1 9 8 9 年u - t 发布第一个数字视频编码标准- h 2 6 1 以来，已陆续发布了 h 2 6 3 等视频编码标准及h 3 2 0 、h 3 2 3 等多媒体终端标准。i s o 下属的运动图像专家组( m p e g ) 定义了m p e g - 1 、m p e g - 2 、m p e g - 4 等娱乐和数字电视压缩编码的国际标准。 2 0 0 3 年3 月份，1 t u - t 颁布了h 2 6 4 视频编码标准。它不仅使视频压缩较以往标准有了明显提高，而且具有了良好的网络亲和性，特别是对像口互联网、无线移动网等易误码、易阻塞、q o s 不易保证的网络，其视频传输性能有明显的改善。以上所有这些视频编码都采用了基于块的混合编码方法，都属于基于波形的编码。 ( 2 ) 基于内容的编码如上所述，基于块的编码易于操作，但由于人为地把一幅图像划分成许多固定大小的块，当包含边界的块属于不同物体时，它们分别具有不同的运动方式， 3 h 2 6 4 帧内预测算法的研究与优化便不能用同一个运动矢量表示该边界块的运动状态。如果强制划分成固定大小的块，这种边界块必然会产生高的预测误差和失真，严重影响了编码信号的质量。于是产生了基于内容的编码技术。这时，先把视频帧分成对应于不同物体的区域，然后分别对其进行编码。具体说来，即对不同物体的形状、运动和纹理进行编码。在最简单情况下，利用二维轮廓描述物体的形状；利用运动矢量描述运动状态；而纹理则用颜色的波形进行描述。当视频序列中的物体的种类已知时，可以采用基于知识或模型的编码。例如，对人的脸部，已经开发了一些预定义的线框对脸的特征进行编码，这种编码效率很高，只需要少量比特就能描述其特征。对于人脸的表情( 如生气、高兴等可能的行为) 可用语义编码，由于物体可能的行为数目非常少，可获得非常高的编码效率。 m p e g 4 采用的编码方法既采用了基于块的混合编码，又有基于内容的编码方法。由于第二代视频编码的还处于理论研究阶段，其实用性还有一定的差距，目前应用较多的还是基于波形的编码方法。以压缩解压后数据与压缩前原始数据是否完全一致作为衡量标准，可将数据压缩划分为有损压缩和无损压缩两类。有损数据压缩又称破坏型压缩，是指经过压缩、解压的数据与原始数据不同但是非常接近的压缩方法。通过将次要的信息数据舍弃，牺牲一些质量来减少数据量，使压缩比提高。这种方法经常用于因特网尤其是流媒体以及电话领域。根据各种格式设计的不同，有损数据压缩都会有代间损失( g e n e r a t i o nl o s s ) ，即压缩与解压文件都会带来渐进的质量下降。有损压缩的两种有效机制：一种是有损变换编解码，首先对图像或者声音进行采样、切成小块、变换到一个新的空间、量化，然后对量化值进行熵编码。另外一种是预测编解码，使用先前的数据以及随后解码数据来预测当前的声音采样或者或者图像帧，预测数据与实际数据之间的误差以及其它一些重现预测的信息进行量化与编码。 h 2 6 4 中同时使用这两种技术，变换编解码用于压缩预测步骤产生的误差信号。有损方法的一个优点就是在有些情况下能够获得比任何已知无损方法小得 4 h 2 6 4 帧内预测算法的研究与优化多的文件大小，同时又能满足系统的需要。无损数据压缩( l o s s l e s sc o m p r e s s i o n ) 指数据经过压缩后，信息不受损失，还能完全恢复到压缩前的原样，但是相对来说这种方法的压缩率比较低。目前用得最多和技术最成熟的无损压缩编码技术，包括包含霍夫曼编码、算术编码、 r l e 编码和词典编码。 1 5 视频编码研究方向及视频编码标准演进视频编码的研究课题主要有数据压缩比、压缩解压速度及快速实现算法等三方面内容。传统压缩编码建立在香农信息论基础之上，以经典集合论为工具，用概率统计模型来描述信源，其压缩思想基于数据统计，因此只能去除数据冗余，属于低层压缩编码的范畴。伴随着视频编码相关学科及新兴学科的迅速发展，新一代数据压缩技术不断诞生并日益成熟，其编码思想由基于像素和像素块转变为基于内容 ( c o n t e n t b a s e d ) 。它突破了香农信息论框架的束缚，充分考虑了人眼视觉特性及信源特性，通过去除内容冗余来实现数据压缩，可分为基于对象 ( o b j e c t - b a s e d ) 和基于语义( s e m a n t i c s - b a s e d ) 两种，前者属于中层压缩编码，后者属于高层压缩编码。与此同时，视频编码相关标准的制定也日臻完善。视频编码标准主要由删t 和i s o i e c 开发。i t u t 发布的视频标准有h 2 6 1 3 1 、h 2 6 2 、 h 2 6 3 4 1 、h 2 6 3 + 、h 2 6 3 + + 、h 2 6 4 5 】；i s o i e c 公布的m p e g 系列标准有 m p e g 1 【6 1 、m p e g 2 【7 1 、m p e g 4 i s 、 m p e g 7 【9 1 、m p e g 2 1 1 0 】；中国也制定了自己的视频编码标准a v s l l l 】。 1 6 课题研究的目的和意义 h 2 6 4 是目前一种比较流行的视频压缩标准，它的应用也比较广泛。由于h 2 6 4 采用了许多新的压缩技术，其在压缩效果和对网络的适应性方面都有了很大程度的提高。但是，h 2 6 4 性能的改善是很多技术改进的结果，这些新技术的采用产生了巨大的计算量，还不能达到实际应用的要求。 s h 2 6 4 帧内预测算法的研究与优化本文针对h 2 6 4 的运算复杂性，从空间复杂性方面来优化h 2 6 4 ，研究新的快速算法来降低帧内预测编码时间，提高h 2 6 4 的实时性，具有比较大的现实意义。 1 7 本文的主要内容和安排本文的主要内容和安排如下：第一章介绍了视频压缩编码的需要和可能性、分类、本课题研究的目的和意义。第二章分析了包括h 2 6 4 在内的现有的各种视频标准的技术特点，介绍了 h 2 6 4 的优越性。第三章对h 2 6 4 的核心技术进行了深入的分析和研究。第四章帧内预测算法研究和优化。第五章h 2 6 4 编码器部分模块的f p g a 实现第六章总结与展望。 1 8 本章小结本章作为整篇论文的绪论部分，介绍了视频压缩的需求和可能性、目标、分类、视频编码研究方向、视频编码标准演进、本课题的研究目的和意义。最后，简要概括了本文的主要内容和结构安排。 6 h 2 6 4 帧内预测算法的研究与优化 2 视频编码标准在国内外的发展及研究现状近年来，一系列国际视频压缩编码标准的制定，极大地促进了视频压缩编码技术和多媒体通信技术的发展。视频压缩编码标准的制定工作主要是由国际标准化组织i s o ( i n 【t e m a t i o n a ls t a n d a r do r g a n i z a t i o n ) 和国际电信联盟i t u ( i n t e m a t i o n a l t e l e g r a p h yu n i o n ) 完成的。由u 指定的标准主要是针对实时视频通讯的应用，如视频会议和可视电话等，它们以h 2 6 x 命名：而由i s o 和i e c ( i n t e m a t i o n a l e l e 贮t r o t e c h n i c a lc o m m i s s i o n ，国际电工委员会) 的共同委员会中的m p e g ( m o v i n g p i c t u r ee x p e r t sg r o u p ) 专家组制定的标准主要针对视频数据的存储( 如v c d 和 d v d ) 、广播电视和视频流的网络传输等应用，它们以m p e g x 命名。另外这两大标准化组织于2 0 0 1 年1 2 月成立了联合视频组( j 、，t ，j o i n tv i d e ot e a m ) 来共同研究新的视频编码标准h 2 6 4 a v c 。我国也于2 0 0 2 年6 月由国家信息产业部科学技术司批准成立了数字音视频编解码技术标准工作组，专门来制定中国的国家音视频编码标准a v s ( a u d i oa n dv i d e oc o d i n gs t a n d a r do fc h i n a ) 。图2 1 是视频压缩编码标准的发展历程。稍冯毒娜，糊曝锚舯撇铆 i 稍爵稍叠口霉嗽2 0 0 4 图2 1 视频编码标准的发展历程在制定的这些标准中，并没有对视频编码的具体算法做硬性规定，而仅仅是定义了相应的解码方法和比特流语法，使得对于符合某一标准的压缩码流，所有的解码器都能够得到相同的输出结果，这也为标准的具体应用带来了最大限度的自由度。下面我们就几种典型的国际视频编码标准做简要介绍。 7 h 2 6 4 帧内预测算法的研究与优化 2 1i s om p e g x 系列视频压缩标准 2 1 1m p e g - 1 m p e g i ( i s o i e c1 1 1 7 2 ) 1 6 , 1 3 】是m p e g 组织制定的第一个视频和音频有损压缩标准。视频压缩算法于1 9 9 0 年定义完成。1 9 9 2 年底，m p e g - 1 正式被批准成为国际标准。是针对1 5 m b p s n 下数据传输率的数字存储媒介运动图像及其伴音编码的国际标准。m p e g 1 是为c d 光碟介质定制的视频和音频压缩格式，可适用于不同带宽的设备，如c d r o m 、v i d e o c d 、c d i 。m p e g l 用于在c d r o m 上存储同步和彩色运动视频信号。可优化为中等分辨率，并在其优化模式下，采用所谓的标准交换格式s i f 。m p e g l 对色差分量采用4 ：1 ：1 的二次采样率。 m p e g l 旨在达到t c 质量，其视频压缩率为2 6 ：1 。m p e g l 现已成为常规视频标准的一个子集，该子集称为c p b 流。 m p e g 一1 标准是为逐行扫描的视频而设计的，目标码率是大约1 2 m b p s ( 包括音频和视频在内1 5 m b p s ) n 比特率下生成接近v h s 质量的视频。 m p e g 1 与h 2 6 1 有很多相似之处，也采用混合编码框架，与h 2 6 1 相比，有如下区别： 1 不采用环路滤波。 2 采用了半像素精度的运动矢量，运动矢量范围扩大到士6 4 像素。 3 采用i 帧，p 帧，b 帧三种帧类型，尤其提出了完善的b 帧理论。 4 对于i 帧，d c t 系数的量化是适应人类视觉系统的，用一个加权矩阵来除这些系数，虽在相同比特率条件下降低了解码图像的p s n r ，但提高了主观质量。另一个区别是一个i 块的d c 系数可以由它的左邻块的d c t 系数预测。 5 提出了图像组g o p ( g r o u po fp i c t u r e ) 结构。每一个g o p 都以一个i 帧开始，后跟一定数量的p 帧和b 帧，以实现视频的随机访问。 6 定义了一个特殊的编码参数子集，称为约束参数集( c p s ) ，可以用来限制解码器计算复杂度、缓冲器大小以及存储器带宽。 2 1 2m p e g 2 m p e g 2 ( i s o i e c1 3 8 1 8 ) t 7 1 2 】制定于1 9 9 4 年，它是针对h d t v 和d v d 等制定的运动图像及其伴音的编码标准。m p e g 2 所能提供的传输率在3 m b p s - 8 h 2 6 4 帧内预测算法的研究与优化 1 0 m b p s 之间，与m p e g 1 兼容，m p e g 2 也可提供并能够提供广播级的视像和 c d 级的音质。 m p e g 2 标准主要是因为m p e g 1 不能以广播质量有效地压缩隔行数字视频而制定的。其主要目的是使i t u rb t 6 0 14 ：2 ：0 格式的隔行视频具有m p e g - 1 的功能，产生4 - - 一8 m b p s 码率的电视质量图像和1 0 - 1 5m b p s 码率的高质量图像，因此m p e g 2 能够解决s d t v 或h d t v 隔行视频的高质量编码问题。 m p e g 2 以电视演播室以及标准清晰度和高清晰度电视广播为目的。与 m p e g 1 相比主要区别如下： 1 m p e g 2 没有d 图像，d 图像是变换系数的直流分量( d c 系数) ，代表能量分布，而m p e g 1 中有d 图像。 2 m p e g 2 中定义了三种宏块结构：4 ：2 ：0 宏块、4 ：2 ：2 宏块和4 ：4 ：4 宏块，而m p e g 1 中宏块结构是4 ：2 ：0 ，即对应于4 个亮度块，一个c b 色差块和一个c r 色差块。同时，m p e g 2 还支持4 ：2 ：0 格式的隔行编码。 3 m p e g - 2 有档次( p r o f i l e s ) 和等级( l e v e l s ) 的概念。档次对应于不同的编码复杂程度分为5 种：简单档次( s i m p l e ) 、主档次( m a i n ) 、s n r 可分级档次( s n rs c a l a b l e ) 、空间域可分级档次( s p a t i a l l ys c a l a b l e ) 和高档次( h i g h ) ；等级对应于不同的图像格式可分为4 种：低等级( l o w ) 、主等级( m a i n ) 、高级窄屏幕( h i g h - v * 4 0 ) 和高级宽屏幕( h i g h ) 。并不是所有的档次和等级的组合都有实际应用，其2 0 个组合中只有1 1 个是有用的，称为m p e g 2 适用点。 4 帧尺寸最大可为1 6 3 8 3 x 1 6 3 8 3 。 5 m p e g 2 允许d c t 系数有其它的扫描格式( 如垂直交替扫描) ，并具有1 6 x 8 像素尺寸的块运动补偿。 6 d c t 的d c 系数用1 0 比特量化，以及采用非线性量化和较好的v l c 表等，提高了逐行扫描视频序列的编码效率。 7 允许更高的码率。 8 m p e g 2 可在较广的范围内改变压缩比，以适应不同画面质量，存储容量，以及带宽的要求。 9 h 2 6 4 帧内预测算法的研究与优化 2 1 3m p e g - 3 m p e g - 3 原本是m p e g 组织为h d t v ( 1 9 2 0 x 1 0 8 0 ) 提供的2 0 - 、一4 0 m b p s 视频和音频压缩标准。在标准制定的过程中，委员会很快发现m p e g 2 可以取得类似的效果。随后，m p e g 一3 项目终止了。 2 1 4m p e g - 4 m p e g 4 1 8 , 1 4 1 标准的1 o 版本于1 9 9 9 年1 月公布，2 0 版本于1 9 9 9 年1 2 月公布。m p e g 4 试图达到两个目标：一是低比特率下的多媒体通信，在5 - - 6 4 k b i t s 之间，分辨率输入可从3 2 0 x 2 4 0 到1 2 8 0 x 1 0 2 4 ；二是多工业的多媒体通信的综合，将众多的多媒体应用集于一个完整的框架内，为不同性质的视音频数据制定通用、有效的编码方案，可以根据应用的不同要求现场配置解码器。据此目标，提出基于具体内容( c o n t e n t b a s e d ) 的视频对象、音频对象的存取，常被称为基于内容的存取。m p e g 4 引入a v 对象( a u d i o n i s a u lo b j e c t s ) ，使得更多的交互操作成为可能。 m p e g 4 标准与m p e g 1 和m p e g 2 标准最根本的区别在于m p e g 4 是基于内容的压缩编码方法，它突破了m p e g 1 和m p e g 2 以矩形方形块处理图像的方法，充分利用了人眼视觉特性，抓住了图像信息传输的本质，从轮廓、纹理思路出发，支持基于视觉内容的交互功能，这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。 a v 对象( a u d i ov i s u a lo b j e c t ) 是m p e g 4 为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体，对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。m p e g 4 标准的基本内容就是对a v 对象进行高效编码、组织、存储与传输。a v 对象的提出，使多媒体通信具有高度交互及高效编码的能力，a v 对象编码就是m p e g 4 的核心编码技术。 m p e g 4 除了因基于对象的性质引起视频编码的明显改变之外，还引入以下工具以提高编码效率： 1 与m p e g 1 2 相比改进了的d c 系数预测，可以选择当前块的左块或者上块来预测当前d c 系数值。 2 采用a c 系数预测，对第一列或第一行的a c 系数可由d c 系数预测块相同位 1 0 h 2 6 4 帧内预测算法的研究与优化置的系数来预测。 3 在m p e g 2 的垂直交替扫描d c t 系数的基础上，增加了水平交替扫描方法。 4 采用与h 2 6 3 类似的三维v c l 编码。 5 采用与h 2 6 3 类似的四个8 x 8 块运动矢量。 6 无限制运动矢量，与h 2 6 3 相比，可以选择更宽的运动矢量范围，最大可以到士2 0 4 8 像素。 7 采用全局运动补偿，有助于改善最挑剔的场景中的图像质量。 8 采用精确到1 4 像素的运动补偿，其中亮度块的运动矢量为1 4 ，而色度像素以半像素精度进行补偿。除了上述特征外，m p e g - 4 包括了基于对象的视频编码算法，其主要工具包括二进制形状编码、低通填充、形状自适应d c t 和灰度形状编码等。 m p e g 4 采用了新一代视频编码技术，它在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象，从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变，因而引领着新一代智能图像编码的发展潮流。 2 1 5m p e g 7 m p e g 7 【9 】标准被称为多媒体内容描述接口m c d i ( m u l t i m e d i ac o n t e n t d e s c r i p t i o ni n t e r f a c e ) ，该标准于1 9 9 8 年1 0 月提出，用于为各类多媒体信息提供一种标准化的描述，这种描述与多媒体信息的内容本身有关，支持用户对其感兴趣的资源进行快速、有效的检索。m p e g 7 标准可以独立于其它m p e g 标准使用，但m p e g 4 中所定义的音频、视频对象的描述适用于m p e g 7 。m p e g - 7 的适用范围广泛，既可应用于存储( 在线或离线) ，也可以用于流式应用( 如广播、将模型加入互联网等) 。它还可在实时或非实时的环境下应用，实时环境指的是当信息被捕获时是与所描述的内容相联系的。该标准主要致力于视听数据的信息编码表达，m p e g 7 正为实现数据资源的交互性与全球化以及数据管理的灵活性的目标而不懈努力。规定一个用于描述各种不同类型多媒体信息的描述符的标准集合。客观世界：图像、图表、文本、三维模型、音频、语音、视频；主观世界：对事物事件的概括、人的感性色彩、价值取向等； h 2 6 4 帧内预测算法的研究与优化合成法则：各种元素之间的有机结合以构成一个真正意义上的多媒体演示。在m p e g 7 标准中，最具特点的相关应用方案是：交换处理，多媒体内容的个性化窗口和分配处理。 m p e g 7 标准化的范围包括：一系列的描述子( 描述子是特征的表示法，一个描述子就是定义特征的语法和语义学) ；一系列的描述结构( 详细说明成员之间的结构和语义) ；一种详细说明描述结构的语言、描述定义语言( d d l ) ：一种或多种编码描述方法。 m p e g 7 的最终目的是把网上的多媒体内容变成象现在的文本内容一样，具有可搜索性。这使得大众可以接触到大量的多媒体内容，m p e g 7 标准的应用领域十分广泛，包括：数字图书馆( 图像目录、音乐字典等) 、多媒体目录服务、广播媒体选择( 无线电频道、t v 频道等) 、多媒体编辑( 个人电子新闻服务、媒体写作) 等。 2 1 6m p e g 2 1 各种不同的多媒体信息分布式地存在于全球不同的设备上，要想通过异构网络有效地传输这些多媒体信息，必然需要综合地利用不同层次的多媒体技术标准。多媒体框架( m u l t i m e d i af r a m e w o r k ) 这一概念在1 9 9 9 年1 0 月m p e g 会议上被提出，以解决这个问题。在1 9 9 9 年1 2 月的m p e g 会议上，这个新的工作方向被确定为m p e g 2 1 。m p e g 2 1 1 0 】的正式名称是多媒体框架，又称数字视听框架( d i g i m la u d i o - v i s u a lf r a m e w o r k ) 。它提出了“将标准集成起来支持协调的技术以管理多媒体商务”的口号，它的目标就是理解如何将不同的技术和标准结合在一起，需要什么样的新标准以及完成不同标准的结合的工作。互联网改变了物质商品交换的商业模式，这就是“电子商务”。新的市场必然带来新的问题：如何获取数字视频、音频以及合成图形等“数字商品”，如何保护多媒体内容的知识产权，如何为用户提供透明的媒体信息服务，如何检索内容，如何保证服务质量等。m p e g 2 1 的制定将在未来日常的电子商务活动中发挥重要作用，多媒体商务也必将有着更加广阔的应用天地。此外，有许多数字媒体( 图片、音乐等) 是由用户个人生成、使用的。这些“内容供应者”同商业内容供应商一样关心相同的事情：内容的管理和重定位、各种权利的保护、非授权存取和修改的保护、商业机密与个人隐私的保护等。目前虽 h 2 6 4 帧内预测算法的研究与优化然建立了传输和数字媒体消费的基础结构并确定了与此相关的诸多要素，但这些要素、规范之间还没有一个明确的关系描述方法，迫切需要一种结构或框架保证数字媒体消费的简单性，很好地处理“数字类消费”中诸要素之间的关系。 m p e g 2 1 就是在这种情况下提出的。 2 2l t u - th 2 6 x 系列视频压缩标准 2 2 1h 2 6 1 h 2 6 1 1 3 , 1 5 l 是1 9 9 0 年i t u t 制定的一个视频编解码标准，又称为 p 幸6 4 k b i t s ，其中p 是从1 到3 0 的可变参数，最初是针对在i s d n 上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于m p e g 算法，但不能与后者兼容。h 2 6 1 在实时编码时比m p e g 所占用的c p u 运算量少得多，此算法为了优化带宽占用量，引进了在图像质量与运动幅度之间的平衡折中机制，也就是说，剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。 h 2 6 1 是第一个实用的数字视频编码标准。h 2 6 1 使用了混合编码框架，包括了基于运动补偿的帧间预测，基于离散余弦变换的空域变换编码，量化，z i g z a g 扫描和熵编码。h 2 6 1 编码时基本的操作单位称为宏块。h 2 6 1 能够对c i f 和q c i f 分辨率的视频进行编码，使用y c b c r 颜色空间，并采用4 ：2 ：0 色度抽样，每个宏块包括1 6 x 1 6 的亮度抽样值和两个相应的8 x 8 的色度抽样值。 h 2 6 1 使用帧间预测来消除空域冗余，并使用了运动矢量来进行运动补偿。变换编码部分使用了一个8 x 8 的离散余弦变换来消除空域的冗余，然后对变换后的系数进行阶梯量化，之后对量化后的变换系数进行z i g z a g 扫描，并进行熵编码( 使用r u n l e v e l 变长编码) 来消除统计冗余。 h 2 6 1 标准仅仅规定了如何进行视频的解码，并没有定义编解码器的实现。编码器可以按照自己的需要对输入的视频进行任何预处理，解码器也有自由对输出的视频在显示之前进行任何后处理。 1 3 i - i 2 6 4 帧内预测算法的研究与优化后来的视频编码标准都可以说是在h 2 6 1 的基础上进行逐步改进，引入新功能得到的。现在的视频编码标准比起h 2 6 1 来在各性能方面都有了很大的提高

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）h264帧内预测算法的研究与优化.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）h264帧内预测算法的研究与优化.pdf

文档简介

温馨提示

最新文档

评论

相关文档