（通信与信息系统专业论文）mpeg4视频编码系统的研究与实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-17 格式：PDF 页数：46 大小：1.47MB 积分：12 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要在信息技术飞速发展的今天，多媒体通信成为人类新兴的交流手段。其中，携带着巨大的信息量的数字视频在信息社会中发挥着越来越重要的作用。由于计算机技术、通信技术、微电子技术、网络技术的进步，实时视频压缩和传输成为可能，人们可以在此基础上享受技术进步带来的便利。本文介绍了作者在视频压缩编码及其硬件实现方面的研究。作者研究了 i s o i e cm p e g - 4 视频编码标准，并在该标准的基础上提出了一种编码器的s o c 实现，采用f p g a 和a r m 构建d e m o 系统，对其中的d c t i d c t 、量化反量化及帧内预测进行了深入研究，并在理论的基础上提出了其硬件实现方案。本文介绍了m p e g - 4 标准的基本原理，m p e g - 4 视频编码器总体框架及各部分功能，m p e g - 4 d c t i d c t 、量化反量化及帧内预测的原理及硬件实现：最后对 h 2 6 4 m p e g - 4 a v c 视频压缩编码标准做了初步研究，并论述了其中的整数变换及帧内预测编码。关键词：视频编码b p e g - 4 d c t i d c tf p g ah 2 6 4 a v c a bs n m c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ti nt h ca r e ao fi n f o r m a t i o nt e c h n o l o g y ，m u l t i m e d i a c o m m u n i c a t i o nh a sb e e nan e w w a yo f h u m a ni n t e r c o m m u n i o n s p e c i a l l y ，d i g i t a lv i d e o p l a y sam o r ea n dm o r ei m p o r t a n tr o l e i ni n f o r m a t i o ns o c i e t y 1 1 1 ea d v a n c e m e n t so f c o m p u t e rt e c h n o l o g y ，c o m m u n i c a t i o nt e c h n o l o g y ，m i c r o c l e c t r o n i c st e c h n o l o g y ， n e t w o r kt e c h n o l o g ym a k er e a l - t i m ev i d e oc o m p r e s s i o na n dt r a n s p o r t a t i o np o s s i b l e c o n s e q u e n t l y , p e o p l ee n j o y t h ec o n v e n i e n c em a d e b yt e c h n o l o g y a d v a n c e s t 1 1 i sd i s s e r t a t i o np r e s e n t st h es t u d yo fs e v e r a li s s u e si nv i d c oc o d i n ga n di t s h a r d w a r ei m p l e m e n t a t i o n 。an o v e ls y s t e mo l lc h i p ( s o c ) i sp r o p o s e db a s e d0 1 1t h e i s 0 ，i e cm p e g - 4 w ed ot h i sb y a d o p t i n gf p g ap l u sa r m t h ef p g ac h i pd e a l s 、i t i l a l l p r o c e d u r e s i nm p e g - 4v i d e oc o m p r e s s i o ns y s t e m ，s u c ha sm o t i o ne s t i m a t i o n , d c l y 日d c t a n d p i c t u r e r e c o n s t r u c t i o n , v a r i a b l e l e n g t hc o d i n g ， b i ts t r e a m m u l t i - c o m p l e x e t c ；w h i l et h ea i 洲c p u d e a l s “t i lm t ec o n t r o la n dt h ep a r a m e t e r s i n t i a l i z t i o no ft h ew h o l ec o d i n gs y s t e m s o m ek e yt e c h n i q u e s s u c ha sd c t ，i d c t 、 q u a n t i z a t i o n i n v e r s eq u a n t i z a t i o na n di n t r ad c ，a cp r e d i c t i o n a ms t u d i e di nd e t a i l t h e h a n i 、m d e s i g no f w i t c h i sp r e s e n t e db a s e do u t h e o r y i nt h i sd i s s e r t a t i o n , w ed e s c r i b et h eb a s i cp r i n c i p l eo f m p e g - 4 s y s t e mf r a m e w o r k o f 咿e g _ 4e n c o d e ra n d c o m p o n e n tf u n c t i o n , d c t qp r i n c i p l e a n dh a r d w a r e i m p l e m e n t a t i o n s o m es i m u l a t i o n r e s u l t sa n dp r a c t i c a lr e s u l t sa r e s h o w n ；f i n a l l y a r o u g h l ys t u d yo f h 2 6 4 m p e g - 4a v ci sp r e s e n t e d ，s p e c i a l l y ，i n t e g e rt r a n s f o ra n di n t r a p r e d i c t i o na 地s t u d i e d i nd e t a i l k e y w o r d ：v i d e oc o d i n g m p e g - 4d c t i d c tf p g ah 2 6 4 a v c y 6 9 5 4 4 i 创新性声明本人声明所呈交的论文是我个人在导师的指导下迸行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢串所罗列的内容以外，沦交牛不包含其它人已经发表或撰写过的研究成果：也不包含为获得西安电子科技大学或其它教育机构的学位或证书丽使用过的材料。与我同工作的同志所做的任何贡献均已在论文中傲了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：、虐墼选日期：塑：! 一z 。关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文：学校可以公伟论文的全部或部分内容，可以允许采用影印、缩印、或其它复制手段傈存论文。( 保密的论文在解密后遵守此靓定) 本学位论文属于保密，在一年解密后适用本授权书。本人签名：歪塑鱼日期：盟：，三二导师签名：么兰诲导师签名：么；当萍埠日期：超卫璺第一章绪论第一章绪论 1 1 引言未来的人类社会将是信息化社会，图像是多媒体中携带信息极其重要的媒体，统计资料表明，人们获取信息的7 0 来自图像。数字化后的信息，尤其是数字化后的视频和音频信息，具有数据海量性的特点，它给信息的存储和传输造成很大的困难，成为阻碍人类有效获取和使用信息的瓶颈问题之一。因此，研究和开发新型有效的多媒体数据压缩编码方法，以压缩的形式存储和传输这些数据将是最好的选择。在许多应用领域，都会遇到需要对大量图像数据进行传输与存储的问题。例如，在传输方面：数字电视、遥感照片、军事侦察图像、可视电话、会议电视和传真照片等：在存储方面：教育、商业、管理等领域的图文资料、医用图像、天气云图等等，海量图像数据几乎涉及各个行业。为了在最短的时间传递尽可能多的图片，或者为了利用有限的存储容量存储更多的图像信息，或者为了在有限的带宽条件下传输尽可能多的活动图像，就要研究怎样才能最大限度的压缩图像数据，并且保证压缩后的重建图像能够被用户所接受，这就是图像编码所要解决的问题。 1 2 视频编码原理及方法视频编码的目的是实现对视频的压缩，其核心思想是去相关。通过减少视频序列问的相关性，降低视频内容中的冗余，用较少的比特数来表示视频内容，从而实现对视频的压缩。视频序列中的冗余主要有以下几个方面。空间冗余空间冗余是指在同一帧画面中，相邻的像素间存在的相关性，特别是当这些相邻像素位于同一个视频对象中时，相关性极强。例如在图像的背景区域。时间冗余通常对视频序列而言，除非发生场景切换，否则相继帧在时间上都是连续的。在前后两帧中往往包含与当前帧相同的背景和对象。只是由于镜头的转动或对象的移动使得空间位置发生变化。运动越缓慢，位置的变换越小。因此视频序列在时域存在极强的相关性。编码冗余对于编码符号，其平均码长高于所表示信息的信息熵，这个差值就形成了编码冗余。编码冗余、空间冗余和时间冗余都依赖于图像数据的统计特性，可以统 m p e g - 4 视频编码系统的研究与实现称为统计冗余。人眼视觉冗余由于人眼视觉的非均匀性，使得人眼视觉对某些空间频率感觉迟钝。因此视频中不同频率成分的内容对于人眼系统而言其重要性是不同的。也就是说存在频域冗余。例如人眼视觉系统对亮度信号变化的敏感性高于色度信号变化。因此可以对色度分量进行降采样，同时保持主观视觉质量不变。y u v 4 ：2 ：o 色差格式就是对色度分量在水平和竖直两个方向进行2 ：1 的降采样。另一方面对信号频域的各个分量可以采取不同的量化步长，将人眼视觉不敏感的分量去除，而不会引起主观质量的下降。结构冗余和知识冗余图像的某些区域存在非常强的纹理结构，图像像素值有明显的分布模式，形成结构冗余，或者图像中包含的信息与某些先验知识有关，例如人的五官位置对于人脸而言就是一种先验知识，这种冗余构成知识冗余。信源编码的方法按照压缩数据能否被准确恢复分为两太类：无损编码和有损编码。虽然无损编码可以无失真的恢复原始数据，但其压缩效率十分有限。因此在视频压缩中都是将无损编码和有损编码结合使用。视频编码中主要压缩技术有以下几种。预测编码预测编码不是对一个像素直接编码，而是用同一帧( 帧内预测编码) 或相邻帧( 帧间预测编码) 中的像素值来进行预测，然后对预测残差进行变换编码。显然预测编码实际是利用了图像数据中的空间和时间冗余。线性预测编码又称为差分脉冲编码调制d p c m ( d i f f e r e n t i a l p u l s ec o d e m o d u l a t i o n ) ，由于算法简单，易于硬件实现，已被各种视频编码标准采纳。帧间预测编码的主要方法有帧重复法、帧内插法和运动补偿法等。其中运动补偿法在视频编码中使用的最为广泛。运动补偿预测通常可以采用单向预测( 一个参考帧) ，双向预测( 两个参考帧) 和插值预测( 取两个参考帧预测值的平均) 来实现。由于运动补偿预测可以有效的减少视频序列的时域冗余，因此成为构成当前主要视频编码标准最基本的技术之一。变换编码交换编码是构成当前主要视频编码标准的另一项最基本技术，用来消除图像的频域( 变换域) 冗余。正交变换编码通常是将空域相关的像素点映射到另一个正交矢量空间，使得变换后的系数之间相关性降低。常见的正交变换有k l ( k a r h u n e n - l o e v e ) 变换、离散傅立叶变换d f t ( d i s c r e t ef o u r i e rt r a n s f o r m ) 、离散余弦变换d c t ( d i s c r e t ec o s i n e t r a n s f o r m ) ，沃尔什哈达i 蟹j ( w a l s h - h a d a m a r d ) 变换和哈尔( h a r t ) 变换。k - l 变换是均方第一章绪论误差准则下的最优变换，但实现困难。在现行视频编码标准中几乎都采用了性能最接近k l 变换的d c t 。变换编码除了采用正交变换编码外，还有子带编码和小波编码。由于正交变换编码使得图像的能量集中在低频区域，表示图像中缓慢变化的内容，而图像的边缘、细微的纹理等细节部分集中在变换域的高频区。为了实现压缩，通常采用同一个量化器进行量化，这样就牺牲了图像的细节部分，造成解码图像模糊。在高压缩比时，基于块的正交变换编码还会产生块效应( ( b l o c ke f f e c t ) ，降低图像质量。而子带编码则是将图像分裂成几个不同频段的子带( s u b b a n d ) ，对不同的予带设计不同的编码参数，提高图像质量。小波变换编码充分利用了小波分析在时域和频域同时具有良好的局部化特性，与人昨视觉特性相符的多分辨率能力，分解系数分布平稳，自然分级的金字塔式数据结构等优点，在视频压缩领域引起广泛的关注。它利用与正交分解完全不同的小波分解，以原始图像( 不是原始图像中的块) 为初值，不断的将上一级图像分解为4 个子带：上一级图像中的低频信息、垂直方向、水平方向和对角线方向的边缘信息。从多分辨率分析出发，一般每次只对上一级的低频子图图像进行分解。将整个图像而非其中的块作为整体进行传送，因此不会产生块效应。由于小波变换的金字塔式数据结构的每一层都包含整个图像的信息，只是其中的分辨率不同，因此可以选择传送部分或全部，非常简单，自然的实现可分级视频编码。统计编码根据香农信息论的观点，信源冗余度来自信源本身的相关性和信源内部事件概率分布的不均匀性。统计编码主要有基于概率分布特性的霍夫曼编码和算术编码以及基于相关性的游程长度编码三类。霍夫曼编码( h u f f m a nc o d i n g ) 是一种变长编码v l c ( v a r i a b l el e n g t hc o d i n g ) 霍夫曼编码将信源符号按概率大小重新排序，通过二叉树算法，依次将两个概率最小的节点合并，直至根结点。完成树的构造后，给所有的树枝分配0 和1 ，这样就可以给高概率符号分配短码，而概率小的符号则分配较长的码字，去除符号间的统计冗余。在已知信源符号概率时，可以给出极好的编码性能。但霍夫曼编码严重依赖信源的统计特性，编码前必须有信源概率分布的先验知识。对于复杂的视频来说，只能用对大量数据统计后获得的近似分布来代替，因此实际应用时无法达到最佳性能。另一方面v l c 提高了编码效率，但不利于硬件实现。游程长度编码r l c ( r u nl e n g t hc o d i n g ) 是将符号值相同的连续符号串用一个游程长度( 符号数) 和一个代表值( 值) 描述。这样可以用更紧密的序列代替原有的相同值符号串。在视频压缩中，量化后的数据常常出现大量的连零系数，利用游程长度编码可以有效的降低表示零码的比特数。算术编码( a r i t h m e t i cc o d i n g ) 是2 0 世纪8 0 年代发展起来的，理论上，算术编码 m p e g - 4 视频编码系统的研究与实现和霍夫曼编一码都是最佳的，但在信源概率分布未知的情况下，算术编码优于霍夫曼编码。算术编码的基本原理是用( o ，1 1 之间的一个概率区间来表示数据序列。将信源x 的个给定状态x = f x l ，x s 与【0 ，1 】间的一个由大概率p 和小概率q 限定的概率子区间相联系，区间的长度等于序列的概率p ( ) ( ) 。编码器从n = l 开始，逐位的处理输入的符号流。每输入一位，更新当前符号的条件概率，并以此调整p 和q 限定的概率子区间。随着n 的增加，和输入符号序列相联系的概率子区间就变得越来越小。最后用这个表示概率子区间的小数给符号序列编码。分形编码和模型基编码本文的主要集中予基于块匹配的编码框架中，因此分形编码和模型基编码超出了本文的讨论范围，不在此详述。 1 3 现有的视频编码标准及其介绍自8 0 年代以来，由于数字存储媒体、电视传播及通信等应用中对运动图像编码方法需求的日益增长，i t u ，i s o 等国际组织都成立了专门的机构，致力于制订运动图像压缩编码的国际标准。到目前为止，已经开发和正在开发的运动图像压缩标准有：h 2 6 1 、h 2 6 3 、m p e g - 1 、m p e g 一2 、m p e g - 4 、m p e g 一7 、h 2 6 4 、和m p e g 一2 l 。下面对这些标准分别做一简单介绍。 c c i t t ( 即后来的i t u ) 第1 5 研究组于1 9 8 4 年成立了“可视电话专家组”，经过 1 9 8 5 1 9 8 8 三年的研究，提出了视频编解码器的的h 2 6 1 标准草案，以覆盖i s d n 基群信道，满足会议电视和可视电话业务日益发展的需要。1 9 9 0 年7 月通过了该标准，定名为“p 6 4 k b p s 视听业务的视频编码器”，其中p = l 3 0 。为了满足近年来在普通公用电话网或移动电话网上进行可视电话通信的需要，即视频压缩率低于6 4 k b p s ，在诸如2 8 8 k b p s 等速率的信道上进行可视电话通信，i t u - t 在h 2 6 1 标准基础上进行了改进，于1 9 9 5 年提出了h 2 6 3 标准甚低码率通信的视频编码”。 m p e g l 制定于1 9 9 2 年，可适用于不同带宽的设备，如c d - r o m 、v i d e oc d 。它的目的是把2 2 1 m b p s 的n t s c 图像压缩到1 2 n l b p s ，压缩率为2 0 0 ：1 。传输速率为1 5 m b p s ，编码速率最高可达4 5 她p s ，但随着速率的提高，其解码后的图象质重有所降低。归e g 一1 主要是针对数字存储媒体，但它也被用于数字电话网络上的视频传输，如非对称数字用户线路( a d s l ) ，视频点播和教育网路等。 m p e g 一2 制定于1 9 9 4 年，设计目标是高级工业标准的图像质量以及更高的传输率。它所提供的传输速率在3 m - l o m b p s 。m p e g - 2 技术就是实现d v d 的标准技术，现在d v d 播放器已经在家庭中普及起来了，除了用于d v d 外，还可以为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。 m p e 6 4 旨在将众多的多媒体应用集予一个完整的框架内，为不同性质的视频、第一章绪论音频数据制定通用的编码方案，提出基于内容( c o n t e n t b a s e d ) 的视频对象( v i d e o o b j e c t ) 的编码标准。它不仅针对一定比特率下( 4 8 0 0 6 4 0 0 b p s ) 的视频、音频编码，更加注重于多媒体系统的交互性和灵活性。为了达到这个目标，m p e g - 4 引入了对象基表达( o b j e c t b a s e dr e p r e s e n t a t i o n ) 的概念，用来表达视听对象 ( a u d i o v i s u mo b j e c t s ，a v o ) ；m p e g - 4 扩充了编码的数据类型，由自然数据对象扩展到计算机生成的合成数据对象，采用合成对象自然对象混合编码 ( s y n t h e t i c n a t u r a lh y b r i dc o d i n g ，s n h c ) 算法；基于内容的压缩编码是m p e g 一4 研究的热点。婶e g 一4 的编码系统是开放的，为各种多媒体应用提供一个灵活的框架和一套开放的编码工具，不同的应用可选取不同的算法。 m p e g - 7 的工作于1 9 9 6 年启动，名称叫做多媒体内容描述接口( m u l t i m e d i a c o n t e n td e s c r i p t i o ni n t e r f a c e ) ，目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3 d 模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。m p e g 一7 的应用领域包括：数字图书馆( d i g i t a ll i b r a r y ) ，例如图像目录、音乐词典等：广播媒体的选择，例如无线电频道，t v 频道等；多媒体编辑例如个人电子新闻服务，多媒体创作等等。 h 2 6 4 ( m p e 0 4 的p a r t l o ) 发布于2 0 0 3 年，它是由r r u t 和i s o 共同制定的新一代图像压缩标准，能提供比m p e 0 - 4 和h 2 6 3 更高的压缩性能，使图像的数据量减少5 0 ，有利于有限的空间存储更多的图像数据；对网络传输具有更好的支持，引入面向数据包编码，有利于将数据打包在网络中传输，支持流媒体服务应用；具有较强的抗误码特性，以适应在噪声干扰大、丢包率高的无线信道中传输；对不同应用的时延要求具有灵活的适应性；编码和解码复杂度具有可扩展性，支持编码和解码复杂度的不等分配和扩展。h 2 6 4 中引入了一些新的压缩方法，以提高压缩效率，它具有如下特点：增强的运动补偿性能，采用更小块进行变换编码，采用块间滤波器提高性能，高性能的熵编码，采用s p 和s i 帧支持视频流间切换等。 1 4 论文内容及作者所完成的工作本文简要介绍了视频压缩编码的原理和基本的压缩方法，并在此基础上重点研究了m p e g - 4 和h 2 6 4 a v c 视频压缩编码的标准，针对m p e g - 4 提出了一种编码器的s o c 实现，采用现场可编程门阵列( f p g a ) 和a r m 构建d e m o 系统，对其中的d c t i d c t 、量化反量化及帧内预测进行了深入研究。本文作者参与了m p e g _ 4 视频编码系统方案的设计，主要负责d c m d c t 、量化反量化及帧内预测模块的硬件设计，并完成该模块的硬件实现和调试。论文章节安排如下： 6 m p e g - 4 视频编码系统的研究与实现第一章绪论对图像压缩编码的原理及方法和现行的图像压缩编码标准作了简要的介绍，并介绍了作者的主要工作。第二章介绍了m p e g 4 视频编码的国际标准，详述了m p e g - 4 的分层语法描述结构和视频编码基本结构，由此提出了基于硬件实现的m p e g - 4 视频编码系统方案，并详细说明了各个组成部分的功能。第三章详细介绍了m p e g - 4a s p 级视频编码系统的硬件实现，在给出系统设计的基础上，详细讨论了d c t 仃d c t 、量化反量化及帧内预测模块在f p g a 中的设计实现。第四章介绍了h 2 6 4 a v c 视频压缩编码标准，并论述了其中的整数变换及帧内预测编码。第二章m p e g - 4 及其编码系统的硬件实现结构! 第二章m p e g 4 及其编码系统的硬件实现结构 2 1m p e g - 4 标准概述在m p e o - 4 制定之前，m p e g 1 、m p e g - 2 、h 2 6 1 、h 2 6 3 都是采用第一代压缩编码技术，着眼于图像信号的统计特性来设计编码器，属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧，每一帧图像又分成宏块以进行运动补偿和编码，这种编码方案存在以下缺陷。 1 将图像固定地分成相同大小的块，在高压缩比的情况下会出现严重的块效应，即马赛克效应： 2 不能对图像内容进行访问、编辑和回放等操作： 3 未充分利用人类视觉系统( h v s ，h u m a n v i s u a ls y s t e m ) 的特性。由i s o f l e c 于1 9 9 8 年推出并于1 9 9 9 年正式成为国际音视频压缩标准的 m p e g - 4 ，除采用第一代视频编码的核心技术，如变换编码、运动估计与运动补偿、量化、熵编码外，还提出了一些新的有创见性的关键技术充分利用了人眼视觉特性，抓住了图像信息传输的本质从轮廓、纹理思路出发，支持基于视觉内容的交互功能，这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。 m p e g - 4 标准提供了一系列技术以满足作者、服务提供者和终端用户的不同需求，例如： 1 对于作者，其作品的内容具有更大的可重复使用性，并能更好地保护作者的知识产权： 2 对于网络服务的提供者，提供了透明的信息，该信息可以被转换为每一网络的本地的信息形式，例如把语言转换为本地的语言等； 3 对于终端用户，在作者的限制范围内有着更高程度的交互性。较之m p e g 前两个图像压缩标准而言，m p e o _ 4 为多媒体数据压缩提供了一个更为广阔的平台，它更多定义的是一种格式和框架，而不是具体的算法。采用了基于对象( o b j e c t - b a s e d ) 的编码、基于模型( m o d e l - b a s e d ) 的编码等第二代编码技术是m p e g - 4 标准的主要特征。在m p e g _ 4 中把连续活动的画面及伴音的整体称之为一个场景( s c e n e ) 。在场景内部按内容及相关性分割为多个媒体对象 ( m e d i a o b j e c t ) 。因为媒体对象自身并不包含其在场景中的时间与空间信息，因此为了在重建时能准确恢复出原始的场景，在传输媒体对象自身的信息之外，我们还需要传输对象在场景中的时空信息及对象相互之间的关系，这些被称为场景描述信息。 m p e g - 4 视频编码系统的研究与实现基于对象的分级功能是m p e g - 4 提供的又一个新功能，同时兼容于m p e g 2 标准中的图像分级功能，分级工具主要用于互联网和无线网等窄带的视频通信、多质量视频服务和多媒体数据库预览等服务。m p e g - 4 提供了两种基本的分级工具：时域分级和空域分级，时域分级是降低原视频序列的帧频，空域分级是降低原视频序列的分辨率。在每类分级工具中，视频序列都可以分为两层：基层和增强层基层提供了视频序列的基本信息，增强层提供了视频序列更高的分辨率和细节，基层可以单独传输和解码。m p e g - 4 也支持时域和空域的混合分级。由于移动通信的迅速发展，通过无线网传输音频和视频信息变褥越来越重要了，这需要提供在易错的同心环境下实现安全的低码速率编码和传输。m p e g - 4 的编码具有鲁棒性和纠错功能，它采用3 个策略来达到此目的：再同步 ( r e s y n c h r o n i z a t i o n ) 、数据恢复( d a t ar e c o v e r y ) 、错误隐藏( e r r o r c o n c e a l m e n t ) 。再同步工具在检测到误码时重新在解码器和码流间建立同步点，前一个同步点和新建立的同步点间的码流就是发生误码的数据：数据恢复是通过标准中提供的一种可逆变长编码技术来恢复两个同步点之间的数据：错误隐藏通过空间的纹理相关性和视频前后帧的相关性对错误的图像区域进行隐藏。 2 2m p e g - 4 视频编码的内容及相关知识 2 2 1m p e g 一4 分层描述语法结构 m p e g - 4 标准中引入了视频对象( v ov i s u a lo h j e t 0 的概念来实现基于内容的表示。一个m p e g - 4 视频场景中可能包含有一个或者多个视频对象。每个视频对象都以形状、纹理、运动在时间和空间上信息不同来区分。如图2 1 所示，m p e g - 4 的视频码流提供了对视频场景的分层描述。层次结构中的每一层都可以通过被称为起始码的特殊码字从视频流中识别出来。对场景最直接的分层描述如下所示( 这里主要考虑自然视频对象的编码问题) 。用来描述场景的分层级为： 1 视频序列( 、r s ) ：完整的m p e g - 4 场景，可以包括任何二维和三维自然或合成对象以及它们的增强层。 2 视频对象f v o ) ：一个视频对象对应着场景中的一个特定2 d 对象。在大多数简例中视频对象都是一个矩形帧，当然也可以是任意形状的对象或是场景中的背景。 3 视频对象层( v o l ) ：根据应用的具体要求，每一个视频对象都可以用分级或不分级的方式进行编码，用视频对象层来表征。视频层提供了对分级编码的支持。一个视频对象可利用空间或时间可伸缩性进行编码使分辨率从粗糙到精确。 4 视频对象平面组( g o v ) ：可以提供码流中独立编码的视频对象平面参考点，因第二章m p e g 一4 及其编码系统的硬件实现结构一9 此可以支持对码流的随机访问点，是任选的。 5 视频对象平面( ( v o p ) ：一个v o p 是对一个视频对象的时间采样，包括视频对象的运动参数、形状信息和纹理数据。v o p 可以是相互独立编码t 也可以是通过运动补偿依靠其它v o p 编码。对v o p 编码就是针对某一时刻该帧画面v o 的形状、运动、纹理等信息进行编码。 v s 0 v s i 。一榔唑一一7 弋一一一 v ( 2 0 v o i - - - - 一曲嘶。巳一六曲o 帅l a y e tv o l o v o l i 一一一。一一_ 夕一弋一一一一一一一一一一一一一一 g o v o g o v l 一 g r o t j p o f ”竺一。o - 一一一一厶一一一一一一一一一一一 ? v i 出o o 帅p l 眦v o mv o p lv o p ov 0 p l 一圈2 1m p e g - 4 的视频码流逻辑结构图 2 2 2m p e g - 4 视频编码基本结构介绍 l 一一一j 一一一一一一- - ! i -l ir i l |形状编码l 一一一一_ 一j 【一图2 2 基于对象的视频编码通用框架在基于对象的视频编码中，编码的基本单元是对象，主要针对纹理、形状、运动这三种信息的编码技术。从图2 2 中可以看到，视频编码框架中主要包括的三个关键模块，也即是形状、运动和纹理编码模块。 ( 1 ) 形状编码 m p e g - 4 引入了形状信息编码，尽管形状编码在计算机图形学、计算机视觉和 1 0 m p e g 4 视频编码系统的研究与实现图像压缩领域不是什么新技术，但将其纳入完整的视频编码标准内，这还是第一次。v o 的形状信息有两类：二值形状信息和灰度形状信息。二值形状信息用0 ，l 来表示v o p 的形状，0 表示非v o p 区域，1 表示v o p 区域。二值形状信息编码采用基于运动补偿块技术，可以是无损或有损编码。灰度形状信息用0 - 2 5 5 之间的数值来表示v o p 的透明度，其中0 表示完全透明( 相当于二值形状信息中的0 ) ，2 5 5 表示完全不透明( 相当于二值形状信息中的1 ) 。灰度形状信息的编码采用基于块的运动补偿d c t 方法f 同纹理编码相似) ，属于有损编码。目前标准中采用矩阵的形式来表示二值或灰度形状信息。 ( 2 ) 运动信息编码类似于现有的视频编码标准，m p e g - 4 采用运动预测和运动补偿技术去除图像信息中的时间冗余度，而这些运动信息的编码技术可视为现有标准向任意形状的 v o p 延伸。v o p 编码有3 种模式，即帧内( i n t r a - f r a m e ) 编码模式( 1 v o p ) ，帧间 ( i n t e r - f r a m e ) 预测编码模式( p v o p ) 和帧间双向预测( b i d i r e e t i o n a l y ) 编码模式 f b - v o p ) a 在m p e g - 4 中运动估计和运动补偿可以是基于1 6 1 6 象素宏块，或是8 8 象素块。为了能适应任意形状的v o e m p e g - 4 引入了图像填充( i m a g ep a d d i n g ) 技术和多边形匹配( p o l y g o nm a t c h i n g ) 技术。图像填充技术利用v o p 内部的象紊值来外推v o p 外的象素值，以此获得运动估计的参考值。多边形匹配技术则将v o p 的轮廓宏块的活跃部分包含在多边形之内，以此来增加运动估计的有效性。 ( 3 ) 纹理编码纹理编码的对象可以是帧内编码模式( i v o p ) ，也可以是帧间编模式b v o p 或 p - v o p 。编码方法基本上仍采用基于8 x 8 象素块的d c t 方法。在帧内编码模式中，对于完全位于v o p 内的象素块，则采用经典的d c t 方法：对于部分在v o p 内，部分在v o p 外的象素块则首先采用图像填充技术来获取v o p 之外的象素值，之后再进行d c t 编码。帧内编码模式中还将对d c t 变换的d c 及a c 系数进行有效的预测。在帧问编码模式中，为了对b v o p 和p v o p 运动补偿后的预测误差进行编码，可将那些位于v o p 活跃区域之夕的象素值设为1 2 8 。变换之后的d c t 系数还需经过量化、扫描及变长编码，这与现有标准基本相同。 ( 4 ) 分级编码在m p e g - 4 分层描述语法结构单元中曾提到这个概念，现在做迸一步分析。引入分级编码可使得接收机可依据具体的信道带宽、系统处理能力、显示能力及用户需求进行多分辨率的解码及重放。m p e g - 4 通过视频对象层v o l 的数据结构来实现分级编码。每一种分级编码都至少有两层v o l ，低层称为基本层，高层称为增强层。空间伸缩性可通过增强层强化基本层的空间分辨率来实现，因此，在对增强层中的v o p 进行编码之前，必须先对基本层中相应的v o p 进行编码。同第二章m p e g 一4 及其编码系统的硬件实现结构旦样对于时域伸缩性，可通过增强层来增加视频序列中某个v o p 特别是运动的v o p 的帧率，使其与其余区域相比更为平滑。可见，纹理编码、运动预测和运动补偿部分在原理上同现有标准是一致的。值得注意的是形状编码，它是图像编码标准中第一次引入的技术。为了支持基于内容的功能，编码器可对图像序列中具有任意形状的v o p 进行编码。尽管如此，从编码方案上说，m p e g - - 4 仍然是以子块为基础的混合编码。因为m p e g - 4 的编码机制都是基于1 6 x1 6 象素宏块来设计的，不仅可以与现有的标准兼容，还便于对编码进行更好的扩展。标准的矩形帧可以认为是v o p 的特例，在编码过程中其形状编码模块可以被屏蔽。一般说来，基于对象的视频编码过程可以分三步进行： f 1 ) 对原始视频流中采用全自动、半自动、人工等方法分割出视频对象。 f 2 ) 对视频对象进行编码，对不同视频对象的运动信息、形状信息和纹理信息分配不同的码字。 ( 3 ) 对各个视频对象的码流进行复合。从上面的编码结构框图可以看出，对任意形状的视频对象进行编码首先需要对视频场景中的视频对象进行分割，但是目前图像分割算法运算量大且还不成熟，故其仍处于研究过程中没有实用意义。在本篇论文中主要对纹理编码部分进行深入的研究和实现。 2 3 基于硬件实现的m p e g 一4 视频编码系统 2 3 1 系统的性能指标根据m p e g - 4 标准及v 1 8 参考模型，我们设计了m p e g - 4a s p ( a d v a n c e d s i m p l ep r o f i l e ) 级的硬件编码器，该系统设计目标如下：编码标准：m p e g - 4 a d v a n c e ds i m p l e p r o f i l e l 1 、l 2 、l 3 、l 4 支持视频制式：6 2 5 6 0 ( n t s c ) ，4 8 07 2 0 国3 0 f p s ； 6 2 5 5 0 ( p ：a l ) ，5 7 67 2 0 2 5 f p s ： 4 ：2 ：2 到4 ：2 ：0 格式转换；运动场景检测；运动估计搜索范围：横向【- 1 2 7 ，+ 1 2 8 1 ，纵向【- - 6 3 ，+ “】，l “象素；同时支持场( f i e l d ) 格式运动估计和帧( f r a m e ) 格式运动估计：支持4 运动矢量编码模式；同时支持场格式d c t a r a c t 和帧格式d c t i d c t ：支持i - v o p 的d c 预测和a c 预测；同时支持i - v o p 、p v o p 、b - v o p 格式编码； m p e g - a 视频编码系统的研究与实现支持4 通道视频输入同时编码；图像分割模块支持4 c i f - - c i f 的格式转换，横向4 级f i r 滤波压缩码流的随机接入( 强制i - v o p 编码) ：码流控制支持c b r 和v b r ；支持抗误码( e r r o rr e s i l i e n c e ) 编码模式；单片外扩8 m b y t e s d r a m 存储器；支持交替扫描( a l t e r n a t e ) 和z i g z a g 扫描： o b m c ( o v e r l a p p e d b l o c km o t i o nc o m p e n s a t i o n ) 特殊处理： 2 3 2 系统结构和功能描述 m p e g - 4 视频编码系统框图如图2 3 所示。根据视频压缩的特点，我们采用软硬件来联合实现基于m p e g - - 4 视频压缩编码器，硬件完成实时编码，软件实现整体控制调度。我们通过两片f p g a 来实现运动估计、d c t i d c t 、v l c 和码流复合部分，而a r mc p u 则以软件的形式完成码率控制部分以及编码器的整体参数设定、人机通信等。， a r m 7 f p g a 2 f - _ _ 1 o i 差 j - - - 刊图2 3m p e g - 4 视频编码器硬件框图 a r m 7c p u 通过i i c 总线配置d a c 寄存器，完成对d a c 的控制，并完成d a c 的数据总线调度。标准视频信号通过d a c 采样处理后送入f l u ) c a 进行编码，输出码流数据在经过输出驱动后可通过外部u s b 采集卡采集存储或者接入网络、微波设备传输，s d r a m 主要完成编码过程中实时帧、重建帧数据的存储系统按其功能主要分成如下几个功能模块：输入模块、运动估计模块、数据流调度模块、d c t 量化模块、码流复合模块、码率控制及系统控制模块。各部分功能描述如下： 1 数据流调度模块第二章m p e g 一4 及其编码系统的硬件实现结构旦数据流调度模块主要完成s d r a m 的写入与读出，包括图像分割及图像格式转换、实时数据写入、当前宏块数据的读取、重建宏块数据的写入、搜索窗数据的读取或者b - v o p 时两个参考宏块数据的读取，为运动估计部分及d c t 变换部分作数据准备与数据暂存。 2 运动估计补偿模块读取当前帧和参考帧相应数据，以宏块( m b ) 为单位用分层准全搜索( f s ) 算法进行块匹配搜索，搜索范围为( + 3 2 ，一3 1 5 ) 。分两个阶段进行，首先进行整点搜索，根据搜索的结果确定宏块编码模式，即帧内编码( i n t r a ) 或帧间编码( i n t e r ) 。对于帧内编码宏块，直接把当前原始宏块数据输出给o c t 模块处理；对于帧间编码宏块，分别对当前宏块和参考帧搜索窗内数据进行双线性插值，再进行半象素精度的运动估计。运动估计获得的误差块数据输出并由o c t 模块处理，获得的运动矢量输出到码流复合模块进行运动矢量的差分变长编码，并装帧。同时重建模块读取运动矢量，由i d c t 处理得到的误差宏块数据和参考帧图像的相应宏块的数据，重建当前编码宏块的数据。 3 d c t 量化模块 d c t 从运动估计模块得到帧间编码的残差数据或帧内编码的原始数据，以块为单位进行二维8 x 8 的d c t 变换，变换后的d c t 系数截短为1 2

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）mpeg4视频编码系统的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）mpeg4视频编码系统的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档