




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 在信息技术飞速发展的今天,多媒体通信成为人类新兴的交流手段。其中, 携带着巨大的信息量的数字视频在信息社会中发挥着越来越重要的作用。由于计 算机技术、通信技术、微电子技术、网络技术的进步,实时视频压缩和传输成为 可能,人们可以在此基础上享受技术进步带来的便利。 本文介绍了作者在视频压缩编码及其硬件实现方面的研究。作者研究了 i s o i e cm p e g - 4 视频编码标准,并在该标准的基础上提出了一种编码器的s o c 实现,采用f p g a 和a r m 构建d e m o 系统,对其中的d c t i d c t 、量化反量化及 帧内预测进行了深入研究,并在理论的基础上提出了其硬件实现方案。 本文介绍了m p e g - 4 标准的基本原理,m p e g - 4 视频编码器总体框架及各部 分功能,m p e g - 4 d c t i d c t 、量化反量化及帧内预测的原理及硬件实现:最后对 h 2 6 4 m p e g - 4 a v c 视频压缩编码标准做了初步研究,并论述了其中的整数变换及 帧内预测编码。 关键词:视频编码b p e g - 4 d c t i d c tf p g ah 2 6 4 a v c a bs n m c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ti nt h ca r e ao fi n f o r m a t i o nt e c h n o l o g y ,m u l t i m e d i a c o m m u n i c a t i o nh a sb e e nan e w w a yo f h u m a ni n t e r c o m m u n i o n s p e c i a l l y ,d i g i t a lv i d e o p l a y sam o r ea n dm o r ei m p o r t a n tr o l e i ni n f o r m a t i o ns o c i e t y 1 1 1 ea d v a n c e m e n t so f c o m p u t e rt e c h n o l o g y ,c o m m u n i c a t i o nt e c h n o l o g y ,m i c r o c l e c t r o n i c st e c h n o l o g y , n e t w o r kt e c h n o l o g ym a k er e a l - t i m ev i d e oc o m p r e s s i o na n dt r a n s p o r t a t i o np o s s i b l e c o n s e q u e n t l y , p e o p l ee n j o y t h ec o n v e n i e n c em a d e b yt e c h n o l o g y a d v a n c e s t 1 1 i sd i s s e r t a t i o np r e s e n t st h es t u d yo fs e v e r a li s s u e si nv i d c oc o d i n ga n di t s h a r d w a r ei m p l e m e n t a t i o n 。an o v e ls y s t e mo l lc h i p ( s o c ) i sp r o p o s e db a s e d0 1 1t h e i s 0 ,i e cm p e g - 4 w ed ot h i sb y a d o p t i n gf p g ap l u sa r m t h ef p g ac h i pd e a l s 、i t i l a l l p r o c e d u r e s i nm p e g - 4v i d e oc o m p r e s s i o ns y s t e m ,s u c ha sm o t i o ne s t i m a t i o n , d c l y 日d c t a n d p i c t u r e r e c o n s t r u c t i o n , v a r i a b l e l e n g t hc o d i n g , b i ts t r e a m m u l t i - c o m p l e x e t c ;w h i l et h ea i 洲c p u d e a l s “t i lm t ec o n t r o la n dt h ep a r a m e t e r s i n t i a l i z t i o no ft h ew h o l ec o d i n gs y s t e m s o m ek e yt e c h n i q u e s s u c ha sd c t ,i d c t 、 q u a n t i z a t i o n i n v e r s eq u a n t i z a t i o na n di n t r ad c ,a cp r e d i c t i o n a ms t u d i e di nd e t a i l t h e h a n i 、m d e s i g no f w i t c h i sp r e s e n t e db a s e do u t h e o r y i nt h i sd i s s e r t a t i o n , w ed e s c r i b et h eb a s i cp r i n c i p l eo f m p e g - 4 s y s t e mf r a m e w o r k o f 咿e g _ 4e n c o d e ra n d c o m p o n e n tf u n c t i o n , d c t qp r i n c i p l e a n dh a r d w a r e i m p l e m e n t a t i o n s o m es i m u l a t i o n r e s u l t sa n dp r a c t i c a lr e s u l t sa r e s h o w n ;f i n a l l y a r o u g h l ys t u d yo f h 2 6 4 m p e g - 4a v ci sp r e s e n t e d ,s p e c i a l l y ,i n t e g e rt r a n s f o ra n di n t r a p r e d i c t i o na 地s t u d i e d i nd e t a i l k e y w o r d :v i d e oc o d i n g m p e g - 4d c t i d c tf p g ah 2 6 4 a v c y 6 9 5 4 4 i 创新性声明 本人声明所呈交的论文是我个人在导师的指导下迸行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢串所罗列的内容以外,沦交牛 不包含其它人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学 或其它教育机构的学位或证书丽使用过的材料。与我同工作的同志所做的任何 贡献均已在论文中傲了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:、虐墼选日期: 塑:! 一z 。 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公伟论文的全 部或部分内容,可以允许采用影印、缩印、或其它复制手段傈存论文。( 保密的 论文在解密后遵守此靓定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名:歪塑鱼日期:盟:,三二 导师签名:么兰诲 导师签名:么;当萍埠 日期:超卫璺 第一章绪论 第一章绪论 1 1 引言 未来的人类社会将是信息化社会,图像是多媒体中携带信息极其重要的媒体, 统计资料表明,人们获取信息的7 0 来自图像。数字化后的信息,尤其是数字化 后的视频和音频信息,具有数据海量性的特点,它给信息的存储和传输造成很大 的困难,成为阻碍人类有效获取和使用信息的瓶颈问题之一。因此,研究和开发 新型有效的多媒体数据压缩编码方法,以压缩的形式存储和传输这些数据将是最 好的选择。 在许多应用领域,都会遇到需要对大量图像数据进行传输与存储的问题。例 如,在传输方面:数字电视、遥感照片、军事侦察图像、可视电话、会议电视和 传真照片等:在存储方面:教育、商业、管理等领域的图文资料、医用图像、天 气云图等等,海量图像数据几乎涉及各个行业。为了在最短的时间传递尽可能多 的图片,或者为了利用有限的存储容量存储更多的图像信息,或者为了在有限的 带宽条件下传输尽可能多的活动图像,就要研究怎样才能最大限度的压缩图像数 据,并且保证压缩后的重建图像能够被用户所接受,这就是图像编码所要解决的 问题。 1 2 视频编码原理及方法 视频编码的目的是实现对视频的压缩,其核心思想是去相关。通过减少视频 序列问的相关性,降低视频内容中的冗余,用较少的比特数来表示视频内容,从 而实现对视频的压缩。视频序列中的冗余主要有以下几个方面。 空间冗余 空间冗余是指在同一帧画面中,相邻的像素间存在的相关性,特别是当这些 相邻像素位于同一个视频对象中时,相关性极强。例如在图像的背景区域。 时间冗余 通常对视频序列而言,除非发生场景切换,否则相继帧在时间上都是连续的。 在前后两帧中往往包含与当前帧相同的背景和对象。只是由于镜头的转动或对象 的移动使得空间位置发生变化。运动越缓慢,位置的变换越小。因此视频序列在 时域存在极强的相关性。 编码冗余 对于编码符号,其平均码长高于所表示信息的信息熵,这个差值就形成了编 码冗余。编码冗余、空间冗余和时间冗余都依赖于图像数据的统计特性,可以统 m p e g - 4 视频编码系统的研究与实现 称为统计冗余。 人眼视觉冗余 由于人眼视觉的非均匀性,使得人眼视觉对某些空间频率感觉迟钝。因此视频 中不同频率成分的内容对于人眼系统而言其重要性是不同的。也就是说存在频域 冗余。例如人眼视觉系统对亮度信号变化的敏感性高于色度信号变化。因此可以 对色度分量进行降采样,同时保持主观视觉质量不变。y u v 4 :2 :o 色差格式就是对 色度分量在水平和竖直两个方向进行2 :1 的降采样。另一方面对信号频域的各个分 量可以采取不同的量化步长,将人眼视觉不敏感的分量去除,而不会引起主观质 量的下降。 结构冗余和知识冗余 图像的某些区域存在非常强的纹理结构,图像像素值有明显的分布模式,形成 结构冗余,或者图像中包含的信息与某些先验知识有关,例如人的五官位置对于 人脸而言就是一种先验知识,这种冗余构成知识冗余。 信源编码的方法按照压缩数据能否被准确恢复分为两太类:无损编码和有损编 码。虽然无损编码可以无失真的恢复原始数据,但其压缩效率十分有限。因此在 视频压缩中都是将无损编码和有损编码结合使用。视频编码中主要压缩技术有以 下几种。 预测编码 预测编码不是对一个像素直接编码,而是用同一帧( 帧内预测编码) 或相邻帧( 帧 间预测编码) 中的像素值来进行预测,然后对预测残差进行变换编码。显然预测编 码实际是利用了图像数据中的空间和时间冗余。线性预测编码又称为差分脉冲编 码调制d p c m ( d i f f e r e n t i a l p u l s ec o d e m o d u l a t i o n ) ,由于算法简单,易于硬件实现, 已被各种视频编码标准采纳。 帧间预测编码的主要方法有帧重复法、帧内插法和运动补偿法等。其中运动补 偿法在视频编码中使用的最为广泛。运动补偿预测通常可以采用单向预测( 一个参 考帧) ,双向预测( 两个参考帧) 和插值预测( 取两个参考帧预测值的平均) 来实现。由 于运动补偿预测可以有效的减少视频序列的时域冗余,因此成为构成当前主要视 频编码标准最基本的技术之一。 变换编码 交换编码是构成当前主要视频编码标准的另一项最基本技术,用来消除图像的 频域( 变换域) 冗余。 正交变换编码通常是将空域相关的像素点映射到另一个正交矢量空间,使得变 换后的系数之间相关性降低。常见的正交变换有k l ( k a r h u n e n - l o e v e ) 变换、离散 傅立叶变换d f t ( d i s c r e t ef o u r i e rt r a n s f o r m ) 、离散余弦变换d c t ( d i s c r e t ec o s i n e t r a n s f o r m ) ,沃尔什哈达i 蟹j ( w a l s h - h a d a m a r d ) 变换和哈尔( h a r t ) 变换。k - l 变换是均方 第一章绪论 误差准则下的最优变换,但实现困难。在现行视频编码标准中几乎都采用了性能 最接近k l 变换的d c t 。 变换编码除了采用正交变换编码外,还有子带编码和小波编码。由于正交变换 编码使得图像的能量集中在低频区域,表示图像中缓慢变化的内容,而图像的边 缘、细微的纹理等细节部分集中在变换域的高频区。为了实现压缩,通常采用同 一个量化器进行量化,这样就牺牲了图像的细节部分,造成解码图像模糊。在高 压缩比时,基于块的正交变换编码还会产生块效应( ( b l o c ke f f e c t ) ,降低图像质量。 而子带编码则是将图像分裂成几个不同频段的子带( s u b b a n d ) ,对不同的予带设计 不同的编码参数,提高图像质量。小波变换编码充分利用了小波分析在时域和频 域同时具有良好的局部化特性,与人昨视觉特性相符的多分辨率能力,分解系数 分布平稳,自然分级的金字塔式数据结构等优点,在视频压缩领域引起广泛的关 注。它利用与正交分解完全不同的小波分解,以原始图像( 不是原始图像中的块) 为初值,不断的将上一级图像分解为4 个子带:上一级图像中的低频信息、垂直方 向、水平方向和对角线方向的边缘信息。从多分辨率分析出发,一般每次只对上 一级的低频子图图像进行分解。将整个图像而非其中的块作为整体进行传送,因 此不会产生块效应。由于小波变换的金字塔式数据结构的每一层都包含整个图像 的信息,只是其中的分辨率不同,因此可以选择传送部分或全部,非常简单,自 然的实现可分级视频编码。 统计编码 根据香农信息论的观点,信源冗余度来自信源本身的相关性和信源内部事件概 率分布的不均匀性。统计编码主要有基于概率分布特性的霍夫曼编码和算术编码 以及基于相关性的游程长度编码三类。 霍夫曼编码( h u f f m a nc o d i n g ) 是一种变长编码v l c ( v a r i a b l el e n g t hc o d i n g ) 霍 夫曼编码将信源符号按概率大小重新排序,通过二叉树算法,依次将两个概率最 小的节点合并,直至根结点。完成树的构造后,给所有的树枝分配0 和1 ,这样就 可以给高概率符号分配短码,而概率小的符号则分配较长的码字,去除符号间的 统计冗余。在已知信源符号概率时,可以给出极好的编码性能。但霍夫曼编码严 重依赖信源的统计特性,编码前必须有信源概率分布的先验知识。对于复杂的视 频来说,只能用对大量数据统计后获得的近似分布来代替,因此实际应用时无法 达到最佳性能。另一方面v l c 提高了编码效率,但不利于硬件实现。 游程长度编 码r l c ( r u nl e n g t hc o d i n g ) 是将符号值相同的连续符号串用一个游 程长度( 符号数) 和一个代表值( 值) 描述。这样可以用更紧密的序列代替原有的相同 值符号串。在视频压缩中,量化后的数据常常出现大量的连零系数,利用游程长 度编码可以有效的降低表示零码的比特数。 算术编码( a r i t h m e t i cc o d i n g ) 是2 0 世纪8 0 年代发展起来的,理论上,算术编码 m p e g - 4 视频编码系统的研究与实现 和霍夫曼编一码都是最佳的,但在信源概率分布未知的情况下,算术编码优于霍 夫曼编码。算术编码的基本原理是用( o ,1 1 之间的一个概率区间来表示数据序列。将 信源x 的个给定状态x = f x l ,x s 与【0 ,1 】间的一个由大概率p 和小概率q 限定 的概率子区间相联系,区间的长度等于序列的概率p ( ) ( ) 。编码器从n = l 开始,逐 位的处理输入的符号流。每输入一位,更新当前符号的条件概率,并以此调整p 和q 限定的概率子区间。随着n 的增加,和输入符号序列相联系的概率子区间就 变得越来越小。最后用这个表示概率子区间的小数给符号序列编码。 分形编码和模型基编码 本文的主要集中予基于块匹配的编码框架中,因此分形编码和模型基编码超出 了本文的讨论范围,不在此详述。 1 3 现有的视频编码标准及其介绍 自8 0 年代以来,由于数字存储媒体、电视传播及通信等应用中对运动图像编 码方法需求的日益增长,i t u ,i s o 等国际组织都成立了专门的机构,致力于制订 运动图像压缩编码的国际标准。到目前为止,已经开发和正在开发的运动图像压 缩标准有:h 2 6 1 、h 2 6 3 、m p e g - 1 、m p e g 一2 、m p e g - 4 、m p e g 一7 、h 2 6 4 、和m p e g 一2 l 。 下面对这些标准分别做一简单介绍。 c c i t t ( 即后来的i t u ) 第1 5 研究组于1 9 8 4 年成立了“可视电话专家组”,经过 1 9 8 5 1 9 8 8 三年的研究,提出了视频编解码器的的h 2 6 1 标准草案,以覆盖i s d n 基群信道,满足会议电视和可视电话业务日益发展的需要。1 9 9 0 年7 月通过了该 标准,定名为“p 6 4 k b p s 视听业务的视频编码器”,其中p = l 3 0 。为了满足近 年来在普通公用电话网或移动电话网上进行可视电话通信的需要,即视频压缩率 低于6 4 k b p s ,在诸如2 8 8 k b p s 等速率的信道上进行可视电话通信,i t u - t 在h 2 6 1 标准基础上进行了改进,于1 9 9 5 年提出了h 2 6 3 标准甚低码率通信的视频编码”。 m p e g l 制定于1 9 9 2 年,可适用于不同带宽的设备,如c d - r o m 、v i d e oc d 。 它的目的是把2 2 1 m b p s 的n t s c 图像压缩到1 2 n l b p s ,压缩率为2 0 0 :1 。传输速率 为1 5 m b p s ,编码速率最高可达4 5 她p s ,但随着速率的提高,其解码后的图象 质重有所降低。归e g 一1 主要是针对数字存储媒体,但它也被用于数字电话网络上 的视频传输,如非对称数字用户线路( a d s l ) ,视频点播和教育网路等。 m p e g 一2 制定于1 9 9 4 年,设计目标是高级工业标准的图像质量以及更高的传输 率。它所提供的传输速率在3 m - l o m b p s 。m p e g - 2 技术就是实现d v d 的标准技术, 现在d v d 播放器已经在家庭中普及起来了,除了用于d v d 外,还可以为广播、有 线电视网、电缆网络以及卫星直播提供广播级的数字视频。 m p e 6 4 旨在将众多的多媒体应用集予一个完整的框架内,为不同性质的视频、 第一章绪论 音频数据制定通用的编码方案,提出基于内容( c o n t e n t b a s e d ) 的视频对象( v i d e o o b j e c t ) 的编码标准。它不仅针对一定比特率下( 4 8 0 0 6 4 0 0 b p s ) 的视频、音频 编码,更加注重于多媒体系统的交互性和灵活性。为了达到这个目标,m p e g - 4 引 入了对象基表达( o b j e c t b a s e dr e p r e s e n t a t i o n ) 的概念,用来表达视听对象 ( a u d i o v i s u mo b j e c t s ,a v o ) ;m p e g - 4 扩充了编码的数据类型,由自然数据对象 扩展到计算机生成的合成数据对象,采用合成对象自然对象混合编码 ( s y n t h e t i c n a t u r a lh y b r i dc o d i n g ,s n h c ) 算法;基于内容的压缩编码是m p e g 一4 研究的热点。婶e g 一4 的编码系统是开放的,为各种多媒体应用提供一个灵活的框 架和一套开放的编码工具,不同的应用可选取不同的算法。 m p e g - 7 的工作于1 9 9 6 年启动,名称叫做多媒体内容描述接口( m u l t i m e d i a c o n t e n td e s c r i p t i o ni n t e r f a c e ) ,目的是制定一套描述符标准,用来描述各种 类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材 料可包括静态图像、图形、3 d 模型、声音、话音、电视以及在多媒体演示中它们 之间的组合关系。m p e g 一7 的应用领域包括:数字图书馆( d i g i t a ll i b r a r y ) ,例如 图像目录、音乐词典等:广播媒体的选择,例如无线电频道,t v 频道等;多媒体 编辑例如个人电子新闻服务,多媒体创作等等。 h 2 6 4 ( m p e 0 4 的p a r t l o ) 发布于2 0 0 3 年,它是由r r u t 和i s o 共同制定的 新一代图像压缩标准,能提供比m p e 0 - 4 和h 2 6 3 更高的压缩性能,使图像的数 据量减少5 0 ,有利于有限的空间存储更多的图像数据;对网络传输具有更好的支 持,引入面向数据包编码,有利于将数据打包在网络中传输,支持流媒体服务应 用;具有较强的抗误码特性,以适应在噪声干扰大、丢包率高的无线信道中传输; 对不同应用的时延要求具有灵活的适应性;编码和解码复杂度具有可扩展性,支 持编码和解码复杂度的不等分配和扩展。h 2 6 4 中引入了一些新的压缩方法,以提 高压缩效率,它具有如下特点:增强的运动补偿性能,采用更小块进行变换编码,采 用块间滤波器提高性能,高性能的熵编码,采用s p 和s i 帧支持视频流间切换等。 1 4 论文内容及作者所完成的工作 本文简要介绍了视频压缩编码的原理和基本的压缩方法,并在此基础上重点 研究了m p e g - 4 和h 2 6 4 a v c 视频压缩编码的标准,针对m p e g - 4 提出了一种编 码器的s o c 实现,采用现场可编程门阵列( f p g a ) 和a r m 构建d e m o 系统,对 其中的d c t i d c t 、量化反量化及帧内预测进行了深入研究。 本文作者参与了m p e g _ 4 视频编码系统方案的设计,主要负责d c m d c t 、量 化反量化及帧内预测模块的硬件设计,并完成该模块的硬件实现和调试。 论文章节安排如下: 6 m p e g - 4 视频编码系统的研究与实现 第一章绪论对图像压缩编码的原理及方法和现行的图像压缩编码标准作了简 要的介绍,并介绍了作者的主要工作。 第二章介绍了m p e g 4 视频编码的国际标准,详述了m p e g - 4 的分层语法描 述结构和视频编码基本结构,由此提出了基于硬件实现的m p e g - 4 视频编码系统 方案,并详细说明了各个组成部分的功能。 第三章详细介绍了m p e g - 4a s p 级视频编码系统的硬件实现,在给出系统设 计的基础上,详细讨论了d c t 仃d c t 、量化反量化及帧内预测模块在f p g a 中的设 计实现。 第四章介绍了h 2 6 4 a v c 视频压缩编码标准,并论述了其中的整数变换及帧 内预测编码。 第二章m p e g - 4 及其编码系统的硬件实现结构! 第二章m p e g 4 及其编码系统的硬件实现结构 2 1m p e g - 4 标准概述 在m p e o - 4 制定之前,m p e g 1 、m p e g - 2 、h 2 6 1 、h 2 6 3 都是采用第一代压 缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。 第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏 块以进行运动补偿和编码,这种编码方案存在以下缺陷。 1 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效 应,即马赛克效应: 2 不能对图像内容进行访问、编辑和回放等操作: 3 未充分利用人类视觉系统( h v s ,h u m a n v i s u a ls y s t e m ) 的特性。 由i s o f l e c 于1 9 9 8 年推出并于1 9 9 9 年正式成为国际音视频压缩标准的 m p e g - 4 ,除采用第一代视频编码的核心技术,如变换编码、运动估计与运动补偿、 量化、熵编码外,还提出了一些新的有创见性的关键技术充分利用了人眼视觉 特性,抓住了图像信息传输的本质从轮廓、纹理思路出发,支持基于视觉内容 的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及 操作的发展趋势。 m p e g - 4 标准提供了一系列技术以满足作者、服务提供者和终端用户的不同需 求,例如: 1 对于作者,其作品的内容具有更大的可重复使用性,并能更好地保护作者 的知识产权: 2 对于网络服务的提供者,提供了透明的信息,该信息可以被转换为每一网 络的本地的信息形式,例如把语言转换为本地的语言等; 3 对于终端用户,在作者的限制范围内有着更高程度的交互性。 较之m p e g 前两个图像压缩标准而言,m p e o _ 4 为多媒体数据压缩提供了一 个更为广阔的平台,它更多定义的是一种格式和框架,而不是具体的算法。 采用了基于对象( o b j e c t - b a s e d ) 的编码、基于模型( m o d e l - b a s e d ) 的编码等第二 代编码技术是m p e g - 4 标准的主要特征。在m p e g _ 4 中把连续活动的画面及伴音 的整体称之为一个场景( s c e n e ) 。在场景内部按内容及相关性分割为多个媒体对象 ( m e d i a o b j e c t ) 。 因为媒体对象自身并不包含其在场景中的时间与空间信息,因此为了在重建 时能准确恢复出原始的场景,在传输媒体对象自身的信息之外,我们还需要传输 对象在场景中的时空信息及对象相互之间的关系,这些被称为场景描述信息。 m p e g - 4 视频编码系统的研究与实现 基于对象的分级功能是m p e g - 4 提供的又一个新功能,同时兼容于m p e g 2 标准中的图像分级功能,分级工具主要用于互联网和无线网等窄带的视频通信、 多质量视频服务和多媒体数据库预览等服务。m p e g - 4 提供了两种基本的分级工 具:时域分级和空域分级,时域分级是降低原视频序列的帧频,空域分级是降低 原视频序列的分辨率。在每类分级工具中,视频序列都可以分为两层:基层和增 强层基层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和 细节,基层可以单独传输和解码。m p e g - 4 也支持时域和空域的混合分级。 由于移动通信的迅速发展,通过无线网传输音频和视频信息变褥越来越重要 了,这需要提供在易错的同心环境下实现安全的低码速率编码和传输。m p e g - 4 的编码具有鲁棒性和纠错功能,它采用3 个策略来达到此目的:再同步 ( r e s y n c h r o n i z a t i o n ) 、数据恢复( d a t ar e c o v e r y ) 、错误隐藏( e r r o r c o n c e a l m e n t ) 。 再同步工具在检测到误码时重新在解码器和码流间建立同步点,前一个同步点和 新建立的同步点间的码流就是发生误码的数据:数据恢复是通过标准中提供的一 种可逆变长编码技术来恢复两个同步点之间的数据:错误隐藏通过空间的纹理相 关性和视频前后帧的相关性对错误的图像区域进行隐藏。 2 2m p e g - 4 视频编码的内容及相关知识 2 2 1m p e g 一4 分层描述语法结构 m p e g - 4 标准中引入了视频对象( v ov i s u a lo h j e t 0 的概念来实现基于内容的表 示。一个m p e g - 4 视频场景中可能包含有一个或者多个视频对象。每个视频对象 都以形状、纹理、运动在时间和空间上信息不同来区分。如图2 1 所示,m p e g - 4 的视频码流提供了对视频场景的分层描述。层次结构中的每一层都可以通过被称 为起始码的特殊码字从视频流中识别出来。对场景最直接的分层描述如下所示( 这 里主要考虑自然视频对象的编码问题) 。 用来描述场景的分层级为: 1 视频序列( 、r s ) :完整的m p e g - 4 场景,可以包括任何二维和三维自然或合成 对象以及它们的增强层。 2 视频对象f v o ) :一个视频对象对应着场景中的一个特定2 d 对象。在大多数 简例中视频对象都是一个矩形帧,当然也可以是任意形状的对象或是场景中的背 景。 3 视频对象层( v o l ) :根据应用的具体要求,每一个视频对象都可以用分级或不 分级的方式进行编码,用视频对象层来表征。视频层提供了对分级编码的支持。 一个视频对象可利用空间或时间可伸缩性进行编码使分辨率从粗糙到精确。 4 视频对象平面组( g o v ) :可以提供码流中独立编码的视频对象平面参考点,因 第二章m p e g 一4 及其编码系统的硬件实现结构 一9 此可以支持对码流的随机访问点,是任选的。 5 视频对象平面( ( v o p ) :一个v o p 是对一个视频对象的时间采样,包括视频对 象的运动参数、形状信息和纹理数据。v o p 可以是相互独立编码t 也可以是通过 运动补偿依靠其它v o p 编码。对v o p 编码就是针对某一时刻该帧画面v o 的形 状、运动、纹理等信息进行编码。 v s 0 v s i 。一 榔唑一一7 弋一一 一 v ( 2 0 v o i - - - - 一 曲嘶。巳一六 曲o 帅l a y e tv o l o v o l i 一 一一。一一_ 夕一弋一一一一一一一一一一一一一一 g o v o g o v l 一 g r o t j p o f ”竺一。o - 一一一一厶一一一一一一一一一一一 ? v i 出o o 帅p l 眦v o mv o p lv o p ov 0 p l 一 圈2 1m p e g - 4 的视频码流逻辑结构图 2 2 2m p e g - 4 视频编码基本结构介绍 l 一一一j 一一一一一一- - ! i -l ir i l |形状编码l 一一一一_ 一j 【一 图2 2 基于对象的视频编码通用框架 在基于对象的视频编码中,编码的基本单元是对象,主要针对纹理、形状、 运动这三种信息的编码技术。从图2 2 中可以看到,视频编码框架中主要包括的三 个关键模块,也即是形状、运动和纹理编码模块。 ( 1 ) 形状编码 m p e g - 4 引入了形状信息编码,尽管形状编码在计算机图形学、计算机视觉和 1 0 m p e g 4 视频编码系统的研究与实现 图像压缩领域不是什么新技术,但将其纳入完整的视频编码标准内,这还是第一 次。v o 的形状信息有两类:二值形状信息和灰度形状信息。二值形状信息用0 ,l 来表示v o p 的形状,0 表示非v o p 区域,1 表示v o p 区域。二值形状信息编码 采用基于运动补偿块技术,可以是无损或有损编码。灰度形状信息用0 - 2 5 5 之间的 数值来表示v o p 的透明度,其中0 表示完全透明( 相当于二值形状信息中的0 ) ,2 5 5 表示完全不透明( 相当于二值形状信息中的1 ) 。灰度形状信息的编码采用基于块的 运动补偿d c t 方法f 同纹理编码相似) ,属于有损编码。目前标准中采用矩阵的形 式来表示二值或灰度形状信息。 ( 2 ) 运动信息编码 类似于现有的视频编码标准,m p e g - 4 采用运动预测和运动补偿技术去除图像 信息中的时间冗余度,而这些运动信息的编码技术可视为现有标准向任意形状的 v o p 延伸。v o p 编码有3 种模式,即帧内( i n t r a - f r a m e ) 编码模式( 1 v o p ) ,帧间 ( i n t e r - f r a m e ) 预测编码模式( p v o p ) 和帧间双向预测( b i d i r e e t i o n a l y ) 编码模式 f b - v o p ) a 在m p e g - 4 中运动估计和运动补偿可以是基于1 6 1 6 象素宏块,或是8 8 象素块。为了能适应任意形状的v o e m p e g - 4 引入了图像填充( i m a g ep a d d i n g ) 技 术和多边形匹配( p o l y g o nm a t c h i n g ) 技术。图像填充技术利用v o p 内部的象紊值来 外推v o p 外的象素值,以此获得运动估计的参考值。多边形匹配技术则将v o p 的轮廓宏块的活跃部分包含在多边形之内,以此来增加运动估计的有效性。 ( 3 ) 纹理编码 纹理编码的对象可以是帧内编码模式( i v o p ) ,也可以是帧间编模式b v o p 或 p - v o p 。编码方法基本上仍采用基于8 x 8 象素块的d c t 方法。在帧内编码模式中, 对于完全位于v o p 内的象素块,则采用经典的d c t 方法:对于部分在v o p 内,部 分在v o p 外的象素块则首先采用图像填充技术来获取v o p 之外的象素值,之后 再进行d c t 编码。帧内编码模式中还将对d c t 变换的d c 及a c 系数进行有效的 预测。在帧问编码模式中,为了对b v o p 和p v o p 运动补偿后的预测误差进行编 码,可将那些位于v o p 活跃区域之夕 的象素值设为1 2 8 。变换之后的d c t 系数还 需经过量化、扫描及变长编码,这与现有标准基本相同。 ( 4 ) 分级编码 在m p e g - 4 分层描述语法结构单元中曾提到这个概念,现在做迸一步分析。 引入分级编码可使得接收机可依据具体的信道带宽、系统处理能力、显示能力及 用户需求进行多分辨率的解码及重放。m p e g - 4 通过视频对象层v o l 的数据结构 来实现分级编码。每一种分级编码都至少有两层v o l ,低层称为基本层,高层称 为增强层。空间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此,在 对增强层中的v o p 进行编码之前,必须先对基本层中相应的v o p 进行编码。同 第二章m p e g 一4 及其编码系统的硬件实现结构旦 样对于时域伸缩性,可通过增强层来增加视频序列中某个v o p 特别是运动的v o p 的帧率,使其与其余区域相比更为平滑。 可见,纹理编码、运动预测和运动补偿部分在原理上同现有标准是一致的。 值得注意的是形状编码,它是图像编码标准中第一次引入的技术。为了支持基于 内容的功能,编码器可对图像序列中具有任意形状的v o p 进行编码。尽管如此, 从编码方案上说,m p e g - - 4 仍然是以子块为基础的混合编码。因为m p e g - 4 的编 码机制都是基于1 6 x1 6 象素宏块来设计的,不仅可以与现有的标准兼容,还便于 对编码进行更好的扩展。标准的矩形帧可以认为是v o p 的特例,在编码过程中其 形状编码模块可以被屏蔽。 一般说来,基于对象的视频编码过程可以分三步进行: f 1 ) 对原始视频流中采用全自动、半自动、人工等方法分割出视频对象。 f 2 ) 对视频对象进行编码,对不同视频对象的运动信息、形状信息和纹理信息 分配不同的码字。 ( 3 ) 对各个视频对象的码流进行复合。 从上面的编码结构框图可以看出,对任意形状的视频对象进行编码首先需要 对视频场景中的视频对象进行分割,但是目前图像分割算法运算量大且还不成熟, 故其仍处于研究过程中没有实用意义。在本篇论文中主要对纹理编码部分进行深 入的研究和实现。 2 3 基于硬件实现的m p e g 一4 视频编码系统 2 3 1 系统的性能指标 根据m p e g - 4 标准及v 1 8 参考模型,我们设计了m p e g - 4a s p ( a d v a n c e d s i m p l ep r o f i l e ) 级的硬件编码器,该系统设计目标如下: 编码标准:m p e g - 4 a d v a n c e ds i m p l e p r o f i l e l 1 、l 2 、l 3 、l 4 支持视频制式:6 2 5 6 0 ( n t s c ) ,4 8 07 2 0 国3 0 f p s ; 6 2 5 5 0 ( p :a l ) ,5 7 67 2 0 2 5 f p s : 4 :2 :2 到4 :2 :0 格式转换; 运动场景检测; 运动估计搜索范围:横向【- 1 2 7 ,+ 1 2 8 1 ,纵向【- - 6 3 ,+ “】,l “象素; 同时支持场( f i e l d ) 格式运动估计和帧( f r a m e ) 格式运动估计: 支持4 运动矢量编码模式; 同时支持场格式d c t a r a c t 和帧格式d c t i d c t : 支持i - v o p 的d c 预测和a c 预测; 同时支持i - v o p 、p v o p 、b - v o p 格式编码; m p e g - a 视频编码系统的研究与实现 支持4 通道视频输入同时编码; 图像分割模块支持4 c i f - - c i f 的格式转换,横向4 级f i r 滤波 压缩码流的随机接入( 强制i - v o p 编码) : 码流控制支持c b r 和v b r ; 支持抗误码( e r r o rr e s i l i e n c e ) 编码模式; 单片外扩8 m b y t e s d r a m 存储器; 支持交替扫描( a l t e r n a t e ) 和z i g z a g 扫描: o b m c ( o v e r l a p p e d b l o c km o t i o nc o m p e n s a t i o n ) 特殊处理: 2 3 2 系统结构和功能描述 m p e g - 4 视频编码系统框图如图2 3 所示。根据视频压缩的特点,我们采用软 硬件来联合实现基于m p e g - - 4 视频压缩编码器,硬件完成实时编码,软件实现整 体控制调度。我们通过两片f p g a 来实现运动估计、d c t i d c t 、v l c 和码流复合 部分,而a r mc p u 则以软件的形式完成码率控制部分以及编码器的整体参数设 定、人机通信等。 , a r m 7 f p g a 2 f - _ _ 1 o i 差 j - - - 刊 图2 3m p e g - 4 视频编码器硬件框图 a r m 7c p u 通过i i c 总线配置d a c 寄存器,完成对d a c 的控制,并完成d a c 的数 据总线调度。标准视频信号通过d a c 采样处理后送入f l u ) c a 进行编码,输出码流数 据在经过输出驱动后可通过外部u s b 采集卡采集存储或者接入网络、微波设备传 输,s d r a m 主要完成编码过程中实时帧、重建帧数据的存储系统按其功能主要分成 如下几个功能模块:输入模块、运动估计模块、数据流调度模块、d c t 量化模块、 码流复合模块、码率控制及系统控制模块。各部分功能描述如下: 1 数据流调度模块 第二章m p e g 一4 及其编码系统的硬件实现结构旦 数据流调度模块主要完成s d r a m 的写入与读出,包括图像分割及图像格式转 换、实时数据写入、当前宏块数据的读取、重建宏块数据的写入、搜索窗数据的 读取或者b - v o p 时两个参考宏块数据的读取,为运动估计部分及d c t 变换部分作 数据准备与数据暂存。 2 运动估计补偿模块 读取当前帧和参考帧相应数据,以宏块( m b ) 为单位用分层准全搜索( f s ) 算法 进行块匹配搜索,搜索范围为( + 3 2 ,一3 1 5 ) 。分两个阶段进行,首先进行整点搜索, 根据搜索的结果确定宏块编码模式,即帧内编码( i n t r a ) 或帧间编码( i n t e r ) 。对 于帧内编码宏块,直接把当前原始宏块数据输出给o c t 模块处理;对于帧间编码 宏块,分别对当前宏块和参考帧搜索窗内数据进行双线性插值,再进行半象素精 度的运动估计。运动估计获得的误差块数据输出并由o c t 模块处理,获得的运动 矢量输出到码流复合模块进行运动矢量的差分变长编码,并装帧。同时重建模块 读取运动矢量,由i d c t 处理得到的误差宏块数据和参考帧图像的相应宏块的数据, 重建当前编码宏块的数据。 3 d c t 量化模块 d c t 从运动估计模块得到帧间编码的残差数据或帧内编码的原始数据,以块为 单位进行二维8 x 8 的d c t 变换,变换后的d c t 系数截短为1 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新人才职业发展路径规划考核试卷
- 慢性病防治技能培训考核试卷
- 家用纺织品品牌定位与消费者情感联结策略分析考核试卷
- 儿童书籍读后感
- 乡镇环保工作汇报
- 产业园区调研报告
- 化学助剂项目投资管理方案
- 山东省泰安市肥城市2025届高三下学期高考适应性测试(二)历史试卷(含答案)
- 江铃轻卡巡定展活动方案
- 比亚迪代言活动方案
- 2025年 江西省金控科技产业集团有限公司招聘考试笔试试卷附答案
- 2025云南中考历史真题及答案
- 四川省成都市蓉城联盟2024-2025学年高一下学期6月期末考试物理试题(含答案)
- 压轴训练:全等三角形(多解、动点、新定义型压轴)(原卷版)
- 福建省三明市永安林业(集团)股份有限公司招聘笔试题库2025
- 2025年安庆望江县融媒体中心专业技术人员招聘考试笔试试题(含答案)
- 2025公文写作考试真题库(含答案)
- T/CCS 075-2023煤矿柔性薄喷材料喷涂施工技术要求
- 2025海南中考:政治必考知识点
- 吊装起重作业安全培训
- DLT 5035-2016 发电厂供暖通风与空气调节设计规范
评论
0/150
提交评论