(通信与信息系统专业论文)基于dsp的mpeg4视频压缩编码器的研究.pdf_第1页
(通信与信息系统专业论文)基于dsp的mpeg4视频压缩编码器的研究.pdf_第2页
(通信与信息系统专业论文)基于dsp的mpeg4视频压缩编码器的研究.pdf_第3页
(通信与信息系统专业论文)基于dsp的mpeg4视频压缩编码器的研究.pdf_第4页
(通信与信息系统专业论文)基于dsp的mpeg4视频压缩编码器的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京理t 大学硕 学位论文基于d s p 的m p e g - 4 税额压缩编码器的研究 摘要 2 i 世纪是通信技术高速发展的信息化社会,尤其是数字化后视频数据具有海量 性信息,给数字的存储和传输造成较大的困难,成为人们有效地获取和使用信息的障 碍之一。因此,研究和开发新型有效的多媒体数字压缩编码方法,以压缩的形式存储 和传输这些数据将是最好的选择。在视频压缩编码系统的实现方面,采用高性能d s p 作为视频压缩编码的主处理器是目前几种比较活跃的解决方案之一。 本论文首先系统地介绍了视频压缩编码的基本原理和方法,以及各国际标准化组 织提出的压缩标准;其次分析了m p e g 4 的主要技术,据此提出m p e g - 4 简单框架 编码器的软件实现方案,给出流程图,在v c h 环境下用c 语占程序实现了m p e g - 4 简单框架的视频压缩功能,采用测试序列验证无误;接着研究了d c t 变换、量化和 运动估计卒 偿算法。然后详细介绍了1 1 公司t m s 3 2 0 c 6 7 1 1 d s p 的软硬件特性,并 在此基础上提出系统的硬件实现方案。接着介绍了基于系统软硬件环境的移植问题和 优化方法,并针对算法移植和仿真过程中的问题进行了说明。 最后就课题设计过程中的收获和研究的结果予以总结,阐述了以后课题研究的要 点并展望了视频压缩技术的发展应用。 关键词:视频压缩编码m p e g - 4运动估计辟h 偿技术t m s 3 2 0 c 6 7 1 1 南京理工大学硕十学位论文摹fd s p 的m p e g - 4 砚频压缩编码器的研究 d u et ot h ef a s td e v e l o p m e n to f c o m m u n i c a t i o nt e c h n o l o g yi n2 1 s tc e n t u r y , t h es o c i e t yh a s e n t e r e da l li n f o r m a t i o na g e h o w e v e r , t h ed i g i t i z e da u d i oa n dv i d e od a t ah a v ev e r yl a r g e i n f o r m a t i o n , w h i c hm a k i n gt h es t o r a g ea n di r a n s m i s s i o nd i m c u l ta n dh a sb e c o m i n gt h e b i g g e s tb a r r i e rf o rp e o p l er e c e i v i n go ru s i n gt h e me f f i c i e n t l y h e n c e ,r e s e a r c h i n ga n d e x p l o i t i n gn e w a n de f f e c t i v et e c h n i q u e so f m u l t i m e d i ac o m p r e s s i o nc o d i n g ,n a m e l ys t o r i n g a n dt r a n s f e r r i n gt h e s ed a t ai nc o m p r e s s e dm o d e , w i l lb et h eb e s tc h o i c ei nf u t u r e t h e d s p b a s e dv i d e oc o m p r e s s i o ns c h e m ei so n eo ft h ep o p u l a rw a y st or e a l i z ev i d e o c o m p r e s s i o na n dc o d i n gs y s t e m s i nt h i st h e s i s , a l li n t r o d u c t i o nt ov i d e oc o m p r e s s i o np r i n c i p a l ,m e t h o d sa n dc e n t r a l i n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r d si sd o n e 矗r s t i y t h e na n a l y z i n gt h ec o r et e c h n i q u e so f m p e g - 4a n dp r o p o s i n gas c h e m eo fm p e g - 4s pa n e o d e r , t h ec o d i n gf u n c t i o ni sa c h i e v e d i nc s u c c e s s f u l l yw i t ht e s ts e q u e n c e ;a f t e r w a r d s ,s t u d y i n gt h ed c t q u a n t a t i o n m o t i o n e s t i m a t i o n m o t i o nc o m p e n s a t i o na l g o r i t h mi n d e t a i l a c c o r d i n g l y , as c h e m eo fa d s p - b a s o dv i d e oc o m p r e s s i o ns y s t e mi s p u tf o r w a r d ,w i t ht h e f e a t u r e so ft i s t m s 3 2 0 c 6 7 l1d s ra tl a s t , t h et r a n s p l a n ta n do p t i m i z a t i o na r ec o n s i d e r e do 2t h eb a s i so f s o f ta n dh a r de n v i r o n m e n t s ,a l s ot h es i m u l a t i o np r o c e s s i nt h ee n d , t h es u m m a r i z a t i o na b o u tw h a th a sl e a r n e da n da r i s e np r o b l e m si sg i v e n ; m e a n w h i l e ,t h ef u t u r er e s e a r c hp o i ma n dd e v e l o p m e n ta b o u tv i d e oc o d i n gi sp r o s p e e t e d k e y w o r d s :v i d e oc o m p r e s s i o n m p e g - 4m e m ct m s 3 2 0 c 6 7 1 1 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的全部或部分内容,可阻向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:瑟叠j 址 加萨6 月哆日 南京理t 大学顾+ 学位论文 摹于d s p 的m p e g - 4 视频b 缩编码器的研究 。1 。_ _ - _ 。- _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 。_ - _ _ _ _ _ _ _ i _ _ _ _ _ _ _ _ _ _ - _ _ - 。_ - - _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ 。_ _ 。_ 。_ 。_ - _ _ _ - _ _ _ 。- 一 1 绪论 随着计算机和信息网络技术的发展,人们对信息的需求越来越丰富,尤其是多媒 体技术已经渗入人们生活的方方面面,成为人类获得信息的最主要载体。人们渴望通 过各种技术能够在任何时候任何地方方便快捷地获得语音、图像及视频等多媒体信 息,因此多媒体信息尤其是视频信息的存储和传输等成为人们近年来的研究热点。 1 1 视频数据压缩的必要性和可行性 众所周知,人类所获取的信息有7 0 来自于视觉,视觉信息因为具有直观性、形 象性、确切性、高效率和应用广泛等优点,在多媒体信息中占有重要地位,把视觉信 息纳入通信和网络领域,为人们提供多渠道、多方位的信息来源成为了现代人迫切的 需求。但是数字化了的未压缩视频信号的数据量之大是惊人的,如: 用于可视电话q c i f 1 7 6 1 4 4 3 2 8 3 0 - 9 1 m b p s 用于视频会议c i f :3 5 2 2 8 8 3 2 8 3 0 3 6 m b p s 而用于传输通信的网络带宽是非常有限的: l a n :1 0 1 0 0 m b p s g p r s c d m a :( 9 0 6 1 3 4 1 5 6 2 1 4 ) k b p s ( 6 4 1 4 4 3 8 4 ) k b p s 用于存储信息的存储媒质容量也是非常有限的: c d r o m - 6 5 0 m b u 盘:5 1 2 m b 从以上列举的例子可以看出,数字化信息的庞大数据量给存储器的存储容量、通 信干线的信道传输率以及计算机的速度都增加了极大的压力。这个问题也是多媒体技 术发展中的一个非常棘手的瓶颈问题,解决这一问题的方法,单纯用扩大存储器容量、 增加通信干线的传输率的办法是不现实的。数据压缩技术是一个行之有效的方法,通 过数据压缩手段把信息数据量压下来,以压缩形式存储和传输,既节约了存储空间, 又提高了通信干线的传输效率,同时也使计算机实时处理视、音频信息,保证播放高 质量的视、音频节目成为可能。同时,上述数据压缩过程不仅是必要的而且也是可能 的,原因是: 首先,原始图像数据是高度相关的,存在很大的冗余度( 如空间冗余、时间冗余、 统计冗余、人眼视觉冗余、结构和知识冗余等) 。通过压缩编码去相关,即可以通过 减少视频序列间的相关性,用较少的比特数来表示视频内容,降低视频内容中的冗余, 从而实现对视频的压缩。 其次,允许图像编码有一定的失真也是视频可以压缩的一个重要原因。在许多应 用场合,并不要求压缩后的图像复原后和原图完全一致,而是允许有一定的失真。因 l 南京理工大学硕t + 学位论文基于d s p 的m p e g - 4 视频压缩编码器的研究 为这些失真可以利用人的视觉特性,在图像变化不被觉察的条件下减少量化信号的灰 度级之类,来提高数据压缩比。 与此同时,视频数据压缩技术的飞速发展也有硬件方面的原因。随着高速的数字 信号处理器( d s p ) 、超大规模集成电路( v l s i ) 、超高速集成电路( v h s i c ) 以及 大容量静态动态存储器的出现,使复杂的算法不再停留于理论阶段,实现了实时地 处理更高分辨率和更精美的画质。 1 2 视频压缩编码的主要技术 视频压缩编码可分为两类,一种叫做无损压缩,另一种叫做有损压缩。无损压缩 是指使用压缩后的数据进行重构,重构后的数据与原来的数据完全相同;有损压缩是 指重构后的数据与原来的数据有所不同,但不会对原始资料表达的信息造成误解叫。 视频编码中主要压缩技术有如下几种: ( 1 ) 统计编码 根据香农信息论的观点,信源冗余度来自信源本身的相关性和信源内部事件概率 分布的不均匀性。统计编码主要有基于概率分布特性的霍夫曼编码和算术编码,以及 基于相关性的游程长度编码三类。 霍夫曼编码( h u f f m a nc o d i n g ) 是一种变长编码v l c ( v a r i a b l el e n g t hc o d i n g ) 霍夫曼编码将信源符号按概率大小重新排序,通过二叉树算法,依次将两个概率最小 的节点合并,直至根结点。完成树的构造后,给所有的树枝分配0 和l ,这样就可以给 高概率符号分配短码,而小概率符号分配长码,去除符号问的统计冗余。在已知信源 符号概率时,可以给出极好的编码性能。但霍夫曼编码严重依赖信源的统计特性,编 码前必须有信源概率分布的先验知识。对于复杂的视频来说,只能用对大量数据统计 后获得的近似分布来代替,因此实际应用时无法达到最佳性能。另一方面虽然v l c 提高了编码效率,但不利于硬件实现。 算术编码( a r i t h m e t i cc o d i n g ) 是2 0 世纪8 0 年代发展起来的,理论上,算术编码 和霍夫曼编码都是最佳的,但在信源概率分布未知的情况下,算术编码优于霍夫曼编 码。算术编码的基本原理是用【o ,l 】之间的一个概率区间来表示数据序列。将信源x 的 一个给定状态x = 【五,x ,】与【o ,l 】间的一个由大概率p 和小概率q 限定的概率子 区间相联系,区问的长度等于序列的概率p ( 力编码器从n = l 开始,逐位的处理输 入的符号流。每输入一位,更新当前符号的条件概率,并以此调整p 和q 限定的概率 子区间。随着| 增加,和输入符号序列相联系的概率子区间就变得越来越小最后 用这个表示概率子区间的小数给符号序列编码。 游程长度编码r l c ( r u n - l e n g t hc o d i n g ) 是将符号值相同的连续符号串用一个游 程长度( 符号数) 和一个代表值( 值) 描述。这样可以用更紧密的序列代替原有的相 2 南京理工大学硕士学位论文 基于d s p 的m p e g - 4 视频压缩编码器的研究 - - 。- - 。_ _ _ - - _ 。_ - _ _ _ - _ _ - - 。_ - - _ _ _ _ _ _ _ _ _ - _ _ - _ - _ _ - _ _ _ - _ _ _ - - _ - _ _ _ _ _ _ _ _ - 。_ _ 。_ _ _ - _ - - - _ _ _ _ - - 。_ _ _ _ - _ _ _ _ _ _ - 。- _ 。_ 。- 。_ _ _ _ - _ - _ 。_ 。_ 一 同值符号串。在视频压缩中,量化后的数据常常出现大量的连零系数,利用游程长度 编码可以有效的降低表示零码的比特数。 ( 2 ) 预测编码 预测编码不是对一个象素直接编码,而是用同一帧( 帧内预测编码) 或相邻帧( 帧 间预测编码) 中的象素值来进行预测,然后对预测残差进行量化和编码。显然预测编 码实际是利用了图像数据中的空间和时间冗余。其中线性预测编码又称为差分脉冲编 码调制d p c m ( d i r e r e n t i a lp u l s ec o d em o d u l a t i o n ) ,由于算法简单,易于硬件实现, 已被各种视频编码标准采纳。 ( 3 ) 变换编码 使图像数据在变换域上最大限度的不相关。尽管图像变换本身不能带来数据压 缩,但由于变换后系数之间的相关性明显降低,图像的大部分能量只集中到少数几个 变换系数上,采用适当的量化和熵编码后可以有效的压缩图像的数据量。变换编码通 常是将空脚域相关的象素点通过正交交换映射到另一个变换域上,使变换后的系数之 间的相关性降低。在变换域上应满足:所有的系数相互独立,能量集中于少数几 个系数上,这些系数集中于一个最小的区域内。保留少数重要的系数就能够很好的 恢复图像,而人眼几乎觉察不出那些损失的系数。常见的变换有k - l 变换、d f t 变 换和d c t 变换等。 ( 4 ) 模型编码 模型编码将图像信号看作三维世界中的目标和景物投影到二维平面的产物,而对 这一产物的评价是由人类视觉系统的特性决定的。模型编码的关键是对特定的图像建 立模型,并根据这个模型确定中景物的特征参数,如运动参数、形状参数等。解码时 则根据参数和已知模型用图象合成技术重建图像。由于编码的对象是特征参数,而不 是原始图像,因此有可能实现比较大的压缩比。模型编码引入的误差主要足人眼视觉 不太敏感的几何失真,因此重建图像非常自然和逼真。 1 3 视频压缩编码标准的演进 2 0 世纪9 0 年代,在国际标准化协会i s o ( i n t e m a d o n a ls t a n d a r d i z a t i o n o r g a n i z a t i o n ) 、国际电子学委员会i e c ( i n t e r n a t i o n a le l e e t r o n i o sc o m m i t t e e ) 、m p e g ( m o v i n g p i c t u r e e x p e r t sg r o u p ) 和国际电信联合会u ( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o n ) 等国际组织的领导下,视频数据压缩领域涌现出许多重要 的标准。m p e g 的有m p e g - x 标准,i t u t 的有h 2 6 x 标准。通常情况下,h 2 6 x 系列 标准侧重于视频信息的数据压缩效率,以调整该系统在特定的码率下的传输,而 m p e g x 标准则倾向于控制视频编码质量。纵观历史,m p e g 视频编码技术可说是在 h 2 6 1 视频编码算法的基础上改进发展而来的。下面对各个视频压缩标准作个简介i 。】。 3 南京理工大学硕十学位论文摹于d s p 的m p e g - 4 税频压缩编码器的研究 ( 1 ) h 2 6 1 由i t u 组织于1 9 8 8 年1 0 月针对可视电话和会议电视、窄带综合业务数字网等要求 实时编解码和低延时应用提出的,它的输出比特率为px 6 4 k b p s ,以方便在一个或多 个( 可多至3 0 个) 话路或窄带i s d n 信道上进行彩色图像和声音的传送,它适用的码 率范围是6 4 k b p s 1 5 m b p s 。采用了运动补偿预测和离散余弦变换相结合 ( d p c m + d c t ) 的混合编码方案,获得很好的图像压缩效果。它还指定了最大编码 延迟为1 5 0 m s ,否则会给用户带来视频失真的印象。h 2 6 1 标准中的算法能够使用廉 价的v l s i 实现,这给视频会议和可视电话设备的商业化提供了机会,不足之处是不 适用于不同信道传输,且误码率允许范围小( 不大于l 1 0 。) ( 2 ) h 2 6 3 是i t u 组织1 9 9 5 年1 1 月为了满足码率低于6 4 k b p s 的应用而提出的一个低码率视 频压缩编码建议,不仅着眼于利用公共交换电话网传输,而且兼顾移动通信等业务。 目前已被多个多媒体终端所采纳,包括支持p s t n 与无线网的h 2 3 4 ,支持n i s d n 的 h 3 2 0 ,支持b i s d n 的h 3 1 0 等。它适用的码率范围是1 0 k b p s 3 8 4 k b p s 。它以帧间编 码方式去时域冗余,以变换编码( d c t ) 方式去空域冗余,能够在较低码率的情况下 达到较好的图像质量,因此广泛应用于远程监控、电视会议以及可视电话等领域。 ( 3 ) m p e g 1 m p e g 于1 9 9 2 年1 1 月制定的,主要针对1 5 m b p s 速率的数字存储媒体运动图像以 及其伴音编码的标准,该标准的制定使得基于c d r o m 的数字视频以及m p 3 等产品成 为可能。它包括m p e g 系统、视频和音频三部分。m p e g 1 的带宽至多为1 5 m b p s ,其 中1 1 m b p s 用于视频,1 2 8 k b p s 用于音频,其余带宽用于m p e g 本身。m p e g l 定义了 一套带有运动补偿的混合d c t d p c m 编码方案,其编码输出比特率为1 5 m b p s 左右, 质量为家庭电视级别。为了满足应用需要,m p e g - 1 提供了以下特性:随即存取、快 速正向,逆向搜索、逆向重播、视听同步等。 ( 4 ) m p e g 2 m p e g 于1 9 9 4 年1 1 月制定的,针对数字视频广播d v b 、高清晰度电视h d t v 和数 字视盘等4 m b p s 9 m b p s 运动图像及其伴音编码的标准,m p e g - 2 是数字电视机顶盒 与d v d 等产品的基础,是m p e g - 1 的兼容扩展,因此其语法最大的特点在于兼容性好 并可扩展。m p e g - 2 的目标与m p e g 1 相同,仍然是提高压缩比、改善视频和音频质 量,采用的核心技术仍是分块d c t 和帧间运动补偿预测技术。它目前被广泛应用于存 储媒体、会议电视、数字电视和高清晰度电视等领域,是工业d v d 的核心标准。 ( 5 ) m p e g - 4 1 9 9 8 年1 2 月正式发布,旨在为视、音频数据的通信、存取与管理提供一个灵活的 4 南京理工大学硕士学位论文基于d s p 的m p e g - 4 视频序缩编码器的研究 框架及一套开发的编码工具,它用在6 4 k b p s 以下的低速率视、音频编码十分有效。作 为第一个面向对象的视频编码标准,m p e g - 4 的出现具有很强的历史意义。它的应用 广泛,可应用于以下场合:实时监控:极低比特率下的移动多媒体通信:基于存储和 检索的多媒体系统;i n t e m e t i n t r a n e t 上的视频流与可视游戏;基于面部表情模拟的虚 拟会议;d v d 上的交互多媒体应用;基于计算机网络的可视化合作实验室场景应用; 演播室和电视的节目制作等。有关m p e g - 4 的具体情况将在第二章详细叙述。 ( 6 ) h 2 6 4 是m p e g 专家组与v c e g 合作组成的联合视频组( j o i n tv i d e ot e a m ,j v d 于2 0 0 1 年 制定的,它是人们在不断寻求一种比目前方案压缩性能更好、适用性更强的编码方案 的结果。正式名称是h 2 6 4 m p e g - 4p a r t1 0a v c ( a d v a n c e dv i d e oc o d i n g ) 。其主要目 标是力求设计简单有效的编码技术,并达到增强的压缩性能和易于网络传输的能力, 以满足日益增长的“对话型”( 视频电话、会议等) 和。非对话型”( 视频存储、广 播以及流媒体等) 视频应用的需要。h 2 6 4 同样采用了基于d c t 和运动补偿的混合编 码框架,与以前的编码标准相比,为了提高编码效率,又采用了很多新的编码技术, 包括先进的帧内预测、多模式运动估计、整数变换及量化和先进的熵编码技术。 1 4 课题方案和内容安排 1 4 1 设计方案选择 本课题是用于某试验基地的论证方案中视频监控系统中视频压缩编码模块的设 计验证。经前期查阅资料研究发现,通常有以下几种实现方案: ( 1 ) 直接采用p c 机实现这种方案以p c 机或工作站为平台,利用现有的声卡、 视频采集卡作为系统的输入输出设备,用纯软件方式实现视频压缩协议的全部内容。 其特点是:面向p c 机多媒体系统,硬件系统设计简单,软件开发环境好,灵活的程 序代码可动态加载以实现多种视频压缩标准。易于移植和升级,而且支持的网络协议 也独立于硬件。但是一个摄像头就要配备一台p c 机,成本较高,特别在监控站点很 多的远程监控系统设计中,其成本开销是无法接受的。 ( 2 ) 采用多媒体专用芯片此方案优点是d s pc p u 提供了极强大的多媒体流水 线操作,而且往往具有强大的多媒体接口,开发包和辅助资源也较多。如p h i l i p s t r i m e d i a 立用于实时监控网络中其缺点是成本较高,功耗较大,不适合应用于便携 式设备中。 ( 3 ) 采用直接硬件a s i c 压缩如华邦( w 玳b o n d ) 的w 9 9 2 0 0 f 。此方案的优 点是方便集成,利于应用,开发周期短。但其缺点也很明显:由于视频压缩算法全部 由硬件实现,不便于产品功能更新和升级,成本也不占优势。 -ill-i-r、li, -r-lli-rlrr ol-r 南京理工大学硕士学位论文摹于d s p 的m p e g - 4 视频压缩编码器的研究 ( 4 ) 采用通用d s p 实现。如a d i 的b l a c k f i n 、1 7 的c 6 0 0 0 系列。其优点是集合 多媒体专用芯片与普通m c u 的优势,价格较低,而且功耗小,体积小,便于升级和 移植,适合于网络摄像机、无线手持设备和现场监控系统中。 综合以上考虑,决定采用第四套方案实现本压缩编码系统。 1 4 2 研究内容和结构安排 本设计中我的任务首先是全面了解m p e g - 4 视频编码标准,对其基本思想、整体 框架以及关键技术等有个完整的认识,深入剖析网上提供的m p e g - 4 编码器开放代码, 并先在v c + + 6 0 的环境下使用纯软件实现m p e g - 4s p 级视频压缩编码功能。其次是熟 悉系统硬件结构和软件开发环境c c s 2 0 的使用,将w i n d o w 平台下c 版本的视频编码 器原型移植虱j d s p 开发环境c c s 2 0 中仿真,调试程序模块,并总结软件移植和优化的 一些思想,为后一步视频压缩算法的选择及优化提供了测试平台。 论文共分五部分: 第一部分是绪论和理论知识准备,介绍了视频压缩编码的原理及国际视频压缩标 准的演进;最后阐明了课题的背景、方案及内容安排。 第二部分是m p e g 4 视频压缩标准,介绍m p e g - 4 视频标准的基本框架及主要编 码技术。 第三部分是实现了针对低码率视频通信应用的m p e g - 4s p 编码器,给出了程序流 程和软件关键算法如d c t 、量化和运动估计补偿技术的研究。 第四部分是结合了开发使用的硬件环境和软件环境,在此基础上设计硬件系统方 案,进行软件的移植和仿真,并对常见软件优化思想进行介绍。 第五部分是全文的总结和展望。 最后是致谢和参考文献。 1 5 小结。 本章首先介绍了视频压缩编码的必要性和可行性,然后就常用的压缩编码方法进 行简单归纳,并阐述了视频压缩编码标准的发展历程及现状,最后对本课题的研究方 案和论文的主要结构编排进行说明。下章将重点介绍m p e g - 4 压缩标准的主要原理和 技术。 6 南京珲t 大学碗十学位论文 摹于d s p 的m p e g - 4 视频件缩编码器的研究 2 m p e g - 4 视频压缩编码技术 近几年来人们对网络信息的多样化提出了更高的要求,表现在媒体质量、媒体交 互能力方面尤为突出,原有的m p e g - 1 2 由于一些局限己经不能适应发展的需要,于 是m p e g - 4 就应运而生。m p e g - 4 标准主要应用于视频电话( v i d e op h o n e ) ,视频电子 邮件( v i d e oe - m a i l ) 和电子新闻( e l e c t r o n i cn e w s ) 等。它利用很窄的带宽,通过帧 重建技术,压缩和传输数据,以求以最少的数据获得最佳的图像质量。m p e g - 4 于1 9 9 9 年初正式成为国际标准,较之m p e g 前两个图像压缩标准而言,m p e g - 4 为多媒体数 据压缩提供了一个更为广阔的平台,它定义的更多是一种格式和框架,而不是具体的 算法。 2 im p e g - 4 视频编码标准 m p e g - 4 标准包含有一系列的工具。它们通过支持几类功能描述来实现应用 1 5 1 在m p e g 4 标准中,这些最重要的特性包含在3 个集合中,如图2 i 所示: 图2 1 m p e g - 4 标准提供的功能 2 1 1m p e g - 4 标准的特点 m p e g 1 、m p e g 2 技术当初制定时,它们定位的标准均为高层媒体表示与结构, 但随着计算机软件及网络技术的快速发展,m p e ( 3 1 、m p e g 2 技术的弊端就显示出 来了;交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时 传输。而m p e g - 4 技术的标准足对运动图像中的内容进行编码,其具体的编码对象就 是图像中的音频和视频,术语称为“a v 对象”,而连续的a v 对象组合在一起又可以 形成a v 场景。因此,m p e g - 4 标准就是围绕着a v 对象的编码、存储、传输和组合 而制定的,高效率地编码、组织、存储、传输a v 对象是m p e g - 4 标准的基本内容。 在视频编码方面,m p e g - 4 支持对自然和合成的视觉对象的编码( 合成的视觉对 象包括2 d 、3 d 动画和人面部表情动画等) 在音频编码上,m p e g - 4 可以在一组编 码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对 7 南京理t 大学硕卜学位论文 革于d s p 的m p e g - 4 视桶乐缔编码器的研究 象进行音频编码。 由于m p e g _ 4 只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大 大减小了合成多媒体文件的体积。应用m p e g - 4 技术的影音文件最显著特点就是压缩 高且成像清晰,一般来说,一小时的影像可以被压缩为3 5 0 m 左右的数据,而一部高 清晰度d v d 电影。可以压缩到两张甚至一张6 5 0 mc d r o m 内。对广大的“平民”计 算机用户来说,这就意味着,不需要购置d v d r o m 就可以欣赏近似d v d 质量的高品 质影像。而且采用m p e g - 4 编码技术的影片,对机器硬件配置的要求非常低,仅需要 3 0 0 m h z 以上c p u 、“m 内存和一个8 m 显存的显卡就可以了;在播放软件方面,它 的要求也非常宽松,只需要安装一个5 0 0 k 左右的m p e g - 4 编码驱动,用w i n d o w s 自带 的媒体播放器就可以流畅的播放。 2 1 2m p e g - 4 的框架和级 m p e g - 4 是一个非常庞大的系统,要完全实现是一项非常巨大的工程。为了更好 地推进m p e g - 4 的发展,将其划分不同的框架( p r o f i l e ) 和级( l e v e l ) ,每个p r o f i l e 按其实现的功能,分为几个级别,应用在不同的场合。p r o f i l e 定义了码流可以使用的 技术,l e v e l 规定了复杂度,譬如图像大小、缓存大小等。这种框架和级的分类方法 使得任何符合规定的器件,不管是计算机软件、手机还是机顶盒,都可以正常工作。 m p e g - 4 共有4 类框架:视频框架、音频框架、图形框架和场景描述框架。其中视 频框架又包含多个框架 1 2 j ,列举如下: ( 1 ) 简单视频框架( s i m p l ev i s u a lp r o f i l e ) :提供矩形视频对象高效又具有容错 能力的编码功能,适合应用于移动网络; ( 2 ) 简单可分级视频框架( s i m p l es c a l a b l ep r o f i l e ) :在简单视频框架基础上增 加了对象时域和空域扩展编码功能,应用于提供多级服务质量的应用,如软件编码和 i n t e m e t : ( 3 ) 核心视频框架( c o r ev i s u a lp r o f i l e ) ;在简单视频框架基础上增加了任意形 状对象编码和时域扩展编码功能,适用于相对简单的内容交互应用,如i n t e r n e t 多媒体 应用; ( 4 ) 主要视频框架( m a i nv i s u a lp r o f i l e ) :在核心视频框架基础上增a n y s p r i t e 对象编码功能,适用于交互和娱乐质量广播和d v d 应用等; ( 5 ) n 比特视频框架( n b i tv i s u a lp r o f i l e ) ;在核心视频框架基础上增加了具有 不同象素深度( 4 1 2 b i t s ) 视频对象编码功能,适用于监控应用。 还有一些其他的框架被应用在合成影像上,这里不做介绍。 8 南京珲t 大学硕十学位论文 基于d s p 的m p e g - 4 视频压缩编码器的研究 2 1 3m p e g - - 4 视频流语法 m p e g 4 视频编码的结构是按层组织的,但是,对于一系列串行的0 、l 码流, 解码器如何判断哪部分是v o p 呢? m p e g - 4 和m p e g i 2 一样,使用关键起始码字 ( s t a r t - c o d e ) 来区分标记每层的码流数据,使解码器能够正确解码。在m p e g - 4 中, 每个起始码都有一个2 4 比特的前缀“o x 0 0 0 0 0 1 ”。其后的8 b i t 是起始特征码值。为 了维持起始码唯一性,所有的起始码都必须以字节对齐,为此编码时可在其前面加上 填充码字。表2 1 和表2 2 分别列出了码流的填充码字和起始码值。 表2 1 填充码字 填充比特数填充码字 lo 20 l 30 l l 40 1 l l 50 1 1 1 l 6o l l l l l 7 o l l l l l l 80 1 1 1 1 1 l l 表2 2 起始码特征值 名称起始码作用 特征值 v i d u s l - o b j e c t - s e q u e n c e - s t a r t - c a ) d e b 0 表示以f 是视频序列,以区别于 音额信号 v i s u a l _ o b j e c t _ s t a r t _ c o d e b 5 一个视频对象的开始,后紧跟对 象框架( p r o f i l e ) v i d e o _ o b j e c t _ s t a r t _ c o d e 0 0 l f 视频对象码流的开始,后接一个 或多个视频对象层的码流数据 v i d e o _ _ o b j e e tl a y e r _ s t a r t _ c o d e 2 0 2 f 视频对象层码流的开始,后面包 括一个或多个视频目标层 v i d e o _ o b j e c t _ p l a n es t a r tc o d e b 6 视频对象平面码流的开始,后面 包括一个或多个视频目标平面 9 :rll-f-;-ol 南京理丁大学硕十学位论文摹于d s p 的 帆g 4 视频压缩编码器的研究 2 2m p e g - 4 校验模型编码 2 2 1m p e g 4 校验模型( v m ) 的编解码结构 为了支持前面提到的各种功能:高效压缩、基于内容交互以及基于内容分级扩展 ( 空域分级和时域分级) ,必然要求m p e g - 4 要以基于内容的方式表示视频数据。因 此,m p e g - 4 引入了v o ( v i d e oo b j e c t ) 的概念来实现基于内容的表示。v o 的构成依 赖于具体应用和系统实际所处环境:在要求超低比特率的情况下,v o 可以是一个矩 形帧( 即传统m p e g 1 2 、h 2 6 4 中的矩形帧) ,从而与原来的标准兼容;对于基于内 容的表示要求较高的应用来说,v o 可能是场景中的某一物体或是层面,如新闻节目 中的解说员的头肩像;v o 也可能是计算机产生的二维、三维图形等等。在v m 中, v o 主要被定义为画面中分割出来的不同物体,每个v o 由三类信息来描述:运动信息、 形状信息和纹理信息。 屯卜 m _ u x 豳殛1 吨孟卜e 鎏g i 强i 屯卜飞嚏r _ : d e 搏 _ l v 钟牛_ e 丝螳噍l u x 日i口h埔in91 阿 坦箜熊! g i ; 图2 2v m 中的编码器和解码器框图 图2 2 为v m 中的编码器和解码器框图。第一步是v o 的形成,先要从原始视频流 中分割出v o ,然后由编码控制机制为不同的v o 以及各个v o 的三类信息分配码率, 之后各个v o 分别独立编码,最后将各个v o 的码流复合( h 仉) 成一个位流。其中, 在编码控制和复合阶段可以加入用户的交互控制或由智能化的算法进行控制。解码器 基本上是编码器的逆过程。 2 2 2v m 中的数据结构 m p e g - 4 的视频流提供了对视频场景的分层描述,如图2 3 所示。分层的每一级都 1 0 , 南京珲t 大学硕十学位论文 基于 里翌塑坚! 曼! 兰塑塑垦塑塑旦兰塑竺窒 其中有以下五个层次的数据结可以通过码流中被称为初始码的特性码值进行访问。 构,它们都以类的形式定义【1 3 l : v s ( v i d e os e s s i o n ) :视频场景,它位于数据结构层次的最高层,包含其它三 个类,一个完整的视频序列可以由几个v s 组成。它对应于一段完整的视频场景,可 以包括任何二维或三维、自然或合成对象以及它们的增强层,一个v s 包括了一个或 多个v o ; v o ( v i d e oo b j e c t ) :视频对象,它是场景中的某个对象,可以是任意形状的 对象,也可以是个矩形帧。它是有生命期的,由时间上连续的许多帧构成; v o l ( v i d e o o b j e c t l a y e r ) :视频对象层,v o 的三种属性信息编码于这个类中, 这个类的引入主要用来扩展v o 的时域或空域分辨率; v o g ( g r o u po f v i d e oo b j e c tp l a n e ) :视频对象平面组,是可选的数据结构,它 可以提供对码流的随机访问点; v o p ( v i d e oo b j e c tp l a n e ) :视频对象平面,它可以看作是v o 在某一时刻的抽 样,即某一帧v o 。以上五个类的关系可以用图2 3 表示 图2 3m p e g - 4 视频编码器中的数据结构 由图可见,每个v s ( 即一段完整的视频序列) a - 个或多个v o 构成,而每个v o 可能有一个或多个v 0 l 层次,如基本层、增强层,每个层就是v 0 的某一分辨率的表 示。在每个层中,都有时间上连续的一系列v o p 。 2 3m p e g - 4 基于v o p 的编码原理 m p e g - 4 编码器是针对任意形状的v o p 进行的,v o p 经过形状编码,运动编码 -l_r- 图2 4m p e g - 4 基于v o p 的编码原理框图 上面的编码器主要包括两部分:v o p 形状编码和传统的运动和纹理编码部分。 对于各个v o p ,m p e g - 4 和m p e g - 2 的编码是相似的。首先将v o p 从上到下,从左 到右分成1 6 x1 6 大小的宏块m b ( m a c r o b l o c k ) ,具体的形状、运动和纹理编码仍然 是基于m b 进行的,一个b i b 的信息是形状一运动一纹理的总和。而在对宏块进行编 码时,我们把一个宏块分成了4 个8 8 子块的亮度( y ) 分量,2 个8 8 块的色度 分量( c b ,c r ) ,从而进行编码。 b1 b e 口e 曰 懈j 6 叩 yc bo r c o i o i r ) 图2 5 基于宏块的编码 2 3 1 视频对象分割 对自然场景,通常采用半自动或自动的方法分割视频对象,视频序列中的每一帧 都采用同样的方法进行分割。视频序列的每一帧可分割为一些任意形状的图像区域, 即视频对象平面v o p 可以是任意形状的。一个v o p 可用纹理变量( 一系列亮度和色度 值) 和形状描述来完全表示。每个v o p 的颜色、形状、运动及纹理信息都是独立地进 行编码、存储和传输的。v o p 标识以及多个v o p 在接收端如何重新组合为原始序列等 相关信息也要传给解码器。有了这些相关信息,解码器不仅可以对己压缩的信息解压 1 2 图2 6 视频分割示意图 2 3 2 形状信息编码 相对于以前的压缩标准而言,m p e g - 4 是第一次引入形状编码的压缩算法。形状 信息的获得首先要对图像进行分析和分割,把各个代表不同内容的目标分割后再用形 状表示。在m p e g - 4 标准中,v o 的形状信息有两类:二值形状信息和灰度形状信息, 这两种信息都可以采用位图法( b i t m a p ) 来表示。二值形状信息就是用0 、l 的方式 来表示被编码的v o p 的形状,0 表示非v o p 区域,l 表示v o p 区域,它的编码采用 基于运动补偿的技术,可以是无损或有损的;灰度形状信息则是在0 2 5 5 之间取值, 其中0 表示完全透明,2 5 5 表示完全不透明,它的编码采用基于块的运动补偿d c t 方法( 同纹理编码相似) ,属于有损编码。 2 3 3 运动信息编码 m p e g 4 采用运动估计和补偿技术来去除帧问的冗余,与其他标准的主要区别在 于m p e g - 4 采用的是v o p 结构,而不是基于块的技术。在m p e g - 4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论