已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 计算机性能的提高和计算机网络的普及,促进了多媒体技术的飞速发展。作 为多媒体应用中主要媒体类型之一的视频图像,在数字化后产生的巨大数据量对信 息的处理和存储设备以及传输网络都提出了很高的要求,成为阻碍多媒体应用的主 要瓶颈。因此,研究高效的视频数据压缩算法对多媒体系统性能的提高和应用范围 的扩大具有重要的意义。在诸多的视频压缩标准中,m p e g - 4 代表的是基于模型 对象的第二代压缩编码技术,它充分利用了人眼的视觉特性,抓住了图像信息传输 的本质,从图像轮廓、纹理出发,支持基于视觉内容的交互功能,以其先进的编码 理念、高效的压缩效率、较低的带宽要求、清晰的重建质量,以及其顺应基于内容 的访问、检索和操作的多媒体应用趋势,使其仍将是今后一段时间内视频编码标准 的主流1 1 ”。 由于m p e g 系统编码技术的关联性,本文首先介绍了m p e g 1 、m p e g 2 及 m p e g 4 的相关特点,并从m p e g - 4 的构成入手,研究分析了音频、视频及翻格动 画的编解码方法,然后着重研究了基于m p e g 4 的形状编码、可扩展性编码、s p r i t e 编码、视频系统合成等编码技术,并通过建立一个移动通信系统模型对一段o c w 格式图像进行了m p e g 4 编码压缩,从压缩比、编码耗时、峰值信噪比来分析 m p e g 4 的视频性能,证明了m p e g - 4 编码的高效性和高质量。 此外,本文在对m p e g - 4 标准的编码及视频性能研究分析的基础上,展望了 m p e g 4 在可视电话、v o p 点播、无线移动多媒体等领域的应用前景,进一步说明 了对m p e g - 4 编码技术研究的重要性和迫切性。 关键词:图像压缩m p e g - 4 编码a v ov o p a b s t r a c t t h ee x a l t a t i o no ft h ec o m p u t e rf u n c t i o na n dt h eu n i v e r s a l i t yo ft h ec o m p u t e r n e t w o r kp r o m o t e dt h em u l t i m e d i at e c h n o l o g yt od e v e l o pa tv e r yf a s ts p e e d a st h eo n eo f m a j o rt y p e si nt h em u l t i m e d i aa p p l i c a t i o n ,a f t e rd i g i t a l i z e d ,v i d e oi m a g e sm a k e af l o o do f d a t aq u a n t i t y t h i sp u tf o r w a r dt h ei n f o r m a t i o np r o c e s s i n ga n ds t o r a g ee q u i p m e n t ,a n d a l s ot h ei m f o r m a t i o nt r s a n s m i s s i o nn e t w o r kt h ev e r yh i g hr e q u e s ta n db e c o m et h e b o t t l e n e c kt ot h em u l t i m e d i aa p p l i c a t i o n s t h e r e f o r e ,t or e s e a r c ht h ee f f e c t i v e c o m p r e s s i o na l g o r i t h mf o rv i d e od a t ai so fg r e a ts i g n i f i c a n c ef o rt h ei m p r o v e m e n to f m u f t i - m e d i as y s t e mp e r f o r m a n c ea n de n l a r g e m e n to fm u f t i - m e d i as y s t e ma p p l i c a t i o n a m o n gm a n yv i d e oc o m p r e s s i o ns t a n d a r d s ,m p e g 一4r e p r e s e n t st h es e c o n dg e n e r a t i o n c o m p r e s s i o nc o d i n gt e c h n o l o g yw h i c hi sb a s e do nt h em o d e l o b j e c t m p e g - 4m a k e s f u l l u s eo fh u m a ne y ev i s u a li d e n t i t y ,s e i z et h ee s s e n c eo ft r a n s m i s s i o no fi m a g ei n f o r m a t i o n , p r o c e e df r o mt h ep i c t u r eo u t l i n ea n dv e i n s ,a n ds u p p o r tt h ei n t e r a c t i v ef u n c t i o nb a s e d i o n t h ev i s u a lc o n t e n t w i t hi t sa d v a n c e dc o d i n gi d e a , e f f e c t i v ec o m p r e s s i o ne f f i c i e n c y , l o w b a n d w i d t hr e q u i r e m e n t s ,h i g hq u a l i t yo fi m a g er e c o n s t r u c t i o na n dc o n f o r m a b i l i t yw i t h t h et r e n d so fm u l t i m e d i a a p p l i c a t i o nw h i c hs u p p o r tt h ea c c e s s i n g , s e a r c h i n g a n d o p e r a t i n gb a s e d o nt h ev i s u a lc o n t e n t ,m p e g 一4w i l ls t i l lb et h em a i n s t r e a mv i d e o c o m p r e s s i o ns t a n d a r df o ras u s t a l n e dp e r i o di nt h ef u t u r e 1 1 3 1 a sar e s u l to ft h ec o n n e c t i o no ft h em - p e gs y s t e mc o d et e c h n o l o g y , 啦笛谯d ei i r s t i n t r o d u c e ds o m er e l a t e dc h a r a c t e r i s t i c so fm p e g 1 ,m p e g - 2a n dt h em p e g - 4 ,a n d e m p h a t i c a l l ys t u d i e dt h ec o d et e c h n o l o g yo fm p e g - 4f r o ms o m ea s p e c t s , s u c ha ss h a p e c o d e ,p o s s i b l ye x t e n d e dc o d e ,s p r i t ec o d e ,v i d e os y s t e ms y n t h e s i sa n ds o o n t h e n e m p h a t i c a l l ys t u d i e dt h es h a p ec o d i n g , p o s s i b l ye x t e n d e dc o d i n g ,s p r i t ec o d i n g , v i d e o s y s t e ms y n t h e s i sa n ds o m eo t h e rc o d et e c h n o l o g i e s ,w h i c hb a s e do nt h em p e g 一4 ,a n d t h e n t h r o u l g ht h ee s t a b l i s h i n go fam o b i l ec o m m u n i c a t i o ns y s t e mm o d e lt oc a r r yo u tt h e m p e g - 4c o d ec o m p r e s s i o nf o ras e c t i o no fq c i ff o r m a ti m a g e f r o mt h ep r e s s e dr a t i o , t h ec o d ec o n s u m e dt i m e ,t h ep e a ks i g n a lt on o i s er a t i ot oa n a l y z et h ev i d e oc a p a b i l i t yo f t h em p e g - 4 a n di th a sp r o v e nt h eh i g he f f i c i e n c ya n dt h eh i g hq u a l i t yo ft h em p e g - 4 c o d e i na d d i t i o n ,b a s e do nt h em p e g 一4s t a n d a r dc o d ea n dt h er e s e a r c ha n a l y s i so ft h e 项士学位论文 m a s t e r st h e s i s v i d e oc a p a b i l i t y , t h i sa r t i c l eh a sf o r e c a s t e dt h ea p p l i c a t i o np r o s p e c to ft h em p e g 4i n m a n yf i e l d s ,s u c ha s ,t h ev i d e o p h o n e ,t h ev o ps e l e c t i o na n db r o a d c a s t ,t h ew i r e l e s s m o b i l ec o m m u n i c a t i o na n ds oo n ,f u r t h e re x p l a i n e dt h ei m p o r t a n c ea n dt h eu r g e n c yt o t h em p e g - 4c o d ee n g i n e e h n gr e s e a r c h k e yw o r d s :i m a g ec o m p r e s s i o n ,m p e g - 4 ,c o d e ,a v o v o p 1 1 研究的意义 第一章绪论 1 9 8 8 年国际标准化组织( i s o ) 与国际电报电话咨询委员会( c c l t r ) 联合成 立活动图象专家组m p e g ( m o v i n g p i c t u r ee x p e r t sg r o u p ) ,研究数字存储媒体上的 活动图象及其伴音的编码,1 9 9 2 年通过1 5 m b i t s 编码标准m p e g - 1 ,1 9 9 4 年通过 2 m b i t s 、3 0 m b i t s 高质量视频音频编码标准m p e g - 2 ,1 9 9 1 年5 月m p e g 就提出关 于视频音频编码的m p e g - 4 项目,设系统、音频、视频、需求、实现研究、测试及 自然合成混合编码子组,1 9 9 8 年1 1 月成为国际标准。m p e g - 4 提供更强的交互能力。 场景中的每个对象独立编码,用户可以选择性地与其中某( 几) 个对象交互,具有良 好的重用性。m p e g 4 技术的诞生,使得v o d 技术在交互性和图像质量等方面得 到进一步的提高,也使得通信、广播和计算机等诸多领域多媒体传输技术进一步提 高和普及“。 1 1 1 流媒体技术的发展及对媒体压缩的迫切要求 当今,网络技术、通讯技术和多媒体技术的迅猛发展极大地改善了人们获取信 息的途径,人们已经不再满足于过去只从网络上获取文本、图像和简单的声音文件 的状况,相比以往信息获取的途径,人们更乐于接受同时具有音频和视频媒体信息 的表现形式。在过去,音视频文件需要从服务器上下载到本地后才能播放,采用下 载方式虽然使网络上多媒体信息的传输成为可能,但它也带来了两个突出的问题。 首先,由于必须下载多媒体信息,而多媒体信息的数据量通常都很大,在目前普通 用户接入速率较低的情况下,一个很短的视频片段可能都需要很长的下载时间。其 次,由于必须将节目下载到本地计算机后才能播放,这必然占用本地计算机的存储 资源。针对这些亟待解决的问题,流媒体技术开始崭露头角,并立即受到重视而且 逐渐得到了应用。 特别是近年来,随着宽带建设的高速发展,流媒体服务已经成为互联网的最 主要应用之一,越来越多的运营商开始提供网络在线服务。比尔盖茨曾无比坚 定地预言:“未来属于流媒体。”据统计,i n t c r n c t 上每周至少有4 5 0 0 0 小时的广 播节目,超过6 0 个美国电视台提供w e b 广播,3 4 个电视台提供点播服务。有近半 数的跨国企业公司在内部使用流媒体实现w e b 广播。同样,流媒体在移动领域的应 顾士学住论文 m a s t e r st h e s i s 用也开始推广。2 0 0 4 年雅典奥运会期间,江苏移动正式推出了“奥运视频”业务, 通过g p r s 和流媒体技术为用户提供了“手机看奥运电视”这一全新渠道。移动 g p r s 用户可用手机随时在线观看奥运比赛,还可以直接点播、下载精彩的奥运视 频片断并转发给亲友。同时,中国联通专为c d m a i x 移动智能终端用户量身定制 的一种准宽带无线数据业务“视讯新干线”。它在c d m a i x 网络的支持下,可 以实现1 5 3 6 k b p s 的高速率,可真正实现在线流媒体、移动办公、移动可视电话、 移动互联网、移动休闲娱乐等功能。其中,移动视频业务中的“城市眼”可通过智 能手机终端观看关注路口监测点交通状况,对其有一个实时直观的了解,从而选择 最佳行车路线“。 从以上事实可以看出,流媒体技术的应用前景是相当可观的,但我们也应看到 流媒体技术在实际应用中存在的不足,主要表现在视频编码问题上。视频数据必须 进行压缩处理才能适合流式传输,这是因为目前的网络带宽相对视频巨大的数据流 量来说还显得远远不够。若不对视频数据进行压缩处理,实时性就根本达不到,因 此必须采用高效的压缩算法,把原始视频转化为适合流式传输的文件格式。 1 1 - 2m p e c 一4 的广泛应用 流媒体应用的发展呼唤高效的标准的媒体压缩算法,目前公认的高效的国际压 缩标准是m p e g 标准。近年来,m p e g 系列标准研究的热点集中在m p e g - 4 。m p e g 4 以其出色的媒体性能,图形质量接近d v d ,声音品质接近c d ,同时又有较高的压 缩比而引起人们的重视。 m p e g 4 的应用前景将是非常广阔的。它的出现将对以下各方面产生较大的推 动作用:数字电视、动态图象、万维网、实时多媒体监控、低比特率下的移动多媒 体通信、内容存储和检索多媒系统、i n t c m c t i n t r a n e t 上的视频流与可视游戏、基于 面部表情模拟的虚拟会议、d v d 上的交互多媒体应用、基于计算机网络的可视化 合作实验室场景应用、演播电视等。基于m p e g 4 标准的解决方案纷纷推出,有的 为硬件方案,有的为软件方案。前者为设计一个专属解码芯片,但由于部分相关技 术( 如:串流格式) ,尚处百家争鸣时期,主流尚未浮现,这使得芯片厂商仅能择一 而为之。再由成本角度来看,因为增加了解码芯片,系统成本也随之提高。后者软 件方案则用既有的系统来进行解码。这神方法较具有弹性,可随时依市场需求态势 改版更新,又因省去了解码芯片而降低系统成本”1 。 m p e g - 4 标准涵盖领域之广大,己超越了单纯视音频编解码范畴,成为以对象 内容为主体的多媒体展示架构。总结起来,m p e g - 4 的优势大致有以下三方面: 囊士学位论文 m a s t e r s t h e s i s ( 1 ) 对多媒体内容创作者而言,m p e g 4 使多媒体内容更多元化、更具有弹性、 多媒体组件能更容易被再利用。它将各自发展的技术及应用,如互联网、动画、视 频、音频、互动电视等整合至单一架构之下,而且提供更佳的资源管理方法和保护 著作权的机能。 ( 2 ) 对网络服务业者而言,m p e g - 4 是透明度很高的信息传递工具。它可以藉 由与其它国际标准的兼容相通而存在于各种形式网络上,如有线电视网络、电信网 络以及无线传输等。尤其在单纯以视频音频传输为主的应用中,相比于m p e g - 1 、 m p e g - 2 ,m p e g - 4 仅需较小的比特率,即可达成相同音画质效果,这意味着较高 的频宽使用效率。 ( 3 ) 对终端消费者而言,m p e g - 4 能让消费者在原创作者限定的操作功能范围 之内,与节日内容中的对象互动,体会前所未有的娱乐效果。而且在移动式低 传输速率网络中,促使多媒体应用得以实现。这包括了交互式多媒体广播和移动 通讯。 m p e g 4 标准因为集交互性、高压缩率、高质量、通用可存取、高度的灵活性 和可扩展性于一身,所以它一出现就获得了普遍的接受,成为高质量音视频流式传 输的主要选择。为适应当前i n t e m e t 传输率低、传输性能不稳定的特点,我们需要 研究适应m p e g 4 传输的相关技术,特别是研究与m p e g - 4 流式传输相关的技术, 研究适合m p e g - 4 的流式传输技术,提高流式传输的质量,能够使现有系统应用面 更广,该技术也能带动其他多媒体应用技术的发展和多媒体网络产品应用范围的增 大。因此,对m p e g - 4 的研究有着重要的现实意义订”。 1 2 研究的背景 编码方式的选择可以是多种多样的。到目前为止,i n t e r n e t 上使用较多的流媒 体格式主要有r e a l n e t w o r k s 公司的r e a l s y s t e m ,m i c r o s o f t 公司的w i n d o w sm e d i a t e c h n o l o g y 和a p p l e 公司的q u i c k l i m e 。这三种主流技术中采用的媒体压缩标准都 是厂家自行制定的,如w i n d o w sm e d i a 中的w m 9 压缩标准、r e a lm e d i a 中的r a 8 压 缩标准以及a p p l e 公司提出的q u i c k l i m e 压缩标准,他们都享有专用权。这样,关 于压缩算法的核心技术都掌握在他们的手中,不利于我们开发拥有自己版权的软 件。从某种意义上来说,使用他们的技术要付昂贵的版权费。另外,如果我们自己 对于压缩算法有所改进的话,却无法得到实现,因为不可能拿到他们的核心代码。 基于这些原因,我们才把研究对象锁定为全球性的统一的国际技术标准埘p e g 压 缩标准 。 目前,除了传统的流媒体软件公司r e a l n e t w o r k s 、m i c r o s o f t 、a p p l e 公司外, c i s c o 、p h i l i p s 等公司也投入巨资角逐蛐p e g - 4 的流式传输应用。因此现在抓紧时 间和抓住机遇研究m p e g 一4 流式传输的相关技术,对提高流媒体的传输质量,使我 国能在多媒体领域的世界舞台上占有一席之地,不会受制于其他国家的技术封锁, 将是很有意义的“。 1 3 论文的主要工作 本文重点研究的是m p e g 一4 的编码技术和其在视频压缩中的实际效果。主要工 作如下: 一、通过对m p e g 一1 、m p e g - 2 和m p e g 一4 的特点介绍,阐释了m p e g 系统的相关 性。 二、在详细了解m p e g 系统特点的基础上,从m p e g 4 的构成入手,研究分析 了音频、视频及网格动画的编解码方法,然后着重研究了基于m p e g - 4 的形状编码、 可扩展性编码、s p r i t e 编码、视频系统合成等编码技术。 三、通过建立一个移动多媒体通信系统测试模型,对一段q c i f 图像进行m p e g = 4 压缩测试,从压缩比、编码耗时、峰值信噪比来分析m p e g - 4 的视频性能,证明了 m p e g 一4 编码的高效性和高质量。 四、在对m p e g 4 标准的编码及视频性能研究分析的基础上,展望了m _ p e g 4 在可视电话、v o p 点播、无线移动多媒体等领域的应用前景,进一步说明了对 m p e g - 4 编码技术研究的重要性和迫切性。 4 硕士学位论文 m a s t e r s t h e s l s 第二章m p g e - 4 编码的特性 2 1m p e g 一1 编码 m p e g - - 1 标准于1 9 9 2 年正式出版,标准的编号为i s o i e c l l l 7 2 ,其标题为“码 率约为1 5 m b i t s 用于数字存储媒体括动图像及其伴音的编码”。研发m p e g - - 1 标 准的目的主要包括以下几个方面: ( 1 ) 在声像质量上高于电视或电视会议的声像质量,至少应达到v h s 录像带 或c d r o m 的放像质量。 ( 2 ) 压缩后的数据量能存储在光盘、数字录像带或可改写在光盘等媒体中。 ( 3 ) 压缩后的数据率与目前的计算机网络传输码率相匹配,即以1 2m b i t s 为宜。 ( 4 ) 在通信网络上该标准能够适应多种通信网络的传输。 ( 5 ) 该标准充分考虑到更广泛的应用领域,如:电子图像出版物、电子图像 双向传递、电子图像编辑及双向电子图像通信等h “。 鉴于m p e g - - 1 标准是在h 2 6 1 标准的基础上发展而来的,其图像格式的亮度 信号和色度信号与h 2 6 1 基本相同,具体图像格式有两种,即标准中间格式( s i f ) 的3 5 2 x 2 4 0 x 3 0 ;和通用中闻格式( c i f ) 的3 5 2 x 2 8 8 x 2 5 。 表1m p e c , - i 的两种图像编码格式 图象格式 s i fc i f 扫描参数5 2 5 行6 0 场陀:1 或4 :36 2 5 行肠2 :1 或4 :3 亮度有效像素2 4 0 行触,3 5 2 像素,行2 8 8 行陇3 5 2 像素行 色度有效像素1 2 0 行帧,1 7 6 像素行 1 4 4 行,帧。像素,行 像素速率 3 8 0 1 6 m 像素s 编码率0 3 1 6 b i t ,像素 8 比特量化后的码率3 0 4 1 2 8 m b s 光盘中每帧字节数5 千字* 46 千字帧 由表1 可见,m p e g - - 1 有如下特点: ( 1 ) 像素速率:3 0 帧每秒的格式为( 3 5 2 x 2 4 0 + 2 1 7 6 x 1 2 0 ) 3 0 = 3 8 0 1 6 m 像素每秒:2 5 帧每秒的格式为( 3 5 2 2 8 8 + 2 1 7 6 x1 4 4 ) 2 5 - - - - - 3 8 0 1 6 m 像素每 秒。两者具有相同的像素速率。 ( 2 ) 8 b i t 量化后的码率:像素速率8 b i t 像素= 3 8 0 1 6 m 像素每秒8 b i t = 3 0 4 1 2 8 m b i t s 。如果在计算机网络中传输,按照网络传输容量为1 2m b i t s 计算, 则必需的压缩比为3 0 4 1 2 8 m b i t s 1 2 m b i t s = 2 5 2 。这是理想的压缩比,考虑到 实际情况需辅助信息,故压缩比应高于此。 ( 3 ) 编码率:它代表经过编码后平均每个像素所用的比特数,表明了压缩比 的程度。编码率等于传输码率像素速率= 1 2m b i t s - - 3 8 0 1 6 m 像素每秒= 0 3 1 6 b i t 像素。即量化后的每像素用8 b i t 编码,而经过压缩后每像素仅用8 b i t 编码。 目前,m p e g 1 标准主要应用于v c d 、c d - r o m 等一些压缩比较低的图像设备中。 m p e g - - 2 是对m p i 晒一1 标准的继承和发展。m p e g 一2 标准的研究开始于 1 9 9 0 年,完成于1 9 9 3 年底,其标准的编号为i s 0 门匣c 1 3 8 1 8 。由于m p e g - - r 2 压缩 码率达4 m b i t s 一1 0 m b i t s ,约为m p e g 一1 的4 倍,所以m p e g 一2 广泛应用于d v d 、 广播电视( s d t v 、卸d t v ) 等领域中,同时,m p e g - - 2 向下兼容m p e g 一1 。就 是说,m p e g 一2 标准与m p e g 一1 标准的音视频编码主要内容是相同的。m p e g 一 2 功能扩展的釉表现是m p e g 一2 允许分层编码,而m p e g - - 1 却不允许。m p e g 一2 已经作为欧美及日本的数字视频广播的压缩标准技术。尽管不断有新的码率压 缩方法出现,但m p e g - - 2 在实用化方面已远远走在前面。m p e g - - 2 标准目前分为 9 个部分,即系统、视频、音频、符合性测试、软件模拟、d s m c c ( d i g i t a ls t o r a g e m e d i ac o m m a n da n dc o n t r 0 1 ) 扩展的完全软件实现、非后向兼容的音频、1 0 比特视 频、系统解码的实时接口扩展等“”。 m p e g - - 2 的第一部分系统部分解决多个视频、音频和数据基本码流的组合问 题,产生两种用于不同环境下的码流:节目码流和传送码流。节目码流是由打包的 基本码流组合丽成,并共享同一个时基信号,用于误码相对较小的环境,且节目码 流的包可变也相对较长。传送包是将时基相互独立打包的基本码流组合成单一的码 流,适用于误码较多的环境,传送包长度固定为1 8 8 b y t e 。第二部分视频部分中, 按清晰度将图像分为四个等级,同时按使用的工具和方法不同分为5 种处理类型, 其中普通清晰度数字电视使用主类和主级m p m l 。适用于演播室编辑的4 :2 :2 的m p m l 于1 9 9 6 年1 月通过,合并于视频标准中。第三部分音频部分与m p e g 一1 音频标准反向兼容,并支持多通道音频编码。第四部分制定了详细的测试标准, 包括地面、有线、卫星等接收条件下的技术参数。第五部分规定软件模拟下的码流 原则,注重多媒体的兼容性。第六部分是规定数字存储媒体指令和控制d s m c c 协 议,用以支持单独的或网络环境下的d s m - c c 模式,将码流从服务器传给用户。第 七部分规定不与m p e g - - 1 音频反向兼容的多通道音频编码。第八部分原计划用于 l o 比特视频抽样编码,因感兴趣的厂商不多,已经停止。第九部分规定了传送码流 的实时接口r 1 1 ( r e m 砸m eh t e f f a c e ) ,于1 9 9 6 年6 月成为国际标准”“。 m p e g - - 2 之所以能够支持不同性能不同复杂程度的解码器,覆盖更广的应用 范围,且兼容m p e g - - 1 ,是因为它充分考虑了各种应用的不同要求,同时也巧妙 解决了特殊性与通用性的问题。具体实现时,m p e g - - 2 规定了4 种输入图像格式, 称为“级”。级定义了从有限清晰度的v c d 图像质量到高清晰度的h d t v 图像质量, 即提供了灵活的信源编码格式。此外,m p e g - - 2 还规定了不同的压缩处理方法, 称为“型”或档次。按照不同的型与级的组合,有2 0 种组合方式,但在实际应用 种只有其中的1 1 种组合,如表2 。按照编解码技术的复杂程度分成的档次,其中每 一个档次都是m p e g - - 2 语法的一个子集。按照图像格式的复杂程度,又将每个档 次分成不同的等级,各等级都是对有关参数规定的约束条件。 表2 岍g 一2 系统结构 l e v c l简单主类s n r s p a t i m高类 砌盛 s i m # e m a i ns c a l a b l cs c a l a b l e n i g h 高级1 9 2 0 4 :2 :0 4 :2 :2 , 1 9 2 0 1 0 8 0 3 0 l ,p ,b4 :2 :0 1 9 2 0 x1 0 8 0 3 08 0 m b s l ,p ,b 1 0 0 m h s 高1 4 4 0 级 4 :2 :o4 :2 :o4 :2 :2 , 1 4 4 0 x1 1 5 2 x 2 5 i p ,bl ,p ,b4 :2 :0 1 4 4 0 1 0 8 0 3 0 6 0 m b s6 0 m b s l p 。b 8 0 m b f s 主级 4 :2 :04 :2 :o4 :2 :0 4 :2 :2 , 7 2 0 5 7 6 x 2 5 i ,pi ,p ,blp ,b 4 :2 :0 7 2 4 8 0 x 2 9 9 71 5 b i b s 1 5 m b l s 1 5 m b si ,p ,b s p m lm p m l s n i m p 2 0 m b ,s r i p m l 低级 4 :2 :04 :2 :0 3 5 2 8 8 2 9 9 7 j ,p ,b i p ,b 4 m b s4 m b s 7 m p e g - - 2 系统中的等级档次所对应的亮色度取样方式、编码方式、传输速 率及像素数等参数如表2 所示。其中主要档次主要等级( m p m l ) 涉及的正是数 字常规电视,其实用价值最大。低等级相当于i u t t 的h 2 6 1 的c i f 或m p e g 一 1 的s i f ,主要等级和常规电视相对应,高1 4 4 0 等级粗略与每扫描行1 4 4 0 取样点 的h d t v 对应,高等级大体上与每扫描行1 9 2 0 取样点的h d t v 对应。在m p e g 一 2 系统结构中,较高等次的编码除使用较低档次的编码工具外,还使用了一些较低 档次编码没有使用的附加工具。因此,较高档次的编码器除能解码本档次编码的图 像外,还能解码用较低档次编码的图像,即m p e g - - 2 的“档”之间具有向下兼容性。 2 3m p e g - - 4 的特性 m p e g - - 4 标准最初是针对视频会议、可视电话的超低比特率编码的。而在其 研究过程中,通过对芯片性价比的提高使得基于软件平台的压缩编码具有实用 的可能,且人们在对视频信息的应用需求从播放型逐渐转到基于内容的访问和操作 型。为此,m p e g - - 4 制定了新的且标:支持多种多媒体应用,可根据应用要 求配置编码器。 m p e g 一4 标准的编码基于对象,便于操作和控制。在比特率控制时,即使在低 带宽条件下,m p e g - - 4 也可利用码率分配的方法,对用户感兴趣的对象多分配比 特率,对其他则少分配比特率,保证主观质量。m p e g - - 4 的对象操作使用户可在 终端直接将不同的对象进行拼接,得到用户合成图像“。 m p e g - - 4 具有良好的扩展性,可进行时域和空间的扩展。m p e g - - 4 可根据带 宽和误码率的客观条件,在时域或空域进行扩展。前者指在带宽允许时增加帧率, 以达到充分利用带宽的目的。后者指对图像进行采样插值,增加或减少空间分辨率。 m p e g - - 4 有多种算法,可根据需要进行选择。为了支持高效压缩、机遇内容交 互和机遇内容分级扩展,m p e g - - 4 以基于内容的方式表示视频数据,引入a v o ( a u d i o v i d e oo b j e c t ) 概念实现机遇内容的表示方法。 2 4a v o 及数据结构 a v o 的基本单位是原始的a v 对象,它具有高效编码、高效存储传播及可交互 操作的特性。与m p e g - - 1 和m p e g - - 2 相比,m p e g - - 4 的特点是它更适用于交互 a v 服务和远程监控。可以这样说,m p e g - - 4 就是围绕a v 对象的编码、存储、传 输和组合而制定的。 8 m p e g - - 4 对a v 对象的主要操作如下: ( 1 ) 采用a v 对象表示音视频或其组合内容。 ( 2 ) 组合已有的a v 对象,通过自然混合编码s n h c 组织。 ( 3 ) 可对a v 对象数据多路组合和同步,以便选择合适的网络传输数据。 ( 4 ) 允许用户对a v 对象进行交互操作。 ( 5 ) 支持a v 对象知识产权和保护。 m p e g - - 4 是第一个使用户可以在接收端对画面进行操作和交互访问的编码标 准。由于m p e g - - 4 基于对a v o 进行独立编码,必须同时传送编码对象的组成结构 信息体“场景描述”,它不属于于a v o 的特征信息,仅仅表示场景中各a v o 之间 的时空结构关系。该信息是独立的,解码时可选定a v o 的“场景描述”参数,对 图像和声音的有关内容进行编辑和操作,如:增删某个对象、改变音调、激活分级 编码信息等等。 因为本文主要研究的是视频编码技术,m p e g - - 4 的a v o 也相应变为v o ,即 视频对象,以下内容也是针对v o 而言。在m p e g - - 4 校验模型中,v o 主要定义 为画面中分割出来的不同物体,并由三类信息描述:运动信息、形状信息、纹理信 息。m p e g - - 4 视频数据流的逻辑结构如图l 所示。 v s l v s n 、 v 0 1 v o n 、 v o l lv o l n 八 g o v i i 。 g o v n i v o p l v o p k 一 l v o p n _ v op i n | 图1l i p e g - - 4 视频数据流结构 其中,v o p ( v i d e oo b j e c tp l a n c e ) 为视频对象平面,可看作v o 在某一时刻的 表示,即某一帧;g o v ( g r o u p o f v o p ) 为视频对象平面组,提供视频流的标记点, 标记v o p 单独解码的时域位置,也即对视频流任意访问的标记。 v o l ( v i d e oo b i e atl a y e r ) 为视频对象层,用于扩展v o 的时域和空域的分 辨率,包含v o 的三种属性信息。 9 硕士学住论文 m a s t e r s t h e s i $ v o ( v i d e oo b j e c t ) 为视频对象,如前所述,即场景中的某个物体,有生命期, 由时问上连续的许多帧构成。 v s ( v i d e os e s s i o n ) 为视频镜头,一个完整的视频序列由几个v s 组成。 可见,每个v s 由个或多个v o 构成,每个v o 可自有一个或多个v 0 l 层, 如基本层、增强层等,每个层是v o 的某一分辨率表示。每个层中都有时间连续的 g o v ,每个g o v 又由一系列的v o p 构成。 2 5m p e g - 4 的构成 m p e g 4 提供自然和合成的音频、视频以及图形的基于对象的编码工具。 m p e g 4 由若干部分组成,主要部分为系统、视频和音频。m p e g - 4 码流主要包括 基本码流和系统流,基本码流包括音视频和场景描述的编码流表示,每个基本码流 只包含一种数据类型,并通过各自的解码器解码;系统流则指定根据编码视听信息 和相关场景描述信息产生交互方式的办法,并描述其交互通信系统。 2 5 1 系统 m p e g 4 系统把音视频对象及其组合复用成一个场景,提供与场景互相作用的 工具,使用户具有交互能力。m p e g - 4 的系统终端模型如图2 : l 交互式音视频场景 l i 合成显示 f ttr 墓葬描l 錾彝掐lv 数据l l 寡嘉童l 4个十 ili 基本濉i 基车 薯f i 。i 妻j同步詹甲 复用l 一案i 秽1i 撒t 一1 曲 传输存储介质 压缩层 口椎 图2m p e g - 4 终端模型 ( 1 ) 压缩层,执行媒体解码的系统组件。媒体是通过基本码流接口从同步层 提取的。专用m p e g 一4 媒体包括一个二进制格式场景描述符( b i f s ) ,用以指定场 景合成和图象的内容。另一个专用m p e g 4 媒体类型是对象描述符o d ,o d 包含 】0 硕士学位论丈 d a s t e r st h e s i s 指向基本码流的指针,类似于u r l ;o d 也包含附加信息,如服务质量参数等。压 缩层不考虑传输的问题。 ( 2 ) 同步层,负责各个压缩媒体的同步和缓冲。它接收来自传输层的同步层 包( s l ) ,根据基本码流的时间标志进行拆包,并转发到压缩层。一个完整的m p e g - 4 节目以不同的基本码流传送每一个媒体类型,如果涉及到可分级性,一些媒体可在 几个基本码流中传输。该层通过传送多媒体集成框架( d m i f ) 应用接口d a i 与传 输层对话。 ( 3 ) 传输层,对已经存在的各种传输协议描述。这些协议能够用来传输和存 储符合m p e g - 4 标准的视听内容。该层的功能并不在系统规定,只是需考虑和传输 层有关的接口d m i f 。d m i f 定义了流数据的传输接口及信道建立断开的信号。 系统解码器模型说明符合m p e g - 4 标准的终端功能。发送端可以利用此模型预 测接收端在接受到基本码流数据时是如何根据缓冲区管理和同步信息来解码的。系 统解码器模型包括定时模型和缓冲模型两种。如图3 所示,每个基本码流都有一个 单独的解码缓冲区,单个解码器可以解码多个基本码流。 图3 系统解码器模型 2 5 2 音频 与m p e g 1 、m p e g 2 相比,m p e g 4 不仅支持自然声音( 如语言和音乐) , 还支持合成声音( 如m i d i ) 。m p e g - 4 音频部分的合成编码和自然编码相结合, 并支持音频的对象特征。 硕士学位论文 m a $ t e r st h e s i $ ( 1 ) 自然声音编码 m p e g - 4 研究比较了现有的各种音频编码算法,支持2 - - 6 4 k b i t s 的自然声音编 码。如:8 k h z 采样频率的2 - 4 k b i 怕的语音编码,以及8 k h z 或1 6 k h z 采样频率4 一1 6 k b i 柏的语音编码,一般采用参数编码;而6 - - 2 4 k b i t s 的语音编码,一般采用 码激励线性预测c e l p ( c o d e e x c i t e dl i n e a l p r e d i c t i v e ) 编码技术;而从 1 6 k b i t s 以上码率的编码,则采用视频变换编码技术。这些技术实质上借鉴了g 7 2 3 、 g 7 2 8 以及m p e g 1 和m p e g 2 等。如图4 所示为m p e g - 4 音频支持2 _ 6 4 抽i 如 信道语音编码范围。 比特率:! :! :! :銎翌望! 0 k 6 t t s ) 团 姚8 k 2 0 k l i z 图4m p e 6 - 4 音频支持语音编码范围 ( 2 ) 合成声音编码 m p e g 4 引入两个有力的编码技术:文本到语音编码( t t s ,t e x t - t o - s p e e c h ) 和乐谱马区动合成编码。事实上,合成语音编码技术是一种基于知识库的参数编码技 术。值得一提的是,乐谱驱动合成技术中,解码器由一种特殊的合成语言结构 化音频管弦乐团语言( s a q l ,s t r u c t u e r da u d i oo r c h e s t r al a n g u a g e ) 驱动的。“管 弦乐团”由不同“乐器”组成,解码器不具有某“乐器”时,m p e g - 4 还允 许解码器从编码器中下载该“乐器”,以恢复合成声音。 2 5 3 视频 m p e g 4 支持对自然和合成视觉对象进行编码。合成的视觉对象包括2 d 、3 d 动 画和人面部表情动画等。对于静止图像,m p e g 4 采用零树小波算法( z e r o t r e e w a v e l e ta l g o r i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海立达学院《AI 设计基础》2025-2026学年第一学期期末试卷(A卷)
- 直播电商发展现状
- 2026年儿童安全座椅使用及立法情况
- 2026年中西医结合医院重点专科建设年度总结
- 2026年智能马桶清洁机器人项目社会稳定风险评估
- 2026年胸腹部外伤现场急救措施
- 上海科技大学《安全评估分析》2025-2026学年第一学期期末试卷(A卷)
- 2026年学校幼儿园消防安全与应急疏散演练培训课件
- 上海科技大学《安全工程信息技术与管理》2025-2026学年第一学期期末试卷(A卷)
- 2026年幼儿园轮状病毒肠炎防治
- 2023学年完整公开课版真空系统
- 2022年广西中考生物试卷真题及答案Word版(5份打包)
- 小学生心理健康教育实践与研究课题结题报告范文
- SB/T 10379-2012速冻调制食品
- GB/T 6173-2015六角薄螺母细牙
- GB/T 3609.1-2008职业眼面部防护焊接防护第1部分:焊接防护具
- GB/T 12642-2001工业机器人性能规范及其试验方法
- 房屋无偿使用协议 模板
- 急性肾损伤-KDIGO指南解读
- 真实世界研究-临床研究的新方向课件
- 招远市河道管理办法
评论
0/150
提交评论