（计算机软件与理论专业论文）mpeg4视频算法优化研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：75 大小：7.10MB 积分：0 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

（计算机软件与理论专业论文）mpeg4视频算法优化研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要 m p e g 4 视频编码标准是视频压缩领域第一个基于第二代编码技术的标准，是一种视频内容可交互的新的编码标准，对视频对象提供了形状编码、运动估计和补偿、纹理编码、s p r i t e 编码及可分级编码等工具。m p e g 4 将重点放在图像内容的交互性和可操作性上，视频对象平面v o p 和s p r i t e 是m p e g 4 中的两个重要概念，是实现极低比特率传输的重要方法。本文研究了动态s p r i t e 的生成，并对 m p e g 4 编码方法进行深入研究。本文深入研究了生成s p r i t e 像的两个关键步骤：全局运动估计矛 s p r i t e 像的镶嵌。全局运动采用八参数的透射模型，求解参数时首先进行三阶滤波器计算产生三层金字塔图像，然后在金字塔的顶层图像上用经典的三步块匹配搜索算法计算平移参数，这主要针对有大平移运动的情况，防止该层的迭代陷入局部极小点和难以收敛的问题，最后在每层图像上执行迭代最优化的梯度下降法计算透视模型的八个参数，在低层图像上完成迭代计算时便可得到全局运动参数。论文详细描述了透视模型下求解全局运动参数及生成s p r i t e 的算法，针对全局运动易受噪声干扰的特点，本文提出了改进的基于鲁棒m 估计器的全局运动估计算法，为了实时地生成s p r i t e ，同时考虑到不同像素对运动估计贡献程度的不同，算法引进了时间域和空间域特征点选取模块选取对全局运动贡献大的特征点参与全局运动的迭代计算。论文第二步工作是生成一个高质量的s p r i t e 图像，为了避免属于前景视频对象的像素被错误地镶嵌进s p r i t e 图像而损害生成的s p r i t e 图像质量。考虑到需要镶嵌的像素的可靠性不同，论文基于可靠性镶嵌生成s p r i t e 羽像。只有属于背景的像素才需要镶嵌进s p r i t e 羽像中，根据需要镶嵌的像素可靠性不同采用不同的镶嵌策略。关键词全局运动估计，m 估计器，s p r i t e 生成，图像镶嵌，块匹配运动估计 a bs t r a c t m p e g - 4v i d e oc o d i n gs t a n d a r di st h ef i r s ts t a n d a r dw h i c hb a s e do n t h es e c o n dg e n e r a t i o nt e c h n o l o g y ；i ti san e ws t a n d a r dw h i c ht h ec o n t e n t o fv i d e oc a nb ei n t e r a c t e d i ts u p p l i e ss h a p ec o d i n g ，m o t i o ne s t i m a t i o n a n dc o m p e n s a t i o n ，t e x t u r ec o d i n g ，s p r i t e c o d i n g ，s c a l a b l ec o d i n gf o r v i d e oo b je c tp l a n e m p e g 一4f o c u s e so nt h ei n t e r a c t i o na n do p e r a t i o no f t h ec o n t e n to fi m a g e v o pa n ds p r i t ea r ei m p o r t a n tc o n c e p ti nm p e g 4 ， a n dt h e ya r ei m p o r t a n tm e t h o d sw h i c hi m p l e m e n tl o wb i tr a t et r a n s f e r t h i s p a p e rs t u d yd y n a m i cs p r i t eg e n e r a t i o na n dm p e g 4c o d i n g a l g o r i t h mf u r t h e r l y t h i sp a p e rs t u d yf u r t h e r l yt h et w ok e ys t e p si ns p r i t e g e n e r a t i o n t h e ya r eg l o b a lm o t i o ne s t i m a t i o na n ds p r i t ei m a g em o s a i c i n g ，a n d d e s c r i b et h em o t h o d si nd e t a i l s g l o b a lm o t i o n i sm o d e l e du n d e r 8 - p a r a m e t e r sp e r s p e c t i v em o d e l w h e ns l o v i n gt h eg l o b a lm o t i o n p a r a m e t e r s ，t h r e e - l a y e rp y r a m i di m a g e sa r eg e n e r a t e df i r s t l y u s i n g 3 - o r d e rf i l t e r f o l l o w i n g ，a t y p i c a lt r e e - s t e pb l o c k - m a c h i n gs e a r c h i n g a l g o r i t h mi su s e dt oe s t i m a t et r a n f o r m a t i o nc o m p o n e n t so nt h et o p 1 a y e r i m a g e a n dt h e nc o m p u t et h ep e r s p e c t i v em o d e lp a r a m e t e r su s i n g i t e r a t i v eo p t i m i z a t i o ng r a d i e n td e s c e n ta l g o r i t h mi ne v e r yl a y e rp y r a m i d i m a g e l a s t l y , g e tt h eg l o b a lm o t i o np a r a m e t e r sw h e nf i n i s h i n gi t e r a t i v e c o m p u t a t i o no nt h eb a s ei m a g e t h i sp a p e rd e s c r i b e st h eg l o b a lm o t i o n e s t i m a t i o nu n d e rp e r s p e c t i v em o d e la n ds p r i t e g e n e r a t i o ni nd e t a i l s c o n s i d e r i n gt h ee f f e c to fn o i s eo ng l o b a lm o t i o n ，t h i sp a p e rp r o p o s a la n i m p r o v e da l g o r i t h mw h i c hb a s e do nr o b u s tm e s t i m a t o r i no r d e rt o g e n e r a t es p r i t e r e a l t i m e ，t h ei m p r o v e d a l g o r i t h me m p l o y s t e m p o r a r y d o m a i na n ds p a t i a l - d o m a i nf e a t u r ep o i n ts e l e c t i o nm o d u l et o s e l e c tt h ef e a t u r ep o i n t sw h i c hc o n t r i b u t em o r et o g l o b a lm o t i o nt o a n t i c i p a t ei ni t e r a t i v ec o m p u t i o n n e x tw o r ko ft h i sp a p e ri st og e n e r a t ea l le x c e l l e n tv i s u a lq u a n l i t y s p r i t e t oa v o i dt h ep i x e l sw h i c hb e l o n g e st of o r e g r o u n dv i d e oo b je c t m i s sr e g i s t e ri ns p r i t ea n dt h er u i nt h es p r i t e c o n s i d e r i n gt h ed i f f e r e n c e r e l i a b i l i t yo ft h ep i x e l sw h i c hn e e dt or e g i s t e ri nt h es p r i t e ，t h i sp a p e r r e g i s t e rt h ep i x e l sb a s e do nt h e i rr e l i a b i l i t yt og e n e r a t et h es p r i t ei m a g e n o n l yt h ep i x e l sb e l o n g e dt ob a c kg r o u n dv i d e oo b j e c tn e e dt or e g i s t e r , d i f f d e r e n tr e l i a b i l i t ya p p l i e dd i f f e r e n tm o s a i c i n gs t r a t e g y k e yw o r d s g l o b a lm o t i o ne s t i m a t i o n ，m e s t i m a t o r , s p r i t eg e n e r a t i o n ， i m a g em o s a i c i n g ，b l o c km a t c h e s t i m a t i o n i i i 原创性声明本人声明，所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了论文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。作者签名：喜、1 ；西日期：2 堕年上月监学位论文版权使用授权书本人了解中南大学有关保留、使用学位论文的规定，即：学校有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库，并通过网络向社会公众提供信。i , i i 务。作者签名：邋导师签名：翌堕日期：盟年上月盖曰硕士学位论文第一章绪论 1 1 课题背景第一章绪论随着计算机与通信的迅猛发展，图像压缩编码技术在移动多媒体通信、数字存储媒体( d i g i t a ls t o r a g em e d i a ) 和数据发行( d a t ad i s t r i b u t i o n ) 等领域中具有非常重要的地位，并发挥着极其重要的作用。为了适应这一发展的需要，i s o ( 国际标准化组织) 在1 9 8 8 年成立了运动图像专家组( m o v i n gp i c t u r ee x p e r t sg r o u p ， m p e g ) ，并在1 9 9 2 年发布了m p e g 1 i lj 标准。为了能够适应更多的应用需要， m p e g 专家组继续寻求更先进的压缩编码技术，并在1 9 9 4 年1 1 月发布了m p e g 2 【2 1 国际标准的主体部分( 系统、视频和音频) ，m p e g 2 标准的应用范围非常广泛，己经成为数字存储媒体、数字电视广播和宽带通信等应用的一项普遍遵循的规范。m p e g - 4 t 3 j 标准的第一版于1 9 9 9 初正式推出，1 9 9 9 年底推出第二版，该标准不仅仅是m p e g 1 、m p e g - 2 标准沿甚低比特率方向的进一步发展，重要的是它建立在基于内容的表示之上的，这是它区别于以前已制定标准m p e g 1 、m p e g 2 的最基本、最主要的区别，m p e g 4 标准的突出特点是可对音视频数据采用基于内容的操作、存储和传输，其目标为：支持多种多媒体应用( 主要侧重于对多媒体内容的访问) ，可根据应用要求的不同来配置解码器，编码系统是开放的，可以随时加入新的有效的算法，使其具有长期的生命力和广泛的适应性。除i s o i e c 下的运动图像专家组外，国际电信联盟i t u t ( 原为国际电话电报咨询委员会c c i t t ) 也先后推出了h 2 6 1 | 4 1 和h 2 6 3 t 5 】两个用于传输数字音视频信号的标准。为了追求更高的压缩比，早在1 9 9 5 年提出m p e g - 4 标准和h 2 6 3 标准制定之后，i s o i e c 的运动图像专家组和i t u t 的视频编码专家组( v i d e oc o d i n g e x p e r tg r o u p ，v c e g ) 联合成立了联合视频组( j o i n tv i d e ot e a m ，j v d ，着手制定新的视频编码标准，最初的代号为h 2 6 l ，于1 9 9 8 年2 月开始正式征集提案，1 9 9 9 年8 月完成了第一版草案及相应测试模型。在2 0 0 1 年1 2 月j v t 的第一次会议上形成了第二版工作草案及测试模型( j u s t i f i e dm o d e ln u m b e rl ，j m l ) 。在2 0 0 3 年3 月召开的全体大会上提出了最终草案，视频编码专家组称之为2 6 4 t 引，运动图像专家组称之为m p e g - 4v i s u a lp a r t1 0 ，该标准是最新的国际编码标准，可获得最高压缩比，但计算复杂度高，对视频内容没有交互性且不考虑合成图像的编码问题，这是h 2 6 4 区别于m p e g - 4 的主要特征，m p e g - 4 是第一个基于第二代编码技术的国际标准，当前视频编码技术己成为当今信息科学与技术的研究热点。硕士学位论文第一章绪论视频压缩编码技术经历了两个发展阶段，第一阶段为基于波形编码，主要特征是以像素或像素块及其运动为要素，利用像素之间的统计特性的压缩编码方法；第二阶段为基于内容的表示，其基本思想是用更复杂的图像结构模型和人的视觉系统模型来提高编码效率。 1 1 1 第一代基于波形编码技术第一代的压缩编码以香农信息论为出发点，用概率统计模型描述信源。香农编码定理指出：在不产生任何失真的前提下，通过合理编码，对于每一个信源符号分配不等长的码字，平均码长可以任意接近于信源的熵。在香农信息论框架下的几种编码方法，如游程编码( r u nl e n g t hc o d i n g ，r l c ) ，霍夫曼编码( h u f f m a n c o d i n g ) 、算术编码( a r i t h m e t i cc o d i n g ) 等都是无损编码，即信息经编码后再解码可以得到与原来一样的信息，这些编码被统称为熵编码( e n t r o p yc o d i n g ) 。但对于复杂的图像，这些编码方法压缩率是很有限的，压缩率一般不超过2 。显然，无失真熵编码压缩率的限制，使其难以满足图像压缩编码的需求。最基本的图像压缩编码技术都是基于信号理论的，这些技术包括：预测编码、正交变换编码、向量量化编码、小波编码以及运动补偿等传统编码技术等。预测编码是从信号波形的统计预测方法引伸而来的；正交变换比较巧妙地利用了信号信息在不同表达空间上的分布规律的特殊性而提出的；向量量化也同样是利用信号序列( 或二维信号矩阵) 的连续性而提出的；小波编码的基本思想是通过一个基本小波函数在不同尺度下的平移和伸缩而构成的一簇函数，用于表示或逼近信号或一个函数；运动补偿则首先需要图像的纹理作运动估计得到运动向量，利用运动向量进行运动补偿后对差值进行编码。这些方法的共同特点是从信号处理理论出发，利用信号理论和信息论作为工具，因此将这些编码方法统称为波形编码，这种基于信息理论的编码方法通常称为第一代编码技术。现有的视频图像编码国际标准如m p e g - 1 2 ，h 2 6 1 1 2 6 3 1 2 6 4 都是基于这种编码理论，采用的是基于像素块的块运动补偿、离散余弦变换( d i s c r e t ec o s i n e t r a n s f o i t i i ，d c t ) ( 或近似的整数变换，在h 2 6 4 中采用) 、空间预测和时间预测和量化相结合的混合编码方法。基于像素块运动补偿消除运动图像在时间上的相关性；d c t 变换消除图像在空间上的相关性；量化利用人的视觉特性丢失部分对人的视觉不重要的信息，对低频部分采用较小的量化步长，而对高低频部分采用较大的量化步长。第一代视频编码方案存在以下缺陷：( 1 ) 将图像固定地分成相同大小的块，在高压缩比的情况下会出现严重的块效应，即马赛克效应。( 2 ) 不能随意对图像内容进行访问、编辑和回放等操作。( 3 ) 未充分利用人眼的视觉特性去除视觉冗 2 硕+ 学位论文第一章绪论余等。为了解决第一代视频编码方案存在的缺陷，提出了许多改进的技术，例如提出了用小波变换口刮替换d c t 变换来提高图像的编码效率。但对视频信号而言，波形编码的理论己经发展到相当成熟的阶段，现在所做的研究工作只不过是对其进一步的完善和补充，想在原有基础上取得突破性的进展几乎是不可能的。此外，人们需要对日益丰富的多媒体信息进行交互，因此提出第二代基于内容的编码方法，这些方法包括基于对象的编码、基于模型的编码、基于语义的编码等，第二代基于内容的编码方法以m p e g - 4 标准为代表。 1 1 2 第二代基于内容编码技术 2 0 世纪8 0 年代中后期，相关学科的迅速发展和新兴学科的不断出现，为视频编码技术的发展注入了新的活力。许多学者结合计算机视觉、模式识别、小波分析、分形几何等理论，开始探索视频编码的新途径。同时关于人类的视觉生理、心理特性的研究成果也开拓了人们的视野，许多新型编码方法相继提出。m k u n t 【1 0 1 于1 9 8 5 年首先提出利用人眼视觉特性的第二代视频编码( s e c o n dg e n e r a t i o n c o d i n g ) 的思想，受到人们的广泛关注。与此同时，分形编码、模型编码等一些新型编码方法也得到了发展，所有这些都为基于内容的编码技术奠定了理论基础。第二代视频编码方法是针对第一代编码方法中没有考虑人眼对轮廓、边缘的特殊敏感性和方向感知特性而提出的。第二代编码技术分为两类：基于局部特征的编码和面向边界纹理的编码。前者包括金字塔编码和非对称非平稳的预测编码，以及后来的子带编码技术，这类编码技术处理图像的过程类似于人的视觉系统处理过程；后者面向边界纹理的编码技术试图通过一些图像的基本结构，如边界、运动和纹理来描述图像，并单独编码这些信息。第二代编码技术相对于波形编码技术而言能得到更高的压缩比，并且第二代编码技术的这些基本思想推动了基于对象的编码、基于模型的编码和基于语义的编码等技术的形成和发展。为了与人眼视觉特性相符合，第二代视频编码技术没有采用基于像素的表征方法，而是用由轮廓、纹理等定义的区域( r e g i o n ) 来表征视频数据，这些区域对应的是对象或对象的一部分。第一代编码技术只要求对视频信号进行有效编码，而不需要分析图像信号内容：而第二代编码技术要求能够识别图像中的区域和物体，并对它们进行单独编码。 m p e g - 4 代表了基于模型对象的第二代视频编码技术，充分利用了人的视觉特性，抓住了图像信息传输的本质，从轮廓、纹理、运动等信息出发，支持基于硕十学位论文第一章绪论视频内容的交互功能，适应了多媒体视频信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。 1 2m p e g 4 中背景编码 s p r i t e 编码是m p e g 一4 中提出的一个重要的基于对象编码方法，是针对许多图像序列在一段时间内的背景视频对象( b a c k g r o u n dv i d e oo b j e c t ) 自身没有或只有较小的局部运动，其每帧所产生的变化是由于前景物体的运动，一部分背景被掩盖，而另一部分背景又显露出来；或者是由于摄像头的运动，如平移、旋转和缩放所产生的比较复杂的变化而提出的。为了有效编码这类图像，可以将某一背景在一段时间的内容拼接成一幅完整的背景图像，这种合成的图像即是s p r i t e l 虱像。在网络传输过程中，可以只根据最初的几帧图像，合成相对完整的s p r i t e 图像，把s p r i t e 图像一次传输给接收方，在以后的视频传输中，只传输更新s p r i t e 的信息和前景视频对象( f o r e g r o u n dv i d e oo b j e c t ) 在s p r i t e l 茎l 像的相对位置、运动信息。这样可以节省很多的带宽，大大降低了传输的码率，以达到更高压缩效率。生成s p r i t e 图像要进行的预处理是视频分割【l 卜1 2 1 。编码前要进行图像分割，而图像分割是图像处理的又一关键也是最有挑战性的技术，本论文不研究有关图像分割的技术，但在第四章生成s p r i t e 时利用一个粗糟分割算法，因此本文的研究都是假设图像已经分割为前景图像和背景图像。s p r i t e 编码是针对背景图像的，本论文讨论s p r i t e 的生成过程，同时，针对前景图像和背景图像分开编码的特性，对背景应用不同的编码策略进行处理，更有利于降低s p r i t e 的生成复杂度和最终图像质量。 1 3 国内外相关的研究工作背景s p r i t e 编码，国内外研究比较多的是二维s p r i t e 的生成和编解码。要准确高效合成s 砸t c 图像，最重要技术的是要确定新来的一帧图像的像素在s p r i t e 蛩像上的位置，这主要是通过全局运动计算来确定的。全局运动估计在其他的视频处理中也是一种常用的重要的工具，m p e g - 4 验证模型中提出的全局运动估计在全局范围内进行运动估计，可以较精确的估计物体运动的参数，其运算量是非常巨大的，很多视频标准研究重点是放在全局运动估计方法的创新和优化上，如 j a n u s zk o n r a d 【i3 j 提出的全局运动估计的改进方法，用残差直方图方法去除噪声，但算法计算量大，而且计算结果对噪声敏感，很难做到实时。贺玉文i l 5 i 提出快速鲁棒的全局运动估计算法，该算法为了减少噪声影响，引进了两种去除噪声的方法，一种是基于残差直方图方法，另一种是基于残差块的方法，其中基于残差 4 硕士学位论文第一章绪论块的方法是该算法首次提出来的，这两种方法的结合使用可以较好地去除前景运动带来的噪声，但该算法假设前景是一个比较集中的区域，当假设不成立时较难保证计算的准确性。二维s p r i t e 的生成、编码是当前研究的一个热点。y k a n g 1 6 】等进行的研究是利用仿射模型进行运动估计来生成s p r i t e l 至t 像，h t a o t l 7 】等用b a y e s i a n 估计来完成动态的层次表示，n i k o sg r a m m a l l d i s i i s l 等则详细讨论了s p r i t e 的生成和编码方法。此外，一个重要的研究方向是如何提取摄像机的运动信息【1 9 1 ，以便生成s p r i t e 图像的层次信息，它主要研究如何提取摄像机的运动参数。 1 4 论文主要工作及内容安排本文主要研究m p e g - 4 中全局运动估计和s p r i t e 图像生成技术，二者均为 m p e g - 4 中开放性问题，研究是以目前国际上主流的压缩标准m p e g - 4 为基本框架，同时使用m p e g 一4 验证模型( v m ) 为平台进行试验和测试。本论文结构安排如下：第一章，介绍相关的课题背景和国内外的研究情况，说明了论文的研究内容及安排。第二章，介绍m p e g - 4 编码技术的主要特点，包括：标准提供的新功能、视频数据的层次结构模型、实现编码的关键技术、以及s p r i t e 编码的相关概念。详细地描述m p e g - 4 的层次结构模型一一视频对象平面( v o p ) ，并重点介绍了 m p e g - 4 中两种s p r i t e 编码方法：离线静态s p r i t e 和在线动态s p r i t e 的生成与编码，分析了各自的技术细节。第三章，首先详细分析了图像的运动以及估计图像运动所遇到的孔径与遮挡问题，然后在透射投影和正交投影下导出各种用于全局运动估计的参数几何模型并简要分析了其性能，包括二维的平移模型、旋转模型、缩放模型、仿射变换模型、全参数的透射模型和二次非线性模型。全局运动估计作为s p r i t e 编码的关键步骤，本章给出了其基本思想。最后，介绍了基于块匹配二维运动估计算法，基于单峰残差值假设的快速运动估计算法，如三步法，菱形法。基于预测点的快速运动估计方法，如m v f a s t 以及改进后的p m v f a s t ，重点是分析这些运动估计算法的匹配准则、搜索方法、块大小的确定。第四章，深入讨论本文改进的生成二维动态s 研t e 图像的算法。本章对使用透视模型的全局运动估计生成s p r i t e 的技术进行了详细讨论，研究并解决 s p r i t e 编码的两个问题：一个是加速动态s p r i t e 图像的生成，针对此问题提出了一个改进的基于鲁棒m 一估计器的全局运动估计的算法，该算法减少了属于前景视频对象的像素所造成的噪声对全局运动的迭代计算中涉及的微分计算的影响，同时引硕十学位论文第一章绪论进了空间域特征点模块和时间域特征点模块来选取特征点来加速计算；另一个问题是提高生成的s p r i t e 图像质量，引进了基于可靠性图像镶嵌技术来生成高质量的s p r i t e 图像。作为一个可选的粗糙图像分割算法用于在生成s 研t e 图像前没有获得视频对象分割信息时可粗糙获得分割信息，最后给出实验结果及分析。第五章，总结和展望，主要总结了论文的研究成果，指出了研究工作中出现的、尚未处理的问题以及问题的解决办法，并对研究工作的深化以及后续工作提出了建议。 6 硕十学位论文第二章m p e g 4 标准和s p r i t e 技术第二章m p e g 4 标准和s p r i t e 技术在多媒体信息处理中，最基本的需求是能动态实时地处理声音、动画、视频信号，而图像的数据量是十分庞大的。若不对视频数据进行压缩处理，实时性根本就不能达到。例如，一幅具有中等分辨率( 6 4 0 x 4 8 0 ) 的彩色数字视频图像的数据量约为7 3 7 2 8 m b i t s 帧，计算公式为：6 4 0 x 4 8 0 x 3 x 8 b i t = - 7 3 7 2 8 m b i t s ，若帧速率为3 0 帧秒，则视频信号的传送速率大约为2 2 1 1 4 8 m b i t s s ，计算计算公式为： 7 3 7 2 8 m b i t s x 3 0 = 2 2 1 1 4 8 m b i t s ，数据量之大，难以寻求庞大的存储设备存储这些数据，而且计算机也难以实时地的从存储器将这些数据传送到中央处理器，因此，视频数据压缩技术也就成了开发多媒体系统中视频处理的关键技术。原始视频数据客观存在的冗余为数据压缩的实现提供了可能。首先，每幅图像由于帧内相邻像素之间是空域相关的，数据存在很大的空间冗余。其次，图像序列相邻帧之间也具有较强的时域相关性，即数据存在很大的时间冗余。例如，对于电视中的演讲人图像序列，相邻帧之间可能只是由头部、眼部和嘴部的微小变动而引起的细微差别。再者，在多媒体系统的应用领域中，人是图像信息的接收者，这样，就可以利用人的视觉系统( h u m a nv i s u a ls y s t e m ，h v s ) 对边缘急剧变化不敏感和对图像的亮度信息敏感，利用这个特点对图像的亮度分量和色度分量实施不同的采样密度，亮度分量密度高，而色度分量密度高低，实现高压缩率，从而使由压缩数据恢复的图像信号仍有满意的主观质量。 2 1m p e g 4 视频压缩标准概述运动图像专家组( m p e g ) 成立于1 9 8 8 年，它的主要工作是促进运动图像编码的标准化，到目前为止，已经发布了m p e g 1 2 4 、m p e g 一7 和m p e g 2 1 等国际标准，m p e g 1 2 4 为信源压缩编码标准。准确地说，m p e g 一7 与m p e g 2 1 并不是压缩编码标准，其中m p e g 一7 是一个多媒体内容描述接口( m u l t i m e d i ac o n t e n t d e s c r i p t i o ni n t e r f a c e ) ，开发它的原因是继m p e g - 4 之后，要解决的矛盾就是对日益庞大的图像、声音信息进行管理和快速搜索。针对这个矛盾，m p e g 提出了解决方案m p e g 一7 。m p e g 一2 1 为多媒体描述框架，m p e g 2 1 是由m p e g 7 发展来的，该标准于1 9 9 9 年1 0 月在m p e g t 作会议上提出，其名称为多媒体框架( m u l t i m e d i a f r a m e w o r k ) ，它不是一个单纯的视音频编码标准。m p e g 2 l 的制定目的是建立一个交互式多媒体应用框架，将不同的协议、标准、技术有机融合，形成一个关键 7 硕十学位论文第二章m p e g 一4 标准和s p r i t e 技术技术的集成环境，以实现对全球数字媒体资源的透明及增强管理。以下简要介绍 m p e g 1 2 标准并重点论述本文关注的m p e g 4 标准。 m p e g 1 是1 9 9 3 年制定的标准针对1 5 m b p s 数字存储媒体运动图像及其伴音编码制定的国际标准，该标准分为四部分，前三部分分别为：m p e g - 1 系统、 m p e g 1 视频。m p e g 1 音频。第四部分主要用于测试与验证。m p e g - 1 的带宽至多为1 5 m b p s ，其中，1 1 m b p s 用于视频，1 2 8 k b p s 用于音频，其余用于m p e g 一1 系统本身。研发m p e g 1 标准的目的主要包括以下几个方面： ( 1 ) 在声像质量上高于电视或电视会议的声像质量，至少应达至i j v h s 录像带或c d r o m 的放像质量。 ( 2 ) 压缩后的数据量能存储在光盘、数字录像带或可改写在光盘等媒体中。 ( 3 ) 压缩后的数据率与目前的计算机网络传输码率相匹配，即1 2 m b p s 为宜。 ( 4 ) 在通信网络上该标准能够适应多种通信网络的传输。 ( 5 ) 该标准充分考虑到更广泛的应用领域，如：电子图像出版物、电子图像双向传递、电子图像编辑及双向电子图像通信等。该标准支持两种图像分辨率，即标准中间格式( s t a n d a r di m e m e d i af o r m a t ， s i f ) ，大小为3 5 2 x 2 4 0 ，和通用中间格式( c o m m o ni n t e m e d i af o r m a t ，c i f ) ，大小为3 5 2 x 2 8 8 。该标准使得基于c d - r o m 的数字视频及m p 3 数码产品成为可能并带来了巨大的产业。 m p e g 2 标准是在m p e g 1 的基础上的进一步改进与扩展，该标准分为三部分：m p e g 2 系统、m p e g 2 视频、m p e g 2 音频。主要针对数字视频广播，高清晰度数字电视和数字视盘等制定的4 - - - 9 m b p s 运动图像及其伴音编码，m p e g 一2 是数字电视和d v d 等产品的技术基础。由于m p e g 2 的出色表现已能适用于 h d t v ，使得原打算为h d t v 设计的m p e g 3 还没出世就被抛弃了，m p e g - 3 要求传输速率在2 0 m b p s - - , 4 0 m b p s 之间，但这将使画面有轻度扭曲。 m p e g - 4 标准的第一版于1 9 9 9 年初正式推出，1 9 9 9 年底推出第二版，与前两个标准相比，m p e g 4 已不再是一个单纯的音视频编码压缩标准，m p e g 一4 兼顾了工具、算法、层面三个方面的编码对象，它更多的是定义一个压缩码流的存储格式和解码框架，而不是具体的算法，对编码过程和算法不做规定和描述，在这个编码框架下人们可以加入许多新算法，并且它能够与m p e g - 1 2 ，h 2 6 3 标准相兼容。同时m p e g - 4 在所有已发布的压缩标准当中首先提出基于对象的编码并首次使用了对象( o b j e c t ) 的概念，基于对象首先要考虑图像的内容，这种以内容为中心的描述方法更符合人的心理特性，也为应用提供了各种新的功能【2 0 】。 m p e g - 4 的可视信息的码率范围可从5 k b p s , - - 6 4 k b p s ( 甚低比特率，c i f 以下分辨率和1 5 h z 以下的帧率) 至l j 6 4 k b p s - - - 4 m b p s ( 甚高比特率，符合i t u - r6 0 1 各种图像 8 硕十学位论文第二章m p e g 一4 标准和s p r i t e 技术分辨率) ，m p e g - 4 支持的码率和相应的功能如图2 l 。码率图2 im p e g - 4 特比率和功能功能图中甚低比特率视频核( v e r yl o wb i tr a t ev i d e oc o r e ，v l b r v c ) 提供了甚低比特率的算法和工具，支持3 5 2 x 2 8 8 的通用中间格式( c i f ) 分辨率，帧率为1 5 h z 以下的图像序列。图中上方是甚高比特率视频核( v e r yh i g h tl o wb i tr a t ev i d e o c o r e ，v h b r v c ) ，它提供了与v l b v c 一样的算法和工具，但图像的分辨率和帧率符合i t u r 6 0 1 的要求，即要求较高的分辨率和帧率。在开发低码率( 5 , - - , 6 4 k b p s ) 编码标准的同时，将重点放在人们更感兴趣的图像具体目标的交互性和可操作性上。作为m p e g - 4 标准的核心内容，m p e g - 4 的视频编码部分正受到愈来愈多学者和商家的关注。m p e g 1 和m p e g 2 标准均为高层媒体的表示与结构标准，其交互及灵活性较低，m p e g 4 则具有的交互性和可操作性。m p e g - 4 标准前6 个部分分别为：m p e g - 4 系统( i s o i e cd i s l 4 4 9 6 1 ) 、 m p e g - 4 视频( i s o i e cd i s l 4 4 9 6 2 ) 、m p e g 4 音频( i s o i e cd i s l 4 4 9 6 3 ) 、 m p e g - 4 - - 致性测试标准( i s o i e cd i sl4 4 9 6 _ 4 ) 、m p e g - 4 参考软件( i s o i e c d i s l 4 4 9 6 5 ) 和m p e g - 4 传输多媒体集成框架( i s o i e c d i s l 4 4 9 6 6 ) 。 m p e g - 4 标准的编码基于对象，便于操作和控制。在比特率控制时，即使在低带宽条件下，m p e g 一4 也可利用码率分配的方法，对用户感兴趣的对象多分配比特率，对其他对象则少分配比特，保证主观质量。m p e g - 4 的对象操作使用户可在终端直接将不同的对象进行拼接，得到用户合成图像。m p e g - 4 具有良好的扩展性，可进行时域和空间的扩展，可根据带宽和误码率的客观条件，在时域或空域进行扩展，前者指在带宽允许时增加帧率，以达到充分利用带宽的目的，后者指对图像进行采样插值，增加或减少空间分辨率。m p e g - 4 有多种算法，可根据需要进行选择。为了支持高效压缩、基于内容交互和基于内容分级扩展， m p e g - 4 以基于内容的方式表示视频数据，引入t a v o ( a u d i ov i d e oo b j e c t ) 概念实现基于内容的表示方法。 m p e g - 4 主要的关键技术包括视频对象分割，形状编码，运动估计和补偿，纹理编码，分级编码，s p r i t e 编码，静止图像编码等。m p e g - 4 中可以处理的对象 9 硕十学位论文第二章m p e g - 4 标准和s p r i t e 技术 2 1 1 有：自然视频对象、s p r i t e s 对象、2 d 网格对象、3 d 人脸对象、3 d 身体对象、静态的纹理对象、3 d 网格对象。 2 2m p e g 4 标准的功能 m p e g 4 标准采用了以功能为基础的策略，不针对任何特殊应用，而是力图尽可能的支持对多种应用均有帮助的功能组。具体来说，它除了具备传统编码的功能外，新功能还包括基于对象内容的交互性、高压缩率、灵活多样的存取模式等，这些新功能主要分为三类。 1 基于内容的交互性( c o n t e n tb a s e di n t e r a c t i v i t y ) 内容交互性指用户对视频内容具有更多的控制能力，体现在以下三个方面。 ( 1 ) 基于内容的操作与比特流编辑支持无须编码就可进行基于内容的操作与比特流编辑。例如：使用者可以在图像或者比特流中选择一个具体的对象( 例如图像中的某个人、某个建筑物等) ，然后改变它的某些特性。 ( 2 ) 自然与合成数据混合编码提供将自然视频图像同合成数据( 如文本、图形等) 有效结合的方式，同时支持交互式操作。 ( 3 ) 增强的时间域随机存取提供有效的随机存取方式，在有限的时间间隔内可以按帧或任意形状的对象，对音频、视频序列进行随机存取。例如以一序列中的某个音、视频对象为目标进行“快进”搜索。 2 高压缩率( h i g hc o m p r e s s i o n ) 压缩率是m p e g - 4 标准的重要目标，此外内容交互能力也是另一个重要的目标，在压缩率方面，m p e g - 4 努力达到如下两个目标。 ( 1 ) 提高编码效率压缩编码效率是衡量一个编码标准的关键因素，m p e g - 4 采用基于对象的编码技术，可以对场景中不同目标进行单独编码，对重要对象采用高分辨率编码，对非重要背景采用低分辨率编码，因而具有较高的压缩编码效率，此外在降低码率的同时还可以获得更好的主观评价。实验表明，m p e g - 4 的压缩倍数高达1 0 0 倍，这一功能可在现在的3 g 移动通信网中得到应用。但提高编码效率并不是 m p e g 一4 的唯一主要目标。 ( 2 ) 可对多个并发数据流编码 m p e g - 4 将提供对一景物的有效多视角编码，加上多伴音声道编码及有效的视听同步。在立体视频应用方面，m p e g - 4 将利用对同一景物的多视点观察所造 1 0 硕十学位论文第二章m p e g - 4 标准利s p r i t e 技术成的信息冗余，这一功能在足够的观察视点条件下，可以有效描述三维自然景物。 3 灵活多样的存取( u n i v e r s a la c c e s s ) 存取能力体现在纠错能力，对视频内容内容尺度可伸缩性上，m p e g 4 标准提供如下两方面支持。 ( 1 ) 错误易发环境中的抗错性( r o b u s t n e s s ) m p e g 4 编码具有鲁棒性和纠错功能，通过三个策略来达到此目的：再同步 ( r e s y n c h r o n i z a t i o n ) 、数据恢复( d a t ar e c o v e r y ) 、差错隐藏( e r r o rc o n c e a l m e n t ) 。 m p e g - 4 是第一个在其音

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）mpeg4视频算法优化研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）mpeg4视频算法优化研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档