（计算机科学与技术专业论文）mpeg4视频编码算法的研究与实现.pdf

上传人：活*** IP属地：宁夏上传时间：2020-01-10 格式：PDF 页数：3 大小：1.98MB 积分：7.2 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

国防科学技术大学研究生院学位论文摘要多媒体技术正在迅速发展应用领域不断拓广。与之相适应，各种多媒体数据压缩编码标准也在不断地发展和完善。m p e g 4 是现在最重要最有影响的多媒体数据压缩编码国际标准之一。基于对象的编码思想使其具有高压缩比、可扩展性、可交互性等许多优点。m p e g 4 代表着未来多媒体数据压缩编码的发展趋势。l 尸一本文的实际应用背景是实现一个基于m p e g 4 标准的远程视频监控系统远程视频监控要求对视频图像进行实时的压缩编码以及根据网络状况自适应地对压缩视频流进行流化传输，因此视够鳗码器必须能够进行快速的编码和比特率控制。基于上面的背景厂本文第一部分针对m p e g 4 标准的核心部分一一视频的压缩编码进行了两方面的重点研究。f 首先在对传统的运动估计算法进行研究和改进的基础上，提出了四步搜索块匹配的运动估计算法，减少了运动估计的时间，提高了编码效率；其次在分析m p e g 2 比特率控制的基础上，提出了种新的比特率控制算法平均响应比特率控制算法，该算法能够快速有效的实现自适应编码。l ，y 一本文的第二部分以上面的研究成果为基础，结合p r o j e c t m a y o 组织提供的视频压缩基本算法的实现代码，完成m p e g 4 视频编码器和解码器原型的软件实现，为远程视频监控系统的实现奠定基础。同时，为了将视频编码器和解码器原型更好的用于远程视频监控系统，本文提出了对原型进一步改进的方法，即在对视频图像压缩编码之前加入运动检测的预处理过程，从而进一步提高编码效率。 ( 另外，本文对m p e g 4 标准中静态s p r i t e 对象的生成和编码方法做了比较深入的研究，为将其用于背景图像变化少的一类问题的应用奠定了一定的理论基础。l 夕“一关键词m p e g 4 视频压缩视频监控$ 震翥娇野r 1 豳争翻馨盯1 甄蕃专节衬固一7 ，、一第1 页国防科学技术大学研究生院学位论文 a b s t r a c t r e s p o n d i n g t om u l t i m e d i a t e c h n o l o g yr a p i d l yd e v e l o p i n g a n d a p p l i c a t i o n d o m a i n p r o m p t l ye n l a r g i n g ，m a n ym u l t i m e d i ac o m p r e s s i o n a n dc o d i n gs t a n d a r d sp r o g r e s sa n dp e r f e c t c o n t i n u o u s l y a m o n gt h e m ，m p e g 4p l a y sa ni m p o r t a n tr o l ei nt h em u l t i m e d i af i e l d d u et o i t s o b j e c t b a s e di d e a ，i th a st h e v i r t u eo fh i g hc o m p r e s s i o nr a t i o ，s c a l a b i l i t y ，i n t e r a c t i v i t y w i t hu s e r sa n ds oo n f o rt h i sr e a s o n ，m p e g 4i n d i c a t e st h et e n d e n c yo ft h em u l t i m e d i a c o m p r e s s i o n a n dc o d i n g t e c h n i q u e b a s e dt h er e s e a r c hb a c k g r o u n do ft h er e m o t ev i d e os u r v e i l l a n c ew h i c hm a k e sr e a l t i m e a n da d a p t i v ec o m p r e s s i o na n ds t r e a m i n gv i d e os e q u e n c en e c e s s a r y ，t h i sp a p e rf i r s td o e st h e d e e pr e s e a r c ho b v i d e oc o m p r e s s i o na n dc o d i n gw h i c hi st h eh a r d c o r ep a r to fm p e g 4 m a i n l y f r o mt w of a c e t s t h ef i r s tf a c e ti st op u tf o r w a r df o u r - s t e pb l o c km a t c h i n ga l g o r i t h mw h i c h c a nd e d u c et h et i m eo fm o t i o ne s t i m a t i o na n di m p r o v et h ec o d i n ge f f i c i e n c y , b a s e do nt h e t r a d i t i o n a lm o t i o ne s t i m a t i o na l g o r i t h m s t h es e c o n df a c e ti st op r o p o s ean e wr a t e c o n t r o l a l g o r i t h m ，t h a ti sa v e r a g e r e a c t i o nr a t ec o n t r o la l g o r i t h m ，b a s e do nt h er a t ec o n t r o lo f m p e g 2 1 1 1 en e wr a t ec o n t r o la l g o r i t h mc a na c h i e v e r a p i da n d e f f i c i e n ta d a p t i v ec o d i n g b a s e do nt h ea b o v er e s e a r c ha n dt h es o u r c e c o d e sp r o v i d e db yt h eb a s i c a l g o r i t h m so f v i d e oc o d i n gp r o v i d e db yt h eo r g a n i z a t i o no f p r o j e i c t m a y oa n dm p e g 4 ，w ei m p l e m e n tt h e p r o t o t y p eo f v i d e oe n c o d e ra n dd e c o d e r a tt h es a m e t i m e ，t h i sp a p e rd o e ss o m ei m p r o v e m e n t o nt h ep r o t o t y p es oa st om a k ei tb eu s e di nt h er e m o t ev i d e os u r v e i l l a n c em o r e p r o p e r l yt h e i m p r o v e m e n t m e t h o dw h i c hc a na c h i e v e h i g h e re n c o d i n ge f f i c i e n c yi st oa d dt h ep r e t r e a t m e n t o f m o t i o nd e t e c t i o nb e f o r et h e e n c o d i n go f t h ev i d e op i c t u r e s f i n a l l y , t h i sp a p e rd o e sd e e pr e s e a r c ho nt h es t a t i cs p r i t eo b j e c ti nm p e g 4 i tw i l lb et h e t h e o r yb a s i so ft h es p e c i a la p p l i c a t i o n si nw h i c ht h eb a c k g r o u n do fv i d e op i c t u r e sd o e sn o r a p i dm o t i o n s k e y w o r d ：m p e g 4 ，v i d e oc o m p r e s s i o n ，v i d e os u r v e i l l a n c e ，m o t i o ne s t i m a t i o n b i t r a t ec o n t r 0 1 s t a t i cs p r i t e 第1 i 页国防科学技术大学研究生院学位论文第1 章绪论 1 1课题的背景、目标和意义近年来，多媒体技术飞速发展，在社会生活的许多领域得到了广泛的应用。为适应技术发展和应用的要求，各种多媒体数据压缩编码标准也在不断发展。从h 2 6 3 、m p e g l 到m p e g 2 ，到现在的m p e g 4 、m p e g 7 ，标准越来越成熟，覆盖的应用领域越来越广。目前发展最迅速、影响最大的多媒体数据压缩编码国际标准是m p e g 4 。m p e g 4 标准的全称是音频和视觉对象的通用编码，它是伴随互联网产生和发展起来的。m p e g 4 定义了多媒体编码和解码、互联网上的传输以及人与媒体交互的一整套框架，涵盖了多媒体的绝大部分应用领域。m p e g 4 基于对象的编码思想使其具有高压缩比、可扩展性、可交互性等许多优点。m p e g 4 正在蓬勃发展，代表着未来多媒体数据压缩编码的发展趋势。及时跟踪和了解m p e g 4 的发展动态，掌握其核心技术，并结合实际应用在某些关键方向上有所创新和发展，是一项很有意义的工作。本课题结合远程视频监控的实际应用背景，在全面了解m p e g 4 标准的基础上，抓住 m p e g 4 标准的核心部分视频的压缩编码进行重点研究。根据远程视频监控的实际特点，研究压缩编码的目标是实现对原始视频源进行实时的压缩编码和网上流化传输，因此，压缩编码的速度和根据网络状况自适应编码是两个最重要的指标。基于此本课题首先对编码中的关键算法运动估计算法和比特率控制算法进行重点研究、优化和改进，以实现快速的编码和有效的比特率控制：然后完成视频编码器和解码器原型的软件实现：最后研究实际的应用问题，提出了将视频编码和解码器原型用于远程视频监控的优化和改进方法，并完成了相应的软件设计与实现。本课题的意义在于：研究、改进和实现了m p e g 4 视频压缩编码的关键算法，掌握了视频压缩编码的核心技术；实现了编码器和解码器的原型，建立了继续研究的测试实验平台，奠定了实际应用和开发的基础；找到了将编码器和解码器原型进行改进以用于远程视频监控的方法。 1 2课题完成的工作课题主要完成了以下几个方面的工作。 1 对视频编码的关键算法运动估计算法进行研究和改进，在传统的运动估计算法的基础上，提出并实现了四步搜索块匹配的运动估计算法。实验结果表明，与传统的运动估计算法相比，四步搜索块匹配的运动估计算法的速度更快，精度更高。 2 对视频编码的关键算法比特率控制算法进行研究，在分析m p e g 2 标准的比特率控制算法的基础上，设计并实现了一种快速和有效的比特率控制算法，称之为平均响应比特率控制算法。实验结果表明，平均响应比特率控制算法能够使编码器具有自适应第1 页国防科学技术大学研究生院学位论文编码的功能a 3 视频编码器和解码器原型的软件实现。以p r o j e c t m a y o 组织提供的部分实现源码为基础，对这些代码进行改进、扩充、移植、整合，实现了一个w i n d o w s 平台下的视频编码器和解码器的原型。实验结果表明，该原型具有较高的编码效率和较好的编码质量。 4 将视频编码器和解码器原型实现应用于远程视频监控。在深入分析编码器和解码器软件实现的基础上，根据远程视频监控中背景图像变化不大和运动区域易确定的具体特点，提出了进一步提高编码效率、提高压缩比的改进方法。其基本思路是对视频序列进行预处理，采用分区域递归估计的运动检测方法定位活动区域，然后仅对活动区域进行精确的运动估计和压缩编码。 5 结合视频监控、可视电话、视频会议等一类问题的应用背景( 这类应用的共同特点是：大部分背景图像不动或运动很少) ，重点研究了m p e g 4 中s p r i t e 对象的生成和编码技术，为这类问题的实际应用和开发做了理论上的准备。课题的理论和实现准备工作。首先全面了解了m p e g 4 这一多媒体编码国际标准，对其基本思想、整体框架、关键技术、涵盖的应用领域等有了完整的认识，奠定了课题开展的初步基础：然后结合m p e g 4 给出的参考校验模型，以及p r o j e c t m a y o 组织提供的 m p e g 4 视频编码和解码算法的部分实现代码，深入剖析了m e p g 4 视频编码和解码的原理，掌握了量化、离散余弦变换、运动估计与补偿、可变长编码等基本的视频数据压缩编码算法。 1 3论文的组织结构论文共分五部分。第一部分是绪论和理论知识准备；第二部分是运动估计与补偿算法、比特率控制算法的研究；第三部分是视频编码器和解码器的软件实现；第四部分是视频编码器和解码器在远程视频监控中的应用、静态s p r i t e 生成算法的研究；第五部分是全文总结。全文的内容组织如下：第1 章，绪论，阐述课题背景、目标、意义及完成的工作。第2 章，理论准备，介绍视频压缩及m p e g 4 标准的基本知识。第3 章，运动估计算法的研究与改进，提出了一种新的运动估计算法，并给出算法的实现方法。第4 章，比特率控制算法的研究与改进，提出了一种简单而有效的比特率控制算法，并给出算法的实现方法。第5 章，m p e g 4 视频编码器和解码器原型的软件实现。第7 章，m p e g 4 中静态s p r i t e 对象生成和编码算法的研究。第6 章，m p e g 4 视频编码器和解码器原型在远程视频监控中的应用，提出了结合实际应用背景进一步改进的思路和方法，并给出相应的实现方法。第8 章，总结本文的研究成果，明确了进一步的研究工作和主要方向。第2 页里堕型兰垫查奎兰堡窒尘堕兰垡笙兰 = e = = = = ! e ；t = = = = = = j = = ；= ；= = = _ = _ e = = = = e = = = = = l - _ = i ；一一第2 章视频压缩及m p e g 4 标准简介 2 1视频信号处理多媒体技术的项重要内容即是：利用计算机综合处理声、文、图信息，而其首先需解决的问题应是把声音和视频信息数字化后送到计算机中。视频信号源一般是摄像机、录音机、扫描仪以及视频光盘等，而它们的输出大多数是标准的彩色全电视信号，因此视频信号获取主要是指标准的彩色全电视信号的获取i l 。目前通用的电视标准有n t s c 制式、p a l 制式、s e c a m 制式三种，虽然说这三种制式的信号处理方式不同( 如彩色空间、相位处理各不相同) ，但其视频获取的流程却是一样的，即需要：首先将彩色全电视信号经过采集设备分解成模拟的r g b 信号或y u v 信号，然后进行各个分量的a d 变换、解码，将模拟的r g b 或y u v 信号变换为数字的 r g b 信号或y u v 信号，存入帧存储器，主机可通过总线对帧存储器中的图像数据进行处理，帧存储器中的数字r g b 或y u v 信号经过d a 变换转换成模拟的r g b 或y u v 信号，再经编码合成彩色全电视信号，输出到显示器上，其流程如图2 1 所示。图2 1 视频获取流程多数专用多媒体系统利用专用i c 将视频获取部分做在系统主板上，而一般的应用系统常采用配备一块视频卡的方法来实现视频获取。 2 2视频压缩的必要性及应用前景在多媒体信息处理中，最基本的需求是能动态实时地处理声音、动画、视频信号，而图像的数据量是十分庞大的，若不对视频数据进行压缩处理，实时性根本就不能达到。例如，针对一幅具有中等分辨率( 6 4 0 4 8 0 ) 彩色( 2 4 b i t s p i x e l ) 数字视频图像的数据量约7 3 7 m b i t s 帧，帧速率3 0 帧秒( n t s c 制式) ，则视频信号的传送速率大约为2 2 1 1 m b i t s s ，一分钟的视频表演则需要1 3 2 6 6 m 以上的硬盘空间。数据量大，难以寻求庞大的存储设备存储这些数据，而且计算机也难以实时地从存储器将这些数据传送到中央处理器，因此，视频数据压缩技术也就成了开发多媒体系统中视频处理的关键技术。通过对视频数据的分析发现，原始视频数据存在的冗余度为数据压缩的实现提供了可能。首先，对于每帧图像数据存在很大的空间冗余，视频图像帧内邻近象素之间是空域相关的。其次，对于由每秒3 0 帧组成的视频序列信号，其相继帧之间也具有较强的相第3 页国防科学技术大学研究生院学位论文关性，即存在时间冗余，例如，对于电视中的演讲人图像序列，相邻帧之间可能只有由头部、眼部、嘴部的微小变动而引起的细小差别。再次，因为在多媒体系统的应用领域中，人是主要接收者，眼睛是图像信息的接收端，这样就有可能利用人的视觉对于边缘急剧变化不敏感( 视觉掩盖效应) 和眼睛对图像的亮度信息敏感、对颜色分辨率弱的特点实现高压缩率，从而使由压缩数据恢复的图像信号仍有满意的主观质量。一旦优秀的视频压缩技术投入使用，使得在低成本、较低速率要求、有限带宽的条件下得以动态实时地处理高质量的运动图像，它将对社会产生深远的影响并具有广阔的应用领域。多媒体与互联网相结合，使得多媒体通信系统能提供可视通信、远程监控、远程教学、集中图像管理和声像资料联网传输等功能，利用多媒体计算机系统进行教育、训练、演示、咨询、家庭娱乐等，将常规电视数字化及制造高清晰度电视( d h t v ) 、交互式电视系统等，而当前多媒体市场的繁荣也证实着这种发展前景正一步步向人们走近。 2 3常用的视频数据压缩技术数据压缩的分类方法繁多，在这里对分类方法等方面的问题不进行讨论，只讨论在视频压缩技术中涉及到的一些常用数据压缩技术。 2 3 1预测编码预测编码是基于统计冗余数据压缩理论的一种编码方法。它是按某一模型利用以往的样本值对新样本进行预测，然后将样本中的实际值与其预测值相减得到一个误差值，并对这一误差值编码，由于误差值远远小于实际值，从而达到压缩数据的目的，预测编码是一种无损压缩。 2 3 1 1d p c m 方法实际应用中用的最多的预测编码方法为d p c m ( d e f f e r e n t i a lp u l s ec o d em o d u l a t i o n ) 方法【7 】【8 1 ，其工作原理为：假定已有样本值序列x t 、x 2 x 。1 ，预测值为x 。，实际值为x 。，oi ( i = l 2 ，n 1 ) 为系数，e 。为误差值，则： n - i x n l = n | x 。，l l e ，= x ，一x ? 最优线性预测就是选择预测系数a i ( i = 1 ，2 ，n - 1 ) ，使“的均方值最小，即联( 8 ：) ) 最小。在该预测模型的数学推导中发现，预测模型的复杂程度和预测系数的个数有关，也即与预测中使用的样本的数目有关，样本数越少越简单，故一般采用前三点预测或前一点预测，如视频编码帧内d c t 系数的d c 系数编码即为采用前一点预测( 即将其前一个值作为预测值) 。第4 页国防科学技术大学研究生院学位论文 2 3 1 2帧间预测帧间编码技术处理的对象是序列图像( 也称为运动图像) ，它是把几帧的图像存储起来作实时处理，利用帧间的时间相关性进一步消除图像信号的冗余度，提高压缩比，其技术基础是预测技术，这种帧间预测原理的概况如图2 2 所示。如果是简单帧间预测， s = x x j 如果是复合差值预测，占= ( x x ) 一( a 一4 ) 图2 2 帧间预测则预测误差为：则预测误差为当后帧相对于前帧其图像亮度变化相同时( 即z z = ( z x 。) 一( 4 一a t ) = 占= 0 ) ，式中的a 可以用任意的帧内预测函数f ( a b ) 来代替，例如f ( a ，b ，c ) = a + b c 。常用的两种帧间预测编码方法为：条件补充法和运动补偿技术【l 0 1 。 l 条件补充法由m o u n t s ，p e a s e 等人提出的条件象素补充法规定，若帧间各对应象素的亮度差超过阈值，则认为该象素值位于图像的运动物体区，需把这些象素存在缓冲存储器中，并以恒定的传输速度传送；而阈值以下的象素则认为该象素位于图像的背景区或相对静止区，不传送该值，在接收端用上一帧相应象素值来代替。这样一幅电视图像可能只传送其中较少部分的象素，且传送的只是帧间差值，以得到较好的压缩比。据统计，在可视电话应用中，用条件补充法需要传送的象素只占全部象素的6 左右，但它在影视等运动变化剧烈的应用场合中应用效果尚不是很好。 2 运动补偿技术运动补偿方法是跟踪画面内的运动情况对其加以补偿之后再进行帧间预测，它能较好的提高编码压缩比，在近十年来，得到特别的重视和广泛的应用。运动补偿预测技术通常由以下几方面组成： 1 ) 首先把图像分割为静止和运动的两部分，这里假设运动物体仅作平移： 2 ) 估计物体的位移值； 3 ) 用位移估值( 即运动矢量) 进行运动补偿预测；第5 页国防科学技术大学研究生院学位论文 4 ) 预测信息编码。在这里，图像分割是运动补偿预测的基础，实际上要把图像分割成不同运动的物体比较困难，从而通常采用两种较简单的方法：一种是把图像分为矩形子块，适当选择块的大小，把子块分为动和不动两种，估计出运动子块的位移，进行预测传输；另一种方法是对每个象素的位移进行递归估计。在图像分割的基础上，对运动子块的估计( 或者说运动估值m e ) 便成了运动补偿预测的关键技术，一旦求得运动物体的运动矢量后，即可将其送入m c 预测器( 如图2 3 所示) ，进行编码传输。输入当图2 3 运动补偿预测编码器由于在运动图像编码中较多的关心由被摄物体和摄像机二者之间的运动共同造成的物体图像的二维运动，高效而简捷的运动矢量求取算法就成了运动补偿技术中的焦点问题，目前常用的几种对运动矢量进行估值的方法有：块匹配算法：b m a ( b l o c k m a t c h i n g a l g o r i t h r n ) 是目前最常用的运动估计算法，它假设块内各象素只作相等地平移。在该算法中要求确定块尺寸大小的选择，只有在块小时才可近似认为块内各点作相等地平移，以满足b m a 的基本假设。但若块太小，则估计结果易受干扰噪声影响不够可靠，且传送运动矢量所需比特数过多；块取大则可减轻其影响，但b m a 法的基本假定难以满足，影响估计精度，且大块中常包含多个不同运动的物体，块内运动一致性更难满足。作为折衷考虑，m p e g 4 标准选取1 6 1 6 象素点阵作为块匹配单元。象素递归法：它能适应运动补偿帧内插中对每个象素的运动进行精确到亚像元级的估计要求，由于每个象素都有一个对应的运动矢量，为了降低码率而避免将其所有的运动矢量都进行传输，提出了许多解决的办法。如：让接收端在与发射端同样的条件下用与发射端相同的方法进行运动估计、n e t r a v a l i 象素递归法的迭代修正、将块递归和迭代修正相结合的运动估计算法等。相位相关法：由于物体的空间位移与其相位变化相对应，从而可将运动估计转至频率域进行，这其中需要进行傅立叶变换求得相位相关函数，利用相位相关函数的尖峰求取运动矢量估值。第6 页国防科学技术大学研究生院学位论文在当前的视频数据压缩中运动补偿技术是关键，而运动矢量的求取又是关键中的关键，运动估计的实时性和估计精度是一对基本矛盾。在现时的技术条件下及常见应用中，块匹配算法基本上能同时满足实时性和精度的要求，因而也是我们进行视频压缩编码主要运用的运动估计方法。随着应用的不断扩大，对运动估计的速度和精度提出的要求也将更高，从而需要研究更好的运动估计算法以适应新的需要。 2 3 2正交变换编码变换编码的基本思想是通过焚换操作除去由于坐标轴的选掸小当而引起的相关性，而且有可能将难以处理的各种小局部相关集中到一起处理。常见的正交变换编码方法有： k l 变换、d c t 变换、傅立叶变换、哈尔变换、w a l s h h a d a m a r d 变换等，在图像压缩中常用d c t 变换【7 1 。 d c t 变换的进行过程是在编码端将原始图像分割成许多子像块，对每一个像块进行 d c t 正交变换，生成频域中的系数阵，它是一种无损压缩方法。当以 f ( x ) ) 表示m 个其值有限的一维实数信号序列的集合时，x = 0 1 ，n 一1 ，则其一维d c t 定义为：脚，= 寺c 篓m 徊s 与产，删肛- ；一维逆变换( i d c t ) 定义为： m ，- j 寺篓c 脚。s 产，删舯c = 臀其菩。由此扩展得二维d c t 的定义，设数字图像f ( x ，y ) 是具有m 行n 列的个矩阵，运用 d c t 将其从空间域( x y 平面) 转换到d c t 变换域( u v 平面) ： f d c t 脚，= 击c c m 萎- i 荟n - i 似川c o s 笺产c o s 产其相应的d c t 逆变换为：嘲：m = 击篓篓c c 脚炳笺产c o s 笋其中：x , u = 0 1 m - l ；y , v = 0 1 n - 1 ；，= 惜其箸。“= 臀其善。在视频编码中，通常需要研究二维f d c t 、i d c t 的快速算法。 2 3 3量化编码二墼塑壹：墨些墨垡垫焦昱型墼兰堡曼盟墼塾：耍二星茎墼至蠼塑堕曼茎塑圭丝星：第7 页国防科学技术大学研究生院学位论文量化则是指由数字量到数字量的多对一映射。量化器所要完成的功能是按一定的规则对表达式作近似表示，即指量化器用一组有限的实数集作为输出，其中每个数代表一群最接近于它的取样值，量化编码为有损编码。量化常分为三类：标量量化( 零记忆量化或一维量化) 、向量量化( 分组量化) 和序列量化。在标量量化中，所有采样使用同一个量化器进行量化，每个采样的量化都和其它所有采样无关。向量量化( 多维量化) 则是从称为码本的码字集合中选出最紧密适配于序列的一个码字来近似一个采样序列( 即一个向量) ，这种方法以输入序列与选出的码字之间失真最小为依据。在视频编码中较多应用量化的过程是对二维d c t 系数的量化处理，由于对于信号矩阵实施正交变换后，系数的能量分布一般比较集中，如二维d c t 变换后的系数矩阵，能量集中在左上角，从而可想办法对于能量或能量差分重新量化以达到信息压缩的目的。在这里，量化时对于人眼最敏感的空间频率及能量分布比较大的系数分配较多的比特数。 2 3 4信息熵编码信息是用不确定的量度定义的，所谓信息量则是指从n 个相等可能事件中选出一个事件所需要的信息度量或含量，而熵则是指将信源所有可能事件的信息量进行平均。香农信息论认为信源所含有的平均信息量( 熵) 是进行无失真编码的理论极限，信源中或多或少的含有自然冗余度，这些冗余度既来自于信源本身的相关性，又来自于信源概率分布的不均匀性中，只要找到去除相关性或改变概率分布不均匀性的方法和手段，也就找到了信息熵编码的方法。这种编码也是基于统计冗余数据压缩理论的一种编码方法，为无损压缩。在多媒体视频压缩中常用的两种信息熵方法为：哈夫曼( h u f f m a n ) 编码方法、游程 ( 行程) 编码方法。 1 哈夫曼编码该编码方法是基于如下定理：在变长字码中，对于出现概率大的信息符号编以短字长的码，对于出现概率小的信息符号编以长字长的码，如果码字长度严格按照符号出现概率大小排列，则平均码字长度一定小于按任何其它符号顺序排列得到的码字长度。在该编码方法中，先必须进行概率统计，在此基础上对所有信源中的符号赋一特定变长字码，从而求得哈夫曼表，在h u f f m a n 表的基础上进行变长码的编码和解码。 2 游程编码其主要思路为：将一个相同值的连续串用一个代表值和串长来代替。例如，有一信源符合序列6 6 6 9 9 0 0 0 0 0 0 ，则其游程编码为( 6 ，3 ) ，( 9 ，2 ) ，( o ，6 ) 。在视频压缩中，游程编码和d c t 变换及h u f f m a n 方法一起使用。对分块做完d c t 变换及量化后的频域图像数据做“z ”形扫描，然后进行游程编码，对其结果再做 h u f f m a n ( 变长) 编码。第8 页里堕型兰茎查奎兰竺耋尘堕兰垡笙兰 2 4m p e g 4 标准简介 2 4 1m p e g 4 标准概述 i s o 的m p e g 4 标准的第一版于1 9 9 9 年1 月f 式公靠，标准的第二版于1 9 9 9 年1 2 月公布p 1 。较之m p e g 前两个图像压缩标准而言，m p e g 4 为多媒体数薪i ：压缩提供了一个为广阔的平台，它更多定义的是种格式和框架，而不是其体的算法。m p e g 4 的发点就是希望建立起一个更自山的通信与研发环境，人们可以在系统r l i 加入许多新的算 i ，为用计算机软件做编码、解码提供了更大的方便。它可以将各种各样的多媒体技术允分用于编码中，除包括压缩本身的一些工具、算法，还包括图像分析和合成、计算机视觉、计算机图形、虚拟现实和语音合成等技术。m p e g 4 设计之初足为了在电话线上f e 输视频和音频数据，是一个超低比特率运动图像和语音的压缩标准，但是随着研究 t 作的深入，它所包含的内容和将要起的作用已经远远超出了最初的设计心想。采纳了基于对象( o b j e c t - b a s e d ) 的编码、基于模型( m o d e l - b a s e d ) 的编码等第二二代编码技术是m p e g 4 标准的主要特征，所谓的对象是在一个场景中能够访问和操纵的实体，对象的划分可以根据其独特的纹理、运动、形状、模型和高层语义为依据。这种编码是利- j 占于内容的数据压缩方式，以前的压缩算法只是去掉帧内和帧问的冗余，m p e g 4 则要求对图像和视频作更多的分析，甚至是理解。如将图像分割为运动物体对象和静止不动的背景对象平面，并对这两个对象进行分别处理。背景对象采用压缩比较高、损失比较火的办法进行编码，运动物体对致采用压缩比较低、损失较小的办法，这样就在压缩效率和解码图像质量问得到较好的平衡。m p e g 4 编码和解码的基本尊元是对象，这些对象可以是单声道、立体声和多声道音频，2 d 和3 d 或者单目、立体或多目视频、计算机蚓形、动画、文字等。基于对象的编码除了能提高数据的压缩比，还能实现许多基r 内窬的交互性功能”1 1 。基于对象的分级功能是m p e g 4 提供的又一个新的助能，同时兼容于m e p g 2 标准中的图像分级功能，分级工具主要用于互联网和无线网等窄带的视频通信、多质量视频服务和多媒体数据库预览等服务。m p e g 4 提供了两种基本的分级工具：时域分级和审域分级，时域分级是降低原视频序列的帧率，空域分级是降低原视频序列的分辨率。在每类分级工具中，视频序列都可以分为两层：基层和增强层，基层提供了视频序列的基本信息，增强层提供了视频序列更高的分辨率和细节，基层可以单独传输和解码，而增强联则必须与基层一起传输和解码。m p e g 4 也支持时域和空域的混合分级。于移动通信的迅速发展，通过无线网传输音频和视频信息变得越水越重要了，这需- 婴提供在易错的通信环境下实现安全的低码率编码和传输。m p e g 4 的编码具有鲁棒性和纠错功能，它采用3 个策略来达到此目的：再州步( r e s y n c h r o n i z a t i o n ) 、数据恢复( d a t a r e c o v e r y ) 、错误隐藏( e r r o rc o n c e a l m e n t ) 。再同步工具在检测到误码时重新存解码器和码流n u 建立同步点，前一个同步点和新建立的同步点间的码流就足发生误码的数据：数据恢复是通过标准中提供的一种可逆变长编码技术来恢复两个同步点之间的数据；错误躲减通过空间的纹理相关性和视频丽后帧的相关性舯错误的图像区域进行隐藏。第9 页国防科学技术大学研究生院学位论文图2 4m p e g 4 的一个应用场景图2 4 是用m p e g 4 的各种音频和视频对象组成场景的例子，它包括一个正在讲课的人以及对应的声音组成的新的组合音视频对象、2 d 的背景对象、s p r i t e 对象、3 d 的桌子和3 d 的地球仪等。在m p e g 4 中不仅容许作者以这些对象为素材组成新的场景，也容许使用者操作这些对象，如把各种对象按一定的顺序和位置放在一个特定的场景坐标系中，改变3 d 对象的视角，交互式听或看场景中的某一对象，通过动画参数使某一虚拟对象产生动画感。 2 4 2m p e g 4 视频编码中的数据结构类 m p e g 4 中有以下四个层次的数据结构，它们都以类的形式定义【6 1 。 v s ( v i d e os e s s i o n ) ：视频场景，它位于数据结构层次的最高层，一个完整的视频序列可以由几个v s 组成。 v o ( v i d e oo b j e c t ) ：视频对象，它是场景中的某个物体，它是有生命期的，由时间上连续的许多帧构成。 v o l ( v i d e oo b j e c tl a y e r ) ：视频对象层，v o 的三种属性信息编码于这个类中，这个类的引入主要用来扩展v o 的时域或空域分辨率。 v o p ( v i d e oo b j e c tp l a n e ) ：视频对象平面，它可以看作是v o 在某时刻的表象，即某一帧v 0 。第1 0 页国防科学技术大学研究生院学位论文以上四个类的关系可以用图2 5 表示： r i d e o se s s i o r t v s0v si 一：7 ： v i d e o o b j e c t v 0 0v 0 1 7 v i d e o o b j e c t l a y e r v o l ovo l i 八_ 一入 w 出础严伊1 蛆。 | ! ! ! ! ! ：! ! 二iz 竺：! ! l a y e r0l a y e rl 图2 5m p e g 4 中的数据结构 2 4 3m p e g 4 视频编码和解码框架 m p e g 4 编码和解码是针对v o p 进行的，其逻辑结构如图2 6 所示。编码时首先由输入的视频序列定义出v o p ，针对每一个v o p 分别进行编码，将所有v o p 编码的结果合成在一起，形成压缩视频数据流。解码时首先将压缩视频数据流分解，得到每一个v o p 的编码数据流，针对它们分别进行v o p 解码，解码结果组合在一起形成输出视频“。 _ 一v o 舢l l l c o d i n g f 一v 0 l l c o d i n g l m u x 1 j 陀l l c o d i n g i 。一 i 。 d e c o m i i n g 卜 - 一哪! l d e m u x ld e c o d i n g l _ 一v 0 阳l 一一 id e c o d i n g l 。_f 。- 图2 6m p e g 4 编码和解码原理图第l l 页国防科学技术大学研究生院学位论文 2 4 4m p e g 4 的框架和级别 m p e g 4 提供了大量的、丰富的音频视频对象的编码工具，能够满足各种各样的应用需要”1 。对于某一特定的应用，只有一部分系统、视频和音频的编码工具被采用，框架 ( p r o f i l e ) 就是针对特定的应用确定要采用的编码工具，它是m p e g 4 提供的工具集的一个子集。每一个框架又有一个或多个级另l j ( 1 e v e l ) 来限制计算的复杂度。m p e g 4 共有4 类框架：视频框架、音频框架、图形框架和场景描述框架。其中视频框架又包含5 个级别，如下【6 1 ： ( 1 ) s i m p l e v i s u a lp r o f i l e ：提供矩形视频对象高效有容错能力的编码功能，适合应用于移动网络。 ( 2 ) s i m p l es c a l a b l ev i s u a lp r o f i l e ：在s i m p l ep r o f i l e 基础上增加了对象时域和空域扩展编码功能，应用于提供多级服务质量的应用，如i n t e r n e t 和软件解码。 ( 3 ) c o r e v i s u a l p r o f i l e ：在s i m p l e p r o f i l e 基础上增加了任意形状对象编码和时域扩展编码功能，适用于相对简单的内容交互应用，如i n t e m e t 多媒体应用。 ( 4 ) m a i n v i s u a l p r o f i l e ：在c o r ep r o f i l e 基础上增加了s p r i t e 对象编码功能，适用于交互和娱乐质量广播和d v d 应用等。 ( 5 ) n - b i t v i s u a lp r o f i l e ：在c o r ep r o f i l e 基础上增加了具有不同像素深度( 4 1 2 b i t s ) 视频对象编码功能，适用于监控应用。 2 5小结这一章第一部分介绍了视频处理及视频压缩方面的基本知识、方法和理论，包括视频信号的获取过程、视频压缩的必要性和常用的视频数据压缩技术，其中常用的视频数据压缩技术包括预测编码、正交变换编码、量化编码和信息熵编码；本章第二部分对 m p e g 4 标准作了简要介绍，首先对m p e g 4 作总体概述，包括其发展沿革、基本思想、主要特征等；接着重点介绍视频编码的基本概念、视频编码和解码框架；最后介绍m p e g 4 框架级别分类。本章是课题的基本概念和基本理论基础。第1 2 页国防科学技术大学研究生院学位论文第3 章运动估计算法的研究与改进帧问运动补偿技术是视频编码国际标准技术框架的重要组成部分，从h 2 6 3 到 m p e g l 和m p e g 2 无一例外都采用了帧问运动补偿技术，它是消除时问冗余的最基本和最r r 要的方法。帧间运动补偿压缩编码大致分为三步：第一步是在相邻帧中估计运动物体的位移值，称为运动估计( m o t i o ne s t i m a t i o n ，m e ) ；第二步是利用所得到的运动估值进行帧间预测编码，即运动补偿( m o t i o nc o m p e n s a t i o n ，m c ) ；第三步是预测信息如运动矢量、预测误差的编码。实现上述编码的关键足运动估计。运动估计算法的优劣直接影响视频编码的效率和质量。实验表明在编码一段视频序列时运动估计所耗用的时问约为烂个压缩时间的一半，而且运动估计的精度也影响省编码的视频质量。本课题的应用背景是远程视频：临控，远程视频n 在控要求实时地刈视频帧进行压缩编码，对视频编码的效率要求很高。为适应这种要求，有必要对视频压缩中最影响压缩效率的运动估计算法做深入研究，并在不影响视频质量的情况下，在传统运动估计算法的基础上寻求改进的方法，以提高编码效率。目时使用最广泛的运动估计算法是块匹配算法和l 象素递归算法。本爷首先讨论了传统的运动估计算法，即象素递归算法及几种块匹配算法的原理及其优缺点，然后在传统算法的基础上，提了四步搜索块匹配算法，接下水给以四步搜索块匹配算法为基础的完整运动估计算法的实现，最后根据实验测试结果对算法进行评价。 3 1 1象素递归算法 3 1传统的运动估计算法象素递归算法( p e l - - r e c u r s i v ea l g o r i t h m ，p r a ) 的出发点是通过对狄度的梯度变化来求象素的位移。由于p r a 算法的最小搜索单元是象素点，因而对物体的运动有较高的灵敏度，位移估值的精度也高，对复杂运动画而具有较强的适应性。但它跟踪的位移范幽搬小。另外，由于p r a 算法对位移的估值是通过梯度运算得到的，因而运算代价大，硬什实现的复杂度高，导致p r a 算法的实用化程度不如块匹配算法【t 2 1 。 3 1 2块匹配算法块匹配算法i i 副( b l o c km a t c h i n ga l g o r i t h m

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机科学与技术专业论文）mpeg4视频编码算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机科学与技术专业论文）mpeg4视频编码算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档