（通信与信息系统专业论文）mpeg4视频编码算法平台移植和优化.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-18 格式：PDF 页数：65 大小：3.07MB 积分：0 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

（通信与信息系统专业论文）mpeg4视频编码算法平台移植和优化.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着信息技术在2 1 世纪的迅猛发展，就通信内容来说，它已不局限于简单的语音、文字信息，更进一步地，将图像视频信息亦纳入其中。数字化后的信息，尤其是视频和音频信息具有数据海量性，它们给数据的存储和传输造成较大的困难。m p e g 4 是商业界最重要最有影响的多媒体数据压缩编码国际标准之一，它在多媒体数据压缩领域扮演了一个重要的角色。本课题在全面了解m p e g 4 标准的基础上，对m p e g 4 标准的核心部分视频的压缩编码进行了重点研究，并在保证实时播放的前提下，对视频编码标准及其相关理论进行了研究。首先深入分析了m p e g 。4 编码理论，在w i n d o w s 平台下使用了m m x 和s s e 技术优化了部分模块。其次，研究了视频后处理中的去隔行算法，并实现和优化了4 种不同的去隔行算法。然后再研究和实现了目标追踪算法，并使用了两种表达方法标定了被追踪的目标。项目的测试结果表明，本文中对m p e g - 4 视频编码算法、视频去隔行算法、运动目标检测与追踪算法的设计和优化有着不俗的表现，具有广阔的实际运用前景。关键字：视频编码m p e g - 4 标准视频去隔行运动目标检测与追踪优化 ab s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g yi n21s tc e n t u r y , c o m m u n i c a t i o n m u l t i m e d i ac o n t e n t sf o rc o m m u n i c a t i o n sn o to n l yh a v ea u r a la n dl i t e r a l i n f o r m a t i o n ， b u ti n c l u d ei n d u b i t a b l e ，i n t u i t i o n i s t i ea n de f f e ：c t i v ev i s u a l i n f o r m a t i o na sw e l l ，b u tt h e d i g i t a lv i d e od a t ai st o oh u g et o s t o r ea n dt r a n s m i t a so n eo ft h em u l t i m e d i a c o m p r e s s i o na n dc o d i n gs t a n d a r d s ，m p e g 一4p l a y sa ni m p o r t a n t r o l ei nt h i sa r e a b a s e do nt h em p e g 4s t a n d a r d ，t h ec o r ea l g o r i t h m so ft h em p e g 一4v i d e o c o d i n gh a v eb e e nd e e p l ys t u d i e di nt h i sp a p e r , i na d d i t i o n ，t h em p e g 一4v i d e oc o d e c a l g o r i t h ma n ds o m er e l a t e da l g o r i t h m sh a v eb e e ni m p l e m e n t e di nr e a l t i m e f i r s t ， m p e g - 4v i d e oc o d e ca l g o r i t h m sw e r ea n a l y s i sa n do p t i m i z e df o rw i n d o w sp l a t f o r m b yu s i n gm m xa n ds s ef o rs o m ec o r ep a r t s s e c o n d ，d e - i n t e r l a c ea l g o r i t h m sf o r v i d e op o s t p r o c e s s i n gw e r es t u d i e d ，f o u rk i n d so fd e i n t e r l a c em e t h o d sw e r e i m p l e m e n t e da n do p t i m i z e d t h i r d ，m e t h o d sa n da l g o r i t h m so fo b j e c t s m o t i o n d e t e c t i o na n dt r a c k i n gw e r ei n v e s t i g a t e da n di m p l e m e n t e d ，a n dt w od i s p l a ym o d e l s w e r ed e s i g n e d o b j e c t i v ea n ds u b j e c t i v et e s ta n de v a l u a t i o nh a v es h o w nt h a t ，t h ed e s i g na n d o p t i m i z a t i o nr e s u l t sf o rm p e g 一4v i d e o ，d e i n t e r l a c ea n do b j e c t sm o t i o nd e t e c t i o na n d t r a c k i n ga l g o r i t h m sa leg o o di np e r f o r m a n c e sa n dc a nb eu s e di nm a n yp r a c t i c a l a p p l i c a t i o n s k e y w o r d s ：v i d e oc o d i n g m p e g 一4s t a n d a r dv i d e od e - i n t e r l a c e o b j e c tm o t i o nd e t e c t i o na n dt r a c k i n go p t i m i z a t i o n 西安电子科技大学学位论文独创性( 或创新性) 声明秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切的法律责任。本人签名：_ 3 獬日期! z ：兰；兰西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证，毕业后结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密，在一年解密后适用本授权书。日期幽：! ：尘日期兰。芷多f 砂日期丝! 互芝：! r 第一章绪论第一章绪论 1 1 研究的背景、目标和意义近年来，随着生产力和经济的快速发展，人们在社会生活发生了许多的改变，人们之间的流动性增加，迫切需要打破地域对交流设置的障碍。为了适应这种变化，各家厂商不仅在大力开发各种移动设备和通信器材，而且对通信内容进行了扩充，使其不再局限于简单的语音、文字信息，提供确切、直观、高效的图像视频信息已成为电信运营商的一个重要追求。然而，图像视频信号经过数字化处理之后形成的数据量非常庞大，如此庞大的数据量不仅存储开销很大，而且在传输中使得通讯设备的负荷量很重。采用压缩技术，可以把这些数据压缩几倍、几十倍，甚至几百倍。因此，研究如何去除冗余数据、高效地表示图像、进行数据压缩，具有重大的实用价值。数字图像压缩技术己成为目前国内外的研究热点之一，为了保证不同厂商设备和产品之间的可交换性，国际标准化协会( i s o ：i n t e r n a t i o n a l s t a n d a r d i z a f i o no r g a n i z a t i o n ) ，国际电子学委员会( i e c ：i n t e r n a t i o n a le l e c t r o n i c s c o m m i t t e e ) ，国际电信协会( i t u ：i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ) ，等国际组织于9 0 年代领导制定了许多重要的多媒体数据压缩标准。从h 2 6 1 ，m p e g 1 ， h 2 6 3 到m p e g 2 ，再到现在的m p e g 4 ，m p e g 7 ，m p e g 一2 1 ，h 2 6 4 ，标准越来越成熟，覆盖的应用领域愈来愈广泛，尤其是m p e g 一4 和h 2 6 3 等面向低码率高质量的标准对于实时视频传输处理有着非重重要的意义。同时，通信技术也在飞速发展，各种宽带网络的出现使得实时视频传输成为可能。目前在商业界发展最迅速、影响最大、技术较成熟的多媒体数据压缩编码国际标准是m p e g 一4 。它的全称为音频和视觉对象的通用编码，是伴随着互联网而产生和发展起来的。它定义了音频、视频等多媒体数据的码流语法和解码过程、互联网上的传输以及人与媒体交互的一整套框架，覆盖了多媒体的绝大部分应用领域。它的基于对象思想使其具有高压缩比、灵活性好、可扩展性和可交互性强等优点。m p e g 4 正在蓬勃发展，及时了解和跟踪它的发展动向，掌握其核心技术，结合实际应用，是一项很有意义的事情。本课题在全面了解m p e g 一4 标准的基础上，对m p e g 4 标准的核心部分视频的压缩编码进行了重点研究，实现了对原视频流的实时压缩编码和网上流化传输，为客户提供了高质量的视频图像。在研究过程中，着重考虑了压缩编码器的速度、视频图像的质量等要求。本课题的意义在于：研究、改进和实现了m p e g 一4 视频压缩标准的关键算法， 2 m p e g - 4 视频算法平台移植与优化掌握了视频压缩编码的核心技术，实现了编码器的原型，建立了继续研究的测试试验平台，为m p e g 4 的实际应用和开发奠定了基础。 1 2 研究内容和成果首先全面了解m p e g 一4 这一多媒体编码国际标准，对其基本思想、整个框架、关键技术等有了完整的认识，深入剖析了网上提供的m p e g 4 编码器的实现代码，为改写代码提供了方便。课题主要完成了以下几个方面的工作： 1 m p e g 一4 视频压缩编码器的软件实现，以网上提供的部分实现源码为基础，对这些代码进行移植、整合、优化，总结了软件优化的一些思想，实现了一个w i n d o w 平台下c 版本的视频编码器原型，为后一步视频压缩算法的选择及优化提供了测试平台。 2 实现了视频去交错算法，综合各类视频去交错算法的优缺点，在v c 6 编译环境下用c 语言实现了4 种视频去交错算法，取得良好的去交错效果。在算法的优化阶段，用i n t e l 的多媒体指令集对算法中计算量大的模块进行优化。 3 实现了目标检测与追踪算法，综合各类目标追踪算法的优缺点，在v c 6 编译环境下用c 语言实现了目标追踪算法，取得了良好的目标追踪效果，在算法的优化阶段，用i n t e l 的多媒体指令集对算法中计算量大的模块进行优化。 1 3 本论文内容安排论文共分三部分。第一部分是绪论和m p e g - 4 理论知识准备；第二部分是 m p e g 一4 编码器的软件实现，视频去交错算法和目标检测与追踪算法的研究和实现；第三部分是全文总结和展望。全文内容组织如下：第1 章，绪论，阐明了课题的背景、目的、意义及要完成的任务。第2 章，视频压缩标准，介绍了视频编码的原理及各视频标准的历史和发展。第3 章，m p e g 4 视频编解码算法研究，介绍了m p e g 4 标准的基本知识及软件的实现和优化。第4 章，视频去隔行算法研究与实现，阐述了视频去隔行算法的理论基础及论文中实现的算法，并给出了程序运行前后画面对比结果。第5 章，目标追踪算法研究与实现，阐述了目标追踪算法的理论基础及论文中实现的算法，并给出了程序运行效果图。第一章绪论 3 第6 章，总结了全文的研究成果，并对视频压缩进行了展望，提出了进一步的研究工作。第二章视频压缩标准 5 第二章视频压缩标准 2 1 视频数据压缩的必要性随着微电子、计算机、网络和传感器技术的高速发展，图像、声音等媒体信息的记录、存储、传输正朝着数字化方向前进，这是因为数字信号具有易于传输和远距离存储、没有积累失真、可被高品质地还原、抗干扰能力强、处理精度高、便于加密等优点。在众多的多媒体信息中，视觉信息具有以下优点：直观性。图像信息更为形象直观，印象深刻，易于理解；确切性。图像信息显然更容易确认，不易发生错误，这点在军事、医学、工业指挥等方面具有重要意义；高效率。由于视觉器官具有较高的图案识别能力，人们可在很短时间内通过视觉接受到更多的信息。由于视觉信息具备众多优点，把视觉信息纳入通信领域，为人们提供多渠道、多方位的信息来源成为了现代人的迫切需求。但与此同时，使用未被压缩的图像、声音、动画、活动影像等多媒体信息时，特别是有较高的质量要求时，不仅需要用相当大的存储空间，而且需要相当高的数据传输率。例如，图像为c c i r ( i n t e r n a t i o n a lc o n s u l t a t i v ec o m m i t t e ef o rr a d i o ) 格式( 7 2 0 5 7 6 ) ，4 ：4 ：4 采样时，一帧活动影像要求约1 m b 计算机数据；如果按我国电影的放映速度每秒2 5 帧计算( 美、日等国家为3 0 帧) ，对一个满屏幕的影像，要求计算机每秒传送2 5 m b 数据，一片c d r o m 仅可存储2 0 9 秒的节目，这大大超过了p c 机及某些工作站可以处理的能力，给存储器的存储容量、通信干线的信道传输率增加了极大的压力，且大大地增加成本。如果由于技术或其他方面原因的限制，在达不到较高传输速度的情况下，传输时间必然拖得更长，语音可能变得“语无伦次”，图像变得 “杂乱无章”，从而完全失去了意义。在保持所需数据传输率和存储容量条件下，最简单的方法之一就是减少图像分辨率的大小，例如把窗口大小改为1 0 0 1 0 0 个象素。另一个方法是降低回放速度，如每秒5 帧、l o 帧等，否则就需要扩大存储器容量、增加通信干线的传输率。显然，这些都不是理想的解决办法。最好的解决办法是对图像文件的大小进行压缩，通过数据压缩手段把信息数据量压下来，以压缩形式存储和传输，既紧缩了存储空间，又提高了通信干线的传输效率。视频数据的压缩不仅是必要的，也是可能的。视频图像的各个相邻象素在统计上一般都有某种程度的相关性。例如，画面中亮度变化平坦的地方，相邻象素值就有相同的电平；而就相邻帧的图像来说，即使图像有某种程度的运动，两帧 6 m p e g - 4 视频算法平台移植与优化图像也仍然是很相似的。也就是说，图像中事实上包含着大量的冗余成分。通过消减这些冗余成分，就能达到相当程度的信息压缩。在信息论中，通过减小冗余而进行的数据压缩处理称为信源编码。视频序列中实际包含着各种各样的冗余信息：空间冗余、时间冗余、心理视觉冗余、嫡冗余、结构冗余、知识冗余以及起因于图像非平稳性的冗余等。其中空间冗余度和时间冗余度都起因于图像的统计性质，所以也称为统计冗余度。统计冗余表现为图像信号在时域和空域的高相关性；心理视觉冗余起源于人眼对某些空间频率的感觉迟钝；嫡冗余表现为符号编码平均码长和信源嫡之间的偏差；结构冗余是把图像看作区域集时产生的冗余；知识冗余是指与收发端所共有的知识相关联性。研究视频信号中冗余消除方法，实现信息传输、存储和处理的有效性和可靠性是视频编码的关键问题【2 。 2 2 视频编码器基本原理数字视频数据压缩的目的就是去掉视频数据中的各种冗余信息( f l o 去除数据之间的相关性) ，保留相互独立的信息分量。在视频数据中存在多种冗余信息，如何尽最大可能去除这些冗余信息是视频编码的主导研究思想。 2 2 1 削减视频信息中的冗余成分 1 空间冗余度的削减空间冗余度是指一副图像内所包含的冗余度。例如，规则条纹图像和平坦图像，它们的空间冗余度就很大。从空间域来看，相关性强的信号常表现为相邻象素之间象素值相同或相似；从频域来看，相关性强的信号常表现为能量集中于某些特定频率成分上。因此，要削减空间冗余度，可从空间域或频域来设计适当算法。在空间域，对于相邻象素之间相关性很强的图像，先用已编码的相邻象素对下一待编码的象素进行某种程度的预测，再对预测差值编码，这样可望得到大幅度的信息压缩。基于这种思想的编码被称为帧内预测编码( i n t r ap r e d i c t i v ec o d i n g ) 。在频域，对于相关性强的信号，可先做傅立叶变换，然后只对能量集中的频率成分的系数进行编码。基于这种原理的编码被称为变换编码r t r a n s f o r mc o d i n g ) 。 2 时间冗余度的削减时间冗余度是指两幅图象间所包含的冗余度。例如，可视电话等运动图象中，相邻帧的图象非常相似。这种时间冗余度可用帧间预测编码( i n t e rp r e d i c t i v e c o d i n g ) 来消除。如图2 1 所示，先用某些方法估计出运动图象各部分的运动矢量，第一二章视频压缩标准7 对其运动部分加以补偿后再进行帧间预测。这称为运动补偿预测编码 ( m o t i o n c o m p e n s a t e dp r e d i c t i v ec o d i n g ) ，它已是会议电视和可视电话等超低速率编码中的必备技术。上一帧图2 1 运动预测补偿 3 心理视觉冗余度的削减即使在接收端没有物理重现原图像，但人用眼睛观看时，它与原图像看上去一样的。人的感官觉察不到的那些成分，从图像编码的角度上看是一种冗余也就是人们常说的心理视觉冗余度。人眼视觉有以下特性【2 】： ( 1 ) 失真知觉的频率特性：不易觉察随时间快速变化的失真和空间高频失真； ( 2 ) 与画面图案的关系：在静止图像的情况下，易于发觉图像平坦部分的失真而不易发觉轮廓部分的失真。但在运动图像的情况下，轮廓部分的失真将成为一种边缘效应，反而更加显著； ( 3 ) 与图像动作的关系：当图像动作达到一定速度，视线跟不上运动时，视觉对失真的敏感度变低； ( 4 ) 与场景切换的关系：在画面切换后，即使分辨率下降较大，也不会感到有明显变化； ( 5 ) 与画面亮度的关系：同等级的图像失真，画面越暗，失真感越明显； ( 6 ) 色度信号与亮度信号：与亮度信号相比，色度信号的失真更不易被发现，间隔地抽掉一些色度信号样本点并不会影响重现图像的彩色质量。利用视觉特性进行信息压缩，因编码中必然会包含失真，所以被称为非可逆编码( n o n r e v e r s i b l ec o d i n g ) 。这种非可逆编码可高效地进行视频压缩，且在广播电视图像编码、可视电话和会议电视的图像编码两个方面获得了广泛应用。人们对广播电视不希望因编码而导致接收端看到的解码图像质量下降，因此，这种情况下的压缩是按眼睛看不出编码失真的原则来进行的。而在可视电话和会议电视中， 8 m p e g - 4 视频算法平台移植与优化为了降低它的传输成本费，即使感到了失真的存在，人们也会允许或容忍的。图像通信中，由于多数情况对传输速率有严格的限制，如何在所给定的传输速率下使主观失真达到最小，便成了信息压缩的主要目标。 4 熵冗余度的削减根据信息论的原理，数据压缩的理论极限是信息嫡【3 】。如果要求在编码过程中不丢失信息量，则要求保存信息嫡。给量化电平分配二进制代码时，给出现频度高的电平分配短代码，给出现频度低的电平分配长代码，以此来缩短总平均码长。当达到最佳代码分配时，平均码长就等于根据发生频度所计算出的嫡的值。这种编码方式被称为嫡编码( e n t r o p yc o d i n g ) 。它是无失真压缩编码方法，其中应用最广的有哈夫曼编码( h u f f m a nc o d i n g ) 和行程编码( r u nl e n g t hc o d i n g ) 。最近，算术编码( a r i t h m e t i cc o d i n g ) 受到了很大的重视。 5 结构和知识冗余度的削减从“被摄物体本来是具有三维结构的实际物体，而图像是被摄物体在二维平面上的投影这一观点出发，着眼于图像结构进行编码，以此来提高压缩冗余度的效果。其中轮廓编码( c o n t o u rc o d i n g ) 就是这方面的研究。可视电话图像中，由于编码对象仅限于人物像，收发端关于编码对象的共有知识也可被看作是一种冗余度。要消除这种知识性冗余，需识别和理解图像的含义。这种编码总称智能编码( i n t e l l i g e n tc o d i n g ) 。 2 2 2 视频编码器典型结构码率控制见频献隔匝u 一- 濞一。c t 由熵编码l i ! 竺兰竺i 1i i 一一3 地三一l 。编冀f 1 n 舰 l 反妄t 码及视 )-一- 。i n t e l：反嘉频流 1i，r 厶 f i 口警动估寸一冒h 华i 卜一小占7 亨l p 姒竹r 一 = l ，广十 j 皂u 7 【里l 图2 2 视频编码器典型结构第二章视频压缩标准 9 到目前为止，不管是m p e g 系列的m p e g x 标准还是i t u t 的h 2 6 x 系列的标准，它们的编码基本原理都是一样的，都是用时域预测去掉时域冗余，空域预测去掉空间冗余，用嫡编码使得可以用最少的比特来表示码流，将各种信息压缩手段组合起来使用。所不同的是，各种标准采用的算法不一样，以面向不同的应用。图2 2 给出了一个典型的视频编码器的结构，下面对各部分作个简单说明。 ( 1 ) 预处理：这部分是为后面的编码作准备，主要做以下几方面的工作；去除图像的噪声，加快编码的速度，提高视频图像的主观质量；图像格式转换，使其符合编码的需要；通过控制样本数( 即按需要进行减采样) 和每秒帧数来限制待编码的象素数，进一步降低码率； ( 2 ) 运动估计和补偿：施以运动补偿预测，取出预测误差信号以待编码。在场景切换或帧内编码时不进行预测，直接取出输入信号： ( 3 ) d c t 变换：对预测误差信号或原信号进行d c t 变换，去除空间相关性，使能量集中在一部分系数； ( 4 ) 量化：对于已判定为要编码的信号或其组合，进行标量量化或矢量量化。 ( 5 ) 反d c t 变换和反量化：通过反d c t 变换和反量化解码，得到运动估计时所需的参考图像。在量化时不可避免会产生量化噪声，所以如果用d c t 变换前的信号作参考图像，将会导致图像质量严重下降，因为接收端输出的信号己与d c t 变换前的信号不同了。为了得到高质量的图像，这一部分是必不可少的； ( 6 ) 嫡编码：按照尽可能缩短平均码长的原则，对各个量化输出进行代码分配； ( 7 ) 码率控制：在对传输速率有严格的限制时，这一部分是需要的，它的目的是为了在给定的传输速率下使主观失真达到最小。在对传输速率没有限制时，不需要这一部分。 2 2 - 3 视频编码的常用方法简介视频数据压缩的方法繁多，在这里不进行一一讨论只讨论那些常用视频数据压缩技术。 2 2 3 1 熵编码熵编码是建立在随机过程的统计特性基础上的，在多媒体视频压缩中常用的三种信息熵方法为：哈夫曼编码、行程编码和算术编码。 1 哈夫曼编码哈夫曼编码于1 9 5 2 年问世，它的理论依据是变字长编码理论。基本思想如下， 1 0 m p e g - 4 视频算法平台移植与优化在变字长编码中，以编码输入信息符号出现的统计概率为依据，对出现概率大的信息符号赋以短字长的码，对于出现概率小的信息符号赋以长字长的码。如果码字长度严格按照符号出现概率大小排列，则平均码字长度一定小于按任何其它符号顺序排列得到的码字长度。 2 行程编码基本思路如下，用一个代表值和串长来代替一个相同值的连续串，其中代表值和串长组合，构成编码输入码元进行编码，并按其出现的概率，分配不同码长的码字。大概率以短码，小概率以长码。这种编码方法对于同一行或相邻行的象素之间具有强相关性的图像有很好的压缩效果。 3 算术编码算术编码是一种按照符号序列的出现概率对概率数直线进行区间分割，并把表示已分割区间的二进制小数作为相应序列代码的编码方式。这种编码方法的最大优点是比较容易实现动态自适应，且编码效率很高。它的最大缺点是计算复杂度很高，从而阻碍它被广泛使用的。 2 2 3 - 2 预测编码预测编码是按某一模型利用已经解码的样本值预测随后输入的样本，然后将实际样本值与其预测值相减得到一个误差值，并对该误差值进行编码。由于误差值要远远小于实际值，所以达到了压缩数据的目的。预测编码主要是要削减空间和时间冗余度。 1 d p c m 4 】方法实际应用中用的最多的预测编码方法为d p c m ( d e f e r e n t i a lp u l s ec o d e m o d u l a t i o n ) 方法，其工作原理为：假定与当前象素有因果相邻关系的n 一1 个象素值序列为五，五，以一。，线性预测值为，实际值为瓦，a i o = 1 ，2 ，n - 1 ) 为预测系数( 即加权因子) ，巳为误差值，则： n - i = q 置 ( 2 1 ) e ，= xn x ： ( 2 2 ) 最优线性预测就是合理选择预测系数a 艇= l ，2 ，n - 1 ) ，使巳的均方值最小，即第一二章视频压缩标准使e ( ) ) 最小。 d p c m 方法利用了差值图像的相关性比原始图像的相关性要小的多，从而达到了信息压缩的目的。在该预测模型的数学推导中发现，预测模型的复杂程度和预测系数的个数有关，即与预测中使用的样本的数目有关，样本数越少越简单，一般采用前三点或前一点预测。 2 帧间预测帧间编码技术处理的对象是序列图像，基本思想是把前一帧或前几帧的图像存储起来作为参考帧，利用帧间的时间相关性，来预测当前帧的象素值，进一步消除图像信号的冗余度，提高压缩比，降低传输比特率。这种帧间预测原理的概况如图2 3 所示。图2 3 帧间预测常用的两种帧间预测编码方法为：条件象素补充法和运动补偿技术。 ( 1 ) 条件象素补充法 p e a s e ，m o u n t s 等人提出的条件象素补充法规定，通过帧间预测差分信号与一个适当的阀值比较，将图像分成两个不同区域。若帧间各对应象素的亮度差在设定的某阀值以下则认为该象素位于图像的背景区或相对静止区，不传送该值，在接收端用上一帧相应象素值来代替；如果超过这一阀值，则认为该象素值位于图像的运动物体区，把这些象素存在缓冲存储器中，并以恒定的传输速度传送。用此方法可使一幅电视图像可能只传送其中较少部分的象素，且传送的只是帧间差值，可得到较好的压缩比。据统计，在可视电话应用中，由于大部分图像是静止图像，且背景不重要，用条件象素补充法需要传送的象素只占全部象素的 6 左右，但它在运动变化剧烈的场合中应用效果不是很好。这种方法过分依赖阀值，如果阀值过高，图像中的动作就会变得很生硬而使画面显得很不自然，运动物体的一部分像贴上去一样留在以前的场景上，这种劣化是很严重的。阀值过小，将降低压缩比【2 j 。 ( 2 ) 运动补偿技术 1 2m p e g 4 视频算法平台移植与优化运动补偿方法作为更有效的帧间预测方法而被提出，因为它能较好地提高编码压缩比，在近十年来已得到特别的重视和广泛的应用。其基本思想是跟踪画面内的运动情况，对其加以补偿后再进行帧间预测，通常由以下几方面组成： 1 ) 把图像分割为子块，这里假设运动物体仅作水平平移和垂直平移。 2 ) 估计物体的位移值。 3 ) 用位移估值( 即运动矢量) 进行运动补偿预测。 4 ) 预测信息，对预测差值进行编码。其中，对子块进行运动估计( 或者说运动估值) 是运动补偿预测的关键技术，一旦求得运动物体的运动矢量后，即可将其送入运动补偿预测器，进行编码传输。在运动图像编码中较多关心的是由被摄物体和摄像机二者之间的运动共同造成的相对二维运动，高效而快速的运动矢量求取算法是运动补偿技术中的焦点问题，目前常用的几种对运动矢量进行估值的方法有。块匹配算法：块匹配算法( b l o c k m a t c h i n ga l g o r i t h m ) 建立在“块内各象素做相同的平移的假设之上。在该算法中要求确定块尺寸大小的选择，只有在块小时才可近似认为块内各象素点作相等的平移，以满足块匹配算法的基本假设。但若块太小，则估计结果易受干扰噪声影响不够可靠，且传送运动矢量所需比特数过多，计算复杂度加大；块若过大虽可减轻其影响，但基本假定被破坏，影响估计精度，增加预测差值的编码复杂度和比特数。一般子块的大小取1 6 1 6 块、8 8 块或4 4 块较为合适。块匹配算法相对而言计算复杂度不是很高，硬件、软件都较容易实现，是目前最常用的运动估计算法，人们已研究出了多种基于块匹配思想的快速运动搜索方法。象素递归法：象素递归算法( p e l r e c u r s i v ea l g o r i t h m ) 的出发点是通过对灰度的梯度变化来求象素的位移。它能对每个象素的运动进行精确到亚像素级的估计，由于每个象素都有一个对应的运动矢量，为了降低码率而避免将其所有的运动矢量都进行传输，提出了许多解决的办法，如让接收端在与发射端同样的条件下用与发射端相同的方法进行运动估计、n e t r a v a l i 象素递归法的迭代修正等。由于象素递归法的最小搜索单元是象素点，因而对物体的运动有较高的灵敏度，且有较高的位移估值精度，对复杂运动具有较强的适应性，但也正是这个原因，使得它对噪声影响的灵敏度也高，在图像的平坦部分很难得到充分的精度。且它跟踪的位移范围很小，由于p r a 算法对位移的估值是通过梯度运算得到的，因而运算代价大，难以硬件化，这些缺点导致象素递归法的实用化程度不如块匹配算法。相位相关法：由于物体的空间位移与其相位变化是相对应的，从而可将运动估计由空域转至频域进行。首先，对两帧图像中的子块进行傅立叶变换求得相位相关函数，再利用相位相关函数的尖峰求取运动矢量估值。根据进一步的观察，对第二章视频压缩标准 1 3 于平移运动，相位相关函数将产生比互相关函数尖锐得多的尖峰。因而用相位相关函数进行运动估计更加有利。但这种方法运算复杂度太大了，难以硬件化，无法得到广泛的实用。预测编码方式的思路比较简单，但它有一个致命的弱点，就是误码扩散问题。当传输途中发生误码时，其影响并不是只停留在最初发生误码的地方，而是会在以后各象素的解码过程中不断往下扩散。为了防止帧间编码中误码在时间方向上的不断积累，可采用周期性地插入帧内编码之类的刷新操作等方法。 2 2 3 3 正交变换编码变换编码的基本思想是通过变换操作除去由于坐标轴的选择不当而引起的相关性，而且有可能将难以处理的各种小局部相关集中到一起处理。根据数学中的理论，单位变换的一个重要性质是距离保持，即向量间的欧拉距离不变。可以证明，坐标轴通过旋转，数据的离差( 即能量) 保持不变。变换本身不会造成任何压缩，但它分解了原始数据的关系，把大量琐碎的信号能量精简到少量变换成分中去。由于变换后保留了全部能量，所以许多变换系数只包含了很少的能量，对这些系数进行量化和有效的编码就可造成压缩。常见的正交变换编码方法有：k l 变换、离散傅立叶变换、d c t 变换、w a l s h h a d a m a r d 变换等。 1 k h u n e nl o e v e 变换( k l 变换) 这是一种能量打包的最优变换。然而，它的偏置函数是图像依赖的；并在计算中需要估计图像协方差。另外，不存在快速算法。这些缺点严格限制了它的利用。 2 离散傅立叶变换( d f t ) 离散傅立叶变换产生的变换系数是复数，直接存储与管理这些复数量是一种缺陷。且由于经过图像块复杂的周期性变换后，会产生一些伪频谱成分，在低比特编码时，这些伪频谱成分使得重建图像出现一些类似马赛克的方块。 3 d c t 变换对于象素间呈现高度相关的图像，d c t 变换的性能与k l 变换没有实质的区别，且它可以避免产生伪频谱成分，所以d c t 变化具有较高的压缩效率。d c t 变换的快速算法使得d c t 变换在图像压缩中得到了广泛应用。 4 w a l s h h a d a m a r d 变换 w a l s h h a d a m a r d 变换算法比较简单，且具有简洁的去相关能力，以及特别利于硬件实现，它己变得比较流行。但它在能量压缩、包装方面却远没有达到最佳。 1 4 m p e g - - 4 视频算法平台移植与优化 2 2 3 4 量化编码量化是指由数字量到数字量的多对一映射，量化器所要完成的功能是按一定的规则对表达式作近似表示，即指用一组有限的实数集作为输出，其中每个数代表一群最接近于它的取样值，量化编码为有损编码，在视频编码中较多应用量化的过程是对二维d c t 系数的量化处理。量化可分为线性量化和非线性量化。线性量化是指量化电平间隔全都取相同值的量化方式，这种量化方式对待量化数据在其动态范围内均匀分布的情况十分有效。但实际上，由于对于信号矩阵实施正交变换后，系数的能量分布一般比较集中，可近似地表示成一种零集中度很高的拉普拉斯分布。当总量化电平数给定时，对分布集中部分的量化电平配置得密一些，对其它部分的量化电平配置得疏一些，这种方法称为非线性量化。量化还可分为标量量化( 零记忆量化或一维量化) 和向量量化( 分组量化) 。在标量量化中，预先准备好有限个量化电平值，量化过程中选取最接近输入值的量化电平值，并对该量化电平值的序号进行编码。向量量化( 多维量化) 则是预先准备好有限个有代表性的量化矢量模型，量化过程中选取与该输入矢量值最相似的量化模型矢量，并对该量化模型矢量的序号进行编码。在以比较低的比特率进行量化时，矢量量化是一种有效的方式【4 】。第二章m p e g - 4 视频编码标准算法优化 1 5 第三章m p e g - 4 视频编码标准算法优化 3 1m p e g - 4 视频压缩标准 m p e g 1 主要适用于低分辨率、低码率、无差错、逐行扫描的图像，m p e g 一2 主要针对较高分辨率、高码率、隔行扫描、信道有误码的电视图像。因此m p e g 一1 和m p e g 2 这两者的应用相对单一，主要的目的是提高压缩比，并改善音频、视频质量，采用的技术主要是基于信息论的波形编码理论，属于第一代编码技术。而m p e g 4 属于第二代编码技术，因为它采纳了基于对象的编码、基于内容的编码等属于第二代的编码技术。m p e g 一4 在数字电视、交互图像应用和交互多媒体方面获得了广泛应用【4 1 。 3 1 1m p e g - 4 的产生及特点近几年来人们对网络信息的多样化提出了更高的要求，表现在媒体质量、媒体交互能力方面尤为突出，原有的m p e g 1 2 由于一些局限己经不能适应发展的需要，m p e g 4 就是在这种背景下应运而生的。i s o 的m p e g 一4 标准的第一版于1 9 9 9 年1 月正式公布，标准的第二版于1 9 9 9 年1 2 月公布。m p e g 4 的初衷是针对视频会议、视频电话的超低比特率编码，但在调查过程中发现，高性能通用芯片性价比的提高使得基于软件平台的压缩编码方法具有实用可能；人们对视频信息的应用要求由播放型转向基于内容的访问、操作型。这使得m p e g 组织不得不修改计划，针对应用定义一种新编码概念一一基于内容的压缩编码方法，将基于内容的检索与编码结合起来考虑，在压缩数据中加入描述视频内容的信息，从而使对多媒体信息的内容的访问可以直接针对压缩数据进行。这种新的编码方法最大好处之一是可以基于通用芯片，打破了基于专业硬件的限制，且还可以加入新的有效的算法模块，甚至涉及到图像分析的较复杂算法，这对于以前基于专用硬件的压缩编码方法是不可想象的。较之m p e g 前两个图像压缩标准而言，m p e g 4 为多媒体数据压缩提供了一个更为广阔的平台，它更多定义的是一种格式和框架，而不是具体的算法。从结构上看，m p e g 4 标准分为十个部分：系统层、视频、音频、d m i f 、一致性测试、参考软件、优化的视频编码参考软件、用口网络承载m p e g 一4 内容、参考硬件描述和高级视频编码，前四个模块为m p e g 一4 的核心模块；从层次上来讲，可划分成三个层次：压缩层，同步层，传输层。压缩层对应视频、音频核心 1 6m p e g - 4 视频算法平台移植与优化部分，对传输部分是不可知的。m p e g 4 要实现的目标有【5 】【6 】： ( 1 ) 再现被称为“媒体目标的听觉、视觉或视听内容单元，这些媒体目标可以是自然的或人造的。 ( 2 ) 能够把音效、视觉、自然合成的对象组合成音频、视频场景，且能允许单独对这些对象进行访问、控制和重用。 ( 3 ) 切换和同步媒体目标的数据，以便它们能在网络通道上传送，提供适合特定媒体目标的q o s 。 ( 4 ) 在接收端产生交互的视听景物，满足多种业务的需要。与m p e g 1 和m p e g 2 相比，m p e g - 4 的特点主要体现在以下几方面【4 】【7 】： ( 1 ) m p e g 4 的最大特点是基于内容、基于对象进行编码，不是像 m p e g 1 ，m p e g 2 基于视频帧的编码。这些对象可以是单声道、立体声和多声道音频，二维和三维或者单目、立体或多目视频、计算机图形、动画、文字等。对每一个对象的编码形成一个对象码流层，该码流中包含着对象的形状、位置、纹理以及其他方面的属性等。对一幅图像编码所形成的码流就由一系列这样的对象层码流所构成。用户可以直接对“对象层进行存取操作，也可以自行选择场景中的物体的解码质量。基于对象的编码除了能提高数据的压缩比，还可以使对多媒体信息内容的访问可以直接针对压缩数据进行，这样便于操作和控制对象，能实现许多基于内容的交互性功能。 ( 2 ) m p e g 一4 标准除了继承了m p e g - 1 ，m p e g 一2 的编码方法外，还采用了任意形状的自然视频编码、自然视频和二维三维计算机合成图形混合编码、静态图像编码、图像提取技术、小波技术以及s p r i t e 编码。 ( 3 ) 场景描述，m p e g 一4 提供了一系列工具，用于组成场景中的一组对象。利用一些必要的合成信息组成场景描述，这些场景描述以二进制格式b i f s ( b i n a r y f o r m a tf o rs c e n ed e s c r i p t i o n ) 表示，b i f s 与a v 对象一同传输、编码。场景描述主要用于描述各a v 对象在一具体a v 场景坐标下，如何组织与同步等问题。同时还有a v 对象与a v 场景的知识产权保护等问题。m p e g 4 为我们提供了丰富的a v 场景。 ( 4 ) m p e g 4 的编码具有鲁棒性和纠错功能，有助于低比特率视频信号在高误码率环境( 例如移动通信环境) 下的存储和传输；由于移动通信的迅速发展，通过无线网传输音频和视频信息变得越来越重要了，这需要提供在易错的通信环境下实现安全的低码率编码和传输。它采用3 个策略来达到此目的：再同步、数据恢复、错误隐藏。再同步工具在检测到误码时重新在解码器和码流间建立同步第三章m p e g - 4 视频编码标准算法优化 1 7 点，前一个同步点和新建立的同步点间的码流就是发生误码的数据；数据恢复是通过标准中提供的一种可逆变长编码技术来恢复两个同步点之间的数据；错误隐藏通过空间的纹理相关性和视频前后帧的相关性对错误的图像区域进行隐藏。 ( 5 ) 基于内容的可伸缩性，用户可以有选择地只对感兴趣的对象进行传输、解码和显示。基于对象的分级功能是m p e g 一4 提供的又一个新的功能，同时兼容于m e p g 一2 标准中的图像分级功能，分级工具主要用于互联网和无线网等窄带的视频通信、多质量视频服务和多媒体数据库预览等服务。m p e g - 4 通过视频对象层数据结构来实现分级编码。m p e g 4 提供了两种基本分级工具，即时域分级和空域分级，此外还支持时域和空域的混合分级。每一种分级编码都至少有两层v o l ，低层称为基本层，高层称为增强层。基本层提供了视频序列的基本信息，增强层提供了视频序列更高的分辨率和细节。在随后增补的视频流应用框架中，m p e g 一4 提出了f g s ( f i n eg r a n u l a r i t

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）mpeg4视频编码算法平台移植和优化.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）mpeg4视频编码算法平台移植和优化.pdf

文档简介

温馨提示

最新文档

评论

相关文档