（通信与信息系统专业论文）mpeg4视频编码器算法研究及优化.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：68 大小：2.45MB 积分：0 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

（通信与信息系统专业论文）mpeg4视频编码器算法研究及优化.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

浙江大学硕 ! : 学 1 二论文 y6 8 9 1 1 0 摘要 2 1 世纪的人类社会是信息化的社会，就通信内容来说，它已不局限于简单的语音、文字信息，更进一步地，将图像视频信息亦纳入其中。数字化后的信息，尤其是视频和音频信息具有数据海量性，它们给存储和传输造成较大的困难。 mp e g 4 是商业界最重要最有影响的多媒体数据压缩编码国际标准之一，它的全称为音频和视觉对象的通用编码。它定义了音频、视频等多媒体数据语法结构和解码过程、互联网上的传输以及人与媒体交互的一整套框架，覆盖了多媒体的绝大部分应用领域。它的基于对象思想使其具有高压缩比、灵活性好、可扩展性和可交互性强等优点。本课题结合移动通信的实际应用背景，在全面了解mp e g 4 标准的基础上，对 m p e g 4标准的核心部分一一视频的压缩编码进行重点研究。根据移动通信的实际特点，实现对原视频流实时压缩编码和网上流化传输，为客户提供高质量的视频图像。在研究过程中，着重考虑了压缩编码器的速度、视频图像的质量和码率控制等要求。本课题首先以网上提供的部分源码为基础，对这些代码进行移植、整合、改写、扩充、优化，总结了软件优化的一些思想，实现了个 w i n d o w平台下 c版木的视频编码器的原型，建立了继续研究的测试试验平台。其次，研究了 m p e g 4 视频压缩标准的关键算法，对纹理编码、运动估计和补偿、速率控制等模块进行了优化，降低了计算复杂度，提高了编码速度，并对优化的结果作了比较和分析，为今后将mp e g 4 视频编码器移植到移动通信设备上奠定了基础。关键字: 视频编码， mp e g 4 标准，纹理编码、 d c t变换，运动估计和补偿，码率控制，算法优化浙江大学硕十学十论文第一章绪论 1 . 1课题的背景、目标和意义近年来，随着生产力和经济的快速发展，人们在社会生活发生了许多的改变，人们之间的流动性增加，迫切需要打破地域对交流设置的樊篱。为了适应这种变化，各家厂商不仅在大力开发各种移动设备和通信器材，而且对通信内容进行了扩充，使其不再局限于简单的语音、文字信息，提供确切、直观、高效的图像视频信息已成为电信运营商的一个重要追求。然而，图像视频信号经过数字化处理之后形成的数据量非常庞大，如此庞大的数据量不仅存储开销很大，而且在传输中使得通讯设备的负荷量很重，甚至承受不了。采用压缩技术，可以把这些数据压缩几倍、几十倍，甚至几百倍。因此，研究如何去除冗余数据、高效地表示图像、进行数据压缩，具有重大的实用价值。数字图像压缩技术己成为目前国内外的研究热点之一，为了保证不同厂商设备和产品之间的可交换性，国际标准化协会 ( in t e rn a t i o n a l s t a n d a r d i z a t io n o r g a n iz a t i o n , i s o ) , 国际电子学委员会 ( i n t e r n a t i o n a l e l e c t r o n i c s c o m m i tt e e , i e c ) 、国际电信协会 ( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o n u n i o n , i t u )等国际组织于9 0 年代领导制定了许多重要的多媒体数据压缩标准。从h . 2 6 1 , m p e g l , h .2 6 3 到m p e g 2 , 再到现在的mp e g 4 , mp e g 7 , m p e g 2 1 , h .2 6 4 ，标准越来越成熟，覆盖的应用领域愈来愈广泛，尤其是m p e g 4 和h .2 6 3 等面向低码率高质量的标准对于实时视频传输处理有着非重重要的意义。同时，通信技术也在飞速发展，各种宽带网络的出现使得实时视频传输成为可能。目前在商业界发展最迅速、影响最大、技术较成熟的多媒体数据压缩编码国际标准是m p e g 4 。它的全称为音频和视觉对象的通用编码，是伴随着互联网而产生和发展起来的。它定义了音频、视频等多媒体数据的码流语法和解码过程、互联网上的传输以及人与媒体交互的一整套框架，覆盖了多媒体的绝大部分应用领域。它的基于对象思想使其具有高压缩比、灵活性好、可扩展性和可交互性强等优点。 m p e g 4 正在蓬勃发展，及时了解和跟踪它的发展动向，掌握其核心技术，结合实际应用，是一项很有意义的事情。本课题结合移动通信的实际应用背景，在全面了解m p e g 4 标准的基础上，对 m p e g 4标准的核心部分一一视频的压缩编码进行了重点研究，根据移动通信的实际特点，实现了对原视频流的实时压缩编码和网上流化传输，为客户提供了高质量的视频图像。在研究过程中，着重考虑了压缩编码器的速度、视频图像的质量和码率控制等要求。本课题的意义在于: 研究、改进和实现了mp e g 4 视频压缩标准的关键算法纹理编码、运动估计和码率控制，掌握了视频压缩编码的核心技术，实现了编码器的原型，建立了继续研究的测试试验平台，为mp e g 4 在移动通信设备上的实际应用和开发奠定了基础。 1 . 2课题完成的任务课题的理论和实现准备工作: 浙江大学硕士学士论文首先全面了解m p e g 4 这一多媒体编码国际标准，对其基本思想、整个框架、关键技术等有了完整的认识，深入剖析了网上提供的mp e g 4编码器的实现代码，为改写代码提供了方便。课题主要完成了以下几个方面的工作: 1 . m p e g 4视频压缩编码器的软件实现，以网上提供的部分实现源码为基础，对这些代码进行移植、整合、改写、扩充、优化，总结了软件优化的一些思想，实现了一个wi n d o w平台下c版本的视频编码器原型，为后一步视频压缩算法的选择及优化提供了测试平台。 2 . 对mp e g 4 视频编码的关键技术一一纹理编码进行了研究和改进。在i n t e r 宏块中采用了基于自适应模式选择的快速离散余弦变换法，在没有明显降低图像质量的条件下，大大减少了计算量; 在i n t r a 宏块中采用了一种简单方法来选择是否进行a c预测。 3 .对mp e g 4 视频编码的关键技术一一运动估计算法进行了研究和改进。在传统的运动估计算法mv f a s t的基础上，提出了一种快速运动估计算法，试验结果表明，这种运动估计算法比全搜索运动估计算法在速度方面要快很多，精度方面略差。 4 .对mp e g 4 视频编码的关键技术一一码率控制算法进行了研究和改进。在分析了多种码率控制算法后，提出了一种快速且有效的码率控制算法，试验证明，对于绝大多数视频序列都能起到很好的码率控制作用。 1 . 3本论文内容安排论文共分三部分。第一部分是绪论和理论知识准备;第二部分是 m p e g 4 编码器的软件实现和一些关键算法的研究;第三部分是全文总结和展望。全文内容组织如下: 第1 章，绪论，阐明了课题的背景、目的、意义及要完成的任务。第 2章，视频压缩标准，介绍了视频编码的原理及各视频标准的历史和发展。第3 章， mp e g 4 视频压缩标准，介绍了mp e g 4 标准的基本知识及软件的实现和优化。第4 章，纹理编码，阐述了m p e g 4 中纹理编码的理论基础及本课题中的改进，并给出了试验结果。第 5章，运动估计算法的研究和改进，阐述了运动估计算法的理论基础及本课题中的改进方法，并给出了试验结果。第 6章，码率控制算法的研究和改进，阐述了其理论基础及本课题中采用的方法，并给出了试验结果. 第 7章，总结了全文的研究成果，并对视频压缩进行了展望，提出了进一步的研究工作。浙江大学硕十学上论文第二章视频压缩标准 2 . 1 视频数据压缩的必要性随着微电子、计算机、网络和传感器技术的高速发展，图像、声音等媒体信息的记录、存储、传输正朝着数字化方向前进，这是因为数字信号具有易于传输和远距离存储、没有积累失真、可被高品质地还原、抗干扰能力强、处理精度高、便于加密等优点。在众多的多媒体信息中，视觉信息具有以下优点: . 直观性。图像信息更为形象直观，印象深刻，易于理解; . 确切性。图像信息显然更容易确认，不易发生错误，这点在军事、医学、工业指挥等方面具有重要意义; . 高效率。由于视觉器官具有较高的图案识别能力，人们可在很短时间内通过视觉接受到更多的信息; 由于视觉信息具备众多优点，把视觉信息纳入通信领域、为人们提供多渠道、多方位的信息来源成为了现代人的迫切需求。但与此同时，使用未被压缩的图像、声音、动画、活动影像等多媒体信息时，特别是有较高的质量要求时，不仅需要用相当大的存储空间，而且需要相当高的数据传输率。例如，图像为 c c i r ( i n t e m a t i o n a l c o n s u lt a t i v e c o m m i t t e e f o r r a d i o ) 格式 ( 7 2 0 x 5 7 6 ) , 4 : 4 : 4 采样时，一帧活动影像要求约1 m b 计算机数据; 如果按我国电影的放映速度每秒2 5 帧计算 ( 美、日等国家为3 0 帧) ，对一个满屏幕的影像，要求计算机每秒传送2 5 m b数据，一片c d - r o m仅可存储2 0 .9 秒的节目，这大大超过了p c 机及某些工作站可以处理的能力，给存储器的存储容量、通信干线的信道传输率增加了极大的压力，且大大地增加成本。如果由于技术或其他方面原因的限制，在达不到较高传输速度的情况下，传输时间必然拖得更长，语音可能变得 “ 语无伦次” ，图像变得 “ 杂乱无章” ，从而完全失去了意义。在保持所需数据传输率和存储容量条件下，最简单的方法之一就是减少图像分辨率的大小，例如把窗口大小改为1 0 o x 1 0 0 个象素: 另一个方法是降低回放速度，如每秒5 帧、 1 0 帧等1 1 : 否则就需要扩大存储器容量、增加通信干线的传输率。显然，这些都不是理想的解决办法。最好的解决办法是对图像文件的大小进行压缩，通过数据压缩手段把信息数据量压下来，以压缩形式存储和传输，既紧缩了存储空间，又提高了通信干线的传输效。 2 . 2 视频数据压缩的可能性视频数据的压缩不仅是必要的，也是可能的。视频图像的各个相邻象素在统计上一般都有某种程度的相关性。例如，画面中亮度变化平坦的地方，相令象素值就有相同的电平; 而就相邻帧的图像来说，即使图像有某种程度的运动，两帧图像也仍然是很相似的。也就是说，图像中事实上包含着大量的冗余成分。通过消减这些冗余成分，就能达到相当程度的信息压缩2 1 在信息论中，通过减小冗余而进行的数据压缩处理称为信源编码。视频序列中实际包含着各种各样的冗余信息:空间冗余、时间冗余、心理视觉冗余、浙江大学硕卜学十论文嫡冗余、结构冗余、知识冗余以及起因于图像非平稳性的兀余等。其中空间冗余度和时间冗余度都起因于图像的统计性质，所以也称为统计冗余度。统计冗余表现为图像信号在时域和空域的高相关性:心理视觉冗余起源于人眼对某些空间频率的感觉迟钝;嫡冗余表现为符号编码平均码长和信源嫡之间的偏差; 结构冗余是把图像看作区域集时产生的冗余;知识冗余是指与收发端所共有的知识相关联性。研究视频信号中冗余消除方法，实现信息传输、存储和处理的有效性和可靠性是视频编码的关键问题3 1 2 . 3 视频编码器的基本原理数字视频数据压缩的目的就是去掉视频数据中的各种冗余信息( 即去除数据之间的相关性) ，保留相互独立的信息分量。在视频数据中存在多种冗余信息，如何尽最大可能去除这些冗余信息是视频编码的主导研究思想。 2 . 3 . 1 削减视频信息中的冗余成分 1 .空间冗余度的削减空间冗余度是指一副图像内所包含的冗余度。例如，规则条纹图像和平坦图像，它们的空间冗余度就很大。从空间域来看，相关性强的信号常表现为相邻象素之间象素值相同或相似;从频域来看，相关性强的信号常表现为能量集中于某些特定频率成分上。因此，要削减空间冗余度，可从空间域或频域来设计适当算法。在空间域，对于相邻象素之间相关性很强的图像，可以像图2 . 1 所示，先用已编码的相邻象素对下一待编码的象素进行某种程度的预测，再对预测差值编码，这样可望得到大幅度的信息压缩。基于这种思想的编码被称为帧内预测编码 ( i n t r a p r e d i c t i v e c o d i n g ) 。在频域，对于相关性强的信号，可先做傅立叶变换，然后只对能量集中的频率成分的系数进行编码。基于这种原理的编码被称为变换编码 ( t r a n s f o r m c o d i n g ) . 0一代)-oseseo- 一戒一一 o x -1j. x i-1 x i+t.i-1k owe叫0一卜一巾 0 一- 0一一o x i- l ,i x i.i 图2 . 1帧内预测编码的原理 2 .时间冗余度的削减中，黑赢潺黯盟瓢1嘿焉溉钡可视电话等运动图像 9 编码( i n t e r p r e d i c t i v e c o d i n g ) 来消除。像图2 .2所示，先用某些方法估计出运动图像各部分的运动矢量，对其运动部分加以补偿后再进行帧间预测。这称为运动补偿预测编码 ( m o t i o n - c o m p e n s a t e d p r e d ic ti v e c o d i n g ) ，它已是会议电视和可视电话等超低速立 0 _ 砚巾mo ., 久枯素浙江大学硕士学士论文图2 . 2 运动补偿预测的原理 3 .心理视觉冗余度的削减即使在接收端没有物理重现原图像，但人用眼睛观看时，它与原图像看上去一样的。人的感官觉察不到的那些成分，从图像编码的角度上看是一种冗余，也就是人们常说的心理视觉冗余度。人眼视觉有以下特性 2 1 ( 1 ) 失真知觉的频率特性: 不易觉察随时间快速变化的失真和空间高频失真; ( 2 ) 与画面图案的关系: 在静止图像的情况下，易于发觉图像平坦部分的失真而不易发觉轮廓部分的失真。但在运动图像的情况下，轮廓部分的失真将成为一种边缘效应，反而更加显著; ( 3 )与图像动作的关系:当图像动作达到一定速度，视线跟不上运动时，视觉对失真的敏感度变低; ( 4 ) 与场景切换的关系: 在画面切换的紧后边，即使分辨率下降较大，也不会感到有明显变化; ( 5 )与画面亮度的关系:同等级的图像失真，画面越暗，失真感越明显; ( 6 ) 色度信号与亮度信号: 与亮度信号相比，色度信号的失真更不易被发觉，因而，间隔地抽掉一些色度信号样本点并不会影响重现图像的彩色质量。利用视觉特性进行信息压缩，因编码中必然会包含失真，所以被称为非可逆编码 ( n o n - r e v e r s i b l e c o d i n g ) 。这种非可逆编码可高效地进行视频压缩，且在广播电视图像编码、可视电话和会议电视的图像编码两个方面获得了广泛应用。人们对广播电视不希望因编码而导致接收端看到的解码图像质量下降，因此，这种情况下的压缩是按眼睛看不出编码失真的原则即检知限以下)来进行的。而在可视电话和会议电视中，为了降低它的传输成本费，即使感到了失真的存在，人们也会允许或容忍的。图像通信中，由于多数情况对传输速率有严格的限制，如何在所给定的传浙江大学硕十学卜论文输速率下使主观失真达到最小，便成了信息压缩的主要目标。 4 .嫡冗余度的削减根据信息论的原理，数据压缩的理论极限是信息嫡15 1 。如果要求在编码过程中不丢失信息量，则要求保存信息嫡。给量化电平分配二进制代码时，就像图 2 .3 所示，给出现频度高的电平分配短代码，给出现频度低的电平分配长代码，以此来缩短总平均码长。当达到最佳代码分配时，平均码长就等于根据发生频度所计算出的嫡的值。这种编码方式被称为嫡编码 ( e n t r o p y c o d i n g ) 。它是无失真压缩编码方法，其中应用最广的有哈夫曼编码( h u ff m a n c o d i n g ) 和行程编码 ( r u n l e n g t h c o d i n g ) 。最近，算术编码 ( a r i t h m e t i c c o d i n g ) 受到了很大的重视。一一一 j 卜一一一争一一一争 1 0 01 1 0 1 0 一一一今一一一争一一一今 1 1 0 1 1 1 0 1 1 1 1 0 图2 . 3 非线性量化和代码分配 5 .结构和知识冗余度的削减从 “ 被摄物体本来是具有三维结构的实际物体，而图像是被摄物体在二维平面上的投影” 这一观点出发，着眼于图像结构进行编码，以此来提高压缩冗余度的效果。其中轮廓编码( c o n t o u r c o d i n g ) 就是这方面的研究。可视电话图像中，由于编码对象仅限于人物像，收发端关于编码对象的共有知识也可被看作是一种冗余度的含义。这种编码总称智能编码。要消除这种知识性冗余，需识别和理解图像 ( i n t e l l i g e n t c o d i n g ) , 2 . 3 .2视频编码器的典型结构浙江大学硕1:学士论文视频输入图2 . 4 视频编码器的典型结构到目前为止，不管是mp e g系列的m p e g x 标准还是i t u - t的h .2 6 x 系列的标准，它们的编码基本原理都是一样的，都是用时域预测去掉时域冗余，空域预测去掉空间冗余，用嫡编码使得可以用最少的比特来表示码流，将各种信息压缩手段组合起来使用。所不同的是，各种标准采用的算法不一样，以面向不同的应用。图2 .4给出了一个典型的视频编码器的结构，下面对各部分作个简单说明。 ( 1 )预处理:这部分是为后面的编码作准备，主要做以下几方面的工作: 去除图像的噪声，加快编码的速度，提高视频图像的主观质量;图像格式转换，使其符合编码的需要;通过控制样本数 ( 即按需要进行减采样)和每秒帧数来限制待编码的象素数，进一步降低码率: ( 2 ) 运动估计和补偿:施以运动补偿预测，取出预测误差信号以待编码。在场景切换或帧内编码时不进行预测，直接取出输入信号: ( 3 ) d c t变换: 对预测误差信号或原信号进行d c t 变换，去除空间相关性，使能量集中在一部分系数; ( 4 ) 量化:对于已判定为要编码的信号或其组合，进行标量量化或矢量量化; ( 5 ) 反d c t 变换和反量化: 通过反d c t 变换和反量化解码，得到运动估计时所需的参考图像。在量化时不可避免会产生量化噪声，所以如果用d c t 变换前的信号作参考图像，将会导致图像质量严重下降，因为接收端输出的信号己与d c t 变换前的信号不同了。为了得到高质量的图像，这一部分是必不可少的; ( 6 ) 嫡编码:按照尽可能缩短平均码长的原则，对各个量化输出进行代码分配; ( 7 )码率控制:在对传输速率有严格的限制时，这一部分是需要的，它的浙江大学硕卜学十论文目的是为了在给定的传输速率下使主观失真达到最小 ( 如异步传输模式 ( a t m)网)时，这一部分可不要。在对传输速率没有限制 2 .3 .3视频编码的常用方法简介视频数据压缩的方法繁多，在这里不进行- 一讨论，只讨那些常用视频数据压缩技术。 2 .3 .3 . 1嫡编码嫡编码是建立在随机过程的统计特性基础上的，在多媒体视频压缩中常用的三种信息嫡方法为:哈夫曼编码、游程编码和算术编码。 1 .哈夫曼编码哈夫曼编码于1 9 5 2 年问世，它的理论依据是变字长编码理论。基本思想如下，在变字长编码中，以编码输入信息符号出现的统计概率为依据，对出现概率大的信息符号赋以短字长的码，对于出现概率小的信息符号赋以长字长的码。如果码字长度严格按照符号出现概率大小排列，则平均码字长度一定小于按任何其它符号顺序排列得到的码字长度。在所有的对输出码字分配不同码字长度的变字长编码方法中，该编码方法的输出码字的平均码长最短，与信源嫡值最接近。但此方法在编码前必须进行概率统计，且要传送哈夫曼码表，这使得此方法失去了自适应能力和实时性，增加了传输的码率。 2 .游程编码基本思路如下，用一个代表值和串长来代替一个相同值的连续串，其中代表值和串长组合，构成编码输入码元进行编码，并按其出现的概率，分配不同码长的码字。大概率以短码，小概率以长码。这中编码方法对于同一行或相邻行的象素之间具有强相关性的图像有很好的压缩效果; 对于纯粹随机的“ 沙土型”图像效果很差。 3 . 算术编码算术编码是一种按照符号序列的出现概率对概率数直线进行区间分割，并把表示已分割区间的二进制小数作为相应序列代码的编码方式。这种编码方法的最大优点是比较容易实现动态自适应，且编码效率很高。它的最大缺点是计算复杂度很高，从而阻碍它被广泛使用的。 2 .3 .3 .2预测编码预测编码是按某一模型利用已经解码的样本值预测随后输入的样本，然后将实际样本值与其预测值相减得到一个误差值，并对该误差值进行编码。由于误差值要远远小于实际值，所以达到了压缩数据的目的。预测编码主要是要削减空间和时间冗余度。 1 . d p c m方法浙江大学硕_ 止学_ l : 论文实际应用中用的最多的预测编码方法为 d p c m ( d e f e r e n t i a l p u l s e c o d e m o d u l a t i o n ) 方法 5 8 1 ，其工作原理为 : 假定与当前象素有因果相邻关系的n - 1 个象素值序列为x i , x v . . . x_ , ，线性预测值为群，实际值为 x, a i( i= l , 2 , .，， n - 1 ) 为预测系数( 即加权因子) e 为误差值，则: ( 2 . 1 ) e =x 一, y /( 2 . 2 ) 最优线性预测就是合理选择预测系数a i( i = 1 , 2 , ， n - 1 ) ，使e n 的均方值最小，即使e ( 代 ) 最小。 d p c m方法利用了差值图像的相关性比原始图像的相关性要小的多，从而达到了信息压缩的目的。在该预测模型的数学推导中发现，预测模型的复杂程度和预测系数的个数有关，即与预测中使用的样本的数目有关，样本数越少越简单，一般采用前三点或前一点预测。 2 .帧间预测帧间编码技术处理的对象是序列图像，基本思想是把前一帧或前几帧的图像存储起来作为参考帧，利用帧间的时间相关性，来预测当前帧的象素值，进一步消除图像信号的冗余度，提高压缩比，降低传输比特率。这种帧间预测原理的概况如图2 . 5 所示。图2 . 5帧间预测常用的两种帧间预测编码方法为: 条件象素补充法和运动补偿技术【。 ( 1 )条件象素补充法 p e a s e , m o u n t s 等人提出的条件象素补充法规定，通过帧间预测差分信号与一个适当的阀值比较，将图像分成两个不同区域。若帧间各对应象素的亮度差在设定的某阀值以下则认为该象素位于图像的背景区或相对静止区，不传送该值，在接收端用上一帧相应象素值来代替; 如果超过这一阀值，则认为该象素值位于图像的运动物体区，把这些象素存在缓冲存储器中，并以恒定的传输速度传送。浙江大学硕士学卜论文用此方法可使一幅电视图像可能只传送其中较少部分的象素，且传送的只是帧间差值，可得到较好的压缩比。据统计，在可视电话应用中，由于大部分图像是静止图像，且背景不重要，用条件象素补充法需要传送的象素只占全部象素的 6 % 左右，但它在运动变化剧烈的场合中应用效果不是很好。这种方法过分依赖阀值，如果阀值过高，图像中的动作就会变得很生硬而使画面显得很不自然，运动物体的一部分像贴上去一样留在以前的场景上，这种劣化是很严重的。阀值过小，将降低压缩比 q ( 2 ) 运动补偿技术运动补偿方法作为更有效的帧间预测方法而被提出，因为它能较好地提高编码压缩比，在近十年来已得到特别的重视和广泛的应用。其基本思想是跟踪画面内的运动情况，对其加以补偿后再进行帧间预测，通常由以下几方面组成: 1 ) 把图像分割为子块，这里假设运动物体仅作水平平移和垂直平移; 2 ) 估计物体的位移值; 3 ) 用位移估值( 即运动矢量) 进行运动补偿预测; 4 ) 预测信息，对预测差值进行编码。其中，对子块进行运动估计( 或者说运动估值) 是运动补偿预测的关键技术，一旦求得运动物体的运动矢量后，即可将其送入运动补偿预测器( 如图 2 .6 所示) ，进行编码传输。图 2 .6 运动补偿预测编码在运动图像编码中较多关心的是由被摄物体和摄像机二者之间的运动共同造成的相对二维运动，高效而快速的运动矢量求取算法是运动补偿技术中的焦点问题，目前常用的几种对运动矢量进行估值的方法有: 块匹配算法:块匹配算法 ( b l o c k - m a t c h i n g a l g o ri t h m ) 建立在“ 块内各象素做相同的平移” 的假设之上。在该算法中要求确定块尺寸大小的选择，只有在块小时才可近似认为块内各象素点作相等的平移，以满足块匹配算法的基本假设。但若块太小，则估计结果易受干扰噪声影响不够可靠，且传送运动矢量所需比特数过多，计算复杂度加大; 块若过大虽可减轻其影响，但基本假定被破坏，影响估计精度，增加预测差值的编码复杂度和比特数。一般子块的大小取 1 6 x 1 6 块、 8 x 8 块或4 x 4 块较为合适。块匹配算法相对而言计算复杂度不是很高，硬件、软件都较容易实现，是目前最常用的运动估计算法，人们已研究出了多种基于块匹浙江大学硕1 丁学士论文配思想的快速运动搜索方法，这将在第五章具体介绍，此处不再过多介绍了。象素递归法: 象素递归算法( p e l - r e c u r s i v e a l g o r i t h m ) 的出发点是通过对灰度的梯度变化来求象素的位移。它能对每个象素的运动进行精确到亚像素级的估计，由于每个象素都有一个对应的运动矢量，为了降低码率而避免将其所有的运动矢量都进行传输，提出了许多解决的办法，如让接收端在与发射端同样的条件下用与发射端相同的方法进行运动估计、 n e t r a v a l i 象素递归法的迭代修正等。由于象素递归法的最小搜索单元是象素点，因而对物体的运动有较高的灵敏度，且有较高的位移估值精度，对复杂运动具有较强的适应性，但也正是这个原因，使得它对噪声影响也大，在图像的平坦部分很难得到充分的精度。且它跟踪的位移范围很小，由于p r a 算法对位移的估值是通过梯度运算得到的，因而运算代价大，难以硬件化，这些缺点导致象素递归法的实用化程度不如块匹配算法 12 1 相位相关法:由于物体的空间位移与其相位变化是相对应的，从而可将运动估计由空域转至频域进行。首先，对两帧图像中的子块进行傅立叶变换求得相位相关函数，再利用相位相关函数的尖峰求取运动矢量估值。根据进一步的观察，对于平移运动，相位相关函数将产生比互相关函数尖锐得多的尖峰。因而用相位相关函数进行运动估计更加有利。但这种方法运算复杂度太大了，难以硬件化，无法得到广泛的实用。预测编码方式的思路比较简单，但它有一个致命的弱点，就是误码扩散问题。当传输途中发生误码时，其影响并不是只停留在最初发生误码的地方，而是会在以后各象素的解码过程中不断往下扩散。为了防止帧间编码中误码在时间方向上的不断积累，可采用周期性地插入帧内编码之类的刷新操作等方法。 2 . 3 .3 . 3正交变换编码变换编码的基本思想是通过变换操作除去由于坐标轴的选择不当而引起的相关性，而且有可能将难以处理的各种小局部相关集中到一起处理。根据数学中的理论，单位变换的一个重要性质是距离保持，即向量间的欧拉距离不变。可以证明，坐标轴通过旋转，数据的离差 ( 即能量) 保持不变。变换本身不会造成任何压缩，但它分解了原始数据的关系，把大量琐碎的信号能量精简到少量变换成分中去。由于变换后保留了全部能量，所以许多变换系数只包含了很少的能量，对这些系数进行量化和有效的编码就可造成压缩 ” 。常见的正交变换编码方法有:k l 变换、离散傅立叶变换、d c t 变换、wa l s h - h a d a m a r d 变换等。 1 . h u n e n l o e v e 变换 ( k l 变换) 这是一种能量打包的最优变换。然而，它的偏置函数是图像依赖的; 并在计算中需要估计图像协方差; 另外，不存在快速算法。这些缺点严格限制了它的利用。 2 .立叶变换 ( d f t ) 离散傅立叶变换产生的变换系数是复数，直接存储与管理这些复数量是一种缺陷。且由于经过图像块复杂的周期性变换后，会产生一些伪频谱成分，在低比特编码时，这些伪频谱成分使得重建图像出现一些类似马赛克的方块。 3 . d c t 变换浙江大学硕万 i 学士论文对于象素间呈现高度相关的图像， d c t 变换的性能与k l 变换没有实质的区别，且它可以避免产生伪频谱成分，所以d c t 变化具有较高的压缩效率。d c t 变换的快速算法使得d c t 变换在图像压缩中得到了广泛应用。在第四章将详细叙述d c t 变换算法，此处不再过多介绍。 4 . wa l s h - h a d a m a r d 变换 wa l s h - h a d a m a r d 变换算法比较简单，且具有简洁的去相关能力，以及特别利于硬件实现，它己变得比较流行。但它在能量压缩、包装方面却远没有达到最佳。 2 .3 . 3 . 4量化编码量化是指由数字量到数字量的多对一映射，量化器所要完成的功能是按一定的规则对表达式作近似表示，即指用一组有限的实数集作为输出，其中每个数代表一群最接近于它的取样值，量化编码为有损编码，在视频编码中较多应用量化的过程是对二维d c t 系数的量化处理。量化可分为线性量化和非线性量化。线性量化是指量化电平间隔全都取相同值的量化方式，这种量化方式对待量化数据在其动态范围内均匀分布的情况十分有效。但实际上，由于对于信号矩阵实施正交变换后，系数的能量分布一般比较集中. 可近似地表示成一种零集中度很高的拉普拉斯分布。当总量化电平数给定时，对分布集中部分的量化电平配置得密一些，对其它部分的量化电平配置得疏一些，这种方法称为非线性量化。量化还可分为标量量化( 零记忆量化或一维量化) 和向量量化分组量化) 。在标量量化中，预先准备好有限个量化电平值，量化过程中选取最接近输入值的量化电平值，并对该量化电平值的序号进行编码。向量量化多维量化) 则是预先准备好有限个有代表性的量化矢量模型，量化过程中选取与该输入矢量值最相似的量化模型矢量，并对该量化模型矢量的序号进行编码。在希望以比较低的比特率进行量化时，矢量量化是一种有效的方式 2 1 。 2 . 4 视频压缩标准的历史和发展自 -t n r * m a . uit- , 穷的多媒体世界中，用户希望能自由地组合、装配来构造自己满意的系统，这就提出了一个不同厂家产品兼容性问题，因此需要一个全球性的统一国际技术标准。基于不同的应用时期和不同的压缩编码技术，国际标准化组织相继制定了 m p e g 1、mp e g 2、 mp e g 4 , mp e g 7 , mp e g 2 1 , h . 2 6 1 , h .2 6 3 和 h . 2 6 4几个标准。 i - i f: i t z % * 1 a iwt t mzi fi 1 0 7 友展关t , 9 a m j 2 .7 所示。mp e g视频编码技术是在 h .2 6 1 视频编码算法的基础上改进、发展而来的。下面对各个视频压缩标准作个简介。浙江大学硕士学 1 _ 论文 tsonec 1tu-th.261ftmpf.g2ni.262h263h.263 v.1(fl263+)c2r263(fl263)- -fl264 mp e g 4 一酶逾如一 f u t u re c o n b i n e d i s o / l e c a n d i t u - t s t a . 山川1 .l i o n a c t i v i t i e s 图2 . 7 h .2 6 x ( i t l t ) 和mp e g ( i s o / i e c ) 标准 2 . 4 . i h 一 2 6 1 1 2 4 72 . 4 . 1 h . 2 6 1 h .2 6 1 建议是国际电视电话/ 会议电视咨询委员会 ( c c i t t ) 即现在 i t u - t ) 于1 4 8 8 年1 0 月提出了的，其目标是在i s d n ( i n t e g r a t e d s 上以p x 6 4 k b p s p =1 . e r v i c e s d i g i t a l n e t w o r k ) 3 0 的速率开展视频会议和视频电话业务。的码率范围为6 4 k b p s 到1 .s m b p s e h .2 6 1 定义了视频编码算法，主要用了帧内图像、它适用 d c 丁变换、变字长编码等压缩技术，为后来视频压缩标准的发展提供了基础。此外，它还指定了最大编码延迟为1 5 0 m s ，否则会给用户带来视频失真的印象。 h .2 6 1 标准中的算法能够用廉价的y l s i ( 超大规模集成电路)实现，这给视频 ! i .v 知可柳由任沿东的商曲什 # 但了知令 _ 它也存在不足，它不适用于不同信道传输， x 1 0 - 6 ) . 且误码率允许范围小 ( 不大于1 2 . 4 . 2 h . 2 6 3 1 2 h .2 6 3 标准是国际电视电话/ 会议电视咨询委员会于1 9 9 5 年 1 1 主要是针对甚低码率 ( 低于频编码的。法与h .2 6 1 别如下: 6 4 k b p s )的视频会议和可视电话的应用它适用的码率范围为l o k b p : 到月提出的，、f 氏码率视匕道用四消围为l o k b p s 到3 8 4 k b p s o h . 2 6 3 标准的视频编码算相似 ( 如运动补偿和d c t算法) ，与h .2 6 1 相比，h .2 6 3 的主要区浙江大学硕_ l 学士论文 ( 1 ) 提高了运动矢量的精度，采用了半像素精度运动估值; ( 2 ) 宏块 ( 1 6 x 1 6 ) 运动估值和块 ( 8 x 8 ) 运动估值的自适应变换; ( 3 ) 支持s u b - q c i f 格式 ( 1 2 8 x 9 6 )的码流; ( 4 ) 采用了三维( l a s t - r u n - l e v e l ) 而不是二维( r u n - l e v e l ) 游程编码; ( 5 ) 增加了一些可选项，如可选的无限制运动矢量、可选的算术编码、可选的重叠运动补偿和四运动矢量法块的高级预测模式和可选的双向预测。试验表明， h .2 6 3 标准中的测试模型t m n 8 ( t e s t m o d e l 8 ) 在低于6 4 k b p s 码率时， p s n r值比h .2 6 1 提高了3 - 4 d b . h .2 6 3 标准可以作为将来甚低码率编码算法和编码标准性能评估的一个里程碑。但它不适应现有的窄带网络环境上传输视频信息，为此， i t u - t 在1 9 9 8 年1 月通过了h .2 6 3 标准的第二版h .2 6 3 + , 增加了十二个新的高级模式; 2 0 0 0 年1 1 月，又推出了第三版h .2 6 3 + + l3 0 1 ，再次新增3 个高级模式。这些新增模式主要包括:参考帧再采样模式、高级帧内编码模式、交替帧间v l c选择模式、分片结构模式、参考帧选择模式、数据分害 i 模式可分级扩展编码等。 2 . 4 . 3 mp e g 1 lz 5 l m p e g 1 标准是运动图像专家组于1 9 9 2 年1 1 月制定的。 m p e g l 标准包括了m p e g视频, m p e g音频和m p e g系统三部分，它的目标是将数字视频信号和与之相伴的音频信号在一个可以接受的质量下，能被压缩到码率约1 .5 mb i t / s 的一个m p e g单一流，实现视频和音频等多样压缩数据流的复合和同步。它的适用码率范围为0 . 8 m b p s 到1 . 5 m b p s ，是针对存储媒体的视频编码标准，主要应用于v c d , c d - r o m等数字存储介质上的视频和音频压缩。为了满足应用需要，mp e g i 提供了以下特性: ( 1 ) 随机存取: 这意味着存在可随机存取的单元，在质量不下降的前提下，随机存取时间大约可达0 .5 s ; ( 2 ) 快速正向 / i向搜索: 对压缩数据流可进行扫描，利用合适的存取点来显示所选择的图像，以实现正向和逆向快速搜索; ( 3 )逆向重播; ( 4 ) 视听同步; ( 5 ) 容错性。要求编码方案对残存的未被校正的误差有较强的鲁棒性，这样即使在有误差的情况下，也能避免编码失败; ( 6 ) 编码/ 解码延迟。在视频电话的应用中，必须保证系统的延迟时间低于 1 5 0 m s ，以便保证这种面对面进行对话的应用质量要求。传输质量和延迟在一个相当的范围内是可以折中考虑的，因此压缩算法应在可接受的延迟范围内可充分地被执行。 m p e g 1 标准只规定了码流语法和解码过程，用户可以很好地利用这个语法的灵活性来设计非常高质量的编码器和非常低成本的解码器。编码器的设计中浙江大学硕士学_ 二论文一些重要参数，如运动估值、自适应量化和码率控制等可以由用户自由确定。 m p e g 1 标准是在h .2 6 1 视频编码算法的基础上改进并发展的，保留了d c t变换等压缩技术。它改进的主要内容是增加了 b图像帧 ( 双向预测)和图像组 ( g o p )的概念，使其具有更高的压缩比和容错性，同时定义了编码算法中各工具层的语法，使得视频的可操作性更灵活。 2 . 4 .4 mp e g 2 1 2 6 1 m p e g 2标准是运动图像专家组于 1 9 9 4年 1 1 月制定的。它克服并解决了 m p e g 1 不能满足日益增长的多媒体技术、数字电视技术对分辨率和传输率等方面的技术要求。 me p g 2 主要是针对4 -9 m b i t/ s 运动图像及其伴音的编码标准，被广泛应用于存储媒体、会议电视/ 可视电话、数字电视、高清晰度电视、广播、通信、网络等应用领域。它是工业标准d v d的核心标准。 m p e g 2 是m p e g i 的一个超集，它前向兼容m p e g 1 ，并力求满足数字在存储媒体、高清晰度电视等应用领域中对对媒体视频、音频通用编码方法日益增长的新需要。因此， mp e g 2 标准对mp e g 1 作了重要的改进和扩充: ( 1 ) 针对隔行扫描的常规电视图像专门设置了“ 按帧编码” 和“ 按场编码” 两种模式，并对运动补偿作了相应的扩充，使其编码效率显著提高; ( 2 ) 档次和等级的划分是m p e g 2 为适应不同应用而定义各个子集的结果。 “ 档次”是集成后的完整码流的一个子集，而每个 “ 档次”的 “ 等级”则是对编码参数所作出的进一步的限制。 “ 档次/ 等级”是通过确定码流中相应的标题信息及附加信息中的有关参数来给定的，其中一个主要的组合是m p m l c m a in p r o fi l e / m a i n l e v e l ) . m e p g 1 相当于m p l l 。以档次和等级的形式定义规范，为不同的应用领域之间的数据交换提供方便和可行性; (

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）mpeg4视频编码器算法研究及优化.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）mpeg4视频编码器算法研究及优化.pdf

文档简介

温馨提示

最新文档

评论

相关文档