（计算机应用技术专业论文）mpeg4编码的算法研究及其在dsp上的优化实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：74 大小：1.91MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）mpeg4编码的算法研究及其在dsp上的优化实现.pdf_第2页

（计算机应用技术专业论文）mpeg4编码的算法研究及其在dsp上的优化实现.pdf_第3页

（计算机应用技术专业论文）mpeg4编码的算法研究及其在dsp上的优化实现.pdf_第4页

（计算机应用技术专业论文）mpeg4编码的算法研究及其在dsp上的优化实现.pdf_第5页

已阅读5页，还剩69页未读，继续免费阅读

（计算机应用技术专业论文）mpeg4编码的算法研究及其在dsp上的优化实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第i 页摘要视频图像是人类生活中最重要的信息交流载体，也是所有可能数据中蕴涵信息量最大的数据类。在此基础上发展起来的视频图像压缩技术经过几十年的历程，已经由第一代的基于象素的编码技术发展到第二代基于对象的编码技术。国际标准化组织也制定了一系列编码标准，以规范并且推进图像编码事业的发展。在目前的视频编码系统中，由于采用视频编码算法的复杂度较高，运算量较大，用软件方法一般都难以达到实时性能要求，因此，该类系统多考虑采用硬件来实现。t i 公司推出的t m s 3 2 0 c 6 0 0 0 系列以其处理能力强、开发工具高度集成等特点被大多数嵌入式图像压缩系统所采用。押e g 一4 是基于对象的多媒体视频压缩编码标准，采用第二代编码技术，近年来，在视频压缩领域得到了极大关注。本文首先对m p e g - 4 视频压缩标准的特点和新技术进行了简单阐述。然后，详细介绍了m p e g 一4 图像编码中用到的关键算法：运动估计、d c t 变换、量化、游程编码和h u f f m a n 编码，通过分析提取出其中比较耗时的算法进行改进。在块匹配时，改进钻石搜索算法，增加零矢量判断和搜索起点预测，以减少搜索量。在纹理编码中，采用改进的l o e f f l e r 算法进行一维d c t 快速交换。对m p e g 量化技术也进行了优化，构造出一个可以避免除法运算的改进的帧内量化矩阵。在v i s u a lc + + 6 0 环境下，实现了一个具有基本编码功能的软件编码器。最后将程序移植到t m s 3 2 0 c 6 4 1 6d s p 芯片上，针对d s p 硬件结构，编写线性汇编代码对部分算法做进步优化，并在c c s 集成开发环境下进行了仿真。关键字：m p e g - 4 ；运动估计；d c t ；量化：d s p 西南交通大学硕士研究生学位论文第ii 页 a b s t r a c t v i d e oi m a g ei st h em o s ti m p o r t a n ti n f o r m a t i o nc a r r i e rw i t ht h eb i g g e s td a t a q u a n t i t y m o r e o v e r t h ei m a g ec o m p r e s s i o n h a sb e e nd e v d o p e df r o mt h ef i r s t g e n e r a t i o ne n c o d i n gt e c h n o l o g yb a s e do np i x e lt o t h es e c o n dg e n e r a t i o nb a s e do n o b j e c t ，i n o r d e rt os t a n d a r d i z ea n dp r o m o t et h e d e v e l o p m e n t o f i m a g ec o d i n g t e c h n o l o g y ，i s o ( i n t e r n a t i o n a lo r g a n i z a t i o nf o rs t a n d a r d i z a t i o n ) h a sc o n s t i t u t e d a s e r i e so fc o d i n gs t a n d a r d s i nt h ec u r r e n ti m a g ec o d i n gs y s t e m ，t h ei m a g ec o d i n ga l g o r i t h m sa r e v e r y c o m p l e x ，a n di ti si m p o s s i b l et oi m p l e m e n tt h er e a lt i m ec o d i n gu s i n g t h es o f t w a r e ， s ot h i sk i n do fs y s t e ma r eu s u a l l yi m p l e m e n t e db yh a r d w a r e t h et m s 3 2 0 c 6 0 0 0 s e r i e so ft ic o m p a n yh a sb e e nu s e di nm a n y i m a g ec o m p r e s s i o ns y s t e m s f o ri t sg o o d p r o c e s s i n gc a p a c i t y a n dt h eh i g h i n t e g r a t i o n m p e g - 4i sa nv i d e oc o d i n gs t a n d a r db a s e do no b j e c t ，u s i n gt h es e c o n d g e n e r a t i o nc o d i n gt e c h n o l o g y f i r s t l y , t h et h e s i st a k e s a no v e r v i e wo ft h es p e c i a l i t i e s a n dn e wt e c h n o l o g i e so fm p e g - 4 s e c o n d l y , t h ek e ye n c o d i n g a l g o r i t h m s i n m p e g 一4 ，i n c l u d i n gm o t i o ne s t i m a t i o n ，d c t , q u a n t i z a t i o n ，r a n - l e n g t he n c o d i n ga n d h u f f m a nc o d i n g , a r ep r e s e n t e d ，a n dt h e nt h ea l g o r i t h m sw h i c hc o n s u m et o om u c h t i m ea r e i m p r o v e d t h i r d l y , i n b l o c km a t c h i n g p a r t ，t h ed s ( d i a m o n ds e a r c h ) a l g o r i t h mi si m p r o v e db yi n c r e a s i n gt h ez e r o - v e c t o rj u d g m e n t a n dt h es t a r t i n gp o i n t p r e d i c t i o n ；i nt e x t u r ec o d i n gp a r t ，t h el o e f f l e ra l g o r i t h m i si m p r o v e d ；i n q u a n t i z a t i o n p a r t ，an e wm a t r i xa v o i d i n gd i v i s i o no p e r a t i o ni sc o n s t r u c t e d m o r e o v e r , t h et h e s i s i m p l e m e n t s as o f t w a r ee n c o d e rw h i c hh a sb a s i c e n c o d i n g f u n c t i o n i nt h e e n v i r o n m e n to f v i s u a lc + + 6 0 f i n a l l y , t h es o f t w a r es y s t e mi sb e e n t r a n s p l a n t e di n t o t m s 3 2 0 c 6 4 1 6d s p c h i pw i t ht h el i n e a ra s s e m b l yc o d e si n s t e a do ft h ec c o d e so f t h ek e ya l g o r i t h m s ，a n dt h ee n c o d e ri ss i m u l a t e di nc c s k e yw o r d ：m p e g - 4 ：m o t i o ne s t i m a t i o n ；d c t ；q u a n t i z a t i o n ；d s p 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景第1 章绪论人类社会已进入信息时代，而信息的本质是要求进行交流和传播。图像是人类生活中信息交流最为重要的载体，将图像信息数字化，易于存储、传输、还原。但同时，图像也是所有可能的数据中，蕴含数据量最大的数据类，它所具有的海量数据性，使得它的存储与传输都存在很大问题。这个问题是多媒体技术发展中的一个非常棘手的瓶颈问题，依靠单纯扩大存储器容量、增加通信线路传输率的办法来解决是不现实的。但是在允许图像有少量失真的情况下进行数据压缩，除去图像中的冗余信息量，不会对图像信息的完整性产生破坏作用，反而会使存储量减少，传输速度加快，所以研究和开发有效的视频压缩编码方法具有重要的现实意义。视频图像压缩编码技术的研究已经过了几十年的历程，视频压缩的原理在于：消除图像中的冗余信息，包括( i ) 图像的空间冗余：一幅图像中相邻象素的灰度值基本一致，图像相邻象素之间的关联造成了图像的空间冗余；( 2 ) 视频图像的时间冗余：由于动态序列图像的相邻帧之间内容变化不大，因此由这样的相关性产生了时间冗余；( 3 ) 入眼视觉冗余：入是各类图像信息的最终接受者，人眼的视觉特性使得人眼对某些空间频率感觉迟钝，可以相对消除那些感觉不太明显的频率信息。视频压缩的目的就是要想办法消除图像中包含的以上这些冗余信息，使用于传输的视频信息量达到最小，实现高效传递。 1 2 视频压缩技术的发展与研究现状根据视频压缩的原理，可以将几十年来出现的压缩技术分为两大类。一类是基于速率失真理论的第一代压缩编码技术。1 9 4 8 年，s h a n n o n 首次提出了建立信息率一失真函数的概念，并于1 9 5 9 年进一步确立了码率失真理论。以上工作奠定了经典信息编码的理论基础，并且在此基础上，视频压缩编码理论开始取得逐步的发展，其主要的编码方法包括：预测编码、变化编码和统计编西南交通大学硕士研究生学位论文第2 页码，( 合称三大经典编码方法) 。预测编码的基本原理是：根据图像的时间冗余特性得到当前图像象熏的预测值，然后传输图像象素与其预测值的差值信号，使传输的信息量减少，达到压缩目的。变换编码的基本原理是：根据视频图像存在空间冗余的特性，通过某种变化来消除这种空间相关性。变换编码不是对象素进行编码，而是将其由空域变换到频域，得到一组变化系数，并且使得能量相对集中，再经过量化消除那些人眼并不敏感的高频信息，达到压缩目的。统计编码的基本原理：根据信息码字出现的概率大小，设计码字的长度，使得表征信息的编码长度达到最短。这类编码技术主要还是面向象素的一种技术，旨在消除图像数据中的线性相关性，而没有充分考虑信息最终的接受者人的主观视觉特性。针对第一代编码技术的不足，k u n t 等人于1 9 8 5 年提出了第二代编码技术。这类技术充分利用人眼的视觉特性和图像信息源的各种特征来进行编码。根据人眼对物体轮廓比对物体内部细节敏感的特点，利用内容( 对象) 来表示图像，而不再是单纯的象素。并且对象是按轮廓信息将某一特定图像分割成的若千区域，每一区域可以看成一个整体，其内部细节具有相同的特性( 灰度信息、纹理信息、运动速度、运动矢量等) 。然后对这些分割的小区域再分别进行编码。这类编码技术整体比第一代编码技术要有效的多，目前正处于研究、发展中。国际标准化组织( i s o ) 也十分重视视频压缩标准的研究，于1 9 8 6 年成立了运动图像压缩编码组织卿e g ( m o v i n gp i c t u r ee x p e r tg r o u p ) ，致力于制定运动图像的压缩编码标准。1 9 9 1 年为电视数字图像存储而制定了比特率范围为 l 1 5 m b p s 的 4 p e g 一1 标准；在1 9 9 3 年又公布了通用视频图像压缩编码标准 m p e g - 2 ，能在很宽的范围内对不同分辨率和传输比特率的图像信息进行有效编码，这两个标准都是为了多媒体数据压缩和存储而制定的，为v c d 、d v d 及数字电视和高清晰电视等产业的飞速发展奠定了坚实的基础；于1 9 9 9 年正式公布了 m p e g 一4 标准，m p e g - 4 在前两个标准的基础上显示出在低比特率环境下进行视频传输的极大优势，比特率范围扩大到5 k t p s l o m b p s ，并且增加了交互式视频的应用，引入面向视频对象的编码概念，是基于第二代编码技术的视音频压缩标准。另一个国际化组织i t u ( 前国际电报电话咨询委员会c c i t t ) 也制定了面向通信的h 2 6 1 h 2 5 3 、 5 2 6 4 等视频压缩标准。标准的制定极大地推动了图像编码技术的实用化和产业化，同时，图像编码技术产业化进程也更加加速了图像编码技术的研究和发展，目前对编码技术的研究和改进主要从以下几个方面入手： ( 1 )对标准中的开放部分进行改进，可以便压缩图像的质量获得进一步提西南交通大学硕士研究生学位论文第3 页高。 ( 2 )对图像编码理论和其他编码方法进行研究，有效结合人眼的视觉特性，开发出更加有效的编码技术。目前提出和正在研究的编码方法主要包括：基于多分辨率的编码技术，基于模型的编码技术和基于人工神经网络的编码技术。 ( 3 )开发出性能更高的专用图像处理芯片，降低开发难度，提高可靠性。使软件上无法实现的限时图像数据压缩传输，在硬件上能够有效实现。这在国内尚属不成熟的技术，具有较大的研究前景。 1 。3 数字信号处理器的发展数字信号处理器( 以下简称d s p 芯片) 是一种专门用于数字信号处理的微处理器，是继微处理器( m p u ) 、微控制器( m c u ) 之后出现的第三次飞速发展的微电子技术的结晶，是高性能数字系统的核心。d s p 芯片可以实时地对大批量数据进行数字技术处理，从而十分广泛的应用在数字通信、图像处理和多媒体技术等不允许时间延迟的领域，成为全球百分之七十数字电话的心脏，同时d s p 芯片在网络领域中也有广泛的应用。自从2 0 世纪7 0 年代末第一片数字信号处理器芯片( d i g i t a ls i g n a l p r o c e s s o r s ，d s p s ) 问世以来，d s p s 就以数字器件特有的稳定性、可重复性、可大规模集成，特别是可编程性高和易于实现自适应处理等特点，获得了长足的发展。近年来，随着半导体工艺的发展和计算机体系结构等方面的改进，d s p s 芯片的功能越来越强大，可以使开发人员将开发重点重新放回到软件算法的研究上，不再像过去那样过多地考虑硬件可实现性。而且随着d s p s 运算能力的不断提高，能够实时处理的信号带宽也大大增加，数字信号处理的研究重点也由最初的非实时应用转向高速实时应用。通用的高性能数字信号处理芯片( d s p ) 近年来在图像处理和视频压缩方面显示出其高度的优越性。如公司生产的1 m s 3 2 0 c 6 0 0 0 系列芯片，m o t o r o l a 公司的m c 9 6 0 0 2 系列，都是面向实时的信号处理芯片，它们具有运算速度很高的核心部件。其中，t i 公司的t m s 3 2 0 c 6 0 0 0 系列是基于超长指令字结构的通用d s p s 系列，包括定点的c 6 2 x x 、浮点的c 6 7 x x 以及新的c 6 4 x x 内核。其中 2 0 0 0 年3 月发布的c 6 4 x x 内核，主频达到1 ，1 g i - i z ，处理速度接近9 0 0 0 m i p s ，总体性能比c 6 2 x x 提高了1 0 1 5 倍。其中，c 6 4 1 6 在6 0 0 m h z 的主频下，只利用5 0 的运算能力就可以同时进行单通道m p e g 4 视频编码、单通道m p e g 4 视频解码的处理，获得2 0 0 2 年3 月美国e d n 杂志的“1 9 9 7 年度创新大奖”。【1 d 】西南交通大学硕士研究生学位论文第4 页并且，t i 公司为其产品开发了汇编语言和c 语言代码产生工具以及各种软硬件调试工具，使得d s p s 的开发难度大大降低，是目前最受欢迎的数字信号处理芯片。对于进行软件开发的程序员来说，上手容易，开发难度降低，因此，本文选用t m s 3 2 0 c 6 4 1 6 作为硬件移植环境。 1 4 研究内容及论文主要工作安排本文的主要研究目的是：充分研究m p e g - 4 标准的关键编码技术，包括运动估计、运动补偿、离散余弦变换( d c t ) 、量化、预测编码等。并采用标准c 语言在p c 机上实现软件编码器，在v i s u a lc + + 6 0 中编译通过。并且为了提高编码速度，研究了 ! p e g - 4 编码器在t m s 3 2 0 c 6 4 1 6 上的移植，针对d s p 芯片的硬件结构特点，对d c t 、量化进行改进，研究适合在6 4 1 6 上运行的快速算法。最终达到在d s p 上实现一个编码效率较高，编码质量较好的视频编码器。本文章节安排如下：第一章绪论，概述了图像压缩的必要性和图像压缩编码研究的现状。第二章对m p e g 一4 标准采用的图像格式、视频结构和功能特点进行简单介绍：第三章对m p e g 一4 编码用到的主要技术进行了深入研究，包括形状信息、运动信息、纹理信息等的编码。第四章中，提取出对编码性能影响较大的算法模块作出改进，并且在v i s u a l c 十+ 6 0 上调试通过，实现了一个具有基本编码功能的软件编码器。第五章介绍了在t m s 3 2 0 c 6 4 1 6 芯片上，针对硬件结构对代码进行进一步优化，以提高编码器的整体性能。西南交通大学硕士研究生学位论文第5 页第2 章m p e g - 4 视频压缩编码基础内容第一代编码技术主要是采用基于象素的编码方法，以8 8 或1 6 1 6 象素块为基本单位进行编码，只考虑图像数据中存在的相关性，并竭力消除这些空间、时间上的冗余数据。并没有考虑人眼对边界轮廓信息较为敏感的视觉特性，这是第一代编码技术存在的不足。随着关于对人类视觉心理、生理特性的研究取得了长足进步，k u n t 于1 9 8 5 年正式提出利用人眼视觉特性的第二代编码技术，根据视觉敏感性( 从轮廓信息、纹理思路出发) 来分割图像数据，即按图像内容来划分编码区域的方法，是目前视频压缩编码领域最为活跃的研究点。 m p e g 工作组于1 9 9 3 年开始讨论m p e g 4 标准，初衷是研究极低比特率下的编码方法，并定名为音一视频对象的编码技术。但是，当时传统的基于象素块的d c t 变换和运动补偿技术的编码方法已经使视频压缩达到极限，而当今世界越来越多的视听信息源要求数字化交换，为了适应多媒体数据压缩技术的这一发展趋势，1 9 9 4 年7 月m p e g 会议决定将m p e g - 4 标准转向致力于为多媒体的数据压缩提供一个更为广阔的平台。不同于以前的运动视频标准，m p e g 一4 提出了将不同的数据信息作为独立的对象进行压缩编码的构思，以期取得进一步的压缩比，并且由此衍生出以对象为基础的编码方法。并且，m p e g 一4 不再定义具体的压缩算法，而是更多地定义一种格式和框架，为实际开发者提供了自由的开发空问。m p e g - 4 编码系统完全开放，可以随时加入各种新的算法模块。1 9 9 9 年2 月m p e g - 4 第一版正式面世， 1 9 9 9 年底m p e g 一4 第二版宣告完成，子2 0 0 0 年初成为国际正式标准。目前， i p e g - 4 在可视电话、视频会议等应用中得到了迅速的发展，在实际应用中m p e g 一4 标准也逐步走向实用化。 2 1 m p e g - 4 标准的特点 m p e g 一4 标准具有m p e g 一1 、m p e g 一2 标准的大部分功能：对不同的视频源格式( c i f q c i f y u v ) 、不同码率的视频图像进行编码，还具有以下的特点： ( 1 ) m p e g - 4 标准的编码是基于对象的，这样就便于操作和控制对象，而传统的压缩方法是基于象素的，是无法操作对象的。由于传输带宽的 ( 2 ) ( 3 ) 西南交通大学硕士研究生学位论文第6 页限制，必须对压缩比进行控制，这个因素会直接影响图像的压缩质量。过去在比特率低时，整帧图像的质量都要受到影响，没有灵活性可言，而m p e g - 4 可以控制比特率，在低带宽时，利用码率分配方案，为用户感兴趣的对象多分配一些比特率，对用户不太感兴趣或者不太敏感的区域可以少分配一些比特率，这样可以保证在视觉接受的范围内图像的主观质量不受太大影响。 m p e g 一4 的面向对象的操作，可以使用户在用户端对各种不同对象进行合成，不同于传统方法中的只能对自然图像进行操作。 m p e g 一4 可以灵活地进行时域和空域的扩展。m p e g 一2 中的这特点并不突出，但是在m p e g 一4 中，可以根据传输带宽客观条件和误码率的要求，在时域和空域上进行扩展。时域扩展是指在带宽允许时可以在图像基本层之上的增强层中再增加帧率，加强主要对象的编码效果，在带宽较窄时在基本层中减少帧率。空域扩展是指对基本层中的图像进行采样插值，根据带宽的大小进行图像空间分辨率的增加或减少。通过扩展，可以充分利用带宽，使图像质量达到更好。 2 2m p e g - 4 的视频格式 2 2 1 颜色空间颜色空间( c o l o rs p a c e ) 是指用来表示亮度和颜色的方法。有2 种颜色空间：r g b 、y c b c r 。r g b 空间是指每个采样点的颜色用3 个数值表示：r e d ，g r e e n ， b l u e 。y c b c r 空间是指用亮度、色度分开来表示图像信息。 h v s ( 人类视觉系统) 对亮度( l u m a ，l u m i n a n c e ) 的敏感度远远大于对色度( c h r o m a ，c h r o m i n a n c e ) 的敏感度，而在r g b 空间中，亮度和色度都被同等重要地表现出来，没有考率人类视觉系统，所以在视频编码中一般采用y c b c r 空间。在r g b 空间中，y 表示亮度( 1 u m a ) ，可通过下式算出： y = k r r + k g g + k b b( 2 - 1 ) 其中r ，g ，b 是r g b 空间的3 个值，k r ，k g ，k b 是对应的加权值，并且k r + k g + k b = 1 。根据h v s ，i t u - r 推荐k b = 0 1 1 4 ，k r = 0 2 9 9 。西南交通大学硕士研究生学位论文第7 页在y c b c r 空间，c r ，c g ，c b 表示色度，可以由下式算出： c b = b y c r = r y c g = g y 这样一个采样点的颜色值可以用r g b 空间表示，也可用y c b c r 空间表示，并且可以相互转换。 2 2 2m p e g 4 的图像格式 m p e g 一4 采用y c b c r 空间的目的是按照h v s 的敏感度，区别对待亮度值和色度值，减少对敏感度低的色度值的编码传输。 m p e g 一4 中图像的采样格式为4 ：2 ：0 ，即每采样四个亮度信号值( y ) ，就同时采样2 个色度信号值( c r 和c b ) ，表示色度元素( c b 一- u ，c r v ) 在垂直方向和水平方向上均是亮度元素( y ) 比例的一半。 i00 ：00oo 旧。曩0 。害。0y 叭一删n p l 0 0 0 。 o o ： oo n 。一ic b , e l u n p l o ooo 回国 ooo ooo q ooo oooooo qq oo00oo 图2 - 14 ：2 ：0 图像采样格式在m p e g 一4 中定义了几种主要的图像格式： c i f ( 3 5 2 2 8 8 ) 、q c i f ( 1 7 6 1 4 4 ) 、s i f ( 3 5 2 * 2 4 0 ) 等。西南交通大学硕士研究生学位论文第8 页 2 3m p e g - 4 视频流的数据结构为了实现m p e g 一4 的高压缩比、基于内容交互和扩展，必然要求m p e g 一4 要以基于内容的方式表示视频数据，因此引入了v o ( v i d e oo b j e c t ) 的概念来实现基于内容的表示i “。v o 可以是像m p e g 一1 、m p e g 一2 中的矩形帧一样，也可以是场景中的某一物体或某一层面，例如新闻节目中解说员的头肩像，也可以是计算机合成的二维、三维图形等。m p e g 一4 中，v 0 主要指从画面中分割出来的不同物体，每个v o 要由三类信息来描述：形状信息、运动信息、纹理信息。 ( 1 ) 视觉对象序列( v i s u a lo b j e c ts e q u e n c e ) ：是m p e g - 4 视频流的最高语法结构。一个视觉对象序列由视觉对象序列起始码开始，后跟一个或多个视觉对象，并由视觉对象结束码标注结束。是一个完整的m p e g 一4 视频场景，可以包括任何自然的或人工合成的对象。 ( 2 ) 视频对象( v i d e oo b j e c t ，v o ) ：一个视频对象对应场景中的一个任意形状的特定对象。一般简例中，可以将视频对象简化为一个矩形帧。视频对象由视频对象起始码标注开始，后跟一个或多个视频对象层。是用户可以访问和处理的实体。 ( 3 ) 视频对象层( v o l ) ；视频对象层提供对分级编码的支持，当应用要求视频层分为基础层和增强层，以便利用空域和时域的伸缩扩展性进行进一步编码时，用视频对象层来表征。 ( 4 ) 视频对象平面( v o p ) ：某一帧的v o 就是v o p ，即v o 由时间上连续的许多帧组成，每一帧是一个v o p ，v o 以某一刻v o p 的形式出现，编码就是针对该时刻的v o p 形状、运动、纹理信息进行的。v o p 可以单独编码，即i v o p 帧；也可以根据前面的v o p 利用运动估计、补偿技术来编码，即p v o p 帧；还可以通过前后v o p 帧进行双向运动估计、补偿技术来编码，即b v o p 帧。图2 2 简要说明了v o p 帧的分类及预测方式。西南交通大学硕士研究生学位论文第9 页图2 - 2 视频编码帧结构图2 - 3 中，对以上介绍的m p e g 一4 视频流的数据结构给出其逻辑上的关联。 v i s u a lo b j e c ts e q u e n c e v i s u a l v s o v s l 严弋一穴v o i 二 o b j e c t l a y e r 丹穴二二_ v i s u a lo b j e c tp l a n e v o p ov o p l v o p ov o p l lii 】图2 - 3m p e g - 4 视频流的逻辑结构图【6 】 2 4m p e g 一4 的主要编码结构 2 4 1 形状信息编码在m p e g 一4 中，引入形状信息编码，并且是首次将其纳入完整的视频编码标准内。编码的形状信息分为两类：二值形状信息、灰度级形状信息。二值形状信息就是用0 、1 的方式表示编码的v o p 的形状。t 表示v o p 形状西南交通大学硕士研究生学位论文一第1 0 页区域，0 表示非v o p 区域。灰度级形状信息用0 2 5 5 来表示，类似于图形学中的q 平面，其中0 表示非v o p 区域( 即透明区域) ，i 2 5 5 表示透明程度不同的 v o p 区域，2 5 5 表示完全不透明。灰度级形状信息的引入主要是为了使前景物体叠加到背景上时不会使边界太明显，进行一下“模糊”处理。在m p e g 一4 中对v o p 用一个长、宽均为1 6 的整数倍的最小边框( b o u n i d n g b o x ) 框住，框内分成许多1 6 1 6 的宏块，这样就将v o p 用一个边框矩阵表示，取值0 2 5 5 ( 或0 、i ) ，对v o p 的形状信息编码就变为对边框矩阵的编码。图 2 4 是形状信息编码的示意图： 2 4 2 运动信息编码图2 - 4 形状信息编码示意图 m p e g 一4 的运动编码主要是通过运动估计和运动补偿消除图像中的冗余信息，同m p e g l 、m p e g - 2 标准中定义的三种帧格式i 一帧、p 一帧、b 一帧一样，m p e g 一4 中也定义了三种相应帧格式：i v o p 、p - v o p 、b - v o p ，分别表示不用预测帧、进行前向运动补偿、进行双向运动补偿获得的v o p 。 v o p 也像形状编码一样，外加边框，框内分为1 6 1 6 的宏块，宏块内又分为8 8 的块，进行运动估计和补偿可以是基于宏块的，也可以基于块进行。为了适应任意形状的不规则v o p 区域，在m p e g 一4 中引入了图像填充技术和块匹配技术。图像填充技术是根据v o p 内部的象素值来外推v o p 外部的象素值，以便作为参考帧时，可能用到这些v o p 外部的象素来进行运动估计。多边形匹配技西南交通大学硕士研究生学位论文第n 页术主要是根据匹配准则，在采用填充技术填充过的重构v o p 中，为当前v o p 的边缘宏块寻找最佳匹配宏块，来增加运动估计的有效性。然后，只将当前宏块与寻找到的最佳匹配块的运动偏移( 运动矢量) 和匹配误差信息( 残差) 进行传输，进行运动补偿时，将此运动矢量和残差信息与重构的预测帧进行相加，就得到当前帧的重构帧，这一过程大大缩减了信息的传输量，达到有效压缩的目的。 2 4 3 纹理编码为了消除图像空间信息的冗余性，对于帧内编码的v o p ( i v o p ) 或帧间编码的v o p ( b - v o p p - v o p ) 进行运动补偿后的残差信息再次采用8 8 的d c t 来进行编码。帧内编码是针对独立的v o p 进行，对完全属于v o p 内的区域采用经典d c t 来编码；对属于v o p 边缘的宏块区域首先使用填充技术进行填充，再进行d c t 编码；对于帧间编码模式，对经过运动补偿后的残差进行编码，可将v o p 形状之外的块用1 2 8 填充。经过填充、变换后的d c t 系数还要对其进行量化、扫描、熵编码。对以上所介绍的主要编码功能的算法及实现将在以后的章节中做详细介绍。西南交通大学硕士研究生学位论文第1 2 页第3 章m p e g - 4 视频压缩编码的关键技术与算法 3 1m p e g 4 编码基本流程图像压缩编码的流程图如下图3 - 1 视频编码流程框架 m p e g 一4 的基于对象的视频编码可以分以下3 部分进行： ( 】) 从原始视频流中采用全自动、半自动、人工等方法分割出视频对象。 ( 2 ) 对于输入的任意形状的v o p 序列，要采用基于1 6 x1 6 象素宏块的混合编码技术进行编码。首先要对i v o p 进行编码，然后是p - v o p 和b - v o p 。首先对v o p 进行形状信息编码，取得任意形状v o p 的采样；然后将每个v o p 都划分成互不相交的1 6 x1 6 宏块，再将宏块分为4 个8 x 8 的块进行运动估计、运动补偿，纹理编码；已编码的帧保存在帧存储器中，作为编码其它帧的预测帧，在当前v o p 帧和已编码的预测v o p 帧之间计算出宏块的运动矢量( 即运动偏移) 和运动补偿的残差；对进行运动补偿预测后的i v o p 帧和之前计算出的残差进行8 8 块的d c t 变换，对变换后的d c t 系数进行量化，以及可变长编码和熵编码。 ( 3 ) 将每个视频对象( v o p ) 的形状、运动、纹理信息再复合成为v o l 比特西南交通大学硕士研究生学位论文、第1 3 页流输出。在编码过程中应该注意：对不同视频对象的形状、运动、纹理信息应分配不同的码字。 3 2 视频对象提取技术 m p e g - 4 的视频编码是以任意形状的v o p 为单位进行的，所以在对v o p 进行编码之前，要提取出独立的v o p 信息，然后针对不同对象采用相应编码方法，以实现压缩。所以，用于提取视频对象的技术及视频对象分割技术，是m p e g - 4 的关键技术之一，也是新一代编码技术的研究热点和难点。但是在标准中没有规定生成v o p 的具体算法，这是因为v o p 的提取具有很强的主观性，没有统一的提取尺度，因此在国际上也缺乏有效统一的提取方法，而且还处在不断的公开研究当中。目前v o p 的提取主要提出了全自动、半自动、人工方案。全自动方案的提取过程自动进行，不需人工干预。这种技术要求在完全熟悉v o p 的某种特性、当前提取的v o p 能与图像的其他区域清楚分开的情况下才可以进行。但是由于具有这种特性的v o p 很少存在，所以这种技术的适用性不强，几乎没有实用价值。半自动方案加入了人工操作，通过人的输入确定初始帧v o p 的范围，利用一些算法获得初始帧的v o p ，并在后继帧中自动跟踪此v o p 的运动和变化。这类方法一般都是根据v o p 的边缘轮廓、特征分析得来的，并且提取的v o p 也较为准确，可以用予运动视频对象的提取，也适用于静态视频的对象提取。但是这种技术方案的缺点是人的工作量较大，无法实时进行。人工方案是用人工方法将视频对象标记出来，然后对具有意义的视频对象进行跟踪提取。由于视频对象分割涉及对视频内容的分析和理解，这与人工智能、图像理解、模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善，计算机还不具有观察、识别、理解图像的能力；同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此，尽管 m p e g 一4 框架已经制定，但至今仍没有通用的有效方法去根本解决视频对象分割问题，视频对象分割被认为是一个具有挑战性的难题，基于语义的分割则更加困难。所以，在目前的m p e g 一4 编码机制中，采用一些轮廓跟踪分析技术，将v 0 p 提取出来，再将图像进行1 6 1 6 宏块的分割，演变成以1 6 x 1 6 的象素宏块为基本单位的编码技术，( 标准的矩形帧可以看作是v o p 的特例) 。这样做的目的，西南交通大学硕士研究生学位论文第1 4 页不仅可以和现有的面向象素的编码标准兼容，还便于对面向对象( 内容) 的编码技术进行很好扩展。由于对象提取技术作为一个专门课题进行研究的难度较大，且不太成熟，在本文只作以上简单介绍，不进行深入探讨。 3 3 运动信息编码技术我们说图像序列在时间上具有相关性，是指相邻的两帧图像之间，一般在内容上变化不大，出现较多的重复内容。这样在进行压缩传输的时候，就没有必要将这些重复信息也进行传输。这也就给我们的图像压缩技术提供了一种压缩思路：消除图像之间的时间冗余性。如何消除图像的空间冗余性，主要用到的技术是运动估计和运动补偿。即在对当前帧进行预测时，可以使用一定的搜索算法估计当前帧中的某一宏块是由前一预测帧的相应宏块经过一定偏移得到的，这样我们把前一帧的相应宏块上的象素值作为当前宏块的预测值。并且通过将估计中的残差( 误差) 作为运动补偿，在解码端用参考帧加上运动矢量和残差，就得到恢复的预测图像，这样使得预测值尽量接近真实，且降低码率提高了压缩比。m p e g - 4 采用i - v o p 、p - v o p 、b - v o p 三种帧格式来表征不同的运动补偿类型。同时引入填充( r e p e t i t i v ep a d d i n g ) 技术和块( 多边形) 匹配 ( m o d i f i e db l o c k p o l y g o nm a t c h i n g ) 技术以支持任意形状的v o p 区域 3 3 1 图像填充技术在前面一章中，我们提到为了以后的运动估计的需要，要对在“界框”( 矩形框) 之内、v o p 之外的区域进行填充，然后对矩形框外、运动矢量搜索范围之内的点再进行重复填充。第一步填充是水平填充，水平填充是根据到该边缘象素点的左端最邻近象素点的合法灰度值( i 2 5 5 ) 或右端最邻近象素点的合法灰度值来填充。如果左右都有合适的灰度值点，则取两个灰度值的平均值，如果右边有合适的点则取右边点的灰度值为填充值，否则就取左边合适点的灰度值进行填充。水平填充后剩下的仍为透明的象素部分由垂直填充来完成，和水平填充相似，也是根据上下邻近点的灰度值来填充。第二步是重复填充，就是取最邻近点的灰度值填充。以下分别是进行水平填充和垂直填充的图示：西南交通大学硕士研究生学位论文第1 5 页图3 - 2 水平填充示意图图3 - 3 垂直填充示意图1 3 3 2 运动估计技术我们知道，进行运动估计就是采用一定的算法在参考帧中找到当前帧的某一宏块的最佳匹配位置，做为预测宏块，计算这两个宏块之间的位最偏移作为宏块的运动矢量。( 我们将每一宏块都看成一个整体，假定其内部象素点具有相同的运动矢量。) 计算出两个宏块之间的误差( 残差) 作为运动补偿进行传输。这里的搜索技术主要有以下两种：象素递归算法和多边形匹配算法。 3 3 2 1 象素递归算法象素递归算法( p e l r e c u r s i v ea l g o r i t h m ，即p r a ) 是指通过对图像灰度值的梯度变化来求象素的位移。p r a 算法是以象索点为搜索单位进行的，因此对物体的运动情况表征比较准确，估计出的运动偏移值也较高，如果画面运动比较复杂的话，使用p r a 具有较好的实用性。p r a 算法的缺点是：跟踪的运动偏移范围较小，基于象素的搜索使得它的运算量相当大，实现起来运算代价太大，所以已经被实用化程度较高的多边形匹配算法逐步取代。 3 3 2 2 多边形匹配算法多边形匹配算法即块匹配算法( b l o c km a t c h i n ga l g o r i t h m ，b m a ) ，是指通过在参考帧和当前被预测帧之间进行宏块的匹配来进行运动估计。首先将每个 v o p 都分割成m n 的象素宏块( 一般m - - - - - n ) ，每个宏块通常看作一个整体，只西南交通大学硕士研究生学位论文第1 6 页需要计算一个运动矢量( 州) 。并且块匹配主要是利用v o p 的形状信息进行的，对宏块中是v o p 内部的点才计算，对v o p 外部的区域不予考虑。进行运动估计时，首先在参考帧中预先确定一个搜索区域s ，当前被预测的宏块b 在此搜索区域内进行块匹配运算。假设d 为某一个时间间隔内最大可能的水平、垂直偏移量。则搜索区域大小设为s 。 s = ( m + 2 d ) ( n + 2 d )( 3 - 1 ) 当前帧中块图3 4 宏块运动估计示意图由配块问题的关键在于如何在参考帧的搜索区域s 内找到当前块b 的最佳匹配位置( 预测块的位置) ? 所以在块匹配算法中，重点研究块匹配准则及搜索方法。 ( 1 ) 匹配准则：常用的块匹配准则有以下2 种：绝对误差和( s u mo fa b s o l u t ed i f f e r e n c e ，s a d ) 准则：求帧间宏块的亮度差的绝对值的均值。洲“卜赤再孙似州吨m “州，i ( 3 - 2 ) ( o 。s f ，j 宣d ，) 西南交通大学硕士研究生学位论文第1 7 页均方误差( m e a ns q u a r ee r r o r ，m s e ) 准则：求两帧之间亮度的均方差值。 m s e ( i 。高荟荟限) - b k 1 “，i ) l 2 ( 3 - 3 ) ( - d ，s i ，s d 。) 研究结果表明，匹配判别准则的不同对运动矢量的估计的精度影响不大，并且s a d 准则中不含有乘法和除法运算，以实现简单的优点成为最常用的块匹配判别准则。选取了判别准则后，就要寻找最优的搜索算法进行块匹配的搜索工作。 ( 2 ) 搜索算法传统的块匹配算法主要包括全搜索算法、二维对数搜索算法、三步搜索算法、钻石搜索算法等全搜索算法( f s ) 全搜索算法主要的特点是：对搜索区域s 内的所有象素点都进行搜索，做块匹配计算，搜索方式可以从上到下、从左到右、以坐标( 0 ，0 ) 点为中心螺旋搜索。全搜索算法的搜索区域全面，搜索精度较高，但是搜索计算量高达( 2 s + 1 ) 2 ，因此导致不被广泛使用，此处s 表示宏块在水平或垂直方向上的的最大偏移量。此后，在全搜索算法的基础上又有人研究出了以下很多快速搜索算法。二维对数搜索算法( t d

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）mpeg4编码的算法研究及其在dsp上的优化实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）mpeg4编码的算法研究及其在dsp上的优化实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档