已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)mpeg4编码的算法研究及其在dsp上的优化实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第i 页 摘要 视频图像是人类生活中最重要的信息交流载体,也是所有可能数据中蕴涵 信息量最大的数据类。在此基础上发展起来的视频图像压缩技术经过几十年的 历程,已经由第一代的基于象素的编码技术发展到第二代基于对象的编码技术。 国际标准化组织也制定了一系列编码标准,以规范并且推进图像编码事业的发 展。 在目前的视频编码系统中,由于采用视频编码算法的复杂度较高,运算量 较大,用软件方法一般都难以达到实时性能要求,因此,该类系统多考虑采用 硬件来实现。t i 公司推出的t m s 3 2 0 c 6 0 0 0 系列以其处理能力强、开发工具高度 集成等特点被大多数嵌入式图像压缩系统所采用。 押e g 一4 是基于对象的多媒体视频压缩编码标准,采用第二代编码技术,近 年来,在视频压缩领域得到了极大关注。本文首先对m p e g - 4 视频压缩标准的特 点和新技术进行了简单阐述。然后,详细介绍了m p e g 一4 图像编码中用到的关键 算法:运动估计、d c t 变换、量化、游程编码和h u f f m a n 编码,通过分析提取出 其中比较耗时的算法进行改进。在块匹配时,改进钻石搜索算法,增加零矢量 判断和搜索起点预测,以减少搜索量。在纹理编码中,采用改进的l o e f f l e r 算 法进行一维d c t 快速交换。对m p e g 量化技术也进行了优化,构造出一个可以避 免除法运算的改进的帧内量化矩阵。在v i s u a lc + + 6 0 环境下,实现了一个具 有基本编码功能的软件编码器。最后将程序移植到t m s 3 2 0 c 6 4 1 6d s p 芯片上, 针对d s p 硬件结构,编写线性汇编代码对部分算法做进步优化,并在c c s 集 成开发环境下进行了仿真。 关键字:m p e g - 4 ;运动估计;d c t ;量化:d s p 西南交通大学硕士研究生学位论文第ii 页 a b s t r a c t v i d e oi m a g ei st h em o s ti m p o r t a n ti n f o r m a t i o nc a r r i e rw i t ht h eb i g g e s td a t a q u a n t i t y m o r e o v e r t h ei m a g ec o m p r e s s i o n h a sb e e nd e v d o p e df r o mt h ef i r s t g e n e r a t i o ne n c o d i n gt e c h n o l o g yb a s e do np i x e lt o t h es e c o n dg e n e r a t i o nb a s e do n o b j e c t ,i n o r d e rt os t a n d a r d i z ea n dp r o m o t et h e d e v e l o p m e n t o f i m a g ec o d i n g t e c h n o l o g y ,i s o ( i n t e r n a t i o n a lo r g a n i z a t i o nf o rs t a n d a r d i z a t i o n ) h a sc o n s t i t u t e d a s e r i e so fc o d i n gs t a n d a r d s i nt h ec u r r e n ti m a g ec o d i n gs y s t e m ,t h ei m a g ec o d i n ga l g o r i t h m sa r e v e r y c o m p l e x ,a n di ti si m p o s s i b l et oi m p l e m e n tt h er e a lt i m ec o d i n gu s i n g t h es o f t w a r e , s ot h i sk i n do fs y s t e ma r eu s u a l l yi m p l e m e n t e db yh a r d w a r e t h et m s 3 2 0 c 6 0 0 0 s e r i e so ft ic o m p a n yh a sb e e nu s e di nm a n y i m a g ec o m p r e s s i o ns y s t e m s f o ri t sg o o d p r o c e s s i n gc a p a c i t y a n dt h eh i g h i n t e g r a t i o n m p e g - 4i sa nv i d e oc o d i n gs t a n d a r db a s e do no b j e c t ,u s i n gt h es e c o n d g e n e r a t i o nc o d i n gt e c h n o l o g y f i r s t l y , t h et h e s i st a k e s a no v e r v i e wo ft h es p e c i a l i t i e s a n dn e wt e c h n o l o g i e so fm p e g - 4 s e c o n d l y , t h ek e ye n c o d i n g a l g o r i t h m s i n m p e g 一4 ,i n c l u d i n gm o t i o ne s t i m a t i o n ,d c t , q u a n t i z a t i o n ,r a n - l e n g t he n c o d i n ga n d h u f f m a nc o d i n g , a r ep r e s e n t e d ,a n dt h e nt h ea l g o r i t h m sw h i c hc o n s u m et o om u c h t i m ea r e i m p r o v e d t h i r d l y , i n b l o c km a t c h i n g p a r t ,t h ed s ( d i a m o n ds e a r c h ) a l g o r i t h mi si m p r o v e db yi n c r e a s i n gt h ez e r o - v e c t o rj u d g m e n t a n dt h es t a r t i n gp o i n t p r e d i c t i o n ;i nt e x t u r ec o d i n gp a r t ,t h el o e f f l e ra l g o r i t h m i si m p r o v e d ;i n q u a n t i z a t i o n p a r t ,an e wm a t r i xa v o i d i n gd i v i s i o no p e r a t i o ni sc o n s t r u c t e d m o r e o v e r , t h et h e s i s i m p l e m e n t s as o f t w a r ee n c o d e rw h i c hh a sb a s i c e n c o d i n g f u n c t i o n i nt h e e n v i r o n m e n to f v i s u a lc + + 6 0 f i n a l l y , t h es o f t w a r es y s t e mi sb e e n t r a n s p l a n t e di n t o t m s 3 2 0 c 6 4 1 6d s p c h i pw i t ht h el i n e a ra s s e m b l yc o d e si n s t e a do ft h ec c o d e so f t h ek e ya l g o r i t h m s ,a n dt h ee n c o d e ri ss i m u l a t e di nc c s k e yw o r d :m p e g - 4 :m o t i o ne s t i m a t i o n ;d c t ;q u a n t i z a t i o n ;d s p 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景 第1 章绪论 人类社会已进入信息时代,而信息的本质是要求进行交流和传播。图像是 人类生活中信息交流最为重要的载体,将图像信息数字化,易于存储、传输、 还原。但同时,图像也是所有可能的数据中,蕴含数据量最大的数据类,它所 具有的海量数据性,使得它的存储与传输都存在很大问题。这个问题是多媒体 技术发展中的一个非常棘手的瓶颈问题,依靠单纯扩大存储器容量、增加通信 线路传输率的办法来解决是不现实的。但是在允许图像有少量失真的情况下进 行数据压缩,除去图像中的冗余信息量,不会对图像信息的完整性产生破坏作 用,反而会使存储量减少,传输速度加快,所以研究和开发有效的视频压缩编 码方法具有重要的现实意义。 视频图像压缩编码技术的研究已经过了几十年的历程,视频压缩的原理在 于:消除图像中的冗余信息,包括( i ) 图像的空间冗余:一幅图像中相邻象素 的灰度值基本一致,图像相邻象素之间的关联造成了图像的空间冗余;( 2 ) 视 频图像的时间冗余:由于动态序列图像的相邻帧之间内容变化不大,因此由这 样的相关性产生了时间冗余;( 3 ) 入眼视觉冗余:入是各类图像信息的最终接 受者,人眼的视觉特性使得人眼对某些空间频率感觉迟钝,可以相对消除那些 感觉不太明显的频率信息。视频压缩的目的就是要想办法消除图像中包含的以 上这些冗余信息,使用于传输的视频信息量达到最小,实现高效传递。 1 2 视频压缩技术的发展与研究现状 根据视频压缩的原理,可以将几十年来出现的压缩技术分为两大类。一类 是基于速率失真理论的第一代压缩编码技术。1 9 4 8 年,s h a n n o n 首次提出 了建立信息率一失真函数的概念,并于1 9 5 9 年进一步确立了码率失真理论。以 上工作奠定了经典信息编码的理论基础,并且在此基础上,视频压缩编码理论 开始取得逐步的发展,其主要的编码方法包括:预测编码、变化编码和统计编 西南交通大学硕士研究生学位论文 第2 页 码,( 合称三大经典编码方法) 。预测编码的基本原理是:根据图像的时间冗余 特性得到当前图像象熏的预测值,然后传输图像象素与其预测值的差值信号, 使传输的信息量减少,达到压缩目的。变换编码的基本原理是:根据视频图像 存在空间冗余的特性,通过某种变化来消除这种空间相关性。变换编码不是对 象素进行编码,而是将其由空域变换到频域,得到一组变化系数,并且使得能 量相对集中,再经过量化消除那些人眼并不敏感的高频信息,达到压缩目的。 统计编码的基本原理:根据信息码字出现的概率大小,设计码字的长度,使得 表征信息的编码长度达到最短。这类编码技术主要还是面向象素的一种技术, 旨在消除图像数据中的线性相关性,而没有充分考虑信息最终的接受者人的主 观视觉特性。 针对第一代编码技术的不足,k u n t 等人于1 9 8 5 年提出了第二代编码技术。 这类技术充分利用人眼的视觉特性和图像信息源的各种特征来进行编码。根据 人眼对物体轮廓比对物体内部细节敏感的特点,利用内容( 对象) 来表示图像, 而不再是单纯的象素。并且对象是按轮廓信息将某一特定图像分割成的若千区 域,每一区域可以看成一个整体,其内部细节具有相同的特性( 灰度信息、纹 理信息、运动速度、运动矢量等) 。然后对这些分割的小区域再分别进行编码。 这类编码技术整体比第一代编码技术要有效的多,目前正处于研究、发展中。 国际标准化组织( i s o ) 也十分重视视频压缩标准的研究,于1 9 8 6 年成立 了运动图像压缩编码组织卿e g ( m o v i n gp i c t u r ee x p e r tg r o u p ) ,致力于制定 运动图像的压缩编码标准。1 9 9 1 年为电视数字图像存储而制定了比特率范围为 l 1 5 m b p s 的 4 p e g 一1 标准;在1 9 9 3 年又公布了通用视频图像压缩编码标准 m p e g - 2 ,能在很宽的范围内对不同分辨率和传输比特率的图像信息进行有效编 码,这两个标准都是为了多媒体数据压缩和存储而制定的,为v c d 、d v d 及数字 电视和高清晰电视等产业的飞速发展奠定了坚实的基础;于1 9 9 9 年正式公布了 m p e g 一4 标准,m p e g - 4 在前两个标准的基础上显示出在低比特率环境下进行视频 传输的极大优势,比特率范围扩大到5 k t p s l o m b p s ,并且增加了交互式视频的 应用,引入面向视频对象的编码概念,是基于第二代编码技术的视音频压缩标 准。另一个国际化组织i t u ( 前国际电报电话咨询委员会c c i t t ) 也制定了面向通 信的h 2 6 1 h 2 5 3 、 5 2 6 4 等视频压缩标准。 标准的制定极大地推动了图像编码技术的实用化和产业化,同时,图像编 码技术产业化进程也更加加速了图像编码技术的研究和发展,目前对编码技术 的研究和改进主要从以下几个方面入手: ( 1 )对标准中的开放部分进行改进,可以便压缩图像的质量获得进一步提 西南交通大学硕士研究生学位论文 第3 页 高。 ( 2 )对图像编码理论和其他编码方法进行研究,有效结合人眼的视觉特 性,开发出更加有效的编码技术。目前提出和正在研究的编码方法主 要包括:基于多分辨率的编码技术,基于模型的编码技术和基于人工 神经网络的编码技术。 ( 3 )开发出性能更高的专用图像处理芯片,降低开发难度,提高可靠性。 使软件上无法实现的限时图像数据压缩传输,在硬件上能够有效实 现。这在国内尚属不成熟的技术,具有较大的研究前景。 1 。3 数字信号处理器的发展 数字信号处理器( 以下简称d s p 芯片) 是一种专门用于数字信号处理的微 处理器,是继微处理器( m p u ) 、微控制器( m c u ) 之后出现的第三次飞速发展的 微电子技术的结晶,是高性能数字系统的核心。d s p 芯片可以实时地对大批量数 据进行数字技术处理,从而十分广泛的应用在数字通信、图像处理和多媒体技 术等不允许时间延迟的领域,成为全球百分之七十数字电话的心脏,同时d s p 芯片在网络领域中也有广泛的应用。 自从2 0 世纪7 0 年代末第一片数字信号处理器芯片( d i g i t a ls i g n a l p r o c e s s o r s ,d s p s ) 问世以来,d s p s 就以数字器件特有的稳定性、可重复性、 可大规模集成,特别是可编程性高和易于实现自适应处理等特点,获得了长足 的发展。近年来,随着半导体工艺的发展和计算机体系结构等方面的改进,d s p s 芯片的功能越来越强大,可以使开发人员将开发重点重新放回到软件算法的研 究上,不再像过去那样过多地考虑硬件可实现性。而且随着d s p s 运算能力的不 断提高,能够实时处理的信号带宽也大大增加,数字信号处理的研究重点也由 最初的非实时应用转向高速实时应用。 通用的高性能数字信号处理芯片( d s p ) 近年来在图像处理和视频压缩方 面显示出其高度的优越性。如公司生产的1 m s 3 2 0 c 6 0 0 0 系列芯片,m o t o r o l a 公司的m c 9 6 0 0 2 系列,都是面向实时的信号处理芯片,它们具有运算速度很高 的核心部件。其中,t i 公司的t m s 3 2 0 c 6 0 0 0 系列是基于超长指令字结构的通 用d s p s 系列,包括定点的c 6 2 x x 、浮点的c 6 7 x x 以及新的c 6 4 x x 内核。其中 2 0 0 0 年3 月发布的c 6 4 x x 内核,主频达到1 ,1 g i - i z ,处理速度接近9 0 0 0 m i p s , 总体性能比c 6 2 x x 提高了1 0 1 5 倍。其中,c 6 4 1 6 在6 0 0 m h z 的主频下,只利 用5 0 的运算能力就可以同时进行单通道m p e g 4 视频编码、单通道m p e g 4 视频解码的处理,获得2 0 0 2 年3 月美国e d n 杂志的“1 9 9 7 年度创新大奖”。【1 d 】 西南交通大学硕士研究生学位论文第4 页 并且,t i 公司为其产品开发了汇编语言和c 语言代码产生工具以及各种软 硬件调试工具,使得d s p s 的开发难度大大降低,是目前最受欢迎的数字信号处 理芯片。对于进行软件开发的程序员来说,上手容易,开发难度降低,因此, 本文选用t m s 3 2 0 c 6 4 1 6 作为硬件移植环境。 1 4 研究内容及论文主要工作安排 本文的主要研究目的是:充分研究m p e g - 4 标准的关键编码技术,包括运动 估计、运动补偿、离散余弦变换( d c t ) 、量化、预测编码等。并采用标准c 语 言在p c 机上实现软件编码器,在v i s u a lc + + 6 0 中编译通过。并且为了提高编 码速度,研究了 ! p e g - 4 编码器在t m s 3 2 0 c 6 4 1 6 上的移植,针对d s p 芯片的硬件 结构特点,对d c t 、量化进行改进,研究适合在6 4 1 6 上运行的快速算法。最终 达到在d s p 上实现一个编码效率较高,编码质量较好的视频编码器。本文章节 安排如下: 第一章绪论,概述了图像压缩的必要性和图像压缩编码研究的现状。 第二章对m p e g 一4 标准采用的图像格式、视频结构和功能特点进行简单介 绍: 第三章对m p e g 一4 编码用到的主要技术进行了深入研究,包括形状信息、运 动信息、纹理信息等的编码。 第四章中,提取出对编码性能影响较大的算法模块作出改进,并且在v i s u a l c 十+ 6 0 上调试通过,实现了一个具有基本编码功能的软件编码器。 第五章介绍了在t m s 3 2 0 c 6 4 1 6 芯片上,针对硬件结构对代码进行进一步优 化,以提高编码器的整体性能。 西南交通大学硕士研究生学位论文第5 页 第2 章m p e g - 4 视频压缩编码基础内容 第一代编码技术主要是采用基于象素的编码方法,以8 8 或1 6 1 6 象素 块为基本单位进行编码,只考虑图像数据中存在的相关性,并竭力消除这些空 间、时间上的冗余数据。并没有考虑人眼对边界轮廓信息较为敏感的视觉特性, 这是第一代编码技术存在的不足。随着关于对人类视觉心理、生理特性的研究 取得了长足进步,k u n t 于1 9 8 5 年正式提出利用人眼视觉特性的第二代编码技 术,根据视觉敏感性( 从轮廓信息、纹理思路出发) 来分割图像数据,即按图 像内容来划分编码区域的方法,是目前视频压缩编码领域最为活跃的研究点。 m p e g 工作组于1 9 9 3 年开始讨论m p e g 4 标准,初衷是研究极低比特率下的 编码方法,并定名为音一视频对象的编码技术。但是,当时传统的基于象素块 的d c t 变换和运动补偿技术的编码方法已经使视频压缩达到极限,而当今世界 越来越多的视听信息源要求数字化交换,为了适应多媒体数据压缩技术的这一 发展趋势,1 9 9 4 年7 月m p e g 会议决定将m p e g - 4 标准转向致力于为多媒体的数 据压缩提供一个更为广阔的平台。 不同于以前的运动视频标准,m p e g 一4 提出了将不同的数据信息作为独立的 对象进行压缩编码的构思,以期取得进一步的压缩比,并且由此衍生出以对象 为基础的编码方法。并且,m p e g 一4 不再定义具体的压缩算法,而是更多地定义 一种格式和框架,为实际开发者提供了自由的开发空问。m p e g - 4 编码系统完全 开放,可以随时加入各种新的算法模块。1 9 9 9 年2 月m p e g - 4 第一版正式面世, 1 9 9 9 年底m p e g 一4 第二版宣告完成,子2 0 0 0 年初成为国际正式标准。目前, i p e g - 4 在可视电话、视频会议等应用中得到了迅速的发展,在实际应用中m p e g 一4 标准 也逐步走向实用化。 2 1 m p e g - 4 标准的特点 m p e g 一4 标准具有m p e g 一1 、m p e g 一2 标准的大部分功能:对不同的视频源格 式( c i f q c i f y u v ) 、不同码率的视频图像进行编码,还具有以下的特点: ( 1 ) m p e g - 4 标准的编码是基于对象的,这样就便于操作和控制对象,而 传统的压缩方法是基于象素的,是无法操作对象的。由于传输带宽的 ( 2 ) ( 3 ) 西南交通大学硕士研究生学位论文第6 页 限制,必须对压缩比进行控制,这个因素会直接影响图像的压缩质量。 过去在比特率低时,整帧图像的质量都要受到影响,没有灵活性可言, 而m p e g - 4 可以控制比特率,在低带宽时,利用码率分配方案,为用 户感兴趣的对象多分配一些比特率,对用户不太感兴趣或者不太敏感 的区域可以少分配一些比特率,这样可以保证在视觉接受的范围内图 像的主观质量不受太大影响。 m p e g 一4 的面向对象的操作,可以使用户在用户端对各种不同对象进 行合成,不同于传统方法中的只能对自然图像进行操作。 m p e g 一4 可以灵活地进行时域和空域的扩展。m p e g 一2 中的这特点并 不突出,但是在m p e g 一4 中,可以根据传输带宽客观条件和误码率的 要求,在时域和空域上进行扩展。时域扩展是指在带宽允许时可以在 图像基本层之上的增强层中再增加帧率,加强主要对象的编码效果, 在带宽较窄时在基本层中减少帧率。空域扩展是指对基本层中的图像 进行采样插值,根据带宽的大小进行图像空间分辨率的增加或减少。 通过扩展,可以充分利用带宽,使图像质量达到更好。 2 2m p e g - 4 的视频格式 2 2 1 颜色空间 颜色空间( c o l o rs p a c e ) 是指用来表示亮度和颜色的方法。有2 种颜色空 间:r g b 、y c b c r 。r g b 空间是指每个采样点的颜色用3 个数值表示:r e d ,g r e e n , b l u e 。y c b c r 空间是指用亮度、色度分开来表示图像信息。 h v s ( 人类视觉系统) 对亮度( l u m a ,l u m i n a n c e ) 的敏感度远远大于对色 度( c h r o m a ,c h r o m i n a n c e ) 的敏感度,而在r g b 空间中,亮度和色度都被同 等重要地表现出来,没有考率人类视觉系统,所以在视频编码中一般采用y c b c r 空间。 在r g b 空间中,y 表示亮度( 1 u m a ) ,可通过下式算出: y = k r r + k g g + k b b( 2 - 1 ) 其中r ,g ,b 是r g b 空间的3 个值,k r ,k g ,k b 是对应的加权值,并且k r + k g + k b = 1 。根据h v s ,i t u - r 推荐k b = 0 1 1 4 ,k r = 0 2 9 9 。 西南交通大学硕士研究生学位论文第7 页 在y c b c r 空间,c r ,c g ,c b 表示色度,可以由下式算出: c b = b y c r = r y c g = g y 这样一个采样点的颜色值可以用r g b 空间表示,也可用y c b c r 空间表示,并 且可以相互转换。 2 2 2m p e g 4 的图像格式 m p e g 一4 采用y c b c r 空间的目的是按照h v s 的敏感度,区别对待亮度值和色度 值,减少对敏感度低的色度值的编码传输。 m p e g 一4 中图像的采样格式为4 :2 :0 ,即每采样四个亮度信号值( y ) ,就 同时采样2 个色度信号值( c r 和c b ) ,表示色度元素( c b 一- u ,c r v ) 在垂直 方向和水平方向上均是亮度元素( y ) 比例的一半。 i00 :00oo 旧。 曩0 。害 。0y 叭一删n p l 0 0 0 。 o o : oo n 。 一ic b , e l u n p l o ooo 回国 ooo ooo q ooo oooooo qq oo00oo 图2 - 14 :2 :0 图像采样格式 在m p e g 一4 中定义了几种主要的图像格式: c i f ( 3 5 2 2 8 8 ) 、q c i f ( 1 7 6 1 4 4 ) 、s i f ( 3 5 2 * 2 4 0 ) 等。 西南交通大学硕士研究生学位论文第8 页 2 3m p e g - 4 视频流的数据结构 为了实现m p e g 一4 的高压缩比、基于内容交互和扩展,必然要求m p e g 一4 要 以基于内容的方式表示视频数据,因此引入了v o ( v i d e oo b j e c t ) 的概念来实现 基于内容的表示i “。v o 可以是像m p e g 一1 、m p e g 一2 中的矩形帧一样,也可以是场 景中的某一物体或某一层面,例如新闻节目中解说员的头肩像,也可以是计算 机合成的二维、三维图形等。m p e g 一4 中,v 0 主要指从画面中分割出来的不同物 体,每个v o 要由三类信息来描述:形状信息、运动信息、纹理信息。 ( 1 ) 视觉对象序列( v i s u a lo b j e c ts e q u e n c e ) :是m p e g - 4 视频流的最高语 法结构。一个视觉对象序列由视觉对象序列起始码开始,后跟一个或多 个视觉对象,并由视觉对象结束码标注结束。是一个完整的m p e g 一4 视频 场景,可以包括任何自然的或人工合成的对象。 ( 2 ) 视频对象( v i d e oo b j e c t ,v o ) :一个视频对象对应场景中的一个任意 形状的特定对象。一般简例中,可以将视频对象简化为一个矩形帧。视 频对象由视频对象起始码标注开始,后跟一个或多个视频对象层。是用 户可以访问和处理的实体。 ( 3 ) 视频对象层( v o l ) ;视频对象层提供对分级编码的支持,当应用要求视 频层分为基础层和增强层,以便利用空域和时域的伸缩扩展性进行进一 步编码时,用视频对象层来表征。 ( 4 ) 视频对象平面( v o p ) :某一帧的v o 就是v o p ,即v o 由时间上连续的许多帧 组成,每一帧是一个v o p ,v o 以某一刻v o p 的形式出现,编码就是针对该 时刻的v o p 形状、运动、纹理信息进行的。v o p 可以单独编码,即i v o p 帧;也可以根据前面的v o p 利用运动估计、补偿技术来编码,即p v o p 帧;还可以通过前后v o p 帧进行双向运动估计、补偿技术来编码,即b v o p 帧。图2 2 简要说明了v o p 帧的分类及预测方式。 西南交通大学硕士研究生学位论文第9 页 图2 - 2 视频编码帧结构 图2 - 3 中,对以上介绍的m p e g 一4 视频流的数据结构给出其逻辑上的关联。 v i s u a lo b j e c ts e q u e n c e v i s u a l v s o v s l 严弋 一穴v o i 二 o b j e c t l a y e r 丹穴二二_ v i s u a lo b j e c tp l a n e v o p ov o p l v o p ov o p l lii 】 图2 - 3m p e g - 4 视频流的逻辑结构图【6 】 2 4m p e g 一4 的主要编码结构 2 4 1 形状信息编码 在m p e g 一4 中,引入形状信息编码,并且是首次将其纳入完整的视频编码标 准内。编码的形状信息分为两类:二值形状信息、灰度级形状信息。 二值形状信息就是用0 、1 的方式表示编码的v o p 的形状。t 表示v o p 形状 西南交通大学硕士研究生学位论文一 第1 0 页 区域,0 表示非v o p 区域。灰度级形状信息用0 2 5 5 来表示,类似于图形学中 的q 平面,其中0 表示非v o p 区域( 即透明区域) ,i 2 5 5 表示透明程度不同的 v o p 区域,2 5 5 表示完全不透明。灰度级形状信息的引入主要是为了使前景物体 叠加到背景上时不会使边界太明显,进行一下“模糊”处理。 在m p e g 一4 中对v o p 用一个长、宽均为1 6 的整数倍的最小边框( b o u n i d n g b o x ) 框住,框内分成许多1 6 1 6 的宏块,这样就将v o p 用一个边框矩阵表示, 取值0 2 5 5 ( 或0 、i ) ,对v o p 的形状信息编码就变为对边框矩阵的编码。图 2 4 是形状信息编码的示意图: 2 4 2 运动信息编码 图2 - 4 形状信息编码示意图 m p e g 一4 的运动编码主要是通过运动估计和运动补偿消除图像中的冗余信 息,同m p e g l 、m p e g - 2 标准中定义的三种帧格式i 一帧、p 一帧、b 一帧一样,m p e g 一4 中也定义了三种相应帧格式:i v o p 、p - v o p 、b - v o p ,分别表示不用预测帧、 进行前向运动补偿、进行双向运动补偿获得的v o p 。 v o p 也像形状编码一样,外加边框,框内分为1 6 1 6 的宏块,宏块内又分 为8 8 的块,进行运动估计和补偿可以是基于宏块的,也可以基于块进行。为 了适应任意形状的不规则v o p 区域,在m p e g 一4 中引入了图像填充技术和块匹配 技术。图像填充技术是根据v o p 内部的象素值来外推v o p 外部的象素值,以便 作为参考帧时,可能用到这些v o p 外部的象素来进行运动估计。多边形匹配技 西南交通大学硕士研究生学位论文第n 页 术主要是根据匹配准则,在采用填充技术填充过的重构v o p 中,为当前v o p 的 边缘宏块寻找最佳匹配宏块,来增加运动估计的有效性。 然后,只将当前宏块与寻找到的最佳匹配块的运动偏移( 运动矢量) 和匹 配误差信息( 残差) 进行传输,进行运动补偿时,将此运动矢量和残差信息与 重构的预测帧进行相加,就得到当前帧的重构帧,这一过程大大缩减了信息的 传输量,达到有效压缩的目的。 2 4 3 纹理编码 为了消除图像空间信息的冗余性,对于帧内编码的v o p ( i v o p ) 或帧间编 码的v o p ( b - v o p p - v o p ) 进行运动补偿后的残差信息再次采用8 8 的d c t 来进行 编码。帧内编码是针对独立的v o p 进行,对完全属于v o p 内的区域采用经典d c t 来编码;对属于v o p 边缘的宏块区域首先使用填充技术进行填充,再进行d c t 编码;对于帧间编码模式,对经过运动补偿后的残差进行编码,可将v o p 形状 之外的块用1 2 8 填充。经过填充、变换后的d c t 系数还要对其进行量化、扫描、 熵编码。 对以上所介绍的主要编码功能的算法及实现将在以后的章节中做详细介 绍。 西南交通大学硕士研究生学位论文第1 2 页 第3 章m p e g - 4 视频压缩编码的关键技术与算法 3 1m p e g 4 编码基本流程 图像压缩编码的流程图如下 图3 - 1 视频编码流程框架 m p e g 一4 的基于对象的视频编码可以分以下3 部分进行: ( 】) 从原始视频流中采用全自动、半自动、人工等方法分割出视频对象。 ( 2 ) 对于输入的任意形状的v o p 序列,要采用基于1 6 x1 6 象素宏块的混合 编码技术进行编码。首先要对i v o p 进行编码,然后是p - v o p 和b - v o p 。 首先对v o p 进行形状信息编码,取得任意形状v o p 的采样;然后将每个v o p 都划分成互不相交的1 6 x1 6 宏块,再将宏块分为4 个8 x 8 的块进行运动估计、 运动补偿,纹理编码;已编码的帧保存在帧存储器中,作为编码其它帧的预测 帧,在当前v o p 帧和已编码的预测v o p 帧之间计算出宏块的运动矢量( 即运动 偏移) 和运动补偿的残差;对进行运动补偿预测后的i v o p 帧和之前计算出的 残差进行8 8 块的d c t 变换,对变换后的d c t 系数进行量化,以及可变长编码 和熵编码。 ( 3 ) 将每个视频对象( v o p ) 的形状、运动、纹理信息再复合成为v o l 比特 西南交通大学硕士研究生学位论文、第1 3 页 流输出。 在编码过程中应该注意:对不同视频对象的形状、运动、纹理信息应分配 不同的码字。 3 2 视频对象提取技术 m p e g - 4 的视频编码是以任意形状的v o p 为单位进行的,所以在对v o p 进 行编码之前,要提取出独立的v o p 信息,然后针对不同对象采用相应编码方法, 以实现压缩。所以,用于提取视频对象的技术及视频对象分割技术,是m p e g - 4 的关键技术之一,也是新一代编码技术的研究热点和难点。但是在标准中没有 规定生成v o p 的具体算法,这是因为v o p 的提取具有很强的主观性,没有统一 的提取尺度,因此在国际上也缺乏有效统一的提取方法,而且还处在不断的公 开研究当中。 目前v o p 的提取主要提出了全自动、半自动、人工方案。全自动方案的提 取过程自动进行,不需人工干预。这种技术要求在完全熟悉v o p 的某种特性、 当前提取的v o p 能与图像的其他区域清楚分开的情况下才可以进行。但是由于 具有这种特性的v o p 很少存在,所以这种技术的适用性不强,几乎没有实用价 值。半自动方案加入了人工操作,通过人的输入确定初始帧v o p 的范围,利用 一些算法获得初始帧的v o p ,并在后继帧中自动跟踪此v o p 的运动和变化。这类 方法一般都是根据v o p 的边缘轮廓、特征分析得来的,并且提取的v o p 也较为 准确,可以用予运动视频对象的提取,也适用于静态视频的对象提取。但是这 种技术方案的缺点是人的工作量较大,无法实时进行。人工方案是用人工方法 将视频对象标记出来,然后对具有意义的视频对象进行跟踪提取。 由于视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、 模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善,计 算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表 明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此,尽管 m p e g 一4 框架已经制定,但至今仍没有通用的有效方法去根本解决视频对象分割 问题,视频对象分割被认为是一个具有挑战性的难题,基于语义的分割则更加 困难。所以,在目前的m p e g 一4 编码机制中,采用一些轮廓跟踪分析技术,将v 0 p 提取出来,再将图像进行1 6 1 6 宏块的分割,演变成以1 6 x 1 6 的象素宏块为 基本单位的编码技术,( 标准的矩形帧可以看作是v o p 的特例) 。这样做的目的, 西南交通大学硕士研究生学位论文第1 4 页 不仅可以和现有的面向象素的编码标准兼容,还便于对面向对象( 内容) 的编 码技术进行很好扩展。 由于对象提取技术作为一个专门课题进行研究的难度较大,且不太成熟, 在本文只作以上简单介绍,不进行深入探讨。 3 3 运动信息编码技术 我们说图像序列在时间上具有相关性,是指相邻的两帧图像之间,一般在 内容上变化不大,出现较多的重复内容。这样在进行压缩传输的时候,就没有 必要将这些重复信息也进行传输。这也就给我们的图像压缩技术提供了一种压 缩思路:消除图像之间的时间冗余性。如何消除图像的空间冗余性,主要用到 的技术是运动估计和运动补偿。即在对当前帧进行预测时,可以使用一定的搜 索算法估计当前帧中的某一宏块是由前一预测帧的相应宏块经过一定偏移得到 的,这样我们把前一帧的相应宏块上的象素值作为当前宏块的预测值。并且通 过将估计中的残差( 误差) 作为运动补偿,在解码端用参考帧加上运动矢量和 残差,就得到恢复的预测图像,这样使得预测值尽量接近真实,且降低码率提 高了压缩比。m p e g - 4 采用i - v o p 、p - v o p 、b - v o p 三种帧格式来表征不同的运动 补偿类型。同时引入填充( r e p e t i t i v ep a d d i n g ) 技术和块( 多边形) 匹配 ( m o d i f i e db l o c k p o l y g o nm a t c h i n g ) 技术以支持任意形状的v o p 区域 3 3 1 图像填充技术 在前面一章中,我们提到为了以后的运动估计的需要,要对在“界框”( 矩 形框) 之内、v o p 之外的区域进行填充,然后对矩形框外、运动矢量搜索范围之 内的点再进行重复填充。第一步填充是水平填充,水平填充是根据到该边缘象 素点的左端最邻近象素点的合法灰度值( i 2 5 5 ) 或右端最邻近象素点的合法 灰度值来填充。如果左右都有合适的灰度值点,则取两个灰度值的平均值,如 果右边有合适的点则取右边点的灰度值为填充值,否则就取左边合适点的灰度 值进行填充。水平填充后剩下的仍为透明的象素部分由垂直填充来完成,和水 平填充相似,也是根据上下邻近点的灰度值来填充。第二步是重复填充,就是 取最邻近点的灰度值填充。 以下分别是进行水平填充和垂直填充的图示: 西南交通大学硕士研究生学位论文第1 5 页 图3 - 2 水平填充示意图图3 - 3 垂直填充示意图1 3 3 2 运动估计技术 我们知道,进行运动估计就是采用一定的算法在参考帧中找到当前帧的某 一宏块的最佳匹配位置,做为预测宏块,计算这两个宏块之间的位最偏移作为 宏块的运动矢量。( 我们将每一宏块都看成一个整体,假定其内部象素点具有相 同的运动矢量。) 计算出两个宏块之间的误差( 残差) 作为运动补偿进行传输。 这里的搜索技术主要有以下两种:象素递归算法和多边形匹配算法。 3 3 2 1 象素递归算法 象素递归算法( p e l r e c u r s i v ea l g o r i t h m ,即p r a ) 是指通过对图像灰度值 的梯度变化来求象素的位移。p r a 算法是以象索点为搜索单位进行的,因此对物 体的运动情况表征比较准确,估计出的运动偏移值也较高,如果画面运动比较 复杂的话,使用p r a 具有较好的实用性。p r a 算法的缺点是:跟踪的运动偏移范 围较小,基于象素的搜索使得它的运算量相当大,实现起来运算代价太大,所 以已经被实用化程度较高的多边形匹配算法逐步取代。 3 3 2 2 多边形匹配算法 多边形匹配算法即块匹配算法( b l o c km a t c h i n ga l g o r i t h m ,b m a ) ,是指通 过在参考帧和当前被预测帧之间进行宏块的匹配来进行运动估计。首先将每个 v o p 都分割成m n 的象素宏块( 一般m - - - - - n ) ,每个宏块通常看作一个整体,只 西南交通大学硕士研究生学位论文第1 6 页 需要计算一个运动矢量( 州) 。并且块匹配主要是利用v o p 的形状信息进行的, 对宏块中是v o p 内部的点才计算,对v o p 外部的区域不予考虑。进行运动估计 时,首先在参考帧中预先确定一个搜索区域s ,当前被预测的宏块b 在此搜索区 域内进行块匹配运算。 假设d 为某一个时间间隔内最大可能的水平、垂直偏移量。则搜索区域大 小设为s 。 s = ( m + 2 d ) ( n + 2 d )( 3 - 1 ) 当前帧 中块 图3 4 宏块运动估计示意图 由 配块 问题的关键在于如何在参考帧的搜索区域s 内找到当前块b 的最佳匹配位 置( 预测块的位置) ? 所以在块匹配算法中,重点研究块匹配准则及搜索方法。 ( 1 ) 匹配准则: 常用的块匹配准则有以下2 种: 绝对误差和( s u mo fa b s o l u t ed i f f e r e n c e ,s a d ) 准则:求帧间宏块 的亮度差的绝对值的均值。 洲“卜赤再孙似州吨m “州,i ( 3 - 2 ) ( o 。s f ,j 宣d ,) 西南交通大学硕士研究生学位论文 第1 7 页 均方误差( m e a ns q u a r ee r r o r ,m s e ) 准则:求两帧之间亮度的均方 差值。 m s e ( i 。高荟荟限) - b k 1 “,i ) l 2 ( 3 - 3 ) ( - d ,s i ,s d 。) 研究结果表明,匹配判别准则的不同对运动矢量的估计的精度影响不 大,并且s a d 准则中不含有乘法和除法运算,以实现简单的优点成为最常用 的块匹配判别准则。选取了判别准则后,就要寻找最优的搜索算法进行块匹 配的搜索工作。 ( 2 ) 搜索算法 传统的块匹配算法主要包括全搜索算法、二维对数搜索算法、三步搜索 算法、钻石搜索算法等 全搜索算法( f s ) 全搜索算法主要的特点是:对搜索区域s 内的所有象素点都进行搜索, 做块匹配计算,搜索方式可以从上到下、从左到右、以坐标( 0 ,0 ) 点为 中心螺旋搜索。全搜索算法的搜索区域全面,搜索精度较高,但是搜索计 算量高达( 2 s + 1 ) 2 ,因此导致不被广泛使用,此处s 表示宏块在水平或垂直 方向上的的最大偏移量。此后,在全搜索算法的基础上又有人研究出了以 下很多快速搜索算法。 二维对数搜索算法( t d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年可互换扳手套筒行业发展现状及未来趋势研究分析报告
- 2025-2030中国小分子药物筛选行业发展动态与投资风险评估报告
- 鄂尔多斯市公费师范生招聘真题2025
- 2025至2030中国临床试验用品行业项目调研及市场前景预测评估报告
- 2025-2030中国动力电池正极材料技术路线选择与成本分析报告
- 烟草河北公司招聘考试真题2025
- 合肥市卫生健康委直属事业单位招聘真题2024
- 邯郸安全员c证考试题库及答案解析
- 证券从业资格考试考拉及答案解析
- 2025年必修版内科学考试题库(含答案)
- 排污许可现场检查课件
- 叉车吊车安全培训内容课件
- 2025年民航西藏监管局招聘笔试备考题库及参考答案详解
- 220kV输电线路改造工程设计与施工方案
- 电厂燃料部面试题及答案
- 小学生新能源汽车
- 企业级管理信息系统架构设计与实现案例分析
- 分散特困监护协议书范本
- 2025成都农商银行社会招聘(综合柜员)模拟试卷及答案详解一套
- ESG基础知识培训课件
- 足球队管理规章制度与队员行为准则
评论
0/150
提交评论