(计算机应用技术专业论文)基于小波和数学形态学的视频编码.pdf_第1页
(计算机应用技术专业论文)基于小波和数学形态学的视频编码.pdf_第2页
(计算机应用技术专业论文)基于小波和数学形态学的视频编码.pdf_第3页
(计算机应用技术专业论文)基于小波和数学形态学的视频编码.pdf_第4页
(计算机应用技术专业论文)基于小波和数学形态学的视频编码.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机应用技术专业论文)基于小波和数学形态学的视频编码.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京航空航天大学硕士学位论文 摘要 目前,许多实用的图像编码算法都是基于空间域的运动估计和 补偿、预测误差的d c t 及量化以及变换系数的熵编码的混合编码方 法,但是基于d c t 的算法有其固有的缺点,即方块效应和“飞蚊噪 声”,尤其在低速率下更是如此而这无法适应带宽比较低的情况下的 视频传输。而小波变换具有良好的空间一一频率局域化等特性,非 常适合描述非平稳图像信号。同时由于基于小波图像分解后各子带 中重要系数的“聚类”特性,利用数学形态学中的膨胀算子直接对各 子带的重要系数进行检测、提取和编码,可弥补小波编码的不足,并 且降低运算的复杂度,可取得了很好的编码效果。 本文在介绍了视频编码基本原理的基础上,重点研究了基于小 波的视频编码系统的工作原理和基于数学形态学的小波编码,总结 了小波图像编码的经典算法以及存在的问题,提出了一种基于小波 和形态学的视频编码的改进算法。我们将视频编码系统分成帧内编 码和帧间编码两大模块:对于帧内编码,我们增加了感觉量化,提 出一种以小波零树编码和m r w d 编码为基础的改进小波编码,并且采 用定点方式实现算术编码:对于帧间编码我们首先对宏块作一次小 波变换,然后对变换后的低频子带进行运动估计,再将估计的运动矢 量推广到相应的高频子带,采用全搜索和半像素精度的双线性内插 估计相结合的搜索策略,对于运动估计后的残差图像,用小波变换 进行整幅残差图像的压缩编码。 通过编码实现、计算机仿真,表明基于小波和形态学的改进的 视频图像编解码系统无论从编码效率,还是从解码后的图像主观质 量比基于空间域的编解码系统都有了一定程度的提高。 关键词:视频编码小波变换嵌入式零树小波数学形态学图像压 缩 基于小波和数学形态学的视频编码 a b s t r a c t r e c e n t l y ,m a n ya p p l i e di m a g ec o d i n ga l g o r i t h m sa r em i x e dc o d i n g m e t h o d sb a s e do nt h es p a t i a lm o t i o ne s t i m a t i o na n dc o m p e n s a t i o n ,t h e d c ta n da u a n t i f i c a t i o no fd i s p l a c e df r a m ed i f f e r e n c ea n d e n t r o p y c o d i n g b u t t h e a l g o r i t h m s b a s e do nd c th a v et h e i ri n h e r e n t d i s a d v a n t a g e t h a t i s “b l o c k i n ge f f e c t 。a n d m o s q u i t o n o i s e :t h e q u a l i t y o ft h er e s t o r e d i m a g e s ism u c hw o r s ea tl o wb i tr a t e ,s ot h e a l g o r i t h m si s n ts u i t a b l ef o rt h es i t u a t i o no f l o wb a n d h a v i n gt h eg o o d c h a r a c t e r i s t i c so ft e m p o r a l f r e q u e n c yl o c a l i z a t i o na n ds oo n ,w a v e l e t t r a n s f o r mi s v e r y s u i t a b l ef o r d e s c r i b i n gn o n s t a t i o n a r ys i g n a l a n d b e c a u s et h e s i g n i f i c a n t c o e f f i c i e n t sw i t h i ne a c hs u b b a n dh a v e c l u s t e r i n g c h a r a c t e r i s t i c sa f t e rw a v e l e tt r a n s f o r m ,w eu s et h e m o r p h o l o g i c a l d i l a t i o n o p e r a t o r t o p r e d i c t ,e x t r a c t a n dc o d et h e s i g n i f i c a n t c o e f f i c i e n t sw i t h i ne a c hs u b b a n di to v e r c o m et h e s h o r t c o m i n go fw a v e l e tc o d i n ga l g o r i t h m s ,d e c r e a s e d t h e c o m p u t i n g c o m p l e x i t ya n da c h i e v e db e t t e rp e r f o r m a n c et h a nt h ee n c o d i n gi ne z w i nt h i st h e s i s ,w ee m p h a t i c a l l yd i s c u s s e st h et h e o r yo ft h ev i d e o c o d i n gs y s t e mb a s e do n t h ew a v e l e tf i e l da n d m o r p h o l o g yf o l l o w i n g t h e b a s i ct h e o r yo fv i d e oc o d i n g ,w ed e s c r i b e da n da n a l y z e dt h ec l a s s i c a l w a v e l e tc o d i n ga l g o r i t h m sa n dt h e i rp r o b l e m t h e nw ep r o p o s ean o v e l v i d e o c o d i n ga m e l i o r a t i v ea l g o r i t h mb a s e d o nw a v e l e ta n dm o r p h o l o g y v i d e oc o d i n gs y s t e mc o n s i s t so fi - f l a m ec o d i n ga n dp f r a m ec o d i n g a s t oi - f l a m e c o m p r e s s i o n ,w e a d ds e n s e q u a n t i z a t i o n ,p r o p o s e a a m e l i o r a t i v ew a v e l e tc o d i n ga l g o r i t h m sb a s e do ne z wa n dm r w d ,a n d a c h i e v ea r i t h m e t i c c o d i n gt h r o u g hp o i n t i n g m o d e a st op - f r a m e c o m p r e s s i o n ,b l o c ki so n l yt r a n s f o r m e db yw a v e l e t t h e nl o wf r e q u e n c y s u b b a n di s p e r f o r m e dm o t i o ne s t i m a t i o na n de s t i m a t e dm o t i o nv e c t o r i i 南京航空航天大学硕士学位论文 g e n e r a l i z e t o h i g hf r e q u e n c ys u b b a n d w eu s e f u l ls e a r c ha n db i l i n e r i n t e r p o l a t i o no fh a l f - p i x i ea c c u r a c yi n m o t i o ne s t i m a t i o n m e a n w h i l e , t h er e s i d u a lf i g u r ei nm o t i o nc o m p e n s a t i o ni se n c o d e db yw a v e l e t t h es t i m u l a t i o nr e s u l t si n d i c a t et h a t t h e p e r f o r m a n c e o ft h e v i d e o c o d i n ga l g o r i t h mb a s e do nw a v e l e ta n dm o r p h o l o g ya r es u p e r i o r t ot h a tb a s e do i l s p a t i a lf i e l dn o to n l yi nc o d i n ge f f i c i e n c yb u ta l s oi n s u b j e c t i v eq u a l i t yo f t h ed e c o d e di m a g e k e yw o r d s :v e d i o c o d i n g ,w a v e l e tt r a n s f o r m ,e m b e d d e d z e r o t r e e w a v e l e t ,m o r p h o l o g y ,i m a g ec o m p r e s s i o n 1 1 1 承诺书 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研 工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本学位论文 研究成果不包含任何他人享有著作权的内容。对本论文所涉及的研究工作做 贡献的其他个人和集体,均已在文中以明确方式标明。 本人授权南京航空航天大学可以有权保留送交论文的复印件,允许沦文 查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库进行检索,可 采用影印、缩印或其他复制手段保存论文。 作者签名:盗塞挞 日期:2 j 0 0 3 - ;旷 南京航空航天大学硕士学位论文 第一章绪论 1 1 数字视频压缩技术概述 众所周知,人类通过视觉获取的信息约占其总信息量的7 0 ,视频信息具有 直观性、可靠性等一系列优越性,在技术进步和用户需求的推动下,人们对信 息通信和存储的要求己不仅仅限于传统的语音和文本信息,图像( 静止) 和视频 ( 活动图像) 信息的存储与传输已经成为各种消费类电子、通信和计算机领域的 应用热点。由于数字视频在提高图像的清晰度和质量、提高人机交互功能等方 面有着模拟视频无可比拟的优点,因此使得模拟视频正逐渐被数字视频所取代。 从娱乐业( 如d t v 、v i d e o - - o n - - d e m a n d ) 到商业应用( 如视频电话、视频会议) , 以及现在蓬勃发展的各种远程医疗、远程教学和培训,数字视频越来越深入人 们的日常生活,大大改变了人们进行娱乐、教育和使用计算机的方式,尤其是 i n t e r n e t 的迅猛发展和新一代的移动通信网络的开发,使得传统的以电视广播 的为主的视频服务发生了根本性的变化。 视频图像的信息量非常巨大,以一路电视信号为例,来看一下将它数字化 后的数码率。按照c c i r 6 0 1 标准,数字化后的分辨率为7 2 0 * 5 7 6 ,每秒2 j 帧, y :u :v 为4 :2 :2 ,若以8 b i t 表示y 信号,则每像素占用1 6 b i t ,数码率为 1 6 5 9 m b p s 。以6 4 k b p s 作为一个数字话路,若不加压缩,为传输一路电视要占 用2 5 9 2 个有效数字话路,这在实际中是难以接受的。如果不经压缩,传输所需 的高传输速率和存储所需的巨大存储器容量将成为这项技术进一步推广应用的 最大障碍,而事实上,在过去几十年里,这确实是视频应用的瓶颈。现在,随 着图像压缩技术的提高和网络带宽的改善,数字视频的各种应用己经逐步变成 现实,v c d 、d v d 的普及以及视频在移动通信网和i n t e r n e t 上越来越多的应用便 足以说明这一点,而且人们对以视频为主的多媒体通信业务的需求日益增长, 我们可以断定,有关视频的产品开发将成为一个新的经济增长点。 数据压缩的目的就是去除数据问的冗余,原始图像中存在大量的信息冗余, 如空间冗余、时间冗余、频率谱冗余、符号冗余、视觉冗余等,对不同的冗余 基于小波和数学形态学的视频编码 信息有不同的压缩方法,例如空间冗余可以通过离散余弦变换( d i s c f e t ec o s i n e t r a n s t o t i n ,d c 7 r ) 和离散小波变换( d i s e f e t ew a v e l e l t r a n s f o r m ,d w t ) 等变换 来去除,时间冗余可以通过帧间预测去除。在视频图像中,因为相邻帧之间的 变化是缓慢的,尤其是背景部分几乎不变,所以在图像的相邻像素、相邻行和 相邻帧问存在很强的相关性,这种相关性就表现为空间冗余和时间冗余,视频 压缩就是要用适当的方法去除这些大量存在的时间冗余和空间冗余。 1 9 4 8 年提出电视信号数字化后,人们就开始了对图像压缩编码的研究工作, 至今已有五十多年的历史,在开始的二十年间,人们仅对帧内线性预测编码和 亚抽样内插复原法进行研究,对视觉特性也做了有限但极为可贵的工作。7 0 年 代开始进行帧间预测编码的研究,8 0 年代初开始对做运动补偿( d o t i o n c o m p e n s a t i o i q ,m c ) 所用的运动估计( m o t i 0 1 1e s t i m a t i o n ,m e ) 进行研究,变换 编码是1 9 6 8 年由h c a n d r e w s 等人提出,采用的是二维傅里叶变换,此后相继 出现了使用其它变换方法的变换编码,如o c t 和d w t 。 数字视频和图像压缩编码技术的研究,已历经半个世纪,在理论和工程上 都取得了很多成果。进入2 0 世纪g o 年代,在国际标准化组织i s o 和国际电信 联盟 t u 等国际组织的协调下,对视频和图像编码的成果进行了收集、整理、 综合和加工,制定了几个通用的压缩编码标准,包括适用于二值图像的j b i g 、 用于连续灰度和彩色静止图像的j p e g ( j o i n tp i c t u r ee x p e r t sg r o u p ,简称 3 p e g ) 、用于6 4 k 视频传输的h 2 6 1 、面向1 5 m 数字视频和音频传输及存储的 m p e g l ( m o v i n gp i c t u r ee x p e r t sg r o u p ,简称m p e g ) ,面向高品质数字视频和 音频传输及存储的m p e g - 2 ,以及适于低码率视频编码的h 2 6 3 。这些标准的算 法主要由四类技术混合构成,即运动补偿、正交变换、量化和熵编码。 1 9 9 9 年和2 0 0 1 年分剐有了m p e g 一4 的版本1 和版本2 ,m p e g - 4 的主题是“音 视频对象编码”( c o d i n go fa u d i o - v i s u a lo b j e c t s ) ,而它初始的名称是“甚 低比特率音频视频编码”( v e r yl o wb i tr a t ea u d i o v i s u a c o d i n g ) 。开始时, m p e g 一4 的目标是支持在低比特率信道上的数字视频、音频应用,比如用移动电 话或固定电话进行可视电话或视频会议。但是,随着因特网技术的盛行,出现 了新的需求和可能的应用,如交互性、不同网络不同平台之间的互操作性。码 率限制的消失意味着更宽广的适用码率范围,而把“视音频编码”转变为对“视 音频对象”的编码则是工作目标质的飞跃。 继m p e g 一4 以后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和 2 南京航空航天大学硕士学位论文 迅速搜索。针对这个矛盾,m p e g 提出了解决方案忡e ( ;一7 。m p e g 一7 希望规范 地给出所谓的“多媒体内容描述接口”,能够快速有效地搜索出用户所需的不同 类型的多媒体资料。于1 9 9 9 年l o 月确定的m p e g 一2 1 标准的研究目标则是希望 将西议、标准、技术等4 i 同的组件有机地结合起来,提供一个安全统一的,跨 平台的,用于信息的制作、发布、处理等功能的框架平台,称为集成的统一多 媒体框架。 1 2 课题研究的背景 2 0 世纪9 0 年代,虽然在国际标准化组织和国际电信联盟等国际组织的协调 下,制定了几个通用的压缩编码标准,但是因为这些实用的图像编码算法都是 基于空间域的运动估计和补偿,预测误差的d c t 及量化以及变换系数的熵编码的 混合编码方法,因此具有基于d c t 的算法的固有缺点,即方块效应和“飞蚊噪 声”,在压缩比较高时,图像质量会很差,因此人们一直在努力研究寻找更为有 效的编码方法。 小波变换具有良好的空间频率局域化等特性,非常适合描述非平稳图 像信号,适应人的视觉系统特性。小波变换的最大特点是能够对信号进行显微 镜式的观察,对高频信号进行细处理,而对低频信号进行粗处理。由于小波变 换的时频局域化特性能有效地消除了方块效应、“飞蚊噪声”,并能获得更好的 率失真性能,从而在视频编码领域受到越来越多的关注。这最终导致了新一代 以小波变换为基础的高性能图像压缩标准的出现,如j p e g 2 0 0 0 ,m p e g - 4 等。但 是人们对图像压缩的研究与改进并没有停止,仍然在不断尝试引入新技术使其 具有更高的压缩比、更好的图像质量或更快的压缩速度。 由于物理世界特征的非线性往往是线性系统无法刻画的,随着应用的发展, 这一缺陷日益显露出来引起了人们的注意。于是非线性处理技术应运而生,并 且迅速成为与线性系统并行的主流方向。因此近年来非线性小波分析成为研究 的热点。研究的理论主要集中在基于数学形态学、分形、遗传学、神经网络等 非线性方面。 数学形态学是一种非线性图像( 信号) 处理和分析理论,它具有一整套的理 论、方法及算法体系,其系统性和严密性不亚于传统的线性图像处理理论。这 基于小波和数学形态学的视频编码 一特点的吸引人之处在于这样一个事实:以往的非线性图像处理技术一直未能 建立系统的理论,从而其发展始终被制约在算法层次。而形态学的成功归因于 一个新的思路,它摈弃了传统的数值建模及分析的观点,从集合的角度来刻画 和分析图像。事实证明这一新观点是成功的。 数学形态学基于集合的观点是极其重要的。这意味着其所有的运算都要由 基本集合运算来定义,而且所有的图像都要以合适的方式转化为集合。这就是 说,形态学算子的性能将主要以集合方式刻画,而传统的理论部以解析方式描 述算子的性能。这种系统的几何描述形式似乎更适合视觉信息的处理和分析。 由于数学形态学是一种空间的基于集合论的观点,它摈弃了传统意义上用数值 分析和建模的观点来描述分析处理图像,采用从集合的角度来刻画和分析图像, 并具有完整理论、方法和算法,因而在图像分析和处理领域得到大量应用。 自1 9 8 2 年s e r r a 的专著i m a g ea n a l y s i sa n dm a t h e m a t i c a lm o r p h o l o g y 问世之后,形态学在图像处理、模式识别和计算机视觉等领域引起了广泛的重 视和应用,并又促进了其理论的发展。8 0 年代中期以来,在上述诸领域的国际 大型会议中出现了形态学方面的研讨。例如国际光学工程学会( s p i e ) 在前些年 的年会中举办了数学形态学的专门会议。同样,有关的国际刊物和会议文集都 开始大量刊登了数学形态学方面的研究成果,还有一些著名的国际刊物出版了 这方面的专辑。近几年,有关模式识别、图像处理、神经网络等方面的杂志、 会议也相继出现大量有关数学形态学方面的文章,有的研究组织己经专门开发 了形态学算法的软件,而且得到了广泛的应用。 基于形态学的小波编码方法是利用小波图像分解后各子带中重要系数的 “聚类”特性,用形态学算子直接对各子带的重要系数进行检测、提取和编码, 它弥补了小波编码的不足,并且降低了运算的复杂度。 1 3 本文的主要工作 本文对视频压缩编码系统进行了全面的研究。阅读有关图像和视频压缩编 码的书籍和文献,熟悉视频编码系统的原理,学习了j p e g 、h 2 6 x 和i p e g x 系 列的国际视频压缩标准,对整个视频编码的发展和实现流程有了总体上的认识, 并了解其关键技术。重点学习了小波变换和数学形态学的有关知识,掌握了小 4 南京航空航天大学硕士学位论文 波编码的两个优秀的经典算法e z w 和s p i :h t 和基于形态学方法的图像编码算法 m r w d 。对空间域的视频编码和目前先进的运动估计技术进行分析研究。在此基 础上提出改进的基于小波和形态学的视频编码,同时对此算法进行仿真,并与 传统的算法进行比较。 1 4 文章结构安排 论文全文共分六章,第一章为绪论,简单介绍了视频编码技术的发展、应 用,以及课题研究的背景。第二章介绍了视频编码的基本原理和方法,详细论 述了视频编码中所使用的一些关键技术,另外,对适用于不同场合的编码技术 进行了简单介绍。第三章重点论述了小波变换的基本原理,对小波变换的快速 算法、图像的小波变换,图像小波变换中小波系数的选择进行了分别介绍;讨 论了基于小波域的图像编码原理,重点介绍了两个小波图像编码的经典算 法:e z w 和s p i h t ;对基于小波域的运动估计算法进行了详细分析,介绍了多分 辨率运动补偿( m r m e ) 和三维运动估计( 3 d w t ) 。第四章论述了基于数学形态学的 小波编码,介绍了形态学了基本概念和性质,重点介绍了一个基于数学形态学 的小波编码的经典算法:b l r w d 。第五章提出了一个改进的基于小波和形态学的 视频编码算法。首先分析了目前小波编码存在的一些问题;接着对于这些问题, 提出一种改进的视频编码算法,此算法分为帧内编码部分和帧间编码部分:最 后对此算法进行代码实现、仿真和与以往算法的比较分析。第六章对全文作出 一个总结和评价。 基于小波和数学形态学的视频编码 第二章视频压缩编码的基本原理与方法 图像编码经过r 近五f 年的发展,取得了很多成果,随着一系列图像编码国 际标准的制定,这项技术开始真正走向实用化和产业化,超大规模集成电路技 术的发展,使得研制出集成度更高、性能更好的图像编解码专用芯片成为可能, 同时,近年来人们对多媒体信息需求的高速增长也有力地促进了图像编码技术 的进步。目前的视频压缩标准大都是基于空间域运动估计和d c t 变换的编码技 术,随着对小波变换认识的逐渐深入,人们越来越多地将注意力投向基于小波 域的图像编码,并在静止图像压缩标准j p e g 2 0 0 0 中融入了小波变换,对视频图 像在小波域中的压缩也取得了很大成果。 本章着重介绍基于视频压缩的基本原理和方法,包括典型的视频压缩的编 解码系统及其关键技术,对运动估计作了详细论述,并简要介绍了经典编码方 法和“第二代”编码方法。 2 1 视频压缩的目的 数字视频的数据量非常大,如果不经压缩,数字图像传输所需的高传输速 率和数字图像存贮所需的巨大存储容量将成为推广应用数字图像通信的最大障 碍,因此需要对图像进行压缩。 图像数据可以压缩有几方面的原因:首先,原始图像数据是高度相关的, 存在很大的冗余度。数据冗余造成比特数浪费,消除这些冗余就可以节约码字, 也就是达到了数据压缩的目的。大多数图像内相邻像素之间有较大的相关性, 这称为空间冗余度。运动图像相邻帧之间也有很强的相关性,这称为时间冗余 度。其次,若用相同码长表示不同出现概率的符号也会造成比特数的浪费,这 种浪费称为符号冗余度。如果采用可变长编码技术,对出现概率高的符号用短 码字表示就可以节省码字。 , 在视频序列中,主要存在两种冗余信息,一种是帧内图像的冗余即空间冗 余,另一种是帧与帧之间的冗余也即时间冗余。视频压缩技术的关键就是去除 这两种冗余信息。空间上的压缩可以采用j p e g 静止图像压缩标准,而对于帧间 6 南京航空航天大学硕士学位论文 冗余的去除则是通过帧间运动补偿技术来实现的。采用帧间预测编码可以减少 时间域上的冗余度,提高压缩比。如果将上一帧相同空间位置处的像素作为待 编码的当前帧的预测值,这种预测对图像中的静止背景部分将是十分有效的, 但对于运动部分,这种不考虑物体运动的简单的帧间预测效果并不好。如果通 过某种方法在对当前某像素( 和像素块) 进行预测时知道这个像素( 和像素块) 是从 上一帧的哪个位爱移动过来的,在做预测时以那个位置上的像素值作为预测值, 则预测的准确度将会大大提高。这就是视频编码中广泛使用的运动估计技术。 允许图像编码有定的失真也是图像可以压缩的一个重要原因,在许多场 合下,并不要求经过压缩及复原以后的图像和原图完全相同,而允许有少量失 真。只要这些失真并不被人眼所发觉,在许多场合下是完全可以接受的,这就 给压缩比的提高提供了十分有利的条件。如果能利用人眼的视觉特性,就可以 在保证所要求的图像主观质量的前提下实现较高的压缩比,这就是利用了视觉 冗余。其实人类的视觉系统( h v s ) 是有缺陷的,对某些失真不敏感,难以觉察。 一个图像编码方法如果能充分利用这些特性,就可取得较好的效果。人眼对颜 色的空间分辨率低于对亮度信号的分辨率,在c c i r 6 0 1 标准中,y :u :v 可选用 4 :2 :2 就是利用了这个特性,将色差信号的空间分辨率减半,仍可得到质量非常 高的图像,如果将它和三个分量都是8 b i t 的方案相比,得到2 4 :1 6 即3 :2 的压缩 比,而图像主观质量几乎没有降低。 此外,还可以利用先验知识实现图像编码,在某些特定的场合,编码对象 的某些特性也预先知道,比如在可视电话中,编码对象为人的头肩像,这时, 可以利用编码对象的先验知识为编码对象建立模型,通过提取模型参数,对参 数进行编码而不对图像直接进行编码,可以达到很高的压缩比。这是模型编码 的基本思想,在这里也是利用了知识冗余。 2 2 对不同冗余信息采用的压缩方法 2 2 1 经典编码方法 1 9 4 8 年, o l i v e r 提出了第一个编码理论脉冲编码调制( p u i s ec o d i n g m o d u l a t i o n ,简称p c m ) :同年,s h a n n o n 的经典论文“通信的数学原理” 首次提出并建立了信息率失真函数概念;1 9 5 9 年,s h a n n o n 进一步确立了码率 7 基于小波干珏数学形态学的视频编码 失真理论,以上工作奠定了信息编码的理论基础。主要编码方法有预测编码、 变换编码和统计编码,也称为三大经典编码方法。 221 ,1 变换编码 变换编码的基本思想是:由于数字图像像素间存在高度相关性,因此可以进 行某种变换来消除这种相关性,这种变换通常是对像素进行另一种描述,或变 换到另一种空间中,变换编码实际上去除的是图像的空间冗余。目前存在很多 的变换方法,如d c t 变换、k l 变换、d w t 变换和w a l s h 变换等,实际应用最多 的就是d c t 变换和d w t 变换。目前,国际上己经制订了基于离散余弦变换的静 止图像压缩标准j p e g 和运动图像压缩标准m p e g 等一系列标准,更新的静止图 像压缩标准j p e g 2 0 0 0 则是应用了效果更好的d w t 变换,基于d w t 的运动图像编 码也已经取得了很多成果。 2 2 1 2 预测编码 预测编码的基本思想是:根据数据的统计特性得到预测值,然后传输图像像 素与其预测值的差值信号,使传输的码率降低,达到压缩的目的。预测编码方 法简单经济,编码效率较高。 般常见的图像,在相邻像素间和相邻行间,存在较强的空间相关性,在 相邻帧之间存在较强的时间相关性。从统计意义上来讲,这些邻近像素值之差 很小,因此,其方差就比较小,量化器的动态范围和量化分层数都相应减少, 所以每个像素的编码比特数也可以减少,达到压缩数据的目的。这种方法的优 点在于硬件实现简单,缺点是易于出现误码扩散。 视频编码中广泛采用的运动补偿技术事实上也是一种预测方法,它是一种 基于像素块的帧与帧之间的预测,从实际应用来看是一种很有效的方法。 2 2 1 3 统计编码 统计编码的基本思想是:主要针对无记忆信源,根据信息码字出现概率的分 布特征而进行压缩编码,寻找概率与码字长度间的最优匹配,统计编码消除的 是数据中的符号冗余。常用的统计编码有游程编码、h u f f m a n 编码和算术编码三 种。 南京航空航天大学硕士学位论文 以上列举出的一些经典编码技术可以称为“第一代”视频( 图像) 编码技术。 这些编码技术都是非常优秀的纹理编码方案,它们能够在中等压缩率的情况下, 提供非常好的图像质量,但在非常低的位率情况下,无法为一般的序列提供令 人满意的质量。八十年代初期,“第一代”编码技术己经达到了顶峰,这类技术 去除客观和视觉冗余信息的能力已接近极限。这是因为这些技术都没有利用图 像的结构特点,因此它们也就只能以像素或像素块作为编码的对象,另外,这 些技术在设计编码器时也没有考虑人类视觉系统的特性。 2 2 2 “第二代”编码方法 为了克服“第一代”视频( 图像) 编码技术的局限性,k u n t 等人于1 9 8 5 年提 出了“第二代”视频( 图像) 编码技术。他们认为,“第一代”编码技术只是以信 息论和数字信号处理技术为理论基础,旨在去除图像数据中的线性相关性的一 类编码技术。其压缩比不高,大约在1 0 :l 左右。而“第二代”编码技术不局限 于信息论的框架,要充分利用人的视觉生理、心理和图像信源的各种特征,实 现从“波形”编码到“模型”编码的转变,以便获得更高压缩比。其压缩比多 在3 0 :l 至7 0 :l 之间,有的甚至高达1 0 0 :1 。“第二代”编码方法主要有:基于分 形的编码、基于模型的编码、基于区域分割的编码和基于神经网络的编码等。 “第二代”编码方法充分利用了计算机图形学、汁算机视觉、人工智能与 模式识别等相关学科的研究成果,为视频( 图像) 压缩编码开拓出了广阔的前景。 但是由于“第二代”编码方法增加了分析的难度,所以大大增加了实现的复杂 性。从当前发展情况来看,“第二代”编码方法仍处于深入研究的阶段。 近年来,出现了一类充分利用人类视觉特性的“多分辨率编码”方法,如 子带编码、塔形编码和基于小波变换的编码。这类方法使用不同类型的一维或 二维线性数字滤波器,对视频( 图像) 进行整体的分解,然后根据人类视觉特性 对不同频段的数据进行粗细不同的量化处理,以达到更好的压缩效果。这类方 法原理上仍属于线性处理,属于“波形”编码,可归入经典编码方法,但它们 又充分利用了人类视觉系统的特性,因此可以被看作是“第一代”编码技术向 “第二代”编码技术过渡的桥梁。 。 9 基于小波和数学形态学的视频编码 2 3 视频压缩编码的原理 目前大部分的视频压缩标准都采用了基于运动估计和d c t 变换的混合编码 方式,图2 1 列出了典型的编解码过程。 i 屿逯控制 愉鹤瓣 图2 1 典型视频压缩的编码过程 视频压缩的编解码包括两种编码模式:帧内编码模式( i n t r a f r a m e ) 和帧间 编码模式( i n t e r f r a m e ) 。帧内编码也即静止图像编码,可以遵循j p e g 压缩标 准,它包括分块d c t 变换、量化和变长编码三个部分,编码后的码流先放入缓 存,待缓存区满便将码流输出。同时量化后的数据又经反量化、反d c t 变换得 到恢复图像并放入帧缓存,作为下一帧运动估计时的参考帧,解码端将接收到 的压缩码流进行逆过程重建图像,并将此图像放入帧缓存作为重建下一帧时的 参考帧。需进行帧间编码的帧,首先和帧缓存中的参考帧作运动估计,得到运 动矢量,参考帧用此矢量作运动补偿得到预测图像,原始图像和预测图像作差 得到预测残差,然后再将此预测残差同样作分块d c t 变换、量化和变长编码送 入缓存,前面得到的运动矢量也要编码送入缓冲。同时将量化后的预测残差再 经反量化、反d c t 变换和前面得到的预测图像求和作为当前帧的恢复图像放入 帧缓存作为下一帧图像的参考帧。在解码端,解码后的码流包括两部分:运动矢 量和预测残差。将缓冲中的参考帧利用运动矢量作运动补偿,然后和预测残差 相加,就得到当前帧的恢复图像,同样将这幅图像放入缓冲作为下一帧图像的 参考图像。 0 南京航空航天大学硕士学位论文 2 31 视频图像的输入格式 对于彩色模拟电视,目前世界上一共存在三种制式:p a l ,n t s c 和s e c a m 制, 数字视频的输入格式就是要将他们统一起来,形成标准的输入格式。根据各个 视频压缩标准对图像分辨率要求不同,就有多个视频输入格式,也就是说图像 中亮度信号y 和色差信号u 和v 的采样率是各不相同的,帧频也有所不同。例 如h 2 6 1 采用一种“公共中间格式”c i f ,编码器只对c i f 格式的图像进行编码。 c i f 规定y 大小为3 5 2 * 2 8 8 ,u 、v 为1 7 6 1 4 4 ,帧频为2 9 9 7 h z 。除此之外还有 q c f 格式,它的分辨率为c i f 的1 4 ,这种格式适用于低码速率的场合。又如 m p e g 一1 采用了s i f 格式,它有3 5 2 * 2 4 0 * 3 0 和3 5 2 * 2 8 8 * 2 5 两种类型,二者数据 量相同。m p e g 一2 根据分辨率不同分为四个级别:低级( l o w l e v e l ) 、主级 ( m a i n l e v e l ) 、1 4 4 0 高级( h i g h - 1 4 4 0 l e v e l ) 和高级( h i g h l e v e l ) ,它们又有各自 不同的格式。 2 3 1 编码单元和图像类型 l 2 6 1 和m p e g 视频图像数据流是一个分层结构,目的是把位流中逻辑上独 立的实体分开,防止语义模糊,并减轻解码过程的负担。对分层的要求是支持 通用性、灵活性和有效性。r p e g 遵循的层次化的数据结构,包括一个表头、一 个或多个图像组( g r o u po fp i c t u r e ,c o p ) 及序列的结束标志码。c o p 由一系列 图像组成,图像是视频序列中的主要编码单元,而图像再划分成条带( s l i c e ) , 由一个或多个从左到右、自上而下的连续宏块组成。类似于h 2 6 1 ,m p e g 宏块 包括4 个8 * 8 的亮度块和两个8 * 8 的色差块,是图像层编码的基本单元。 m p e g 视频位流分层结构如图2 2 所示。共包括六层,每一层支持一个确定 的函数,或翥是一个信号处理函数( d c t ,运动补偿) ,或者是一个逻辑函数( 同 步,随机存取点) 等。 基于小波和数学形态学的视频编码 图像序列头【图像组 图像组图像尾 图像序列层 = 了一= 一 -l;-u-,r,r一一 图像组头 图像( t b p ) 图像( ib p )图像组层 了7 弋= :_ 一 图像头宏块片( m b s )宏块片 。 i 宏块片头 宏块( m b )宏块 y 匣习 c r c b 宏缺 图像层 宏块片层 宏块层 图2 2m p e g 视频位流分层结构图 视频压缩编码有两种编码模式:帧内编码和帧间编码,对帧内编码帧称为i 帧,帧间编码帧又分为预测编码帧( p 帧) 和双向预测内插编码帧( b 帧) 。p 帧和 b 帧都是利用运动补偿技术的预测帧,p 帧是用刚刚过去的i 帧或p 帧图像来预 测,因此又称为前向预测帧,同时p 帧又可以用来预测b 帧或下一个p 帧,所 以其编码误差会扩散,所以每隔一定的帧数要插入一个i 帧。 但在当前图像中,并非所有的信息均可通过前向的i 帧或p 帧来预测,例 如一扇门刚打开时所显露的景物,是不可能从开门前那些图像预测出来得,所 以在, 湘p e g 中引入了双向预测帧( 即b 帧) ,就是利用非因果的后向预测来对付那 些在没有在过去的图像中出现而当前正显露出的图像区域,以便提高压缩效率。 m p e g 中这些帧的组织结构是十分灵活的,图2 3 示出了1 2 帧图像为一组的g o p 结构及其帧间编码方式,它们的组合可由应用规定的参数决定。 1 2 南京航空航天大学硕士学位论文 图2 3 图像缎结构及其帧间编码模式 2 4 视频编码的关键技术 从视频编解码系统框图可以看出,它包括分块d c t 变换、量化、熵编码、 运动估计、运动补偿和编码控制等部分,另外附有量化表和熵编码表。 2 4 1 分块离散余弦变换o c t 在编码器的输入端,原始图像被分成8 * 8 的小块,并且把 0 ,2 9 一1 范围内 的无符号数变成 一2 ”,2 ” 范围的有符号数,将它们作f d c t ( d c t 正变换) ,f d c t 把原始图像中8 * 8 的小块分解成6 4 个正交基信号,输出是6 4 个正交基信号的 幅值,形成8 * 8 的d c t 系数块,这些系数是二维频域u ,v 的函数,对应u = v = o , 也就是d c t 系数块的左上角元素,表示直流分量d c ,其余6 3 个系数表示交流分 量a c 。由于在8 * 8 的块中像素之间的相关性较强,经d c t 变换后,u ,v 空间低 频处集中了数值大的系数,远离d c 的a c 系数,具有较小的系数,它们等于零 或趋近于零。d c t 变换本身并不能对图像起到压缩作用,但变换后系数的这种有 规律的分布为压缩提供了可能。 2 4 2 量化 d c t 变换系数还需进行量化以减小系数的动态范围,量化过程就是以量化步 长除d c t 系数。量化步长即为量化精度,量化过程如下式: p ( u ,v ) = i n t g e rr o u n d f ( u ,v ) q ( u ,v ) f 。( u ,v ) 为量化后的系数,q ( u ,v ) 是量化步长,也就是 p e g 中的量化表元素, 它是控制j p e g 压缩比的关键。根据人眼的视觉特性,对d c t 系数中人眼较为敏 基于小波和数学形态学的视频编码 感的低频系数采用小的量化步长,而对不太敏感的高频系数用大的量化步长, 使得大部分的高频系数量化后为零。这个步骤除掉了一些高频分量,损失_ r 一 些细节,但事实上人眼对高频远没有对低频敏感,所以处理后的视觉损失很小。 经量化后的d c t 系数构成一个稀疏矩阵,除了左上角的直流系数d c 外,其 它交流系数a c 只有少数不为零为便于编码h 2 6 l 和j p e g 均从左上角开始按z 型扫描( z i g - z a gs c a n ) 方式将二维量化系数阵列重组为一个一维数组,使之能 按能量递减的方式排序。经过z 型扫描的一维数组,除前几个元素非零外,其 它大部分元素为零,个数较多的连零元素,为后面的游程i f u f f m a n 编码打下了 很好的基础。图2 4 是z 型扫描顺序的示意图。 2 4 3 熵编码 n - 图2 4d c t 系数的z 型扫描示意图 前述z 型扫描,将二维量化矩阵转换成了一维数组,对一维数组的熵编码分 成两步进行,第一步,首先将系数转换成一个中间格式的符号序列;第二步是 给这些符号赋以变长码字。 中间格式符号表示 交流系数a c 的中间格式由两个符号组成:符号l 和符号2 ,他们的含义如下: 符号l 代表零游程尺寸,用n n n n s s s s 表示,符号2 代表幅值的二进制编码, 用“尾码”表示。n n n n 即“零游程”,表示“z ”型扫描时所遇到的前后两个非 零a c 系数之间连续零的个数,“尺寸”s s s s 表示后一个非零a c 系数的幅值所需 要的位数,n n n n s s s s 以一个字节表示,高四位表示零游程参数,低四位表示幅 值尺寸参数。若最后一个n n n n s s s s 中只有零游程( z r l ) 时,则直接传块结束码 1 4 南京航空航天大学硕士学位沦文 字“e o b ”( e n do f1 3 l o c k ) 结束本块。 一个基本符号l ,可表示的行程范围为1 t 5 ,当两个a c 非零系数之间连 续零的个数超过l i 时,用增加扩展符号( 1 j ,0 ) 的个数来填充。符号2 的幅值( 尾 码) 表示非零a c 系数的幅值大小,其范围为 - 2 ”,2 ”一1 。 可变长度熵编码 熵编码的下一步是将a c 系数表示成符号1 和符号2 对的序列,零行程长度 超过1 5 时由多个符号1 “( 1 5 ,0 ) ”来扩充,块结束( e o b ) 标记用( 0 ,0 ) 表示, 可变长度熵编码就是对这种符号对序列的统计编码。 对a c 系数中的符号l ,即组合“前缀码”n n n n s s s s ,用二维h u f f m a n 编 码,j p e o 提供了一个码表,可直接根据n n n n s s s s 的组合形式在表中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论