(信号与信息处理专业论文)基于小波域的视频压缩编码.pdf_第1页
(信号与信息处理专业论文)基于小波域的视频压缩编码.pdf_第2页
(信号与信息处理专业论文)基于小波域的视频压缩编码.pdf_第3页
(信号与信息处理专业论文)基于小波域的视频压缩编码.pdf_第4页
(信号与信息处理专业论文)基于小波域的视频压缩编码.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 目前,许多实用的图像编码算法都是基于空间域的运动估计和补偿、预测误差的d c t 及量化以及变换系数的熵编码的混合编码方法,如有关静止图像和视频图像的国际标准 j p e g ,m p e g l ,m p e g - 2 等。但基于d c t 的算法有其固有的缺点,即方块效应,在压缩比较 高时,图像质量会很差,因此人们直在努力研究寻找更为有效的编码方法。小波变换 具有良好的空间一频率局域化等特性,非常适合描述非平稳图像信号,适应人的视觉系 统特性,从而在视频编码领域受到越来越多的关注。 本文在介绍了视频编码基本原理的基础上,重点研究了基于小波域的视频编码系统 的工作原理,分析了小波域的多分辨率运动估计和小波域的图像编码方法,总结了小波 图像编码的经典算法,并对它们进行了性能比较,分析了多分辨率运动补偿后预测误差 系数的分布特点,对量化后的预测误差系数的组合进行了改进,使之能更有效地编码, 从而提高编码效率。编程实现了两个完整的编解码系统:传统的基于空间域运动估计、 d c t 变换的视频编码和基于小波域多分辨率运动估计的视频编码。论文还对利用三维小波 变换进行视频编码以及小波变换存在的移变性进行了分析讨论,并介绍了克服这种移变 性的低子带位移运动估计的方法,探索性地进行了计算机仿真。 计算机仿真结果表明,基于小波域的视频图像编解码系统无论从编码效率,还是从 解码后的图像主观质量比基于空间域的编解码系统都有了一定程度的提高。 关键词:视频编码:运动估计:小波变换:嵌入式小波零树:多分辨率运动估计:移变性:低 子带位移 a b s tr a c t r e c e n t l y ,m a n ya p p l i e di m a g ec o d i n ga l g o r i t h m sa r em i x e dc o d i n gm e t h o d sb a s e do nt h e s p a t i a lm o t i o ne s t i m a t i o na n dc o m p e n s a t i o n ,t h ed c ta n dq u a n t i f i c a t i o no f d i s p l a c e df r a m e d i f f e r e n c e ( d f d ) a n de n t r o p yc o d i n gs u c ha ss o m ei n t e r n a t i o n a ls t a n d a r d sa b o u ts t i l li m a g e s a n dv i d e oc o m p r e s s i o nc o d i n g :j p e g ,m p e g 一1 ,m p e g 一2a n ds oo n b u tt h ea l g o r i t h m sb a s e d 0 nd c th a v et h e i ri n h e r e n td i s a d v a n t a g et h a ti s “b l o c k i n ge f f e c t ”t h eq u a l i t yo f t h er e s t o r e d i m a g e si st o ob a d a tt h eh i g h c o m p r e s s i o nr a t i o s om u c hm o r ee f f e c t i v ec o d i n gm e t h o d sh a v e b e e ng o n ef o r h a v i n gt h eg o o dc h a r a c t e r i s t i c so f t e m p o r a l f r e q u e n c yl o c a l i z a t i o na n ds oo n , w a v e l e tt r a n s f o r mi sv e r ys u i t a b l ef o r d e s c r i b i n gn o n s t a t i o n a r ys i g n a la n da d a p t t om a n sv i s i o n s y s t e m t h e r e b yw a v e l e tt r a n s f o r mi si n c r e a s i n g l yc o n c e r n e di nt h ef i e l do fv i d e oc o m p r e s s i o n c o d i n g i nt h i st h e s i s ,t h ea u t h o re m p h a t i c a l l yd i s c u s s e st h et h e o r yo ft h ev i d e oc o d i n gs y s t e m b a s e do nt h ew a v e l e tf i e l d f o l l o w i n g t h eb a s i c t h e o r y o fv i d e o c o d i n g t h e n t h e m u l t i r e s o l u t i o nm o t i o ne s t i m a t i o na n di m a g ec o m p r e s s i o nc o d i n gb a s e do nw a v e l e ta n da r e d e s c r i b e da n da n a l y z e d r e s p e c t i v e l y m a k e as u m m a r ya n dp e r f o r m a n c ec o m p a r eo ft h e c l a s s i c a l a l g o r i t h m s o fi m a g ec o m p r e s s i o n c o d i n gt h e d i s p l a c e df r a m ed i f f e r e n c e ( d f d ) w h i c hi st h ec o e f f i c i e n td i f f e r e n c eo ft h er e f e r e n c ef r a m ea n dt h ef r a m ef o r m e d b y m u l t i r e s o l u t i o nm o t i o nc o m p e n s a t i o n t h ec o e f f i c i e n t so fd f da r er e c o m p o s e da c c o r d i n gt o t h e i rd i s t r i b u t i n gt r a i t si no r d e rt om a k et h e mc o d e de f f i c i e n t l ya n di n c r e a s et h ec o m p r e s s i o n r a t i o p r o g r a m m i n gt w o w h o l ec o d e cs y s t e mo n eo fw h i c hi sc o n v e n t i o n a lc o d i n gs y s t e mb a s e d o ns p a t i a lm o t i o ne s t i m a t i o na n dd c t , a n dt h eo t h e ri sb a s e do nm u l t i - r e s o l u t i o nm o t i o n e s t i m a t i o ni nw a v e l e tf i e l d ,t h es h i f t - v a r i a n t p r o p e r t y o ft h ew a v e l e tt r a n s f o r ma n d t h r e e - d i m e n s i o nw a v e l e tt r a n s f o r ma r ea l s od i s c u s s e di nt h et h e s i s a n ds i m u l a t i o ne x p e r i m e n t h a sb e e nm a d e e x p l o r i n g l yf o rt h em o t i o ne s t i m a t i o nu s i n gl o w b a n d s h i f l ( l b s ) m e t h o da i m a to v e r c o m i n gt h et e m p o r a lv a r i a n c eo f t h ew a v e l e tt r a n s f o r m t h es i m u l a t i o nr e s u l t si n d i c a t et h a tt h ep e l f o r m a n c eo ft h ev i d e oc o d e cs y s t e mb a s e do n w a v e l e tf i e l da r es u p e r i o rt ot h a tb a s e do ns p a t i a lf i e l dn o to n l yi nc o d i n ge f f i c i e n c yb u ti n s u b j e c t i v eq u a l i t yo f t h ed e c o d e di m a g e k e y w o r d s :v id e oc o d i n g :m o t i o ne s t i m a t i o n :w a v e i e tt r a n s f o r m :e m b e d d e dz e r o t r e e w a v e i e t :m u i t 卜r e s o i u t i o nm o t i o ne s t i m a t i o n :s h i f t v a r ;a n t :l o w - b a n d - s h i f t 基于小波域的视频压缩编码 1 绪论 1 1 数字视频压缩技术概述 众所周知,人类通过视觉获取的信息约占其总信息量的7 0 ,视频信息具有直观性、 可靠性等一系列优越性,在技术进步和用户需求的推动下,人们对信息通信和存储的要 求已不仅仅限于传统的语音和文本信息,图像( 静止) 和视频( 活动图像) 信息的存储与传 输已经成为各种消费类电子、通信和计算机领域的应用热点。数字化的趋势使得模拟视 频正逐渐被数字视频所取代,数字视频在提高图像的清晰度和质量、提高人机交互功能 等方面有着模拟视频无可比拟的优点。从娱乐业( 如d t v 、v i d e o o n d e m a n d ) 到商业应 用( 如视频电话、视频会议) ,以及现在蓬勃发展的各种远程医疗、远程教学和培训,越 来越深入人们的日常生活,大大改变了人们通过数字视频进行娱乐、教育和使用计算机 的方式,尤其是i n t e r n e t 的迅猛发展和新一代的移动通信网络的开发,使得传统的以 电视广播的为主的视频服务发生了根本性的变化。 视频图像的信息量非常巨大。以一路电视信号为例,来看一下将它数字化后的数码 率。按照c c i r 6 0 1 标准,数字化后的分辨率为7 2 0 * 5 7 6 ,每秒2 5 帧,y :u :v 为4 :2 :2 , 若以8 b i t 表示y 信号,则每像素占用1 6 b i t ,数码率为1 6 5 9 m b p s 。以6 4 k b p s 作为一 个数字话路,若不加压缩,为传输一路电视要占用2 5 9 2 个有效数字话路,这在实际中 是难以接受的。如果不经压缩,传输所需的高传输速率和存储所需的巨大存储器容量将 成为这项技术进一步推广应用的最大障碍,而事实上,在过去几十年里,这确实是视频 应用的瓶颈。现在,随着图像压缩技术的提高和网络带宽的改善,数字视频的各种应用 已经逐步变成现实,v c d 、d v d 的普及以及视频在移动通信网和i n t e r n e t 上越来越多的 应用便足以说明这一点,而且人们对以视频为主的多媒体通信业务的需求日益增长,我 们可以断定,有关视频的产品开发将成为一个新的经济增长点。 数据压缩的目的就是去除数据间的冗余,原始图像中存在大量的信息冗余,如空间 冗余、时间冗余、频率谱冗余、符号冗余、视觉冗余等,对不同的冗余信息有不同的压 缩方法,例如空间冗余可以通过离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m ,d c t ) 和 离散小波变换( d i s c r e t ew a v e l e tt r a n s f o r m ,d w i 、) 等变换来去除。时间冗余可以通 过帧间预测去除。在视频图像中,因为相邻帧之间的变化是缓慢的,尤其是背景部分几 乎爿i 变,所以在图像的相邻像素、相邻行和相邻帧间存在很强的相关性,这种相关性就 表现为空间冗余和时间冗余,视频压缩就是要用适当的方法去除这些大量存在的时间冗 余和空间冗余。 1 9 4 8 年提出电视信号数字化后,人们就开始了对图像压缩编码的研究工作,至今 已有五十多年的历史,在开始的二十年闯,人们仅对帧内线性预测编码和亚抽样内插复 原法进行研究,对视觉特性也做了有限但极为可贵的工作。7 0 年代开始进行帧间预测 基于小波域的视频压缩编码 编码的研究,8 0 年代初开始对做运动补偿( m o t i o nc o m p e n s a t i o n ,m c ) 所用的运动估 计( m o t i o ne s t i m a t i o n ,m e ) 进行研究,变换编码是1 9 6 8 年由h c a n d r e w s 等人提出, 采用的是二维傅里叶变换,此后相继出现了用其它变换方法的变换编码,如d c t 和d w t 。 数字视频和图像压缩编码技术的研究,已历经半个世纪,在理论和工程上都取得了 很多成果。进入2 0 世纪9 0 年代,在国际标准化组织( i n t e r n a t i o n a ls t a n d a r d i z a t i o n o r g a n i z a t i o n ,i s o ) i s o 和国际电信联盟( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o n u n i o n ,i t u ) i t u 等国际组织的协调下,对视频和图像编码的成果进行了收集、整理、 综合和加工,制定了几个通用的压缩编码标准,包括适用于二值图像的j b i g 、用于连 续灰度和彩色静止图像的j p e g ( j o i n tp i c t u r ee x p e r t sg r o u p ,简称j p e g ) 、用于6 4 k 视频传输的h 2 6 1 、面向1 5 m 数字视频和音频传输及存储的m p e g l ( m o v i n gp i c t u r e e x p e r t sg r o u p ,简称m p e g ) ,面向高品质数字视频和音频传输及存储的m p e g 一2 ,以及 适于低码率视频编码的h 2 6 3 。这些标准的算法主要由四类技术混合构成,即运动补偿、 正交变换、量化和熵编码。 1 9 9 9 年和2 0 0 1 年分别有了m p e g 4 的版本i 和版本2 ,m p e g 4 的主题是“音视频对 象编码”( c o d i n go fa u d i o v i s u a lo b j e c t s ) ,而它初始的名称是“甚低比特率音频 视频编码”( v e r yl o wb i tr a t ea u d i o v i s u a lc o d i n g ) 。开始时,m p e g 4 的目标是支 持在低比特率信道上的数字视频、音频应用,比如用移动电话或固定电话进行可视电话 或视频会议。但是,随着因特网技术的盛行,出现了新的需求和可能的应用,如交互性、 不同网络不同平台之间的互操作性。码率限制的消失意味着更宽广的适用码率范围,而 把“视音频编码”转变为对“视音频对象”的编码则是工作目标质的飞跃。 继m p e g 一4 以后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜 索。针对这个矛盾,m p e g 提出了解决方案- - m p e g 一7 。m p e g - 7 希望规范地给出所谓的“多 媒体内容描述接口”,能够快速有效地搜索出用户所需的不同类型的多媒体资料。于 1 9 9 9 年1 0 月确定的m p e g - - 2 1 标准的研究目标则是希望将协议、标准、技术等不同的 组件有机地结合起来,提供一个安全统一的,跨平台的,用于信息的制作、发布、处理 等功能的框架平台,称为集成的统一多媒体框架。 1 2 数字视频压缩的国际标准 数字视频压缩编码技术经过近几年的研究和发展已经慢慢走向成熟,i s o 和i t u 制 定了一系列视频压缩国际标准。由i t u 制定的标准主要针对是使视频通讯的应用,如视 频会议和可视电话,他们以h 2 6 1 3 l 命名;而由i s o 和i e c ( i n t e r n a t i o n a l e l e t r o t e c h n i c a lc o m m u s s i o n ,国际电工委员会) 的共同委员会中的m p e g 活动影像专家 组( m o v i n gp i c t u r ee x p e r t sg r o u p ,简称m p e g ) 制定的标准主要针对视频数据的存储, 广播电视和视频流的网络传输的,以m p e g 命名。其中m p e g 一1 、m p e g 一2 视频编码已广泛 2 基于小波域的视频压缩编码 在v l s i 硬件与软件上实现,成为各大公司产品积极遵循的标准。 a h 2 6 1 建议和h 2 6 3 建议 h 2 6 1 1 标准是由i t u t 第十五研究组为在窄带综合业务数字网( n - i s d n ) 上开展 双l 句声像业务( 会议电视、可视电话) 而制定的,它是视频压缩方面提出的第一个标准, 目标是把数字视频速率压缩到6 4 k b s 2 ,0 4 8 m b s ,因此也称为p 6 4 标准( p = l 3 0 ) 。 l i 2 6 1 只对c i f 和q c i f 两种图像格式进行处理,编码算法由o c t ( 离散余弦变换) 、 运动补偿和霍夫曼编码组成,由于该标准用于实时业务,为减小编解码延时,它的帧间 预测只采用了前向预测( 即p 帧预测) 。 为了满足近年来在普通公用电话网和移动电话网上进行可视电话通信的需要,即视 频压缩信号速率小于6 4 k b s ,i t u t 在h 2 6 1 建议基础上进行改进,于9 5 年提出了h 2 5 3 建议 2 一“甚低码率通信的视频编码”。它与h 2 6 1 的主要区别就是引进了半像素精 度的运动估计,添加了一些可选项,如双向预测的b 帧、用基于句法的算术编码代替霍 夫曼编码等等。 b j p e g 标准 j p e g 3 ( j o i n tp h o t o g r a p h i ce x p e r t sg r o u p ) 是联合图像专家小组的英文缩写。 这个小组升发研制除连续色调、多级灰度、静止的数字图像压缩编码方法,这个压缩编 码方法称为 p e g 算法,被确定为5 p e g 国际标准。它是以d c t 变换和变长编码为基础的。 j p e g 标准不仅适用于静止图象的编码,也同时适用于运动图像的帧内图像的编码。 g m p e g 标准 m p e g 委员会的活动始于1 9 8 8 年,其目标是对视频及其伴随的音频,对数字存储媒 质制定个标准。 m p e g 一1 4 于1 9 9 2 年正式发布,它的主要指标是:在数字存储介质中实现对活动图 像和声音的压缩编码,编码码率最高为每秒1 5 兆比特,标准的正式规范在 s o i e c il1 7 2 中。m p e g 一1 所支持的输入图像格式是s i f 格式。s i f 有5 2 5 6 2 5 两种格 式:3 5 2 x2 4 0 3 0 和3 5 2 2 8 8 x2 5 。m p e g 一1 是一个开放的,统一的标准,在商业上获 得了巨大的成功。尽管其图像质量仅相当于v h s 视频的质量,还不能满足广播级的要求, 但已广泛应用于v c d 等家庭视像产品中。 m p e g 一2 5 可理解为m p e g 一1 的迸一步发展,它选择的速率是4 l o m b s ,m p e g 一2 的 成功之处在于开发了通用的压缩编码方法,是一种以“档次”( p r o f i l e ) 和“等级”( 1 e v e l ) 为基础的规范化全系统,可满足不同的图像分辨率和存储成本和处理速度的需要。 m p e g 一2 主要应用于广播电视、d v d 以及高清晰度数字电视( h d t v ) ,还可应用于交互式 的点播视频( v o d ) ,此外,还能适配于a t m 这种新兴的宽带通信网。 基于小波域的视频压缩编码 m p e g 一4 6 为多媒体应用标准( 1 9 9 9 年发布) ,它在m p e g 一2 基础上作了很大的扩充, 主要目标是多媒体应用( 主要侧重于对多媒体信息内容的访问) 。它的主要特点是对图像 中的内容进行编码,其具体的编码对象就是图像中的音频( a u d i o ) 和视频( v i d e o ) , 称为a v 对象。高效率地编码、组织、存储、传输a v 对象,是m p e g 一4 标准的基本内容。 m p e g 一4 具有开放的编码系统,可以随时加入新的有效算法,为多媒体数据提供了一个 更为广阔的平台,它定义的是一种格式、一种构架,而不是具体的算法。 m p e g 一7 7 称为“多媒体内容描述接口”,其应用包括数字图书馆( d a t a l i b r a r y ) 、 图像分档、音乐词典、多媒体编辑等。其目的是生成一种用来描述多媒体内容的标准, 这个标准将对信息含义的解释提供一定的自由度,可以被传送给设备和电脑程序,或者 被设备或电脑程序查取。m p e g - 7 并不针对某个具体的应用,而是针对被m p e g 一7 标准化 了的图象元素,这些元素将支持尽可能多的各种应用。建立m p e g 一7 标准的出发点是依 靠众多的参数对图象与声音实现分类,并对它们的数据库实现查询,就象我们今天查询 文本数据库那样。 1 3 研究内容和章节安排 1 3 1 主要工作 本文对视频压缩编码系统进行了全面的研究,主要工作可分为两部分:基于空间域 的视频编码系统和基于小波域的视频编码系统。对第一部分,重点研究了空间域的运动 估计技术、d c t 变换编码和二维霍夫曼编码;第二部分重点研究了基于小波域的多分辨 率运动补偿、图像在小波域内的编码和预测误差图像的编码。以上各部分均进行了算法 仿真。 研究工作分为以下四个阶段进行: 1 ) 阅读有关图像和视频压缩编码的书籍和文献,熟悉视频编码系统的原理,学习了 j p e g 、h 2 6 x 和m p e g x 系列的国际视频压缩标准,对整个视频编码的发展和实现流程 有了总体上的认识,并了解其关键技术。 2 ) 对空间域的视频编码进行了研究,建立了实验用的软件平台,在此基础上,对 整个编码系统包括运动估计、d c t 变换编码和二维霍夫曼进行了算法仿真,并对目前先 进的运动估计技术进行了分析和研究。 3 ) 学习小波变换的有关知识,掌握了小波域内静止图像编码的两个优秀的经典算 法e z w 和s p i h t ,编程实现了这两个算法并进行了性能对比。 4 ) 对小波域的视频编码进行了研究,重点研究了基于小波域的多分辨率运动补偿 ( m r m e ) 、预测误差的熵编码,提出种改进的编码方案。同时对整个系统进行了算法 仿真,并和基于空间域的视频编码进行了比较。 基于小波域的视频压缩编码 5 ) 对小波变换中由于下抽样引起的空间移变性( s h i f t - - v a r i a n c e ) 进行了研究, 并对克服这种移变性的运动估计算法进行了探讨,实现其经典算法l b s 。并在论文后期 对小波域内的三维视频编码进行了归纳总结。 1 3 2 章节安排 论文全文共分五部分,第一部分为绪论,简单介绍了视频编码技术的发展、应用, 视频编码的国际标准。第二部分介绍了视频编码的基本原理和方法,详细论述了视频编 码中所使用的一。些关键技术,另外,对适用于不同场合的编码技术进行了简单介绍。第 三部分重点沦述了小波变换的基本原理,对小波变换的快速算法、图像的小波变换,图 像小波变换中小波系数的选择进行了分别介绍;讨论了基于小波域的图像编码原理,重 点介绍了两个小波图像编码的经典算法:e z w 和s p i h t ;对基于小波域的运动估计算法 和小波变换存在的移变性进行了详细分析,介绍了多分辨率运动补偿( m r m e ) ,低子带 位移运动估计( l b s ) 和三维运动估计( 3 d w t ) 。第四章是实验结果和分析,列出了以上 各章所涉及到的有关算法的仿真结果,进行了性能比较和分析。最后是对本文工作的总 结和视频压缩算法的研究展望。 基于小波域的视频压缩编码 2 视频压缩编码的基本原理和方法 图像编码经过了近五十年的发展,取得了很多成果,随着一系列图像编码国际标准 的制定,这项技术开始真正走向实用化和产业化,超大规模集成电路技术的发展,使得研 制出集成度更高、性能更好的图像编解码专用芯片成为可能,同时,近年来人们对多媒 体信息需求的高速增长也有力地促进了图像编码技术的进步。目前的视频压缩标准大都 是基于空间域运动估计和d c t 变换的编码技术,随着对小波变换认识的逐渐深入,人们 越来越多地将注意力投向基于小波域的图像编码,并在静止图像压缩标准j p e g 2 0 0 0 中 融入了小波变换,对视频图像在小波域中的压缩也取得了很大成果。 本章着重介绍基于视频压缩的基本原理和方法,包括典型的视频压缩的编解码系统 及其关键技术,对运动估计作了详细论述,并简要介绍了经典编码方法和“第二代”编 码方法。 2 1 数字视频压缩的可能性和必要性 数字视频的数据量非常巨大,如果不经压缩,数字图像传输所需的高传输速率和数 字图像存贮所需的巨大容量将成为推广应用数字图像通信的最大障碍,这就是为什么要 进行图像压缩编码的根本原因。 图像数据可以压缩有几方面的原因。首先,原始图像数据是高度相关的,存在很大 的冗余度。数据冗余造成比特数浪费,消除这些冗余就可以节约码字,也就是达到了数 据压缩的目的。大多数图像内相邻像素之间有较大的相关性,这称为空间冗余度。运动 图像相邻帧之间也有很强的相关性,这称为时间冗余度。其次,若用相同码长表示不同 出现概率的符号也会造成比特数的浪费,这种浪费称为符号冗余度。如果采用可变长编 码技术,对出现概率高的符号用短码字表示就可以节省码字。 在视频序列中,主要存在两种冗余信息,一种是帧内图像的冗余即空间冗余,另一 种足帧与帧之f n j 的冗余也即时间冗余。视频压缩技术的关键就是去除这两种冗余信息。 空间上的压缩可以采用j p e g 静止图像压缩标准,而对于帧间冗余的去除则是通过帧问 运动补偿技术来实现的。采用帧间预测编码可以减少时间域上的冗余度,提高压缩比。 如果将上一帧相同空间位置处的像素作为待编码的当前帧的预测值,这种预测对图像中 的静止背景部分将是十分有效的,但对于运动部分,这种不考虑物体运动的简单的帧间 预测效果并不好。如果通过某种方法在对当前某像素( 和像素块) 进行预测时知道这个 像素( 和像素块) 是从上一帧的哪个位置移动过来的,在做预测时以那个位置上的像素 值作为预测值,则预测的准确度将会大大提高。这就是视频编码中广泛使用的运动估计 技术,我们就在后面详细介绍。 允许图像编码有一定的失真也是图像可以压缩的一个重要原因,在许多场合下,并 6 基于小波域的视频肚缩编码 不要求经过压缩及复原以后的图像和原图完全相同,而允许有少量失真。只要这些失真 并不被人眼所发觉,在许多场合下是完全可以接受的,这就给压缩比的提高提供了十分 有利的条件。如果f i c h u 用人眼的视觉特性,就可以在保证所要求的图像主观质量的前提 下实现较高的压缩比,这就是利用了视觉冗余。其实人类的视觉系统( t t v s ) 是有缺陷 的。对某些失真不敏感,难以觉察。一个图像编码方法如果能充分利用这些特性,就可 取得较好的效果。人眼对颜色的空间分辨率低于对亮度信号的分辨率,在c c i r 6 0 1 标准 中,y :u :v 可选用4 :2 :2 就是利用了这个特性,将色差信号的空间分辨率减半,仍可 得到质量非常高的图像,如果将它和三个分量都是8 b i t 的方案相比,得到2 4 :1 6 即3 : 2 的压缩比,而图像主观质量几乎没有降低。 此外,还可以利用先验知识实现图像编码,在某些特定的场合,编码对象的某些特 性电预先知道,比如在可视电话中,编码对象为人的头肩像,这时,可以利用编码对象 的先验知识为编码对象建立模型,通过提取模型参数,对参数进行编码而不对图像直接 进行编码,可以达到很高的压缩比。这是模型编码的基本思想,在这里也是利用了知识 冗余。 2 2 对应不同冗余信息采用的压缩方法 1 9 4 8 年,0 1 i v e r 提出了第个编码理论一脉冲编码调制( p u l s ec o d i n g m o d u l a t i o n ,简称p c m ) ;同年,s h a n n o n 的经典论文一“通信的数学原理”首次提出并 建立了信息率失真函数概念;1 9 5 9 年,s h a n n o n 进一步确立了码率失真理论,以上工作 奠定t g 息编码的理论基础。主要编码方法有预测编码、变换编码和统计编码,也称为 三大经典编码方法。 2 2 1 经典编码方法 a 变换编码 变换编码的基本思想是;由于数字图像像素间存在高度相关性,因此可以进行某种 变换来消除这种相关性,这种变换通常是对像素进行另一种描述,或变换到另一种空间 中,变换编码实际上去除的是图像的空间冗余。目前存在很多的变换方法,如d c t 变换、 k l 变换、d w t 变换和w a l s h 变换等,实际应用最多的就是d c t 变换和d w t 变换。目前, 国际上已经制订了基于离散余弦变换的静止图像压缩标准j p e g 和运动图像压缩标准 m p e g 等一系列标准,更新的静止图像压缩标准j p e g 2 0 0 0 则是应用了效果更好的d w t 变 换,基于d w t 的运动图像编码也已经取得了很多成果。 7 基于小波域的视频压缩编码 b ,预测编码 预测编码的基本思想是:根据数据的统计特性得到预测值,然后传输图像像素与其 预测值的差值信号,使传输的码率降低,达到压缩的目的。预测编码方法简单经济,编 码效率较高。 一般常见的图像,在相邻像素间和相邻行间,存在较强的空间相关性,在相邻帧之 间存在较强的时间相关性。从统计意义上来讲,这些邻近像素值之差很小,因此,其方 差就比较小,量化器的动态范围和量化分层数都相应减少,所以每个像素的编码比特数 也可以减少,达到压缩数据的目的。这种方法的优点在于硬件实现简单,缺点是易于出 现误码扩散。 视频编码中广泛采用的运动补偿技术事实上也是种预测方法,它是种基于像素 块的帧与帧之问的预测,从实际应用来看是一种很有效的方法。 g 统计编码 统计编码的基本思想是:主要针对无记忆信源,根据信息码字出现概率的分布特征 面进行压缩编码,寻找概率与码字长度间的最优匹配,统计编码消除的是数据中的符号 冗余。常用的统计编码有游程编码、h u f f m a n 编码和算术编码三种。 以上列举出的一些经典编码技术可以称为“第一代”视频( 图像) 编码技术。这些 编码技术都是非常优秀的纹理编码方案,它们能够在中等压缩率的情况下,提供非常好 的图像质量,但在非常低的位率情况下,无法为一般的序列提供令人满意的质量。八十 年代初期,“第一代”编码技术已经达到了顶峰,这类技术去除客观和视觉冗余信息的 能力已接近极限。究其原因是由于这些技术都没有利用图像的结构特点,因此它们也就 只能以像素或像素块作为编码的对象,另外,这些技术在设计编码器时也没有考虑人类 视觉系统的特性。 2 2 2 “第二代”编码方法 为了克服“第代”视频( 图像) 编码技术的局限性,k u n t 等人于1 9 8 5 年提出了 “第二代”视频( 图像) 编码技术。他们认为,“第一代”编码技术只是以信息论和数 字信号处理技术为理论基础,旨在去除图像数据中的线性相关性的一类编码技术。其压 缩比不高,大约在i 0 :l 左右。而“第二代”编码技术不局限于信息论的框架,要充分 利用人的视觉生理、心理和图像信源的各种特征,实现从“波形”编码到“模型”编码 的转变,以便获得更高压缩比。其压缩比多在3 0 :l 至7 0 :l 之间,有的甚至高达 1 0 0 :i 。“第二代”编码方法主要有:基于分形的编码、基于模型的编码、基于区域分 割的编码和基于神经网络的编码等。 基于小波域的视频压缩编码 “第二代”编码方法充分利用了计算机图形学、计算机视觉、人工智能与模式识别 等相关学科的研究成果,为视频( 图像) 压缩编码开拓出了广阔的前景。但是由于“第 二代”编码方法增加了分析的难度,所以大大增加了实现的复杂性。从当前发展情况来 看,“第二代”编码方法仍处于深入研究的阶段。例如,分形法由于图像分割、迭代函 数系统代码的获得是非常困难的,因而实现起来时间长,算法非常复杂。模型法则仅限 于人头肩像等基本的视频( 图像) 上,进一步的发展有赖于新的数学方法和其它相关学 科的发展。神经网络的工作机理仍不太清楚,硬件研制不成功,所以在视频( 图像) 编 码中的应用研究进展缓慢,目前多与其他方法结合使用。但由于巨大压缩性能的潜力, 人们都在致力于这些新方法的研究之中。 近年来,出现了类充分利用人类视觉特性的“多分辨率编码”方法,如子带编码、 塔形编码和基于小波变换的编码。这类方法使用不同类型的一维或二维线性数字滤波 器,对视频( 图像) 进行整体的分解,然后根据人类视觉特性对不同频段的数据进行粗 细不同的量化处理,以达到更好的压缩效果。这类方法原理上仍属于线性处理,属于“波 形”编码,可归入经典编码方法,但它们又充分利用了人类视觉系统的特性,因此可以 被看作是“第一代”编码技术向“第二代”编码技术过渡的桥梁。 2 3 视频压缩编码的原理框图 目前大部分的视频压缩标准都采用了基于运动估计和d c t 变换的混合编码方式,图 2 1 列出了典型的编解码过程。 码速控制 图2 1 典型视频压缩的编码过程 f i g 2 1t h et y p i c a lv i d e oc o m p r e s s i o nc o d i n g 输出码流 视频压缩的编解码包括两种编码模式:帧内编码模式( i n t r a f r a m e ) 和帧间编码模 式( i n t e r f r a m e ) 。帧内编码也即静止图像编码,可以遵循j p e g 压缩标准,它包括分块 9 基于小波域的视频压缩编码 d c t 变换、量化和变长编码三个部分,编码后的码流先放入缓存,待缓存区满便将码流 输出。同时量化后的数据又经反量化、反d c t 变换得到恢复图像并放入帧缓存,作为下 一帧运动估计时的参考帧,解码端将接收到的压缩码流进行逆过程重建图像,并将此图 像放入帧缓存作为重建下一帧时的参考帧。需进行帧问编码的帧,首先和帧缓存中的参 考帧作运动估计,褥到运动矢量,参考帧用此矢量作运动补偿得到预测图像,原始图像 和预测图像作差得到预测残差,然后再将此预测残差同样作分块d c t 变换、量化和变长 编码送入缓存,前面得到的运动矢量也要编码送入缓冲。同时将量化后的预测残差再经 反量化、反d c t 变换和前面得到的预测图像求和作为当前帧的恢复图像放入帧缓存作为 下一帧图像的参考帧。在解码端,解码后的码流包括两部分:运动矢量和预测残差。将 缓冲中的参考帧利用运动矢量作运动补偿,然后和预测残差相加,就得到当前帧的恢复 图像,同样将这幅图像放入缓冲作为下一帧图像的参考图像。 a 视频图像的输入格式 对于彩色模拟电视,目前世界上一共存在三种制式:p a l ,n t s c 和s e c a m 制,数字 视频的输入格式就是要将他们统一起来,形成标准的输入格式。根据各个视频压缩标准 对图像分辨率要求不同,就有多个视频输入格式,也就是说图像中亮度信号y 和色差信 号u 和v 的采样率是各不相同的,帧频也有所不同。例如h 2 6 1 采用一种“公共中间格 式”c i f ,编码器只对c i f 格式的图像进行编码。c i f 规定y 大小为3 5 2 2 8 8 ,u 、v 为 1 7 6 1 4 4 ,帧频为2 9 。9 7 h z 。除此之外还有q c t f 格式,它的分辨率为c i f 的1 4 ,这种 格式适用于低码速率的场合。又如m p e g - 1 采用了s i f 格式,它有3 5 2 2 4 0 3 0 和3 5 2 2 8 8 2 5 两种类型,二者数据量相同。m p e g 一2 根据分辨率不同分为四个级别:低级 ( l o w l e v e l ) 、主级( m a i n l e v e l ) 、1 4 4 0 高级( h i g h 一1 4 4 0 l e v e l ) 和高级( h i g h l e v e l ) ,它们 又有各自不同的格式。 b 编码单元和图像类型 h 2 6 1 和m p e g 视频图像数据流是一个分层结构,目的是把位流中逻辑上独立的实 体分开,防止语义模糊,并减轻解码过程的负担。对分层的要求是支持通用性、灵活性 和有效性。m p e g 遵循的层次化的数据结构,包括一个表头、一个或多个图像组( g r o u p o fp i c t u r e ,g o p ) 及序列的结束标志码。g o p 由一系列图像组成,图像是视频序列中的 主要编码单元,而图像再划分成条带( s l i c e ) ,由一个或多个从左到右、自上而下的连 续宏块组成。类似于h 2 6 1 ,m p e g 宏块包括4 个8 8 的亮度块和两个8 8 的色差块, 是图像层编码的基本单元。 m p e g 视频位流分层结构如下图所示。共包括六层,每一层支持一个确定的函数, 或者是一个信号处理函数( d c t ,运动补偿) ,或者是一个逻辑函数( 同步,随机存取 1 0 基于小波域的视频压缩编码 点) 等。 图像序列层( 随机存取单元:上下文) 图像组层( 随机存取单元:视频编码) 图像层( 基本编码单元) 宏块片层( 重同步单元) 宏块层( 运动补偿单元) 块层( d c t 单元) 图像序列头l 图像组i 图像组i 1图像组l图像尾j 图像序列层 图像组头l 图像( i p b ) l 图像( i p b ) l 1 图像( i p b ) j 图像组层 图像头i 皇g y a h l ( m b s ) l 宏块片j - l 宏块片l 图像层 宏块片头l 宏y a ( m b ) l宏块l 一l宏块1 宏块片层 8 + 一 8 + y 圈囤宏块层 c rc b 圈 块层 图2 2m p e g 视频位流分层结构圈 f i g 2 2t h eh i b e r a r c h yo f v i d e ob i t s t r e a m si nm p e g 视频压缩编码有两种编码模式:帧内编码和帧间编码,对帧内编码帧称为i 帧,帧 间编码帧又分为预测编码帧( p 帧) 和双向预测内插编码帧( b 帧) 。p 帧和b 帧都是利 用运动补偿技术的预测帧,p 帧是用刚刚过去的i 帧或p 帧图像来预测,因此又称为前 向预测帧,同时p 帧又可以用来预测b 帧或下一个p 帧,所以其编码误差会扩散,所以 每隔一定的帧数要插入一个i 帧。 但在当前图像中,并非所有的信息均可通过前向的i 帧或p 帧来预测,例如一扇门 刚打开时所显露的景物,是不可能从开门前那些图像预测出来得所以在m p e g 引入了 双向预测帧( 即b 帧) ,就能够利用非因果的后向预测来对付那些在没有在过去的图像 中出现而当前正显露出的图像区域,从而提高压缩效率,。m p e g 中这些帧的组织结构是 十分灵活的,图2 3 示出了1 2 帧图像为一组的g o p 结构及其帧间编码方式,它4 1 的组 合可由应用规定的参数决定。 基于小波域的视频压缩编码 图2 3 图像组结构及其帧间编码模式 f i g 2 3g r o u po f p i c t u r e sa n di n t e r f r a m ec o d i n gm o d e 2 4 视频编码的关键技术 从视频编解码系统框图可以看出,它包括分块d c t 变换、量化、熵编码、运动估计、 运动补偿和编码控制等部分,另外附有量化表和熵编码表。 a 分块离散余弦变换d o t 在编码器的输入端,原始图像被分成8 x 8 的小块,并且把【o ,2 v 一1 】范围内的无符 号数变成卜2 ”,2 r 1 】范围的有符号数,将它们作f d c t ( d c t 正变换) ,f d c t 把原始图像 中8 8 的小块分解成6 4 个正交基信号,输出是6 4 个正交基信号的幅值,形成8 8 的d c t 系数块,这些系数是二维频域“,v 的函数,对应u = v = 0 ,也就是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论