(应用数学专业论文)基于内容的人脸图像压缩算法.pdf_第1页
(应用数学专业论文)基于内容的人脸图像压缩算法.pdf_第2页
(应用数学专业论文)基于内容的人脸图像压缩算法.pdf_第3页
(应用数学专业论文)基于内容的人脸图像压缩算法.pdf_第4页
(应用数学专业论文)基于内容的人脸图像压缩算法.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学硕士学位论文:基于内容的人脸图像压缩算法 基于内容的人脸图像压缩算法 专业:应用数学 姓 名:李 星 指导老师:赖剑煌教授 摘要 由于计算机视觉、信号处理技术和移动通讯技术的快速发展,人脸图像已受 到越来越多的重视。就人脸图像压缩编码方面,人们的兴趣主要集中在了可以编 码和解释人脸图像的系统的广泛应用上。而目前我国实际应用中的网络环境并不 理想,限制了图像传输和视频会议等的应用。 本文主要致力于研究在低带宽传输网络中,以基于内容( c o n t e n t b a s e d ) 的图像压缩算法将人脸图像以较高的压缩率进行更有效的传递,并主要作了以下 三方面的工作: 第一,对人脸图像引入了基于内容的压缩算法。由于人类对于影像所赋予的 注意力会根据一些特征或性质的不同而有所不同,本文的方法可根据 需要选择一小部分的人脸特征区域,对其进行压缩编码。 第二,建立了人脸图像重建模型。在接收端接收到压缩码流后,可利用k l 变换加最小二乘法的方法,通过少部分的特征重建原人脸图像全部纹 理信息。 第三,构造了低带宽传输网络中的人脸图像压缩系统。在发送端输入人脸图 像后,可利用已有的方法检测出其中的人脸图像提取特征点将图像 进行形状归一化处理,再选择一小部分的特征区域,对其纹理进行压 缩编码。接收端使用上述重建模型,由所传输的码流重建出整幅人脸 图像。 本文所进行的研究工作是在f e r e t 数据库中随机选取1 8 0 幅图像作为训练图 像,另有3 6 幅作为测试图像。通过选择不同的人脸特征,可达到较高的压缩比, 并且重建后的人脸图像仍保持较好的质量。 关键词:人脸图像压缩编码,基于内容的压缩算法,k l 变换,最小二乘法 中山大学硕士学位论文:基于内容的人脸图像压缩算法 c o n t e n t b a s e dc o m p r e s s i n gm e t h o do f f a c ei m a g e s m a j o r :a p p i i e dm a t h e m a t i c 8 n a m e :l ix i n g s u p e r v i s o r : l a ij i a n h u a n g a b s t r a c t a l o n gw i t ht h er e c e n tp r o g r e s so ft h ec o m p u t c rv i s i o n ,s i g n a lp m c e s s i n ga n d m o b i l ec o m m u n i c a t i o n , n o w a d a y s , c o m p r c s s i n ga n de n c o d i n g o ff a c i a l i m a g e s b e c o m e san a t u r a lr c q u i r e m e n tf o rt h ea p p l i c a t i o ni nv i d e o c o n f e r e n c ea n di m a g e t r a n s m i s s i o na tr e d u c e db i t r a t e s r nt h i sp a p e lw ed i s c u s sas y s t e mu s i n gac o n t c n t _ b a s e dm e t h o dt ot r a n s f c rf a c e i m a g e si nal o wr a t en e ta n dm a i n l yp u tf o r w a r dt 1 1 r e ea s p e c t so fw o r k sa sf o l l o w s : ( 1 ) ac o n t e n t _ b a s e dc o m p r e s s i o nm e 山o di si n t r o d u c e dt of a c ei n l a g ep m c e s s i n g b a s e do nt h ef a c tt h a tp e o p l ep a i dd i - e r e n ta t t e n t i o nt 。t h ei m a g ew i t h v a r i o u sf e a t u r e sa n dc h a r a c t e r i s t i c s ,i nm i sp a p e rw eu s eam e t h o dt oc h o o s e s p e c m ca r e a sf r o mt h ef a c et h a tw ea r ei n t e r e s t e di n ,t h e nc o m p r e s sa n d e n c o d en l e s et e x t u r e s ( 2 ) ar e c o n s t r u c t i o nm o d e li sb u i l tf o rf a c ei m a g e s w h e nt h er e c e i v e r sg e tt h e c o m p r e s s i o nc o d cs t r e a m s ,m e yc a nr e c o n s t r u c tf a c i a lt e x t u r e sw i t hp a r t i a l a r e a so ft h er e f e f e n c ef a c ei m a g eb yk lt r a n s f o 呻a t i o na t l d l e a s t s q u a r e r i l i n i r n j z a t i o n ( l s m ) w i t hah j g hc o m p r e s s i o nr a t i o ( 3 ) ac o m p r e s s i o ns y s t e mi sd e s c r i b e df o rf a c ei m a g e sa tl o w - b a n d w i d t hn e tf o r d a t an a n s r n i s s i o n u s l n gt h ee x i s t i n gm e m o d s ,w ea r ea b i et od e t e c tt h ef h c e f r o mi t sb a c k g r o u n da n de x t r a c tf e a t u r ep o i n t ss oa st on o r m a l i z ei t ss c a l ea n d g e o m e t r yf r o mt h et r a n s r n j t t e la n dt h e nc h o o s ei n t e r e s t i n gl o c a ir e g i o n st o e n c o d ea n dm m s r i l i t a sar e s u l t ,u s i n gt h er e c o n s t r u c t i o nm o d e l ,山ew h o l e f a c ei m a g ei sr e c o n s t m c t e db yt h er e c e i v e r i 中山大学硕士学位论文:基于内容的人脸图像压缩算法 f mt h ef e r e td a t a b a s e ,w et a l ( e1 8 0i m a g e sa tr a i l d o mf o r t r a i n i n ga n d3 6 i m a g e sf o rt e s t i n g b yc h o o s i n gd i f f e r e n tf e a t u r e s ,ah i g h e rc o m p r e s s i o nr a t i oc a nb e r e a c h e da n dt h er e c o n s t m c t e di m a g e sa r es a t i s f i e d k e y w o r d s :c o m p r e s s i n g a n d e n c o d i n go ff a c i a li m a g e s ,( b n t e n t - b a s e dc o m p r e s s i o n k l t r a n s f o m l ,l e a s t s q u a r em i n i f i l i z a t i o n ( l s m ) 中山大学硕士学位论文:基千内容的人脸图像压缩算法 1 1 研究背景及意义 第1 章引言 二十世纪八十年代之前,图像编码方法主要基于传统的信息理论和数字信号 处理技术来降低图像的冗余度。主要编码方法有预测编码、变换编码和统计编码, 也称为三大经典编码方法。这些编码技术都是非常优秀的纹理编码方案。八十年 代初期,“第一代”图像编码技术已经达到了顶峰,这类技术去除客观和视觉冗 余信息的能力已接近极限。它们能够在中等压缩率的情况下,提供非常好的图像 质量,但在非常低的位率情况下,无法为一般的序列提供令人满意的质量。究其 原因是由于这些技术都没有利用图像的结构特点,因此它们也就只能以像素或块 作为编码的对象。另外,这些技术在设计编码器时也没有考虑到人类视觉系统的 特性。 随着人们对多媒体交互性的要求越来越高,有时人们只对图像的某一区域的 内容感兴趣,希望只编码传输该区域的内容。例如,网上户籍管理系统中,可以 只编码传输照片中的头肩像信息,而忽视背景。同时还希望接收端在解码的同时, 可以对比特流进行简单操作,以改变重建图像的大小、位置、旋转角度等,或将 其加入到另一幅图像场景中。 为了克服“第一代”图像编码技术的局限性,同时也为了满足越来越高的人 机交互性要求,1 9 8 5 年k u n t 等人提出了第二代图像编码技术 1 。这些技术是 基于内容的,不局限于信息论的框架,更充分地利用了人的视觉、心理和图像信 源的各种特征,实现了从“波形”编码到“模型”编码的转变,以获得更高压缩 比。其压缩比多在3 0 :l 至7 0 :1 之间,有的甚至高达1 0 0 :1 。第二代”编码 方法主要有:基于分割( s e g m e n t a t i o n _ b a s e d ) 的编码、基于对象( o b j e c t _ b a s e d ) 的编码、基于模型( m o d e l _ b a s e d ) 的编码等 2 。 一、 基于分割( s e 蛐e n t a t i o n - b a s e d ) 的编码 一般来说,基于分割的编码主要有三个主要步骤:预处理,分割,轮廓及纹 理的编码。预处理将采样过程中的噪声去掉。分割方法是关键,它直接影响图像 中山大学硕士学位论文:基于内容的人脸图像压缩算法 编码的效果。其主要出发点是将图像分割为目标和背景,目标由其形状、运动和 颜色参数来描述。若采用2 d 模型,则形状参数仅仅描述目标的投影。每一帧的 目标参数都要根据运动和形状分析的结果来调整。通常这些技术用于运动内插和 运动补偿,并且与d p c m 和d c t 技术相结合用于编码目标的颜色。到目前为止, 已经提出并应用了很多非常好的分割方法 3 。按照不同的分割方法所分类的编 码技术包括:区域增长( r e g i o ng r o w i n g ) 的编码方法 4 、基于区域分割与合 并( s p l i t - a n d m e 喀e - b a s e d ) 的方法 5 、基于分形( f r a c t a l - b a s e d ) 的方法 6 等。 二、 基于对象( o b j e c t - b a 8 e d ) 的编码 1 9 8 9 年德国h a n n o v e r 的m u s m a n nh g 教授等人提出了将图像合理划分成 物体、背景等与实际景物相对应的对象平面( o b j e c tp 1 a n e ) 然后对各对象平面 的形状、纹理和运动分别进行编码 7 。基于对象的编码是将图象中的物体分割 出来作为视频对象,以视频对象为单位进行编码。例如,目前m p e g 一4 中的视频 对象包括:自然视频对象、s p r i t e 对象、2 d 网格对象、3 d 人脸和身体对象、静 态的纹理对象、3 d 网格对象和音频对象等。 基于对象编码的原理图如下图所示: 图卜1 :基于对象编码的原理图 三、 基于模型( m o d e 卜b a s e d ) 的编码 基于模型的方法,是在编码端通过各种分析手段,提取所建模型的特征与状 态参数a 在解码端依据这些参数,通过模型及相关知识生成所建模的信源。这类 中山大学硕士学位论文:基于内容的人脸图像压缩算法 方法是把计算机视觉和计算机图形学中的方法应用到视频( 图像) 编码。 基于模型的编码可以看作是一种特殊的基于对象的编码,此时对象的结构更 复杂,除了在对象的边界存在形状特征外,在对象的纹理区域也存在一定的结构, 这些结构信息通过网格模型的内部节点和边来表示。 基于模型的编码的原理图如下所示: 圈圆 1 - 1 分析过程- i 合成过程卜 j f网刁f l 图像模型li 数据ii 图像模型i 图1 2 :基于模型编码的原理图 1 9 9 9 年i s 0 和c c i t t 发布了m p e g 一4 标准的第一、二版,采用了基于对象的编 码和基于模型的编码等第二代编码技术,并将基于合成的编码方案也结合在标准 中。首次提出并实现了基于内容的交互性,可伸缩性和可扩充性。这种编码是一 种基于内容的数据压缩方式,以前的压缩算法只是去掉帧内和帧间的冗余,而 m p e g 一4 则要求对图像和视频作更多的分析,甚至是理解。编码过程是按照人在观 察物体时的理解过程:先将视频音频序列的每帧内容分解为独立的图形区域,其 中包含了有意义的物理实体和对象( 既可以是视频的,也可以是音频的) 。每帧 内容被称为一个场景,而其中分解出的图形区域被称为视频对象平面v o p ( d e o o b j e c tp l a n e ) ,一个视频序列的v o p 组成一个视频对象v o 。分解完后,将v 0 所含 的颜色、纹理、形状、模型、高层语义等分别加以压缩编码。然后对这些v o 的相 对位置关系等信息进行场景描述,最后将描述结果和系统的控制信息分别加以压 缩。将这三个压缩结果进行传输,用户端的解码器收到后,将其解码就可以再现 视音频序列 8 。 基于内容的编码较之以往的编码有两个大的优势:其一是它允许用户在对象 级上进行交互,用户可以根据自己的爱好选择他感兴趣的对象,告诉发送端集中 中山大学硕士学位论文:基千内容的人脸图像压缩算法 发送关于该对象的信息,同时可以较少地甚至不发送其它信息。相对基于帧的交 互能力,m p e g 一4 无疑是一个巨大的进步:其二,它可以进行基于内容的可伸缩 性编码。也就是说,视频序列被分割成不同的v o 之后,可以对我们关心的v 0 采用 低压缩率、高质量的压缩算法进行压缩,而对于我们不重要的v o ,可以采用高压 缩率、低质量的压缩算法进行压缩。通过这种方法,h p e g 一4 有力地支持了各种不 同性能的终端。它对于带宽窄、解码效率低的终端提供了可以操作的平台 9 。 在图像中出现较多的物体就是人本身了,而人脸又是最受关注的部分。由于 计算机视觉、信号处理技术和移动通讯技术的快速发展,人脸图像已受到越来越 多的重视。对于人脸图像的研究,包括了人脸检测( 特征点检测) 、人脸识别、 姿势、光照、表情等方面的研究。而就人脸图像压缩编码方面,人们的兴趣主要 集中在了可以编码和解释人脸图像的系统的广泛应用上。例如:低带宽的可视电 话通讯;视频会议、教学:人机交互;远程监控;安全监控;数据库图像压缩等。 而目前市场上沸沸扬扬的3 g 手机更是对图像、视频流等的数据传输速度及下载 速度提出了更高的要求,希望能由目前的1 0 k b p s 达到3 8 4 k b p s 。m p e g 一4 标准中 也专门定义了人脸对象这样一种特殊的视频对象,并通过脸部动画参数f a p 和脸部定义参数f d p 来对这类对象进行编码,以实现极低码率的视频编码 1 0 。 而对于视频图像中的运动图像,如果每帧均可提高一定的压缩率,则整个信道的 压缩率就可以得到相当大的补偿。 1 2 图像压缩编码的国际标准 推动图像编码技术走向大规模应用的基础是图像压缩编码的国际标准。从 2 0 世纪8 0 年代以来,孱际标准化组织i s 0 和国际电联i t u 的图像专家工作组针 对各种不同类型的图像和应用,制定了一系列的国际标准,其中包括:以j p e g 和j p e g 2 0 0 0 1 1 1 2 1 3 等为代表的静止图像压缩编码标准;以 h 2 6 l 2 6 3 2 6 3 + 2 6 3 + + 1 4 等为代表的低码率、甚低码率运动图像压缩标准, 以m p e g 一1 2 为代表的中高码率多媒体数据编码标准,以及面向对象应用的 m p e g 一4 标准。主要的编码标准如下: 中山大学硕士学位论文:基于内容的人脸图像压缩算法 编码标准制定组织目标码率 主要压缩技术主要应用目标 d c t i n t e r n e t 图像服务 主观量化 j p e gi s 0 ,i e c 数字照相 z i g z a g 扫描 图像和视频编辑 熵编码 i n t e r n e t 图像服务 小波变换 数字照相 e b c o t 图像和视频编辑 j p e gr o i 编码 i s o ,! c 打印 2 0 0 0 空间质量可分级编码 彩色传真 改进算法编码 移动应用 容错编码 卫星图像传输 d c t c d r o m 视盘 主观闩适应量化视频记录 z i g z a g 扫描 m p e g 1i s o ,i e c 1 5 m b p s 熵编码 运动预测补偿 双向运动补偿 半像素运动估计 h i p e g l 所有技术数字t v 基于帧场运动补偿 h d t v 空间时间质最可分级高质量视频传输、存 1 5 m b p s 一 m p e g 2i s o ,i e c码流储 3 5 m b p s 容错编码卫星t v d v b d v d 视频编辑 m p e g 一2 所有技术i n t e r n e t 8 k b p s 一 m p e g 4i s o ,i e c w a v e l e t 交互视频 3 5 m b p s 零树扫描 可视编辑 中山大学硕士学位论文:基于内容的人脸图像压缩算法 高级运动补偿内容管理 重叠运动补偿 消费视频 视相关可扩展编码 专业级视频 位图形状编码2 d 3 d 计算机图形 脸部动画移动通信 动态网格编码 d c ti s d n 视频会议 自适应量化 z i g z a g 扫描 p 6 4 k b p s h 2 6 1r r u t熵编码 p :l 一3 1 运动预测补偿 整像素运动估计 差错控制编码 h 2 6 l 全部技术可视电话 双向运动补偿电视会议 半像素运动估计移动可视电话 8 k b p s 一 h 2 6 3u t高级运动补偿网络视频 1 5 m b p s 重替运动补偿 日】选算数编码 无限制运动预测 增加1 2 个选项町视电话 h 2 6 3 + 8 k b p s 增加4 个选项电视会议 i t u t h 2 6 3 + +1 5 m b d s移动可视屯话 网络视频 表卜1 :各种编码标准的主要技术和应用目标 1 5 1 3 本文的主要工作 我国实际应用中的网络环境并不理想,有一些传输网络,例如公共普通电 中山大学硕士学位论文:基于内容的人脸图像压缩算法 话线网( p s t n ) 其带宽只有6 4 k ,限制了图像传输、视频会议的应用。本文主要 致力于研究以基于内容( c o n t e n t 岫a s e d ) 的图像压缩算法,将人脸图像以较高的 压缩率在低带宽网络中,进行更有效的传递。首先简要讨论了压缩编码基础及一 些常用的编码方法,然后将k l 变换( p c a ) 加最小二乘法的方法应用到人脸图像 压缩算法中,并主要作了以下三方面的工作: 第一,对人脸图像引入了基于内容的压缩算法。由于人类对于影像所赋予的 注意力会根据一些特征或性质的不同而有所不同,本文的方法可根据需要选择一 小部分的人脸特征区域,对其进行压缩编码。 第二,建立了人脸图像重建模型。在接收端接收到压缩码流后,可利用k l 变换加最小二乘法的方法,通过少部分的特征重建原人脸图像全部纹理信息。 第三,构造了低带宽传输网络中的人脸图像压缩系统。在发送端输入人脸图 像后,可利用已有的方法检测出其中的人脸图像,提取特征点将图像进行形状归 一化处理,再选择一小部分的特征区域,对其纹理进行压缩编码,同时对形状仿 射矩阵进行编码。 本文方法分为三部分:特征点的选择,编码和解码重建。文章的第二章主 要介绍压缩编码方法部分:第三章则主要介绍本文方法及主要工作;第四章给出 了实验结果。 中山大学硕士学位论文:基于内容的人脸图像压缩算法 第2 章压缩编码方法 2 1 人类视觉基础 虽然目前对人眼视觉系统( h v s ) 的研究还不充分,但至少有以下两点基本 特征已被普遍认同:空间和空间瞬时特征。空间特征是有关认识静止图像的能力。 而空间瞬时特征是关于运动或瞬时变化图像的认识。在这两种情况下,视觉系统 都是非线性的。如果我们定义视觉闽值是指正好可以被看到的于扰或失真的误差 值,低于它就不被察觉,高于它会被看出来。则从视觉的角度上所说的一个高质 量的编码,是指编码后的复原图像与原始图像,在主观感觉上没有差别,即编码 误差被保持在视觉闽值以下。因此根据人类视觉的这一特性,将图像失真保持在 视觉闽值以下,将是提高编码方法的一种有效途径 1 6 。 2 2 信息论基础 一个常用的图像压缩系统如下图所示 m ,) - + 匦围 吨垂砸卜压叵卜匝匿豇趣甄弘,( 工,y ) 匝固臣困 图2 一l :常用的图像压缩系统模型 该系统包括两个不同的结构块:一个编码器和一个解码器。图r ( 。、v ) 输入到编 码器中,编码器可以根据输入数据生成一组符号。通过信道传输后,将经过编码 的表达符号送入解码器,经过重构,就生成了输出图像,( j ,y ) 。 数据压缩的理论研究开始于s h a n n o n 的信息论。信息论的前提是信息的产生 可以被模拟为一个概率过程。1 9 4 8 年s h a n n o n 的经典论文通信的数学原理 中首次提到了信息率失真函数的概念,1 9 5 9 年又进一步确立了失真率理论, 从而奠定了信源编码的理论基础 1 7 1 8 。 中山大学硕士学位论文:基于内容的人脸图像压缩算法 1 ) 香农( s h a n n o n ) 信息论第一定理无损编码理论 设一个信息源是具有有限集合以及在统计上独立的符号源,则该信息源被称 为零记忆信源。一个离散信源的输出可用n 维随机矢量表示,即 x = ( x l ,x 2 ,x 。) 集合中每个元素取自有限符合集合( 字母表) a 卅= 日。,n :,口。 中。则x 群。 这里a 二是a 。中各元素的n 重笛卡儿乘积,总共有m ”种可能组合。其中每一个 都叫做长为n 的源字。 一个给定字符口,出现的概率是p ( 日。) ,记为p i ,则按概率公理化定义必须 有o p f l( f _ 1 ,2 ,m ) ,n = 1 。 f = i 香农信息论中把字符口,出现的自信息量定义为 ,( 盘。) = 一l o g p , ( 2 1 ) 亦称为自信息函数,其含义为:随机变量x 取值为n 时所携带信息的度量。而 信源的熵( e n t r o p y ) 记为 h ( x ) = p ,m ,) = 一乃1 0 9 口, ( 2 2 ) 单位为比特字符,此处表示集合a 。中某字符出现的平均不确定性。若用一个整 数长度f 。对字符n ,进行编码,则: 一l o g p ( 矗。) 一l o g j 口( 口。) + l ( 2 3 ) 用p 。与上式相乘并将所有乘积相加得到: 或 mmm 一p ,l o g p 。p 。t 一p 。i o g p 。+ l ( 2 4 ) l ;l 仁il - l ( x ) 匕。 r ( d ) ,只要信源 序列长度足够长,一定存在一种编码方式,其解码失真不大于d + s ,p 为任意 小的正数。 定理二( 有失真时的信源编码逆定理) : 当数码率r 小于率失真函数r ( d ) 时,无论采用什么编译码方式,其平均失 真必大于d 。 2 3 图像变换方法 图像压缩编码的发展至今已经历了半个多世纪的历程。二十世纪四十年代末 脉冲编码调制技术p c m 出现不久后,人们就开始对电视信号的数字化进行研究。 发展于二十世纪五六十年代的经典的图像编码方法,例如h u f f 眦n 编码( 熵编 码) 、预测编码和游程编码等,至今仍被普遍使用。 由香农信息理论出发不难得到数据压缩的两种基本途径:其一,设法改变 中山大学硕士学位论文:基于内容的人脸图像压缩算法 信源的概率分布,使其尽可能地非均匀,再用最佳编码方法使平均码长逼近信 源熵:其二,联合信源的冗余度也寓于信源间的相关性之中。去除它们之间的相 关性,使之成为或差不多成为不相关信源。 经典方法中的无损压缩方法,如h u f f m a n 编码、算术编码、游程编码等,基 于上述的基本途径一,其压缩效率都以其熵为上界。有损压缩方法,如预测编 码、变换编码、混合编码、矢量量化等基于基本途径二,同时也大都受信息熵的 约束。 伴随着数学理论如小波变换( w a v e l e t t r a n s f o r m ) 、分形几何理论、数学形 态学等,以及相关学科如模式识别、人工智能、神经网络、感知生理心理学等的 深入发展,近几十年中又产生了很多新颖高效的图像压缩方法。 数字化数据压缩的最基本算法是基于滤波器理论的预测编码。八十年代以 前,人们对预测编码研究得比较多,从八十年代中后期开始,逐渐让位给以正交变 换为核心的变换编码算法。科学家们开始探索包括k l 变换、傅立叶变换等上e 交 变换,七十年代后期,d c t 及小波变换的使用使变换编码压缩进入了实用阶段。 由于本文是基于k l 变换,使用到嘟及小波变换,所以这里指提及这三种 编码方法。 任意给定一幅图像,在其空间域一般都可表示为空间像素阵列。相邻的像素 之间都存在着很强的相关性,直接处理像素集中的冗余信息通常比较困难。从理 论上讲,线性变换编码可以压缩码率的原因就在于图像信号存在很强的相关性。 将图像从空间域映射到变换域时,这种强相关性在变换域的反映是功率大部分集 中在低频段。理想的变换不仅去除相关,还可以将信号的主要能量集中在很少的 几个系数上,通过量化将细节信号去除,使量化系数矩阵变成一个非零值非常稀 疏的矩阵,用很少的量化系数逼进原始信号,然后通过有效的方法表示虽化系数 中的非零值位置和幅度,得到高压缩率。对于变换的第一种要求是:将强相关的 空间像素阵映射成完全不相关的、能量分布紧凑的变换系数阵,占少数的大的变 换系数代表了图像中最主要的能量成分,占多数的小的变换系数表示了一些不重 要的细节分星,通过量化去除小系数所代表的细节分量,用很少的码字来描述大 系数所代表的主要能量成分,从而达到高的压缩比。这是用变换技术进行有失真 编码能够达到高压缩比的主要原因。对于变换的第二种要求是:变换系数阵的物 13 中山大学硕士学位论文:基于内容的人脸图像压缩算法 理含义要明确,使其容易与人们关于h v s ( h u m a nv i s u a ls y s t e m ,人类视觉系统) 的知识相结合,以便有效地去除视觉冗余,尽可能地保留重要的视觉信息。 1 ) k l 变换( 主分量分析p e a ) 具备最理想的去相关和最强的能量紧致特性的变换是k l ( k a r h u n e nl o e v e ) 变换。从图像压缩的角度上讲,这一方法就是寻找任意统计分布的数据集合中主 要分量的子集。相应的基向量组满足正交性且由它定义的子空间最优地考虑了数 据的相关性。将原始数据集合变换到主分量空间使单一数据样本的互相关性降低 到最低点。 1 9 8 7 年s i r o v i c h 与k i r b y 将k l 变换第一次推广到人脸图像特征的检测中 1 9 。二十世纪九十年代,t u r k 和p e n t l a n d 等人又将其应用到人脸的自动识别 问题中【2 0 【2 1 。其后,w e l s h 与s h a h 又提出了使用k l 变换方法传输入脸特征 ( 比如嘴巴) 的低比特率压缩方法 2 2 。1 9 9 5 年舭t 多媒体实验室的b a b a c k m o g h a d d a m 和a l e xp e n t l a n d 在 2 3 中提出了利用k l 变换检测人脸和人脸特 征,以用来编码人脸图像的方法但其重点仍在利用k l 变换检测人脸特征方面。 b wh w a n g 等提出的基于m o r p h a b l ef a c e 的方法,利用p c a 根据人脸没有损坏区 域的形状和纹理,重建人脸损坏区域的形状和纹理 2 4 2 5 2 6 。 k l 变换的数学原理如下 设x = ( 上l 一,x ,) 是一个n 维随机向量,掰。为其均值向量。则可以通过l 个样本向量来估计m ,: 其协方差矩阵可表示为 - - ,z ,;圭x l f _ l ( 2 1 0 ) 1l c ,= ( x ,一m 。) ( x ,一m 。) ( 2 1 1 ) l4 中山大学硕士学位论文;基于内容的人脸图像压缩算法 c ,为实对称矩阵。求出其从大到小排列的特征值丑( 女= 1 ,j v ) 及满足下 列条件的特征向量( 女= 1 ,j ) 。f l f - j 峨“,卸“2 1 0f ( 2 一1 2 ) 有了特征向量集合,任何向量x 均可投影到特征空间( 以特征向量为基向量) 中: 定义矩阵a ,a = ( ,“。) ,其中( k = l ,) 为按照五递减排列的 特征值所对应的特征向量。由此可定义一个线性变换,将任意向量x 通过下式得 到一个新的向量y : ,= a ( x 一,l x ) y 是具有零均值的随机向量,也可通过l 个向量来估计其协方差矩阵 ( 2 1 3 ) 1 l, l c ,等l e = a ( x 。一m 。) ( x ,一m 。) a 7 = a c 。a ( 2 1 4 ) 厶i = ll f 2 l 由于a 的行是c 。的特征向量,所以c ,是对角阵且其对角元为c 。的特征值 印| : ( 2 一1 5 ) 因为c ,的非对角元均为o ,所以线性变换a 为去相关变换,y 的各个元素之间都 是互不相关的。 相反地,由于矩阵a 一= a ,则式( 2 1 3 ) 中的变换是可逆的,即任何数据x 可以表示成如下的线性组合形式: x = a - 1 y + i = a 7 y + i ( 2 1 6 ) j o k 中山大学硕士学位论文:基于内容的人脸图像压缩算法 上述去相关的主分量分析方法可以用于降低数据的维数。通过略去对应于若干较 小特征值的特征向量来给y 降维。例如,丢弃底下n m 行得到m 的矩阵b , 并为简单起见假定均值m = o ,则有: y = 8 x x 仍可通过重= 丑r 矿来近似重构。近似的均方差为: m s e = k ( 2 1 7 ) ( 2 1 8 ) 它只是被舍弃的特征向量所对应的特征值的和。通常,特征值幅度差别很大,忽 略些较小的值不会引起很大的误差。 k l 变换很好的保证了像素之间的统计不相关性。但其基由像素的相关系数 矩阵的特征向量列构成,是不固定的。且由于其特征分析的复杂性,需要额外存 储变换基,使得k l 变换的应用一直不太广泛。 2 ) 离散余弦变换( d i s c r c t ec o s i n et r a n s f o r m ,d c t ) 对于强相关空间像素阵,离散余弦变换( d c t ) 是k l 变换的很好的逼近。 d c t 有固定的基和快速算法,使得d c t 广泛应用于图像压缩,成为变换编码的主 要工具。一些图像压缩编码的国际标准,如j p e g 、h 2 6 3 、m p e g 一4 等均采用了d c t 变换编码作为其核心算法,并被广泛地接受和应用。在实际应用中,为了便于实 现和后处理,d c t 是先将整体图像分成8 8 或者1 6 1 6 像素块,对每一个块进行 单独的变换和处理。采用n n 块d c t 变换结合量化的一般变换编码方案如图( 2 2 ) 所示,包括量化在内的编码器都是有失真的。 l6 中山大学硕士学位论文:基于内容的人脸图像压缩算法 由于大多数图像的高频分量较小,相应于图像高频分量的系数经常为零,加 上人眼对高频成分的失真不太敏感,所以可用更粗的量化。因此,传送变换系数 所需的数码率要远远小于传送图像像素所用的数码率。到达接收端后通过反离散 余弦变换回原样值,虽然会有一定的失真,但人眼是可以接受的。二维正反离散 余弦变换的定义如下: 。c t :g ( m ,n ) = c r ( m ) 口( n ) 篓篓g ( f ,k ) c 。s 5 - ! ! ! - ;j ? 苎翌l c 。! ! ! :! ! j :;! 苎! l ( 2 一1 9 ) d c t :g ( ,l ,n ) = c r ( m ) 口( n ) g ( f ,k ) c o s l ! ! :! - ;- ;! ! i c o s l ! :! :兰:;! 竺! i ( 2 一1 9 ) i = 0 t ;0 l 川 jl 川 j i 。c t :g ( f ,t ) = 薹薹口( ,”) 饼( n ) g ( m ,n ) c 。s 訾i c 。s ! ! ! :! :! ;! ! ! 】( z 一2 。) i d c t :g ( f ,k ) = 口( , ) 饼( n ) g ( m ,n ) c o s l ! ! :! - :;i :;! 竺l c o s l ! ! :! :j :! 竺! l ( 2 2 0 ) m = 0 卸 l jl j 其中,系数为:烈嘲。: 、筐 i 、f ,挖= o l m j v 尽管d c t 在降低相关性方面不如k l 变换有效,但是其好处是它的基函数是 固定的,而k l 变换的基函数取决于待变换图像的协方差矩阵。但是d c t 变换编码 也有其难以克服的缺点。这种块之间的单独处理带来了压缩效率上的限制和块效 应问题,尤其是当压缩倍数较高时,块效应( 类似马赛克效应) 成为限制d c t 变换 编码质量的主要因素。 另一个方面,二十世纪九十年代以后,出现了许多新的传输媒体。其中,以 i n t e r n e t ( 也包括无线i n t e r n e t ) 最有影响力。i n t e r n e t 上的图像浏览和传输有 许多新要求,例如嵌入式码流和多分辨码流,这要求在图像压缩算法实现中,能 灵活地提供关于质量、分辨率等的分级结构,这些“灵活性”要求同d c t 变换编 码的结构很难有机地结合。 3 ) 嵌入式零树小波变换 二十世纪八十年代后期,小波变换的发展提供了一种新的有效的多分辨信号 处理工具,也为各种可分级图像编码算法的实现奠定了基础。 中山大学硕士学位论文:基干内容的人睑图像压缩算法 1 9 9 2 年,a s l e w i s 和g k n o w l e s 首次提出了图像小波变换域零树编码 思想 2 7 :采用单一闽值小波系数判决为孤立系数和零树,然后对二者进行熵编 码。针对其算法的不完美j m s h a p i r o 2 8 于1 9 9 3 年提出了嵌入式零树小波变 换编码( e z 并:e m b e d d e dz e r o t r e ew a v e l e t ) 算法:按位平面分层进行孤立系数 和零树的判决和熵编码,判决阈值逐层折半递减。这种方法很好地利用了小波系 数的特性使得输出的码流具有嵌入特性,既实现了高的压缩比,又保证了重建图 像的质量。在较大压缩比下,小波图像压缩的重构质量也明显好于d c t 变换方法。 因此,在新一代静止图像压缩标准j p e g 2 0 0 0 中,采用小波图像编码作为核心算 法。 由于本文实验中所比较的是嵌入式零树小波编码的方法,所以这里主要介绍 是嵌入式零树小波编码算法: 所谓嵌入式编码,是指编码器输出的码流具有如下特点:一个低比特编码嵌 入码流的开始部分,即从嵌入式码流的起始处至某一位置的部分码流被取出后, 仍可解码重构得到完整图像,只是与原码流相比,重构图像具有更低的质量或分 辨率。嵌入式编码器可以在编码过程的任一点停止编码,解码器也可在活动码流 的任一处停止,解码效果只是相当于对一个更低码率的压缩码流的解码结果。嵌 入式码流中比特的重要性是按次序排列的,排在前边的比特更重要。 e z w 算法充分利用了小波系数的特点,较好地实现了图像编码的嵌入功能。 在e z w 算法中,零树结构是为了表示小波变换系数矩阵中非零值的位置,嵌入式 码流的实现是由零树结构逐次逼进传输实现的。 一幅图像经过逐级小波分解后( 如图2 3 所示) ,其结构呈金字塔形状,而其 中的系数则呈树状结构,对于某一级的某个系数,它与下一级相应位置上的几个 系数之间具有相关性。类似于树的概念,定义上一级系数为父母:下一级相应位置 的所有系数为其子孙。 在编码时,设置阈值t ,当系数绝对值大于t 时称为重要( s i g n i f i c a n t ) 系 数,它可分为正负两类。当系数绝对值小于t 时则为不重要的,同样可分为两类: 零树根( 其子孙均为不重要系数) 、孤立系数( 子孙中有重要系数) 。 按一定扫描顺序对小波变换后图像数据中的各系数进行判断编码,然后保存 系数类型代码及正、负系数的幅值,当扫描至零树根的子系数时便跳过去不予处 中山大学硕士学位论文:基于内容的人脸图像压缩算法 理。同样在译码时,当遇到代码为零树根的标志时,便将此系数及其各级子系数置 为零。根据统计规律,父母是不重要的时,则子孙是不重要系数的可能性极大,故 是零树根的概率很大。因此,如果记录了父母级上一个零树根,则其后跟随的各级 子孙上的大片系数在编码过程中便可以不再考虑。 甜腿 + 矗t 脯 r i 1 l 正1 , 、 l l 也 添l l h l 、誓艘 霸 图2 3 : 三层小波分解及数结构示意图 传统的嵌入式零树编码充分发掘和利用了各级小波子图像的自相似特性,其 基本步骤如下: ( 1 ) 按照2 的整数幂从高到低排列量化闽值。 ( 2 ) 规定扫描顺序为:从最低尺度下的各子图开始,同一尺度下低频带内的 所有系数全部扫描完后,然后才开始扫描下一尺度的子图,直至最高尺度。父母 级要比孩子级优先( 如图2 4 所示) 。 ( 3 ) 从最高量化阈值开始比较各小波系数与该量化阈值的大小,并结合低尺 度系数与高尺度系数分布关系,生成4 种符号,即正莺要系数( p o s ) 、负重要系数 ( n e g ) 、孤立零点( i z ) 和零树根( z t r ) 。 ( 4 ) 逐级递减量化阈值,按扫描顺序搜索重要系数,根据搜索结果形成重要 系数坐标序列,输出索引。 ( 5 ) 小波系数幅值逐级细化,在每一级量化闽值上,根据重要系数坐标序列 输出这些坐标在该阈值上的比特值 中山大学硕士学位论文:基于内容的人脸图像压缩算法 眵 “夕 么 - 形 图2 4 :三级小波变换后编码扫描顺序 e z w 算法编码流程图( 如图2 5 所示) n e gi z z t r 图2 5 :e z w 编码流程图 跳过 不编码 中山大学硕士学位论文:基于内容的人脸图像压缩算法 2 4 编码质量的评价 对于有失真的压缩算法,应该有一个评价准则,对压缩后的图像质量给予评 判。常用的评价准则有两种:一是客观准则,一是主观准则。 2 4 1 客观准则 客观准则是对压缩还原后的图像与原始图像的误差进行定量计算。设一个原 始图像为 工( f ,j ) ,o f m l ,o j 一1 ) ,相应的压缩后的还原图像为 量( f ,j ) ,0 s f sj ! l f 一1 ,o j 一l ,误差图像为 p ( f ,) = 石( f ,) 一王( f ,j ) , 0 f w 一1 ,0 j j 一l 。 1 ) 均方误差 这类准则一般是对整个图像或图像中一个指定的区域进行某种平均计算,以 得到均方误差。 那么,均方误差表示为 p 2 赤荟荟e 2 “ ( 2 _ 2 1 ) 有时也会用均方根误差,它是e 。= k 。】l 2 。 2 ) 信噪比( s n r ) 及峰值信噪比( p s n r ) 更常用的是信噪比表示,它用分贝( d b ) 表示压缩图像的定量性能评价。 基本信噪比定义为 芝芝托j ) 跚= 1 0 l g i 丽型生 l k ( f ,j ) 一量( f ,州2 l o 另一种信噪比的定义是首先对原始图像去均值,定义如下 飘t d2 高荟丢m d 1村一l 一l ( 2 2 2 ) ( 2 2 3 ) 中山大学硕士学位论文:基于内容的人脸图像压缩算法 _ - - - _

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论