已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士学位论文 d o t 域上人脸识别的研究 专业:应用数学 硕士生:廖红文 导师:冯国灿教授 摘要 只有单幅图像的人脸识别问题是一个现实问题,但目前研究较少。许多好的 识别算法一旦应用到单幅训练图像的人脸库时,识别率会急剧下降。另外,j p e g 标准最广泛使用在目前的图像压缩领域而j p e g 标准采用的是d c t 变换。 本文通过研究人脸的各个局部特征对识别人脸的影响,筛选出几个最能表达 人脸信息的局部特征鼻子、左上半边脸,“左眉毛+ 左眼睛”,然后直接运用 已有的d c t 域上的图像处理技术,提出d c t 域上人脸特征的表达方法:最后利 用b o o s t i n g 思想,为从单个图像样本中挖掘更多的信息,将人脸的整体特征和 局部特征结合起来,构造了两种d c t 域上的人脸识别系统多特征投票法和 复用特征法。这两个系统有以下优点: ( 1 ) d c t 系数具有优良的图像特征描述能力,在表达图像的信息方面有很 强的优势。将d c t 算法用于f e r e t 人脸库进行整脸识别,识别率为7 6 8 ,比 p c a 算法高7 8 ,比( p c ) 2 a 算法高1 2 ,并且速度远远快于这两种算法。 ( 2 ) 将表达人脸信息能力强的局部特征组合,其图像分类的能力更强。利 用本文筛选出的几个最能表达人脸信息的局部特征组合用于识别,识别率为 8 9 4 ,比整脸识别率高1 2 6 。 ( 3 ) 借鉴b o o s t i n g 思想,利用局部特征和整脸训练若干个分量分类器,然 后将它们组合起来形成一个强分类器,这样可以获得更多的脸部信息,增强图像 的分类能力。将这两个系统用于单幅训练图像的识别问题,最高识别率达到 9 1 1 ,较整脸识别率高1 4 3 ,而且算法简单,容易实现。 关键词:d c t 域,人脸识别,离散的余弦变换( d c t ) ,b o o s t i n g 方法,整体 识别,局部特征,多特征投票法,复用特征法 中山大学硕士学位论文 f a c er e c o g n i t i o ni nd c td o m a i n m a j o r :a p p l i e d m a t h e m a t i c s n a m e :l i a o h o n g w e n s u p e r v i s o r :f e n gg u o c a n a b s t r a c t f a c er e c o g n i t i o nh a sb e e no n eo ft h em o s ta c t i v e s p o t s f o r d e c a d e s n o w a d a y s ,m a n y d e v e l o p e df a c er e c o g n i t i o ns y s t e m st h a tw o r kv e r yw e l lw h e nt h e r ea r es u f f i c i e n tr e p r e s e n t a t i v e t r a i n i n gs a m p l e s ,o f t e nb e c o m el e s se f f e c t i v eo rl o wa c c u r a c yf o ro n et r a i n i n gs a m p l e h o w e v e r , s o m e t i m e s ,t h e r ei so n l yo n et r a i n i n gs a m p l ea v a i l a b l e i no r d e rt oo v e r c o m et h i ss h o r t c o m i n g ,t h e t h e s i sf o c u s e so no n et r a i n i n gs a m p l ep r o b l e mo fc o m b i n i n gg l o b a la n dl o c a lf a c i a lf e a t u r e si n d c td o m a i n i nt h i sp a p e r , b a s e do i lt h ei m p a c to fl o c a lf a c ef e a t u r e so nf a c er e c o g n i t i o n , t h en o s e t h el e f t u p p e rf a c ea n d t h el e f te y e b r o wa n dt h el e f ce y e ”a r es e l e c t e da st h eb e s tr e p r e s e n t a t i o no ft h e l o c a lf e a t u r e s b ye x p l o i t i n gt h ee x i s t e dd c t a l g o r i t h m ,am e t h o d t oe x p r e s sf a c ef e a t u r e si nd c t d o m a i ni sp r o p o s e d t h eb o o s t i n ga p p r o a c hi sf u r t h e ru s e dt oe x t r a c tm o r ei n f o r m a t i o nf r o mt h e s i n g l es a m p l e t w of a c er e c o g n i t i o na l g o r i t h m si nd c t d o m a i na r ed e v e l o p e db yc o m b i n i n gt h e w h o l ef a c ef e a t u r e sw i t hl o c a lf a c ef e a t u r e s ,t h e ya r ev o t i n g _ b a s e dm e t h o d sw i t hm u l t i - n a m r e s a n dw i t hr e p e a t e d l yu s e dn a t u r e s t h e2s y s t e m sh a v et h ef o l l o w i n g a d v a n t a g e s : ( 1 ) t h ed c tc o e f f i c i e n t s a r eg o o da td e s c r i b i n g i m a g ef e a t u r e sa n de x p r e s s i n gi m a g e s t h e r e c o g n i t i o nr a t ew h i c hi s o b t a i n e db ya p p l y i n gd c t a l g o r i t h mi nf a c er e c o g n i t i o no ft h e f e r e td a t a b a s ei s7 6 8 t h i sr a t ei s 7 8 h i g h e rt h a nt h a to b t a i n e db yp c a b a s e d e i g e n f a c ea l g o r i t h ma n d1 2 h i g h e rt h a nt h a tg i v e nb y ( p c ) 2 aa l g o r i t h ma l s ot h ed e v e l o p e d s y s t e m sa r em o r ee f f i c i e n tf o rj p e gi m a g eb e c a u s eo f j u s tp a r t i a ld e c o d i n gf o rt h ei m a g e , ( 2 ) c o m b i n a t i o no f t h eb e s tr e p r e s e n t a t i o no f l o c a lf a c ef e a t u r e sw i t ht h e h i g h e rr e c o g n i t i o nr a t e s u c ha s ,c o m b i n a t i o no f3l o c a lf e a t u r e s ( t h en o s e ,t h el e f tu p p e rf a c ea n d “t h el e f te y e b r o w a n dt h el e f t e y e ”) r e s u l t s i n 8 9 4 ( t h er e c o g n i t i o nr a t e ) t h a ti s 12 6 h i g h e rt h a nt h a t i i 中山大学顽士学位论文 o b t a i n e do n l yu s i n gt h ew h o l ef a c ef e a t u r e s ( 3 ) b a s e do nt h eb o o s t i n gi d e a ,s e v e r a lc o m p o n e n tc l a s s i f i e r sa r et r a i n e db yu s i n gb o t hl o c a la n d w h o l ef a c ef e a t u r e s t h e n ,ap o w e r f u lc l a s s i f i e ri sc o m b i n e dt oe x t r a c tm o r ef a c ei n f o r m a t i o n a n dt o s t r e n g t h e ni m a g er e c o g n i t i o na b i l i t y b ya p p l y i n ga b o v e2s y s t e m si n t h ef a c e r e c o g n i t i o nw i t ho n l yo n et r a i n i n gs a m p l e t h eb e s tr e c o g n i t i o nr a t er e a c h e s9 1 1 t h a ti s 1 43 h i g h e rt h a nt h a tm e t h o do b t a i n e db yu s i n gt h ew h o l ef a c ef e a t u r e s f u r t h e r m o r e t h e a l g o r i t h mi ss i m p l ya n de a s i l yi m p l e m e n t e d k e yw o r d s :h m n a nf a c er e c o g n i t i o n ,t h ed i s c r e t ec o s i n et r a n s f o r m ( d c t ) ,b o o s t i n gi d e a , w h o l ef a c e r e c o g n i t i o n ,l o c a lf e a t u r e ,v o t i n g - b a s e dm e t h o dw i t h m u l t i f e a t u r e s ,v o t i n g - b a s e d m e t h o dw i t hr e p e a t e d l yu s e df e a t u r e s 中山大学硕士学位论文 第1 章综述 1 1 人脸识别技术 1 1 1 概述 身份验证大量存在于现代社会生活中,是人类社会生活不可缺少的一个方 面。重要部门的门禁( 机场、银行、海关、军政机关) 、计算机网络中重要信息 的存储与提取,需要可靠的人身鉴别。在安全领域,识别罪犯身份,跟踪视频监 控系统中的人物:在商业及法律中核对身份证、护照、信用卡、驾驶证都是对人 们身份监督、管理和控制的一个方面。 人类的生物特征是人的内在属性,具有很强的自身稳定性和个体差异,因此 被认为是身份验证最理想的依据。而在d n a 、指纹、虹膜、人脸这些独特的生物 特征中,由于人脸特征相比其他人体特征具有直接、友好、方便、易接受等特点, 成为进行身份验证最自然最直接的手段。 自动人脸识别技术就是利用计算机分析人脸图像,从中提取有效的识别信 息,用来辨认身份的- - n 技术。尽管人类可以毫不费力地识别出上千个不同的人 脸,但实际上人的视觉系统做这件事的过程是非常复杂的,其研究涉及了模式识 别、图像处理、生理学、心理学、认知科学等诸多领域。对于计算机来说,要完 成人类视觉系统的这种功能还存在许多困难,如人脸随表情、年龄、光照、角度 的变化而变化,又如,计算机直接处理的是二维图像,从二维图像重建三维人脸 是一个病态的过程,目前还没有很好的三维模型用以描述人脸。因此,多年来, 计算机和信息技术领域的学者及神经生物学家和工程师都分别在各自领域或相 关领域探索有效的人脸识别方法。 近十年,人脸识别技术从理论到应用都有了迅猛发展。数以千计的人脸识别 方面的文献充分展示了这一领域的理论成果。另外,国l 内# l - 多所大学和研究机构 已研制出一些较好的人脸识别原型系统,一些较成熟的商业人脸识别系统也已投 入应用 3 8 。特别需要提到的是美国国防部发起的人脸识别技术( f e r e t ) 工程。 它包括一个通用人脸库和一套通用测试标准,该f e r e t 人脸库可用于各种人脸识 别算法的测试和比较,为促进人脸识别算法的进一步研究和实用化起到推波助澜 的作用。人脸识别的研究虽然取得了一定的进展,但到目前为止还很不完善,应 中山大学硕士学( 立论文 用工作尚处于尝试阶段,理论上也还有许多未解决的问题,这使得计算机人脸识 别进入工程应用领域达到实用化还有一定的距离。 利用计算机进行人脸识别的过程可以用下面的框图简单地描述: 学习阶段 识别阶段: 匹卜匪卜 结果 图1 人脸自动识别的过程 人脸识别的研究主要可以划分为以下两个方面:一种是利用人脸的眼、鼻、 嘴、脸庞等局部特征及其关系进行识别:另一种是利用整个人脸的统计特征来识 别。在现有的算法中,特征脸和神经网络是基于整体人脸的识别,而基于提取眼 睛等部件特征形成特征向量的方法是基于人脸特征的识别。文献 4 表明,人类 的脸识别实际上是一个整体识别和特征识别共同作用的结果,另外,人脸的各个 部件对识别的贡献也不相同。本文设计的人脸识别系统就是基于以上两个观点。 1 1 2 人脸特征提取与识别方法 1 、特征脸方法 特征脸方法是基于k a r h u n e n l o e v et r a n s f o r m ( k l 变换) 的人脸识别方法。 k l 变换是数据压缩中的一种最优正交变换,它的目的是寻找在最小均方误差意 义下最能够代表原始数据的投影方法,它可以通过线性变换把高维数据投影到低 维空间。具体来讲,原始数据矩阵的所有特征向量中包含了该数据矩阵的全部信 息,但每个特征向量所包含的能量是不同的,较大的特征值对应的特征向量包含 了较多的能量。通过保留那些对矩阵数据信息贡献显著的特征向量做主成分,剔 除那些贡献较少的特征向量,则可以得到一组新的正交基,由这组正交基张成的 子空间,不但包含了原始数据矩阵的大部分信息,而且远远降低了维数。 将k l 变换用于人脸识别时,先将一幅m n 大小的人脸图像按列展成一个 中山大学硕士学位论丈 m n x1 维的列向量,它可以被看成m n 维空间的一个点。以归一化后的人脸图像集 作为训练样本集,以该样本集的总体散布矩阵作为协方差矩阵。 _ e 训t = 击黔刊“训7 其中:x ,为第i 个训练样本的图像向量,u 为训练样本集的平均图向量,m 为训练样本的总数。 可以这样认为,产生矩阵y 的最大特征向量抓住了样本集合的主要分布。 在计算y 的特征向量和特征值时,可以利用奇异值分解定理化简运算,求出y 的特征值五。及相应的特征向量( i = o ,l ,2 m - 1 ) 。 将特征值从大到小排序如 兄 - l ,其对应的特征向量u 。,u 。, u 一张成了k l 变换后的特征空间。如将该特征空间的特征向量按照图像阵列排 列,可以看出这些特征向量呈现人脸形状,因此被称为“特征脸”。每一幅人脸 图像都可以投影到由p 。,u ,u 。张成的降维子空间p 。,u 。,u 。中 ( r m 一1 ) ,并由其投影获得一组坐标系数,这组系数表明了该图像在子空间中 的位置,用以作为人脸识别的依据。在建立子空间选择特征向量作为正交基时, 通常选择较大的特征值对应的特征向量( 也称主分量) 。在训练得到特征脸后, 将识别人脸投影到新的r 维子空间中,即用一系列特征脸的线性加权和来表示 它,这样得到一投影系数向量来代表待识别人脸,最后用最小距离分类,完成识 别任务 2 7 。 从能量压缩角度来看,k l 变换是最优的。它不仅使得图像从高维空间降到 低维空间前后均方误差最小,而且变换后的低维空间有很好的人脸表达能力,可 以保证较高的识别率。但是由于对k l 变换而言,外在因素带来的图像差异和人 脸本身带来的差异是不加区分的,因此随着光照、角度、人脸尺度的引入,特征 脸的识别率会急剧下降。 对特征脸的一个改进方法是f i s h e r 脸方法 2 ,又称线性辨识分析法 ( 1 i n e a rd i s c r i m i n a t e a n a l y s i s ,l d a ) ,它选择以类内散布的正交矢量作为特 征空间,从而压制图像之间与识别信息无关的差异,对光照和人脸表情有较好的 中山大学硕士学位论文 适应性。m o g h a d d a m 1 4 j 等将人脸图像差异分为脸内差异和脸间差异,在解决表 情干扰方面是一点有效的尝试。 在传统的特征脸方法基础上,研究者们注意到特征值大的特征向量并不定 是分类性能最好的方向,一些研究者提出了多种特征子空间选择方法,比较典型 的有p e n g 1 6 的双子空间法和w e n g 2 1 的线性歧义分析法。 另外,a l b e r t 等 1 提出t p c a ,将p c a ( p r i n c i p l ec o m p o n e n ta n a l y s i s 主 成分分析) 与人脸拓扑关系结合起来,提高了p c a 的识别率。 2 、神经网络 神经网络是受动物神经系统启发,利用大量简单处理单元互联而构成的复杂 系统,以解决复杂的模式识别与行为控制问题。产生于不同起源和针对不同目的 的神经网络模型有多种,在模式识别中应用最多、也最典型的是多层前馈网络和 自组织映射网络,它们的一个重要特点就是能够解决很多非线性问题。 多层前馈网络以采用反向传播算法( b p 法) 的多层感知器( b p 网络) 为代表。 1 9 8 9 年r o b e th e c h t n i e l s o n 已证明,一个三层的b p 神经网络可以实现任意精 度,近似任何连续函数 1 9 。一个采用均方误差最小训练目标的线性输出多层感 知器可以看成两部分,第一部分是除输出层以外的其它所有层,它们完成一种非 线性特征提取的功能,将输入空间变换到隐层输出空间实现一种特殊的非线性映 射,使样本在这个空间具有最好的可分性;第二部分是输出节点,它们完成线性 分类决策 2 7 。 神经网络用于人脸识别已有很长的历史。在国外,曾经用于人脸识别的有级 联8 p 神经网络、b 洲b p 混合神经网络、h o p f il e d 神经网络,还有将神经网络与 统计方法相结合、自组织特征映射( s o m ) 神经网络与卷积神经网络相结合的系统。 在国内,文献 3 2 提出一种基于奇异值特征的神经网络人脸识别方法,即将人脸 图像矩阵的奇异值作为特征,运用b p 网络进行识别。文献 4 1 提出一种基于径 向基函数网络( r b f n ) 识别人脸的方法,即使用p c a 技术降低样本维数,并用生 成图像技术( s i ) 改变人脸姿态,以增加学习样本数,再利用径向基函数网络进 行识别。文献 3 4 讨论了b p 神经网络用于识别人脸的几个问题,人脸图像矢量 的特征压缩问题,网络隐含层神经元数选取问题,网络输入矢量的标准化问题, 中山大学硕士学位论文 网络连接权值的初值选取问题,并就这几个问题给出了可以借鉴的方案。这几个 问题理论上尚未解决,在实际应用中需要凭经验确定,这也是神经网络在应用中 受到限制的一个重要原因。文献 2 5 对自组织神经网络方法进行了分析。该文认 为可采用自组织神经网络的p 个节点来表达原始的n 个输入( p n ) ,但由于将p 个输出进行分类,其识别的效果仅相当于提取人脸空间特征向量后进行的识别分 类,因此采用此类神经网络进行识别的效果只能是特征脸的水平。就多数文献使 用的人脸库实验可以发现,当训练样本充分,人脸类型较少的情况下,神经网络 可以取得较好的识别率。对于类型多,训练样本少的人脸库,神经网络就可能失 败。 3 、弹性图匹配 弹性图匹配方法是一种基于d l a ( d y n a m i cl i n ka n a l y s i s 动态链接结构) 的方法。该方法由l a d e s 等人针对畸变不变性的物体识别提出来的。它将物体用 稀疏网格图表示,图中的节点用图像位置的g a b o r 小波分解得到的特征向量标 记,图中的边用连接节点的距离向量标记。匹配时,首先寻找与输入图像最相似 的模型图,再对图中每个节点的位置进行最佳匹配,这样产生一个变形图,其节 点逼近模型图的对应点的位置。 w i s k o t t 2 3 用弹性图匹配方法,将f e r e t 库中2 5 0 幅人脸与另外2 5 0 幅人 脸图像比较,准确率高达9 8 。文献 8 以人脑对人脸的识别为依据,采用三维 拓扑图来表达人脸,构成一个金字塔的人脸模型,其每一层中节点的特征矢量也 是小波变换的结果。这种金字塔模型可以实现同一个人脸的多分辨率表达。在国 内,文献 4 0 提出了基于本征特征的弹性模板匹配方法。该方法利用k l 变换进 行人脸图像模板的定位,再利用弹性模板匹配方法进行识别。文献 3 1 利用局部 信息和整体信息相结合的思想,用没有受到背景干扰影响的局部关键点的位置信 息对基于整体信息的经典弹性图匹配方法进行改进,提高了算法的鲁棒性。 由于弹性图匹配是基于动态链接结构的方法,在用于人脸识别时,保留了人 脸的拓扑结构和局部特征,通过局部节点调节和弹性图变形,以及局部特征的多 级g a b o r 变换描述,使得该方法对光照、位移、旋转及尺度变化都不敏感,具有 较好的适应性。但该方法的主要缺点是计算量非常大。 中山大学硕士学位论文 4 、支持向量机( s u p p o r lv e c t o rm a c h i n e ,简称s v m ) 传统的基于数据的分类器设计方法实际都是基于经验风险最小化的原则提 出来的。而在有限样本情况下,经验风险最小化并不意味着期望风险最小。采用 复杂的学习机器容易减小学习误差,但往往丧失了推广性。统计学习理论在解决 这个矛盾上有很大进展。统计学习理论是一种专门研究小样本情况下的机器学习 规律的理论,它系统研究了经验风险最小化原则成立的条件,有限样本下经验风 险与期望风险的关系以及如何利用这些理论找到新的学习原则和方法等问题。 统计学习理论提出了推广性的界的结论,指出在最小化经验风险的同时,还 要最小化置信范围。它用结构风险最小化原则求得经验风险和置信范围最小化的 折中。所谓结构风险最小化,就是在确定的置信范围内,寻找最小经验风险。使 用结构风险最小化原则来代替经验风险最小化原则,能很好地解决过学习和欠学 习的问题。 s v m ( 支持向量机) 是种较好实现结构风险最小化思想的方法。它根据结 构风险最小化原则构造的最优超平面,不但能将两类无错误分开,而且使两类的 分类空隙最大。前者是保证经验风险最小,而后者实际上是使推广性界的置信范 围最小,从而使真实风险最小。其中距离超平面最近的两类向量称为支持向量, 一组支持向量可以唯一确定一个超平面。 通过构造最优超平面可以得到一个最优分类函数: f ( x ) = s g n ( 口。y 。k ( x f ,x ) + 6 ) i = i 该函数称为支持向量机。其中k ( x 。,x ) 是一核函数,是两向量的点积运算, 通常有多项式形式、径向基形式、二层感知器神经网络形式三种。选择不同形式 的核函数可以得到不同的支持向量,但文献 2 7 中的实验显示不同的支持向量得 到的结果是相近的。 s v m 原是一个处理两类问题的方法,而人脸识别是一个多类别判别的问题。 当用于人脸识别时,s v m 首先需要解决多类别判别的问题。文献 3 9 和文献 3 5 都采用p c a 方法进行特征提取,利用p c a 特征参数构造支持向量机。文献 3 9 给出一种基于支持向量机组的淘汰法用于判别,它采用的是“一对一”策略, 中山大学硕士学位论文 即一个分类器将两个类别对区分开来。文献 3 5 利用样本库中每一个人的所有样 本训练一个s v m ,l q 个人则训练n 个s v m ,最后用这n 个s v m 将人脸样本分为n 类。当输入一个新的测试样本,同时将该测试样本交由n 个s v m 进行分类。该文 采用“一对多”的策略,即一个分类器将每一类与剩下所有类别区分开来。文献 e 3 9 和文献 3 5 在人脸识别实验中都取得了较好的识别率,但对于人脸类别较多 的人脸库,如库中有2 4 6 个不同的人,文献 3 9 需构造3 0 1 3 5 个判别函数,计算 量大,算法也较复杂;文献 3 5 要利用p c a 特征参数训练2 4 6 个s v m ,计算量也 很大。另外,s v m 用于人脸识别还有几个问题,如判别函数子集结构的设计,内 核函数的选择都需要人为决定。 5 、隐马尔科夫模型 隐马尔科夫模型是由两种机理构成的随机过程。一种是内在的有限状态马尔 科夫链,另一种是一系列随机函数所组成的集台。其中每一个函数都与一个状态 相联系,马尔科夫链按照转移概率矩阵改变状态。 利用隐马尔科夫模型对人脸进行识别时,将人脸上的头发,额头,眼睛鼻子 和嘴巴看成五个状态,我们观察到的序列由五个状态产生,s a m a r i a 2 0 用一个 锯形窗从上到下采样人脸图象,将窗内的像素点排成向量,用灰度值作为观察值。 n e f i a n 1 5 用3 9 个d c t 系数作为观察序列。通过观察序列对五个状态进行估计, 建立h m m 模型。不同的人用不同的h 参数来表征,而同一个人由于姿势和表情 变化产生的多个观察可以通过同一个删模型来表征。隐马尔科夫模型的训练就 是要为每个人确定一组经过优化的h m m 参数,每个模型可以用单个或多个图象 进行训练。在人脸识别阶段,首先对待识别人像进行采样,找到其观察序列,然 后计算每一个训练模型产生该序列的最大似然概率,最大值的模型即为待识别人 脸所属的类。 6 、离散的余弦变换 离散的余弦变换法是利用离散的余弦变换( d c t ) 将人脸图像切换到频率域, 在频率域中提取人脸特征( d c t 系数) ,进行识别的方法。 具体来说,利用d c t 进行人脸识别就是在原始图像集的d c t 频率域中提取图 中山大学硕士学位论文 像的低频系数建立特征库;再利用同样的方法,提取待识别图像的低频系数,然 后将待识别图像已简化的信息( 系数) 与特征库中的信息( 系数) 进行比较,得 出识别结论的方法。 利用d c t 进行人脸识别的优势在于d c t 的许多优良特性:( 1 ) d c t 系数具 有优良的图像特征描述能力,在表达图像的信息方面有很强的优势;( 2 ) k l t 是 能量压缩上的最优者,而d c t 的能量集中效率与k l t 几乎相同,并且使用与数据 无关的固定基,还存在快速算法,这使得d c t 识别系统本身具有简单、高效的特 !c 化v ) 点 7 ;( 3 ) 对于m x n 二维图象x ( i ,j ) ,d c t 域的特征刎具有不变性 6 ;( 4 ) 由于人脸图像压缩大多数采用j p e g 标准,而j p e g 标准采用的是d c t 技术,因此研究d c t 域上的人脸识别技术是非常必要的。 在人脸识别领域,d c t 主要用于特征提取,而利用d c t 特征进行识别分类的 方法有多种。1 9 9 8 年,k o h i rv v 1 1 将e r g o d i c 嗍与d c t 相结合在o r l 人 脸库上实验,得到9 9 5 识别率。1 9 9 9 年,e i c k e l e rs 5 将p s e u d o2 dh m m 与d c t 相结合在o r l 人脸库上实验,得到1 0 0 识别率的结果。f e n g 6 将d c t 与l d a 结合在y a l e 库上实验,得到9 9 5 的识别率。张敏贵等 4 2 将d c t 与支 持向量机结合进行性别分类,也取得很好的分类效果。另外,也有研究人员将 d c t 与神经网络相结合进行人脸识别。 1 2 压缩域上特征提取概述 前面所述的人脸特征提取与识别技术是近十年人脸识别领域最重要的技术, 在该领域取得了卓越的成效,使得人脸识别技术日臻成熟。但是它们所研究的对 象基本上都是针对二维灰度图像,而且这些研究大多数是基于非压缩人脸图像数 据的,包括实验用的一些数据库,如y a l e 、o r l 、m i t ,也大多数是b m p 格式的 图像。 随着社会管理的电子化、网络化,海量的人脸图像须经数字化后归档到人像 库,如国家安全部门统一管理全国的人口档案信息,便于全国乃至全世界各个准 入场所调用。为了有效存贮海量的人脸图像,必须对图像进行压缩编码后归档。 j p e g 图象压缩标准就是海量人脸图像库提供了一种有效常选择。而上面提到的 中山大学硕士学位论文 人脸识别方法,在对压缩的人脸图像进行识别时,要先进行图像的“全解压”操 作,然后再进行识别,这无疑大大限制了识别系统性能的提高。 近几年,基于压缩域上的图像处理技术日益受到重视 5 7 儿1 0 3 6 3 7 , 文献 1 3 综述了压缩域图象特征提取的研究概况。针对, p e g 图象库,文献 3 6 综述了压缩域上的基于图象内容的检索算法。在人脸识别领域,针对传统的 p c a + l d a 方法,文献 6 提出d c t + l d a ,此方法不仅改善了识别精度,而且只对 j p e g 图象部分解压,从而降低了系统复杂性,提高了识别速度。 压缩域上的图像特征提取技术,是指通过挖掘图像压缩时的中间结果或最终 码流中包含的信息,力争在不解码或部分解码的情况下提取表征图像内容的特 征,从而实现图像处理的目的。基于压缩域上的图像特征提取,最理想的情况是 直接在最终码流上提取特征,但是,由于熵编码属于非结构化、非字节对齐编码, 在熵编码后进行这些操作十分困难,通常都是在熵解码和反量化后进行。压缩域 上图像特征提取技术大致上可以分为两类:基于变换域和基于空域的技术。其中 基于变换域的技术主要有离散傅立叶变换域( d f t ) 、k l 变换域、离散余弦变换 域( d c t ) 、离散小波变换域( d w t ) 上的图像特征提取技术,基于空域的技术主 要有矢量量化方法、分形仿射变换方法。 d f t 是图像识别中的一个重要的数学变换。在图像压缩编码中,利用d f t 主 要是由于它所具有的能量集中性;在图像检索和模式匹配中,利用d f t 主要是因 为它具有d f t 系数幅值的平移不变性和d f t 系数可用来有效地计算图像的空域相 关性。据研究,一般d f t 系数半径的分布对纹理的粗度很敏感,而相位的分布则 对纹理的方向很敏感,因而具有较好的分类性能 3 7 。然而,由于d f t 本身有产 生周期性结果的趋势 3 0 ,对于非周期性的人脸图像,其压缩能力往往不够理想; 另外,d f t 是一种复数变换,运算量大,实用困难,因此,d f t 很少被用于图像 压缩,从而使得基于d f t 压缩域的图像处理能力也就无法很好体现。 特征脸方法是基于k l 变换上的一种著名的人脸识别方法,因而在k l 变换域 上进行特征提取也曾经受到关注。从能量压缩的角度来看,k l 变换是最优的, 并且在统计上也是最优的。但是,由于k l 变换对外在因素带来的图像差异和人 脸本身带来的差异是不加区分的,另外,k l 变换的计算复杂度庞大,所以实际 应用中,很少有图像用k l 变换进行压缩,使得基于k l 变换域的图像特征提取不 9 中山大学硕士学位论文 是一种实用的方法。 另外,由于矢量量化和分形码的编解码过程很不对称,对于人像难以获得 较高的压缩效率,因而也不是一种实用方法 3 6 。 相对而言,由于目前的编码标准中普遍采用的是基于1 ) c t 变换和i ) w t 变换的 压缩算法,使得基于这两种压缩域上的图像特征提取技术成为压缩域上图像特征 提取技术的主流 3 6 。 目前,人脸图像压缩大多数采用j p e g 标准,包括f e r e t 人像数据库中也是 j p e g 图像,而j p e g 标准采用的是d c t 技术,因此研究d c t 域上的人脸识别技术 具有典型性和现实性。 另外,d c t 在图象压缩和特征表达方面具有以下良好特性: k l t 是能量压缩上的最优者,而d c t 的能量集中效率与k l t 几乎相同,并 且使用与数据无关的固定基,还存在快速算法,这使得d c t 识别系统本身具有简 单、高效的特点 7 ; 在数据压缩领域,由于d c t 具有优良性能且未对数据结构作任何假定( 例 如,d f t 假定所变换的数据是周期的) ,因而d c t 技术成为j p e 6 、m p e g 系列的关 键技术 3 0 ; 由于d c t 系数可以很好地描述图像特征,因而被用于压缩域上的图像特征 提取中: 任何j p e 6 图像的d c t 块可由8x 8 的d c t 块直接生成,这建起了d c t 域与 像素域之间的桥梁,使运用d c t 作为特征来进行人像快速识别成为可能性 1 0 。 具有尺度不变性 6 。 1 9 9 6 年,p o d i l c h u k c 1 7 就提出,基于d c t 的特征向量可以更好地迎合基 于d c t 的压缩图像的识别,因为它可以直接在压缩图像的比特流上操作。1 9 9 9 年,e i c k e l e rs 5 对没有完全解压的j p e g 人脸图像,直接提取d c t 特征用于 识别,在o r l 人脸库上实验的识别率是9 9 5 。 d w t 是目前最有前途的压缩算法。随着j p e g 2 0 0 0 以及m p e g 一4 标准的制定, 有越来越多的图像、视频信息采用d w t 压缩算法进行压缩。d w t 在编码方面有如 下特点:多分辨率;对不稳定信号有适应能力;具高度去相关和能量压缩 中山大学硕士学位论文 性能;可减少人工块效应和马赛克噪声;更适应人类视觉系统特点。在人脸 识别方面,b i c e g o m 3 利用w a v e l e t s 提取特征,再利用h m m 分类识别,通过 在0 r l 库上的实验,达到1 0 0 的识别率。该文进一步指出,该算法适应j p e g 2 0 0 0 的压缩图像,为d w t 用于人脸识别领域的优越性提供了一个例证。 1 3 单幅训练图像的人脸识别 只有单幅训练图像的人脸识别问题是一个现实问题,如国家安全部门统一 管理全国的人口档案信息,由于人的数量太大,每个人只能有一幅相片用于归档。 对于无法获得一个人的多幅入脸图像的情况下,有些算法的参数就无法得到,如 神经网络;有的算法就失效了,如l d a 。到目前为止,绝大多数人脸识别算法都 是在两个以上训练图像的人脸库上测试的,其中许多算法可以取得很高的识别率 ( 比如我们前面提到的一些算法) ,但是,当这些算法应用到仅有一个训练样本 的人脸库中,识别率会急剧下降。例如,利用文献 1 2 的算法,当训练样本为5 个时,识别率为9 9 5 ,但是当训练样本下降到l 时,识别率下降到7 8 3 3 ( 文 献 1 2 中的表1 给出的结果) 。 利用单幅训练图像进行人脸识别,这方面的研究还很少。文献 2 4 提出一种 ( p c ) z a 的方法研究单幅训练图像的识别问题。该文首先计算获取唯一的训练图像 的垂直投影和水平投影集成的图像,然后将投影集成图像与原像通过组合方式复 合成一幅图像,再利用特征脸方法对该复合图像进行特征提取与识别。( p c ) 2 a 与其它大多数算法不同,它将改进算法的重点不是放在特征提取或学习阶段,而 是放在图像处理阶段,利用投影与原图像复合,达到平滑原始图像的目的,这在平 滑表情干扰方面有一定的作用。本文将这种方法用于本文使用的f e r e t 人脸库, 识别率为7 5 6 ,而利用p c a 算法的识别率为6 9 。 文献 9 】提出一种基于成分的l d a 方法用于单幅训练图像的人脸识别。该方 法先将人脸划分为五个组成部分,每个组成部分通过向四个方向移动,创建4 幅图像,成为一个成分组,这样每幅训练图像就有了五个成分组。然后利用子空 间l d a 方法,将每种成分组训练一个分类器,最后将五个子分类器加权组合成 为一个总分类器。该算法的识别率较整脸识别率提高5 左右。 中山大学硕士学位论文 以上两种算法都构造了伪图像。文献 2 4 n 用伪图像平滑原始图像,达到平 滑表情等于扰的目的;文献 9 】通过构造伪图像,增加训练样本,达到实现l d a 算法的目的。但两种算法在构造伪图像的过程中,也相应增加了噪声,对识别率 的提高是一个限制。 w i s k o t t 2 3 用弹性图匹配方法,将f e r e t 库中2 5 0 幅人脸与另外2 5 0 幅人 脸图像比较,准确率高达9 8 ,但该方法的缺点是计算量非常大。 本文从充分利用训练图像能量或信息的角度出发,研究了单幅图像的人脸识 别问题。主要工作有以下三个方面:( 1 ) 本文采用d c t 算法提取人脸特征。在利 用d c t 系数表达人脸特征时,对d c t 域上提取人脸特征的方法做了一点改进;( 2 ) 研究了人脸的各个局部特征对识别人脸的影响,筛选出几个最能表达人脸信息的 局部特征;( 3 ) 利用b o o s t i n g 思想将人脸图像的整体特征与局部特征相结合, 构造了两个人脸识别系统。 后面各章安排如下:第2 章介绍本文使用的d c t 算法的特性及部分算法的数 学推导,这是本文提取人脸特征的基础;第3 章介绍d c t 域上提取人脸特征的方 法及其优点;第4 章研究了人脸各局部区域在机器识别中的作用,筛选出几个摄 能表达人脸信息的局部特征;第5 章阐述本文构造的两个人脸识别系统的理论依 据、构造方法及系统效果评估。最后对d c t 域上提取人脸特征和单幅训练图像的 识别问题进行了小结和讨论。 中山大学硕士学位论文 第2 章d c t 的定义及其特性 本章将介绍d c t 的几个重要的性质,这些性质是本文利用d c t 提取人脸特征 的理论依据。 2 1d c t 的定义 对于m x n 二维图象j ( t 坊,其d c t 变换c ( 订定义为 ,= 盎帅m 善- i 驴n - t 2m 。s ( 竽 c o s ( 竽卜丽吣川善荟跏沁0 8 l 气半j c o s l 鼍产j ( u = o ,l ,m - 1 ,v = o ,l ,n 1 ) ( 1 ) 这里, 口( “) : j ;f o ,2 = 0 j 相应的逆变换( i d c t ) 可表示为 1 1 o t h e r w i s e 砌棚= 击萋势川咖细s ( 訾) c o s ( 产 c z , 2 2d c t 的几个重要性质 d c t 在图象压缩和特征表达方面有以下优良特性: 性质1k l t 是能量压缩上的最优者,而d c t 的能量集中效率与k l t 几乎 相同,并且使用与数据无关的固定基,还存在快速算法,这使得d c t 识别系统本 身具有简单、高效的特点。 r a g a ba s 1 8 等研究了目前最重要的五种图像压缩变换水l t 、d c t 、 d h t ( d i s c r e t e h a a r t r a n s f o r m ) 、d g q ( d i s c r e t e g a b o r t r a n s f o r m ) 、d w t 。比较了这五种变 换的信号一噪声功率比( p s n r ) 和压缩比( c r ) 两个指标( 见图) ,从图上可以 看出,无论是p s n r 还是c r ,d c t 都较其它变换有优势。 图2 五种图像压缩变换效率的比较 中山大学硕士学位论文 性质2在数据压缩领域,由于d c t 具有优良性能且未对数据结构作任何 假定,因而d c t 技术成为5 p e g 、m p e g 系列的关键技术 3 0 ; 性质3由于d c t 系数可以很好地描述图像特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论