




已阅读5页,还剩111页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于人脸对象的图像检索关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 目前,基于内容的图像检索技术主要是利用颜色、纹理、形状等图像基本特 征,检索结果往往与用户需求有一定距离,而具有一定语义特征的独立对象能够 更好的反映图像内容,因此研究基于对象的图像检索技术更具实际意义。结合 m p e g 7 标准,本文研究基于人脸对象的图像检索关键技术。 本文研究的基于人脸对象的图像检索技术是基于例子对象的图像检索,图像 背景复杂,人脸姿势、尺度变化等将直接导致“类间变化率小、类内变化率大”。 针对上述问题,本文提出的解决思路是通过人脸检测和人脸分割去除背景因素的 影响,通过人脸正则化去除人脸姿势、尺度变化等的影响。具体内容包括: 1 对原有的基于特征的人脸检测算法进行了改进,并与澳大利亚新南威尔士大 学联合提出了特征与模板相结合的人脸检测算法,综合利用人脸的肤色特征、 结构特征和模板特征,精确、鲁棒地确定人脸位置( 双眼中心和嘴中心) 。用 m p e g 7 人脸检测实验图像集进行了实验,结果表明,本算法的人脸检测正确 率比原算法提高约1 7 ,其他性能指标( 误检率、漏检率、检测精度) 也有 比较大的改善,部分算法被接受进入m p e g 7 标准。 2 在人脸检测的基础上,研究了人脸特征点如内外眼角、嘴角坐标的提取和人 脸姿势估计。利用变形模板方法提取内外眼角坐标,利用梯度投影方法定位 嘴角坐标。进一步基于人脸图像上三个已知点坐标右内眼角( 或左内眼 角) 、鼻梁和嘴角连线中点,估计人脸姿势。 3 研究了复杂背景下的人脸分割技术。受光照、姿势等因素的影响,很多情况 下人脸边缘特征不明显、人脸轮廓连续性不好。针对这一问题,本文结合人 脸边缘的连续平滑特征和人脸的个性化肤色特征,提取有效边缘点,并在此 基础上进行基于多项式的曲线拟合,获取人脸边缘,完成人脸分割。与活动 轮廓模型分割方法进行了对比实验,实验结果表明,本文方法的分割速度和 分割结果都较好。 4 针对人脸姿势和尺度变化,初步研究了人脸正则化问题。在空间平面几何变 形简化的基础上,提出了通过将人脸表面划分为许多近似平面的区域,对人 脸几何变形进行线性近似与简化。 r 在精确的人脸姿势未知的情况下,提出了基于二维网格模型的左右 旋转人脸的正则化方法,根据人脸表面的对称关系和距离不变性估计正 向人脸网格模型,通过灰度映射完成人脸正则化。 北京5 - 业大学工学博士学位论文 r 提出了基于三维模型的任意姿势人脸正则化算法,结合人脸姿势估 计结果与己知人脸图像,将通用三维人脸模型c a n d i d e 3 进行变形, 得到特定人脸三维模型,在旋转人脸与正向人脸之间进行灰度映射,实 现人脸正则化。 实验结果表明,本文提出的两种方法都能够在减小样本类内距离的同时保持 类间距离基本不变。 5 建立了基于人脸对象的图像检索实验平台,实验结果证明本文的思路是可行 的。 关键词图像检索;人脸对象;人脸检测;人脸分割;人脸正则化 人脸姿势估计 a b s t r a c t a b s t r a c t b yn o w ,c o n t e n tb a s e di m a g er e t r i e v a l ( c b i r ) i sm a i n l yi m p l e m e n t e db a s e d o np r i m i t i v e i m a g ef e a t u r e s ,s u c ha sc o l o r , s h a p e ,t e x t u r ea n ds oo n ,t h er e t r i e v a l r e s u l ti su n s a t i s l y i n g i n d e p e n d e n ts e n m a t i co b j e c t sc a nr e p r e s e n tc o n t e n to f i m a g e m o r ee f f e c t i v e l y , i ti sm e a n i n g f u lt os t u d yo b j e c tb a s e di m a g er e t r i e v a l c o m p l y i n g w i t hm p e g 7 ,f a c e o b j e c tb a s e di m a g er e t r i e v a li si n v e s t i g a t e di nt h i sd i s s e r t a t i o n i nt h ed i s s e r t a t i o n ,t h eb a c k g r o u n d so f i m a g ea r ec o m p l e x ,a n df a c e sa r ew i t h v a r i a n ts c a l e sa n dp o s t u r e s t h ep r o b l e mi s “l a r g ei n t r a c l a s sv a r i a b i l i t y & s m a l l i n t e r - c l a s s v a r i a b i l i t y ”t h e r e s o l u t i o nw ep r o p o s e di st ol e s s e nt h ei n f i u e n c eo f b a c k g r o u n du s i n gf a c el o c a t i o na n df a c es e g m e n t a t i o n ,a n dt ol e s s e nt h ei n f l u e n c eo f f a c ep o s t u r ea n ds c a l eb yf a c en o r m a l i z a t i o n t h ed e t a i l sa r ea sf o l l o w i n g : 1 o nt h eo l df e a t u r e b a s e df a c ed e t e c t i o na l g o f i t h r a ,s o m em o d i f i c a t i o n sh a v e b e e nf i n i s h e d m o r e o v e r , c o o p e r a t e dw i t hu n i v e r s i t yo fn e ws o u t hw e l s h ,af a c e d e t e c t i o n a l g o r i t h mc o m b i n i n gf e a t u r ew i t ht e m p l a t e i s p r o p o s e d i nw h i c ht h e c o m p l e x i o n ,f a c i a ls t r u c t u r e ,a n df a c i a lt e m p l a t ea r eu t i l i z e dp r o g r e s s i v e l y , a n dt h e c e n t e ro fe y e sa n dm o u t ha r el o c a t e d a c c u r a t e l ya n dr o b u s t l y t h ec o m p a r a t i v e e x p e r i m e n t a lr e s u l t s o nm p e g 7d a t a b a s e r e p r e s e n tt h ec o r r e c td e t e c t i o nr a t i oo f p r o p o s e da l g o r i t h mi s1 7 h i g h e rt h a nt h eo l da l g o r i t h m ,a n do t h e ri t e m s ( f a l s e n e g a t i v er a t i o ,f a l s ep o s i t i v er a t i oa n da c c u r a c y ) a r ea l s oi m p r o v e dm u c h ,p a r to ft h e p r o p o s e da l g o r i t h mi sa c c e p t e di n t om p e g 7 2 a n dt h e n ,w es t u d yt ol o c a t ef a c i a lf e a t u r ep o i n t s ( s u c ha se y ec o m e r sa n d m o u t hc o m e r s ) a u t o m a t i c a l l ya n dt oe s t i m a t et h ef a c i a lp o s t u r ea f t e rf a c el o c a t i o n e y ec o m e r sa r el o c a t e du s i n gm o d i f i e dd e f o r m a b l et e m p l a t ea l g o r i t h ma n dm o u t h c o r n e r sa r el o c a t e db yg r a d sp r o j e c t i o n f a c i a lp o s t u r ei se s t i m a t e db a s e do nt h r e e p o i n t s :r i g h ti n n e re y ec o m e r ( o r l e f ti n n e r e y ec o m e r ) ,n o s eb r i d g ea n dc e n t e ro f l i n e c o n n e c t i n gt w o m o u t hc o m e r s 3 w ea l s oi n v e s t i g a t et h ef a c es e g m e n t a t i o ni nc o m p l e x b a c k g r o u n d s i no r d e r t or e s o l v et h ep r o b l e mo f b l u r r yo ff a c ee d g ea n dd i s c o n t i n u i t yo ff a c ec o n t o u r , a n e wf a s tf a c es e g m e n t a t i o n a l g o r i t h mi sp r o p o s e d ,i nw h i c hb o t hs m o o t h n e s so ff a c e c o n t o u ra n di n d i v i d u a lc o m p l e x i o na r eu t i l i z e dt oe x t r a c tt h ev a l i dc o n t o u rp o i n t s m o r e o v e r ,c o n t i n u o u s f a c ec o n t o u ri so b t a i n e d b y c u r v e f i r i n g ,a n d f a c e s e g m e n t a t i o n i sf i n i s h e d t h e e x p e r i m e n t a lr e s u l t sr e p r e s e n tt h a tt h ep r o p o s e d ,泓 北京工业大学工学博士学位论文 a l g o r i t h mi sb e t t e ra n d f a s t e rt h a na n o t h e r a l g o r i t h m - - a c t i v er e g i o nm o d e l 4i or e s o l v et h ep r o b l e mo f v a r i a n tf a c ep o s t u r e sa n ds c a l e s f a c en o r m a l i z a t i o n i si n v e s t i g a t e d b e c a u s ep l a n a rd e f o r m a t i o ni n3 dc o o r d i n a t e sc a nb es i m p l i f i e da s d e f o r m a t i o ni n2 dc o o r d i n a t e s a n df a c ed e f o r m a t i o n c a nb e s i m p l i f i e db y s e g m e n t i n gf a c es u r f a c ei n t or e g i o n s ,w h i c ha r ea p p r o x i m a t i v e l yp l a n a r a n a l g o r i t h mi sp r o p o s e d t on o r m a l i z et h ef a c e sw i t hr o t a t i o nt or i g h to rl e f t b a s e do n2 dm e s hm o d e l ,t h em e s hm o d e lf o rf r o n tv i e wi se s t i m a t e db a s e do n t h e s y m m e t r y o nf a c es u r f a c e ,a n df a c ei sn o r m a l i z e d b yg r a yl e v e lm a p p i n g a f a c en o r m a l i z a t i o na l g o r i t h mi sp r o p o s e dt on o r m a l i z ef a c e sw i t hv a r i a n t p o s t u r e s a c c o r d i n gt ot h ee s t i m a t e df a c ep o s t u r ea n df a c ei m a g e ,g e n e r a l3 df a c e m o d e lc a n d i d e 3i sd e f o r m e di n t os p e c i a l i z e df a c em o d e l ,b y g r a yl e v e lm a p p i n g f r o mf a c ew i t hp o s t u r et of r o n tv i e w f a c e ,f a c en o r m a l i z a t i o ni sf i n i s h e d 5 a ne x p e r i m e n t a l p l a t f o r mo ff a c e o b j e c tb a s e di m a g er e t r i e v a li s b u i l t , e x p e r i m e n t a lr e s u l t sc o n f i r mt h a to u ri d e ai sf e a s i b l e k e yw o r d si m a g er e t r i e v a l ;f a c e o b j e c t ;f a c el o c a t i o n ;f a c es e g m e n t a t i o n ;f a c e n o r m a l i z a t i o n ;e s t i m a t i o no ff a c i a lp o s t u r e i v - 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其它人已经发表或撰写过的研究成果,也不包 括为获得北京工业大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 签名: 母功 本论文的研究工作得到国家8 6 3 计划( 8 6 3 3 0 6 0 3 0 9 , 2 0 0 1 a a l l 4 1 4 0 ) $ 酥i i n 家自然科学基金( 9 0 1 0 4 0 1 3 ) 资助 北京工业大学工学博士学位论文 图例 图卜l 图像内容分类及相互关系 图l 一2 基于人脸对象的图像检索框图 图l _ 3 本征脸示例 图卜4 三层b p 神经网络 图1 5 弹性图匹配示例” 图1 6 人脸侧影描述示例 图卜7 人脸几何特征参数描述一 图2 - 1 人脸检测算法框图 图2 - 2c b c r 空间的肤色范围及肤色分割结果示例 图2 - 3 图2 - 2b ) 对应的特征点提取结果图像 图2 4 灰度投影示例 图2 - 5 原人脸检测算法存在问题示例“ 图2 - 6 马赛克与线状马赛克” 图2 7 眼睛部位灰度分布“ 图2 - 8 人脸表面的峰谷特征” 图2 - 9 人脸模板“ 图2 一l o 模板确认算法中间结果 图2 - 1 1 人脸检测算法流程图 图2 1 2 本文算法得到的人脸检测结果示例 图2 一1 3 实验图像及人脸检测结果示例 图3 1 眼睛区域分析“ 图3 - 2 眼睛的变形模板“ 图3 - 3 人脸表面的“三停五眼”规则 图3 - 4 眼角定位的搜索范围- 图3 - 5 特征点提取示例 图36 人脸与坐标系” 图3 7 人脸姿势估计示例“ 图3 8 角度估计误差“ 图4 一l 内外轮廓与搜索路径示例 图4 2 个性化肤色分割结果图像“ 图4 3 梯度算子定义- - 图4 - 4 最终搜索结果示例” - v i u - 叫 叫 叫 吨 川 q 吨 吨 哪 吨 吨 q q 吨 川 q 川 川 q q 喵 叫 叫 叫 叫 叫 嘶 咱 |二|;|一| 图例 图45 轮廓点及拟合结果5 2 图4 - 6 修正后的人脸轮廓5 3 图4 7 图4 - 4 分割结果一5 3 图4 - 8 分割结果举例5 3 图5l 三维坐标系和二维坐标系- 5 4 图5 - 2 平面图像正则化示例6 l 图5 3 基于矩不变性的人脸正则化6 2 图5 - 4 人脸网格模型示例6 5 图5 - 5 网格模型定位结果6 5 图5 - 6 估计的正向脸网格模型一6 6 图5 7 灰度映射示例6 6 图5 - 8 人脸正则化结果6 6 图5 - 9 正则化前后人脸图像对比6 7 图5 一1 0 正则化前后类内距离和类间距离变化( 正则化算法1 ) 6 8 图5 - 1 1 任意姿势人脸正则化基本框图6 9 图5 1 2 通用三维人脸模型c a n d i d e 各版本图例7 0 图5 - 1 3 通用三维人脸模型7 5 图5 一1 4 调整后的人脸模型7 5 图5 1 5 原始图像、轮廓提取及定位结果7 5 图5 1 6 分区域轮廓点坐标估计7 7 图5 1 7 轮廓调整结果及变形7 8 图5 一1 8 人脸正则化结果7 8 图5 一1 9 人脸图像及正则化结果7 9 图5 2 0 正则化前后类内距离和类间距离变化( 正则化算法2 ) 8 0 图6 一1 人脸形状特征描述示例8 3 图6 2m p e g 7 提供的本征脸8 7 图7 - l 正则化前后a r r 比较( 图像集1 ) 9 0 图7 2 正则化前后a n m r r 比较( 图像集1 ) 9 0 图7 3 正则化前后a r r 比较( 图像集2 ) - 一9 1 图7 4 正则化前后a n m r r 比较( 图像集2 ) 9 1 图7 5 检索实验平台示例9 2 图7 - 6 检索实例9 3 北京工业大学工学博士学位论文 表例 表2 一1 人脸检测实验结果比较3 0 表3 一l 不同旋转顺序下角度估计误差4 4 表4 一1 人脸分割结果比较5 3 表5 l 正列仡蓠居距鬻变傀( 芷刘纯算法1 韶 表5 - 2 正则化前后距离变化( 正则他算法2 ) 8 0 表6 一l 不同人脸特征对比分析8 6 表7 一l 实验图像集l 检索性能眈较9 0 表? - 2 实验嚣德集2 检索靛能院较9 l 第1 辛绪论 第1 章绪论 近年来,多媒体技术发展迅速,其应用已经深入到科研、生产以及生活的各 个方面。多媒体数据源的日益丰富、数据存储容量以及网络带宽的快速增长,使 得具有海量数据的多媒体信息业务的开展已成为可能 1 】。但是,数据并不等于信 息,个性化信息服务理念的提出,要求基于相同的数据源能根据用户需求提供不 同的信息。因此,如何面向用户需求,从海量数据中快速有效的提取有用信息已 成为多媒体数据管理的关键任务之- 1 ,4 】。 多媒体数据包括图像、声音和文字等,其中图像数据具有数据量大、频带宽、 信息表征直观等特点而受到人们更多的关注,本文将主要讨论图像检索领域的有 关问题。 1 1 基于内容的图像检索 传统的基于文本的图像检索方式文本标注繁琐,很难实现个性化检索,不能 满足海量图像数据检索的需要。基于内容的图像检索技术( c b i r :c o n t e m b a s e d i m a g er e t r i e v a l ) 能够自动提取图像的内容特征进行检索,从而克服上述缺点,因 此受到广泛的关注 2 ,3 ,4 】。 1 1 1 图像内容分类 基于内容的图像检索( c b i r ) 可以简单分为基于物理特征的检索和基于语义 特征的检索,其中物理特征即图像基本特征如颜色、纹理、形状等,语义特征是 人们对图像内容概念级的反映【3 1 。 根据图像内容特征的表现方式,我们将图像语义特征进一步细分为逻辑特征 和抽象特征两大类,总体上,图像内容特征分为三个层面,其相互关系如图1 1 所示。 第一层:图像基本特征( p r i m i t i v ef e a t u r e ) 。即与图像像素点的值直接相关的 特征如颜色、纹理、形状等,其特点是容易实现自动提取,但很难确切表征人们 的检索需求。 第二层:图像逻辑特征( l o g i c a lf e a t u r e ) 。即图像中具有一定语义的独立对 象及相互关系,包括广义对象( 如人、汽车、火车、足球、排球、草地、树林等) 、 狭义对象( 如奥黛丽赫本、奔驰汽车等) 和对象的位置关系等( 如奥黛丽赫本 举着大提琴、葛优打着一把伞) ,图像逻辑特征一般映射为多个图像基本特征,其 北京工业大学工学博士学位论文 共同特点是在图像中可见,特征表达方式是语义级的,容易与人们的检索需求相 一致。 第三层:图像抽象特征( a b s t r a c tf e a t u r e ) 。即图像所表征的抽象含义如过生 目的图像、风景图像等等,是对图像内容的抽象概括。抽象特征一般基于对象、 相互关系以及人们的先验知识来提取,如过生日的图像一般包括点燃的蜡烛、生 日蛋糕、人等,风景图像一般包括天空、绿树或草地等。 目前,基于第一层特征( 图像基本特征) 的c b l r 研究已比较深入,出现了 一些商业应用系统如q b i c 1 6 i 、v i r a g e 图像引擎等,但是这些系统的检索结果往 往与人们的检索需求有一定的距离,主要因为图像基本特征表达的图像内容与人 们的理解不完全相符,相比之下,图像语义特征表征的图像内容与人们的理解相 一致,因此,有必要对基于语义特征的图像检索技术进行深入研究【5 , 6 , 1 8 , 1 1 1 。 图1 - 1 图像内容分类及相互关系 f i g u r el - li m a g e f e a t u r e sa n dt h e i r r e l a t i o n s h i p 1 1 2 基于对象的图像检索 从图1 1 可以看出,语义对象是基于语义特征的图像检索技术的重要单元, 许多更高层次的图像检索可以根据对象之间的相互关系、结合人们的先验知识来 实现 1 7 , 1 1 2 , 8 7 1 。一方面,基于语义对象的图像检索可以看成是一定程度的基于语义 特征的图像检索,另一方面,又可以作为基于更高层次语义特征的图像检索的中 间结果。因此,随着c b i r 研究的日益深入,基于用户感兴趣对象的图像检索技 术受到人们的关注【6 , 9 , 1 3 , 1 5 。 基于对象的图像检索就是根据图像中是否包含某个( 或某些) 对象来决定其 是否为用户所需 1 9 1 ,进一步可细分为【6 】: 2 第l 章绪论 ! _ i 一 n il s ! e ! s e 基于对象模型的图像检索f 1 8 j :根据人们的先验知识,建立相应的对象类模型, 图像检索过程就是在图像中寻找模型的栩似区域。显然,这一方法包禽了更多的 “瞽麓”繁惠,对象模螫缒缓好缝袭征对象特经,毽模塑鲁学习往差,适合予对 象固定的专业领域。 基于对象绕计特征的图像捡索【1 9 l :邋过绞计学习的方法提取多令阏类慰象共 有的图像基本特征,图像检索过程就是在图像中寻找具霄相似图像基本特征的区 域。这一方法具有一定的自学习能力,随着学习集样本的增加,检索性能在一定 程度上够褥裂改善。若学习集徉本只裔个,蟊| j 称为蓥予穗子辩象钓鹜像检索 【26 1 ,此时成充分考虑检索对象与其蚀同类对象个体之闻驰差异,菸尽霹能去除这 贱差异。 1 2 基于人脸对象的图像检索 1 。2 课题的提出 缀多情况下,蔫户佼仅对阔像审的一个或凡个对象艨兴趣 1 3 ,悖】,基于对象的 捻索g 够瀵足这样敕检索襞求。本文选撵基于久黢对象驰圈豫检索这一研究方离 主要有以下三方丽的原因: ( 1 ) 人作为爨然界独立丽又比较常见的对象,辨作必人类社会赡一个智能型 个体,其彳亍为必然成为自然界中的核心,一举动必然会引起周嘲环境的关注。 在视频图像中,入是最常觅而又有明显特征的对象,通常也怒人们感兴趣的对象 2 1 。 ( 2 ) 在诸多辘表涿入类令体差弊靛符征孛,魏入验、入静体形、衣服、发型、 走路姿势等等,人脸特征b e 较舆有代表性秘稳定性。 ( 3 ) 人脸是人类用来送分不同人类个体载主要途经乏一,瑟虽受黢察祭 学、 表情、年龄、伪装( 如戴眼镜) 和发型改变等各种因素的影响较小,本文研究基 予人脸对象的图像检索与人类的认知规律比较一致。 其体来讲,本文研究的问题是“根据绘定的一幅例子图像中的特定人脸对象, 熬鹜像库串所有包含褶戗入齄对象静图像检索出来”。 1 2 2 研究意义 研究发现 1 3 , 1 9 ,人们浏览图像时,往往不会首先关心图像中的全部内容,而 又仅对图像中酌一点或凡点惑兴趣,用户检索需求也通常表述为“把包含某菜对 象( 始足球、篮球、久、爽黛嚣赫本、费雯掰等) 的匿像检索崮泉”。在许多待 3 一 北京工业大学工学博士学位论文 , 定的图片管理应用中,如照片浏览、新闻图片浏览、视频图像管理等等,人通常 是事件的核心。以新闻图片为例,某一时期某个人在新闻中出现通常具有特殊的 含义,如9 1 1 事件以后,布什在新闻中出现通常与“反对恐怖主义”有关,用户 看电视、电影或浏览图片时,通常会对某个镜头中的某个人及动作记忆深刻。上 述各类应用都需要发展一种快速、高效的基于人脸的图像检索技术。本文的研究 工作将会在视频点播、图像数据库管理、数据挖掘、新闻搜索、网上图片查询、 消费电子、信息安全、图像理解、信息检索和过滤等领域得到广泛的应用。 与基于内容的图像检索技术相适应,国际m p e g ( m o v i n gp i c t u r ee x p e r t g r o u p ) 组织于1 9 9 6 年提出了新的m p e g 国际标准m p e g 7 i 2 7 , 2 8 1 ,目的在于 提供图像内容特征的标准化描述,其中也包括了人脸特征的提取与描述 2 6 , 2 7 , 2 8 。 1 2 3 m p e g 7 与基于人脸对象的图像检索 m p e g - - 7 又称为“多媒体内容描述接口”,目的在于提供一套标准化的核心技 术,以便描述多媒体环境下的视频和音频特征,使视频和音频搜索象文本搜索一 样简单方便f 2 6 , 2 7 , 2 8 , 2 9 , 1 0 8 , 1 0 9 。 面向视频图像基本特征形状、纹理、颜色、运动,m p e g 7 提供了相应 的特征描述方法d 0 9 , 1 1 0 i 。对每一特征,m p e g 一7 提供多层次的特征描述方式,以满 足不同层次的用户需求。以颜色特征为例,m p e g 7 定义了主颜色、颜色直方图、 颜色布局、颜色结构等特征描述方法,分别描述了图像的主要颜色分量、颜色分 布的统计特征、图像空间分区域主要颜色分量和颜色分布统计特征。对于图像的 纹理特征,m p e g 7 定义了相似性纹理描述子、纹理浏览描述子、边缘直方图描 述子三种特征描述方法。分别表征图像的频率域分区域能量分布、图像纹理的方 向性和粗糙度以及图像中方向边缘的统计特征。另外,m p e g 7 定义了曲率尺度 空间来描述区域形状,定义了一系列相机运动参数和运动轨迹来描述视频图像中 的运动特征。 除此之外,m p e g 7 还面向人脸对象,定义了相应的特征描述方法。m p e g 7 的人脸特征描述面向人脸识别和人脸图像检索两个应用领域。其中面向人脸识别 的应用领域如自动注册、视频监控、个人多媒体数据库中元数据的自动生成、基 于个人身份的视频自动分割等。人脸图像检索要求基于一幅人脸图像检索其他相 似的人脸图像,如在一部电影中,基于某一个演员的一帧图像检索出其他包含该 演员的所有视频帧。 相应于上述两种应用,m p e g 7 定义了两种人脸特征描述算法的测试策略 2 5 1 : 4 第1 章绪论 测试策略1 :人脸图像检索,用五幅图像中的任意一幅人脸图像作为训i 练 图像,从图像库中检索出其他四幅图像。检索结果用a n m r r ( a v e r a g e o f n o r m a l i z e dm o d i f i e dr e t r i e v a lr a n k :平均的归一化修正检索秩) 来度量。 测试策略2 :人脸图像识别,用五幅图像中的任意四幅图像作为训练图 像,从图像库中识别另外幅图像。检索结果用a v e r a g es u c c e s s r a t e 似s r : 平均成功率) 来度量。 显然,本文提出的基于人脸对象的图像检索与m p e g 7 的测试策略1 是一致 的,不同的是,本文研究所采用的测试图像背景复杂,姿势和光照变化任意。 1 2 4 关键问题及解决思路 基于人脸对象的图像检索技术的实现必须考虑以下问题: ( 1 ) 基于人脸对象的图像检索技术处理的图像背景复杂,图像中的人脸无任 何约束,姿势、大小等变化任意。 ( 2 ) 人脸本质上是一个三维对象,我们所看到的人脸图像是三维人脸对象在 二维平面投影的结果,光照、姿势变化等对人脸图像影响较大。“同一个人脸在不 同环境下( 光照、姿势等) 的人脸图像变化几乎总是比不同人脸在同一环境下的 人脸图像变化更大【7 6 1 ”( 即样本的类内变化率大、类间变化率小) ,如何去除环 境变化的影响受到人们的关注 1 0 , 2 5 1 。 ( 3 ) 基于人脸对象的图像检索属于基于例子对象的图像检索范畴,只能从一 个例子对象提取信息用于检索。必须重点考虑检索对象与其他同类对象个体之间 的差异,尽可能地减小样本的类内距离。 为,了很好的解决上述问题,本文采取的主要思路如下: ( 1 ) 针对复杂背景的影响,本文采取的措施是“人脸检测+ 人脸分割”。首先 通过人脸检测确定复杂背景下人脸图像的位置,进一步把人脸区域精确分割出来, 从而彻底避免背景因素的影响。 ( 2 ) 针对“类内变化率大、类间变化率小”这一问题,本文采取的解决方案 是在人脸特征提取之前进行人脸正则化,去除环境变化造成的类内距离的增大, 同时保持类间距离基本不变。目前的一些人脸特征提取方法如本征脸( e i g e n f a c e ) 方法,在环境变化不大的情况下,用较少的特征数据量能得到较好的检索结果。 通过人脸正则化对图像进行预处理,然后采用上述方法提取人脸特征,有希望在 特征数据量较小、计算复杂度较低的情况下,得到比较好的检索结果。另一种解 5 北京工业大学工学博士学位论天 决方案是提取不受环境变化影响的人脸特征1 9 7 , 9 8 】。 综上所述,基于人脸对象的图像检索实现框图如图1 2 所示。从图中可以看 出,为了实现基于人脸对象的图像检索,必须很好地解决其中的一些关键技术一 一人脸检测、人脸分割、人脸正则化,人脸特征提取与描述等。 1 3 研究现状 图1 2 基于人脸对象的图像检索框图 f i g u r e1 - 2d i a g r a mo f f a c e - o b j e c tb a s e di m a g er e t r i e v a l 基于人脸对象的图像检索的关键技术之一是人脸识别。人脸识别技术在国内 外都有比较长时间的研究,并有一些研究成果。相对来讲,基于人( 或人脸) 对 象的图像检索技术方面的研究比较薄;5 ,尤其是针对背景复杂的图像的研究,包 含了人脸识别以外的许多相关技术如精确的人脸检测、人脸分割等,有很大的难 度。本文将分别对人脸识别和基于人脸对象的图像检索的国内外研究现状全面综 述。 1 3 1 人脸识别研究现状 近十年来,人脸识别技术成为图像处理领域的研究热点,国内外许多学者都 进行了这方面的研究。国外许多著名的大学如m i t 、密歇根卅i 立大学、卡内基梅 隆大学、s u r r y 大学等在这一领域都有很深的研究积累,许多著名的方法如基于本 征脸的人脸识别方法、基于变形模板的眼睛和嘴的定位、弹性图匹配方法等等都 应用于目前的人脸识别和人脸处理中。国内也有许多大学和研究所如中科院计算 所、清华大学、中山大学、北方交通大学、北京工业大学等也在进行这方面的研 6 第1 章绪论 究。目前常用的一类人脸识别方法是利用人脸图像的整体信息进行识别,另一类 是从人脸图像中提取特征信息用于人脸识别,下面进行详述。 1 3 1 1 基于整张人脸的人脸识别 该类技术以整幅人脸图像为研究对象,通过整体操作的方式提取其特征用于 人脸识别。具体的操作方式包括把人脸图像在特征子空间进行映射来提取其特征 用于人脸识别( 如e i g e n f a c e 方法、f i s h e r f a c e 方法等) ( 7 5 , 7 6 , 7 7 , 7 8 , 7 9 , 8 7 把人脸图像看 成是二维矩阵,提取其代数特征用于人脸识别【8 3 】:其他方法如通过神经网络训练 的方式来提取人脸特征用于人脸识另t j t g o , m l 等等。 1 3 1 1 1 基千子空间分解的人脸识别 该类方法就是将整幅人脸图像作为一个n 维向量,然后定义一组同维的基函 数向量组成一个m 维特征空间【矿】- ( 商,:,九) ,任何一幅人脸图像厂都可在 该图像空间进行投影 y = 7 厂= 【。,:,丸】。,= ,:, ,( 1 - 1 ) 式中 “= f 即厂在基函数妒,的投影坐标( 或相应 , 特征值) ,此时,图像可以表示为f = “痧,。人 f l i 脸识别可以通过比较两幅人脸图像对应特征值的 相似性来完成。该类方法的关键是特征空间的生 成,下面介绍常见的几种方法。 ( 1 ) 本征脸( e i g e n f a c e ) 特征空间【7 5 , 7 6 , 7 , 7 8 , 7 9 , 8 7 】 该方法的实质是通过k l 变换获得人脸图像分图1 - 3 本征脸示例即】 解的子空间。具体算法如下: f i g u r e1 - 3 e x a m p l eo f e i g e n f a c e 依据已知样本图像以,k = l ,2 l ,其均值向量和协方差矩阵表示为 :圭以 l b l - 7 ( 1 2 ) 北京x - 1 k 大学工学博士学位论文 s ,= ( 以一p ) ( 以一) ( 1 3 ) 设图像特征映射空间【w 为n + m 维,则最佳映射空间应使l w l s w 1 最大。 具体求解过程即求协方差矩阵的特征值( 旯,i = 1 , 2 ,n ) 和相应的特征矢量 ( m ,i = 1 , 2 ,n ) ,按照特征值从大到小的顺序提取前m 个特征矢量 ( ,中2 ,巾。) 组成m 维最佳映射空间 w 】,即本征脸( e i g e n f a c e ) 空间, 图 1 3 为k i r b y 和s i r o v i c h 给出的9 个本征脸。该空间中特征矢量维是m 维( m n ) , 因此不满足完备性,投影坐标值只能近似表示原图像,即图像可以近似表示为 h 厂z “声。 该方法的缺点是它不仅包含了类间偏差,而且包含了类内偏差,具体来讲, 同一张人脸在不同的光照条件下,在本征脸空间的投影值并不相同。实际应用中, 为了避免光照强度和光照方向的影响,经常将其中较大特征值对应的分量去除掉。 为了改善正向脸分类性能,a k a m a t s u 等人将k l 变换进行扩展,得到k l i p a t f k a r h u n e n l o e v et r a n s f o r mo fi n t e n s i t yp a a e mi na f f i n e t r a n s f o r m e dt a r g e t ) 算法。 ( 2 ) 线性子空阃【7 6 1 一张人脸图像可以看成是在朗伯平面无阴影投影结果。设朗伯平面任一点p , 光源大小及方向用三维矢量i 表示,p 点对应的平面法向矢量为n ( p ) ,该点的平 面反射系数为d ( p ) ,则该点对应的图像亮度为e ( p ) = a ( p ) f i 7 ( p ) i ,这一公式表明 图像亮度与光源矢量呈线性。因此在没有阴影的情况下,在同一个视觉下的一幅 图像,可以用三个线性独立的光源方向所得图像组成三维线性子空间。 该方法的缺点在于如果存在噪音或阴影,阴影区将不再满足线性子空间映射 模型。另外,线性子空间随着已知样本数量的增加而增加,对存储空间提出了更 高的要求。 ( 3 ) f i s h e r f a c e 子空间 7 6 , 8 2 1 在学习集属性已知的情况下,根据分类应用的需要,产生了f i s h e r f a c e 子空 间,目的在于实现类间离散度和类内离散度之比为最大。具体如下: 8 第1 章绪论 类间离散度矩阵为: s b = n 。( ,一) ( ,一) 7 ( 1 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 跨部门协作沟通协议范本
- 后备站长考试题库及答案
- 智能家居环境感知技术-第2篇-洞察与解读
- 慢病管理自动化-洞察与解读
- 衡安数学考试试卷及答案
- 河南省素描考试卷及答案
- 2025国考广州审特申论大作文易错点
- 2025国考邢台市工程技术岗位行测预测卷及答案
- 2025国考大庆市德语翻译岗位申论高频考点及答案
- 2025国考保定市民主党派岗位申论题库含答案
- 经阴道全子宫切除术专家共识(2024年版)解读
- 2024年新华东师大版七年级上册数学全册教案(新版教材)
- 《看图找关系》(教学设计)-2024-2025学年六年级上册数学北师大版
- 合伙人之间合作合同范本
- 电商直播带货的营销策略手册
- LYT 2241-2014 森林生态系统生物多样性监测与评估规范
- 2024年上海市中考语文试题卷(含答案)
- 2024年辽宁省葫芦岛市行政职业能力测验题库加解析答案
- GB/T 2820.9-2024往复式内燃机驱动的交流发电机组第9部分:机械振动的测量和评价
- 热电偶测温系统安装
- 【川教版】《生命 生态 安全》六上第17课《舌尖上的四川》课件
评论
0/150
提交评论