(信号与信息处理专业论文)人脸检测算法研究及其在视频中的应用.pdf_第1页
(信号与信息处理专业论文)人脸检测算法研究及其在视频中的应用.pdf_第2页
(信号与信息处理专业论文)人脸检测算法研究及其在视频中的应用.pdf_第3页
(信号与信息处理专业论文)人脸检测算法研究及其在视频中的应用.pdf_第4页
(信号与信息处理专业论文)人脸检测算法研究及其在视频中的应用.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(信号与信息处理专业论文)人脸检测算法研究及其在视频中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在目前的人脸图像信息处理领域中包含有人脸识别、人脸跟踪、姿态估计、 表情识别等多个研究方向,所有这些都涉及到人脸的检测与定位问题。随着计 算机应用的普及、性能的提高咀及图像处理和模式识别领域的研究逐步成熟, 对人脸检测的研究也将受到越来越多的重视。本文针对复杂背景下的人脸检测 问题展开研究。 在分析现有人脸检测方法优缺点的基础上,提出了一种基于高斯模型和神 经网络的复杂背景下人脸检测算法。该方法首先建立肤色和唇色的高斯模型, 提取候选人脸和人嘴区域,然后对平面旋转候选人脸利用椭圆模型参数将其校 准为端正人脸,最后由b p 神经网络确认候选区域是否为人脸。实验结果表明 该方法具有良好的检测精度和普适性。针对人脸检测在视频领域i ;! j 益广泛的应 用,本文将人脸检测算法g i 入新闻视频主持人镜头的检测问题当中。首先,提 取每个新闻视频镜头有代表性的一帧为其关键帧,基于同一模型的主持人关键 帧的相似性,运用图论聚类算法对关键帧聚类,然后基于模糊推理的模糊系统 被用来进行主持人人脸检测,进一步调整检测结果。仿真实验验证了该方法的 检测效率和鲁棒性。 本文所提出的检测方法性能优良,检测效果理想,具有较高的实用价值。 关键词:人脸检测高斯模型神经网络图论聚类模糊推理 一,垒! 璺! 型一 一。一 a b s t r a c t t o d a yi ni n f o r m a t i o np r o c e s s i n gf i e l d s o fh u m a nf a c ei m a g e s ,t h e r ea r em a n y r e s e a r c hd i r e c t i o n ss u c h a sf a c e r e c o g n i t i o n ,f a c et r a c k i n g ,p o s e e s t i m a t i o n , e x p r e s s i o nr e c o g n i t i o na n d s oo n ,f a c ed e t e c t i o na n dl o c a t i o na r ei n v o l v e di na l lo f t h o s e a p p l i c a t i o n s a l o n g w i t ht h e g e n e r a l i z a t i o n o fc o m p u t e ra p p l i c a t i o n ,t h e i m p r o v e m e n to fc o m p u t e rp e r f o r m a n c ea n da c h i e v e m e n t si ni m a g ep r o c e s s i n ga n d p a t t e r nr e c o g n i t i o nf i e l d s ,m o r ea n dm o r ee m p h a s e s a r ep u to nt h er e s e a r c ho n h u m a nf a c ed e t e c t i o n i nt h i st h e s i s ,f a c ed e t e c t i o nu n d e rc o m p l e xb a c k g r o u n di s m a i n l yi n v e s t i g a t e d o nt h eb a s i so ft h ea n a l y s i so f e x i s t i n gt e c h n i q u e s ,ag a u s s i a nm o d e l a n dn e u r a l n e t w o r kb a s e dh u m a nf a c ed e t e c t i o nm e t h o di sp r e s e n t e df o rc o l o ri m a g e su n d e r c o m p l e xb a c k g r o u n d f i r s t ,g a u s s i a n m o d e l sa r ea p p l i e dt of a s t e x t r a c t i n g o f s k i n c o l o ra n dl i p - c o l o rr e g i o n s t h e n ,f a c ec a n d i d a t e so b t a i n e da r er o t a t e di ni m a g e p l a n et ob eu p r i g h t f i n a l l y , ab pn e u r a ln e t w o r ki su s e dt o d e t e r m i n ew h e t h e ra c a n d i d a t ea r e ai sah u m a nf a c eo rn o t s i m u l a t i o nr e s u l t ss h o wt h a tt h ep r o p o s e d a p p r o a c hi so fh i 。出p r e c i s i o na n dg e n e r a l i t y a sw i d e l yu s e di nv i d e op r o c e s s i n g f i e l d ,f a c ed e t e c t i o nt e c h n o l o g yi s i n t r o d u c e di n t ot h ef i e l do fa n c h o r p e r s o ns h o t d e t e c t i o nf o rn e w sv i d e o i n d e x i n g f i r s t ,ar e p r e s e n t a t i v ek e y f r a m ei se x t r a c t e df r o m e a c hn e w sv i d e os h o t b a s e do nt h es i m i l a r i t ya m o n gt h ea n c h o r p e r s o nk e yf r a m e s w i t ht h es a m em o d e l ,t h eg r a p h - t h e o r e t i c a lc l u s t e r i n ga l g o r i t h mi sa p p l i e dt og r o u p t h e k e yf r a m e s i n t o a n c h o r p e r s o nc l u s t e r s l a b e l e dw i t hd i f f e r e n t a n c h o r p e r s o n m o d e l s t h e n ,ac l a s s i f i e rb a s e do nf u z z yi g t h e nr u l e si su s e dt of u a h e rt u n et h e d e t e c t i o nr e s u l t s e x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h ee f f i c i e n c ya n dr o b u s t n e s so f t h ed e t e c t i o ns c h e m e t h ed e t e c t i o nm e t h o d s p r o p o s e di nt h i sp a p e rh a v ee x c e l l e n tp e r f o r m a n c e sa n d h i g hp r a c t i c a l i t y k e y w o r d s :h u m a nf a c ed e t e c t i o ng a u s s i a nm o d e l n e u r a ln e t w o r k g r a p h - t h e o r e t i c a lc l u s t e r i n gf u z z yi n f e r e n c e 创新性声明 y6 9 5 6 23 本人声i 粥所呈交的论文是我个人在导师指导 、进行的研究r 作及取得的i | 蚪究 成果。尽我所知,除了文中特剐如i 以标注和致谢r p 所罗列的内容以外,论文巾f i 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技人学或 其它教育机构的学位或让书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名 查煎r 期:兰竺! :! 2 关于论文使用授权的说明 本人完令了解西安电予科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电予科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复e p l b ,允许查阅和借阔论文;学校可以公布的全部或 部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解 密后遵守此规定) 本人签名查煎 跏躲捶l 兰妥 门期:墨噬,。z2 h 期:乡矾,堡 笠二童笪堡 第一章绪论 人脸是一个信息极为丰富的模式集合,是人类互相判别、认识、记忆的主要 标志。我们通过观察人脸的外部特征,可以判断一个人的性别、种族,甚至身份 和性格。人脸图像的研究在计算机视觉和信号处理领域占有极为重要的地位。当 然,对人脸的研究不仅局限在工程、科学研究上,在哲学、心理学、医学、人文 等领域也有着广泛的研究意义。让机器能够具有人的智能,使它们可以像人脑一 样判别、认识、记忆人类,是全世界研究人员的愿望。人脸检测是所有人脸研究 的第一个步骤,对于整个应用系统的性能起着关键性的作用。 1 1 研究背景及意义 人脸检澳l j ( f a c ed e t e c t i o n ) 是指在输入图像中确定所有人脸( 如果存在) 的位置、 大小、位姿的过程】。人脸检测作为人脸信息处理中的一项关键技术,近年来成为 模式识别与计算机视觉领域内一项受到普遍重视、研究十分活跃的课题。 人脸检测问题最初来源于人脸蝴o ( f a c er e c o g n i t i o n ) 。人脸识别的研究可以追 溯到2 0 世纪6 0 一7 0 年代,经过几十年的曲折发展已f 1 趋成熟。人脸检测是自动人 脸识别系统的一个关键环节,但早期的人脸识别研究主要针对具有较强约束条件 的人脸图像( 如无背景的图像) ,往往假设人脸位置已知或很容易获得,因此人脸 检测问题并未受到重视。近几年随着电子商务等应用的发展,人们对自动有效身 份验证的要求日益迫切。由于人脸、指纹、视网膜、虹膜、基因、声音等生物特 征是人的内在属性,具有很强的自身稳定性和个体差异性,因此生物特征便成为 身份验证的最理想的依据手段。人脸作为人体的一个具有很强表征性的模式,相 比其它人体生物特征具有信息量丰富、界面友好、应用方便等显著的优点,因此, 人脸识别成为最有潜力的生物身份验证手段,这种应用背景要求自动人脸识别系 统能够对一般环境图像具有一定的适应能力,由此所面临的一系列问题使得人脸 检测开始作为一个独立的课题受到研究者的重视。今天,人脸检测的应用背景已 经远远超出了人脸识别的范畴,在人工情感计算、基于内容的检索、数字视频处 理、视觉监测等方面有着重要的应用价值。 人脸检测研究具有重要的学术意义。人脸是一类具有相当复杂的细节变化的 自然结构目标,此类目标的检测问题的挑战性在于:( 1 ) 人脸由于外貌、表情、肤 色等不同,具有模式的可变性;( 2 ) 一般意义下的人脸上,可能存在眼镜、胡须等 附属物;( 3 ) 作为三维物体的人脸的影像不可避免的受到由光照产生的阴影的影晌。 因此,如果能够找到解决这些问题的方法,成功构造出人脸检测定位系统,将为 ! 叁堕堕型簦堡婴壅墨基垄塑塑! 堕壁旦一 解决其它类似的复杂模式检测f q 题提供重要的启示。 1 2 人脸检测算法研究现状 从广义上讲,人脸自动检测的对象既包括整张人脸,也包括某个面部器官, 如眼睛、嘴巴、鼻子、眉毛等。检测的内容除了从一幅背景图像中将被检测对象 分割出来以外,还包括确定其位置、大小、方向甚至形状等。y a n g 等i z j 将人脸检 测定义为:任意给定一幅图像或者一组图像序列,人脸检测的目的就在于判定该 图像或图像序列中是否存在人脸:如果存在,则确定其位置和空间分布。根据这 个定义,人脸检测可分为两种情况:第一种情况是在静止图像中判断是否存在人 脸,若存在,则定位人脸的位置;第二种情况是在视频图像序列中判断是否存在 人脸,若存在,则动态地跟踪人脸。最近几年来,人脸检测研究吸引了众多研究 者的注意,各种各样的检测方法也层出不穷,本章将对人脸模式的特征和人脸检 测的主要算法作以介绍。 1 2 1 人脸模式的特征 人脸检测实质上是一个模式识别的问题,特征和分类器的选择是最重要的两个 方面。人脸检测利用了人脸的共性特征1 3 】,大致可分为基本特征、变换域特征、统 计特征、肤色特征等,而运动特征是检测视频中人脸的一个主要特征。 一、基本特征: 1 、灰度特征:多个人脸图像的平均就是一个简单的人脸模板,可用于检测人 脸。相应的眼模板和嘴模板也常被使用。人脸的眉、眼和嘴等区域的灰度值较低, 前额、脸颊、鼻梁和下颌等其它区域的灰度值较高,因而人脸具有明显的灰度分 布特征。对人脸区域进行水平和垂直方向的灰度投影,根据极小点位置即可得到 眉、眼、鼻和嘴的中心和各自所处的区域。当光照不均时,各区域的灰度值有不 同的变化,但是,眼和嘴、鼻和嘴、鼻和脸颊等区域灰度的比值会保持一定的比 率。采用线性光照拟合和直方图均衡的方法可以补偿光照的影响。l o g 、e x d 和 l o g a b o u t 等一些非线性变换也能用于光照补偿。 2 、边沿和形状特征:人脸及人脸器官具有典型的边沿和形状特征,如人脸轮 廓、眉毛边沿、眼睑轮廓、虹膜轮廓、鼻侧线和嘴唇轮廓等可以近似视为椭圆、 圆、弧线或线段等简单的几何单元。通常采用s o b e l 、l a p l a c i a n 和c a n n y 等算子以 及小波变换提取边沿特征。由于噪声的存在导致边沿的不连续,常采用边沿跟踪 器把属于同一轮廓的各段边沿连接起来 h o u g h 变换也常用于提取人脸轮廓特征 并通过约束搜索范围防止边沿跟踪失败。 并对噪声有较好的适应性。应用s n a k e s 笙二童堑笙一一三 模型和主动形状模型( a s m ,a c t i v es h a p em o d e l ) 能够较好地抽取人脸的边沿特征, 但这些模型需要一个较好的初始化位置。相对于灰度特征,边沿特征对光照变化 具有一定的鲁棒性,但在强光照变化下会产生一些伪边沿。 3 、结构特征:人脸的对称性也是十分有用的特征。正面人脸是左右对称的, 对应边沿和灰度特征基本相同。各个器官也具有自身的对称性。眉、跟、鼻和嘴 等区域是按定比例关系组织在一起,各器官按照从上而下的顺序排列,两眼和 嘴中心构成个三角形。每个人的眉、眼、鼻和嘴的相对位置,眉毛的厚度和弧 度,嘴的宽高、脸形等特征各具特点,头发的灰度和肩宽等也可作为辅助特征。 4 、纹理特征:人脸具有特定的纹理特征,基于灰度共生矩阵可计算人脸的一 系列纹理特征。 二、变换域特征: 基于f f t 、d c t 、w a v e l e t 和k - l 等变换。根据能量规则选择一些系数用于表 征人脸图像的特征。 三、统计特征; 采用统计方法可从单个图像数据或大量图像数据中获得统计特征,如自相关、 高阶矩、不变矩、在子空问的投影、空间距离、隶属度、概率分布、熵、互信息, 以及神经网络的抽象特征等。 四、肤色特征: 对于彩色图像,肤色是一个有效的特征。肤色是人脸的重要信息,不依赖于 面部的细节特征,对于旋转、表情等变化情况都能适用,具有相对的稳定性并且 和大多数背景物体的颜色相区别。因此肤色特征在人脸检测中是最常用的一种特 征。很多颜色模型,如r g b 、归一化r g b 、h s v 、y c b c r 、y i q 、y e s 、t s l 等常 被采用。一些研究表明,t s l 彩色空间具有更好的描述能力。在归一化的彩色空 间中,单一高斯模型可以有效地描述肤色的空间分布,而混合高斯模型能更好地 描述肤色在非归一化彩色空间的分布。t e r r i u o n 等 4 1 指出,最终限制检测性能的因 素是不同色度空问中肤色与非蕨色区域的重叠程度。肤色直方图也常用于描述肤 色的分布。j o n e s 等【5 】研究发现。直方图模型的性能略好于混和高斯模型。在很多 情况下,光照也会影响肤色,可利用图像中一定数量的最大亮度象素r g b 分量的 平均作为“参考白色”,补偿颜色的变化。同时考虑肤色和非肤色象素的分布概率 获得贝叶斯模型, 五、运动特征: 对于视频,运动信息是一个重要特征。人脸运动特征可用于分割快速的人脸 检测。计算相邻帧图像的差分可得到运动区域。采用空间连通区域、多帧差分、 差分图像光滑滤波、时空三维张量等方法能够提高算法对噪声的鲁棒性。局部方 差对比度和视频相邻帧差分对比度构成二维熵分布图也已用于分割运动对象。运 ! 堕竺型簦鲨婴窒垦基垄塑塑主塑蜜旦一 动特征也可用于人脸跟踪。常用的方法是跟踪整个人脸或特征器官( 如眼、嘴) 。概 率模型的c o n d e n s a t i o n 方法也被用于跟踪整个人脸。结合彩色模型和运动特 征能很好地跟踪人脸,采用动态更新彩色模型的方法提高了系统对环境或光源颜 色变化的适应性。 1 2 2 人脸检测算法 人脸的检测过程实际上就是对人脸模式特征的综合判断过程,包括多种方法。 归纳起来,根据利用特征的色彩属性可以将人脸检测方法分为基于肤色特征的方 法和基于灰度特征的方法两类。前者适用于构造快速的人脸检测和跟踪算法,后 者利用了人脸区别于其它物体的更为本质的特征,是人脸检测领域研究的重点。 根据特征综合时采用的不同模型,可以将基于灰度特征的方法分为两大类:基于 知识模型的方法和基于统计模型的方法。由于人脸检测问题的复杂性,无论哪一 类方法都无法适应所有的情况,一般都针对人脸检测领域内某个或某些特定的问 题。 一、肤色区域分割与人脸验证方法 对于彩色图像,在确定肤色模型之后,首先可以进行肤色检测。在检测出肤 色象素后,需要根据它们在色度上的相似性和空间上的相关性分割出可能的人脸 区域,同时利用区域的几何特征或灰度特征进行是否是人脸的验证,以排除其它 色彩类似肤色的物体。区域分割与验证在很多方法中是密切结合、统一考虑的。 在一些情况下,仅根据肤色象素的聚积特性即可完成区域分割。y o o 等1 6 j 利用 肤色象素的连通性分割出区域,使用椭圆拟合各个区域,根据椭圆长短轴的比率 判断其是否为人脸。c a i 等【7 】根据肤色模型提供的象素的似然度,采用从局部最大 值处逐渐扩展的方法得到肤色区域,然后使用灰度平均脸模板匹配的方法验证区 域内是否有人脸。 对于较为复杂的情况,则需要考虑两方面的问题:( 1 ) 由于光照和脸部器官的 影响,人脸可能被割裂为若干互不连通的肤色区域;( 2 ) 人脸区域可能与其它类肤 色区域连接在一起。 聚类一归并一验证策略是较常用的解决方法:首先将肤色象素按照较为严格 的颜色一致性和几何约束条件聚类为区域,然后按照一定规则进行归并,归并后 或归并过程中利用其它特征进行验证。g a r c i a 掣目按照色度的差异将肤色进一步量 化为不同的类型,将类型相同且相邻的肤色象素聚类为区域,根据几何位置、形 状和色调相容性进行归并,归并过程中利用区域的小波特征进行验证。y a n g 等9 】 根据色度的一致性和空间距离将肤色象素聚类成区域,然后逐步归并直到得到符 合一定先验知识的椭圆区域为止,最后检查区域中由眼睛、嘴巴等特征形成的暗 笙= 童塾监 区或空洞,以确定是否为人脸。a b d e l 。m o t t a l e b 等首先排除了局部邻域内亮度变 化较大的肤色象素,对其余肤色象索进行聚类,从而得到色度一致的区域:然后 使用基于邻接图的方法归并不连通的区域,并且检查区域内亮度在邻域中变化较 大的象素( 可能对应于眼睛、嘴等特征) 所占的比率,对归并结果进行验证。 另一种策略是先用较弱的条件将肤色象素聚类为区域,再将符合一定条件的 区域分裂开。w e i 等1 根据区域的大小和形状找出可能的人脸,剩下的区域按照一 定规则不断分裂,以便找出与类肤色背景连接在一起的人脸,最后利用亮度信息 对各个区域进行验证。 还有一些方法使用肤色模板进行搜索匹配。k a r l e k a r 等【l2 l 对y c b c r 格式的彩 色图像进行了小波变换,训练一个多层感知器在c b 、c r 平面的低通色度子图中检 测肤色像素,然后使用一个“人脸一背景”二值人脸模板匹配搜索,最后利用亮度 分量的小波变换系数验证搜索结果。w u 等h 采用了模糊模板匹配方法,该方法 不仅建立了肤色模型,同时也建立了头发颜色的模型。根据人脸位姿的不同,构造 了5 种“肤色一发色”模板,并定义了相应的隶属度函数和模糊匹配规则,对所有 可能尺度和位置的区域进行搜索。 此外,还有在分割之前就将肤色检测的结果与其它特征融合在一起的方法,如 s u n 等f 1 5 1 提出的基于肤色与对称信息的方法,k i m 等【16 】提出的肤色信息与深度信 息相结合的方法等。 二、基于知识模型的方法 这类方法首先抽取几何形状、获度、纹理等各种基本特征,然后检验它们是 否符合人脸的先验知识。 g o v i n d a r a j u 等l l7 l 使用变形模板匹配头顶轮廓线和左右两条面颊轮廓线,实现 人脸定位。y a n g 等【l 8 】首先提出采用由粗到细的三级结构的方法检测人脸。通过平 均和下采样方法得到多个不同分辨率的图像,这些低分辨率图像被称为镶嵌图。 在最低两级分辨率的镶嵌图中,采用系列规则快速地获得人脸候选区域。然后 在高分辨率图像中,提取人脸特征的边沿,符合眼、嘴特征的候选区域被最终确 认为人脸图像。人脸区域内的各个器官也具有较为恒定的模式,因此一些方法首 先检测器官( 如双眼、鼻子、嘴等) 或局部特征,然后根据它们的相对位置关系判断 整个区域是否为人脸。k o u z a n i 等1 1 9 1 将使用人工神经网分别检测出来的眼睛、鼻子、 嘴以及人脸的整体特征及相互间的位置关系输入一个模糊神经元网络,根据其中 的领域知识判断被检测的区域是否为人脸。m i a o 等基于人脸特征边沿的重心定 义了重心模板。先用重心模板粗匹配,再将候选人脸区域划分为9 个子区域,根 据各子区域内灰度特征和边沿象素数的比例关系进一步验证。s h e n 和w a n g 等 2 1 】 提出采用人脸横纹特征检测可能的眼睛对,获得候选区域后,再采用灰度投影、 纹理检测、二维熵分害4 等规则进行验证的人脸检测方法。x i n g 和s h e n 等【2 2 i 对该算 人脸检测算法研究及其在视频中的应用 法进行了改进。后来,s h e n 和w u 与m a r k 等联合提出特征和模板结合的人脸检测 算法 2 3 1 。为了能够较好地区分两眼的横纹,该方法同时采用方形和矩形单元镶嵌 图,并用预定义的具有人脸水平垂直方向峰谷特征的四个模板进一步确认人脸区 域。该算法被接受进入m p e g 一7 标准。对于平面内旋转的人脸,采用检测到的眼 睛位置可确定人脸的旋转角度2 4 1 ,也可用投影直方图【2 5 】、f f t 变换【2 6 l 等确定入脸 的旋转方向,然后再检测人脸。 基于知识模型的方法简单、直观,检测效果依赖于特征的提取和预先定义的 规则。由于灰度受光照的影响较大,一般应采用预处理技术;纹理、边沿等特征 对光照变化具有较好的适应性,但是强的光照变化也会产生一些伪边沿。人脸结 构的对称性是一个重要的特征,然而对姿态变化比较敏感。为了验证人脸区域, 常常需要结合各人脸器官的特征及其之间的结构关系。当图像的质量较差时,特 征不容易检测。另外,采用的知识规则可能不够准确或全面。该类方法对质量较 好的图像具有好的检测性能,而对于复杂的图像检测效果一般不够好。 三、基于统计模型的方法 由于人脸图像的复杂性,显式地描述人脸特征具有一定困难,因此基于统计 模型的方法越来越受到重视。此类方法将人脸区域看作一类模式,即模板特征, 使用大量的人脸与非人脸样本训练、构造分类器,通过判别图像中所有可能区域 属于哪类模式的方法实现人脸的检测。实际上,人脸检测问题被转化为统计模式 识别的二分类问题。 1 、基于特征空间的方法: 此类方法将人脸区域图像变换到某一特征空间,根据其在特征空间中的分布 规律划分人脸与非人脸两类模式。 主分量分析( p r i n c i p a l c o m p o n e n ta n a l y s i s ,p , c a ) 是一种常用的方法。它根据 图像的统计特性进行正交变换( k l 变换) ,以消除原有向量各个分量间的相关性。 变换得到对应特征值依次递减的特征向量,即特征脸【2 7 1 。m o g h a d d a m 等【2 7 1 发现人 脸在特征脸空间的投影聚集比较紧密,因此利用前若干张特征脸将人脸向量投影 到主元子空间f 和与其正交的补空间户,相应的距离度量分别称为d i f s ( d i s t a n c e i nf e a t u r es p a c e ) 年ld f f s ( d i s t a n c ef r o mf e a t u r es p a c e ) 。对于人脸检测问题,由于没 有考虑非人脸样本的分布,需要同时使用d i f s 和d f f s 才能取得较好的效果。 m i t 的s u n g 等【2 州提出了基于事例学习的方法,同时使用了1 9 x1 9 象素分辨 率的人脸和非人脸样本。样本预处理后按行列顺序展开为样本向量进行主分量分 解。采用k - 均值聚类方法在特征空间中建立6 个“人脸”簇,同时建立包围“人 脸”簇的6 个“非人脸”簇,以使人脸与非人脸模式的边界更为清晰。s u n g 等使 用样本到各个簇中心的距离训练一个多层感知器进行分类。需要指出的是,人脸 检测中非人脸样本的选取是一个较为困难的问题。s u n g 等使用了自举( b o o t s t r a p ) 第一章绪论 方法加阻解决:首先建立一个仅使用“人脸”簇的初始分类器对一组图像进行检 测。将所有的错误报警( 不是人脸而被错检为“人脸”的结果) 加入“非人脸”样本 库,构造新的使用“人脸”与“非人脸”簇的分类器重新检测。以上过程不断迭 代,直到收集了足够的非人脸样本。 属于特征空间方法的还有因子分解方法( f a c t o ra n a l y s i s ,f a ) ;f df i s h e r 准则方 法( f i s h e r l i n e a r d i s c r i m i n a n t ,f l d ) 。y a n g 等【2 9 】在混合线性子空间中对人脸和非人 脸样本的分布进行建模,分别使用基于e m 算法的扩展f a 方法和基于自组织映射 3 0 1 的f l d 方法构造检测器。此外,小波变换口1 , 3 2 1 也被用来提取人脸的多分辨率特 征作为分类的依据。 2 、基于人工神经网络( a n n ) 的方法 a n n 方法把模式的统计特性隐含在a n n 的结构和参数之中,对于人脸这类 复杂的、难以显示描述的模式,基于a n n 的方法具有独特的优势。 r o w l e y 等 3 3 , 3 4 , 3 5 噪用局部连接的神经网络检测人脸。将每个区域划分成多个 方形或矩形的子区域以便更好地描述人脸的局部特征,每个区域对应一个神经网 络隐含单元。对神经网络在多个分级上的输出进行判决以降低误检率。另外, r o w l e y 等采用级联结构的神经网络检测旋转的人脸图像。f 6 r a u d 等【3 6 】采用多级神 经网络结构检测人脸:首先采用一个多层神经网络滤除大约9 9 的人脸候选区域, 再用4 个神经网络c g m ( c o n s t r a i n e dg e n e r a t i v em o d e l ) 检测不同视角的人脸图像, 并外加一个加权神经网络构成一个神经网络的集成结构。c a r e i a 等i ”1 采用一个卷 积神经网络c n n 结构检测人脸。该结构是个包含三种不同功能的多层神经网络 结构。在前两层中,每层包含一个卷积层和下采样层。卷积层中所有象素点共享 一组模板系数,这大大减少了需要训练的参数数目,而下采样降低了特征维数。 第三层是一个混合的m l p 。基于人工神经网的方法还有j u e l l 等1 3 8 和k o u z a n i 等3 9 】 提出的基于人脸器官检测的多级网络方法、a n i f a n t i s 等 4 川提出的双输出人工神经 网的检测算法等。 3 、基于支撑矢量机的方法 支撑矢量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 是v a p n i k 等提出的基于结构风险 最小化原n ( s t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l e ,s r m ) n 统计学习理论 4 1 , 4 2 】,用 于分类与回归问题。比基于经验风险最小化( e m p i r i c a l r i s k m i n i m i z a t i o n p r i n c i p l e , e r m ) 的a n n 具有更好的泛化能力。o s u n a 等 4 3 】将s v m 方法用于人脸检测,取得 了较好的实验结果。h e i s e l e t 等m ) 采用两级s v m 的方法检测人脸。根据一些预定 义的特征点,从训练集中提取人脸和非人脸图像最有区别的多个局部区域。检测 时,根据多个简单的线性s v m 分别检测各个人脸特征区域,并用个简单的线性 s v m 检测各个可能的人脸部分的几何组合是否符合人脸结构。相比于将整个人脸 8 堕丝型篁鲨型蜜墨苎垄塑塑! 堕壁旦 一 作为特征,该方法获得了更高的检测率。b u c i u 等1 4 5 联合多个s v m 的输出进行投 票决策降低了误检率。 4 、基于积分图像的方法 v i o l a 等4 6 1 采用多分类器级联结构实现快速的人脸检测。由积分图像可以快速、 容易地计算出大量的简单特征,再用a d a b o o s t 学习算法挑选一些重要的特征,并 构造一系列的弱分类器,多个弱分类通过线性组合可构造出一个强分类器。采用 一个分类器逐渐复杂的多分类器级联结构大大提高了检测速度,可达1 5 帧秒, 速度近乎实时且性能与目前最好的接近。“和z h a n g 等1 4 7 , 4 8 1 改进了基于前向序列 特征选择的a d a b o o s t 算法,采用带回溯过程的f l o a t b o o s t 的特征选择算法。采用 简单的块特征以及一个金字塔的分级结构,该系统可以检测多视角人脸图像,处 理速度达5 帧,秒。k e r e n 等【4 9 l 提出“a m i f a c e s ”多检测器级联的快速人脸检测方法, 只需少数几个检测器级联就可以准确检测人脸图像。 基于统计模型的方法是目前比较流行的方法,是解决复杂的人脸检测问题的 有效途径,具有如下优点:( 1 ) 不依赖于人脸的先验知识和参数模型,可以避免不 精确或不完整的知识造成的错误;( 2 ) 采用实例学习的方法获取模型的参数,统计 意义上更为可靠;( 3 ) 通过增加学习的实例可以扩充检测模式的范围,提高检测系 统的鲁棒性。但是由于需要对所有可能的检测窗f i 进行穷举搜索。计算复杂度很 高,因此检测速度有待提高,另外非人脸样本的选取仍然是一个较为困难的问题。 此类方法主要针对正面端正入脸的检测,旋转人脸、多姿态人脸的检测由于比较 复杂和困难,有效的方法还不多。 由上述分析可知,人脸检测的研究趋势是利用多种线索( 头发、肤色、器官、 轮廓、模板等) ,综合多种分类方法( 混合高斯模型、神经网络与支撑矢量机等) , 知识信息与统计学习方法相结合。 1 3 1 主要工作 1 3 论文的主要工作及内容安排 本文的研究工作主要包含两部分内容: 第一部分:在分析现有各种复杂背景下人脸检测算法的基础上,综合考虑各 釉检测技术的特点,提出了一种基于高斯模型和神经网络的入脸检测方法。该方 法首先利用高斯模型快速实现肤色和唇色区域的提取过程,其次将平面旋转候选 人脸校准为端正人脸,最后通过神经网络确定候选区域是否为人脸。 第二部分:考虑到人脸检测技术在视频处理中日益广泛的应用,提出种基 第一章绪论 于人脸检测的新闻视频检索中主持人镜头检测方法。该方法首先运用图论聚类的 算法对新闻镜头分类,即对主持人镜头进行初步的检测;然后一种基于模糊推理 规则的模糊系统被用于检测主持人脸,进一步调整检测结果。 1 3 2 内容安排 本文的结构安排如下: 第一章:介绍了人脸检测的背景、发展情况和现状,分析了现有的各种检测 技术的优缺点,阐明了本文工作的意义和内容安排。 第二章:较为系统地介绍了神经网络和模糊系统理论,为后续的研究提供了 必要的理论基础。 第三章:提出了一种复杂背景条件下的人脸检测方法,将高斯模型、区域优 化以及神经网络等多种技术有机结合起来达到对多姿态人脸进行检测的目的。 第四章:面向视频中的人脸检测问题,提出了一种基于图论聚类和模糊推理 的新闻视频检索中主持人镜头检测方法,实验结果表明了本方法的正确性和有效 性。 第五章:总结了本文研究成果,指出了后续研究工作的方向以及该领域研究 的发展趋势。 ! ! 查堕垒塑簦鳖婴塞墨苎垄望塑! 堕壁旦 第二章神经网络和模糊系统理论基础 2 1 引 言 当前的信息处理工作基本上是由冯诺依曼结构原理的串行存贮程序式计算 机来完成的。经过几十年的发展,计算机无论在运算速度,还是内存容量及可靠 性方面都有很大的提高。特别是大规模阵列处理机的发展,使得在很多情况下信 息的实时处理成为可能。然而随着应用领域的不断拓宽,人们逐渐体会到计算机 系统的固有缺陷,如处理馒、容错性差、不能解决自适应问题等。特别在人工智 能和模式识别涉及的研究领域,尽管计算机处理收到了一定的效果,但在许多方 面并不令人满意,甚至显得无能为力。举一个简单的例子来说,如果我们要计算 机来区分枯树和电线柯,就会发现程序计算机的功能还不如一个三岁的小孩。也 就是说,现代数字计算机虽然具有极强的算术和逻辑运算能力,但它的形象思维 能力却差强人意。自然界提供给我们的信息处理问题大致可以分为两类:结构性 和非结构性问题。前者可以用数学语言清楚而严格地描述,且可将要解决问题的 算法公式化,并映射成计算机程序,然后由计算机逐条地执行该程序的指令,当 给定不同初值时,就可由计算机求得相应的结果,因此,冯诺依曼计算机在求 解结构性问题时远远超过了人类自身的能力。对于非结构性问题,人们就难以把 自己的认识翻译成机器指令,或者仅能够极其粗略地进行。因此计算机在处理如 图像处理与景物分析、语音识别与理解、智能机器人控制等人工智能和模式识别 问题时,则与人类能力相差甚远。 工程和人工智能界的一个很大的目标,就是创造出行为如人的“智能”系统, 使机器模拟人脑智能特点,完成高度复杂的任务。要实现智能化,机器除有高速 度的算术和逻辑运算功能外,还需要定性分析、模式识别、综合判断、自组织学 习、自然语言处理等能力。这些智能行为能使人类在一种更为自然的方式下进行 人机交互。那就是,我们将提供感觉的和认识的能力,使计算机能以一种自然的、 直观的方式与我们交流信息。设计具有判决能力的机器是众多目标之一。为了达 到这个目的,这样的机器应具有和人相同的模式信息处理能力。神经网络和模糊 系统理论是实现机器智能化的两个重要技术。模糊逻辑接近人的形象思维方式, 擅长于定性分析和推理,具有较强的自然语言处理能力;神经网络分布式存储信 息,具有很好的自组织、自学 - j 能力。虽然两者从不同的角度来研究人脑智能特 点,但它们具有很多共同之处。例如从数据处理的形式上,两者都采用并行处理 的结构;它们均是无模型的预报器,可从系统的输入输出样本中获取系统的输入 笙三童塑垦塑丝型堕塑墨! 壅里堡至型l 生 输出关系。最后需要指出的是,模糊系统和神经网络在应用中各有擅长,如何使 它们有机结合起来,取长补短,提高系统的智能水平,这比分别孤立研究两者更 为重要。 2 2 神经网络概述 神经网络理论【5 0 l 是巨大信息量并行处理和大规模平行计算的基础,其既是高 度非线性动力学系统,又是自适应组织系统,可用来描述认识、决策及控制的智 能行为。它的中心问题是智能的认知和模拟。从解剖学和生理学来看,人脑是一 个复杂的并行系统,它不同于传统的n e u m a n n 式计算机,更重要的是它具有“认 知”、“意识”和“感情”等高级脑功能。我们以人工方法模拟这些功能毫无疑 问,有助于加深对思维及智能的认识。8 0 年代初,神经网络的崛起,已对认知和 智力本质的基础研究乃至计算机产业都产生了空前的刺激和极大的推动作用。近 十年来,神经网络理论与实践有了引人注目的进展,它再一次拓展了计算概念的 内涵,使神经计算、进化计算成为新的学科神经网络的软件模拟得到了广泛的 应用。近几年来科孜发达国家的主要公司对神经网络芯片、生物芯片情有独钟。 例如i n t e l 公司、m m 公司、a t t 公司和h n c 公司等已取得了多项专利,已有 产品进入市场,被国防、企业和科研部门选用,公众手中也拥有神经网络实用化 的工具,其商业化令人鼓舞。新的神经网络模型、新的分析手段及其新的应用领 域层出不穷。神经网络现已成为电子学科和其它学科中最热门、最吸引人的学科 生长点,箕发展速度之侠和影响面之广是罕见的。尽管神经计算机、光学神经计 算机和生物计算机等的研制工作具有艰巨性和长期性,但有一点使人欣慰:它们 现在还只是锋芒,有巨大的潜力与机会,前景是美好的。 2 2 1 神经元模型 神经元是脑组织的基本单元,其结构如图2 1 所示,神经元由三部分构成:细 胞体,树突和轴突,每一部分虽然具有各自的功能,但相互之间是互补的。树突 是细胞的输入端,通过细胞体间联结的节点“突触”接受四周细胞传出的神经冲 动:轴突相当于细胞的输出端,其端部的众多神经末梢为信号的输出端子,用于 传出神经冲动。 神经元具有兴奋和抑制的两种工作状态。当传入的神经冲动,使细胞膜电位 升高到阈值( 约为4 0 m v ) 时,细胞进入兴奋状态,产生神经冲动,由轴突输出。 相反,若传入的神经冲动,使细胞膜电位下降到低于阈值时,细胞进入抑制状态, 没有神经冲动输出。 入脸检测算法研究及其在视频中的应用 图2 1 生物神经元结构 人工神经元是对生物神经元的简化和模拟,它是神经网络的基本处理单元。 图2 2 显示了一种简化的神经元结构。它是一个多输入、单输出的非线性元件,其 输入输出关系可描述为 和善叩,加z ( 2 - 1 ) y ,= f ( ,) ( 2 - 2 ) 其中z ,( ,2 l ,2 ,一,一) 是从其它细胞传来的输入信号,谚为阈值,表示从细胞,到细 胞f 的连接权值,( ) 称为传递函数。 图2 2 人工神经元结构 第二章神经网络和模糊系统理论基础 传递函数厂( x ) 可为线性函数,但通常为像阶跃函数或s 状曲线那样的非线性 函数。常用的神经元非线性函数列举如下: ( 1 ) 闽值型函数:当y ,取0 或1 时,厂( x ) 为阶跃函数: s ( 4 = 化鬟 陋, 当m 取一1 或1 时,i ( x ) 为s g n 函数: 唧= 二。东 ( 2 ) s 状曲线:通常是在( o ,1 ) 或( 一1 ,1 ) 内连续取值的单调可微分的函数 正切等一类s 状曲线( s i g m o i d ) 来表示,如: 他) 2 而砜1 雨 ( 2 4 ) 常用指数或 ( o ) 或厂( z ) = 伽h ( 习( 2 5 ) 有时在网络中还采用下列计算简单的非线性函数 厂( 工) 2 南 ( 2 - 6 ) 当然还有其它的人工神经元结构,例如在r b f ( r a d i a lb a s i sf u n c t i o n ) 网络 中,神经元的结构可用高斯函数描述如下: 只= o x p 一击驴) 2 陋, 这里0 2 为标准化参数。 2 2 2 神经网络模型 神 网络可 网络由 经元只 有连接 干次的 ,神经 。前向 层的神 都可能 经过若 一一一一一一一一一一一一 渤绷堰瞅傩舢江帆僦_|鐾拥僦广前谰。元忱统憔籼凇制 神反叫的在一, ! ! 堕丝型竺些婴塞垦茎型! 塑! 盟壁里一 ( a ) 前向网络 ( b ) 相互连接型网络 图2 3 两种不同连接方式的网络 神经网络模型各种各样,它们是从不同的角度对生物神经系统不同层次的描 述和模拟。有代表性的网络模型有感知器、多层映射b p 网络、r b f 网络、h o p f i e l d 模型、双向联想记忆( b a m ) 等。利用这些网络模型可实现函数逼近、数据聚类、 模式分类、优化计算等功能。因此,神经网络广泛应用于人工智能、自动控制、 机器人、统计学等领域的信息处理中。下面我们对b p 网络模型及其算法进行简单 的介绍。 b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论