(信号与信息处理专业论文)表情识别中预处理与人脸特征提取算法的研究.pdf_第1页
(信号与信息处理专业论文)表情识别中预处理与人脸特征提取算法的研究.pdf_第2页
(信号与信息处理专业论文)表情识别中预处理与人脸特征提取算法的研究.pdf_第3页
(信号与信息处理专业论文)表情识别中预处理与人脸特征提取算法的研究.pdf_第4页
(信号与信息处理专业论文)表情识别中预处理与人脸特征提取算法的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(信号与信息处理专业论文)表情识别中预处理与人脸特征提取算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 表情识别中预处理与人脸特征提取算法的研究 硕士研究生王力维导师邹采荣教授 东南大学无线电工程系 面部表情识别是一项富有理论基础和应用价值的研究课题。典型的面部表情 识别系统中通常包括:人脸检测,预处理,特征提取,表情识别等部分。在该课 题中,预处理和特征提取的理论研究占有非常重要的作用,但在实际研究中受到 的重视不如表情识别分类方法。本文系统的对相关的预处理和特征提取方法进行 了实验和比较,并且结合实际设计了适用于自动表情识别系统的预处理和特征提 取方法。 在图像预处理研究中,本文主要研究了光照补偿算法和图像尺度归一化算 法。光照补偿算法中,研究了直方图灰度变换法,线性变换法,指数变换法和对 数变换法等等,鉴于兼顾实时性与准确性的原则,对于通常情况下的光照条件, 选取直方图均衡法作为系统的实现方法。尺度归算法中,研究的重点和难点是 眼睛的准确定位。在得到眼睛位置的基础上,按照先验规则,进行尺寸,角度变 换归一化人脸图像。本文研究了多种眼睛定位方法,并且提出了一种基于实时的 眼睛定位算法,作为系统的实现方法。 在特征提取研究中,本文主要研究了在特征提取中经典的模板匹配算法,提 出了一种差值模板匹配算法。性能不亚于小波算法,运算量却少很多,很适合在 一些简单的实时自动识别系统中使用。但是由于表情识别的特殊性,需要对特定 特征点的精确定位才能进行准确的表情分类判别。以前的表情识别研究通常都是 用手动定位进行研究,在自动识别系统中很显然行不通,所以本文研究了主动形 状模型a s m ( a c t i v es h a p em o d e l ) 主动表观模型a a m ( a c t i v ea p p e a r a n c e m o d e l ) ,仔细比较了它们的优缺点,并且使之成功应用于整个表情自动识别系统。 关键词:预处理,特征提取,光照补偿, 动形状模型a s m ,主动表观模型a a m 尺度归一化,眼睛定位,模板匹配,主 i a b s t r a c t r e s e a r c ho fi m a g ep r e t r e a t m e n ta n df e a t u r e e x t r a c t l 0 ni nf a c i a le x p r e s s i o nr e c o g n 【t i o n c a n d i d a t e :w a n gl i w e i ,s u p e r v i s o r :p r o f e s s o rz o u c a i - r o n g d e p a r t m e n t o fr a d i o e n g i n e e r i n g ,s o u t h e a s tu n i v e r s i t y , c h i n a f a c i a le x p r e s s i o nr e c o g n i t i o ni sar e s e a r c ht o p i ct h a th a st h e o r yf o u n d a t i o na n d a p p l i c a t i o nv a l u e at y p i c a lf a c i a le x p r e s s i o ns y s t e m i s u s u a l l yi n c l u d i n g :f a c e d e t e c t i o n ,i m a g ep r e t r e a t m e n t ,f e a t u r ee x t r a c t i o n ,e m o t i o nr e c o g n i t i o n ,a n ds oo nn l e t h e o r yr e s e a r c ho fi m a g ep r e t r e a t m e n ta n df e a t u r ee x t r a c t i o nh a ss i g n i f i c a n t i m p o r t a n c ei nf a c i a le x p r e s s i o nr e c o g n i t i o ns y s t e m s i nt h i sp a p e r ,w ec o m p a r e dt h e r e l a t e dm e t h o d so fi m a g ep r e t r e a t m e n ta n df e a t u r ee x t r a c t i o nb ye x p e r i m e n t f u r t h e r m o r e ,w ed e s i g nt h ea p p r o a c ho ft h ei m a g ep r e t r e a t m e n ta n df e a t u r ee x t r a c t i o n f o ra u t o m a t i cf a c i a le x p r e s s i o ns y s t e m i nt h er e s e a r c ho fi m a g ep r e t r e a t m e n t w ed i s c u s s e dm a i n l yt h em e t h o d s0 f i l l u m i n a t i o nc o m p e n s a t i o na n di m a g es i z en o r m a l i z a t i o n i nt h e a l g o r i t t u n s o f i l l u m i n a t i o nc o m p e n s a t i o n w ed i s c u s s e dh i s t o g r a mg r a yt r a n s f o r m a t i o n 1 i n e a r t r a n s f o m a a t i o n ,e x p o n e n t i a lt r a l a s f o r m a t i o na n dl o gt r a n s f o r m a t i o ne ta 1 a c c o r d i n gt o t h ep r i n c i p l eo fr e a l t i m ea n da c c u r a c v w eu s et h eh i s t o g r a m e q u a l i z a t i o nt o i m p l e m e n tt h es y s t e r nf o rt h en s u a lc o i l d i t i o n i nt h ea l g o r i t h mo fs i z en o r m a l i z a t i o n , e y el o c a t i o ni sa ni m p o r t a n ta n dd i 筒c u l tp r o b l e m f i r s tw eo b t a i n e dt h ee y e sl o c a t i o n 。 a n dt h e nc o n v e r t e df a c ei m a g e si n t ot h en o r m a l i z e di m a g e sb yu s i n gs i z ea n da n g l e t r a n s f o r m a t i o na c c o r d i n gt ot h et r a n s c e n d e n tp r i n c i p l e e x c e p tf o rt h i s ,w ed i s c u s s e d v a r i o u se y e1 0 c a t i o nm e t h o d sa n dp r o p o s e da na l g o r i t h mo fe y e1 0 c a t i o nb a s e d0 n r e a l t i m ef o ri m p l e m e n t i n gt h es y s t e r n , i nt h er e s e a r c ho ff e a t u r ee x t r a c t i o n w ed i s c u s st h em o d e l m a t c h i n ga l g o r i t h mi n t h ef e a t u r ee x t r a c t i o na n dp r o p o s ead i f f e r e n tm o d e l m a t c h i n ga l g o r i t h m i t s p e r f o r m a n c ei sa sg o o da st h ew a v e l e ta l g o r i t h m ,b u th a sl i t t l eo p e r a t i o nq u a n t i t y f o r t h i si t i s a p p r o p r i a t eu s e df o rs i m p l er e a l t i m ea u t o m a t i cr e c o g n i t i o ns y s t e r n s p r e v i o u sf a c i a le x p r e s s i o nr e c o g n i t i o nu s u a l l yi m p l e m e n t st h ei o c a t i o nb yh a n d b u tl t i sn o tf i tf o rt h ea u t o m a t i cr e c o g n i t i o ns y s t e m h e n c ew ed i s c u s s e da c t i v es h a p e m o d e l ( a s m ) a c t i v ea p p e a r a n c em o d e l ( a a m ) ,c o m p a r e dt h e i ra d v a n t a g e sa n d d i s a d v a n t a g e sr e s p e c t i v e l y , a n dt h e nu s e st h e mf o rt h ee x p r e s s i o nr e c o g n i t i o ns y s t e m k e yw o r d s :p r e t r e a t m e n t ,f e a t u r ee x t r a c t i o n ,i l l u m i n a t i o nc o m p e n s a t i o n ,e y el o c a t i o n , m o d e lm a t c h i n g ,a c t i v es h o em o d e l ( a s m ) a c t i v ea p p e a r a n c em o d e l ( a a m ) 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名: 丛! i 垂 日期:鲨:! ,! 里 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名: 釜兰笃兰 导师签名:钮日期:鲨6 :! 东南大学硕十学位论文 第一章绪论 在社会生活中,情绪对于协调人与人之间的相互关系具有很重要的作用。情 绪的研究也越来越受到社会的关注,且在心理学界也开始了比较深入的研究。而 表情又是情绪的独特表现形式,在人与人的交往中,面部表情是除了声音之外的 非常重要的通信方式。它作为信息的载体,能够表达很多语音所不能传达的信息。 因此在语言学中,医疗中,商业等方面都有着十分重要的应用。在计算机科学领 域的研究,面部表情的识别对于实现自然的人机交互以及自动图像理解也具有重 大的意义。典型的面部表情识别系统通常包括,人脸检测,预处理,特征提取, 表情分类等部分。本文所讨论的是其中的预处理和特征提取模块的算法实现及改 进。 1 1 项目背景与研究意义 面部表情识别系统是国家教育部重大项目中国儿童情绪发展跟踪研究 从基因到行为的主要组成部分之一。这个教育部重点项目的目的是对中国儿童 情绪发展进行中国人自己的跟踪研究,收集从基因到行为的各种数据,从生物信 息、基因、神经递质、脑功能结构、心理和行为等层次进行跨学科交叉合作研究。 以推动国内儿童情绪和气质的研究,以及与国际间的广泛、对等的交流与合作, 并保护中国与情绪相关的研究资源。该项目的目标之一是开发一个自动分析儿童 面部表情的识别系统,通过测量儿童在特定情况下面部表情的变化来分析他们的 情绪波动,进而判别他们的性格、气质等与情商密切相关的指数。 面部表情识别作为一个典型的图像模式分析、理解与分类计算问题,为模式 识别,图像处理,分析与理解,计算机视觉,人工智能,人机交互,计算机图形 学,认知科学,神经计算,生理学,心理学等多学科提供了一系列良好的具体问 题,有利于构建这些学科领域的基础实验平台,用于尝试新方法,验证新理论, 解释新现象。面部表情识别问题的深入研究和最终解决,可以极大的促进这些学 科的成熟和发展。本文主要研究该系统中关于人脸图像预处理和人脸特征提取的 算法。 1 2 面部表情识别系统的总体结构 面部表情识别系统是对人脸的表情信息进行特征提取分析,按照人的认识和 东南大学硕士学位论文 思维方式加以分类和理解,利用人类对所具有的情感信息方面的先验知识使计算 机进行联想、思考及推理,进而从人脸信息中去分析理解人的情绪,如快乐、惊 奇、愤怒、恐惧、厌恶、悲伤等【l l 。一个实用的面部表情识别系统至少包括图 像获取、预处理、特征提取、分类判别和后续处理i i1 几个步骤。 表情自动识别系统中各部分主要功能如下: i ) 获得图像:用于面部表情识别的图像包括静态或者动态图像。考虑输入 图像的空间、彩色、时间维数,二维灰度人脸图像序列是最常用来进行识别的图 像形式。然而,由于低成本彩色图像获得设备的实用性的增加和彩色图像所包含 的更多的信息,使得彩色图像也成为识别系统的对象。 2 ) 预处理:图像预处理常常采用信号处理的形式( 如去噪、像素位置或者 光照变量的标准化) ,还包括人脸及它的分割,定位或者跟踪。表情的表示对图 像中头的平移、尺寸变化和旋转是敏感的。为了消除这些不必要的影响,通常需 要在分类前进行几何标准化。 3 ) 特征提取:特征提取是将像素数据转换为一个更高水平的人脸及其组成 部分的外形、运动、颜色、肌理和空间结构的表示。提取出的表示被用来进行后 续的表情分类。基本的表示方法包括基于几何的、运动的、统计的或者空间变化 的特征用来在面部表情识别系统分类前的处理1 4 】。 4 ) 分类:表情分类由一个分类器执行,该分类器由模式分布模型组成,与 判决程序相结合。很多包含参数和非参数的技术的分类器已经被应用于表情识别 系统中【4 】。常用的分类方法包括,隐马尔可夫模型方法嘲【6 1 ,人工神经网络,支持 向量机川,贝叶斯决策,线形判别分析 l d a i 8 1 1 4 ,核判别分析1 9 。 5 ) 后续处理:后续处理的目的在于通过各领域的知识来修正分类的错误或 者联合一种分类等级中的几个标准来提高识别的准确性。 本文设计的识别系统的主要组成部分为人脸检测;预处理;特征提取;表 情识别。 r 一一1 1 ,。: 图i - i 系统实现结构图 2 东南大学硕i 学位论文 主要应用的方法介绍: 1 ) 人脸检测:目的是从输入的图象中成功获取人脸图像信息。本系统主要 使用a d a b o o s t 方法进行人脸检测,该方法是b o o s t i n g 算法的一种。它能够对通 过弱学习得到的弱分类器的错误进行适应性调整,通过弱分类器得到强分类器, 在人脸检测领域取得了很大的成就。 2 ) 预处理:目的是把人脸图像进行归一化处理。输入:检测出的人脸图像; 输出:归一化人脸图像。把检测到的人脸图像依据不同的图像质量进行适当的降 噪处理,光照归一化处理。进行初步的眼睛定位,根据眼睛的位置按先验规则, 进行人脸图像的尺寸和角度的归一化处理。在眼睛定位算法研究中,由于此处应 用于实时定位系统,考虑到运算量与准确性的矛盾关系,采用由粗到精的定位算 法。 3 ) 特征提取:目的是对归一后的标准人脸图像进行特征提取。输入:归一 化人脸图像;输出:若干特征向量。对多种特征定位方法进行研究,例如特征定 位最经典的方法主动形状模型a s m ( a c t i v es h a p em o d e l ) 4 = 动表观模型a a m ( a c t i v ea p p e a r a n c em o d e l ) 。同时研究了o a b o r 小波特征和灰度差值特征提取算 法。 4 ) 表情识别:目的是对所提取特征进行分类判别,得到最终的表情分类结 果。本文主要研究了弹性图匹配算法对所提取的特征进行分类,这个方法实现比 较简单,主要用来对提取特征进行性能比较。实际系统中主要应用支持矢量机 s v m 和核典型相关分析k c c a 分类方法,对所提取的特征进行分类,取得了良 好的效果。 1 3 面部表情识别系统中特征提取的难点 面部表情识别系统是一个典型的模式识别系统,对一个模式识别系统而言, 采用什么样的特征来表示模式,如何提取这种表示特征,往往是系统成功的关键。 虽然人类可以从一幅人脸图像中很轻松地分辨出面部特征点的准确位置,但对于 计算机来讲却并非一件易事。人脸有复杂的三维表面结构,因而对于其形成的二 维图像,其变化也是非常之大的。尤其对于不同的人脸姿态、表情,不同的光照 条件,得到的二维图像的差别是非常明显。因此,准确的面部特征提取是一个非 常具有挑战性的课题。 3 东南人学硕士学位论文 1 图像采集过程的影响。由于设备的像素不同,头部相对于相机的位置和方 向不同,需要对图像进行旋转等于处理,但是超平面旋转的影响很难去除,因为 这可能导致图像更大的变化性,这仍需进一步的研究。 2 环境的杂乱和光照。复杂的图像背景模式和不受控制的光照对于识别来说 都是不利的影响。此外,由于与面部表情无关的信息影响使得特征提取受到干扰, 因此我们在研究过程中,先是采用简单的背景和可控制的光照,更深入的研究以 后再进行。 3 人脸数据库的混杂。人脸特征由于多方面的因素,显示出高度的多变性。 这些因素包括:人群之间的差异( 如年龄、疾病、性别、种族等等) ,或者有胡 子或者有头发眼镜,或者表情混合。为了使实验数据更具代表性,本文使用多个 数据库进行训练实验,包括i m m 数据库,它由不同光照情况下各种人脸表情的 彩色图片组成;以及著名的日本女性表情数据库j a f f e 。它表情标定很标准,所 以现在大多数研究表情识别的文章中都使用它来训练与测试;还有o f l 数据库, 它是包含各种类型人脸信息的灰度图片数据库,在人脸识别研究中经常使用。另 外本文自己制作了一个简易的表情图片库,用来进行实验,图片大小1 6 0 1 2 0 。 如图1 - 2 所示图片库 1 4 本文的主要工作 图l - 2 自采集表情图片库 本文主要讨论面部表情识别系统中的预处理和特征提取两部分的算法及其 实现。 1 4 1 面部表情识别系统的预处理问题研究 原始图像因为拍摄时各种因素的影响,不能够直接用于后续的特征对齐,经 过标准化处理后可以提高后续的处理效果,提高特征提取的准确性。从实际出发, 考虑到拍摄时光线角度等的复杂性和系统处理过程中的实时性,我们的标准化处 理,主要包括光照归一化和尺度归一化。其中光照归一化采用常用的直方图均衡 方法;尺度归一化的重点则在于眼睛的初步定位算法选择,根据眼睛的位置,按 4 东南大学硕j - 学位论文 照先验规律进行尺寸和角度的归一化。本文通过对色度空间算法,灰度图,二值 化等眼睛定位算法的研究,提出一种基于二值化的实时眼睛定位算法。 1 4 2 面部表情识别系统中的特征提取问题研究 面部关键特征精确定位( 即面部特征精确配准) 是面部表情识别系统的基本 前提。面部关键特征定位的精度直接影响了后续的人脸表情描述、特征提取和分 类判别的精确度,可以断言,没有精确的特征配准,就没有高性能的识别。本文 实现了多种特征定位算法,主要包括常用的模板匹配算法和经典的a s m a a m 等算法研究,仔细比较了他们的优缺点。同时本文提出了一种灰度差值模板用来 模拟多尺度,多方向小波变换进行特征提取的方法,取得良好的效果。 1 5 本文的结构安排 本论文的章节安排如下: 第一章是论文的绪论部分,阐述了表情识别的研究目的和意义,介绍了表情 识别系统的结构,指出了特征提取中的难点问题,最后列出了本文的主要工作和 文章的章节安排。 第二章介绍了特征定位与提取的国内外研究历史,发展及现状。通过对主流 算法的综述和比较,为后续的具体实验内容作铺垫。 第三章是预处理部分的论述。介绍了预处理的过程和采用的方法。主要分为 光照补偿和尺寸归一化两部分。 第四章是特征提取算法实现过程的论述。强调了该部分在系统中的重要作 用。对弹性a s m a a m 算法进行了系统实现和比较。提出了一种灰度差值模板 进行特征提取。 第五章是表情识别实现过程的论述。应用弹性图匹配算法实现表情识别功 能,着重于对特征提取算法的功能比较。 第六章对本文的研究成果进行了总结并对未来的研究进行了展望。 东南人学硕十学位论文 第二章脸部特征定位方法综述 在模式识别领域中,与人脸相关的技术,如人脸识别、检测、跟踪、特征定 位,表情识别等,一直是近年来的研究热点。作为识别,检测等基础研究已经足 够的精深,而脸部特征定位的相关研究,相对进展比较慢。但作为系统中不可缺 少的重要组成部分,它在检测、识别技术中越来越广泛的应用,使它开始受到越 来越多的重视。 2 1 国内外研究的发展情况 脸部特征定位,即在图像或图像序列的给定区域内搜索部分或所有人脸特征 ( 如眼、鼻、嘴、耳等) 的位置、关键点或轮廓线。按照面部特征定位方法机理 的不同,主要可分为五大类: 基于先验的几何特征的面部特征定位方法 基于相关匹配的方法,主要包括模板匹配法1 1 2 j 基于统计的面部特征定位方法,包括特征脸方法和隐马尔可夫方法 基于连接机制的面部特征定位方法,包括一般的神经网络方法 其他一些综合方法或处理非二维灰度图像的方法 2 1 1 传统的特征定位方法 基于先验的几何特征的方法和基于相关匹配的方法是较早研究的两种传统 的特征定位方法。 1 ) 基于先验的几何特征的方法 基于先验的几何特征方法是关于脸部特征一般特点的经验描述。人脸图像有 一些明显的基本特征,如脸部区域通常包括双眼、鼻和嘴等脸部特征,其亮度一 般低于周边区域,双眼大致对称,鼻、嘴分布在对称轴上等等。为了利用这些基 本特征进行脸部特征定位,一般要先对输入图像作变换,使所要使用的特征得到 强化,而后根据规则从图中筛选出候选点或区域。 黄小燕【1 0 1 提出了基于五官几何特征的定位方法。该方法提取面部椭圆参数、 嘴目标参数和眼目标参数三个参数来准确描述出脸部特征。充分利用了以下特 征:左右两眼关于双眼中心点对称,嘴中心点和眼中心点连成一条线,人脸相对 于这条线左右对称。同时,人脸主要器官形成椭圆区,椭圆的长轴与人脸对称轴 重合,椭圆中心点与两眼中心点重合。包含双眼目标的矩形区,中心点对应人脸 的双眼中心点。包含嘴巴目标的矩形区,中心点对应人脸的嘴唇中心。根据这些 6 东南人学硕士学位论文 先验规则在区域中筛选出正确的人脸特征区域。 z h a n g l m l l l l 等先用直方图阈值法将图像二值化,然后根据其中黑色区域的 面积、形状和相对位置等几何特征确定出瞳孔的位置,最后通过边缘追踪依次找 到上眼眶、眼角和下眼眶。 2 ) 基于相关匹配的方法 模板匹配法是一种经典的模式识别方法,这种方法大多使用归一化互相关, 直接计算两幅图像之问的匹配程度。由于这种方法要求两幅图像上的目标要有相 同的尺度、取向和光照条件,所以预处理要做尺度归一和光照归一的工作。 模板匹配法首先收集眼睛模板图像,然后从输入人脸图像的各个位置上分割 出和模板图像大小的子图像,计算模板之间的相关系数,取相关系数最大的位置 作为眼睛的位置。b r u n e l l i 1 3 l 引入了多尺度模板的概念。将原始模板图像按比例 缩放成五个不同的尺寸。本文在此方法的指引下设计了一个使用多尺度模板的方 法。 可变形模板法是由a l y u i l l e t l 4 】等提出的,适用于人脸特征定位的方法。为 了检测眼睛,该方法根据眼睛形状的先验知识,定义1 1 个参数的模板,通过搜 索能量参数极小化,确定参数取值。具体的实现方法我们以后讨论。 2 1 2 现代的特征定位方法 随着模式识别技术的发展,一些广泛应用于人脸识别或检测的技术也开始应 用于人脸特征定位,为该领域提出了很多新的解决问题的思路和方法,也使越来 越多的专家学者开始关注人脸特征定位的研究。经典的人脸识别或检测算法,例 如基于统计学习的特征脸方法,基于连接机制的一般神经网络方法,在特征定位 领域的应用都取得了可喜的成就。 1 ) 基于统计学习的方法 特征脸( e i g e n f a c e ) 方法是从主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s p c a ) t ”1 演变而来的一种特征提取方法。p c a 是模式识别领域的一类经典算法, 它通过k l 变换将表征人脸的高维向量映射到由若干个特征向量( 特征脸) 张 成的子空间中,从而实现对人脸图像的最优解析和重构。在实际的研究中,可以 在特定的区域内使用p c a 算法建立局部特征模型,如特征眼就是研究很广泛的 一种模型。具体实现方法我们以后讨论。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是用于描述信号统计特征的 一组统计模型。h m m 的基本理论由b a u m 和w e l c h 等人于2 0 世纪6 0 年代末7 0 年代初建立,在语音识别中应用较多。h m m 使用马尔可夫来模拟信号统计特性 的变化,而这种变化又是问接地通过观察序列来描述的,因此,隐马尔可夫过程 是一个双重的随机过程。应用在人脸特征定位中,可将正面人脸图像中重要的面 7 东南大学硕十学位论文 部区域( 头发,前额,眼睛,鼻子,嘴巴) ,从上到下形成自然顺序,每个区域从 左到右分配一个一维连续的隐马尔可夫模型。 2 ) 基于连接机制的方法 典型的基于连接机制的方法是神经网络知识在人脸特征定位中的应用 1 8 o 神 经网络在人脸识别中的应用有很长的历史,它有其特殊的适合于人脸识别的优 势,它不像其它方法那样要用一套由人确定的规则,它能根据有代表性的样本自 我学习,具有鲁棒性和自适应性。因此近来有更多的研究把神经网络应用于人脸 特征定位。 d l a ( i ) y n a m i cl i n ka r c h i t e c t u r e ) 动态链接模型) 是一种神经网络模型i l “, 它既保留了神经元的独立性,又能够很好地表述神经元之间的相关语义信息,对 目标对象的局部突变有很好的适应能力。w i s k o t t i 7 】等在此基础上作了三方面改 进,将此模型应用于人脸特征定位。首先。他们将节点的分布由阵列式改为散布 式,每个节点分别对应一个脸部特征点,这使得模型更加直观和灵活;其次,他 们引入了集束( b u n c h ) 的概念,一个集束由若干个i e t 组成,分别对应于特征点 的不同状态( 如眼睛的开闭) 。检测时,以集束中的各j e t 与被检测点的匹配度的 最大值作为相似度估计值,从而增强了模型对不同状态的适应能力;第三,他们 在匹配函数中引入了相位信息,提高了匹配函数的区分能力,使定位更为准确。 他们的算法对目标对象在姿势和表情方面的变化有很好的适应能力。 g w n ( g a b o r w a v e l e t n e t w o r k , g a b o r 小波网络) 是一种基于g a b o r 小波的神 经网络【1 9 1 。k r f i g e r 【2 0 】等把它引入图像处理领域。他们使用一组同源派生的g a b o r 小波函数取代r b f 神经网络的基函数。通过训练,可以将目标图像分解为若干 个小波函数的线性组合。与传统的o a b o r 小波分解不同的是,g w n 的训练中同 时对相关权值和小波函数本身的参数作优化,这使得g w n 模型可以用很小数 量的小波函数实现对目标对象的解析和重构。f e f i s 【2 1 1 将其应用于特征定位领域, 他使用两层( 分别用于表征全脸和各个脸部特征) g w n 树模型来定位脸部特征。 2 2 主流算法介绍 2 2 1 可变形模板匹配算法 由于人脸图像在拍摄过程中尺度、表情、旋转以及光照方面通常会有显著变 化,所以简单模板匹配法鲁棒性较差。a l y u i l l e 掣1 4 1 1 9 9 2 年提出的可变形模板 法是一种经典的人脸特征定位的方法。为了检测眼睛,该方法根据眼睛形状的先 验知识,定义1 1 个参数的眼睛模板,如图2 - 1 所示: 8 东南丈学硕+ 学位论文 图2 - 1 可变形眼睛模板 其中,上下眼皮的形状各用一条抛物线来描述,虹膜用半径为r ,圆心为 i = ( k ,圪) 的圆来描述,整个眼睛的中心用i = ( 墨,耳) 描述,眼白的位置用p 1 p 2 来描述,眼睛的角度用口描述,这1 1 个参数描述了一个位置、大小、形状 和旋转方向可变的眼睛模板。 在该方法中,眼睛的上述参数值是通过将模板与图像的灰度分布特征及其中 的边缘峰、谷等动态交互地适应来修正的。根掘眼睛图像的先验知识,先建立一 个能量函数,它反映了眼睛模板和眼睛图像的拟和度,通过使能量函数极小化, 确定这些参数的取值,得到最后的眼睛模型。 能量函数e 定义为: e c = e ,+ e 。+ e i + ep + e p 岫r ( 2 1 1 、 其中,e 反映图像中谷的能量,定义为: e 一_ 一网c i n ( ;) 枷 ( 2 2 e 反映的是图像边缘的能量,定义为: e 一- - 同c 2l 咆( ;) 幽一南k m e ( ;) 凼 ( 2 - 3 e 反映的是峰的能量,定义为: 耳= c 6 中,( 乏+ a i ) + ,( i + 见乏) ) ( 2 4 ) e 反映的是原始灰度图像的能量即光强,定义为: 东南大学硕上学位论文 巨2 尚州;) 幽一网c 5 p ( ;) 幽 协5 k 。,反映的是先验能量,或称为内部能量,定义为: = 鲁6 乏一i l l 2 + 等 乃一见一( ,+ 6 ) 2 + 譬( ,) 2 + 等 ( 6 - 2 订) 2 + ( 棚c ) 2 ( 2 - 6 ) 其中,k l ,k 2 ,l 【3 为权值,不同的权值组合可以使函数具有不同的功能, 式( 2 - 2 ) ( 2 - 6 ) 中的符号o 。和m ,、巾。、d 。分别代表亮度图像及其通过形态 学操作生成的谷图像、边缘图像和峰图像,毛、r 、a 心、a 凡分别代表虹膜区 域、眼白区域、虹膜边界及眼白边界,他们的面积或者长度分别用i i 、i 也i 、i a 心l 、 i 眠l 表示,4 和s 分别代表面积和弧长,e t 、乏是两个方向单位矢量,即 i = ( c o s 口,s i n 0 )乏= ( 一s i n o , c o s o ) ( 2 7 ) 定位分为4 个阶段,通过设定不同的权值并利用梯度下山法( s t e e p e s t d e s c e n t ) 使能量函数最小化,可变形模板首先被“拖”到人眼附近;而后逐步完成 尺寸、偏转角度以及位置和形状上的微调,得到模板参数的最佳值,即为最后眼 睛模板的位置。 图2 - 2 可变形模板处理过程 这个方法在人脸研究技术领域有很深远的影响,它不仅可以得到眼睛的位 置,而且还能够得到眼睛的大小和形状信息,是一个精确定位算法。但是,它的 缺点是:能量函数优化过程是否收敛,很大程度上取决于模板初始参数的选择, 模板的初始位置对定位结果有很大的影响;能量函数优化过程收敛缓慢,耗时长: 能量函数中各种权值通过经验设定,难以保证最优。鉴于此,c h o w1 2 2 等分两步 1 0 东南大学硕十学位论文 实现人眼定位,首先使用h o u g h 变换求出瞳孔的位置,确定模板初始位置,然后 用一个仅包含眼眶的简化模型进行搜索,运行速度大为提高。 2 2 2 主动轮廓模型方法( s n a k e 法) 主动轮廓模型方法( a c t i v e c o n t o u r m o d e l ,被称为s n a k e 方法) 最早是由k a s s 2 3 等人在1 9 8 7 年提出的,最初只是用于图像特征提取。但由于s n a k e 方法具有主 动、智能的优点,它的提出受到了广泛的重视。目前,它己被成功应用于图像分 割、图像边缘检测、图像特征提取、运动目标跟踪等技术中。并且在图像处理、 计算机视觉、模式识别、人工智能等计算机分支学科中都得到了广泛的研究。 s n a k e 的实质是一种样条曲线。s n a k e 曲线具有某种能量,该能量由能量函 数定义。通常,s n a k e 具有以下特性: 1 ) 曲线的初始位置由用户手工给出,或者由某种规则自动给出; 2 ) 具有某种能量,能量由能量函数进行定义; 3 1 曲线可在某种控制条件下移动; 4 ) 控制条件一般为样条曲线总能量值最小化。 应用s n a k e 方法时,首先给出样条曲线的初始位置,定义好合适的能量函数, 则样条曲线将在能量最小化这一条件的控制下,进行自动移动,直到其能量处于 最小值,则认为此时的样条曲线已经收敛到图像中目标的边缘特征或者其他特征 处。s n a k e 在能量最小化这一控制条件下运动,最终收敛到目标的特征处,因此 其能量函数的定义非常关键。一般来说,s n a k e 的能量函数具有以下形式: 1 互。m = i w l e ;,( v 0 ) ) + 圪。d ( v ) ) + ,忱e 。,“( v o ) ) 】凼 ( 2 - 8 ) i 式2 - 8 中v ( s ) = ( x ( s ) ,y o ) ) :为样条曲线上点序列的参数表示。 e 一( v ( j ”:为图像能量项,它有灰度梯度值或其函数决定,使曲线收缩到 图像的特征处。 互。,( v ( j ) ) :为内部能量项,控制曲线的光滑等属性。 点0 。( v ( s ) ) :为外部能量项,属于外力约束。 3 w :为相应能量项的权值,且w f = 1 。 东南人学硕上学位论文 2 2 3 特征脸方法 特征脸方法从主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i sp c a ) 演变,是人脸自 动识别研究中常用的方法,很多算法都是由此引申或者改进的。它将k l 展开 用于人脸图像的表示【1 2 1 。 一幅n * n 大小的人脸图像按列相连而构成一个n 2 位矢量,即: x = ( b n b 2 1 b m b l 2 b 2 2 b n 2 b i n b 2 n b ) 它可被视为n 2 维空间中的一个点。由于人脸结构的相似性,当把很多这样 的人脸图像归一化后,这些图像在这一超高维空间中不是随机或散乱地分布的, 而是存在某种规律。因此可以通过k - l 变换用一个低维子空间描述人脸图像, 同时又能保存需要的识别信息。 我们把归一化后的标准图像作为训练样本集,求出该样本集的总体散布矩阵 ( 协方差矩阵) 为产生矩阵: = e ( x 一) ( x - ) 7 ) ( 2 9 ) 或 = 击篓( x 一) ( x 。一) 7 ( 2 1 0 ) 其中为集合的平均值,设x = ( b 1 8 2 b ) i = 1 , 2 9 - 9 n ,为n 2 维列向量。 p = 击争 x 为第i 个训练样本的图像向量,m 为训练样本的总数。 根掘( s v d ) 定理可表示为: = 击黔刊刊k 击敞7 其中x = i x o 一,x 】一,x m 1 - p 】 ( 2 - 1 2 ) 故,构造矩阵:r = x x ”“ 求出其特征值 及相应的正交归一特征向量v ( i = 0 , 1 ,2 ,m - 1 ) 。的正 交归一向量u 为: 1 2 东南人学硕十学位论文 u l2 赤m 卜0 l 2 ,m 。1 。1 3 这就是图像的特征向量,它是通过计算较低维矩阵r 的特征值与特征向量 而直接求出的。 设特征值厶 2 丑。,其对应的特征向量为u 。这样每一幅人脸图像 都可以投影到由u o , u l “,u 。张成的子空间中。子空间中的任一点也对应于一幅 图像,由于这些图像很像人脸,所以被称为特征脸。 我们总共得到了m 个特征向量。虽然m 比n 2 小很多,但通常情况下,m 仍很大。事实上,根据实际要求,并非所有的u 都有很大的保留意义。 考虑到k l 变换作为对人脸图像的压缩手段,可以选取最大的前k 个特征 向量,使得: 葛一口 ( 2 1 4 ) 在上式中,可以选取口:9 9 。这说明样本集在前k 个轴上的能量占整个能 量的9 9 0 , 6 以上。正如图2 3 ,我们不难看出,前面各维对应较大特征值的特征向 量含有丰富的人脸信息,而后面最小特征值的特征向量反映了图像集中的噪声情 况。 图2 - 3 前八维于后八维主特征向量图像 由此,我们也可以使用主成分分析的方法来进行特征定位。与上述计算特征 脸方法类似。我们可以通过训练归一化的人脸特征图像,得到相应的特征图像的 协方差矩阵,从而求出特征值,特征向量,张成特征子空间。 东南大学硕十学位论文 例如,特征眼方法【2 5 】 处理后得到的: 2 3 本章小结 图2 4 归一化的特征左眼图像 图2 - 5 特征左眼 本章介绍了特征定位与提取的国内外研究的历史,发展及现状。通过对主流 算法的综述和比较,为后续的具体实验内容作铺垫。本文对变形模板匹配、s n a k e 曲线拟合法、特征脸特征子脸,等方法进行较为详细的论述,以期获得对于特 征定位问题的整体概念。 东南大学硕十学位论文 第三章图像的预处理 一个通常的图像识别系统,一般可以将流程分为三个阶段,在获取原始图像 后,首先是图像预处理阶段、第二是特征提取阶段、第三是识别分析阶段。其中 图像的预处理阶段尤为重要,如果这阶段处理不好,后面的工作将无法展开。所 以图像的预处理工作是确保整个系统准确工作的基础,没有这个可靠的基石就无 法顺利完成后面庞大的识别过程。并且,成功的预处理可以为检测或识别提高成 功率。所以在本章中,着重介绍图像的预处理过程,以及设计中遇到的困难和解 决方案。 3 1 图像预处理在系统中的重要作用 在实际应用中,预处理的主要作用有两方面,其一,通常系统获取的原始图 像不是完美的,例如由于噪声、光照等原因,图像的质量不高,所以需要进行预 处理,以有利于提取大家感兴趣的信息。这种情况下,要根据系统的不足或环境 的影响,例如,光照方面的影响,采取有针对性的措施。其二,是获取的图像信 息不符合后续操作的具体要求,这时也同样需要对图像按照一定的要求进行预处 理,例如,尺寸,角度方面的要求。总之,预处理是一个承上启下的过程,需要 全面考虑整个系统的性能。 预处理方式的选择应该因地制宜,不同的系统需要根据自身特点设计适合的 预处理模块。如果预处理功能不能成功达到弥补系统不足的要求,势必影响整个 系统运行的正确率;如果预处理算法过于繁杂,运算量过大,势必影响整个系统 的实时性。所以预处理模块的设计要兼顾正确性与实时性。 在本文所设计的自动表情识别系统中,由于系统的实时性要求比较高,而且 在后续特征提取模块中所采用a s m 方法中已经考虑到光照的影响,所以在预处 理阶段光照补偿采用了常用的线性补偿和直方图均衡化方法,工作重点放在了尺 寸归一化上,因为尺寸归一化的坐标点是眼睛,即根据眼睛的位置归一化人脸图 像大小,所以眼睛的定位算法研究尤为重要,本文提出了一种基于二随化的眼睛 定位算法,适用于实时系统的设计。 3 2 图像的光照补偿 光照问题是图像处理中比较关键且难解决的问题。尤其是在人脸识别或检测 系统中,一般的识别或检测算法是假定待检测图像是在均匀光照下获得的。而实 东南大学硕士学位论文 际上光的照明往往是不均匀的,这会使人脸检测的检测率大幅度下降,所以我们 有必要对光照进行补偿。m o s e 2 7 等人从理论上证明,对于光照保持不变性的函 数是不存在的。所以理论上需要我们根据不同的光照情况选取不同的方法来补 偿,但是对于一个自动识别系统而言,这显然是不易达到的,通过各种光照补偿 方法的研究和比较,最后设计系统时采用直方图均衡法,所以下文详细介绍 这种方法。 3 2 1 直方图均衡 1 直方图的定义 灰度直方图是灰度级的函数,它表示图像中具有每种灰度级的像素的个数,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论