(计算机应用技术专业论文)基于人眼检测技术的眼控鼠标系统研究.pdf_第1页
(计算机应用技术专业论文)基于人眼检测技术的眼控鼠标系统研究.pdf_第2页
(计算机应用技术专业论文)基于人眼检测技术的眼控鼠标系统研究.pdf_第3页
(计算机应用技术专业论文)基于人眼检测技术的眼控鼠标系统研究.pdf_第4页
(计算机应用技术专业论文)基于人眼检测技术的眼控鼠标系统研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 人脸特征检测在人脸识别,智能人机交互等诸多领域都扮演着重要的角色。 为使上肢残疾的人士和计算机之间的交互变得无障碍,本论文提出了一种用摄像 头代替传统手动操作鼠标作为输入设备,通过判断眼睛在视频帧图像中的位置来 控制鼠标操作电脑的眼控鼠标系统。 系统在时序上主要划分为背景处理,基准位置定位和鼠标控制三个阶段。背 景处理主要是应用肤色模型提取出背景当中的肤色区域。基准位置定位和鼠标控 制阶段分别采用灰度投影模型和二值化模型,在利用肤色模型粗分割的局部脸矩 形区域上定位眼睛。基准位置定位阶段,对每幅采样图像利用灰度投影模型计算 出眼睛位置之后,利用该位置信息截取包含眼睛的小矩形区域估算出眼球灰度分 割阈值,然后通过对该阶段所有采样图像的统计分析,选择出现概率最高的双眼 中间点位置作为基准位置,并将双眼中间点位置在基准位置附近的所有图像的灰 度分割阈值的统计平均作为当前使用者的眼球灰度分割阈值。在鼠标控制阶段, 利用该阈值对局部脸图像做二值分割,通过在分割后的二值图像上搜索满足眼睛 特征的一对黑块来定位人眼,这样,通过双眼的位置关系或双眼中间点和基准位 置的关系可以判定出人脸姿势和位置进而控制鼠标操作。 本系统的主要特征是将灰度投影模型和二值化模型结合起来,使它们优势互 补。实验证明,本系统运行速度快,准确率高,并具有较好的鲁棒性。 关键词:视频捕捉人眼检测人眼定位肤色分割图像分割 a bs t r a c t f a c i a lf e a t u r ed e t e c t i o np l a y sa ni m p o r t a n tr o l ei na p p l i c a t i o n ss u c ha sf a c e r e c o g n i t i o na n di n t e l l i g e n th u m a nc o m p u t e ri n t e r f a c e i no r d e rt oh e l pt h o s ew h o s e a r m sa r ed i s a b l e di n t e r a c tw i t hc o m p u t e r sw i t h o u to b s t a c l e ,w ed e v e l o pam o u s e c o n t r o ls y s t e mi nw h i c hv i d e oc a m e r ai su s e da si n p u td e v i c ei n s t e a do ft r a d i t i o n a l m a n u a lm o u s e a n dt h em o u s ei sc o n t r o l l e db yl o c a t i o no ft h eo p e r a t o r se y e si nt h e v i d e oi m a g e s e q u e n t i a l l y , t h es y s t e mc a l lb ed i v i d e di n t ot h r e ep h a s e s ,b a c k g r o u n dp r o c e s s i n g , f i d u c i a lp o s i t i o nl o c a t i n ga n dm o u s ec o n t r o l l i n g i nt h eb a c k g r o u n dp r o c e s s i n gp h a s e , s k i nt o n ea r e a so ft h eb a c k g r o u n da r es e g m e n t e db ys k i nt o n em o d e l t h ef i d u c i a l p o s i t i o n l o c a t i n gp h a s ea n dm o u s ec o n t r o l l i n gp h a s er e s p e c t i v e l ya d o p t sg r a y 。l e v e l p r o j e c t i o nm o d e la n db i n a r ys e g m e n t a t i o nm o d e l t ol o c a t ee y e sf r o mt h ep a r t i a lf a c e r e c t a n g l e i nt h ef i d u c i a lp o s i t i o nl o c a t i n gp h a s e ,f o re v e r ys a m p l i n gi m a g e ,a r e r l o c a t i o no ft h ee y e sw e r ec a l c u l a t e d ,t w os m a l lr e c t a n g l ei m a g e se a c hc o n t a i n sa ne y e w e r ec u to u tt oc a l c u l a t et h eg r a y l e v e ls e g m e n t a t i o nv a l u eo ft h ee y e b a l l s ,t h e nb y s t a t i s t i c a la n a l y s i so na l lt h es a m p l i n gi m a g e s ,t h ep o s i t i o no ft h ep o i n ti nt h em i d d l e o ft h ee y e sw i t ht h eh i g h e s te m e r g e n c ep r o b a b i l i t yi ss e l e c t e da st h ef i d u c i a lp o s i t i o n , a n dt h ea v e r a g eo ft h eg r a y - l e v e ls e g m e n t a t i o nv a l u e so fa l lt h ei m a g e si nw h i c ht h e p o s i t i o no ft h ep o i n ti nt h em i d d l eo f t h ee y e sl o c a t e sn e a rt h ef i d u c i a lp o s i t i o ni su s e d a st h eg r a y 1 e v e ls e g m e n t a t i o nv a l u eo ft h ee y e b a l lo fc u r r e n to p e r a t o ri nm o u s e c o n t r o l l i n gp h a s e ,t h es e g m e n t a t i o nv a l u ei su s e dt os e g m e n t t h ep a r t i a lf a c er e c t a n g l e i m a g e ,a n de y e sa r el o c a t e db yf i n d i n gb l a c kb l o c k st h a ta r ea c c o r d a n tw i t he y e s f e a t u r ei nt h eb i n a r yi m a g ea f t e rs e g m e n t a t i o n ,t h u sm o u s ec a nb ec o n t r o l l e db yt h e f a c eg e s t u r e sj u d g e db yt h el o c a t i o nr e l a t i o n s h i po ft h ee y e so rb e t w e e nt h em i d d l e p o i n to f t h ee y e sa n dt h ef i d u c i a lp o s i t i o n o u rs y s t e mi ss p e c i a lf o rt h eu n i o no ft w os i m p l ee y ed e t e c t i o nm o d e l sw h o s e a d v e n t u r e sa r ec o m p l e m e n t a r y e x p e r i m e n t sd e m o n s t r a t et h eh i g he f f i c i e n c yo fo u r s y s t e mi nr u n t i m ea n d c o r r e c tl o c a t i o nr a t e ; k e yw o r d s :v i d e oc a p t u r e , s e g m e n t a t i o n ,i m a g es e g m e n t a t i o n e y e sd e t e c t i o n ,e y e sl o c a t i n g ,s k i n t o n e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:签字e l 期:二7 年6 月肛日 学位论文版权使用授权书 本学位论文作者完全了解墨盗盘鲎有关保留、使用学位论文的规定。 特授权基鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 导师签名: 签字同期:卵7 年月修e l签字日期:d 7 年 f j s 具l r b 天津大学硕士学位论文第一章绪论 第一章绪论 在众多基于人的牛物特征的识别中,脸部特征定位( 即在图像或图像序列的 给定区域内搜索眼、鼻、嘴等的位置、关键点或轮廓线等信息) ,特别是受光照、 表情影响最小的眼睛的准确定位问题,一直是模式识别和人工智能领域的前沿课 题和热点。人脸特征识别以其广泛的应用前景和重要的学术价值吸引着众多研究 者的兴趣,并取得了丰硕的成果,目前己广泛应用在在人脸识别、智能人机接口、 视频会议等诸多领域。随着社会的高度信息化,人脸特征识别的应用范畴必将越 来越广。基于人眼检测的理论,本文提出了一种通过捕获视频帧中人双眼的位置 来控制鼠标操作电脑,即以摄像头代替鼠标作为输入设备,以眼睛代替手来操作 鼠标的新型人机交互系统。 1 1 眼控鼠标系统的研究目的 随着计算机技术的高速发展,特别是以窗口、图符、菜单、鼠标等为代表的 图形用户界面诞生以来,我们与计算机的交互变得更加容易、快捷。网络购物、 信息查询、辅助办公、多媒体娱乐等等功能为我们的生活和工作提供了方便,带 来了乐趣。然而,仅仅通过手操作鼠标和键盘来实现与电脑的交互,却将众多想 要享受其便利的残疾人拒之f - j # f 。本论文研究设计的眼控鼠标系统,期望通过对 摄像头捕获的包含人脸的图像的处理,定位出使用者双眼的位置,并根据该位置 信息控制鼠标操作电脑,以达到能让上肢残疾的人士利用摄像头作为手动操作鼠 标的替代输入设备,使他们同计算机的交互变得自然,简单,无障碍的目的。 此外,实现多通道、多媒体的自然、高效、智能化的人机交互界面是当今计 算机发展的重要趋势。利用人的多种感觉通道和动作通道( 如语音、手写、表情、 姿势等输入) 与计算机系统进行交互,可以提高人机交互的自然性和高效性。目 前,语音和手写输入在实用化方面已有很大进展,随着模式识别、自然语言理解 和新的传感技术的发展,人机界面技术将进一步朝着计算机主动感受、理解人的 意图方向发展。新的多通道、多媒体的人机界面将是发展的主流。因此,顺应这 一趋势,通过眼睛控制鼠标提高人机交互的自然化、智能化,也是本论文的研究 目的所在。 天津大学硕l j 学位论文第一章绪论 1 2 人眼检测研究现状 当前主要的人眼定位算法通常都包含以下两个步骤: ( 1 ) 检测人脸以粗定位出入脸矩形区域 ( 2 ) 在人脸矩形区内进行双眼细定位 也就是说,目前的人眼定位算法主要是在已知人脸大致位置的条件下定位人 眼的方法,显然,这样做可以减少背景干扰,缩小搜索区域,从而提高人眼检测 的精度和速度。事实上,人眼定位对人脸检测定位也有辅助和验证的功能,比如, 瞳距常被用于几何特征或脸像尺寸的归一化标准:另外,如果在图像中搜索到满 足眼部特征的区域,该区域就有可能是人脸的候选区,从而可以进一步凭借人脸 其他特征对该候选区进行辨认,判定出是否为人脸区域。例如,文献 1 首先利 用眼睛大小范围和眼睛比周围区域灰度低这两个特征,筛选出满足条件的区块, 如果有一对区块满足人眼的几何关系则认为有人脸存在,并以两区块的距离作为 瞳距进行旋转和尺度归一,进而找到人脸候选区。 现有的人脸检测算法主要有:( 1 ) 基于肤色模型的方法。在人脸彩色图像中, 肤色是最明显的特征之一,j i ey a n g 和a 1 e xw a i b e l 2 j 的研究表明尽管人类的肤 色千差万别,但影响其变化的主要因素是亮度变化,而在色度空间中,人类的肤 色却十分接近,不同光照条件下不同人的肤色在色度空间中近似成高斯分布。 ( 2 ) 基于模板匹配的方法:该方法一般是先定义一个标准人脸模板,计算出输入 图像与模板的似然度,然后通过确定一个似然度分割阈值来判定图像中是否包含 人脸。人脸模板可以在匹配前固定,如文献 3 采用的“双眼一人脸模板, 也可以在匹配过程中调整参数和进行优化,即采用可变形模板,如文献 4 。( 3 ) 基于知识的方法。该方法利用符合人脸的几何形状以及脸部器官的比例对称关系 的镶嵌图( m o s a i ci m a g e ) 模型,在分析大量人脸样本的基础上建立针对人脸灰 度、边缘等信息的知识库,然后检验输入图像是否符合知识库中的先验知识来进 行人脸判定。文献 5 利用人脸器官分布提出了一种可视为广义三分图的马赛克 人脸模型。( 4 ) 基于代数特征的特征脸法( e i g e nf a c e ) 引。该方法用主成分分析法 ( p r i n c i p l ec o m p o n e n ta n a l y s i sp c a ) 对人脸图像原始空间进行转换,构造人 脸图像数据集的协方差矩阵,计算该矩阵的特征值和特征向量,用这些特征向量 按特征值大小排序构成的特征集合来表示人脸。( 5 ) 神经网络法。该方法通过训 练一个网络结构,把模式的统计特性隐含在神经网络的结构和参数之中,如文献 7 , 8 。( 6 ) 支持向量机法( s u p p o r tv e c t o rm a c h i n e ,s v m ) 。该方法是在统计 学习理论的基础上发展出的一种新的模式识别方法,它采取基于结构风险最小化 原理的方法,解决了人工神经网络法基于经验风险最小化带来的一些难以逾越的 ! 天津大学硕士学位论文第一章绪论 问题,如文献 9 , 1 0 。 如前所述,目前的人眼定位方法大多都是在经过人脸检测确定人脸基本位置 的基础上进行,主要有以下几种方法:( 1 ) 灰度投影法。该方法多用于在人脸矩 形区域中进行人眼的粗定位。由于在人脸图像中人眼的灰度较低,在人脸的水平 灰度投影曲线上,认为曲线的最大值点( 对应人的额头部位) 和次最大值点( 对 应人的鼻中部) 之间的一个极小值点对应位置为眼睛所在的大致水平位置。如文 献 11 , 1 2 。( 2 ) 二值化法。该方法首先用直方图阈值法将图像二值化,然后 根据其中黑色区域的面积、形状和相对位置等几何特征确定出瞳孑l 的位置,如文 献 1 3 ,e 1 4 。( 3 ) h o u g h 变换法【l 引。h o u g h 变换是一种用于区域边界形状描述的 方法,常常用于直线段、圆和椭圆的检测。由于眼球的圆形结构特征,人眼定位 问题可以转化为在图像中确定圆形结构位置的问题。该方法的缺点是占用存储空 间大,耗费时间长。( 4 ) 基于模版匹配的方法,如文献 1 6 根据上眼睑曲线特征 构造了一种弹性模板。( 5 ) 眼角检测澍17 1 。该方法通过g a b o r 滤波器检测眼角,因 此要求脸像尺寸较大,对图像质量,尤其是对眼角的对比度要求较高。( 6 ) 对称 性检测法。对称性是识别物体可利用的基本性质之一,它包括点对称性( 也叫中 心对称性) 和轴对称性。对于人脸图象来说,人眼、眉毛、嘴等都具有很强的点 对称性1 1 8 儿1 9 j 。( 7 ) 特征眼法。类似于特征脸法,该方法将候选眼部投影到特征眼 空间得到构造眼部,如文献 2 0 。 1 3 眼控鼠标系统设计概述 1 3 1 设计概述 研究者的实践表明,在构造实际应用视觉系统时,为了提高可靠性,加快速 度,对环境适当的加以约束是必要的、合理的,如果对环境不加限制,人脸检测 问题是十分复杂的,很难找到有效可靠的解决方案。本文研究的眼控鼠标系统限 定在背景固定的环境中,并规定任何时刻只有一个操作者来操作,所拍摄的图像 中操作者脸部面积要占图像面积的2 0 以上。因此,本文所要研究的是背景固定 环境中的单一人脸检测问题。 从1 2 d , 节的叙述中,我们可以看到,人眼定位算法的研究已经相当深入, 这些研究大多针对静态图像,采用了基于人脸特征的统计与结构分析的方法,具 有一般性,但是那些精度高的算法往往计算量很大,耗时过长,难以实时。然而, 对于我们所要实现的眼控鼠标系统,实时性却是首要考虑的问题,因此,权衡速 天津人学硕士学位论文 第一章绪论 度与精度,我们选择了较为简单的模型来实现。我们的系统仍然采用流行的由粗 到精的设计模式,即先粗分割出人脸区域,再细定位人眼位置的模式,选用y c b c r 色彩空间的肤色模型粗定位人脸矩形区域;定位基准位置过程采用灰度投影积分 模型,同时提取出眼球的灰度分割阈值作为鼠标控制时用来判断眼睛位置偏移的 二值化模型的输入。 系统的总体流程图如图卜1 所示。从时序上,系统可划分为背景处理,基准 位置定位,判定双眼位置偏移并控制鼠标操作三个阶段。系统启动后首先初始化 系统参数,摄像头拍摄参数( 频率,显示方式) 等,然后启动定时器。当定时时 间到,摄像头拍摄当前图像作为背景图像。背景图像经过肤色模型处理成二值图 像( 肤色区域:1 ;非肤色区域:0 ) ,保存于内存中,此时启动视频帧回调函数, 这样,以后拍摄的每帧图像将由操作系统负责提交给该函数处理。 在帧回调函数中,首先,将作为参数传入的彩色图像经肤色模型处理为二值 图像,与背景二值图像一起提交给人脸搜索子系统:如果未搜到人脸,退出函数; 否则,表明人脸出现,此时访问全局过程指示变量: 如果变量指示尚未初始化基准位置,提示用户开始初始化,设置全局过程指 示变量为正在初始化,从而触发初始化过程; 如果变量指示正在初始化,将搜索到的人脸矩形区域图像提交给基准位置定 位子系统处理。该子系统经过对若干幅图像的统计处理,如果成功判定出基准位 置,并估计出眼球的灰度分割阈值,则设置全局过程指示变量为初始化成功,以 标记初始化过程结束,同时,启动鼠标控制子线程,并提示用户初始化成功。一 旦初始化成功,以后捕获的每帧图像将提交给鼠标控制子系统处理,除非程序重 新启动,否则初始化过程将不会再被触发;如果没有判定出基准位置,则设置全 局过程指示变量为未初始化基准位置,这样在下次检测到人脸时,初始化过程会 被再次触发; 如果变量指示初始化成功,将搜索到的人脸图像提交给鼠标控制子系统。该 子系统利用初始化过程提供的眼球灰度分割阈值对图像作二值分割,在分割后的 二是图像中搜索满足眼睛特征的黑块来定位当前图像中使用者眼睛的位置,然后 通过判断双眼位置关系或双眼中间点与基准位置的关系,得到人脸的姿势或位置 信息,并将该信息作为鼠标操作指示存放到鼠标操作消息队列。这样,鼠标控制 子线程通过访问该消息队列取得操作信息,进而控制鼠标操作。 系统以人脸在平面内向左倾斜( 右眼纵坐标大于左眼纵坐标) 表示按下鼠标 左键;以人脸在平面内向右倾斜( 左眼纵坐标大于右眼纵坐标) 表示按下鼠标右 键;以双眼中间点位置相对于基准位置偏上、偏下、偏左、偏右来控制鼠标上移、 下移、左移和右移。判定时,鼠标事件的优先级高于鼠标移动的优先级,移动操 天津大学硕士学位论文 第一章绪论 作的判定优先级依次为,上移,下移,左移,右移。如果双眼中间点位置在基准 位置处且人脸没有倾斜,鼠标会停留在原位置不动。目前,我们的系统尚不支持 双击操作,原因是没有找到正判率比较高的姿势来指示这种操作。 图1 - 1 系统总体流程图 天津大学硕: :学位论文 第一章绪论 1 3 2 使用约束 如前所述,对环境加以适当约束在构造实际视觉系统时是合理的、必要的, 我们所设计的系统要求使用者遵守以下约束: ( 1 ) 由于采用肤色模型粗定位人脸,要求背景环境中避免大面积接近肤色的物体 出现( 如黄色,粉色,橙色等) ,使用者不要穿颜色和肤色接近衣服。尽管 目前有很多算法可以利用人脸特征曲线,或人脸轮廓近似椭圆等人脸特征信 息排除掉一些伪人脸区域,但是考虑判定过程比较耗时,我们的系统没有做 这样的处理。我们认为这样肤色干扰少的背景环境可以而且容易实现。 ( 2 ) 操作人员需等待系统提示用户背景拍摄完毕再进入视频场,因为我们的系统 需要利用背景的肤色二值图像与当前图像比较,滤掉在背景中出现的肤色区 域,保留当前图像新增的肤色区域做后继处理。 ( 3 ) 在系统提示用户正在初始化的阶段,允许使用者在1 5 。以内的姿态变化( 包 括平面内的倾斜以及空间内深度旋转) ,为保证定位的基准位置与使用者理 想的位置一致,使用者要保持双眼中间点在其理想的基准位置附近( 如本文 实验中拍摄图片大小为3 2 0 2 4 0 ,“附近”指一5 + 5 个像素以内) 停留 或微动。由于初始化的时间控制在1 2 秒以内,所以我们认为让使用者在短 时间内保持头直立的姿势是合理的。 ( 4 ) 眼睛控制鼠标操作的过程中,要求使用者头部的深度旋转不超过1 5 。,平面 内倾斜角度不超过4 5 。 ( 5 ) 使用者要尽量避免配戴深色边框( 如黑色,深蓝色) 的眼镜,因为我们的眼 睛定位算法主要是利用眼睛灰度较其周围灰度低的特征,如果使用者配戴的 眼镜边框的灰度明显低于眼球灰度,将严重干扰算法的准确度。 此外,使用者要尽量避免刘海遮挡额头,因为为提高精度,在基准定位和操 作判定时,我们利用眼睛在整个面部的比例位置截取包含眼睛的局部脸区域进行 处理,如果额头被大面积遮挡,截取的区域也就失效了。 我们认为上面提到的约束条件还是易于满足的,当然,我们仍在致力于改进 算法,放宽约束条件,增强系统的鲁棒性。 1 3 3 设计特点与分析 从前面的叙述可以看到,我们设计的眼控鼠标系统最大的特点是将两种眼睛 定位模型相结合:采用灰度投影模型定位基准位置,在鼠标控制过程中采用二值 化模型定位双眼。两种模型结合,达到了优势互补,从而提高了系统的效率和精 天津大学硕l j 学位论文第一章绪论 度:一方面,定位基准位置时需要使用者在其理想的基准位置附近,保持脸部直 立、正面对准摄像头,而对直立正面人脸图像,灰度投影模型在精度和速度的性 价比上是非常理想的,但是处理多姿态人脸特征定位时常常失效;另一方面,二 值化模型根据眼球灰度分割阈值分割出双眼黑块,通过搜索满足眼睛特征的黑块 来定位双眼,可以用来处理如平面内倾斜等多姿态的人脸图像,比较适合在鼠标 控制过程中使用,但是分割阈值的选择却非常困难,无论目前已有的自动分割阈 值选取算法,还是通过对大量样本图片求统计平均的方法,都很难保证分割的稳 定性。而我们在定位基准位置时,用灰度模型定位到双眼位置后,利用眼睛约占 脸宽的1 5 的形态学特征,以眼睛位置为中心,以脸宽l 5 为边长,截取包含眼睛 正方形区域,然后,根据该区域的灰度分布直方图估算分割阈值。这种求取分割 阈值的方法是在已知眼睛位置的条件下进行的,而且,求取的是单独样本的特征, 而不是大量样本的统计特征,显然,用该阈值来分割,分割的稳定性和质量都得 到了保证。 1 4 本文大纲 本章主要介绍了人眼检测的研究现状、本文研究目的,并简要介绍了眼控鼠 标系统的总体设计,接下来的几章将对算法各个部分给出详细的介绍。第二章介 绍v f w 视频系统,第三章介绍本文采用的肤色模型,第四章介绍基准位置定位 子系统,第五章介绍鼠标控制子系统,第六章给出实验结果与分析,第七章给出 结论与前景展望。 天津大学硕士学位论文第- 二章基于v f w 的视频捕获 第二章基于v f w 的视频捕获 微软推出的用来进行视频开发的v f w 和d i r e c ts h o w 软件包给视频应用的开 发带来了极大的便利,使得我们只需要很少的硬件投资,就可以进行视频聊天, 视频会议等多媒体视频应用的开发。我们开发的眼控鼠标系统使用了v f w 软件 包,其最大特点是为编程人员提供了一个透明的接口来访问硬件,屏蔽了硬件的 物理特性,克服了在软件中访问专用硬件视频采集设备造成软件通用性差的缺 点。而且,v f w 简单直观,能比较快捷的完成采集操作。本章将介绍眼控鼠标 系统中捕捉视频图像的过程。 2 1 视频采集流程及相关函数 2 1 1 视频采集系统初始化 创建视频捕获窗口 连接视频捕获设备驱动 获取并设置视频捕捉参数 设置视频捕获驱动的工作模式并启 动视频捕捉系统在该模式下工作 图2 1 视频系统初始化流程图 视频采集系统初始化流程如图2 1 所示,具体步骤如下: ( 1 ) 创建视频捕获窗口。使用c a p c r e a t e c a p t u r e w i n d o w 函数,其返回值为捕 获窗口的句柄。其他视频操作函数都要使用这一句柄作为参数,因此, 它是进行其他后继工作的基础。 ( 2 ) 使用c a p d r i v e r c o n n e c t ( h w n d ,i n d e x ) 函数连接视频捕获设备的驱动程序。 h w n d 为( 1 ) 中捕获窗口句柄,i n d e x 指明和哪个视频设备相连。 天津大学硕 :学位论文 第二章基于v f w 的视频捕获 ( 3 ) 获取并修改视频捕获参数。使用c a p c a p t u r e g e t s e t u p 函数获取当前视频 采集参数集,该参数集被保存在c a p c a p t u r e g e t s e t u p 函数 c a p t u r e p a r m s 结构体类型的参数中返回。我们只将参数集中 f c a p t u r e a u d i o 参数设置为f a l s e ,即不捕捉音频,然后使用 c a p c a p t u r e s e t s e t u p 函数将参数集写回。 ( 4 ) 设置视频捕获驱动的工作模式。一个视频捕获驱动对输入视频流有 p r e v i e w 和o v e r l a y 两种模式:p r e v i e w 模式把从捕获硬件传来的数据送 入系统内存并使用图形设备界面将数字化帧显示在捕获窗口内,此模式 要占用大量c p u 时间;o v e r l a y 模式是一个硬件函数,它将数据送入捕获 缓冲区中因而不占用c p u 资源。由于需要从内存中获取图像数据,我们 的系统采用p r e v i e w 模式。首先,调用c a p p r e v i e w r a t e ( h w n d ,w m s ) 函数 设置捕获频率为每w i l l s 毫秒捕获一帧( 我们在c p u 为p e n t i u m1 6 0 g h z 的 电脑上运行程序的实验测试数据表明,我们的系统处理一幅图像的时间 最长不超过2 0 0 m s ,所以在我们的系统中w i l l s 设为2 0 0 ,即每秒拍摄5 帧) , 然后,用c a p p r e v i e w 函数启动设备在预览模式下工作。 2 1 2 单帧捕获函数 拍摄背景图像时使用了单帧捕捉函数c a p g r a b f r a m e n o s t o p ,由于该函数将 捕获的图像数据保存到我们无法直接访问的帧缓冲区,我们首先调用 c a p e d i t c o p y 函数将捕获图像拷贝到系统剪贴板,然后从系统剪贴板取得数据进 行后继处理。 2 1 3 帧回调函数 在完成对背景图像的处理之后,使用c a p s e t c a l l b a c k o n f r a m e ( h w n d ,f p p r o c ) 注册帧回调函数,其中f p p r o c 指明回调函数的入口地址。帧回调函数注册之后, 当有捕获到视频帧的事件发生时,操作系统会负责调用该回调函数,并将捕捉到 的帧图像传递给回调函数。在第一章的系统概述中我们已经讲过,定位基准位置 以及判定指示操作的逻辑会放在回调函数中处理,这就是我们在回调函数中需要 全局过程变量来指示该把当前捕捉到的图像提交给哪个子系统处理的原因。 天津大学硕1 :学位论文 第三章肤色模型 第三章肤色模型 肤色是彩色人脸图像中最显著的特征之一,研究表明,尽管人类的肤色千差 万别,但影响其变化的主要因素是亮度变化,而在色度空间中,肤色却有很好的 聚类特性。因此,肤色模型在人脸检测的研究中广为采纳。采用肤色模型有很多 优点,首先,处理色彩信息远比处理其他面部特征容易、迅速,其次肤色受人脸 姿态表情变化影响很小。因此,本论文中我们采用肤色模型来粗分割人脸区域。 采用肤色模型面临着以下问题: ( 1 ) 采用哪种色彩空间7 , ( 2 ) 如何区分肤色和非肤色? ( 3 ) 对肤色分割后的图像如何处理,获得想要的肤色区域? 针对这几个问题,本章介绍我们设计的眼控鼠标系统中的做法和流程。 3 1 色彩空间选择 在计算机视觉领域里,色彩空间占据着极为重要的位置。对于一种颜色在计 算机内可以有多种方式表达,这就形成了多种多样、各具特色的色彩空间,其中, 计算机视觉研究领域里经常采用的主要有:r g b ( 红、绿、蓝三基色) 、r g b ( 亮度 归一化的三基色) 、s h i ( 饱和度、色调、亮度) 、以及y i q 、y u v 、y c b c r 等亮度和 色度色彩空间。 由于我们系统使用的摄像头拍摄的图像是以r g b 色彩空间来描述的,该色 彩空间将色度和亮度信息混合在一起,不便于进行肤色聚类的研究,因此我们将 将其变换到y c b c r 色彩空间进行处理。选用y c b c r 色彩空间的优势在于: ( 1 ) y c b c r 色彩空间与人类视觉感知过程具有同一性; ( 2 ) y c b c r 色彩格式具有同t s l 等色彩空间类似的将色彩中的亮度分量和色度 分量分离的优点; ( 3 ) y c b c r 色彩空间被广泛的应用在视频显示,视频压缩解码标准( 如m p e g , j p e g ) 中。 ( 4 ) 研究实验表明,肤色分布在y c b c r 空间上聚类紧凑【2 l 】,y c b c r 空间中的肤 色分布如图3 - 1 所示。 大律大学碗1 :学行论文第三章肤色模型 兰3 - 啪i7 c ;b 考c r 茹龄镰篓:裂翟磊分布 红色代表肤色的分布) r g b 色彩空间到v c b c r 色彩空间的转换公式如下 y c b c r 3 2 肤色分类模型 公式( 3 一l 选定色彩空间之后,接下来需要考虑的就是如何实现肤色和非肤色的分类。 显然,最简单的办法就是针对给定点的c b ,c r 值,通过判定其是否落在图3 - 1 中 给出的肤色区阐内来决定其是否为肤色点。然而,尽管很多研究假定肤色色调的 色度成分独立于亮度成分,但在实际应用系统中,我们却发现摄像机拍摄的图像 对肤色的描述受周围光照明暗影响很大特别是对于视频应用系统,拍摄对象在 运动过程中表面反射引起的明暗变化,往往导致同一对象在图像序列中的图像帧 之问呈现出截然不同色彩描述。因此,在构造我们的眼控鼠标系统时必须要把光 照因素考虑进来。我们利用丁h s u l 2 1 ) 的研究成果,他认为肤色色调非线性的依赖 于亮度成分将y c b c r 色彩空间中的c b 、c r 用y 来非线性的表达,并将y c b c r 空间坐标经过非线性分段色彩变换变换到y c b c r 空间坐标在该空间内建立了 肤色聚类的参数椭圆模型。变换的推导过程见参考文献 z 1 ,这里不再赘述,仅 r g b b i 钟魄0盯”博0篇。 大津大学碰士学恃论文第三章肤色模掣 给出该模型的结粜公式 ( x - 一e c x ) 2 + 业善生。:】 盎。s i n e 刚 f c c 6一-习cx 公式( 3 - 3 ) 其中,“= 1 0 93 8 ,c y = i5 20 2 ,口= 2 5 3 ( 弧度) , e c x = l6 0 ,e c y 22 4 i 口= 2 53 9 b = 1 40 3 参数椭圆模型中的肤色点落在图3 2 中标记的绿色椭圆内 3 3 人脸区域分割 c 圈3 - 2 参数椭卿模型 注:引自参考文献 2 1 ,绿色标记的椭圆内的点 为参数椭圆模型的肤色k 间) 人脸区域分割的总体流程如图3 - 3 所示,下瑚并小节将对各主要处理模块的 处理过程给出解释。 三jk o ,曼- 是 叵塑 = = = j 厂 。一? 飞 ;o i二 恤图像 叵蛰 天津大学硕士学位论文 第三章肤色模型 3 - 3 1 肤色分割器 肤色分割器输入为r g b 空间的彩色图像( 设为g l l c b ) ,输出为灰度图象( 设为 g 哪,) ,和肤色分割的二值图像( 设为g b i ) ,具体工作过程如下: 对输入彩色图像,进行自上而下,自左向右的扫描,对每个像素g r g b ( t 力 作如下处理: ( 1 ) 由公式( 3 1 ) , g g r a y ( t 力= 0 2 9 9 g r 6 b ( t 力r + 0 5 8 7 木g r 6 b ( t 力g + 0 1 1 4 :i :g r g b ( , 力b : c b = 一0 1 6 8 7 * g r o b ( t 力r 一0 3 3 1 3 * g r g e ( t 力g + 0 5 木g r 6 b ( t 力b + 1 2 8 ; c r = 0 5 * g r o b ( t 力r 一0 4 1 8 7 * g r o b ( 力g 一0 0 8 1 3 g _ l i g b ( l 力b + 1 2 8 ; ( 2 ) 将c b ,c r 代入公式( 3 3 ) ,求出x ,y ,令 g b tc t 力2 丢粪夜了满足公式( 3 _ 2 ) 3 3 2 二值图像差分器 在我们的应用系统中背景固定,二值图像差分器的作用是将当前图像的肤色 分割二值图像与背景肤色分割二值图像相比较,保留仅在当前图像中出现的肤色 点。当然,如果背景中的肤色点与当前图像中人脸肤色区域的位置重合会导致人 脸肤色区域被腐蚀,但是我们在第一章的使用约束中已要求避免选择包含大面积 近肤色区域的背景,因而,只要背景合适就不会导致人脸大面积缺失,影响人脸 检测过程。由图3 - 3 ( e ) 可以看出,这一处理的主要作用是去除背景伪肤色区域的 干扰。 设背景肤色分割二值图像为g b 。k g o u n d ,当前图像肤色分割二值图像为 g f 。嘲。u n d ,输出图像为g b i f a c 。,对输入图像上每一点,二值图像差分器的运算过 程为: g b i f a c 。( 力= g f 。r 。g o u n d ( l 力g b a 。k g o u n d ( t 力 ( 代表逻辑与运算, 代表逻辑非运算) 3 3 3 图像预处理 对图像进行预处理的目的是为了减少干扰点,突出目标区域。我们对上小节 差分后的二值图像做中值滤波除噪和形态学膨胀的预处理。 天津大学硕士学位论文第三章肤色模犁 中值滤波除噪运算过程是:按自上而下,自左而右的顺序扫描图像,对图像 中的每一点,考察它的3 3 邻域,如果值为0 的点的数目小于5 ,将该点数值 记为1 ,否则,将该点数值记为0 。 形态学膨胀运算的定义为:设有两幅图像b 、x ,若将b 平移到某点,b 和x 相交,则记下该点,所有满足这一条件的点组成的集合称x 被b 膨胀的结果。b 称为结构元素。我们采用如图3 - 4 膨胀结构元素,对差分后的二值图像,针对图 像中白色点作膨胀运算。图3 - 3 ( f ) 为图3 - 3 ( e ) 经过预处理后的结果。 3 3 4 人脸矩形区域分割 由于我们处理的是单个人脸图像,对于经过肤色分割和预处理的二值图像应 该类似图3 - 3 ( f ) ,我们采用对二值图像积分投影的方法来计算肤色区域的最小 外接矩形。设肤色分割后的二值图像大小为m x n ,各点像素值为f ( x ,y ) ,外接矩 形的计算过程如图3 5 所示,算法如下: ( 1 ) 计算水平投影( 如图3 - 5 ( b ) 所示) ,设投影函数为p y ( i ) : m - ! p y ( i ) = :f ( x ,i ) i _ o ,l ,n 1 i - o 计算函数p y 的最大值m a x p y ,m a x p y = m a x p y ( i ) ii _ 0 ,l , n - 1 ) ( 2 ) 计算垂直投影( 如图3 - 5 ( c ) 所示) ,设投影函数为p x ( i ) : n - i p x ( i ) = ef ( i ,y ) i = o ,l ,m - 1 y 。o ( 3 ) 求函数p x 在各( i ,i + m a x p y 1 ) 区间上的积分,积分结果记于函数s x , i + m a x p y i s x ( i ) = p x ( i ) i _ o ,1 ,m - m a x p y i i 从0 到m m a x p y ,计算函数s x ( i ) 最大值点的坐标,以该坐标作为人脸 外接矩形的左边界l e f t ,以l e t i + m a x p y 1 作为人脸外接矩形的右边界 r i g h t 。 考虑到干扰点的影响,以m a x p y 作为脸外接矩形宽度往往偏大,因 此,我们对左右边界做一次修订,修订方法如下: 设定一个门限值b o u n d ( 在我们的系统中,该门限值取8 ) , 天津大学硕士学位论文 第三章肤色模型 对左边界,i 从l e f t 到r i g h t 考察函数p x ( i ) ,当遇到第一个满足 ( p x ( 驴b o u n d ) & & ( p x ( i + 1 ) b o u n d ) & & ( p x ( i + 2 ) b o u n d ) & & ( p x ( i + 3 ) b o u n d ) 的i 时,记左边界l e f t 的值为i ; 对右边界,i 从r i g h t 到l e f t 考察函数p x ( i ) ,当遇到第一个满足 ( p ) 【( i ) b o u n d ) & & ( p x ( i 1 ) b o u n d ) & & ( p x ( i - 2 ) b o u n d ) & & ( p x ( i - 3 ) b o t m d ) 的i 时,记右边界f i g h t 的值为i ; 通常,干扰点分布离散,不会集中在某一列出现,因而这样的修订 方法可以提高左右边界定位的准确度( 左右边界的标记如图3 - 5 ( d ) 所示) 。 ( 4 ) 计算l e t t 到f i g h t 区间内的水平投影p y l r ( 如图3 - 5 ( e ) 所示) , r i g h t p y l r ( i ) = y :f ( x ,i ) i _ o ,l ,n l x = l e f t ( 5 ) 根据人脸形态学比例,通常人脸长宽比小于1 4 :1 ,在第一章的使用约束 中我们己提过,我们的系统可以处理深度旋转不超过1 5 0 的多姿态人脸图 像,因此人脸外接矩形的长宽比也应小于1 4 :1 ,我们取h e i g h t = 1 4 * ( d g h t 1 e f t ) 作为外接矩形高度的粗估计。 ( 6 ) 求函数p y l r 在各( i ,i + h e i g h t 一1 ) 区间上的积分,积分结果记于函数s y , i + 鬯蛩卜1 s y ( i ) = p y l r ( i ) i = o ,l ,n h e i g h t i i 从0 到n h e i g h t 计算函数s y 最大值点的坐标,以该坐标作为人脸外接 矩形的上边界t o p ,以t o p + h e i g h t - l 作为人脸外接矩形的下边界b o t t o m 。 由于我们粗估计的矩形高度h e i g h t 偏大,故与定位左右边界一样, 我们对上下边界做一次修订: 对上边界,i 从t o p 到b o t t o m 考察函数p y l r ( i ) ,当遇到第一个满足: ( p y l r ( i ) b o u n d ) & & ( p y l r ( i + 1 ) b o u n d ) & ( p y t r ( i + 2 ) b o u n d ) & & (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论