




已阅读5页,还剩56页未读, 继续免费阅读
(信号与信息处理专业论文)基于lpm特征与级联svr的视线跟踪系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 多媒体人机交互技术是多媒体技术和人机交互技术的结合,其主要内容是信息表示 的多样化和如何通过多种输入输出设备与计算机进行交互。它包括基于视线跟踪、语音 识别、手势输入等各种新的交互技术。而视线跟踪与视线输入作为这个领域中新兴的技 术,成为近年来人机交互领域中倍受关注的前沿方向。围绕着视线跟踪与视线输入这个 主题,本文主要探讨了人眼视觉跟踪理论与基于视线输入的人机系统等相关问题。 首先,本文简要论述了人机交互技术和计算机视觉理论的发展历程,并扼要介绍视 线跟踪技术的现有基本原理和方法,总结其研究现状和进展。同时介绍本文的研究背景 和研究内容。 其次,不同于主动红外源照射下基于角膜反射一瞳孔中心( p c c r ) 的理论,提出 了一种基于人眼“特征 的视线跟踪系统。具体来说是将眼睛的空间坐标与眼睛图像的 l p m 特征相结合作为视线判别的特征,通过级联支持向量回归的算法( 级联s v r ) 预 测视线方向与屏幕坐标的映射关系,实现了人在与计算机进行交互过程中头部自然运动 情况下的视线跟踪。 用眼睛图像凹m 特征来表示眼睛视线的信息,是对经典的基于红外线眼睛图像的 瞳孔中心反射点向量方法的一种改进。传统的瞳孔中心反射点向量的算法,在计算瞳孔 中心时通常需要边缘形状检测,然后确定中心位置,由于瞳孔的形状随着眼睛运动会产 生变化,而且瞳孔的边缘经常会出现模糊现象影响瞳孔中心的检测结果,同时反射点过 大也会使检测的反射点位置发生偏移,所以在计算瞳孔中心反射点向量时经常会出现误 差,影响实验效果。利用i j p m 特征不仅能够表现瞳孔中心反射点向量所代表的方向信 息,而且还能体现视线方向变化时眼睛的纹理变化。经过大量的实验表明,本文使用的 跟踪方法与经典的跟踪算法相比有明显的改善,视线跟踪达到了很好的效果。 关键词:l p m 特征;级联s v r ;视线跟踪 眼睛检测与视线跟踪 g a z et r a c k i n gs y s t e mb a s e do nl p mf e a t u r ea n de n s e m b l es v r a b s t r a c t m u l t i m e d i ah u m a nc o m p u t e ri n t e r a c t i o ni sak i n d o fi n t e g r a t i o n t e c h n o l o g yo f m u l t i m e d i aa n dh u m a nc o m p u t e ri n t e r a c t i o n ,i ti sm a j o r i n gi nv a r i e t i e so fe x p r e s s i n g i n f o r m a t i o na n dh o wt oi n t e r a c tw i t hc o m p u t e rb yw a y sw h i c hc o n n e c tw i t hm u l t i p l ei n p u t a n do u t p u tf a c i l i t i e s a sar i s i n gt e c h n i q u e ,e y et r a c k i n ga n d g a z ei n p u th a v ea l r e a d yb e c o m e a f o c u si nt h ef i e l do fh u m a nc o m p u t e ri n t e r a c t i o nl a t e l y a n di nt h i sp a p e rw ea l s ow i l ld o r e s e a r c hi nh u m a ne y et r a c k i n gt h e o r i e sa n dh u m a nc o m p u t e ri n t e r a c t i o ns y s t e m sb a s e do n g a z ei n p u ta n ds o m er e l a t e dt a s k s f i r s t , w eb e g i nw i t ht h ec u r r e n td e v e l o p m e n to fh u m a nc o m p u t e ri n t e r a c t i o nt e c h n o l o g y a n dc o m p u t e rv i s i o nt h e o r i e s ,a n dt h eb a s i cp r i n c i p l e sa n dm e t h o d so fe y et r a c k i n gt e c h n o l o g y a r ea l s od i s c u s s e di nb r i e f w h i l ec o n c l u d i n gt h ed e v e l o p m e n ta n dr e s e a r c ho ft h e ma tt h e t i m e ,t h er e s e a r c hb a c k g r o u n da n dc o n t e n to ft h i sp a p e ra r ee x p l a i n e da f t e rt h a t s e c o n d ,w i t ht h et h e o r ya n a l y s i so ft h ei n i t i a t i v ei n f r a r e dr a d i a t i o ns o u r c eb a s e do n c o r n e a lr e f l e x - p u p i lc e n t e r ( p c c r ) ,ag a z et r a c k i n gs y s t e mb a s e do nt h eh u m a ne y e c h a r a c t e r i s t i c s ”i sp r o p o s e d s p e c i f i c a l l y ,t h ec o m b i n e df e a t u r e so fs p a c ec o o r d i n a t e sa n dt h e l p ma r ef e di n t oak i n do fe n s e m b l es v r r e g r e s s o rt om a t c ht h eg a z em a p p i n gf u n c t i o n ,i n o r d e rt or e a l i z et h eh u m a na n dc o m p u t e ri n t e r a c t i o ni nt h ep r o c e s so fn a t u r a lh e a dm o v e m e n t i nc a s eo fg a z et r a c k i n g t h eg a z et r a c k i n ga l g o r i t h mo ft h i sp a p e rc o m b i n e st h es p a c ec o o r d i n a t e so ft h ee y ew i t h t h el p mc h a r a c t e r i s t i c so ft h ee y ea st h eg a z ed i r e c t i o nf e a t u r e s ,u s e st h ee n s e m b l es u p p o r t v e c t o rr e g r e s s i o na l g o r i t h mt op r e d i c tt h em a p p i n gf u n c t i o nb e t w e e nt h eg a z ed i r e c t i o na n d s c r e e nc o o r d i n a t e s t r a d i t i o n a li n f r a r e dg a z et r a c k i n gm e t h o du s u a l l yt a k e sp u p i l 一百i n tv e c t o r , b u tp u p i lf u z z yb o r d e r s ,s h a p ec h a n g e sa n do t h e rf a c t o r sm a k et h ep u p i lc e n t e rm i g r a t i o n ,a n d i na d d i t i o n ,t h er e f l e c t i o np o i n ts o m e t i m e sa p p e a r st ob et o ol a r g et h a to f f s e t st h ea c t u a l p o s i t i o n ,w h i c hc a u s e dt h ep u p i l 一百i n tv e c t o ri n a c c u r a t ea n da f f e c te x p e r i m e n t a lr e s u l t s u s i n g l p mf e a t u r e so fe y ei m a g e s ,n o to n l yt h et e x t u r ec h a n g e sw h e ng a z ed i r e c t i o nc h a n g ec a n r e p r e s e n t ,b u ta l s oi n c l u d e st h ep u p i l g l i n tv e c t o ri n f o r m a t i o n t h i sm e t h o dc a na v o i dt h e d i s a d v a n t a g eo ft h ec a l c u l a t i o no fp u p i l - g l i n tv e c t o r , a n dc a ne s t i m a t et h eg a z ed i r e c t i o nm o r e a c c u r a t e l y k e yw o r d s :l p mf e a t u r e ;e n s e m b l es v r ;g a z et r a c k i n g 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 茎雪生隘盗鱼鱼幽至兰塑生丝丝蕉丝丝盘丝塑墨 作者签名:至整日期:型!年j 生月乙日 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目:盔亘兰堑查丝鱼纽丝丛鱼垫丝:兰碰l :丝塑塾 作者签名:至= 塞 导师张斟 日期:垫墨年兰月二l 日 日期:丛呈年上月且日 大连理工大学硕士学位论文 绪论 。 人枧交亘技术概述 1 1 1 人机交置技术简介 人桃交互技术( h u m a n - c o m p u t e ri n t e r a c t i o nt 溉i q u e s ) 是关予涉及,评价和实现供 入镌使用的交互式计算撬系统,去围绕这些方面的主要现象进行研究酶科学。狭义酶讲, 人机交噩技术主要研究人与计算机之闻的信惠交换,主要包括人到计算机和计算机到人 的信息交换两部分。对于前者,人们可以借助键盘,鼠标,操纵杆,数据服装,眼动躐 踪器,位置跟踪器,数据手套,联力笔等设备,用孚,脚,声音,姿势或身体的动作, 视线甚至脑电波等商计算瓿传递信息;对予屠者,通过打印枫,绘图便,显示器,头盔 式显示器,音箱等输出或显示设备给人提供信息。它涉及计算机科学,心理学,认知科 学和社会学以及人类学等诸多学辩,是信息技术的一个重要组成部分,并将继续对信崽 技术的发展产生重大影响。 作为计算枧系统的一个重要组成部分,人撬交互一直随着计算枫的发展丽发展,也 是一个入机相互适应的过程,它主要经过了一下几个阶段: ( 1 ) 语畜命令交互阶段 计算枧语言经历了赉最裙麴梳器语言,汇编谱畜,直至嵩缀语言的发展过程,这也 是人机交互的早期发展过程。 最初的入枫交互方式是通过命令语言进行的,入机之间的交互方式是邋过手工操作 输入机器语言指令( 二迸铡码) 来实现魄,只有非常专业靛人士才能运耀自如,耗时易蹬 错。然后出现了f o r t r a n ,p a s c a l ,c o b o l 等语言,交互操作通过受过一定训练 的程序员即可完成,虽然仍需要记忆很多命令,但已可以用较方便的手段来调试程序, 控制计算机的运行。 鳓年代中鬟,命令行赛面( c o m m a n dl i n ei n t e r f a c e , a 国开始出瑷,遥过这静大概界 面,人们可以通过问答式对话,文本菜单或命令语言等方式进行人机交互。在这种界面 中,人被看作操作员,计算机只做出被动的反应。 ( 2 ) 墅形用户界蔼交互阶段和所见即所褥的直接操纵界面 图形用户界蕊产生了巨大的影响,第一次使一个外行也可以直接与计算机进行交 互,它包括四个要素,英文缩写为w m i p :帮窗目、菜单、图标和定位器。要控制的对 象在屏幕上有一个代表( 仿真表示) ,人用鼠标或键盘对它操作,即用动作代替了复杂的 语法,且可立帮看翻作焉斡效果( 反馈信意) ,因两称隽程直接揉缀雾蕊 。人橇交互的 眼睛检测与视线跟踪 自然性和效率都有较大的提高。 图形界面比文字直观,理解时不受囡界限制。“菜单选择大大减轻了记忆负担, 易学易用。直接操纵界面的另一特点是对话过程为异步的,也称为多线索对话或基于事 件的对话。用户在菜一时刻或状态下可使用多个处理任务。直接操纵赛面是人机交互技 术中的重大进步,是外行 易于与计算机对话的关键。 ( 3 ) 盘然和谐的人枫交互阶段 计算机技术的发展对人机交互技术的发展提供了条件,自然和谐人机交互方式得到 了发展。基于语音,手写体,姿势,表情等输入手段的多通道交互是其主要特点,暖的 是使入能以声音,动作,表情等自然方式迸行交互操作。在此阶段中,人们除了致力于 研究开发友好的逼真二维的用户界面和基于声音动作表情等多通道的自然方式,还发明 了大量的交互设备,如s u t h e d a n d 在1 9 6 8 年开发的头盔式立体显示器为纛拟现实奠定 了基础,1 9 8 2 年v p l 公司开发了第一副数据手套,用于简单手势的输入。 西前常用的自然交互方式语音和笔的交互技术,包括手写识别,笔试交互,语音 识别,语音合成,数字墨水等的研究发展已经有了很大的成果。而视线跟踪技术是以眼 睛作为一种指示装置的交互方法,通过判断实现的注视点来获得用户意图。由于本文所 研究内容属于视线跟踪范围,接下来对视线跟踪技术另作详细介绍。 1 1 2 视线跟踪技术简介 在入与计算机的交互中,视觉通常作为入接收信息的感觉通道。例如,当用户使用 鼠标来选择屏幕上感兴趣的目标时,视线随着注意点聚焦到该目标上。然后检查光标与 该冒标的空闻距离,荐反馈到大脑并经大脑指挥手击移动鼠标器。直至视觉判断光标已 位于目标之上,做出按键动作。如果计算机能“自动 将光标置于用户所感兴趣的目标 之上,就会省去述交互过程中的大部分步骤,从而把手解放出来。着想利耀视觉通道 向计算机输入信息,首先须了解用户在屏幕上所注视的区域、感兴趣的屏幕元素等。这 些信息可以通过视线跟踪技术获得。视线跟踪的因的是根据眼睛的特征和位置以及其他 一些脸部线索来决定用户注视的方向,获得用户的意图。 视线跟踪使用专用的照相机来自动跟踪眼睛的角膜,并连续记录光线的反射方向。 人眼酶注视点由头鲶方位和眼睛方位两个因素决定。头的定位决定入瑟琵注视的范围,焉 精确的注视方向则由眼睛的方位来决定,但受到头的方位的限制。 圜前将视线跟踪技术按其所借助的媒介分为以硬件为基础的和以软件为基础两种。 ( 1 ) 以硬件为基础的视线跟踪 以硬件为基础的视线跟踪的基本工作原理是利用图像处理技术,使用能锁定眼睛的 特殊摄像机,通过摄入从入的眼角膜和瞳孔反射的红外线连续地记录视线变化,从丽达 大连理工大学硕士学位论文 到记录分析视线跟踪过程的目的。视线跟踪装置有强迫式与非强迫式、穿戴式与非穿戴 式、接触式与非接触式之分。其精度从0 1 度至1 度或2 度不等。以硬件为基础的方法 需要用户戴上特制的头盔、特殊的隐形眼镜,或者使用头部固定支架、置于用户头顶的 摄像机等,对用户的干扰很大。另外由于设备价格不菲,不适于一般用户的使用。 ( 2 ) 以软件为基础的视线跟踪 近年来,人们为克服视线跟踪装置对人的干扰作用,提出了用软件实现的对用户无 干扰的视线跟踪方法。其基本工作原理是先利用摄像机获取人眼或脸部图像,然后用软 件实现图像中人脸和人眼的定位与跟踪,从而估算用户在屏幕上的注视位置。人的注视 方向可以用头的方位和眼睛的方位两种方式来表示。 以头的方位标示注视方向的前提是假设用户的眼球不发生转动或转动角度极小,观 察不同方位目标是通过头部转动来实现的。把计算人头方位的方法归结为两种。一种以 模型为基础。该方法需要定位一些脸部特征( 如眼睛、鼻孔、嘴角等) ,据此来计算头的 姿势。它要求摄像设备有较高的采样频率及高质量的图像,但在实际操作过程中,脸部 特征的定位和跟踪比较困难,有时跟踪会失败。以眼睛的方位代表注视方向则是一种由 人眼的图像来推测用户在计算机屏幕上注视点的方法,它把人眼图像输入跟踪系统,来 推断眼睛在计算机屏幕上的注视位置。该方法使用户几乎保持在固定的位置,而且头部 不能转动,需要特定光线,对用户仍存在一定的下扰作用。 以硬件为基础的视线跟踪技术与以软件为基础的视线跟踪技术相比,其精度可以达 到很高,但所应用的设备却限制了人的自由度。使用起来很不方便,对人的干扰很大 用户难以接受;相反,软件为基础的视线跟踪技术,对用户的限制大大降低,如用户的 头部可以移动,但其精度相对来说就低得多了。 1 2 眼睛检测与视线跟踪算法研究 对于基于软件的视线跟踪技术,眼睛位置的精确定位就显得格外重要了。其实眼睛 检测算法的研究从很早就开始了,已经有了比较成形的想法,而视线跟踪虽然刚刚起步, 但是由于它的应用前景很有吸引力,也有很多人开始在眼睛检测的基础上进一步研究视 线跟踪,并且取得了一定的成果,在研究者的共同努力下,正朝着更好的方向发展。下 面简单介绍一下视线跟踪的一些算法。 1 2 1 视线跟踪技术的研究 ( 1 ) 霍夫变换法【1 】 视线的方向定义为眼球中心与瞳孔中心连线的方向。霍夫变换法首先是要检测出虹 膜的位置,确定虹膜的半径和圆心,然后根据一些几何模型,利用虹膜圆心的运动特点 翼葵睛检测与视线跟踪 墩及虹膜半径的关系与眼球的关系确定视线方向。 眼球的结构如图1 1 所示,其整体怒一个半径为天的球形。虹膜在眼球的前部,半 径为,眼球中心到虹膜中心的距离为么有置2 一r 2 + 露2 。在实际的人眼模型中,眼球的 蔻肖关系是有一定藏律静,在实验孛可数认为虹膜半径与限球酶球半径的髓:倒是霉定不 变的,这样当检测到虹膜的半径,_ 时就可以确定相应的眼球半径冀,同时可以确定眼球 孛心与图像上的虹膜中心闻鳇距离d 。 幽于与巩膜的强烈反差,虹膜在眼睛部位中显得最为突出。一般来说,虹膜可以被 当作隧周进行检测,即使由于投影效果的存在,眼睛在转动时所拍摄到的虹膜有时呈现 出来的不完全是一个圆。虹膜的垂直边缘可以很容易的从鼹睛图像中抽取出来。但是, 对于小尺寸的面部图像丽言,虹膜的垂直边缘像素太少,而且还存在着大量的干扰噪声, 这就给掇合工撵增大了难度。基于大量熬图像观察可殴发瑗,无论巍照如褥,在上鼹陵 的下面总存在着阴影,这就使得上眼睑的边缘显得十分明显。由于虹膜部分被上下眼睑 遮挡,上眼睑的边缘像素要饔曼多于虹膜的边缘像素,所以遴行主限睑斡检测更为容易。 可以先检测出上眼睑,然后根据上眼睑与虹膜的相对位置剔除掉部分非虹膜的边缘像 素,| | 麸使褥虹膜的检测更加准确。另外,籍畏睛的感外角点都位于上眼睑的圆弧上,那么 沿着上眼睑商两边匹配内外角点,就可| | ;毳有效的减少搜索区域并增加匹配精度。相对丽 言,下眼睑的边缘就显得不是很明显,而且在精确匹配出内外角点之后,下眼睑的检测 就不是那么重要了。因此,可以放弃检测下眼验,重点检测上鼗黢,捡溅到上眼睑螽, 根据眼睛的结构可以找到属于虹膜的边缘像素点集,此时根据获得的点集,利用霍失变 换裁可以确定盎虹膜的中心。 蔓 虹膜 图1 1 眼睛模型 魄,1 1e y em o d e l 褫线跟踪建立在虹膜检溅的基础上进行的。首先,让眼睛注视羼幕鳇中心点,记录 此时虹膜中心位匿以及屏幕的坐标,在以后的实验中保持头部的姿势不变。当眼睛发生 运动时,虹膜中心相对予初始位置产生一个旋转焦,估计出这个旋转角就是现在视线的 大连理工大学硕士学位论文 方向。设初始虹膜中心的位置与运动后中心位置所形成的向量为以,眼睛水平方向与垂 直方向相对于初始位置运动产生的旋转角分别为口、卢,则这种算法视线跟踪的模型可 以简单的如图1 2 所示。 视线方匈 图1 2 视线模型 f i g 1 2 g a z em o d e l 这样就可以简单的根据下面公式计算出水平旋转角口和垂直旋转角声,得到视线的 运动方向。其中r e f g ) 和h 1 1 市暑) 分别为;。的实部与虚部。 t a n 口r e ( v g ) d 伽芦一半 ( 1 1 ) ( 1 2 ) 这种算法十分简单,但是精度不高,由于虹膜的边界模糊或者边缘检测算法精度不 高,使得在进行霍夫变换时不能准确的找到虹膜半径与中心点位置,而且角度不同虹膜 的形状可能是圆形或者是椭圆形,形状的变化也同样影响精度。虹膜半径与眼球半径的 比例本身就是一个范围,选用一个经验值一定会影响判别结果,所以算法本身就存在精 度上的问题。 ( 2 ) 基于表面特征的方法 表面特征是将图像看作高维空间的点,一副2 0 x 2 0 的图像,就可以看作是4 0 0 维空 间上的点。随着眼睛的运动,眼睛图像在高维的空间上呈现出连续性特点,可以形成一 个表象流型,如果能够找到这个连续的流型,当测试样本进入时,就可以找到相应的匹 曩翼晴检测与视线跟踪 配点了。虽然在理论上表象流型有连续性的特点,可实际中我们缀难获得这个连续的流 型,即使在大数量的样本也只麓无限逼近,而且大数量的样本来源比较困难瓶且还会影 响速度,所以通常都是用一定数量的样本,通过线性或样条插值的方法逼近表象流型。 t a n 2 l 幕j m 线性插值的方法,在给定初始标定样本的翦提下,首先找到与测试样本邻 近的几个样本点,并且找到一些权重作为插值的参数,然后根据权激值和邻域样本估测 出溅试样本所在位置。 在采集图像时,在屏幕上随机生成点,眼睛注视到这点时记录下屏幕的坐标,采 集此时眼睛的豳像。经过多次采集就可以褥到一系列对应着屏幕上一个点的眼睛鬻像 组,在实验时繇t a n 等将采集的2 5 2 幅图像分成2 5 1 幅和l 幅两组,郎留下一幅霉像作 为测试,找到2 5 1 幅图像中与之相近的几幅作为邻域图像进行线性插值,得到这幅图像 的最佳估诗位置,然嚣映射到屏幕上,这样就获褥了视线方商戆估计篷。这耱算法耩度 比较好,而且可以允许头部小范围运动,为基于表面的视线跟踪算法开辟了道路,但是 计算量较高。 ( 3 ) 基于多类分类器的方法 3 l 这种方法十分的简单,采用一个多类分类器就可以完成。算法的基本思想是,将眼 靖的注视方商翔结为十类,上、下、左、右、左上、右上、左下、右下、中闻和阙眼状 态。采集这十类眼睛的样本,利用p c a 等方法将得到的图片向量降维,训练出十类分 类器。溅试时,通过摄像头采集图像先进行天脸检测然矗是眼薅检测,将检测到的眼睛 归一化到样本的尺寸,同样方法降维后送入到训练好的多类分类器中,输出属于哪类就 认为眼睛裁注视着哪个方向。 ( 4 ) 基于红外光源的方法 m i c h i om i y a k a w a 等【4 l 利用红外光源检测出角膜的睦率中心,褥根据头部的三维坐 标褥到视线麓三维焦点,d o n gh y u ny o o 等臻了5 个红静光源和令摄像枕。基予缝 外线的视线跟踪方法多种多样,需要红外光源与摄像机的数量也各商不同,这种方法是 视线跟踪算法的研究热点。 一种常用的基于红外光源的视线跟踪算法,是利用瞳孔中心反射点向擞 7 - 1 蚣】来 进行预测,在头部位置隧定不变的情况下,由予摄像头与缝外光源的位置都是匿定的, 所以可以认为筑外线在虹膜上的反射点位置是不变的,瞳孔中心位鬣的变化就可以表现 出视线方向的变化,文献【9 - 1 0 , 2 5 】在此基础上提出3 d 眼睛的概念,在定程度上提高了视 线跟踪的精度。红癸线照射时眼睛兹特点及红井眼睛圈豫瞳藐中心反射点蠢量酶算法将 在后面作详细的介绍。 大连理工大学硕士学位论文 1 3 本文的主要研究工作及创新点 在本课题的研究中,通过查阅文献对眼睛检测与视线跟踪的方法做了研究,做了许 多实验。本文的主要的研究工作总结为以下几点: ( 1 ) 通过大量的实验,设计了一些适合眼睛检测的矩形特征,丰富了p a u lv i o l a 1 1 。1 2 1 的矩形特征。 ( 2 ) 对两个同等规格的摄像头进行照相机标定,算出外参数形成立体视觉,从而在 已知眼睛在不同图像平面的二维坐标的前提下,算出其在空间中相对照相机的三维坐 标,目的是为在跟踪过程中头部小范围转动情况下进行补偿。 该算法计算复杂度低,精度高,可以准确的测量出摄像机的参数,克服了传统方法 摄像机标定计算复杂代价高等缺点,而且已有封装好的工具箱,所以调用起来比较方便。 ( 3 ) 提出了l p m 复数特征用来代替瞳孔中心反射点向量。该特征是由改进的p p b t f 特征作为复数特征的实数部分,l b p 特征作为其虚数部分;同时扩展了支持向量拟合 ( s v r ) ,原始的算法算出的支持向量为实数,而扩展的算法得到的支持向量在复数域。 实验效果显示,l p m 特征与扩展的支持向量拟合可以使视线跟踪精度大大提高。 ( 4 ) 提出了级联支持向量拟合的概念,该算法利用类似于b o o s t i n g 的思想,把多个 支持向量结合起来形成一个最终的拟合器。该算法在计算时间复杂度略微提高的前提 下,提高了视线跟踪的精度。 本文是根据瞳孔中心反射点向量进行视线跟踪算法原理与思想,对经典算法进行了 改进与优化,实现了一种新的允许头部自然运动的视线跟踪算法,将眼睛空间坐标与眼 睛 m 特征相结合,利用级联支持向量回归( 级联s v r ) 预测视线的方向,不但考虑了 眼睛的方向信息,也考虑了其局部的纹理信息。眼睛的空间坐标的引入,使得视线跟踪 的特征中包含了人在正常使用计算机时头部发生的运动信息,克服了经典算法中头部固 定的限制。传统的红外视线跟踪方法通常需要计算瞳孔中心反射点向量,虽然很多人提 出各种方法尽量准确的计算这个向量,但是由于瞳孔边界模糊,形状变化等因素使得瞳 孔中心检测偏移,此外,反射点过大也会引起反射点位置的偏移,这就造成瞳孔中心反 射点向量不准确,从而影响实验效果。采用眼睛图像的l p m 特征不仅可以体现视线方 向不同时眼睛的纹理变化,而且包含了瞳孔中心反射点向量的变化信息( a p 方向信息) , 避免计算瞳孔中心反射点向量所带来的误差。l p m 特征与眼睛空间坐标相结合,可以 在头部发生自然运动的情况下准确的估计出视线的方向。 受睛检测与视线跟踪 2 基于积分图像与a d a b o o s t 的检测算法俞绍 p a u lv i o h 提出的蒸于矩形特征的人脸检测算法,实现了人脸检测的快速化问题。 剩甩矩形特征来搓述入脸特征算法思路筒单有效,瘸爵积分霉像计算矩形特征,大大提 高了矩形特征的计算速度,降低了运算量。 在进行分类时,p a u lv i o l a 采震a d a b o o s t i 玲l 算法诩练人脸分类器,鱼子矩形特征熊 数量过于庞大,所以单纯的a d a b o o s t 分类器需要大量的特征才能将人脸正确分类,这 样十分影响速度,面且利用数爨庞大的特征蛰l l 练分类器浪费资源和时闯,所以训练时可 以采用先用a d a b o o s t 进行预挑选,将a d a b o o s t 作为一种特征筛选的算法,从数蟊庞大 的矩形特征中找出一部分容易将人脸区分开的特征,将这部分特征作为基本的矩形特征 进一步渊练分类器。褥礁酶预挑选特征虽然笺够反映出入验的特点,僵是数秘还是麓:较 多,而且预挑选阶段并没有训练出成型的分类器,所以要进一步训练。v i o l a 利用 a 蠡b o o s t 算法训练分类器,并提察了层叠分类器的思想。a d a b o o s t 层叠分类器算法可以 达到快速检测的目的,层叠分类器的基本思想是,前几层训练出一些简单分类器,经过 这些篱单的分类器后可以排除了一半以上的非人脸窗口,减轻了后面凡层复杂分类器舱 负担,较为复杂豹分类器只会针对那些更“像弦入脸的区域迸一步的判断。 在进行人脸检测过程中需要对图像进行全面的扫描,传统的人脸检测扫描策略是对 待检测图像进行缩放,然后按照不变的检渊窗霹进行检测。其缺点是舞果待检灏图像鲶 尺寸较大,缩小图像的燮换将花去大量时间,降低了检测速度。由于采用了矩形特征来 表示入脸,裁可以很好的解决图像尺度交纯影响速度的润题,嚣力矩形特征是一些简单 的表面特征,图像发生尺度变化后,矩形特征可以认为只是简单的乘以一个系数,这样 就可以改进人脸的扫描策略。新的扫描过摆不需要对待检测图像进行任何缩放操作,为 了检测出不同尺寸大小的入脸窗穰,只需对检溺窗嗣按院侧进行藏大,将矩形特征糨应 的放大到大检测窗口的范围上。因为不苒对待检测图像缩小,所以节省了检测时间。并 旦检测窗曩的扩大并不影睫检测速度,这是因为矩形特征瞧快速计算方法使褥饪 亳大小 的矩形窗口都可以在同样的时间内计算得到。这种新的扫描策略弥补传统扫描的缺点, 是图像扫描方法的一大改革。 v i o l a 盼方法在保留统计学习方法所具有的鲁棒性的情况下使入脸检测的速度大大 提高,弓l 起这一领域的广泛关注。将这种方法扩展到其它腿标的检测当中,为目标检测 算法提供了可靠酶算法支持帮实时牲保涯。这里将矩形特征的算法扩展到鼹靖检测当 中,找出一些适合于眼睛的矩形特征,进行眼睛检测,利用眼睛检测的结果做更进一步 的应用。下霭将首先讨论一下矩形特征进行量标检测酶原理与方法,具体讨论久脸检测 大连理工大学硕士学位论文 中的基本矩形特征和积分图像的方法,以及a d a b o o s t 算法,a d a b o o s t 层叠分类器的原 理与算法。 2 1矩形特征和积分图像 2 1 1 矩形特征 图像的矩形特征是图像的一种特征空间,在训练分类器时,利用图像的特征空间而 不是直接的像素灰度分布往往会取得更好的分类效果。因为特征空间会在一个更高维的 空间内更好的描述图像的本质,而这是显式的图像本身很难具备的。这里使用的是类 h a a r 特征,也被称为矩形特征,可以很好的表现目标的特性,在人脸检测方面,v i o l a 提出了三种类型的矩形特征,将这三种矩形特征作为最基本的特征用于检测当中,取得 了令人鼓舞的效果,如图2 1 所示。 其中a 和b 被称为二矩形特征,因为他们都是由两个矩形构成的。c 是三矩形特 征,而d 是四矩形特征。每一类矩形特征的计算方法就是用图示中黑色矩形内的像素值 之和减去白色矩形内的像素值之和得到的。 a c 图2 1 三种类型的矩形特征 f i g 2 1 t h r e et y p e so fh a a r - l i k ef c a t u r e s b d 矩形特征的算法十分简单,可是这样简单特征背后隐含着一个巨大的难点,会给我 们的分类器训练过程带来很大的困难,那就是矩形特征的数量十分的庞大,下面简单讨 论一下矩形特征数量。如果矩形特征原型( 即最小的矩形特征) 的宽为w ,高为h ,图像 的宽为职高为h 。定义 x 一【w w ,y - 【h h 】 ( 2 1 ) l 燹睛检测与视线跟踪 并且规定矩形特征在不阂尺度下保持一定酶宽搿比,那么可以由如下的公式计算出矩形 特征的个数: x。y。w+1一礴半职1一hyh 半 )x 。f w + 一礴当。缳一攀( 2 。2 ) 如在一幄2 4 * 2 4 的图像中,矩形特征原型的宽为2 ,糍失1 ,保持这样宽高比的a 型矩形特征藏有 1 2 枣2 4 事( 2 4 小2 竿) 奉( 2 4 小l 掣 。4 3 2 0 0 一二 个。其它特征的计算可以由同样的方法得到,特征的种类越多,累积的图像特征越多, v i o l a 使属的矩形特征可以达到1 6 0 , 0 0 0 以主,数露庞大的特征必须要找到一种简单的计 算方式才能在实际中使用,否则算法就会因为庞大的计算量而失去生命力。矩形特征照 然数匿庞大,可是由于积分图像思路的引用使褥计算变褥容易起来,下瑟将简单套绍一 下积分图像的思想。 2 。1 2 积分图像 如前面所述,因为矩形特征的数量是非常可观的,如果直接计算无疑是很浪费时间 和空闻的,甚至是超出运算量的。将图像表示成积分图像,这个概念的引入成功的解决 了这个难题。 图2 2 积分图像示意图 f i g 2 2i n t e g r a li m a g e 如图2 2 所示,像素 力点的积分图像定义为该点左上方矩形区域内所有像素点的 和,郄 i i ( x ,y ) - 。i ( x ,y ) ( 2 3 ) 善j 罐,y y 大连理工大学硕士学位论文 这里豇gy ) 指的是积分图像,f g ) ,) 是原图像。使用如下的迭代公式,在遍历一遍原 图像后可以得到原图像的积分图像。 s ( x ,) ,) 一s ( x ,y 一1 ) + f 0 ,y ) 豇o ,y ) 一i i ( z - z , y ) + s ( x ,y ) 这里s o ;y ) 是像素的行累加和,并且为了计算方便, s o ;一1 ) = 0 ,边缘处积分图像的值豇( - 1 ,) ,) = 0 。 ( 2 4 ) ( 2 5 ) 将图像边缘的累加和定义为 利用积分图像就可以快速的计算前面所说的矩形特征,如图2 3 ,矩形d 内的像素 和可以由四个参考矩形计算得到。位置1 的积分图像是矩形a 的像素和,位置2 的是 a + b ,位置3 的是a 斗c ,位置4 的是a - b + c + d 。所以d 的像素和可以由4 + 1 ( 2 + 3 ) 得 到。所以二矩形特征可以通过6 个参考矩形求得;三矩形特征可以通过8 个参考矩形求 得;四矩形特征可以通过9 个参考矩形求得。利用积分图像,就可以通过简单的加减运 算得到图像的矩形特征,省去了传统算法中重复计算的麻烦。 图2 3 利用积分图像快速计算矩形内像素和 f i g 2 3 t h es u mo ft h ep i x e l sw i t h i nr e c t a n g l ec a nb ec o m p u t e dq u i c k l yb yi n t e g r a li m a g e 2 2a d a b o o s t 层叠分类器算法 2 2 1 a d a b o o s t 算法简介 1 9 9 5 年,f r e u n d 和s c h a p i r e 提出了a d a b 0 0 s t 【1 3 】算法。a d a b o o s t 全称为a d a p t i v e b o o s t i n g ,作者取名叫作a d a b o o s t 是因为这个算法和以前的b o o s t i n g 算法都不同,它 根据弱学习的反馈适应性地调整假设的错误率,也就是说,a d a b o o s t 算法不需要任何 关于弱学习器性能的先验知识,加上它和原来b o o s t i n g 算法的效率一样,因此可以非 常容易地应用到实际问题中。a d a b o o s t 算法提出后在机器学习领域受到了极大的关注, 实验结果显示无论是应用于人造数据还是真实数据,a d a b o o s t 都能显著提高学习精度。 眼瞳检测与视线跟踪 a d a b o o s t 算法由多个弱分类器组合成一个强分类器。每个弱分类器的学习规则都十分简 单,每选出一个弱分类器后,重新对样本分配权值,上一个弱分类器分错的样本将被增 加权值,然后算法再选择下一个弱分类器。所有的弱分类器组合在一起形成一个强分类 器,遭过阈值来分类。这榉达到的强分类器,效暴优于饪柯一个弱分类器。 弱分类器通过对训练样本特征的学习,找到最好的分类阈值,使得错误分类的样本 数最少。一个弱分类器i - h i ( x ) ,由特征点参阕值鬈和标志不等式方向翦奇偶顷勇缓成: 岛叫嚣卜n b ( 2 磅 这里的x 是输入的训练样本特征。 a d a b o o s t 学习算法如下: 1 ) 输入样本瓴,咒) ,阮,虬) ,其中m - o ,1 ,分别代表负样本和正样本。 母对予麓一毽重分别视始纯毅重毪一,去,这垩掰是受样本静个数,是正样本 ”l , m 矗 的个数。 3 ) 依次计算t = 毛,t a ) 归一化权重墩_ 冉,这样咝就是概率分奄。 乞i 嗡 b ) 对于每一个特征j 训练弱分类器吩,其错误率为f ,一;燃i l ) 一般l ,与权 重有关。 c ) 选择最小错误率q 对应的分类器鸭。 鸯更掰粳重磁科- 箩,其孛霹2 壶翔巢蔫被分类茏确,鲻毫一o ;否 则嚷- 1 。 4 ) 最终的强分黼叫1 善帕凇墨q ,这脚1 0 9 丢。0 p t l其它 算法中共构造了t 个弱分类,最终的强分类器是这t 个弱分类器的加权线性组合, 瑟其权霪与训练错误率有直接的关系。 2 2 2a d a b o o s t 层叠分类器 a d a b o o s t 算法可以有效的从众多弱分类器中挑选塞最其有分类意义鲢缀合嚣成强 大连理工大学硕士学位论文 分类器,并且实验证明这个最终的强分类器具有很好的检测率。但是基于矩形特征的分 类算法数量庞大,需要较多的特征才能实现分类,而且分类器中,弱分类的数量过多反 而会使得分类器泛化的能力变弱,影响实验效果,所以就引入了层叠分类器的概念。层 叠分类器是由多个a d a b o o s t 强分类器组成,每一层分类器就是一个小型的a d a b o o s t 强 分类器,小型的分类器的要求是在第一层的时候分类的要求较低,随着层数的增加,分 类器的分类条件限制越强,即分类越逼近准确。前几层的较简单的分类器可以排除大部 分的非目标窗口,从而后面较复杂的分类器只要针对那些更难区分的子窗口进行运算, 就可以达到较低的误检率。由于难于区分的窗口需要用很多的特征才能进行分类,采用 层叠的方式可以一层一层逐步进行更细化的分类,使得复杂的分类器只注重细节分类, 忽略了粗分类的特征,这样使得检测速度相对的提高了。 图2 4 层叠分类器 f i g 2 4 t h ec a s c a d ec l a s s i f i e r 层叠分类器的检测过程类似于决策树,第一层分类器把判决出的目标结果送入第二 层分类器继续判决,接着第二层分类器再把判决出目标结果送入第三层,依此类推。任 何一层分类器判决出的非目标结果被直接排除,不再进行判决。所以当前层的强分类器 面对的都是相对于上一层来讲更难的分类任务,因为能通过前面所有层的样本相对于普 通样本来讲是更加难以区分的。层叠分类器的结构如图2 4 所示。 可以看出,只有通过层叠分类器所有层的子窗口才被认为是目标。简单的非目标窗 口在前面几层被就滤掉,越到后面的几层待检测的窗口越少,这使得后面的分类器可以 燹睛检测与视线跟踪 专注予复杂窗蹬的判别,减小了复杂分类器的负担,提高了检测精度与速度。层叠分类 器有着和强的分类能力,它的训练算法如下: 1 ) 确定每层分类器可以接受的最大误检率,和最小的检测率d ,和确定整个层叠 分类器最终要迭戮的误检率瓦喇。 2 ) 确定训练样本,其中p 代表所用的正样本训练集,代表负样本训练集。 3 ) 初始纯露一鼍织域i l l l l 0 ,令循环变量主一0 。 4 ) 砌沈露 兄喇 玉i _ - - i + 1 b ) n l o ;互一_ 1 c w h i l e 墨 f 霉蠢 _ 熄+ 1 在当前训练集璧,利媚a d a b o o s t 算法训练出一个包含连个特征数的分 类器。 计算当前层叠分类器达到的e 和皿,减小第i 层分类器的闽值直到当 前层叠分类器的检测率至少达到寤叠d 。当然此时也不可避免的影响 了最的取值。 毋将原负样本集清空,彀缲窝被分类错误魏嚣露标样本,并使用当蓠的屡 叠分类器检测不含有目标的图像,把误检的窗口增加到负样本集,形成新 的负样本集。 层叠分类器的每层强分类器都由a d a b o o s t 训练算法得到,每一层分类器结合起来 就可以达到快速准确的隧的。对于一个层叠分类瓣,它的误检率可以由下式计算出来: 墨 f m n 五 ( 2 7 ) 其中f 是层叠分类器的误检率,x 是层叠分类器的层数,五是第i 层强分类器达到 的误检率。类似的,层叠分类器的检测率由下式得如: 鬈 d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 业务标准化与质量管理
- 2025中国邮政储蓄银行威海市分行招聘4人考试备考试题及答案解析
- 2025至2030年中国报关行业市场发展现状及投资前景展望报告
- 2025浙江绍兴市疾控中心招聘编外人员1人笔试模拟试题及答案解析
- 书籍如明灯照亮前行之路
- 仪表工业智能化规划方案
- 网络推广新思路与方法
- 农业绿色发展总结
- 2025四川长虹空调有限公司招聘IE工程师等岗位3人笔试备考试题及答案解析
- 割席断交演练规定
- 《促织》原文及翻译赏析
- 倾听与问题讲义
- 设备可靠性管理简介
- 激光拉曼光谱
- 光刻技术简介
- GB/T 4291-1999冰晶石
- 合同诈骗控告书范本
- 机修车间岗位廉洁风险点及防范措施表
- 全新版尹定邦设计学概论1课件
- 牙及牙槽外科
- 转专业学生回原专业申请表(模板)
评论
0/150
提交评论