(计算机软件与理论专业论文)基于摄像头的手势交互系统的研究.pdf_第1页
(计算机软件与理论专业论文)基于摄像头的手势交互系统的研究.pdf_第2页
(计算机软件与理论专业论文)基于摄像头的手势交互系统的研究.pdf_第3页
(计算机软件与理论专业论文)基于摄像头的手势交互系统的研究.pdf_第4页
(计算机软件与理论专业论文)基于摄像头的手势交互系统的研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文摘 近年来,随着新的硬件和应用领域不断涌现,计算机与人类日常生活联系越来越紧密,而 人机交互方式仍然仅局限于键盘、鼠标及光笔等,这些交互方式虽然越来越熟悉,但它们限制 了人机交流的速度和自然性。因而,基于视觉的手势交互逐渐成为研究热点,在计算机游戏、 机器人控制和家用电器控制等方面具有广阔的应用前景。 本文对基于单个摄像头手指定位的交互方法进行了研究,涉及到手势图像的分割、手势特 征提取和手势识别等领域,本论文的研究主要包括以下几个方面: 1 、在手势分割阶段,研究了一种复杂背景下的手势图像预处理方法。本文通过连续手势图 像序列中的运动和肤色信息来进行分割。首先进行差影法处理,然后对分割后的图像,在肤色 聚类的特性下,利用r g b 空间模型进行粗分割,再用改进的h s v 空间模型进行细分割。实验结果 表明,这种方法简单,易于实现,分割效果较好,并可用于实时图像处理。 2 、在手势特征提取阶段,采用双边遍历二次扫描方法对图像平面中手指指尖定位问题进行 了研究。首先确定分割后手势所在的区域,通过计算手部图像的重心坐标和手势方向,使用双 边遍历二次扫描方法对分割后的手势图像进行扫描分析,进而得到了手指指尖坐标位置。实验 结果表明,这种方法不仅具有较高的定位精度,对强噪声背景下的抗干扰性也有较大改善。 趴建立了一个基于单个摄像头的手指触发人机交互系统。该系统利用摄像头进行图像采集, 通过手指在交互面板上的移动和点击完成自然、有效的人机交互操作。它根据指尖的位置和停 留时间为参数来判断指尖是否触发,可被用来实现虚拟鼠标的光标定位。 硕士研究生吕颖( 计算机软件与理论学) 指导教师方漪教授 关键词:手指触发交互;指尖定位;人机交互 a b s t r a c t i n t e r a c t i o nb e t w e e nh u m a na n dc o m p u t e ri sp l a y i n ga ni m p o r t a n tr o l ei no u rd a i l y l i f e e s p e c i a l l yi nr e c e n t t h eh u m a nc o m p u t e ri n t e r a c t i o nt o o l si sb e c o m i n gh o tw i t ht h e d e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , t h a tm a k eu su s et h en a t u r ei n p u tm e t h o di n s t e a do f m e c h a n i c a lm e t h o ds u c ha sv o i c ea n dg e s t u r er e c o g n i t i o ni sb e c o m i n gf o c u so fo u r r e s e a r c h t h i sp a p e rr e s e a r c h e so nh a n dc a p t u r et e c h n o l o g ya n dp r e s e n t sav i s i o n - b a s e d m e t h o df o rf i n g e r - t o u c hi n t e r a c t i o nw h i c hi n v o l v e sp a t t e r nr e c o g n i t i o n ,d i g i t a li m a g e p r o c e s s i n ga n dr e c o g n i t i o ns c i e n c e n er e s e a r c hp a p e ri n c l u d e st h ef o l l o w i n g s : f i r s t l y ,i nt h eh a n ds e g m e n tp a r t ,t h i sp a p e rp r o p o s e dam e t h o do fs e g m e n t a t i o n b a s e do nc o m p l i c a t e db a c k g r o u n di m a g e i nt h i sp a p e r ,t og e tb e t t e rr e s u l t s ,am u l t i p l e c u e s ( c o l o ra n dm o t i o ni n f o r m a t i o n ) f u s i o nt e c h n o l o g yi sa p p l i e dt os e g m e n t a t i o n p r o c e d u r e i nt h em o t i o na n a l y s i s ,b a c k g r o u n dd i f f e r e n c ei su s e d ;t h e nc o l o r - c l u s t e r i n gi s u s e dt ol o c a l i z eg e s t u r e s i nt h es e g m e n t e dg e s t u r ea r e a s ,w ee x t r a c ts k i n - c o l o ro b j e c t r e s p e c t i v e l yi nr g b s p a c ea n dh s v s p a c e w eu s er g bc o l o rs k i nm o d e la sr o u g h s e g m e n t a t i o na n dt h ei m p r o v e m e n to fh s vc o l o rm o d e l 嬲d e l i c a c ys e g m e n t a t i o n s e c o n d l y , i nt h ep a r to ff e a t u r ee x t r a c t i o np a r t ,an o v e la p p r o a c hb a s e do ns i d e t r a v e r s a lt w i c es c a n n i n g ( s t r s ) i su s e df o rf i n g e r t i pl o c a l i z a t i o n 胎f i r s t l yg e th a n d r e g i o no fu s e rt h r o u g hv i d e ot r a c k i n g s o m ep a r a m e t e r so ft h eb i n a r yi m a g e sa r e c a l c u l a t e df o rt h ec e n t e r sa n do r i e n t a t i o n so fh a n dr e g i o n ,a n dt h e nt h eb i n a r yi m a g e sa r e s c a n n e du s i n gs t r st oa c h i e v ef i n g e r t i pc o o r d i n a t e si ni m a g ep l a n e f r o me x p e r i m e n t s r e s u l t s ,t h es t i sc a na c h i e v eb e t t e rl o c a l i z a t i o np r e c i s i o no ff i n g e r t i p a p a r tf r o mt h i s , t h i sm e t h o dh a sb e t t e rc a p a b i l i t yo fa n t i - j a m m i n g t h i r d l v t h i sp a p e rp r o v i d e sav i s i o n b a s e ds y s t e mf o rf i n g e r - t o u c hi n t e r a c t i o nw h i c h a c h i e v e sn a t u r a li n t e r a c t i o n sb yf i n g e rm o v i n ga n dc l i c k i n go nr e c t a n g u l a rp a n e l n e d i c k i n ga c t i o n so nt h ep a n e la r ed e t e c t e dw i t ht h ef i n g e r sl o c a t i o na n di t ss t a yt i m e t h e s y s t e mc a l lb eu s e dt oa c h i e v ec u r s o rp o s i t i o n i n go fav i r t u a lm o u s e g r a d u a t es t u d e n t :y i n gl v ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e db yp r o f y if a n g k e y w o r d s :f i n g e rt o u c h i n g ;f i n g e r sl o c a t i o n ;h u m a n - c o m p u t e ri n t e r a c t i o n 声明 学位论文独创性声明 本人声明,所呈交的学位论文系本人在导师指导下独立完成的研究成果。文中 依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法律意义上 已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论文或成 果。 本人如违反上述声明,愿意承担由此引发的一切责任和后果。 论文作者签名:髟颍 学位论文知识产权权属声明 醐:7 年朋,o 日 本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属学校。 学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本人离校 后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为 青岛大学。 本学位论文属于: 保密口,在年解密后适用于本声明。 不保密日。 ( 请在以上方框内打“) 论文作者签名:髟牟豇 汗锣唼 导师签名:弓哟、 ( 本声明的版权归青岛大学所有, 日期。1 耵月,o 日 未经许可,任何单位及任何个人不得擅自使用) 日期:) 卅年r 月,日 4 7 第1 章引言 1 1 研究背景,目的和意义 第1 章引言 在上一次人机交互界面改革中,图形用户界面代替了命令行的方式,鼠标代替 了多数时候键盘的功能,人机交互技术( h u m a nc o m p u t e ri n t e r a c t i o n ) 已经从以 计算机为中心逐步转移到以人为中心,是多媒体、多模式的交互技术。人的交互意 图被自然的表示为一个多维信息矢量,如人与外界交互中使用手势,语音和眼神等, 它们并行地与外界进行交互。 计算机技术和硬件设备快速发展的今天,已由当初的仅有键盘输入到目前的鼠 标、遥杆、无线设备输入等等都大大的便利了人与计算机之间的交互,使得人们能 够更方便的操作计算机,从而能够快速的完成相应的任务。 w i m p ( w i n d o w s ,i c o n ,m e n u s ,p o i n td e v i c e s ) 在现代图形接口( g u l ) 占 有重要的位置,它代表一种交互方式,即通过点设备( 如鼠标等) 来选择相应菜单 或者屏幕上的某点。在大多数的应用当中,w i m p 都要求用户与物理设备有一定的 接触才能完成相应的输入。但是很快人们也发现了这种方式在某些特定场合上固有 的约束,如当显示设备不断扩大,而人们又想更好的与显示场景进行交互,那么 w i m p 就显示出了相应的弱点,所以我们需要寻找一种更好的交互方式来完成这些 任务。 近几年来,寻找一种更加自然的,以人为中心的交互方式的需求在不断的增加。 通过计算机视觉来实现人们可以识别的信息的提取已成为可能,比如现在应用的比 较多的头部跟踪、人脸表情识别、眼睛识别、手势识别等等。人们无需花费高昂的 设备来实现,通过视觉图像信息的提取,判别,即可得到相应的交互信息。而这些 仅需要廉价的摄像头,低端处理能力的p c i i p 可以实现。其中,手势交互技术是一项 重要的研究内容,由手指的形态来进行标记和识别的手势交互系统已经开始用于操 纵计算机。这种交互方式又将突破鼠标,这是交互方式日趋精巧丰富决定的。手势 的直观性和强大语义使得人机交互可以利用具有强大潜力的基于手势的界面,从而 彻底改变人机界面这个计算机的瓶颈。 但由于手势本身具有多样性、多义性以及时间和空间上的差异性等固有的特性, 加之人手是复杂变形体以及视觉本身的不确定性,使得无论在技术上还是在理论上, 基于视觉的手势交互技术的研究都是一项极富挑战性的多学科交叉研究课题。与此 同时,视觉图像处理也存在着一定问题,由于摄像头拍摄场景时,受到外部因素影 响比较多,比如光照、抖动等,因此在稳定性和准确率方面还有很大的提升空间。 青岛大学硕士学位论文 1 2 基于视觉手势交互的综述 1 2 1 视觉手势交互的现状 现阶段的h c i 研究中,主要有语音交互,手势交互、操纵杆和三维鼠标等。许 多学者在语音识别领域进行了大量的研究,并取得了许多研究成果。手势交互是继 语音识别之后又一个研究热点,在有些应用领域中通过手势的交互可以弥补语音交 互的不足。早在4 0 年代,心理学家q u e k 、p a v l o v i c 等人从人机接口的角度对手势进 行研究,将手势定义为在人的意识支配下,人手做出的各类动作,如手指伸展、弯 曲和手在空间的运动等,可以是执行某项任务,也可以是与人的交流,总之都是表 达某种含义或意图。手势按功能的分类如图【1 l : 手的运动、 有意识的羊运动( 手势) 无意识的手运动 一一、 执行任务( 如抓握锤子) 交萍毛势 表动作表符号( 手语) 引用手语( 表数字)情态手势 图1 1 手势功能分类图 目前,利用手部行为控制计算机的可视化人机交互方式主要有两种:一种是基 于手势的位置信息,即通过手指指尖的移动或点击来实现相应功能,达到代替鼠标 或触摸屏等计算机外部设备的目的;另一种是基于手势的姿态信息,即利用人手所 形成的各种各样复杂手势,对计算机发出不同的控制命令。迄今为止,这两种人机 交互技术都用很多研究成果发表。前一种主要有如下几个方面的应用:手指鼠标 1 2 3 一,手指书写r 7 ,8 1 或绘画系统 2 , 5 , 6 1 ,后一种主要应用在手势语言识别,例如汉语手 指字母识别【9 ,1 0 1 、中国手势语言( c s l 9 , 1 刁、美国手势语言( a s l ) 】等;对w i n d o w s 命令控制,如w w w 浏览器导航【2 ,1 3 1 、屏幕操纵控制【1 4 1 、游戏控制【6 】,p o w e r p o i n t 播放控制以及利用定义好的手势来对虚拟物体进行控制,如虚拟钢琴演奏l 等。 1 2 1 1 基于手势位置信息的交互应用现状 s t u r m a n 1 6 】等人使用数据手套来捕捉测量每个手指的位置,方向以及角度,并 以此来操作虚拟世界中的物体。他们使用三种方式来表示操作物体。第一种,当手 指进入场景握住物体并进行移动,这种与三维物体交互的方式是比较自然的。然而, 这种做法却存在着无法得到触觉反馈的缺陷。第二种,s t u r m a n 在三维坐标系中使 用了抽象的输入设备,即按钮、评价者、定位者。系统中手势的静止到运动表示为 按钮的触发动作,实验表明人们在弯曲手指的时候无法处理静态的手势,是由于很 2 第1 章引言 难获得两个手指的精确弯曲角度的区别。第三种方法是直接提取连续动作的信息。 s e g e n ”】描述了这样一个系统,系统使用两个快速摄像头( 6 0 f p s ) 来捕捉手势 的视频图像,根据获得图像分析建立手势识别的系统,来对虚拟物体进行控制和三 维导航。在他们的系统中,手在一张统一颜色的表格上移动,只利用三种手势来交 互,它们是点,点击,伸张。用户指向某些东西以及加上相应的手势来表示一种动 作,没有实际的接触。即使使用快速摄像头,s e g e n 注意到了模糊的移动使得图像 的分析更加困难。手势集的选择成为系统的颈瓶,因为模糊的图像使得手势命令变 的毫无效果。 h a l l 佣,k j e l d s e n l l 9 1 ,h a r d e n b e r g 2 0 ,t a k a o f 2 1 】等人的人动作中,通过投影仪 将图像投射到墙面或桌面,利用摄像头捕捉人手在投影平面上的运动和姿势,从而 实现了手指绘图或点击按钮等交互操作。其5 b h a r d e n b e r g 研究中,使用了比较慢的 图像更新索引来作图像的差分,从而来对变化的光照进行相应的反应。在他们的系 统中,手势可以替代鼠标,使用一个手指点击和一秒钟的停顿表示点击。 m a 凋等设计的v i s u a lt o u c h p a d 是一个双手的手势交互系统,它利用两个摄 像头跟踪手在设备表面移动完成与计算机的交互。而这个表面是黑色白边的矩形纸 板,它利用射影几何原理判断指尖点是否接触纸板表面,用来模拟鼠标点击的效果。 其中,黑色的背景使得图像分析更加简单,高度的估计可以用来对手势是否触及表 面来进行判断,系统在敏感度上做了比较高的要求,即手势高低相差1 c m 那么就会 表示有相关动作。 h y o s u nk i m 网等人研究的背投影设备交互系统,利用在手指上戴上特殊的材 料,在黑暗的条件下利用摄像头拍摄的图像,通过视觉分析得到手势信息,从而进 行交互。此系统虽然识别率比较高,因此能够起到不错的效果,但是却添加了额外 的条件和材料,所以也约束了此系统的应用范围。 a r g y r o s 【2 4 l 等人研究的手势交互系统,利用手势来模拟鼠标事件,通过标准的 w e bc a m 获取手势信息,通过一定视觉算法来加速识别过程,能够提高准确度和交 互性能,在此基础上也发展了双手的交互。通过两只手来表示不同命令信息来控制 相应的交互动作。 上面所列举的几种交互方式,都在一定范围内得到相应的应用,不过都有一些 特定的约束条件,比如在限定的背景上作识别,利用特定的材料来增强识别的性能。 由于s t u r m a n 等设计实现的人交互系统都是利用了数据手套设备,虽然利用数 据手套能够提高识别的准确率,但是也失去了手势交互自然性,并且数据手套设备 也比较昂贵。v i s u a lt o u c h p a d 系统将手势局限在黑色背景下面,使得它在识别手势 时减少了光照等因素的影响。同样h y o s u nk i m 等人利用特殊的材料来增强手势的识 别,虽然效果不错但是系统的信息动作表达比较少,手势命令集合有限。 3 青岛大学硕士学位论文 1 2 1 2 基于手势姿态信息的交互应用现状 美国佐治亚理工学院有一项用手势识别减少汽车事故的研究课题,该校的研究 小组开发了名为“手势面板的设备来取代汽车上通常使用的仪表板控制设备,司 机只需要在指定区域做出某个手势,即可调整车内的温度或音响的音量,而不需要 转移对路面的注意力;2 0 0 3 年1 2 月,美国密歇根州的c y b e r n e t 系统公司开发出 一套名为手势风暴的系统,是公司针对天气预报节目开发的,主持人可以通过简单 的手势来控制预报的进程;c h a r a d e 2 s 等人的系统中使用了数据手套来控制幻灯片 放映。他们表述了一组拥有1 6 个命令的手势集合。他们利用手势的松紧状态,为区 分手势序列提供了一种方法。在他们的系统中,可以让用户自由的做手势但是却不 会影响到幻灯片放映的命令。 在手语识别方面,具有代表性的研究成果包括:1 9 9 1 年富士通实验室完成了对 4 6 个手语符号的识别工作,j d a v i s 和m s h a h 将戴上指尖具有高亮标记的视觉手 套的手势作为系统的输入,可识别7 种手势;s t a r n e r 等在对美国手语中带有词性的 4 0 个词汇随机组成的短句子识别率达到9 9 2 ;k g r o b e l 和m a s s a m 从视频录像 中提取特征,采用h m m 技术识别2 6 2 个孤立词,正确率为9 1 3 ;此外,v o g l e r 与m e t a x a s 将两种方法结合用于美国手语识别,交互采用一个位置跟踪器及三个互 相垂直的摄像机作为手语输入设备,完成了5 3 个孤立词的识别,识别率为8 9 9 。 利用数据手套等典型传感设备的方法中,c m u 的c h r i s t o p h e rl e e 和x u 在1 9 9 5 年完成了一个操纵机器人的手势控制系统;m w k a d o u s 用p o w e r g i o v e s 作为手语 输入设备,识别由9 5 个孤立词构成的词汇集,正确率为8 0 。 在我国,哈尔滨工业大学的吴江琴、高文等将a n n h m m 混合方法应用于基于 数据手套的中国手语识别系统中,孤立词识别率为9 0 ,简单语句识别率为9 2 。 接着高文等又采用了d g m m ( d y n a m i cg a u s s i a nm i x t u r em o d e l ) 作为系统的识别 技术,可识别中国手语字典中2 7 4 个词条,识别率为9 8 2 。另外,清华大学的祝 远新、徐光祜等给出了一种基于视觉的动态孤立手势识别技术,借助于图像运动的 变阶参数模型和鲁棒回归分析,提出一种基于运动分割的图像运动估计方法,对1 2 种手势的识别率超过9 0 ;在进一步研究中,他们又给出了有关连续动态手势的识 别,融合手势运动信息和皮肤颜色信息进行复杂背景下的手势分割,通过结合手势 的时序信息、运动表现及形状表现,提出动态手势的时空表现模型,并提出基于颜 色、运动以及形状等多模式信息的分层融合策略抽取时空表观模型的参数,对1 2 种手势,平均识别率高达9 7 ; 台湾大学的u a n g 等人利用单个v p l 数据手套作为手语输入设备,可识别台湾 手语课本中的2 5 0 个基本词条,识别率为9 0 5 。 4 第1 章引言 1 2 2 视觉手势交互的特点 传统的人机交互方式在使用过程中确定性比较强,比如当按下键盘的按钮或者 点击鼠标的左右键,那么计算机都已将此关联到一定的系统事件,而此过程中一般 不会受到周边环境或者使用者变化的影响。并且,在传统的交互方式中,交互过程 没有更多的交流方式,整个形式都已经定义好,只要按照既定的规则执行相应的交 互动作。 基于视觉的手势交互方式表达的意思丰富,具有很高的信息量,比如人通过手 的不同手势、位置、方向等等可以组合出非常多信息,并且更加符合人们的思维方 式。而且手势交互可以与其他的交互方式共同组成一组信息,比如脸部动作、眼势 等等。当单独的通过手势无法判断用户的信息时,就要结合考虑人的语音,表情后 来一起判断得到一个确切的含义。然而,随着更多交互方式的融入,必然增加了在 识别过程中的难度,况且人的动作信息有时候不是非常的准确,或者说不是表达的 很到位,不像键盘或者鼠标事件那样非常的确定。因此,这也给在图像的处理识别 提出了更高的要求。比如有时人手在动的过程中并不是表示要和计算机进行交互, 有可能只是用户的一些无意识的行为,那么如何来区分这些无用的信息,就给视觉 交互处理带来了一定的挑战和困难。 总得说来,基于视觉的手势交互必须是自然的,尽量符合人们的思维过程,使 得我们在目前的情况下与特定的场景能够更好的交流。 1 2 3 视觉交互的体系结构 目前,基于视觉的手势交互系统很多都是根据特定的交互任务来设计自己的系 统结构,因为各自交互的任务不同以及应用环境不同,所以在实现和设计方面都有 差别,且都设定了自己相应的约束条件。但是,这些系统也有共同之处,很多文献 也有这方面的综述,描述了目前基于视觉手势交互系统的总体框架以及流程。 总结起来整个交互的共同流程如下: 图筇取预袒手鬻取 圆上匦圜圃上圆 息 图1 2 视觉交互流程图 首先通过摄像头拍摄手势图像视频流,接着从图像中根据特定的算法提取出手 5 青岛大学硕士学位论文 势的形状和特征点,以及位置信息,之后把这些信息进行相应分类和取舍,接着将 这些提取出的信息进行坐标或者动作命令映射得到一定的系统命令,然后根据系统 的功能需求驱动相应的系统动作。 总的来说,我们可以将此流程划分为四步:图像采集、预处理、识别、交互。 通常大多数的系统都遵循这四个步骤,以一个顺序的关系连接各个步骤,每个步骤 都为后一步服务。有些系统为了提高识别率或者准确度,会有一个反馈的过程,使 得系统不断的根据环境的变化来改变参数。比如在识别跟踪运动的手势的情形下, 一般会用n k a l m a n 滤波来不断的反馈,根据上一步来预测下一步,使得不需要检索 整副图像,从来提高跟踪的速度。 图像采集是指采集设备采集的最原始视频流的过程。为了能高效的识别出视频 的内容,需要对视频的数据进行一定的处理。在实验中,视频的输入为未压缩格式, 获取的每一帧手势图像是b m p 格式。图像预处理的目的是为了增强图像中目标和背 景图像的对比度,去除采集和传输图像时产生的噪声,加强图像中的有用信息,并 对输入方式或其他原因造成的退化现象进行复原,能得到符合要求的手势图像。手 势识别主要是确定手势所在区域,通过一定的算法来提取出明确的部位,比如手指, 或者手指的顶点部位。这样在某些系统中就可以识别出相对的坐标,来为后面的交 互提供基础。手势交互是在得到手势信息的前提下,通过已经建立起的映射模型来 建立相应的关系,并得到相应的系统命令,使得系统产生一定的反应,完成用户所 期望的动作。 其中,手势识别部分根据识别对象形态的差异可以将手势识别分为静态手势识 别和动态手势识别;根据手势图像采集方式的不同,可以将手势识别分为两种,基 于数据手套的方法和基于视觉的方法。根据手势识别方法又可分为几何特征识别法, 神经网络识别法以及隐马尔可夫模型h 删( h i d d e nm a r k o vm o d e l ) 识别方法。 1 2 4 手势识别的分类 1 2 4 1 根据识别对象分类 根据识别对象形态的差异可以将手势识别分为静态手势识别和动态手势识别。 1 静态手势识别 静态手势识别研究重点是手的姿态( p o s t u r e ) 和单个手形。这方面的工作国内 有:哈工大的李勇、高文网等提出的基于指尖染色和手指染色的颜色手套模型,可 以识别中国手指字母表3 0 个基本手形的静态手势识别系统、哈工大的张良国【2 6 1 等提 出基于h a u s d o r f f 距离的手势识别以及上海交通大学的刘江华f 2 7 】等用最小二乘支持 向量机( l s - 一s v m ) 作为分类器对2 6 个字母手势进行识别。 2 动态手势识别 6 第1 章引言 动态手势识别的识别对象是一组连续的手势动作,动态手势对应着模型参数空 间里的一条轨迹,由一段时间范围内的一系列静态手势所构成,并包括手在空间中 的旋转和位移运动。 实时手势识别是从其时效性上提出的一个概念。它的时效性是最高的,其识别 对象是实时输入的数据,并需要对输入产生实时的响应,对识别系统的速度要求更 高。在这方面国内外研究者投入了很大的精力和热情,也提出了各种识别的算法。 1 2 4 2 根据外围设备分类 根据手势图像采集方式的不同,我们可以将手势识别分为两种,基于数据手套 的方法和基于视觉的方法。 1 基于数据手套的方法 基于数据手套的手势识别系统,是利用数据手套和位置跟踪测量手势在空间运 动的轨迹和时序信息,这种方法的优点是系统的识别率高,缺点是打手势的人要穿 戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。利用数据手套等典型传 感设备的方法,台湾大学的l i a n g 【2 8 】等人利用单个v l p 数据手套作为手势输入设备, 可识别台湾手势课本中的2 0 5 个基本词条,识别率为9 0 5 。卡耐基一梅隆大学 ( c m u ) 的c h r i s t o p h e rl e e 和x u 2 9 在1 9 9 5 年完成了一个操纵机器人的手势控制系 统。k a d o u s 用p o w e rg l o v e s 作为手势输入设备,识别出有9 5 个孤立词构成的词汇 集,正确率为8 0 。 2 基于视觉的方法 基于视觉的手势识别系统是利用摄像机采集手势信息,并进行识别。该方法的 优点是输入设备比较便宜,但识别率比较低,实时性较差,特别是很难用于大词汇 量的手势库的识别。在基于视觉的方法方面,具有代表性的研究成果包括:d a v i s 和s h a h 将戴上指间具有高亮标记的视觉手套的手势作为系统的输入,可识别7 种手 势。s t a m e r 等在对美国手势中带有词性的4 0 个词汇随机组成短句子识别率达到 9 9 2 。g r o b e l 和a s s a m 从视频录像中提取特征,采用h m m 技术识矧j 2 6 2 个孤立词, 正确率为9 1 3 。此外,v o g l e r 与m e t 锹a s :将两种方法结合用于美国手势识别,交互 采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备,完成了5 3 个孤立 词的识别,识别率为8 9 9 。 1 2 4 3 根据手势识别方法分类 手势识别的实质是识别出用户通过手势运动表达的意图。目前手势识别的分类 算法很多,如s u n 采用模板匹配和查表的方法,m a r t i n 采用句法模式识别方法,q u e k 使用贝叶斯分类器,s u 等人采用组合神经网络,h u a n g 等人采用h o p f i e l d 神经网络 法,b e o h m 等人使用s o m 法,k n 采用模糊神经网络识别手势。下面阐述常用的几 7 青岛大学硕士学位论文 种手势识别方法: 1 几何特征识别法 传统的几何分类法算法简单,与神经网络的方法相比,几何分类法显示出了高 识别速度和可靠性,其允许定义一个不同手势类别特点的特征集,估计一个局部最 优的线性分辨器,根据手势图像中提取的大量特征识别相应的手势类别。抽取的几 何特征有多种类别。一类是整体统计特征,如手势图像的重心( c o g ) 和主轴方向, 另一类是基于轮廓的局部特征,包括指尖和指根。整体特征和局部特征构成一个特 征向量,用于识别和跟踪手势。正是出于其相对以下两种方法的速度优势,在本文 的研究中,采用的是几何特征识别的方法。 2 神经网络识别法 在手势识别领域中,神经网络也是一种广泛使用的工具。它由许多具有非线性 映射能力的神经元组成的一种大规模并行处理网络,神经元之间通过权相连。神经 网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能力不强,著名的 f e l s 的g l o v e t a l k 系统采用神经网络方法作为识别技术。神经网络能实现复杂的非线 性映射,映射关系是通过学习( 或训练) 得到的。而常见的主要是b p 神经网络。 b p ( e r r o rb a c kp r o p a g a t i o nn e u r a ln e t w o r k 误差反向传播神经网络) 由 r u m e l h a r t 和h i t t o n 于19 8 6 年提出,它是一种能向着满足给定的输入输出关系方向进 行自组织的神经网络,当输出层上的实际输出与给定的输入不一致时,用下降法修 正各层之间旧的结合强度,直到最终满足给定的输入输出关系为止,出于误差传播 的方向与信号传播的方向正好相反称为误差反向传播神经网络。 b p 神经网络的理论认为:只要不断给出输入和输出之间的关系,则在神经网络 的学习过程中,其内部就一定会形成表示这种关系的内部构造,并且只要使关系形 成的速度达到实用值,那么b p 的应用就不存在任何的困难,但实际上,把它作为识 别机械时,可能存在着中间层神经元的个数会很庞大,学习时间太长,结合系数范 围太宽等严重缺点。 在手势识别过程中,从系统建立的训练库中输入特征数据,训练b p 网络,并用 训练好的b p 网络来识别和理解所要识别的手势的含义,并转换为对计算机的操作。 神经元网络由输入层、隐含层和输出层组成( 如图1 1 ) 。输入层的神经元将输 入信息石,分配到隐含层的各神经元。隐含层中的神经元j 的输入加权和为y 矽。x ;, 一。 其中为形。的输入信息墨与神经元j 之间连接权值,神经元j 的输出是这- j n 权和的函 数,即 l = ,( 置) 8 第1 章引言 式1 ( 1 ) 中f ( ) 为作用函数,它一般为s 形函数,即 f ( s ) - 1 1 + e 。j 1 一( 2 ) 在学习算法中,规定在神经元i 和j 之间连接权值的变化为 席一叼6 j x i 1 ( 3 ) 式1 ( 3 ) 中,7 为学习率,6 ;为一个因子,它随神经元所处的位置不同而不同。为 了加快b p 算法的学习过程,通常在上述算式中增加一个动量项,即 拉 + 1 ) 一r 6 f x i + 必形 ) 1 - ( 4 ) 式1 一( 4 ) 中a w j , + 1 ) ,w j , ) 分别为k + l 和k 时刻的权值的变化量,j c l 为动量 系数。 : 在网络学习阶段,将具有p 个输入模式的x 。输入网络,通过反复调节权值形。, 使系统的输出与目标输出l 的偏差达到用户的要求。接着再用另一个模式输入网 络,直到所有模式均学习一遍后,学习结束。学习好的网络即可用于识别。 3 h m m ( h i d d e nm a r k o vm o d e l ) 方法 动态识别主流的识别模型是隐马尔可夫模型( h m m ) 。隐马尔可夫模型( h m m ) 作为信号的一种统计模型,已经在语音信号处理领域得到了广泛的应用,取得了很 大的成功,近年来也逐渐走入了手语识别领域。 隐马尔可夫模型的理论基础是1 9 7 0 年前后由b a u m 等人建立起来的,随后由 c m u 的b a k e r 和i b m 的j e l i n e k 等人将其应用到语音识别中。由于b e l l 实验室的 r a b i n e r 等人在2 0 世纪8 0 年代对h m m 的深入浅出的介绍,才逐渐使h m m 为世界各国 的研究人员所了解和熟悉,进而在语音处理领域成为一个研究热点。 h m m 是在m a r k o v 链的基础之上发展起来的。由于实际问题比m a r k o v 链模型所 描述的更为复杂,观察到的事件并不是与状态一一对应的,而是通过一组概率分布 相联系,这样的模型就称为h m m 。它是一个双重随机过程:一是m a r k o v 链,这是 基本随机过程,它描述状态的转移;另一个随机过程描述状态和观察值之间的统计 对应关系。这样,站在观察者的角度,只能看到观察值,不像链m a r k o v 模型中的观 察值和状态一一对应,因此,不能直接看到状态,而是通过一个随机过程去感知状 态的存在及其特性。因而称之为“隐m a r k o v 模型,e i h m m 。 隐马尔可夫模型在一维信号的统计特征提取与识别中取得了很好的效果,特别 是在语音识别领域,但是在手势识别中却有许多局限性。首先,动态手势信号不满 足h m m 的m a k o v 性质,即随机向量当前的状态只和前一状态有关;其次,用单一 9 青岛大学硕士学位论文 的h m m 对双手的信号进行建模显然不够,会导致h m m 将许多信号作为噪声处理。 为了改进h m m 的这些缺点,提出了许多新的模型,如f h m m 、l h k i m 和c h m m 。其 中c h m m ( c o u p l e dh m m ) 最适合双手手势的建模。s t a r n e r 使用固定在桌而上的 彩色相机作为输入设备,采用h m m ( h i d d e nm a r k o vm o d e l s ) 方法识别由4 0 个手 语词组成的句子,识别正确率达9 2 ;如果将相机固定在用户的帽子上,对句子进 行严格的语法限制,在实时情况下识别率能达到9 8 。l i a n g 和o u h y o u n g 使用数据 手套作为输入设备,h m m 作为识别技术,能够识别手语者打出由2 5 0 个台湾手语词 组成的连续句子,但是它要求打手语的速度比正常的速度慢。v o g l e r 和m e t a x a s 使 用计算机视觉方法提取手的三维运动变量,将视觉的方法与h m m 结合识别由5 3 个手 语词组成的连续句子。为了克服“运动插入影响,使用上下文相关模型,识别率 达8 9 9 。此外,他们以音素为基元识别连续句子,使用2 个手语词组成的句子做实 验,得到与词作为基元相似的识别结果。 另外,由于图像是一个二维信号,如果建立二维的h m m 模型,实际运用中的计 算复杂度太大,很难用于实用。 1 3 本论文的主要研究工作 本文对基于单个摄像头的手指定位的交互方法进行了研究。研究的主要目的在 于开发使用摄像头作为输入装置的基于多通道,多媒体的人机交互系统,让使用者 以手指为指点来操纵计算机,不必经过对传统的输入设备( 如键盘和鼠标) 的训练 也能流畅地使用计算机,并在较大的空间范围内使用计算机,以实现人机交互的多 样性、直接性,自然性。 该方法的基本思想是,使摄像头对固定的矩形面板进行视频采集,并以该区域 作为交互界面,手指在面板上进行移动点击等操作,摄像头实时捕捉人手在面板上 的运动信息,并根据这些信息做出相应的响应。所以,要解决得基本问题有两个, 一是实时检测人手的运动信息,二是识别动作给出的响应。对人手的检测本文采用 肤色和差影法相结合的检测方法,动作响应通过检测指尖在给定位置的停顿时间进 行判断。本文的方法用于实现手指绘图和图片浏览等功能,可以对手指完成较精确 的指尖定位,及时响应指尖的触发操作,很好的完成人机交互功能。 1 0 第2 章视频采集与手势交互技术 第2 章视频采集与手势交互技术 本章主要介绍了本文中用到的视频采集与手势交互技术相关算法的理论依据。 首先介绍视频采集的两种方法,其次详细介绍了手势分割技术的概念、分割中存在 的难点及一般方法,重点介绍了本文所涉及的运动分割,肤色滤波及图像增强技术, 最后介绍了在指尖检测过程中本文采用的特征描述符的识别判断方法。 2 1 视频采集 视频采集是指将真实场景的图像转化为可供计算机处理的数字图像过程。视频 采集的设备有很多种,一般来说是由摄像机和视频采集卡构成。随着微电子技术和 计算机接口技术的发展,出现了通过p c 机和u s b 接口直接传输数字图像的微摄像机 ( 如摄像头) 。目前,视频采集一般有两种方法:d i r e c t s h o w 的方法和v f w 的方法。 2 1 1d ir e c t s h o w 的方法 d i r e c t s h o w 是w i n d o w s 平台上的流媒体框架,提供了高质量的多媒体流采集和 回放功能。它支持多种多样的媒体文件格式,包括a v l 、m p e g 、a s f 、m p 3 和w a v 文件,同时支持使用w d m 驱动或早期的v f w 驱动来进行多媒体流的采集。 d i r e c t s h o w 整合了其它的d i r e c t x 技术,能自动地侦测并使用可利用的音视频硬件加 速,也能支持没有硬件加速的系统。 d i r e c t s h o w 大大简化了媒体回放、格式转换和采集工作。但与此同时,它也为 用户自定义的解决方案提供了底层流控制框架,从而使用户可以自行创建支持新的 文件格式或其它用途的d i r e c t s h o w 组件。 使用d i r e c t s h o w 编写的典型应用:视频编辑应用、数字视频采集、d v d 播放器、 a v i 到a s f 转换器,m p 3 播放器应用等。 d i r e c t s h o w 是建立在组件对象模型( c o m ) 上的,因此编写d i r e c t s h o w 应用时, 必须具备c o m 客户端程序编写的知识。对于大部分的应用,不需要实现自己的c o m 对象,d i r e c t s h o w 提供了大部分需要的d i r e c t s h o w 组件,但是要编写d i r e c t s h o w 组 件,还需要具备编写c o m 组件的知识。该方法采用c o m 技术,使用f i l t e r g r a p h 应 用框架,通过操作f i l t e r 来操作视频流。通过插入不同的f i l t e r ,可以得到任何格式的 视频流,并对视频流进行各种各样的处理。 2 1 2v f w 的方法 v f w ( v i d e of o rw i n d o w s ) 是w i n 3 2s d k 中多媒体编程的视频开发工具。它 提供了一个访问硬件的透明接口,可以在不了解硬件具体特征的情况下实现对视频 青岛大学硕士学位论文 图像的访问和控制。v f w 为软件开发人员提供的一个专门用于视频捕获的数字视频 开发包,它能使应用程序通过数字化设备从传统的模拟视频源得到数字化的视频剪 辑。该方法比较简单,采集得到的视频流格式比较单一,能够进行一些基本的捕获 设置。v f w 以消息驱动方式对视频设备进行存取,可以很方便地控制设备数据流的 工作过程。目前,大多数的视频采集卡的驱动程序都支持v f w 接口,它包括多个 动态连接库,通过这些组件间的协

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论