(物理电子学专业论文)基于计算机视觉的静态手势识别系统.pdf_第1页
(物理电子学专业论文)基于计算机视觉的静态手势识别系统.pdf_第2页
(物理电子学专业论文)基于计算机视觉的静态手势识别系统.pdf_第3页
(物理电子学专业论文)基于计算机视觉的静态手势识别系统.pdf_第4页
(物理电子学专业论文)基于计算机视觉的静态手势识别系统.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(物理电子学专业论文)基于计算机视觉的静态手势识别系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7 奠 硕士学位论文 m a s t e r st h e s i s 摘要 摄像机能够捕捉到用户通过内在自然方式( 如眼神、表情、手势和动作等) 所表 达的信息,因此通过摄像机与计算机进行交互是一种高效自然的人机交互方式,它 能使人机对话变得简单,减少人们使用计算机的障碍。特别是最近几年,随着计算 机技术的迅猛发展,研究符合人机交流习惯的新颖人机交互技术变得异常活跃,也 取得了可喜的进步。这些研究包括人脸识别、面部表情识别、唇读、头部运动跟踪、 凝视跟踪、手势识别、以及体势识别等。 手势是一种自然、直观、易于学习的人机交互手段。手势识别按输入设备不同 可以分为基于数据手套的手势识别和基于计算机视觉的手势识别。其中基于计算机 视觉的手势识别以人手直接作为计算机的输入设备,人机之间的通讯将不再需要中 间媒体,用户可以简单地定义一种适当的手势来对周围的机器进行控制。但是由于 手势本身具有多样性、多义性以及时间和空间上的差异性等特点,加之人手是复杂 变形体以及视觉本身的不适定性,基于视觉的手势识别是一个富有挑战性的、多学 科交叉的研究课题。 本文设计实现了一个基于计算机视觉的静态手势识别系统,该系统能够实时地 对从摄像头输入的1 0 个常用静态手势进行识别。系统的设计准则一是实时性,二 是准确性。在手势建模方面,采用基于表观的手势模型;在手势分析方面,经过手 势图像预处理和特征参数提取得到八个手势特征参数;在手势识别方面,采用二次 分类( 粗分类和细分类) 的方法进行识别。 整个系统分三个部分实现。手势图像预处理部分,根据人体的肤色特征从环境 中分割出手区域,然后通过图像增强和拉普拉斯边缘提取算法得到手势轮廓;手势 特征提取部分,提取了八个手势特征参数,组成特征向量;视频流实时处理部分, 使用天敏s d k 一2 0 0 0 图像视频采集卡,通过回调函数对摄像头输入的视频流进行计 算,提取出单个静态手势图像,并进行实时地识别。 关键词:基于计算机视觉的手势识别;实时系统;人体肤色特征;视频采集卡 a b s t r a c t c 锄e r ac a nc a t c ht h em f o n n a t i o nn a m r a l l ye x p r e s s e db yp e o p l es u c ha l se y e m o v e m e n t s ,e x p r e s s i o n ,g e s t u r ea n dm o t i o n f o ru s e r s ,c o m m u n i c a t i n g w i t hc o m p u t e r s b yc 锄e r ai se 伍c i e n ta n dn a t u r a l i tc a np r o v i d eac o n v e l l i e n ta d d i t i o nt ou s e r - c o m p u t e r d i a l o g u e sa n dr e d u c et h eo b s t a c l et ou s ec o m p m e li k c e n ty e a r se s p a c i a l l y w i mt h e d e v e l o p m e n to fc o m p u t e rs c i e n c e , r e s e a r c ho nn e wh u m a n - c o m p u t e ri n t e r a c t i o n t e c h n o l o g y b e c o m ee x t r e m e l ya c t i v e ,a i l da d v a l l c e m e n th a sb e e na c h i e v e d t h e s e r e s e a r c h i n c l u d e sf i a c er e c o g n i t i o n ,e x p r e s s i o nr e c o g n i t i o n ,h a n dg e s t u r er e g o g n i t i o n , p o s er e c o g i l i t i o na n ds oo n h a n dg e s t u r ei san a t l l r a la n ds t r a i g h th 啪a l l c o m p u t e ri n t e r a c t i o m e t h o d t h e r ea r e t 、v om e t h o d so nh 甜l d g e s t u r er e c o g n i t i o i l ,r e c o g n i t i o nb a s e do nd a t ag l o v ea 1 1 d r e c o g n i t o nb a s e do nc o m p u t e rv i s i o n t 狄eh a m d a st h ei n p u te q u i p m e n td i r e c t l y , c o m m u n i c a t i o nb e 觚e e nh 啪a na n dc o m p u t e rw i l ln e e dn om o r eo t l l e ri n t e r m e d i a t e m e d i a u s e r sc a nc o n t r o lt h em a c m n e s 锄蛐ds i m p l ys i g nt oi t 晰t t lt h eh a n dg e s t u r e u s e ri t s e l fd e f i n e s h o 、e v e r ,g e s t u r eh a u st h ec h a l r a c t e r so fm u l t i m o d e ,m u l t i - m e a n i n g a n dh a sd i s c r e p a n c yu n d e r c e n a i nt i m ea i l ds p a c es i t u a t i o n ;m o r e o v e r ,h 啪锄h a n d s a r e c o m p l i c a t e d 胁s f o m l e do b j e c t sa n dt h e r ei sv i s u a l i n s t a b i l i t y ,a l lo fw h i c hm a k eg e s t e r e c o g m t i o nb a l s e do nc o m p u t e rs i g h tb e c o m eac h a l l e n g e a b l em u l t i s u b j e c tr e s e a r c h g o a l t b j sp a p e rr e a l i z e das t a t i ch a n dg e s t u r er e c o g n j t i o ns y s t e mb a s e do nc o m p u t e r v i s i o n t 1 1 i ss y s t e mc a nr e c o g l l i z e1oc o m m o ns t a t i ch a n dg e s n l r e si n p u t t e df 两mc 锄e m a tr e a lt i m e i ti sar e a l - t i m es y s t e m ,s ob o t l lr e c o g l l i t i o nt i m ea n dt h ec o r r e c n e c o g n i t i o n r a t eh a v et ob ec o n s i d e r dw m l ed e s i g n i n gt h es y s t e m i nt h ea u s p e c to fh 甜l dg e s t u r e m o d e l i n g , m es y s t e ma d o p th a n dg e s t u r em o d e lb a u s e d o na p p a r e n t ;i nt h ea l s p e c to fh 甜l d g e s t l l r ea 1 1 a l y s i s ,t h es y s t e mp i c k su pe i 曲t c h 蹦l c t e r sn u 的u 曲i m a g ep r e p r o c 弓s s a i l d c h a r a c t e re x t r a c t i o n ;i nm ea s p e c to fr e c o g n i t i o n ,t l l e s y s t e ma u d o p t s t v 旧t i m e s c l a s s i f 撕o n ( r o u 曲c l a s s i f i c a t i o na n dp a n i c u l a rc l a l s s i f i c a t i o n ) t h es y s t e mc o n s i s t so fm r e ep a i r t f i r s t ,p r e p r o c e s s i o no ft h eo r i g i n a m a n dg e s t u i e i m a g e ,i nt h i sp 矾h a n da r e ai s e x t r a c t e df r o mb a c k g r o u n dt h r o u 曲m ec h a r a c t e ro f h u m a nc o m p l e x i o n ,a n dt h e nt h es y s t e mg e t st h ee d g et h r o u 曲n o i s es m o o t h i n ga 1 1 d l a p l a c i a ne d g ee x t r a c t i o n ;s e c o n d ,e x t r a x c t i o no fh a n dg e s t m ec h a r a c t e r s ,i nt h j sp a r tt h e s y s t e me x 位k t se i 曲tc h a r a c t e r sa sa ne i g e n v e c t o r ;t m r d ,t l l er e a l - t i m ep r o c e s s i o nt 0t l l e v i d e oc 印n 鹏c 砌( 天敏s d k 一2 0 0 0 ) ,i nt h j sp a nm es y s t e mp r o c e s s e st h er e a l t i m e d a t ai n p 眦e d 舶mc 锄e r a 谢t t lac a l l b a c k 矗m c t i o n 锄df i n dt h es i n g l ei m a g eo fs t a t i c k m dg e s t l l r e k e y w o r d s :c o m p u t e rv i s i o n - b a l s e dh a l l dg e s t u r er e c o g n i t i o n ,r e a l t i m es y s t e m , c h a r a c t e ro f h u m a nc o m p l e x i o n ,d e oc a p t u i ec a r d i i 硕士学位论丈 m a s t e r st h e s l s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在 文中以明确方式标明。本声明的法律结果由本人承担。 作者躲甥p 南弧 嗍年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者繇掣f 勺j 7 支 日期:d 挣( 月,日 导师签名:螂 日期:刹年g 月岁日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程 ,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。回重论塞握童卮溢卮;旦坐生;旦二生;旦三生筮堑! 作者虢妻f 切做 r 期:归6 月h 导师签名:苍慧9 日期:沙动年石月兮日 7 、 硕士学位论文 m a s t e r st e s l s 第一章绪论 1 1 引言 如果有一个人在看电视时,对着电视指手画脚,那么你是不是认为他肯定有什 么问题呢? 但是如果你用了下面的产品,就不会觉得奇怪了,一群澳洲的科学家最 近推出了一种以手势控制的电视遥控系统。这种遥控器能识别七种手势,并随之反 应,例如握拳代表启动,大拇指向上就代表切换上面的频道,倾斜的“剪刀”则代 表选择频道。而且这款电视不仅可以识别成人的手势,还可以辨别小孩或宠物的动 作。 1 2 课题研究背景及现状 在人机接口的发展历程中,键盘是基于文本方式的初始用户接口,而鼠标的发 明把我们带到一个图形用户接口的时代,然而,从某种程度上说,这些机械设备在 自然直接交互方面是不方便和不适用的,因为这些设备很难进行3 一d 和高度自由的 输入。随着计算机技术的迅猛发展,研究符合人际交流习惯的新颖人机交互技术变 得异常活跃,也取得了可喜的进步,这些研究包括人脸识别、面部表情识别、唇读、 头部运动跟踪、凝视跟踪、手势识别、以及体势识别等等口2 儿3 1 。总的来说,人机交 互技术已经从以计算机为中心逐步转移到以人为中心,是多种媒体、多种模式的交 互技术。 人类交互往往声情并茂,除了采用自然语言( 口语、书面语言) 外,人体语言( 表 情、体势、手势) 也是人类交互的基本方式之一。与人类交互相比,人机交互就呆 板得多,因而研究人体语言理解,即人体语言的感知,及人体语言与自然语言的信 息融合对于提高计算机的人类语言理解水平,加强人机接口的可实用性是非常有意 义的。手势是聋哑人使用的语言,它是由手形动作辅之以表情姿势而构成的比较稳 定的表达系统,是一种靠动作和视觉进行交际的特殊语言,它还是一种包含信息量 最多的人体语言,它与语言及书面语等自然语言的表达能力相同,因而在人机交互 方面,手势完全可以作为一种手段,而且具有很强的视觉效果,它生动、形象、直 观。 手势的研究不仅有助于改善和提高聋哑人的生活学习和工作条件,为他们供更 好的服务,同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的 研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。手 硕士学住论文 m a s t e r st h e s i s 势识别研究具有的应用领域至少表现在以下几个方面: 一、能够使得聋人,尤其是使得文化程度比较低的聋人,使用手势和正常人 交流: 二、从认知科学的角度,研究人的视觉语言理解的机制,提高计算机对人类 语言的理解水平; 三、利用手势控制虚拟现实中的智能体; 四、机器人的示范学习; 五、虚拟现实系统中的多模式接口等。 人类语言包括口语、书面语和人体语言,听力正常人之间的语言交流中主要采 用口语和书面语,而在人与人面对面的交流中,主要采用口语并辅之以一定的体势 和表情。在聋人之间的交流中,手势如同j 下常人的口语一样,起到非常重要的作用, 手势是聋人进行信息交流的最自然方法和交际工具,也是聋校进行教学和聋人之间 传递思想的方法。中国手势分为两类:手指语和手势语,手指语是用指式轨迹描述 一个汉语拼音字母,并按照汉语拼音规则构成的语言,它由3 0 个手指字母构成基本 单位,以书面语为依据,将词对应的手指字母连续打出来完成一个句子,手势语是 以模拟事物的形状及其动作为主要手段,并辅以姿态和表情来表达的,手势语是聋 人日常生活中使用语言的主要部分。目前,中国手势教课书中包括大约5 5 0 0 个常规 手势,每个手势对应一个汉语词。 国外对手势识别的研究己有很长的历史,1 9 9 1 年富士通实验室完成了对4 6 个手 势符号的识别工作h 1 ;j d a v i s 和m s h a h 将戴上指尖具有高亮标记的视觉手套的 手势作为系统的输入,可识别7 种手势畸1 :s t a r n e r 等在对美国手势中带有词性的4 0 个词汇随机组成的短句子识别率达到9 9 2 儿7 1 ;k g r o b e l 和m a s s 锄从视频录 像中提取特征,采用h m m 技术识别2 6 2 个孤立词,正确率为9 1 3 呻1 。 我国的高文、吴江琴等人给出了人工神经网络( a n n ) 、基于隐m a r k o v 模型( h m m ) 的混合方法作为手势的训练识别方法,以增加识别方法的分类特性和减少模型的估 计参数的个数,将a n n h m m 混合方法应用于有1 8 个传感器的c y b e r g l o v e 型号数据手 套的中国手势识别系统中,孤立词识别率为9 0 ,简单语句级识别率为9 2 阳1 0 3 。接 下来高文等又选取c y b e r 9 1 0 v e 型号数据手套作为手势输入设备,并采用了d g 删 ( d y n a m i c g a u s s i a n m i x t u r e m o d e l ) 作为系统的识别技术,即利用一个随时间变化的 具有m 个分量的混合g a u s s i a n n 一元混合密度来模型化手势信号,可识别中国手势字 典中2 7 4 个词条,识别率为9 8 2 1 。与基于h 删的识别系统比较,这种模型的识别 精度与h m m 模型的识别精度相当,其训练和识别速度比h m m 的训练与识别速度有明显 2 硕士学位论文 m a s t e r st h e s i s 的改善。他们为了进一步提高识别速度,识别模块中选取了多层识别器,可识别中 国手势字典中的2 7 4 个词条,识别率为9 7 4 n 引。与基于单个d g 删的识别系统比较, 这种模型的识别精度与单个d g 删模型的识别精度基本相同,但其识别速度比单个 d g 删的识别速度有明显的提高。2 0 0 0 年在国际上他们首次实现了5 0 0 0 词以上的连续 中国手势识别系统口驯。另外,清华大学祝远新、徐光佑等给出了一种基于视觉的动 态孤立手势识别技术,借助于图像运动的变阶参数模型和鲁棒回归分析,提出一种 基于运动分割的图像运动估计方法。基于图像运动参数,构造了两种表现变化模型 分别作为手势的表现特征,利用最大最小优化算法来创建手势参考模板,并利用基 于模板的分类技术进行识别,对1 2 种手势的识别率超过9 0 。在进一步研究中,他 们又给出了有关连续动态手势的识别,融合手势运动信息和皮肤颜色信息,进行复 杂背景下的手势分割:通过结合手势的时序信息、运动表现及形状表现,提出动态 手势的时空表现模型,并提出基于颜色、运行以及形状等多模式信息的分层融合策 略抽取时空表观模型的参数,最后,提出动态时空规整算法用于手势识别,对1 2 种 手势,平均识别率高达9 7 1 1 3 手势识别研究综述 对于手势的研究分为手势合成和手势识别,前者属于计算机图形学的问题,后 者属于模式识别的问题。 1 3 1 手势的定义 由于手势( g e s t u r e ) 本身具有多样性和多义性口5 | ,具有在时间空间上的差异性 加上不同文化背景的影响对手势的定义是不同的。这里把手势定义为:手势是人手 或者手和臂结合所产生的各种姿势和动作,它包括静态手势( 指姿态,单个手形) 和 动态手势( 指动作,由一系列姿态组成) 。静态手势对应模型参数空间里的一个点, 而动态手势对应着模型参数空问里的一条轨迹,需要使用随时间变化的空间特征来 表述。手势和姿势( p o s t u r e ) 的主要区别在于姿势更为强调手和身体的形态和状态 而手势更为强调手的运动。 1 3 2 手势识别系统分类 从手势输入设备来看,手势识别系统主要分为基于数据手套的识别系统和基于 计算机视觉的手势识别系统。 , 1 3 2 1 基于数据手套的手势识别系统 数据手套是虚拟现实技术中广泛使用的交互设备。基于数据手套的手势识别系 硕士学位论丈 m a s t e r st h e s i s 统,是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息,这种方法 的优点是输入数据量小,速度高,就直接获得手在空间的三维信息和手指的运动信 息,可识别的手势种类多,系统的识别率高,缺点是打手势的人要穿戴复杂的数据 手套和位置跟踪器,并且输入设备比较昂贵。基干数据手套的手势识别目前较多采 用神经网络等方法。由干神经网络可以用静态的和动态的输入,很适合用快速、交 互的方式进行训练,而不必用一种解析的方式定义传递特怔。还可以根据用户个人 情况调整网络的连接权值,使手势识别程序能适应不同的用户。存在的不足是手势 识别网络依赖于设备。当使用不同的手套设备时,要改变网络的拓扑结构,并重新 训练网络得到新的连接权值。 1 3 2 2 基于计算机视觉的手势识别 基于计算机视觉的手势识别系统是利用摄像机采集手势信息,并进行识别,该 方法的优点是输入设备比较便宜,但识别率比较低,实时性较差,特别是很难用于 大词汇量的手势识别。自然手的研究是未来的趋势,因此基于计算机视觉的手势识 别研究是顺应潮流的。 1 3 3 常用手势识别算法 从手势识别技术来看,以往手势识别系统主要采用基于人工神经网络( a n n ) 、 基于隐m a r k o v 模型( h m m ) 和基于几何边缘特征等方法。 1 3 3 1 基于人工神经网络的手势识别 神经网络方法具有分类特性及抗干扰性,具有自组织和自学习能力,具有分布 性特点,能有效抗噪声和处理不完整的模式以及具有模式推广能力。然而由于其处 理时间序列的能力不强,目前广泛用于静态手势的识别。著名的f e l s 的 g 1 0 v e t a l k 系统采用神经网络方法作为识别技术。 1 3 3 2 基于h m m 的手势识别 对于分析区间内的手势信号,通常采取h m m 方法进行模型化。一般拓扑结构 下的删具有非常强的描述手势信号的时空变化能力,在动态手势识别领域一直 占有主导地址,如卡内基,梅隆大学的美国手语识别系统及台湾大学的台湾手语识 别系统等均采用h m m 作为系统的识别技术;然而正是由于h m m 拓扑结构的一般 性,导致这种模型在分析手语信号时过于复杂,使得h 删训练和识别计算量过大, 尤其是在连续的 删中,由于需要计算大量的状态概率密度,需要估计的参数个 数较多,使得训练及识别的速度相对较慢,因而以往手语识别系统所采用的h 删一 4 硕士学位论文 m a s t e r st i e s i s 般为离散h m m 。 1 3 3 3 基于几何特征的手势识别 基于几何特征的手势识别技术是利用手势的边缘特征和手势区域特征作为识 别特征,具体实现则有各种不同的做法,如利用h a u s d o r f f 距离刚模板匹配的思想, 在距离变换空间内就可以实现基于单目视觉的中国手语字母的手势识别。 1 3 4 手势识别技术难点 尽管已经实现了大词汇量的手势识别系统,但中国手势识别仍然面临许多挑战 性课题,如:手势不变特征的提取、手势之间的过渡模型、手语识别的最小识别基 元、自动分割识别基元、词汇量可扩展的识别方法、手语识别的辅助信息、非特定 人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。现在 大多数的研究重点都在静态手势的识别,其技术难点有以下两点: 1 3 4 1 手势目标检测的困难 目标的实时检测是指在人以复杂的背景条件下从图像流中检测出目标来,这是 机器视觉主要研究的课题之一。 1 3 4 2 手势目标识别的困难 手势识别是根据人手的姿态以及变化过程来解释其高层次的含义,由于手势具 有以下特点: ( 1 ) 手是弹性物体,故同一种手势之间差别很大; ( 2 ) 手有大量冗余信息,由于人识别手势关键是识别手指特征,故手掌特征是 冗余信息; ( 3 ) 手的位置是在三维空间,因此难以定位,并且计算机获取的图像是三维向二 维的投影,因此投影方向很关键; ( 4 ) 由于手的表面是非光滑的,因此易产生阴影。 上面两个困难目前还未有效解决,所以具体在系统实现时必须加一定的限制条 件。本文据此提取出具有几何不变性的特征是其关键技术。 1 4 本文主要研究内容及结构 基于数据手套的识别能获得更快和更精准的识别结果,但是由于设备的昂贵和 庞大,不利于普及应用。因此本论文主要探讨基于计算机视觉的实时手势识别,对 实时的手势分割和识别进行研究。 硕士学位论文 m a s t e r sr l f e s i s 实时采集的手势有无数种,要想能够达到很高的识别效果,特定手势的选取非 常重要。通过对各种各样手势的比较,最终选择了图1 一l 所示的1 0 种特定手势( 在 本文后面的内容中,我们一律称这1 0 种手势为定义手势,这1 0 种手势以外的任何手 势为非定义手势) 。 本文设计实现了一个基于视觉的静态手势识别系统,该系统能够实时地对从摄 像头输入的1 0 个常用的静态手势进行识别,并把识别结果以对话框的形式显示出 来。 ( f ) 手势5( g ) 手势6 ( h ) 手势7( i ) 手势8 ( g ) 手势9 图卜1 本文定义的1 0 种特定手势 为了找到一种简单、高效的识别方法,我经过反复实验重点做了以下手势识别 算法的工作:在手势建模方面,采用基于表观的手势模型;在手势分析方面,从原 始图像中抽取的二值图、轮廓图来确定采用的手势特征;在手势识别方面,采用模 板匹配的方法进行识别( 即对简单手势可进行粗分类识别,对于较复杂的手势粗分 类很难精确区分,则要在边界图像及二值图像巾提取手势的形状特征向量,进行基 于类似度的模板匹配手势的细分类) 。本文系统设计的结构框图如下: 输入图傺_ 厦堕,t 亘堕叵一西 图卜2 手势识别流程图 论文的具体内容安排如下: 第一章绪论。论述了论文的研究背景、目的和意义及国内外研究现状。 第二章基于计算机视觉的手势识别技术基础简介。介绍了本研究课题所涉及 6 硕士学位论文 m a s t e r st h e s i s 第三章 第四章 第五章 到的相关知识,其后从手势建模、手势分析、手势识别三方面从总体 上进行了介绍,并阐明了本文所采用的技术。 手势图像预处理。第3 章和第4 章分别介绍了手势分析的两个串行 过程,即手势图像预处理和手势特征参数提取。本章介绍了从原始手 势图像到得出基于表观的手势模型的过程。 手势特征参数提取。具体介绍了手势各个手势特征参数的计算算法。 系统实现及实验结果。介绍了系统的具体实现方法,包括视频处理部 分、静态图像处理部分、手势识别算法、文档操作部分以及实验结果, 并对实验结果进行了分析。 7 硕士学位论文 m a s t e r st i i f s i s 第二章基于计算机视觉的手势识别技术基础简介 2 1 引言 基于计算机视觉的手势输入技术的特点是对用户的限制少,但是需要处理的数 据量大,处理方法相对比较复杂。在当前的计算机手势识别技术研究中,基于一个 完整的基于计算机视觉的手势识别系统列的总体构成如图2 1 所示。首先,通过 一个或多个摄像机获取视频数据流。接着,系统根据手势输入的交互模型检测数据 流里是否有手势出现。如果有,则把该手势从视频信号中切分出来。然后,根据手 势模型进行手势分析,分析过程包括特征检测和模型参数估计。识别阶段,根据模 型参数对手势进行识别,当然不同的对象也可以以不同的识别结果来做具体应用。 为了便于在后续内容巾研究手势识别的算法,本章从手势建模、手势分析和手势识 别三个方面介绍基于视觉的手势识别技术的研究与应用。在本章的结尾给出一些 基本结论。 嚣 ,豢善 蕤缓裂8 _ k 7 图2 1 系统的设计结构图 2 2 手势建模 手势模型对于手势识别系统至关重要,特别是对确定识别范围起关键性作用, 模型的选取根本上取决于具体应用。对于某个给定的应用,一个非常简单并且拳h 糙 的模型( 文献 1 8 使用图像梯度方向直方图去跟踪人手以及识别静态手势) 可能就 是充分的。然而,如果要实现自然的人机交互,那么必须建立一个精细有效的手势 硕士学位论文 m a s t e r st h e s i s 模型( 文献 1 9 使用了3 d 人手模型) ,使得识别系统能够对用户所做的绝大多数( 如 果不是所有的) 手势作出正确的反应( 识别或拒识) 。从目前的文献来看,几乎所有 的手势建模方法都可以归结为两大类: 基于表观的手势建模和基于3 d 模型的手势建模。基于表观的手势模型是建立 在手( 臂) 图像的表观之上,它通过分析手势在图像( 序列) 里的表观特征去给手势建 模。基于3 d 模型的手势建模方法考虑了手势产生的中间媒体( 手和臂) ,一般遵循 两步建模过程:首先给手和臂的运动以及姿态建模,然后从运动和姿态模型参数估 计手势模型参数。图2 2 对这两类手势模型进行了进一步的分类。图2 3 给出表示 同一种手姿态的几种模型,可以在这些人手模型的基础上进一步建立相应的手势模 型。 广 l 手势模犁l 图2 2 手势模型的分类 2 2 1 基于3 d 的手势模型 基于3 d 手( 臂) 模型的手势模型又可以分为体模型、网格模型、几何模型以及 骨架模型。人体3 d 体模型主要用于跟踪和识别身体姿态,跟踪和识别的基本方法 是基于合成的分析方法,简短地说就是首先合成人体的3 d 模型,然后改变模型的参 数直到模型和真实人体映射出同样的视觉图像,从而分析身体姿态。然而,即使这 样的模型相当成熟,它们还是太复杂以致于不能实时地渲染。更适合计算机实时处 理的方法是使用简单的3 d 几何结构去给人体建模。象广义锥和超二次曲面这样一 类包含圆柱体、球体、椭圆体以及超矩形的结构常常用来近似身体某一部分,例如 指节、前臂、或上臂瞳0 j 。这些几何结构的参数相对简单一些,例如只用3 个参数( 高 度、半径以及颜色) 就可以完全地描述一个圆柱体。然后,把简单的身体部分模型 9 硕士学位论文 m a s t e r st h e s i s 连结起来就可以得到象手、臂或腿等更复杂的身体部分3 d 模型。使用手( 臂) 3 d 模 型时存在两个主要问题:其一,参数空间的维数高;其二,通过视觉技术获取这些 模型的参数困难重重并且非常复杂。 最常使用的3 d 模型是3 d 骨架模型,其参数是经过简化的关节角度参数和指节 长度。人手的物理特性可以为3 d 骨架模型提供两组约束:静态约束( 关节角度范围) 和动态约束( 运动依赖关系) 。文献 2 0 使用了2 6 个自由度的骨架模型并且利用了 这样的约束条件。文献 2 1 使用了带有类似约束条件的2 7 个自由度的骨架模型。 2 2 2 基于表观的手势模型 第一类基于表观的手势模型使用2 d 灰度图像本身建立手势模型。例如,文献 2 2 把人手的完整图像序列作为手势模板。在手指跟踪应用里,仅仅手指的图像也 可以用作模板。文献 2 3 提出运动历史图像作为手势模型。运动历史图像是指在某 个时间区间上累加图像序列里各单个像素点的运动位置而形成的2 d 图像。 第二类基于表观的手势模型建立在手( 臂) 的可变形2 d 模板的基础上。可变形 2 d 模板是物体轮廓上某些点的集合,一般把它用作插值节点去近似物体轮廓。模板 由平均点集合、点可变性参数,以及所谓的外部变形构成。平均点集合描述了某一 组形状的“平均”形状,点可变性参数描述了允许的形变。通常称这两组参数为内 部参数。外部变形或者外部参数描述了一个可变形模板的全局运动,例如旋转、 平移等。基于可变形模板的人手模型通常被用于人手跟踪心钔。 第三类基于表观的手势模型建立在图像属性的基础上。我们把从图像属性抽取 的参数统称为图像属性参数,它们包括:轮廓、边界、图像矩、图像特征向量以及 区域直方图特征等等。例如,文献 2 4 使用了基于边界的轮廓特征。由于图像矩计 算简单,因此常被用作图像属性参数。其它常被使用的属性参数还包括z e r n i k e 矩、 方向直方图、颜色直方图口踟等等。 第四类基于表观的手势模型通过计算图像运动参数,抽取手势模型参数。这 类表观模型主要用在动态手势识别里。例如,文献 2 5 通过运动边界点以及方差约 束计算光流,然后通过向量聚类以及运动平滑性约束抽取手势的运动轨迹,并根据 轨迹坐标建立手势模型。文献 2 6 通过区域相关性计算光流,然后进行光流聚类, 把图像中运动区域分割成“运动块”,这些运动块分别对应于手、臂或身体其它部 分等。文献 2 7 提出的时空表观模型也是基于运动图像的。跟上面这些模型不同, 他们利用图像的变阶运动参数模型及鲁棒回归分析的方法去估计图像的运动参数, 并同时分割出对应的运动区域。然后,基于图像运动参数的物理意义以及运动区域 的形状特征构造帧间表观特征,最后由帧间表观特征构造手势的时空表观模型。 1 0 嚣 硕士学位论文 m a s t e r st i i f s i s 二值影像轮廓 图2 3 表示同一个手姿态的各种人手模刑 2 3 手势分析 2 3 1 特征检测 手势分析阶段的任务就是估计选定的手势模型的参数。分析阶段一般由特征检 测和特征参数估计两个串行任务组成。在特征检测过程中,首先必须定位做手势的 主体( 人手) 。根据所用的线索不同,可以把定位技术分为基于颜色定位、基于运动 定位、以及多模式定位等三种。绝大多数颜色定位技术依赖于直方图匹配n 铂或者 利用皮肤的训练数据建立查找表的方法他8 | 。基于颜色定位技术的主要缺点是在不同 的光照条件下皮肤颜色变化较大,这经常导致未被发现的皮肤区域或者误检测出非 皮肤区域。利用限制性背景或者颜色手套心1 | ,使得高效地、甚至实时地定位人手成 为可能,然而对用户以及对接口设备施加了明显限制。 基于运动的定位技术通常跟某些假设一起使用。例如,假设通常情况下只有一 个人在做手势,并且手势者相对于背景( 静止的) 的运动量很小,因此,图像里的主 要运动分量通常是手( 臂) 运动。文献 2 6 就使用了这种定位技术。为了克服利用单 个线索定位的局限,基于多线索融合( 即多模式) 定位技术已经被提出来了。文献 2 7 基于运动和颜色信息的融合定位人手,达到了较好分割效果。 尽管不同手势模型的参数各不相同,但是用于计算模型参数的图像特征基元通 常是非常相似的。常用的图像特征基元包括灰度图像心邑2 。1 、二值影像9 | 、区域乜6 盯,28 2 9 | 、边界及轮廓砼2 刮或者指尖等。 7 7 硕士学位论文 m a s t e r st h e s i s 2 3 2 模型特征参数估计 3 d 手模型通常涉及到两组参数:角度参数( 关节角度等) 和直线参数( 指骨长度 和手掌尺度等) 。从检测出的特征去估计这些运动学参数通常包括两个环节:初始 参数估计和参数随时间的更新。到目前为止,所有3 d 人手模型都假设直线参数是 预先已知的。这个假设把求解人手关节角度问题转化为逆运动学问题。给定3 d 终 端效应器的3 d 位置和运动学链的基点,逆运动学的任务就是找出链里的指节之问 的关节角度。逆运动学问题本质是病态的,允许有多个解,并且计算量大,因而不 能用于实时问题。某些更简单的解决方法是让用户交互式地初始化模型参数口9 1 。一 旦估计出人手模型的初始参数,利用某种预测平滑策略就可以更新参数估计。最 常用的策略是卡尔曼滤波和预测。 如前所述,共有四类基于表观的手势模型。基于灰度图像本身的表观模型有许 多不同的参数。在最简单的情况下,可以选择模型视图序列作为参数陋引,也可以使 用序列里各帧图像关于平均图像的特征分解表示。最近文献 2 3 累积图像序列里的 时空信息,从而形成单个2 d 图像,即所谓的运动历史图像。然后,基于2 d 图像 描述技术( 如几何矩描述或者特征分解) 去参数化那些2 d 图像。基于可变形2 d 模板 表观模型的典型参数是模板节点的均值m 和它们的方差v 。通过在训练集上进行主 成分分析( p r i m a r yc 0 m p o n e n t a n a l y s i s ,p c a ) 可得到模型参数。与可变形模板模 型参数相联系的还有外部变形参数( 指手或身体在工作区间里的旋转和平移运动) 。 可以在类似于刚体运动估计的框架下估计模型参数的更新,所不同的是可变形模板 需要估计由于模板可变性而引起的附加位移。基于图像属性表观模型的常用参数是 手形几何矩、z e r n i k e 矩、以及朝向直方图等等。这些图像特征参数易于估计,但 是它们对图像中其它非手物体非常敏感。 基于运动图像表观模型的参数包括平移运动参数,旋转运动参数,以及图像变 形参数等等。文献 2 5 通过对图像的平移运动参数进行聚类,抽取人手在图像平面 的运动轨迹。文献 2 9 基于宽基线立体视觉跟踪人手及头部运动,然后把人手在3 d 空间的平移运动速度作为模型参数。文献 2 6 中使用的手势模型参数,包括图像块 的平移运动以及旋转运动参数。而在文献 2 7 中提出的时空表观手势模型参数则更 丰富,包括平移运动参数、旋转运动参数,膨胀参数、变形参数、以及方位参数等等。 2 4 手势识别 手势识别就是把模型参数空间里的轨迹( 或点) 分类到该空间里某个子集的过 程。静态手势对应着模型参数空间里一个点,而动态手势则对应着模型参数空间里 1 2 f 硕士学位论文 m a s t e r st i e s i s 的一条轨迹,因此它们的识别方法有所不同。静态手势识别算法包括基于经典参数 聚类技术的识别和基于非线性聚类技术的识别。 与静态手势不同,动态手势涉及时间及空间上下文。绝大多数动态手势被建模 为参数空间罩的一条轨迹。不同用户做手势时存在的速率差异、熟练程度会在轨迹 的时间轴上引起非线性波动,如何消除这些非线性波动是动态手势识别技术必须克 服的一个重要问题。考虑到对时间轴的不同处理,现有的动态手势识别技术可以分 归三类:基于隐马尔可夫模型( h i d d e nm a r k o v m o d e l s ,h m m ) 的识别,基于动态时间 规整( d y n a m i ct i m ew a r p i n g ,d t w ) 的识别,基于压缩时间轴的识别。 在基于h m m 的识别算法里,每种手势有一个嗍。可观察符号对应着模型参数 空间里的向量( 点) ,例如几何矩向量啪1 ,z e r n i k e 矩,特征图像系数向量,或者3 d 空间的运动速度凹1 等等。基于h m m 识别技术的优点包括提供了时间尺度不变性,保 持了概率框架,以及具有自动分割和分类能力。 d t w 方法是具有非线性时问规一化效果的模式匹配算法,使用某种指定属性的 非线性规整函数对时间轴上的波动近似建模,通过弯曲其中一个模式的时间轴使之 跟另一个模式达到最大程度的重叠( 此时的残差距离最小) 从而消除两个时空表示 模式之间的时间差别。实际上,它是 删的简化,对于比较简单的时间序列,它们 二者是等价的。文献 2 0 基于d t w 匹配两个运动模式。文献 2 2 假设两个序列的时 间终点是一样的,然后利用经过修改的在时间上向后匹配的d t w 方法进行弹性匹配。 利用d t w 算法从时间上对准了两个模式之后,利用规一化的相关运算来寻找两个模 式之间的相似性。文献 2 7 采用的最优动态规划匹配算法也属于基于d t w 的识别算 法。d t w 方法的优点是概念上简单,也比较有效,在测试模式和参考模式之间允许 充分的弹性,从而实现正确的分类。 基于压缩时间轴的识别就是首先利用某种特定属性的函数,把模型参数空间的 一条轨迹压缩为单个点( 例如在时间方向求和) ,然后利用静态手势识别算法完成动 态手势的识别。文献 2 3 提出基于运动历史图像的动态手势识别就利用了基于压缩 时间轴的识别方法。 2 5 本章小结 本章从手势建模、手势分析、手势识别三个方面介绍了基于视觉的手势识别技 术。 总体上说,现有的手势模型可以归为两大类:基于3 d 手( 臂) 模型的手势模型 和基于表观的手势模型。原理上,基于3 d 手( 臂) 模型的手势模型适合于给所有手 彳嚣、 硕士学位论文 m a s t e r st l i e s i s 势建模,而基于表观的手势模型通常只适用于给交流性手势。然而,一方面,基于 3 d 手( 臂) 模型的手势模型不仅参数多,计算复杂性高,而且为抽取模型参数而使 用的许多近似过程导致模型参数的估计很不可靠。另一方面,基于表观的手势模型 的计算复杂性低,易于达到实时。因此,目前绝大部分手势识别系统都采用了基于 表观的手势模型。不过,最近随着计算机性能的提高,已经有人开始把经过简化的 3 d 几何模型用于识别一定数量的交流性手势。 成功的手势识别策略应该考虑手势的时问一空间上下文,即考虑手势的语法规 则。语法规则既要反映手势的语言学特征,又要反映手势的空间特征。然而,到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论