




已阅读5页,还剩108页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于视觉的手势识别及其在仿人型机器人中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海交通大学博士学位论文 基于视觉的手势识别 及其在仿人型机器人中的应用 摘要 最近,语音识别、手势识别等新的人机接口技术的研究受到了广泛的关注。 本文主要研究了基于视觉的手势识别系统的关键技术,并用于人与仿人型机器人 之间的交互。 本文首先对基于视觉的手势识别方法进行了总结,分析了各种方法的优劣, 指出了提取鲁棒的手势特征和设计有效的分类器是手势识别中的两个重点。 支持向量机( s v m ) 由于坚实的理论基础,成为继神经网络后的又一个研究热 点。在静态手势识别中,提出并实现了基于l s s v m ( l e a s ts q u a r es v m ) 分类器 的手势识别系统。在分析l s s v m 的训练方法的基础上,提出了在线训练算法。 对于2 d 静态手势,提出了自适应的皮肤颜色概率模型,并采用f f t 描述子来提 取特征。提出了一种新的考虑扫描线间连续特性的基于动态规划的立体匹配算 法,并用于3 d 手势识别中。通过分割立体匹配得到的深度图,得到手的初步姿 态,并进行规整( w a r p ) ,得到手的正面视图,从而可以用2 d 手势识别的方法进 行识别。 关于动态手势的识别,最常用的是隐马尔可夫模型( h m m ,h i d d e nm a r k o v m o d e l ) 。但是h m m 存在优化的性能依赖于初始参数设置的缺点,并且标准h m m 优化的- n 标只是单个h m m 的似然最大,导致h m m 的炎f r l j 判别能力坡弱;本文 提出结合混沌的遗传算法来优化h m m 参数解决第个缺点。并通过引入结合极 大似然( m l ) 和极大互信息( m m i ) 的目标函数来解决第二个缺点。 对于双手动态手势,标准h m m 将双手之间的相对位置信号作为噪声处理, 从而导致识别率的下降。而耦合h m m ( c h m m ) 则可以较好地解决这个问题。 本文提出了最大后验概率( m a p ) 方法训练c h m m ,提高了识别率。c h m m 由于 引入了h m m 间的耦合,从而使状态空间和转移概率矩阵的参数增多,使得标准 精确推理( 即给定观察值求隐状态的条件概率) 的计算量指数增长。为解决这个 上海变通是学博士学位论文 问题,讨论了近似推理。 s v m 和h m m 分别是解决静态手势识别和动态手势识别的有力工具,同时 有互补之处,因此讨论两者的结合方法也是一个研究热点。本文总结了目前结合 s v m 与h m m 的方法,将结合方法分为s v m 概率输出和级联硒类,并分析了两 种方法的优缺点及适用的范围。本文采用级联的方法识别动态手势。 为进行手势识别,本文为仿人型机器人设计并建立了名为j f b i n o e y e 的四自 由度立体视觉系统。基于四个独立的控制模块和集成光流计算的图蒙采集系统, 该系统还可以实现人眼的些基本功能,如扫视、聚鹰和跟踪。利用而向对象技 术实现丁提出的识别算法,并嵌入到实验室以前开发内仿人机器人的软件支撑环 境_ r o b s t u d i o 。 本文提出的方法也可用于人机交互及家用电器的控制中。希颦本文的研究能 够为实现智能人机界面起到促进作用。 关键词:手势识别、支持向量机、隐马尔可夫模型、耦合隐马尔可夫 模型、遗传算法、立体匹配 i i 上海变通大学博士学位论文 v l s l o nb a s e dh a n dg e s u r er e c o g n i t i o n a n dl t sa p p l i c a t l o ni nh u m a n o l dr o b o t a b s t r a c t r e c e n t l y , t h en e wh m i ( h u m a n m a c h i n ei n t e r f a c e ) t e c h n o l o g i e ss u c ha ss p e e c h r e c o g n i t i o na n dg e s t u r er e c o g n i t i o nh a v er e c e i v e de x t e n s i v ea t t e n t i o n i nt h i sd i s s e r t a t i o n , t h ek e yt e c h n o l o g i e so fv i s i o nb a s e dh a n dg e s t u r er e c o g n i t i o nh a v eb e e nf o c u s e d w h i c h h a v eb e e nu s e di nt h ei n t e r a c t i o nh u m a na n dh u m a n o i dr o b o t f i r s t l y , t h em e t h o d s f o rv i s i o nb a s e dh a n d g e s t u r er e c o g n i t i o na r er e v i e w e da n dt h e i r a d v a n t a g e sa n dd i s a d v a n t a g e sa r ec o m p a r e d i ti sp o i n t e do u tt h a tt w oe m p h a s e si nh a n d g e s t u r er e c o g n i t i o na r ee x t r a c t i n gr o b u s tc h a r a c t e ra n dd e s i g n i n ge f f e c t i v ec l a s s i f i e r d u et os o l i dt h e o r y f o u n d a t i o n ,s u p p o r tv e c t o rm a c h i n e ( s v m ) h a sb e c o m e t h en e x t f o c u sa f t e rn e u r a ln e t w o r k s t a t i ch a n dg e s t u r e r e c o g n i t i o nb a s e do nl s - s v m ( l e a s t s q u a r es v m ) i sp r o p o s e da n di m p l e m e n t e d i n c r e m e n t a lt r a i n i n ga l g o r i t h mf o rl s s v mi s p r o p o s e d i n2 ds t a t i ch a n dg e s t u r er e c o g n i t i o n ,a d a p t i v es k i nc o l o rp r o b a b i l i t ym o d e li s p u tf o r w a r d a n df f td e s c r i p t o ri su s e dt oe x t r a c tf e a t u r e s an e ws t e r e om a t c h a l g o r i t h m b a s e do nd y n a m i c p r o g r a m m i n gi sp r o p o s e da n du s e di n3 dh a n dg e s t u r er e c o g n i t i o n , w h i c hc a nh o l d “i n t e r - s c a n ( i n ec o n s i s t e n c y w e l l t h ei n i t i a l p o s eo fh a n di sg o tb yd e p t h m a p ,w h i c hi sc o m p u t e db a s e do ns t e r e om a t c h t h e nh a n di sw a r p e dt ot h ef r o n t a lv i e w l ob e r e c o g n i z e dw i t h2 dh a n dg e s t u r er e c o g n i t i o nm e t h o d a sf o rt h ed y n a m i ch a n dg e s t u r er e c o g n i t i o n ,t h ec o m m o nt o o l i sh m m ( h i d d e n m a r k o vm o d e l ) b u tt h e r ee x i s ts h o r t a g e sf o rh m m s u c ha st h a tp e r f o r m a n c er e l i e so n i n i t i a l p a r a m e t e rs e t 【i n g a n dt h eo b j e c to fs t a n d a r dh m mi s o n l yt om a x i m i z es i n g l e h m m sl i k e l i h o o d w h i c he x p l a i n st h ew e a k d i s c r i m i n a n ta b i l i t yo fi n t e r - c l a s s f o rt h ef i r s t s h o r t a g e g e n e t i ca l g o r i t h mc o m b i n e dw i t hc h a o si sp r o p o s e dt oo p t i m i z et h ep a r a m e t e r s o fh m m a no b j e c tf u n c t i o n c o m b i n i n gm l ( m a x i m u ml i k e l i h o o d ) a n dm m i ( m a x i m u m m u t u a li n f o r m a t i o n ) i sp r o p o s e dt os e t t l et h es e c o n d s h o r t a g e , i t 上海变通太举博士学位论文 a sf o rt w o h a n dd y n a m i cg e s t u r e s ,s t a n d a r dh m mc o n s i d e mt h es i g n a lo fr e l a t i v e p o s i t o nb e t w e e nt w oh a n d sa sn o i s e ,w h i c hl e a d st ot h el o w e rr e c o g n i t i o nr a t e b u t c h m m ( c o u p l e dh m m ) c a n t a c k l et h i sp r o b l e m m a pt r a i n i n ga l g o r i t h mi sp r o p o s e df o r c h m mt oi m p r o v er e c o g n i t i o nr a t e d u et ot h ei n t r o d u c t i o no fc o u p l e sb e t w e e nh m m s ,t h e n u m b e ro fp a r a m e t e ri ns t a t es p a c ea n dt r a n s f o r m a t i o nm a t r i xi n c r e a s e s ,w h i c hm a k et h e c o m p u t a t i o n a lc o s tf o rs t a n d a r da c c u r a t ei n f e r e n c ei n c r e a s ee x p o n e n t i a l l y t os e t t l et h i s p r o b l e m ,a p p r o x i m a t ei n f e r e n c ei sd i s c u s s e d s v ma n dh m ma r e s e p a r a t e l yt h ee f f e c t i v et o o l sf o rs t a t i ca n dd y n a m i c h a n dg e s t u r e r e c o g n i t i o n b u tt h e yc a nh e l pe a c ho t h e r t h u st h ec o m b i n a t i o no fs v m a n dh m mh a s r e c e i v e de x t e n s i v ea t t e n t i o n s i nt h i sa r t i c l et h ec o m b i n a t i o nm e t h o df o rs v ma n dh m m i s r e v i e w e d a n dt h e s em e t h o d sc a nb ec l a s s i f i e di n t ot w o l a r g ec a t e g o r i e s o n ei s “p r o b a b i l i t yo u t p u to fs v m ”t h eo t h e ri s ”c a s c a d e ”a n dt h ea d v a n t a g e s s h o r t a g e sa n d a p p l i c a t i o nr a n g eo ft h e s et w oc a t e g o n e sa r ea n a l y z e di nd e t a i l i nt h i sp a p e r t h em e t h o d 。c a s c a d e ”i sa d o p t e dt or e c o g n i z e d y n a m i ch a n dg e s t u r e t oc a r r yo u th a n dg e s t u r er e c o g n i t i o n ,ab i n o c u l a rs y s t e m ,n a m e dj f b i n o e y e w i t h f o u rd e g r e e so ff r e e d o mw a s d e s i g n e da n de s t a b l i s h e df o rh u m a n o i dr o b o t j f b i n o e y e c a nd os o m eb a s i cf u n c t i o n ss u c ha ss a c c a d e ,c o n v e r g e n c ea n d t r a c k i n g ,w h i c hb a s e s o n f o u ri n d e p e n d e n tc o n t r o lm o d u l e sa n di m a g ei n p u ts y s t e mw i t hc o m p u t a t i o n a lo fo p t i c a l f l o w t h ep r o p o s e dr e c o g n i t i o n a l g o r i t h m sa r ei m p l e m e n t e db a s e do no b j e c t - o r i e n t e d t e c h n i q u e 。w h i c hi se m b e di n t oo u rp r e v i o u sh u m a n o i dr o b o td e v e l o p m e n te n v i r o n m e n t , r o b o t s t u d j o t h em e t h o d sp r o p o s e di nt h i sp a p e rc a na l s ou s e di nh u m a n - c o m p u t e ri n t e r f a c ea n d t h ec o n t r o lo fh o m ee l e c t r i c a la p p l i a n c e w ed o h o p e t h i sp a p e rc a np r o m o t et h er e s e a r c h o fi n t e l l i g e n th u m a n m a c h i n ei n t e r f a c e k e yw o r d s :h a n dg e s t u r er e c o g n i t i o n 。s u p p o r tv e c t o rm a c h i n e h i d d e nm a r k o vm o d e l c o u p l e dh i d d e nm a r k o vm o d e l g e n e t i ca l g o r i t h m ,s t e r e om a t c h v 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位沦文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权一卜海交通火学叮以将本学位 沦文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密曰。 ( 请在以上方框内打“”) 学位论文作者签名争l v z 彳 指删徽沉搴 日期:沙雌f 咱日 日期矗蒯f 文月厶日 上海交通大学 学位论文原创性声明 本人郑蘑声明:所呈交的学位论文,足本人在导师的指导下, 独立进行研究工作所取得的成果。除文,卜已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:副;哗 日期:卯) ,年月日 上海交通失学博士学位论文 第一章绪论 随着计算机技术的发展人机之间的交互需要更自然的交互接口。语音识别、人脸识别、 手势识别、表情识别、唇读、凝视跟踪以及体势识别等成为当前人机交互的重要研究内容。 总的说来人机交互技术已经从以计算机为中心,逐步转移到以人为中心,是多种媒体、多 种模式的交互接口【2 】o 手势识别是除语音识别外的一项重要研究内容,手势是人们之间交流的非语言交流方 式。手势包括简单的手势( 指向井移动某一物体) 利较复杂的手势( 表达我们的感情,并允 午我们互相交互) 。 除了计算机和用户的交互需要手势识别外,手势识别的另个重要川途烂智能机器人的 人机交互。智能机器人是本世纪的一个重要研究课题,它将广泛地应用于危险作业和服务机 器人,尤其是服务机器人,需要一个自然的人机接口。因此手势识别自然也是其中一项重要 i j l = 究内择。 为了实现手势识别,要求捕获手和手臂的动态或静态配置。最早的努力是直接测增手或 恃关= 1 ,( 或身体其它部分) 角度的机械毅置。这种装置称为基于手套的装置。基于手套的手 势识别要求用户戴上手套,这样就影响了人机交互的自然性。冈此基下视觉的手势识别成为 研究的主要方向,因为这更符合人机交互“自然”的要求。其优点是无需手套,一昨接触式, 快速计算能力使实时视觉计算成为可能。基于视觉的手势汉川使_ l | = | 一个或多个摄像头和计算 机视觉技术来解释手势。许多应e l j 侧重于手势的某一方面,如手的跟踪、手的姿态估计和 手臂姿态估计。 1 1 手势识别的研究历史及现状 1 1 1 手势识别的定义及分类 手势晟初作为做手势者的思想概念产生,可能伴随着语音。手势通过手或臂的运动来表 达。同样观察者感知到的手势是视觉图像流,他们用已有的关于手势的知识来解释这些图像 流手势的产生和感知模型可以用以下变换来表达: 上海楚通大举博士学位论文 - = g v = h y = ( g ) = 气g ( 1 1 ) ( 1 2 ) ( 1 3 ) 以上变换可看成不同的模型一其中,g 为手势,v 表示手势的圈像,是给定手势g 的情况下手或臂的运动模型,如是给定手或悖运动的情况下视觉图像的模型,描述了 给定手势g 下视觉图像v 如何形成。这些模型都是参数化的模型,而这些参数都属于对应 参数空间在这种意义下,可以说手势的视觉解i | = | 就是用一个适当的手势模型从视觉图 像v 推断出手势g 。 g = 又“矿 ( 1 4 ) 综上所述,基于视觉的手势识别定义如下: 手势就是手势模型参数空间m t 里的在一个适当定义的时问问隙1 上的一个随机过程, 每个手势可以看作模型参数空间里一个轨迹。 手势的产生过程可以用图1 1 表示: 手势产生观察者感知 gl i 图1 1 手势的产生和感知”i f i g1 1 p r o d u c t i o na r i ap e r c e p t i o n o f g c s t u r e s v 手势可分为静态手势( 指姿态、单个手形) 和动态手势( 指动作由一系列姿态组成) 。 手势按其袭达意义还可如图1 2 分类。 手势表现为人手或者手和臂结合产生的备神姿势或者动作。由于手势本身具宥的多样 性、多义性以及时间和空间上的差异性等特点,加之人手足复杂变形体,以及视觉本身的不 适定性,因此基于视觉的手势谈别是一个多学科交叉的、霸有挑战性的研究课题1 2 1 。 2 上海交通大学博士擘位论文 操 动作手势 符号手势 七,一一7 7 ,一一7 。 模仿手势指向手势 指示手势 语气手势 圈1 2 手势分类1 1 f i g1 , 2c l a s s i f i c a t i o no fh a n dg e s t u r e s l 1 2 当前基于视觉手势识别的研究 国内关于基于手势识别的人机交互的研究主要集中在清华大学和哈尔滨工业大学清华 大学计算机系媒体实验室1 2 , 3 , | 4 1 1 实现了“全方位图形浏览系统”、指语识别、3 d 手势鼠标等 项目。主要侧蘸于基于视觉的手势识别研究,在皮肤颜包建模、连续动态手势的基于图像属 性的鲁棒特征提取等方面有创新。哈工大1 4 j 贝u 侧重于基于数据手套的中国手语识别方面,取 得了重大的成就,已经达到实用的阶段,并实现了手语到文字的转换。其研究方法主要根据 语音识别领域的技术来实现手语识别。另外镇江华东船舶学院p 】进行了基1 :数据手套和神 经网络的手势识别。 国际上关于手势识别的系统( 9 7 年以前) 见文献 1 】中的表1 。主要涉及到计算机控制、 游戏、电视机控制、虚拟现实、f i n g e rm o u s e 、机器手控制、手语识别等。 综上所述,手势主要应用于:和计算机的交互( 如手势鼠标、基于手势的w i n d o w s 控制, 计算机游戏控制) 、和机器人的交互、手语识别等方面。其中和计算机的交互是基础研究内 容,和机器人的交互是手势识别的一项重要应用领域,最高的应用层次是手语识别。 最近的关于手势识另1 j ( 9 7 年后) 的文献总结如表1 1 : 可以看出,手势识别在虚拟现实、机器人控制、新的人机界面等方面都有广泛的应用 进行手势识别的研究机构既有大学,也有公司的实验室,如:i n t e l 、c o m p a q 、i b m 、微软 等公司的实验室。尤其是i n t e l 实验室的o p e n c v 计划,涉及儿乎计算机视觉的所有方向。 微软在新一代的人机接口方面也大力推进语音和手势的作用。而几乎所有关于智能机器人的 实验室都会涉及手势识别。 上海交避太掣溥士举枉论文 袭1 1 手势识别最新进展 t a b1 1a d v a n c e si ng e s t u r er e c o g n i t i o n 应蹈 手势建模技术手势命令 复杂性( 速度) 机器人学习手指方弹性圈匹配静态手势、手指指向、咀实时 向【6 7 j ( e l a s t i cg r a p hm a t e h i n 彩 及如何抓取物体 控制双日视觉平台手指的个数5 个静态数字手势命令实时 的动作8 i 基于手势的绘图例手掌重心的位置2 6 个字母和6 个几何形状5 帧,秒 控制投影仪手掌重心的位鹫( 基于阈1 0 个投影仪的控制命令5 1 9 贞秒 值模型的连续手势分割) 控制机器人的动作手掌的二值阁像的能最6 个动态手势命令不详 【h l 控制移动机器人手臂的形状和人纳跟踪 指向和打扫卫生的命令实时 【1 2 l 虚拟现实i 基于统计模型和儿何矩 5 个撵佧超= | _ 物体手辨3 0 帧秒 的手势识别和跟踪 验证s i n g l es t r o k e基于数据手套和轨迹的 1 6 个动态手势实时 h m m 算法f 1 4 1 3 d 动态平势识别 a s l ( 美国手语)基于混合运动颜色分割4 0 个美国手语3 0 帧秒 识剐1 1 5 和t d n n 的a s l 识别 i n t e lo p e n c v 基于立体视觉和h u 矩的6 个静态手势识别实时 手势识别【1 6 l手势识别( 与位姿无关) a s l ( 美国手语)并行h m m2 2 个美国手语不详 识别 奏乐手势识别 i s l子空闻法+ h m m + 光流 5 种弹奏乐器的手势识别实时 下面i 详细介绍一些手势识嗣在机器人中的应埔: 首先魁德国的只有上半身的单臀服务机器人w l ,如图 3 所示。 4 上海交通尢学博士学位论支 圈1 3 识捌指向和手势的服务机器人。刚 f i g 1 3 s e r v i c er o b o tt h a te 。q l tr e c o g n i z et h ep o i n t i n gd i r e c t i o na n dp o s t u r e l 6 ,7 i 豳1 3 中的左闰所示为示范者,用户用手指向一个手机,机器人识剐出手的指向和路径, 然后规划路径,控制机械手抓起该物体。研究内容主要是手的检测和跟踪,以及基于弹性圈 匹配的静态手势识别( 手形识别) 。 。 其次是加枣大多伦多大学的主动双目视觉系统s a v i i ”该系统可以j 日0 :机器人、会议 电视等炀。刚户可以通过静态手势控翎摄像头的焦距、光圈等。研究内容主要是手的检测 与跟踪、人黢识别、以及基于模扳的手势识别。实验环境如1 4 所示。 图1 4 主动视觉平台s a v i i 研 f i g 1 , 4a c t i v ev i s i o np l a t f o r mo f s a v i 1 8 j 最后介绍手势识别在移动机器人的应淄。在美国c m u 的机器人实验室中,箱户移动 手臂做出手势,移动机器入识别出手势后,执行相应的动作。例如:用户指向一个称为“垃 圾”的物体,机器人走去移动将其搬起,然后用户_ 义描向“垃圾堆”,机器人将“垃圾”移 到“垃圾堆”。机器人还能跟踪用户的移动。研究内容主要是用户跟踪、手臂检测以及基于 神经网络和模板的手臂手势识别。实验环境如图1 5 所示 上海史通太学博士擘位论史 图1 5 手势识别与移动机器人” f l g 1 5g e s t u r er e e o g a l t i o na n dm o b i l er o b o t 吲 综上所述,手势识别在人和机器人的交互中有着重要的应用。尤其对于我们实验室研制 的仿人型机器人来说,包括手势识别和语音识别的人性化的交互技术更是必不可少。 1 1 3 基于视觉手势识别的关键研究内容 基于视觉的手势识别系统分为三个阶段:手势建摸、手势分析、手势识别。第一个阶段 延选定一个手势模型,该模型可能同时包括手的空间特征和手势的时间特性。手盼分析阶段 的任务是从图像特征计算模型参数,这些图像特征定义从单个戏多个视频输入流中抽敢。这 些参数构成为手形或轨迹的描述,这取决于所用的建模方法。其中撮重要的任务是手的定位、 手的跟踪以及选择合适的图像特征。在手势识别阶段根据所选模型及语法约束规则对模型 参数进行分类和选择。该语法不仅反映手势命令的内部句法,也反映手势和其它交流方式( 语 音、凝视、人脸表情等) 的交互的可能性。 ( i ) 手势建模阶段 手势建模是整个手势识别系统中的第一步。具体的应川决定了模型的选取,手势建模方 法可分为两大类:基于表观的手势建模和基于3 d 模型的手势建模。基于表观的手势建模, 顾名思义,与手或臂的表观有关通过分析手势在图像( 序列) 里的袭观特性对手势建模。 基于3 d 模型的手势建模,则考虑手势产生的中间媒体( 手和臂) 。一般分为两步:首先给 手和臂的运动以及姿态建模然后从运动和姿态模型参数估计手势模型参数,图1 3 对手势 模型详细进行分类。 6 上海变通大举博士学位论史 手势模型 图1 6 手势模型的分类i 2 f f i g1 6c l a s s i f i c a t i o no fg e s t u r em o d e l 如图1 6 所示,基于3 d 手( 臂) 模型的手势模型又可以分为纹理模型、刚格模型、几 何模型以及骨架模型。最常使用的3 d 模型是3 d 骨架模型,其参数是经过简化的关节角度参 数和指节长度。人手的物理特性可以为3 d 骨架攒型提供两组约束:静态约求( 荚肖角度范 围) 和动态约束( 运动依赖关系) 口】。 蜘1 瞄1 6 所示,基于袭观的手势模型也分为四种。笫一种使瑚2 d 灰度围俘本身建立手 势模型。手势集合里的每一个手势都由一系列代表性图像组成,系列中的每一个元索对应于 一个视点下的手的图像。这些模型的参数一般是图像本身。例如人手在运动中的完馇图像序 列可以作为手势模板( 2 2 , 2 3 。最近研究的方法i ( 运动历史图像) 2 4 1 也属于此类。m h i 是指在 某个时间区间上累加图像序列里各单个象素点的运动位置而形成的2 d 图像。m i l l 可眺用来 对不同的手势运动进行建模。 第二种采用手的变形2 d 模扳2 5 , 2 6 , 2 7 , 2 8 , 2 9 | 对手势进行建模。变形2 d 模扳是物体轮廓上用 作插值节点去近似物体轮廓的点的集合。模板由s i l 均点棠合、点可变性参数、以及所诮的外 部变形构成。平均点集合描述了某一组形状的“平均”形状,点可变性参数描述了允许的形 变通常称这两组参数为内部参数。外部变形或者外部参数描述了一个变形模板的全局运动, 例如旋转、平移等。基于变形模板的人手模型通常用于手势跟踪1 2 5 , 2 8 1 。变形2 d 模板扩展3 d 情形下就是3 dp d m ( p o i n td i s t r i b u t i o nm o d e l ,点分布模型) 【”1 ,主要用于手势跟踪【2 】。 第三种是基于图像属性的表观模型。图像属性参数包括轮廓、边缘、图像矩、图像特征 向量以及区域直方图特征等。最常用的图像属性参数是图像矩,其它常被使用的属性参数还 包括z e r n i k e 矩 3 q 、方向直方1 3 2 1 、颜色直方图等。这些参数也用在下面描述的手势分析 过程中。大多数基于表观的手势模型都采用一种或几种图像属性参数建立手势模型。 第四种是基于图像运动的表观模型。这类表观模型主要用在动态手势识别里,从图像运 7 上海交通大学博士荦住论文 动参数中抽取手势模型参数。一类是赴了:光流的运动参数提取 3 3 , 2 0 i 。基本思路是通过运动垃 界点以及方整约束或者通过区域相关性计算光流,然后进行光流聚类,实现提取手辨的运动 轨迹或者区域分割。另一类是基于运动参数模型提取运动参数。如文献 3 】提出的时空表观 模型,利用图像的变阶运动参数模型及鲁棒回归分析的方法去估计图像的运动参数,井同时 分割出对应的运动区域。然后基于图像运动参数的物理意义以及运动区域的形状特征构造帧 问表观特征,最后由帧问寝观特征构造手势的时空表观模型。 图1 7 列出了几种手势模型。 ( r )( b ) 【d )( e ) 图1 7 不同的手势模型1 2 ( a ) 有纹理的3 d 体模型( b ) 3 d 网格模型( c ) 3 d 骨架模型 ( d ) - - 值影象( e ) 轮廓2 1 f i g1 7d i f f e r e n th a n dg e s t u r em o d e l ( a ) 3 dt e x t u r e dv o l u m e t r i cm o d e l ( b ) 3 dw i r e f r a m e v o l u m e t r i cm o d e l ( c ) 3 ds k e l e t a lm o d e l ( d ) b i n a r ys i l h o u e t t e ( e ) c o n t o u r1 2 1 ( 2 ) 手势分析阶段 手势分析就是估计选定的手势模型的参数,一般由特征检测和参数1 i l i 计封1 成。 特征检测的任务是对做手势的人手进行定位。定位披术分为基于颜色定位、基于运动定 位、以及基于混合信息定位等三种。第一种基于颜色定位让术利h j 皮肤颜色在颜色空间中的 分布,可以利用阈值的方法将人手分割山来。但是不同的光照条件下皮肤颜色变化较大,导 致检测的误差较大。这一点可以通过限制性背景或者颜色手套米克服。第二种基于运动的定 位技术通常用于动态手势识别中,它通常假设只有一个人在做手势,因此图像里的主要运动 分量通常是手的运动。第三种方法则综合利用以上两种方法,称为基于多信息定位技术( 颜 色和运动的混合信息) 。 在模型参数估计过程中,根据使用的手势模型,需要估计不同的模型参数,但j j l j 于计 算模型参数的图像特征基元通常是非常相似的。常删的幽像特征基元包括灰叟幽像 2 2 , 2 4 】、= 值影象i 】4 】、区域 2 0 , 3 5 、边界及轮廓1 3 3 , 3 6 1 或者指尖1 3 7 蝣。 r 上海变通大学博士学位论文 3 d 手模型通常涉及到两组参数:角度参数( 关节角度锌) 和直线参数( 指骨长度和手 掌尺度婷) 。从检测出的特征去估计这些运动学参数通常包括两个环 7 :初始参数估计和参 数随时间的更新。到目前为止,所有3 d 人手模型都假设直线参数是预先已知的。这个假设 把求解人手关节角度问题转化为逆运动学问题给定3 d 终端效应器的3 d 能置和运动学链的 基点,逆运动学的任务就是找出链里的指节之间的关节角度。逆运动学问题本质是病态的 ( i i l 一p o s e d ) ,允许有多个解,并且计算量大,因而不能用于实时问题。一旦估计出入手模型 的初始参数,利用某种预测平滑策略就可以更新参数估计。最常用的的策略是卡尔曼滤波 和预测。 下面讨论基于表观的手势模型的参数估计。笫一种基于灰度图像本身的表观模型有许多 不同的参数。可以选择模型视图序列作为参数。也可以使用序列里各帧图像关于平均图像的 特征分解表示。第二种基于变形2 d 模板表观模型的典型参数是模板1 y 点的均值和它们的方 差。还有外部变形参数,可以在类似于刚休运动估计的框架下估计模型参数。第三种基t 图 像属性表观模型的常用参数是手形几何矩、z e r n i k e 矩、以及方向商方图【3 2 i 等等。这些图 像特征参数易于估计,但是它们对图像中其它非手物体非常敏感。基1 i 运动图像表观丰铤型的 参数包括平移运动参数、旋转运动参数【2 0 | 、以及图像变形参数”等等。文献f 3 l 中提山的 刚空表观手势模型参数则包括平移运动参数、旋转运动参数、膨胀参数、变形参数、以及方 位参数等等。 ( 3 ) 手势识别阶段 手势识别就是把模型参数空间里的轨迹( 或点) 分类到该空问里某个子集的过程。静态 手势对应着模型参数空间里一个点,而动态手势则对应着模型参数空间里的条轨迹,因此 它们的识别方法有所不同【“。静态手势识别算法可以采刚模式识别中常见的分类方法,如 b a y e s i a n 分类器和f i s h e r 判别器以及神经网络分类器锦非线性分类器。 动态手势涉及时间及空间上的变化。多数动态手势被建模为参数空问里的一条轨迹。不 同用户做的手势幅度和持续时间太不相同因此可以利用语音识别中的技术来进行规整 ( w a r p i n g ) 处理。根据对时间轴的不同规整处理方法,现有的动态手势识别技术可以分为 三类:基于隐马尔可夫模型”9 , 1 0 , 1 4 , 1 7 , 1 9 1 ( h i d d e nm a r k o vm o d e l s ,h m m ) 的识别,基于动态 时间规整p 6 3 1 ( d y h a m i et i m ew a r p i n g 。d t w ) 的识别,基于神经网络的识别i 。 h m m 的识别算法是用一个h m m 对每种手势建模。观察量对应着模型参数,如几何矩 向量、z e m i k e 矩、特征图像系数向量、或者3 d 空间的运动速度等等。h m m 的一个优点包 括提供了时间尺度不变性、保持了概率框架、以及具有自动分割和分类能力吼h m m 的另 9 上海交通太学博士学位论文 一个优点是易扩展性,如同在语音识别中容易从孤立词识别扩展到连接词识别、直至连续语 音识别一样,h m m 也可方便地从单个孤立手势识别扩展到手语识别。但h m m 也有缺点, 一个h m m 只是根据对应于该模型的训练集进行训练,而忽视了对应于其它手势的训练集, 从而造成h m m 的判别能力较弱。这是本文第三章和第五章的研究内窖 d t w 方法采用动态规划技术将一个复杂的全局最优化问题化为许多局部最优化问题一 步一步地进行决策。使用某种指定属性的非线性规箍函数对时间轴上的波动近似建模,通过 规整其中一个模式的时间轴使之跟另一个模式达到最大程度的重叠( 此时的残差距离最小) 从而消除两个时空表示模式之间的时间差别。实际上,它是h i 协, t 的简化。d t w 方法的优点是 概念上简单,也比较有效,在测试模式和参考模式之间允许有充分的弹性“。 基于神经网络的手势识别方法中采用特殊的神经网络,而不是常见的b p 网络。因为手 势信号是变k 序列,所以采用t d n n ( t i m e d e l a y n e u r a l n e t w o r k ,时j 正神经网络) j 。t d n n 是作为动态手势识别方法,它只看到运动模式的一个小窗口。当网络作出一系列的局部决策 时,这个窗口在输入数据上进行滑动。这些 a 部决,馕必须在稍后时间内进行综合成一个全局 决策。t d n n 的输入是从手势轨迹中得到的模型参数,如位置、速度、方向等,输出为识别 出的手势类别。t d n n 的训练算法采用误著反传( e r r o rb a c k p r o p a g a t i o n ) 算法。 综上所述,在选定手势模型后,手势的分析年i f 识别过程如图1 8 所示: g 图1 8 基于视觉的手势识别系统”i f i g1 8v i s i o nb a s e dg e s t u r er e c o g n i t i o ns y s t e m 摄像头摄入的视频图像v 经过手势分析模块得到手势模型参数,然后通过识别模块得 到识别出的手势。手势分析模块又分特征检测和手势模型参数估计。在手势跟踪过程中又有 1 0 上海交通大学博士学位论文 参数预测和模型预测模块。识别出的手势可以用于诸多虑媚中,如移动命令、操作命令等等。 其中踊重要的两部分是特征检测模块和识刈模块,本文就围绕这两部分进行研究。 1 2 本文研究的出发点和主要研究内客 从以上介绍可以看出。基于视觉的手势识别是新- - 4 人机界面接口的一个重要研究方 向,应用非常广泛。本文的研究背景是为仿人机器人j f h r 开发视觉系统,因此设计并制造 了双目视觉平台j f b i n o e y e 。研究的出发点是为s f h r 配置更完善和自然的基于视觉的人机 接口。实现一个通用的视觉系统一直是人们的梦想,但是有关人类视觉的计算机制还有待探 索p 9 4 0 。“因此本文从仿生的角度模仿人眼的自由度和功能( 跟踪、聚焦、扫视) 。并结合 计算机实现部分视觉功能手势识别 手势识别是模式识别的一种,涉及到图像处理、计算机视觉、模式识别理论、概率论、 机器学习和优化理论等多个领域的知识。尽管有效的特征提取算法是一个成功的模式识别系 统的重要步骤,本文更侧重于新的模式识别方法的研究。本文的主要研究内容是模仿人眼的 构造和功能,设计并实现一个双目视觉平台;然后从模式识别的角度,尝试将最新的模式识 另l j 理论一支持向量机( s v m ) 州应用于手势识别,并综合混沌和遗传算法等优化方法对隐 马尔可夫模型( h m m ) 3 1 l 的参数进行优化;最后讨论了( s v m ) 和h m m 的混合模型在动 态手势识别中的应用。具体的研究内容如下: 研究鲁棒的手势特征提取 特征提取对分类器的性能有很大影响。对于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 4.1 原子结构与元素周期表(第2课时)(教学设计)高一化学同步高效课堂(人教版2019必修第一册)
- 2025年租赁店铺的标准合同模板
- 2025退休人员再就业合同范本
- 2025私营企业非全日制劳动合同(合同范本)
- 《谏太宗十思疏》教学设计 2023-2024学年统编版高中语文必修下册
- 2025中外技术合作合同范本
- 内蒙古事业单位笔试真题2025
- Module 2Unit 1-说课稿2025-2026学年外研版英语八年级下册
- 2025上海市建筑工地人员安全生产合同
- 安徽公务员真题试卷
- 村干部饮水安全培训总结课件
- 安全生产治本攻坚三年行动半年工作总结
- 单招备考科学方案
- 海船船员适任 评估规范(2024)轮机专业
- DB50-T 1463.2-2023 牛羊布鲁氏菌病防控技术规范 第2部分:人员防护
- 《工程勘察设计收费标准》(2002年修订本)
- 最新人教版四年级英语上册课件(完美版)Review of Unit 5
- 掌骨骨折查房课件
- 大学食堂装饰装修方案
- 工资结清证明(模板)
- 矿山档案(台帐) 表格参照模板参考范本
评论
0/150
提交评论