(通信与信息系统专业论文)复杂背景下基于视觉的动态手势识别研究.pdf_第1页
(通信与信息系统专业论文)复杂背景下基于视觉的动态手势识别研究.pdf_第2页
(通信与信息系统专业论文)复杂背景下基于视觉的动态手势识别研究.pdf_第3页
(通信与信息系统专业论文)复杂背景下基于视觉的动态手势识别研究.pdf_第4页
(通信与信息系统专业论文)复杂背景下基于视觉的动态手势识别研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(通信与信息系统专业论文)复杂背景下基于视觉的动态手势识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文摘要 人们很早就通过手势进行信息的交互,手势是人们信息交互的重要方式之 一。随着计算机技术的发展,人机交互的中心开始从计算机向人的方向转移。基 于计算机视觉的手势识别方法能够提供更加友好的人机交互方式,是手势识别技 术发展的趋势和目标。但是因为手势具有时间和空间上的多样性和不确定性,而 且人手本身也是复杂的可变形体,所以目前这种人机交互方式还处于实验阶段, 理论不是很成熟,能够识别的范围比较小,这是一个极富挑战性的多学科交叉的 研究课题。 基于视觉的动态手势识别的过程大致可分为手势分割、手势特征提取以及特 征识别三个阶段。本文在已有的动态手势识别框架的基础上,主要做了如下三部 分的工作: 在手势分割阶段,本文改进了原有的分割流程,提出了基于卡尔曼滤波的手 势位置预判与基于h s v 颜色空间肤色聚类相结合的手势分割方法。此外,本文 还采用基于人手肤色先验经验的自动白平衡以及基于r 分量的动态差分分析等 技术在复杂背景下进行手势的分割,与传统的基于r g b 肤色模型的手势分割相 比,取得了较好的分割效果。 在手势特征的提取阶段,本文在分析了基于简易拓扑学以及归一化的傅立叶 描述子的特征提取的方法的基础上,根据动态手势中不同的角度的手形具有不同 意义的特点,在放宽手势特征值的标准,即不要求旋转不变。在此前提下,提出 了边缘抽样统计的特征提取算法,并给出了这种特征值的二维图像意义。实验表 明,在这种放宽的标准下,通过训练好的神经网络,这种算法具有速度快,识别 率良好的特点。 在特征的识别阶段,本文主要进行了轨迹识别以及包含手指位置信息的轨迹 识别研究。在轨迹识别方面,本文借鉴成功应用在语音识别中的隐马尔可夫模型 的方法,取得了较满意的结果。在包含手指位置信息的轨迹识别方面,本文提出 了一种关键帧序列识别和轨迹识别相结合的方法,对三种手势进行识别,取得了 9 0 3 的平均识别率。实验结果表明,这种方法具有一定的实用价值。 关键词:手势识别手势分割特征提取基于边缘抽样统计的描述子 隐马 尔可夫模型 a b s t r a c t p e o p l eh a v eb e e nu s i n gh a n dg e s t u r e st oc o m m u n i c a t ew i t he a c ho t h e r f o rav e r yl o n gt i m e h a n dg e s t u r ei so n eo ft h em o s ti m p o r t a n tw a yp e o p l e u s et oc a r r yo nm e s s a g e s w i t ht h ed e v e l o p m e n to ft h ec o m p u t e rt e c h n o l o g y , t h ef o c u so fh c i ( h u m a nc o m p u t e ri n t e r a c t i o n ) i sm o v i n go n t oh u m a n v i s i o n b a s e dh a n dg e s t u r er e c o g n i t i o np r o m i s e sam u c hf r i e n d l i e rw a yo f h c i i ts t a n d sf o rt h ec u t t i n ge d g ea n dt e n d e n c yo ft h i sf i e l d h o w e v e r , h a n dg e s t u r e sa r er i c hi nd i v e r s i t i e s ,m u l t i m e a n i n g sa n ds p a c e t i m e v a r i e t i e s h u m a nh a n d st h e m s e l v e sa r ec o m p l e xn o n g r i do b j e c t s ,s ot h i s f i e l di se x t r e m e l yc h a l l e n g i n ga n di n t e r d i s c i p li n a r y t h et e c h n o l o g yi s s t i l li nt h el a b o r a t o r y v i s i o n 。b a s e dd y n a m i ch a n dg e s t u r er e c o g n i t i o ni sc o m p o s e do ft h r e e p a r t s t h e ya r eh a n dg e s t u r es e g m e n t a t i o n ,h a n dg e s t u r ee i g e n v a l u e s e l e c t i o na n de i g e n v a l u er e c o g n i t i o n t h i sp a p e ra c c o m p li s h e st h e f o l l o w i n gw o r k s ,b a s e do nap r e d e f i n e dp r o c e s s i n gf r a m e w o r k a st ot h eh a n dg e s t u r es e g m e n t a t i o np a r t ,t h i sp a p e rp r o p o s e sa r e f i n e dp r o c e d u r et os e g m e n tt h eg e s t u r ei m a g e am e t h o dt h a tc o m b i n e s k a l m a nf i l t e r i n gt od e t e r m i n et h eh a n dr e g i o np o s i t i o nw i t hs k i nc o l o r d e t e c t i o ni nh s vc o l o rs p a c ei sa p p li e df o rs e g m e n t a t i o n b e s i d e s ,a u t o w h i t eb a l a n c eb a s e do np r i o r is k i nc o l o ri n f o r m a t i o na n dm o v e m e n ta n a l y s i s b a s e do nr - c h a n n e li m a g ed i f f e r e n c ea r ee m p l o y e dt oe x t r a c th a n dg e s t u r e s f r o mc o m p l e xb a c k g r o u n d c o m p a r e dw i t ht h em e t h o db a s e do nr g bc o l o rm o d e l , i tisp r o v e dt og e tab e t t e rr e s u l t a st ot h eh a n dg e s t u r ee i g e n v a l u es e l e c t i o np a r t ,o na n a l y z i n ga s i m p l e t o p o l o g yb a s e dd e s c r i p t o r sa n dn o r m a l i z e df o u r i e rd e s c r i p t o r s , t h i s p a p e rp r o p o s e dan e w k i n do f r o t a t i o ns e n s i t i v ee i g e n v a l u e d e s c r i p t o r sw h i c hi sb a s e do ne d g es a m p l i n gs t a t i s t i c s t h ee x p e r i m e n t p r o v e st h a t t h i sk i n do fd e s c r i p t o r si se f f e c t i v ea n de a s yp r o c e s s i n g u n d e rt h ea s s u m p t i o nt h a tt h er o t a t i o no fh a n d sm a yr e s u l ti nd i f f e r e n t m e a n i n gi nd y n a m i ch a n dg e s t u r er e c o g n i t i o n t h ee i g e n v a l u er e c o g n i t i o np a r ti sc o m p o s e dw i t ht r a c kr e c o g n i t i o n a n dt r a c kr e c o g n i t i o nw i t hf i n g e ri n f o r m a t i o n t h i sp a p e re m p l o y sh m m i l ( h i d d e nm a r k o vm o d e l ) t h a th a sh a dg r e a ts u c c e s si ns p e e c h s i g n a l p r o c e s s i n gt or e c o g n i z eg e s t u r et r a c kt or e c o g n i z eh a n dt r a c k s ,w h i c hi s p r o v e dt ob ee f f e c ti v ea n ds a t is f y i n g a st ot h et r a c kr e c o g n iti o nw i t h f i n g e ri n f o r m a t i o n ,t h i sp a p e rp r o p o s e dac o m b i n a t i o no fk e yf r a m e r e c o g n i t i o na n dt r a c kr e c o g n i t i o n ,w h o s ea v e r a g er e c o g n i t i o nr a t ei s 9 0 3 t h i sr e s u l ti ss a t i s f y i n ga n dh a sp r a c t i c a lv a l u e k e y w o r d s :g e s t u r er e c o g n i t i o n ,h a n dg e s t u r es e g m e n t a t i o n ,e i g e n v a l u e s e l e c t i o n ,e d g es a m p l i n gs t a t i s t i c sb a s e dd e s c r i p t o r s ,h i d d e nm a r k o v m o d e l i i l 图目录 图1 1 手势识别系统的构成4 图1 2 手势模型的分类5 图2 1 手势分割系统基本流程图1 0 图2 2 手势的原图1 l 图2 3 平均值滤波的效果图1 2 图2 4 中值滤波的效果图1 2 图2 5 待二值化的原图1 3 图2 6 二值化的结果图1 3 图2 7 开运算的结果图1 3 图2 8h s v 颜色空间图1 5 图2 9 手势的原图1 6 图2 1 0h 值分割结果图1 6 图2 1 1 直接差分的结果( 域值= 1 0 ) 1 8 图2 1 2 直接差分的结果( 域值= 5 0 ) 1 8 图2 1 3 快速运动的手势的直接差分结果( 域值= 5 0 ) :1 8 图2 1 4 亮度不足或者部分手指运动的差分结果( 域值= 5 0 ) 1 9 图2 1 5p r e w i t t 边缘检测的结果图2 0 图2 1 6 基于r g b 的差分结果( 域值= 1 0 ) 2 2 图2 1 7 基于r 分量的差分结果( 域值= 1 0 ) 2 3 图2 一1 8 线性卡尔曼滤波器的工作流程口口:2 5 图2 一1 9 没有经过滤波的人手中心点2 7 图2 2 0 经过滤波的人手中心点2 8 图2 2 1 带人脸及其它近似肤色区域的二值图像2 8 图2 2 2 识别后的人手区域一j2 9 图2 2 3 改进后的手势分割流程:3 0 图2 2 4 正确分割的手势图像一3 l 图2 2 5 有误差的分割结果3 2 图3 1 基于拓扑的特征提取示意图一3 4 图3 2 归一化的傅立叶描述子示意图3 5 图3 3 人手的骨架模型3 6 图3 4 手势图像边缘网格示意图3 7 图3 5 基于边缘抽样统计的特征向量3 8 图3 6 旋转引起的特征向量的改变3 9 图3 7 像素分布概率图4 0 图3 8 像素分布概率图对应的手形4 0 图3 9 单隐层b p 神经网络结构示意图4 3 图3 一1 0 系统训练示意图4 4 图4 一l 特征点的选取4 8 图4 2 轨迹矢量及其1 2 种标准夹角4 9 图4 3 从a t 推导口,+ l 【川5 l 图4 4 单个手势轨迹的左右型h m m 模型5 4 图4 5 包含手形的动态手势识别的主要流程5 6 图4 6 关键帧与过渡帧5 6 图4 7 左、下、摇摆的手势及其关键帧5 7 表目录 表3 一l 手势识别结果4 5 表3 2 提高抽样数量对识别率的影响4 6 表3 3 增加隐藏层单元数量对识别率的影响4 7 表4 1 手势轨迹测试结果5 4 表4 2 三种手势的识别率5 7 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究 成果据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经 发表或撰写过的研究成果对本文的研究做出重要贡献的个人和集体,均已在 文中作了明确说明并表示谢意 作者签名:名曰终_ 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定 学位论文作者签名渺 日期:寥! 墨:墨:1 2净, 纺驯 口立 : 口一 名 翌 摊 互 j矿既口 剥 期 1 1概述 第1 章绪论 基于人体生物学特征的人机交互技术一直是计算机领域的研究前沿。基于计 算机视觉的手势识别则是计算机视觉领域的一个研究热点。将手势识别系统用于 人机接口,从而实现直接的、自然的人机交互方式,是手势识别的发展趋势和基 本目标。其中最关键的三个问题是动态手势的分割、建模以及识别。由于手势本 身的复杂性以及对手势背景的复杂性要求,基于视觉的手势识别是一个多学科综 合交叉的,极富挑战性的课题。 本章介绍了本论文研究的主要目标,在概述国内外手势识别研究情况的基础 上,讨论了手势研究的难点,最后简要介绍了本文其官各童节的内容左排。 1 2 研究问题的提出 手势是一种自然直观的人机交互手段,人们可以通过定义适当的手势对周围 的计算机进行控制而无须借助其它的输入设备,因此这种交互手段为人们提供了 丰富而简便的操作计算机的方式,吸引了众多人的研究目光。但是因为手势具有 时间和空间上的多样性和不确定性,而且人手本身也是复杂的可变形体,所以这 是一个极富挑战性的多学科交叉的研究课题。 手势识别研究可以应用于计算机辅助哑语( 手语) 教学、影视特技处理、虚 拟现实以及游戏娱乐等多个方面,具有广泛的应用前景。同时,通过对计算机手 势识别的研究,可以在一定程度上促进心理学、计算机图形学、医学以及机器人 工程等诸多学科的发展。因此,手势识别的研究不仅具有挑战性,而且是一个非 常有意义的课题。 本论文是课堂教学质量预测研究的基础部分。在课章教学质量的预测研究 中,教师的教学仪态是一项重要的考查指标,而教学手势则是其中较大的一部分。 传统上由专家对教师教学进行旁听并记录典型手势的出现次数和时间,但往往因 为地域或时间的关系,不可能随时随地对每个教师进行专家考评。有鉴于此,我 们尝试引入计算机辅助检测,由计算机代替专家进行典型手势的统计分析。 考虑到手势识别的复杂性,本论文将尝试解决在手势识别中的如下几个基本 问题: ( 1 ) 探讨在较复杂的背景中,如存在人脸以及非纯色背景下,有效提取手势 区域的方法; ( 2 ) 选择一种手势特征的描述子,能够达到近似实时处理的速度和令人满意 的识别精度; ( 3 ) 实现一种对手势轨迹以及包含手指运动的手势轨迹的识别方法。 1 3手势的定义和分类 不同文化背景对手势的定义是有区别的。本文参考了任海兵等人对手势的 定义,从手势识别的角度考虑这里把手势定义为:手势是人手( 不包含手臂) 的 各种姿势和动作,它包括静态手势( 单个手形) 和动态手势( 一系列手形组成的序 列) 。静态手势对应空间里的一个点,而动态手势对应着模型参数空问里的一条 轨迹,需要使用随时间变化的空间特征来表述。手势和手形的区别在于,手势强 调具有时空特性的手形及其运动,而手形则强调人手所处某一时刻的形态和状 态。 人的手势大致可以分为:交互性手势与操作性手势,前者手的运动表示特定 的信息( 如乐队指挥) ,靠视觉来感知;后者不表达任何信息( 如弹琴) ;自主性 手势和非自主性手势,后者与语音配合用来加强或补充某些信息( 如演讲者用手 势描述动作、空间结构等信息) ;离心手势和向心手势,前者直接针对说话人, 有明确的交流意图,后者只是反应说话人的情绪和内心的愿望。 1 4 手势识别的分类 从手势输入设备来看,手势识别系统主要分为基于数据手套的识别系统和基 于视觉( 图像) 的手势识别系统。 1 4 1 基于数据手套的手势识别 基于数据手套的手势识别系统,是利用数据手套和位置跟踪测量手势在空间 运动的轨迹和时序信息。基于数据手套的方法具有识别率较高等优点,但缺点也 是很显而易见的,即打手势的人要穿戴复杂的数据手套和位置跟踪器,并且输入 设备比较昂贵。利用数据手套等典型传感设备的方法,台湾大学的l i a n g 等人利 用单个v p l 公司的数据手套作为手势输入设备,可识别台湾手势课本中的2 5 0 1 任海兵,祝远新,徐光佑等基于视觉手势识别的研究综述【j 】电子学报,2 0 0 0 ,2 8 ( 2 ) :l l8 2 个基本词条,识别率为9 0 5 t 2 】【3 】。卡耐基一梅隆大学( c m u ) 的c h r i s t o p h e rl 和x u 在1 9 9 5 年完成了一个操纵机器人的手势控制系绀4 1 。k a d o u s 用p o w e r g l o v e s 作为手势输入设备,识别有9 5 个孤立词构成的词汇集,正确率为8 0 【5 1 。 1 4 2 基于视觉的手势识别 基于视觉的手势识别系统是利用摄像机采集连续的手势二维图像序列信息, 通过对图像进行分析和提取,从而识别手势。该方法的最大优点是输入简单易行, 对设备要求低,但识别率比较低,实时性较差,特别是很难用于大词汇量的手势 录的识别。其中具有代表性的研究成果包括:d a v i s 和s h a h 将具有高亮标记的视 觉手套的手势作为系统的输入,可识别7 种手势。s t a m e r 等在对美国手势中带 有词性的4 0 个词汇随机组成短句子识别率达到9 9 2 。g r o b e l 和a s s a m 从视频 录像中是取特征,采用h m m 技术识别2 6 2 个孤立词,j 下确率为9 1 3 。此外, v o g l e r 与m e t a x a s 将两种方法结合用于美国手势识别,交互采用一个位置跟踪器 及三个互相垂直的摄像机作为手势输入设备,完成了5 3 个孤立词的识别,识别 率为8 9 9 1 6 1 。 1 5 基于视觉的手势识别的现状 目前基于视觉的手势识别一般分为四个阶段:手势图像的采集、手势图像的 分割、特征提取以及手势识别。通过这四个步骤来完成手势的识别工作。 1 5 1 手势识别系统的构成 一个基于视觉的手势识别系统的总体构成如下( 见图1 - 1 ) 。首先,通过摄像 机获取视频数据流。接着,系统根据手势输入的交互模型检测数据流旱是否有手 势出现。如果有,则把该手势从视频信号中切分出来。然后,选择手势模型进行 手势分析,分析过程包括特征检测和模型参数估计。如果是动态手势则还要对运 2l i a n gr h a n d o u h y o u n gm ar e a l t i m ec o n t i n u o u sa l p h a b e t i cs i g nl a n g u a g et os p e e c hc o n v e r s i o nv r s y s t e m 【j 】c o m p u t e rg r a p h i c sf o f i l m ,a u g 19 9 5 ,l4 ( 3 ) :c 6 7 c 7 7 3l i a n gr - h a n d o u h y o u n gm as i g nl a n g u a g er e c o g n i t i o ns y s t e mu s i n gh i d d e nm a r k o vm o d e la n dc o n t e x t s e n s i t i v es e a r c h 【a 】i n :p r o c o f t h eac ms y m p o s i u mo nv i r t u a lr e a l i t ys o f t w a r ea n dt e c h n o l o g y 【c 】,j u l y 19 9 6 : 5 9 击6 4c l e e y x u o n l i n e i n t e r a c t i v el e a r n i n go f g e s t u r e sf o rh u m a n r o b o ti n t e r f a c e s 【a 】i n :p r o c e e d i n gd 厂雎e e 砌c o n f o nr o b o t i c sa n da u t o m a t i o n c 1 ,l9 9 6 ,3 ( 1 ) :3 0 - 4 2 m o h a m m e dw a l e e dk a d o u s m a c h i n er e c o g n i t i o no f a u s l a ns i g n su s i n gp o w e r g l o v e s :t o w a r d sl a r g e - l e x i c o n r e c o g n i t i o no fs i g nl a n g u a g e i n :p r o c e e d i n g so f t h ew o r k s h o po nt h ei n t e g r a t i o no f g e s t u r ei nl a n g u a g ea n d s p e e c hi c ,w i l m i n g t o n ,d e ,l9 9 6 :l6 5 17 4 。c v o g l e ra n dd m e t a x a s a d a p t i n gh i d d e nm a r k o vm o d e l sf 折a s lr e c o g n i t i o nb yu s i n gt h r e e - d i m e n s i o n a l c o m p u t e rv i s i o nm e t h o d s 阴蹴彳c ,9 7 :1 5 6 1 6 1 动轨迹进行提取。最后根据模型参数对手势进行分类并根据需要生成手势描述, 识别出对应的手势。 图1 1 手势识别系统的构成 1 5 2 手势图像的分割 手势图像的分割是利用计算机进行手势识别最先也是最困难的一步。它是计 算机进行后续处理的前提。分割效果的好坏将直接影响到识别的效果。目前还没 有很好的方法能够将人手正确地从复杂的背景中分割出来。主要存在算法计算量 大、分割效果不理想等问题。进行分割的方法一般有: ( 1 ) 增加限制的方法。如使用黑色和白色的墙壁,深色的服装等简化背景; 或者要求人手戴特殊的手套等强调前景,来简化人手区域与背景区域的划分。 ( 2 ) 大容量手势形状数据库方法。如密歇根州立大学计算机系的c u i y u n t a o 建立了一个数据库。其中有各种手势类在各个时刻不同位置不同比例的手型图像 作为基于模板匹配识别方法的模板。 ( 3 ) 立体视觉的方法。如纽约哥伦比亚大学计算机系的g l u c k m a n 刀利用两个 不在同一平面镜子的反射图像,计算物体与摄像机之间的距离,并根据距离信息 分割出人手。 1 5 3 手势的建模 手势模型对于手势识别系统至关重要。目前还没有能够适用于任何场合的手 势模型,不同模型的选择取决于应用的目的和识别效果的要求。般来说,模型 越精细,细节就越多,计算的复杂度也越高。因此,根据应用的目的适当精度的 模型很重要。从目前的文献来看,手势建模方法都可以归结为两大类8 】( 见图 7 g l u c k r n a n ,j ,n a y a r ,s k c a t a d i o p t r i es t r a i t e ou s i n gp l a n a rm i r r o r s 【j 】i n t e r n a t i o n a lj o u r n a lo f c o m p u t e ri 疗i s i o n , v 4 4 ,nl ,a u g u s t ,2 0 0 1 ,p 6 5 - 7 9 8 任海兵,祝远新,徐光佑等基于视觉手势识别的研究综述电子学报,2 0 0 0 ,2 8 ( 2 ) :12 0 4 1 - 2 ) :基于表观的手势建模和基于3 d 模型的手势建模。基于表观的手势模型是 建立在手( 臂) 图像的表观之上,它通过分析手势在图像序列中的表观特征去给手 势建模。基于3 d 模型的手势建模方法考虑了手的物理结构。 手势横澎 基于3 d 乎( 臀) 横型的手务徭型ii 薹乎表现的手势揍繇 网 耋备 橇 型 骨 援 拯 型 燕予袤 度强缘 奉身妁 裘袭臻 型 茬予 2 d 叟 彤捡饭 的襞税 旗堑 基于鼙 像属性 的袭褒 覆塑 釜千蹦 像运动 的袭观 壤型 图1 2 手势模型的分类 其中,基于表现的手势模型主要有以下四种类型: ( 1 ) 基于灰度图像本身的表现模型。例如,把人手的完整图像序列作为手势 模板【9 l 。在手指跟踪应用里,仅仅手指的图像也可以用作模板。运动历史图像也 可作为手势模型,运动历史图像是指在某个时间区间上累加图像序列里各单个像 素点的运动位置而形成的2 d 图像。 ( 2 ) 基于可变形2 d 模板的表观模型。可变形2 d 模板是物体轮廓上某些点的 集合,一般把它用作插值节点去近似物体轮廓。模板由平均点集合、点可变性参 数,以及所谓的外部变形构成,平均点集合描述了某一组形状的“平均”形状, 点可变性参数描述了允许的形变,通常称这两组参数为内部参数,外部变形或者 外部参数描述了一个可变形模板的全局运动,如旋转、平移等。基于可变形模板 的人手模型通常被用于人手跟踪【l 0 1 。 ( 3 ) 基于图像属性的表现模型。我们把从图像属性抽取的参数统称为图像属 性参数,它们包括:轮廓、边界、图像矩、图像特征向量以及区域直方图特征等 等,由于图像矩计算简单,因此常被用作图像属性参数,其它常被使用的属性参 数还包括z e r n i k e 矩、方向直方图、颜色直方图等等。 ( 4 ) 基于运动图像的表现模型。这类表现模型主要用在动态手势识别罩,例 如,通过运动边界点以及方差约束计算光流,然后通过向量聚类以及运动平滑性 9 c v o g l e ra n dd m e t a x a s a d a p t i n gh i d d e nm a r k o vm o d e l sf o ra s lr e c o g n i t i o nb yu s i n gt h r e e - d i m e n s i o n a l c o m p u t e rv i s i o nm e t h o d s j 1 s m c 9 7 :1 5 6 1 6 i i l c i p o l l aa n dn j h o l l i n g h u r s t h u m a n - r o b o ti n t e r f a c eb yp o i n t i n gw i t hu n c e l e b r a t e ds t e r e ov i s i o n 【j 】i m a g e a n dv i s i o nc o m p u t i n g , m a r , 1 9 9 6 ,1 4 :1 7 1 1 7 8 5 约束抽取手势的运动轨迹,并根据轨迹坐标建立手势模型。 1 5 4 手势特征提取 在任何识别系统中,选择合适的特征都是关键的一部分。由于图像数据本身 具有冗余性,直接利用图像数据作为特征是不合理的。因此,特征提取阶段的目 的就是去除图像数据的冗余性,找出与有用信息所对应的一系列用数值表示的特 征,并用这些特征代表图像。这些特征应满足以下要求n : ( 1 ) 来自同一类手势的图像必须有相似或相近特征; ( 2 ) 对于来自不同类别的手势图像,它们的特征必须显著不同; ( 3 ) 所选特征必须具有尺度、旋转和平移不变性,这意味着,在识别过程中, 必须考虑到手势的尺寸、位置和方向。 手势特征提取阶段的任务就是选择给定手势模型的参数。这个阶段一般由特 征检测和参数估计两部分组成。在特征检测中,首先必须分割出人手的位置。根 据所用的方法的不同,可以把分割技术分为基于颜色分割、基于运动分割、以及 多模式分割等三种。绝大多数颜色分割技术依赖于直方图匹配【1 2 l 或者利用皮肤 的训练数据建立查找表的方法【i3 1 。基于颜色分割技术的主要缺点是在受光照影 响较大,容易检测不出皮肤区域或者误检测出非皮肤区域。 基于运动的分割技术通常跟某些假设一起使用。例如,假设通常情况下只有 一个人在做手势,并且手势者相对于静止的背景的运动量很小,因此,图像里的主 要运动分量通常是人手的运动【1 4 1 。为了克服利用单个线索分割的局限,基于多线 索融合( 即多模式) 的技术已经被提出来了,并且达到了较好分割效果 尽管不同手势模型的参数各不相同,但是用于计算模型参数的图像特征基本 方式通常是非常相似的,常用的有灰度图像、二值影像、区域、边界及轮廓或者 指尖等。 在参数估计时,基于灰度图像本身的表现模型有许多不同的参数,在最简单 的情况下,可以选择模型视图序列作为参数,也可以使用序列罩各帧图像关于平 均图像的特征分解表示j 基于可变形2 d 模板表观模型的典型参数是模板节点的 均值和它们的方差。通过在训练集上进行主成分分析( p r i m a r yc o m p o n e n t a n a l y s is ,p c a ) 可得到模型参数。与可变形模板模型参数相联系的还有外部变 千弧利复杂背景下幕于单日视觉的静态于势识别 d 】华东理t 大学,2 0 0 4 1 2 “g b r a d s k i ,b o o n l o c ky e o ,m i n e r v am y e u n g g e s t u r ef o rv i d e oc o n t e n tn a v i g a t i o n 【a 】i n :s p i e3 6 5 6 俨胁c o f t h ei s & t s p i ec o n f 0 1 1s t o r a g ea n dr e t r i e v a l f o ,i m a g ea n d v i d e od a t a b a s ez i z ) 【c 】,s a nj o s e ,c a l i f o r n i a , ! ,9 9 ,2 3 0 2 4 2 ”t s t a m e r , j w e a v e r , e ta 1 r e a l - t i m ea m e r i c a ns i g nl a n g u a g er e c o g n i t i o nu s i n gd e s ka n dw e a r a b l ec o m p u t e r b a s e dv i d e o 【j 】厄髓t r a n s p m a l1 9 9 8 ,2 0 ( 1 2 ) :1 3 7 1 - 1 3 7 5 ”r c u l t e ra n dm t h r k v i e w b a s e di n t e r p r e t a t i o no f r e a l t i m eo p t i c a lf l o wf o rg e s t u r er e c o g n i t i o n i n :p r o c o f 3 r d 伽纠g d n f a u t o m a t i cf a c ea n dg e s t u r er e c o g n i t i o n 【c 】,j a p a n ,19 9 8 6 形参数( 指手或身体在工作区间里的旋转和平移运动) 。可以在类似于刚体运动 估计的框架下估计模型参数的更新,所不同的是可变形模板需要估计由于模板可 变性而引起的附加位移。基于图像属性表现模型的常用参数是手形几何矩、 z e r n i k e 矩、以及朝向直方图等等。这些图像特征参数易于估计,但是它们对图 像中其它非手物体非常敏感。基于运动图像表现模型的参数包括平移运动参数, 旋转运动参数,以及图像变形参数等。 1 5 5 手势特征识别 手势识别就是把模型参数空间罩的轨迹( 或点) 归类到该空间罩某个子集的 过程n5 j 。静态手势识别算法包括基于经典参数聚类技术的识别和基于非线性聚类 技术的识别;而动态手势识别则涉及时间及空问上下文。因此绝大多数动态手势 被建为参数空间里的一条轨迹。因为不同用户做手势时存在的速率差异、熟练程 度会在轨迹的时间轴上引起非线性波动,所以如何消除这些非线性波动是动态手 势识别技术必须克服的一个重要问题。现有的动态手势识别技术可以分归三类: 基于隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,h 删) 的识别,基于动态时间规整 ( d y n a m i ct i m ew a r p i n g ,d t w ) 的识别以及基于压缩时间轴的识别。 基于h m m 的识别算法中是对每种手势建立一个隐马尔可夫模型。可观察符号 对应着模型参数空间里的向量( 点) ,例如几何矩,z e r n i k e 矩,特征图像系数向量, 或者3 d 空间的运动速度等等。基于h m m 识别技术的优点包括提供了时间尺度不 变性,保持了概率框架,以及具有自动分割和分类能力。 d t w 方法是具有非线性时间规一化效果的模式匹配算法,使用某种指定属性 的非线性规整函数对时间轴上的波动近似建模,通过弯曲其中一个模式的时间轴 使之跟另一个模式达到最大程度的重叠( 此时的残差距离最小) 从而消除两个时 空表示模式之间的时间差别。实际上,它是h m m 的简化,对于比较简单的时间序 列,它t f - - 者是等价的。d t w 方法的优点是概念上简单,也比较有效,在测试模式 和参考模式之间允许充分的弹性,从而实现j 下确的分类。 基于压缩时间轴的识别就是首先利用某种特定属性的函数,把模型参数空间 的一条轨迹压缩为单个点( 例如在时间方向求和) ,然后利用静态手势识别算法 完成动态手势的识别。 5 鲁宏伟【等】编著多媒体计算机原理与应用北京:清华大学f | j 版社2 0 0 6 5 :4 0 6 4 0 7 7 1 6手势识别的难点 尽管目前已经有各种各样的基于视觉的手势识别方法。并且有些方法在特定 的限制性环境中取得了非常好的识别率。但是这些系统离实际的应用还有较大的 距离。识别的难点主要集中在手势图像的j 下确分割以及合适的特征的选取。 在手势图像的正确分割方面,因为受到背景的干扰,比如光照、相近的颜色、 其它背景位置的人等,容易使得分割的结果偏大或者偏小,甚至根本无法分割出 手势区域。虽然人眼能够很容易地在复杂背景下识别手势区域,但这种能力对于 基于普通摄像头的计算机来说,还是非常难以达到的。虽然目前有基于颜色的, 还有运动信息等方法进行提取,但是效果还不是非常好。 在合适的特征的提取方法,首先是手势的模型的建立比较困难。目前的计算 的运算能力( 或者说算法) 还很难实时地将2 d 的图像转换到3 d 空间上去。因此, 基于简化的2 d 表现的建模多少影响到手势特征的提取。 在基于单摄像机在复杂背景下实时识别多种手势是目前手势识别的发展方 向。如何提高手势分割的精度以及设计一个更好的手势模型,将是亟待解决的问 题。 1 7论文的主要内容 本文研究了复杂环境下的动态手势识别这个课题,并在此基础上实现了一个 识别系统。全文一共分为五章,具体章节安排如下: 第一章,主要介绍了选题的背景以及手势识别的研究现状,概述了基于视觉 表现的手势识别流程的各个部分的主要发展状况并分析了手势识别的难点。 第二章,主要介绍了复杂背景下,在原有识别框架的基础上,利用肤色聚类、 差分运动分析以及卡尔曼滤波预测等技术,改进手势分割的流程,实现有效的手 势分割的方法。 第三章,在分析了基于简易拓扑学以及传统傅立叶算子的手形特征的提取的 基础上,适当放宽了手势特征值的标准,提出了一种基于边缘抽样统计的手势特 征提取方法。其计算简便,并具有较好的识别效果。 第四章,主要利用隐马尔可夫模型,实现了手势轨迹的识别,并在此基础上, 结合手形关键帧序列,对包含手形的动态手势的识别进行了实验。 第五章,对本文的研究结果做了总结,并对手势识别技术的发展做了展望。 2 1概述 第2 章手势图像的分割研究 作为系统识别的起点,手势图像分割的好坏直接影响到系统的识别率。本文 着重研究如何在复杂的背景下有效地将人手区域分割出来。人手表面的颜色特性 是人手最为显著的特征之一,利用颜色特性来检测复杂背景中的人手是一种非常 自然的想法。但是,人手表面的颜色不仅受个体影响,而且还会受到光源的颜色、 光照角度和强度等的影响。因此,单纯利用人手表面颜色来分割手势是比较困难 的。另一种分割方法利用动态手势识别中人手的运动特性,将作为前景的人手与 基本不变化的背景区分开来,达到分割手势的目的。这种方法同样存在背景变化、 人其它部位( 如人脸) 的晃动等噪音的影响。 用单一的分割方法对于复杂环境下手势进行分割存在明显不足,因此,本文 根据手势图像的特点,提出了基于颜色识别、差分运动分析以及运动目标识别的 手势分割方法,并且在实验中证明了这种方法的有效性。 2 2 手势分割的基本流程 一个基本手势识别系统在获取到包含手势的视频图像序列后,对图像序列作 肤色区域检测、边缘检测以及差分运动分析,将三个分析的结果进行与运算。然 后系统将得到的结果进行降噪和开闭等预处理,便可分割出图像中的手势区域。 其流程如图( 见图2 1 ) 所示【1 6 】: 6 刘寅复杂背景下二二维实时手势识别技术研究【d 】上海交通大学,2 0 0 5 9 图2 一l 手势分割系统基本流科图 2 3图像的预处理 对图像进行预处理能提高手势分割的精确度。图像预处理过程是对图像的过 滤过程,要排除干扰保留需要处理的部分,并过滤掉不需要的部分。在手势识别 中,预处理主要包括两个方面,对输入图像的平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论