




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于切线距离的手势识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于切线距离的手势识别 计算机应用技术专业硕士研究生黄国范 指导教师程小平教授 摘要 手势是人们日常生活当中一种自然而直观的人际交流模式,随着计算机技术的发展和人机交 互模式逐渐向以人为中心转移,对手势识别的研究也逐渐成为人们研究的热点。手势识别的研究具有 广阔的应用前景,可以帮助聋哑人使用手语和正常人交流,对语音识别也起着辅助作用,还可用于虚 拟现实系统中的多模式接口以及机器人的示范学习等。手势识别的研究涉及到教育学、计算机图形学、 机器人运动学、医学等多个学科,因此,手势识别的研究是一个非常有意义的课题。 手势识别按输入设备不同可以分为基于数据手套的手势识别和基于视觉的手势识别,其中基 于视觉的手势识别以人手直接作为计算机的输入设备,人机之间的通讯将不再需要中间媒体,用 户可以简单地定义一种适当的手势来对周围的机器进行控制。但是,由于手势本身具有多样性、 多义性以及时间和空间上的差异性等特点,加之人手是复杂的变形体以及视觉本身的不适定性, 基于视觉的手势识别是一个多学科交叉的、富有挑战性的研究课题。 手势分为静态手势和动态手势,静态手势强调通过手形传递一定的意义,而动态手势定义为 手运动的轨迹。本文对静态手势识别进行研究,根据手势本身所具有的特点,提出了一种手势识 别算法,该算法采用全局模板匹配的方法,用切线距离来进行测试样本与模板之间的相似性度量, 以消除视觉敏感问题,保证对于平移、旋转、缩放、租细变化等各种仿射变换的不变性。我们的 系统选择常用的中国手语中的字母手势来进行识别实验,首先建立实验用的小型手指语图像库, 然后对采集到的手势图象进行灰度变换、平滑、二值化等一系列的预处理,得到二值化的手势图 像,为下一步的训练识别作好准备工作。在训练阶段,用k - m e a n s 聚类算法对二值化的手势图象 进行训练来得到手势模板。最后,在测试集上用基于切线距离的模板匹配方法进行手势识别。实 验结果表明我们的方法对于静态手势的识别是可行的,可大大地提高识别准确率。 关键词:手势识别切线距离k - - m e a n s 聚类模板匹配 _ - _ _ _ l l l _ l l - i _ 曼皇曼a 曼b s 曼t r a 鼍c t 皇曼舅舅璺舅皇曼皇皇曼舅曼曼曼暑曼! = = , h a n dg e s t u r er e c o g n i t i o nb a s e d o n t a n g e n td i s t a n c e m a jo r :c o m p u t e ra p p l i c a t i o n s u p e r v i s o r :p r o f c h e n g x i a o p i n g a u t h o r :h u a n gg u o f a n a b s t r a c t h a n dg e s t i l r ei s ak i l l do fn a t l 】r a 】锄dd i r e c tm o d eo fc o m m u n i c a t i o ni ne v e r y d a y l i f e 、矾吐lm e d e v e l o p m e n t o fc o m p u t e rt e c h n o l o g y , h u m a nb e c o m e s t h em o r ea n d m o r ec e n 仃a lp a nm h 啪a 1 1 c o 踯u t e rn e m c t i o n ,s ot h er e s e a r c h0 1 1h a n dg e s t u r er e c o g n i t i o nb e c o m e s af o u c smt t l i s 删d t h er e s e a r c ho fh a n dg e s 崃r e c o 莎蛳o nh a s aw i d er a n g eo fa p p l i c a t i 0 1 1 5 s u c ha 8 :t h ea i d e d c o m m u i l j c a t i o nb e 似e e nt h ed e a fa n dt h en o r m a l ,t h ea i d e dr e c o g n i t i o no f v o i c er c c o g m n o n ,t h ec o n t r o l o fv r ,狃dm es m d yo fr o b o t t h er e s e a r c ho f h a n dg e s t u r er e c o g n i t i o ni n c l u d e st h ef o l l o w i n g 辄b j e c 勰: e d u c a t i o n ,c o m p u t e r 缸a p h o l o 跏r o b o t m o t i o na n dp h y s i cc t c s oi ti sav e r ym e 锄m g f u ls u b j e 氏 n e r ea r e 啪m e 龇d so nh a n dg e s t u r er e c o g n i t i o n ,r e c o g n i t i o nb a s e d o nd a t a9 1 0 v ea n dr e c o g n l t o n b a s e d0 n 讥s i o n t a k eh a n d2 u s t h ei n p u te q u i p m e n td i r e c t l y , c o m m u n i c a t i o i lb e 似咖h u n m n a n d c o m p u t e rw mn e e dn om o r eo t h e ri n t e r m e d i a t em e d i a u s e r sc a n c o n t r o lt h em a c 嫩n e sa r o 吼ds m l p l y s i 朗t 0i tw i mt h eh a n dg e s t u r eb s e ri t s e l fd e f i n e s h o w e v e r ,g e s t u r e h a st h ec h a m c t e r so fm u l t l m o d e , m u l t i 艘蛐ga n d h a sd i s 唧删u n d e rc e r t a i nt i m ea n ds p a c es i t u a t i o n ;m o r e o v e r , h u 僦b a n d s 锹 c o m p l i c a t e d 廿a n s f o m e do b j e c t sa n dt h e r e i sv i s u a li n s t a b i l i t y , a l lo fw h i c hm a k eg e s m r er e c o g n i t i o n b a s e d0 1 1s i g h tb e c o m eac h a l l e n g e a b l em u l t i s u b j e c tr e s e a r c hg o a l h a n dg e s t u r e si n c l u d es t a t i ch a n dg e s t u r e s ,i nw h i c ht h es h a p eo f h a n dg e s t u r e s1 su s e dt oe x p r e s s 龇m e a n 扭g ,a n dd y n 蕊c h a n dg e s t u r e sw h o s em e a n i n g sa r eb a s e do n t h et r a c ko f 龀m 饷傩o f h a n d s - m sp a p e rp e 哟r r i l ss m d y0 1 1s t a t i ch a n dg e s t u r e sr e c o g n i t i o n ah a n dg e s t u r e sr c c o g n l t l o na l g o n l t t l i n i sd r e s e n t e db 髂e do nt h ef e a t u r e so f h a n dg e s t u r e s h a n dg e s t u r e sa r er e c o g n l z e d b yg l o b a lt 啷,j a t e 撇t 出n g 协g e l l ld i s t a n c ei sp r e s e n t e dt om e a s u r et h es i m i l a r i t yb 咖e e l l t e s ts a m p l e sa i l dt e m p l a t e 两霞六学i i ! 士学位论文 e l i m i n a t i n gs e n s i t i v i t yt os i g h ta n de n s u r i n gt h ei n v a r i a n c eo fd i f f e r e n ta f f m et r a n s f o r m a t i o n ss u c ha s t r a n s l a t i o n ,r o t a t i o n ,s c a l i n ga n ds oo n 。w ec h o o s ec h i n as i g nl a n g u a g ea st h er e c o g n i t i o no b j e c t a tf i r s t , w et a k ep h o t o so fd i f f e r e n th a n dg e s t u r ea n df o r ms m a l li m a g e sc o l l e c t i o no fs i g nl a n g n a g e t h e nt h e s e i m a g e s a r e p r e p r o c e s s e db yi m a g eg r a yt r a n s f o r m i n g ,i m a g es m o o t h i n ga n ds i n g l et h r e s h o l d s e g m e n t a t i o n ,a n dt h e nt h eb i n a r yh a n dg e s t u r ei m a g e sa r ef o r m e df o rt h en e x tt r a i n i n ga n dr e c o g n i t i o n bt h ep a r to ft r a i n i n g k - m e a n sc l u s t e r i n ga l g o r i t h mi su s e df o rp e r f o r m i n gt h eb i n a r yh a n dg e s t u r e i m a g e ss o a st og e tt h eh a n dg e s t u r et e m p l a t e a t l a s t ,h a n dg e s t u r e sa r er e c o g n i z e db yt e m p l a t e m a t c h i n gb a s e do i lt a n g e n td i s t a n c e0 1 1t e s ts a m p l e s t h ee x p e r i m e n t ss h o wo u rm e t h o di sf e a s i b l ef o r s t a t i ch a n dg e s t u r e sr e c o g n i t i o na n dm a r k e d l yi m p r o v e sr e c o g n i t i o nr a t e k e y w o r d s :h a n dg e s t u r er e c o g n i t i o n t a n g e n t d i s t a n c e k - m e a n s c l u s t e r i n g a l g o r i t h mt e m p l a t em a t c h i n g 独创性声明 本人提交的学位论文是在导师指导下进行的研究工作及取得的 研究成果。论文中引用他人已经发表或出版过的研究成果,文中已 加特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、 同仁在文中作明确说明并表示衷心感谢。 学位论文作者:颂国亿签字日期:矽明年r 月珂咱 学位论文版权使用授权书 本人提交的学位论文是在导师指导下进行的研究工作及取得的 研究成果。论文中引用他人已经发表或出版过的研究成果,文中已 加特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、 同仁在文中作明确说明并表示衷心感谢。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密, 口保密期限至年月止) 。 学位论文作者签名:韵匐芘 签字日期:妒呷年f 月游日 导9 i 签名:舞兰少千 签字日期:砷年月订日 第1 章绪论 ! l l 一 一一一 一 i 量皇量曼曼曼曼皇蔓曼舅 1 1 课题背景及研究意义 第1 章绪论 随着社会信息化的发展,计算机的应用在我们日常生活和工作中成为越来越重要 的组成部分,如何让人与计算机更方便、自然地交互也逐渐成为人们研究的热点问题。 键盘是基于文本方式的初始用户接口,而鼠标的发明把我们带到一个图形用户接口的 时代。然而,不管是键盘还是鼠标,都还是停留在2 d 层面上,很难进行3 d 和高度 自由的输入,在自然直接交互方面是不方便和不适用的。随着计算机技术的迅猛发展, 研究符合人机交流习惯的新颖人机交互技术变得异常活跃,也取得了可喜的进步。这 些研究包括人脸识别、面部表情识别、唇读、头部运动跟踪、凝视跟踪、手势识别、 以及体势识别等等。总的来说,人机交互技术已经从以计算机为中心逐步转移到以人 为中心,是多种媒体、多种模式的交互技术。基于视觉的手势识别研究正是顺应了这 一潮流。 手势是一种自然、直观、易于学习的人机交互手段,以人手直接作为计算机的输 入设备,人机之间的通讯将不再需要中间媒体,用户可以简单地定义一种适当的手势 来对周围的机器进行控制。以人手直接作为输入手段与其他输入方法相比,具有自然 性、简洁性,和丰富性、直接性的特点,因此用计算机来识别手势提供了一个更自然 的人机接口。但是由于手势本身具有的多样性、多义性以及时间和空间上的差异性等 特点,加之人手是复杂变形体以及视觉本身的不适定性,因此基于视觉的手势识别是 一个多学科交叉的、富有挑战性的研究课题。 手势识别的研究可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的 研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面,同时 也有助于改善和提高聋哑人的生活学习和工作条件,为他们供更好的服务:另外,手 势的研究涉及到教学、计算机图形学、机器人运动学、医学等多个学科,因此,手势 识别的研究是一个非常有意义的课题。 手势识别不仅具有的深远的研究意义,而且具有广阔的应用前景,主要表现在以 下几个方面:( 1 ) 能够使聋哑人,尤其是使得文化程度比较低的聋哑人,使用手语和 正常人交流等;( 2 ) 从认知科学的角度,研究人的视觉语言理解的机制,提高计算机 两南大学而士学位论文 对人类语言的理解水平;( 3 ) 对语音识别起着辅助作用;( 4 ) 利用手势控制v r 中的 智能化;( 5 ) 机器人的示范学习;( 6 ) 虚拟现实系统中的多模式接口。 1 2 国内外相关领域研究现状 1 2 1 国外手势识别领域研究现状 手势识别的研究开始于1 9 8 2 年【1 1 ,s h a n t z 和p o i n z n e r 实现了一个合成美国手语 的计算机程序。之后,中国、美国、日本、德国等许多国家都进行了自己国家的手语 合成研究,并取得了许多重要的研究成果。 在利用数据手套等典型传感设备的方法中,c m u 的c h r i s t o p h e rl e e 和x u 在1 9 9 5 年完成了一个操纵机器人的手势控制系统 2 】;m w k a d o u s 3 1 用p o w e rg l o v e s 作为手语 输入设备,识别由9 5 个孤立词构成的词汇集,正确率为8 0 ;f e l s 和h i n t o n 4 ,5 】开发 了一个用v p ld a t a g l o v em a r k i i 数据手套和p o l h e m u s 跟踪器作为输入设备的系统, 使用神经网络对手势进行聚类。 在基于视觉手势识别方面,具有代表性的研究成果包括:1 9 9 1 年富士通实验室 完成了对4 6 个手语符号的识别工作【6 ;j d a v i s 和m s h a h l 7 1 将戴上指尖具有高亮标记 的视觉手套的手势作为系统的输入,可识别7 种手势;s t a m e r 等在对美国手语中带有 词性的4 0 个词汇随机组成的短句子识别率达到9 9 2 【8 ,9 】;k g r o b e l 和m a s s a m 从视 频录像中提取特征,采用h m m 技术识别2 6 2 个孤立词,正确率为9 1 3 r l o 】;美国密 执安州立大学计算机系的c u i 和w e n g 1 2 】的手势识别系统,他们研究了最具区分性 特征( m d f ) 和最具表达性特征( m e f ) 的不同,并且通过从图像中提取肩胸区域和 手形序列,采用模板匹配的方法,实现了一个可以识别2 6 个手势的系统,识别率为 9 3 。同时他们还采用学习的归纳一验证方法实现了一个基于视觉输入的最多可识别 4 0 个手势的识别系统。t r i e s c h 和m a l s b u r g f l 3 】开发了一种弹性图模板匹配技术对复杂 背景下的手形进行分类,在相对复杂的背景下的识别率达到8 6 2 。这种方法具有缩 放无关和用户独立的特点,但受到视角影响的限制。q u e k 和z h a o 1 4 】给出了一个基于 启发式学习的系统,它能够从不连续的普通模式( d n f ) 中提取出规则,每个d n f 描述一个手形,每个在d n f 中的连接代表一个规则。系统使用了2 8 个特征,识别率 达到9 4 。此外,v o g l e r 与m e t a x a s 将基于视觉和基于数据手套两种方法结合用于美 第1 章绪论 _ im 国手语识别,交互采用一个位置跟踪器及三个互相垂直的摄像机作为手语输入设备, 完成了5 3 个孤立词的识别,识别率为8 9 9 【1 5 】。 在手势的实时识别方面,国外的研究有很多,其中很多都是基于视觉的识别研究。 l e o n i dv t s a p 采用动态区域范围计算的方法,通过颜色空间的特征计算,对运动手势 进行跟踪,最好的情况下能达到每秒l o 帧的速率,取得较好的效果【1 6 】。z h ux u 和 k r i e g r n a n 采用手势的颜色、运动和和形状特征进行分析,对实时的手势进行识别,也 能达到8 1 0 帧秒的速度,经过训练后的识别率在8 0 9 0 。c h a n w a l l n g 和s u r e n d r a r a n g a n a t h 研究的人机交互系统也是用手势模拟计算机的操作,采用h m m 和神经网 络的方法,识别率能达到9 0 9 4 ,但是系统的识别速度只有4 5 帧秒【1 7 】。效果最好 的是b i r ke ta l 1 8 】,报告成功率能达到9 9 7 0 ( 1 5 0 0 幅图片失败6 次) 。但是他们系统 需要2 0 8 个p c a 组件来对训练集分类,计算量过于庞大。 1 2 2 国内手势识别领域研究现状 在国内,哈尔滨工业大学的吴江琴、高文等给出了a n n 与h m m 的混合方法作 为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数, 将a n n - h m m 混合方法应用于有18 个传感器的c y b e r g l o v e 型号数据手套的中国手 语识别系统中,孤立词识别率为9 0 ,简单语句级识别率为9 2 旧】。接下来高文等 又选取c y b e r g l o v e 型号数据手套作为手语输入设备,并采用了d g m m ( d y n a m i c g a u s s i a nm i x t u r em o d e l ) 作为系统的识别技术,即利用一个随时间变化的具有m 个分 量的混合g a u s s i a nn 元混合密度来模型化手语信号,可识别中国手语字典中2 7 4 个词 条,识别率为9 8 2 【2 0 1 。与基于h m m 的识别系统比较,这种模型的识别精度与h m m 模型的识别精度相当,其训练和识别速度比h m m 的训练与识别速度有明显的改善。 他们为了进一步提高识别速度,识别模块中选取了多层识别器,可识别中国手语字典 中的2 7 4 个词条,识别率为9 7 4 【2 l 2 2 1 。与基于单个d g m m 的识别系统比较,这种 模型的识别精度与单个d g m m 模型的识别精度基本相同,但其识别速度比单个 d n 冱的识别速度有明显的提高。2 0 0 0 年在国际上他们首次实现了5 0 0 0 词以上的连 续中国手语识别系统【2 3 1 。 另外,清华大学祝远新、徐光祜等给出了一种基于视觉的动态孤立手势识别技术 口制,借助于图像运动的变阶参数模型和鲁棒回归分析,提出一种基于运动分割的图像 西南大学i t :卜学位论文 运动估计方法,基于图像运动参数,构造了两种表现变化模型分别作为手势的表现特 征,利用最大最小优化算法来创建手势参考模板,并利用基于模板的分类技术进行识 别,对1 2 种手势的识别率超过9 0 ;在进一步研究中,他们又给出了有关连续动态 手势的识别,融合手势运动信息和皮肤颜色信息,进行复杂背景下的手势分割,通过 结合手势的时序信息、运动表现及形状表现,提出动态手势的时空表现模型,并提出 基于颜色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参数。最 后,提出动态时空规整算法用于手势识别,对1 2 种手势,平均识别率高达9 7 【2 5 】。 台湾大学的l i a n g 2 6 1 等人利用单个v p l 数据手套作为手语输入设备,可识别台 湾手语课本中的2 5 0 个基本词条,识别率为9 0 5 。 1 3 手势识别的分类 1 3 1 根据识别对象分类 根据识别形态的差异可以将手势识别分为静态手势识别和动态手势识别。 静态手势是指用手的形状特征来表示的手势,重点研究对象是手的姿态和单个手 形,强调的是手的形态和状态,对应着模型参数空间里的一个点。这方面的工作国内 有:哈工大的李勇、高文等提出的基于指尖染色和手指染色的颜色手套模型,实现可 以识别中国手指字母表3 0 个基本手形的静态手势识别系统【2 7 1 。哈工大的张国良等提 出基于h a u s d o r f f 距离的手势识别【2 8 】以及上海交通大学的刘江华等用最d , - - 乘支持向 量机( l s s v m ) 作为分类器对2 6 个字母手势进行识别【2 9 】。国外的有r e m i kz i e m l i n s k i 等提出过专门的静态识别方法【3 。 动态手势的识别对象是一组连续的手势动作,由一段时间范围内的一系列静态手 势所构成,并包括手在空间中的旋转和位移运动 3 1 , 3 2 】。绝大多数动态手势被建模为参 数空间里的一条轨迹,不同用户做手势时存在的速率差异、熟练程度会在轨迹的时间 轴上引起非线性波动,如何消除这些非线性波动是动态手势识别必须要克服的一个重 要问题。考虑到对时间轴的不同处理,现有的动态手势识别技术可以分为三类:基于 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,h m m ) 的识别方法,基于动态时间规整 ( d y n a m i ct i m ew a r p i n g ,d t w ) 的识别以及基于压缩时间轴的识别方法。 4 第1 章绪论 鼍曼曼曼曼曼皇曼量曼曼曼曼鼍曼曼曼曼曼曼皇曼! 鼍曼曼蔓曼曼曼i i _ i 鼍曼鼍曼曼 1 3 2 根据外围设备进行分类 1 基于数据手套的方法 数据手套是虚拟现实技术中广泛使用的交互设备。基于数据手套的手势识别系 统,是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息,这种方法的 优点是输入数据量小,速度高,能直接获得手在空间的三维信息和手指的运动信息, 可识别的手势种类多,系统的识别率高,且能够实时地进行识别。缺点是打手势的人 要穿戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。 基于数据手套的手势识别目前较多采用神经网络等方法。由于神经网络可以用静 态的和动态的输入,很适合用快速、交互的方式进行训练,而不必用一种解析的方式 定义传递特征。还可以根据用户个人情况调整网络的连接权值,使手势识别程序能适 应不同的用户。存在的不足是手势识别网络依赖于设备。当使用不同的手套设备时, 要改变网络的拓扑结构,并重新训练网络得到新的连接权值。 2 基于视觉的方法 基于视觉的手势识别系统是通过一个或多个摄像机获取视频数据流,然后从视频 流中将手势信息分割出来,并运用一定的识别方法对输入的手势进行识别分类。基于 计算机视觉的手势输入特点是对用户的运动限制少,输入设备比较便宜,但需要处理 的数据量大,处理方法复杂,识别率比较低,不适合实时地识别。 基于视觉的手势识别是一种很有前途的技术,是顺应潮流的,目前有许多研究者 正致力于此项研究,但在技术上仍然面临许多挑战性问题,如:手势不变特征的提取、 手势之间的过渡模型、手语识别的最小识别基元、自动分割识别基元、词汇量可扩展 的识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语 的手语识别以及中国手势语语法等。现在大多数的研究重点都集中在静态手势的识 别,其技术难点有两点:手势目标检测的困难和手势目标识别的困难,由于上面两个 问题目前还未有效解决,所以具体在系统实现时都必须加一定的限制条件。 两南士学矽七学位论文 n w 曼曼量曼! 皇曼曼! 曼寡 1 4 手势识别的一般方法 1 4 1 模板匹配的识别方法 这是一种最简单的手势识别技术,它将输入的原始数据与预先存储的模板进行匹 配,通过测量两个模板之间的相似度来完成识别任务,主要用于静态手势识别。它的 优点是计算复杂度低、实现简单,可以保证手势识别的实时性。如张良国、吴江琴等 人研究的基于h a u s d o r f f 足e 离的手势识别【2 8 就是利用改进过的h a u s d o r f f g e 离,通过计 算预处理后的输入图像的h a u s d o r f f 距离和标准模板库中的各种图像的h a u s d o r f f 距离 进行判断。 1 4 2 基于h m m 的手势识别 h m _ m 是众所周知并广泛使用的统计方法,一般拓扑结构下的h m l 、嗄具有非常强 的描述手势信号的时空变化能力,在动态手势识别领域一直占有主导地址,如卡内基 梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用h m m 作为 系统的识别技术【3 3 3 4 1 。 隐马尔可夫模型的理论基础【35 】是1 9 7 0 年前后由b a u m 等人建立起来的,随后由 c m u 的b a k e r 和m m 的j e l m e k 等人将其应用到语音识别中。由于b e l l 实验室的 r a b m e r 等人在2 0 世纪8 0 年代对h m - m 的深入浅出的介绍,才逐渐使h m m 为世界 各国的研究人员所了解和熟悉,进而在语音处理领域成为一个研究热点。隐马尔可夫 模型是在m a r k o v 链的基础上发展起来的。由于实际问题比m a r k o 、,链模型所描述的 更为复杂,观察到的事件并不是与状态一一对应的,而是通过一组概率分布相联系, 这样的模型就称为h m m 。它是一个双重随机过程:一是m a r k o v 链,这是基本随机 过程,它描述状态的转移;另个随机过程描述状态和观察值之间的统计对应关系。 这样,站在观察者的角度,只能看到观察值,不像m a r k o v 链模型中的观察值和状态 一一对应,因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其 特性,因而,称之为“隐”m a r k o v 模型,即h m m 。 第1 童绪论 m a r k o v 链 ( 盯,a ) g l ,q 2 ,9 r 随机过程0 1 d 2 ,d r 状态序列 ( b ) 观察值序列 图1 1h m m 组成示意图 在基于h m m 的识别算法里,每种手势有一个h m m ,可观察符号对应着模型参 数空间里的向量( 点) ,例如几何矩向量,z e m i k e 矩,特征图像系数向量,或者3 d 空间的运动速度等。基于h m m 识别技术的优点包括提供了时间尺度不变性,保持了 概率框架以及具有自动分割和分类能力。然而正是由于h m m 拓扑结构的一般性, 导致这种模型在分析手语信号时过于复杂,使得h m m 训练和识别计算量过大,尤 其是在连续的h m m 中,由于需要计算大量的状态概率密度,需要估计的参数个数 较多,使得训练及识别的速度相对较慢,因而以往手语识别系统所采用的h m m 一 般为离散h m m 。 h m m 在一维信号的统计特征提取与识别中取得了很好的效果,特别是在语音识 别领域。但是在手势识别中却有许多局限性。首先,动态手势信号不满足h m m 的 m a r k o v 性质,既随机向量当前的状态只和前一状态有关;其次,用单一的h m m 对 双手的信号进行建模显然不够,会导致h m m 将许多信号作为噪声处理;再次,由于 图像是一个二维信号,如果建立二维的h m m 模型,实际运用中的计算复杂度太大, 很难用于实用。 1 4 3 基于人工神经网络的手势识别 在手势识别领域中,神经网络也是一种广泛使用的识别技术1 36 i 。神经网络是由 许多具有非线性映射能力的神经元组成的一种大规模并行处理网络,神经元之间通过 权相连,神经网络能实现复杂的非线性映射,映射关系是通过学习( 或训练) 得到的, 神经网络具有很高的计算速度、很强的容错性和鲁棒性,特别适合于模式识别。 神经网络方法具有分类特性及抗干扰性,具有自组织和自学习能力,具有分布性 特点,能有效抗噪声和处理不完整的模式以及具有模式推广能力。然而由于其处理时 间序列的能力不强,目前广泛用于静态手势的识别。 b p 神经网络是目前使用最广泛、方便的一种单向传播的多层前向神经网络,是 由r u m e l h a r t 和h i t - t o n 于1 9 8 6 年提出,它是一种能向着满足给定的输入输出关系方 西雨矿掌缈十掌位论文 向进行自组织的神经网络,当输出层上的实际输出与给定的输入不一致时,用下降法 修正各层之间旧的结合强度,直到最终满足给定的输入输出关系为止,出于误差传播 的方向与信号传播的方向正好相反称为误差反向传播神经网络【3 7 】。 在手势识别过程中,从系统建立的训练库中输入特征数据,训练b p 网络,并用 训练好的b p 网络来识别和理解所要求识别的手势的含义,并转换为对计算机的操作。 输入层隐含层输出层 y o y 3 y o 图1 2 神经网络不惹图 神经元网络由输入层、隐含层和输出层组成( 如图1 2 ) ,输入层的神经元将输入 信息x ,分配到隐含层的各神经元。隐含层中的神经元j 的输入加权和为形,z ,其 中形,为输入信息蜀与神经元,之间连接权值,神经元,的输出是这一加权和的函数, 即 r = 厂( w ,) ( 1 - 1 ) 上式中f ( ) 为作用函数,它一般为s 形函数,即 f ( s ) = l ( 1 + p 吖) ( 1 2 ) 在学习算法中,规定在神经元f 和_ 之间连接权值的变化为: 删;i = q 6 t x i ( 、1 - 3 ) 式中刀为学习率,6 i 成为一个因子,它随神经元所处的位置不同而不同。为了加 快b p 算法的学习过程,通常在上述算式中增加一个动量项,即: a w ,姒+ 1 ) = 7 7 点,+ 肚彬胎) ( 1 - 4 ) 其中a w ,( 七+ 1 ) ,矿,( j | ) 分别为斛1 和k 时刻的权值的变化量,为动量系数。 确 弛 船 第1 罩绪论 在网络学习阶段,将具有p 个输入模式的输入网络,通过反复调节权值孵, 使系统的输出与目标输出的偏差达到用户的要求。接着再用另一个模式输入网络, 直到所有模式均学习一遍后,学习结束,学习好的网络即可用于识别。 1 4 4 基于统计分析技术的识别方法 统计分析技术是通过统计样本特征向量来确定分类器的一种基于概率统计的方 法。在模式识别中一般采用贝叶斯极大似然理论确定分类函数。该技术的缺点是要求 人们从原始数据中提取特定的特征向量,而不能直接对原始数据进行识别,其中常用 方法之一是基于k l 变换的特征提取方法( 又称为主元分析方法,p c a ) 。p c a 是根 据研究对象的内在联系将变量进行综合,抽象出若干带有规律的东西,构成某种程度 上简化了的数学模型,然后再用以研究复杂的自然现象的多元统计方法之一。其基本 思想是从方差协方差矩阵的内部依赖结构为出发点,设法找出较少的综合特征来代 表原来较多的特征,而且这些较好的综合特征又能尽可能多地反映较多的特征的信 息,即这些综合特征之间既要相互独立,又要代表性最好。 从几何角度上讲,主成分分析方法就是找维空间中椭球体的主轴问题,从数学 角度讲,就是在方差一协方差矩阵中找m ( 聊 ) 个较大的特征根及对应的特征向量问 题。主元分析是一种有用的统计技术,可应用在人脸识别和图像压缩等方面,也是在 高维数据空间中用于寻找模式的一种常用技术。 1 4 5 基于几何特征的手势识别 基于几何特征的手势识别技术是利用手势的边缘特征和手势区域特征作为识别 特征,进行识别。与神经网络法相比,几何分类法显示了高识别速度和可靠性,其允 许定义一些不同手势类别特点的特征集,估计一个局部最优的线性分辨器,根据手势 图像中提取的大量特征识别相应的手势类别。抽取的几何特征有多种类别:一类是整 体统计特征,如手势图像的重心和主轴方向,另一类是基于轮廓的局部特征,包括指 尖和指根。整体特征和局部特征构成一个特征向量,用于识别和跟踪手势【3 8 】。 两南j :掌硕:! 一学位论文 mn l 一m 曼鼍皇曼曼! 皇皇曼曼皇曼皇量皇 1 5 本文采用的识别思路及方法 由于手势本身所具有的多样性、多义性以及时间和空间上的差异性等特点,使得 提取出反映分类本质的手势特征向量相当困难,因此我们采用全局模板匹配的方法对 静态手势进行识别,并引入切线距离来进行测试样本与模板之间的相似性度量,以消 除视觉敏感问题,保证对于平移、旋转、缩放、粗细变化等各种仿射变换的不变性。 我们的系统选择了常用的中国手语中的字母手势来进行识别实验,首先建立实验用的 小型手指语图像库,然后对采集到的手势图象进行灰度变换、平滑、二值化等系列 的预处理,得n - - 值化的手势图像,为下一步的训练识别作好准备工作。在训练阶段, 用k m e a l l s 聚类算法对二值化的手势图象进行训练来得到手势模板。最后,在测试集 上用基于切线距离的模板匹配方法进行手势识别。 本文采用的手势识别流程如下图示: l o 图1 3 系统整体流程 第2 毒手指语图像| 车的建立 2 1 手指语介绍 第2 章手指语图像库的建立 手势识别与人脸识别不同,它没有公开的现成的可供研究者使用的图像库,所以 手势识别的第一步工作就是得到你的识别对象一手势图像库。手指语字母识别是手语 识别的基础,比较简单、明了,与拼音完全一致,可以按口语、书面语拼打出要讲的 内容,非常方便聋人与正常人以及聋人与计算机之间的交流,是一种靠动作视觉交 际的特殊语言,当前得到了非常广泛的研究。我们的系统选择中国手语中的字母手势 做为研究对象来进行识别,研究之前,首先要建立一个小型的字母手势图象库,并划 定出测试集和训练集。 中国文字改革委员会、教育部等单位于1 9 6 3 年联合公布实施汉语手指字母方案 【3 9 】。方案中包括汉语拼音中2 6 个单字母( a z ) 和4 个双字母( z h 、c h 、s h 、n g ) , 如下图所示: 众叁寥e 彩 ? f 笋了携焱;息差惫g携 i i x 差 鬟长l 巡翔 菇忍 ;瓢 致、舻 谨 4 伊铲固 辩。 熬爨爨螽霭 固纠渤 哟 固v 留 蓦 2 2 手势图像格式 2 2 1 数字图像的表示 图2 1中国手语手指字母集 。矿气 舶一 一髫静 耥g 数字图像的表示方式可以分为两类:位图方式和向量方式。 位图方式该方式将一幅图像划分为一张栅格,格中每一部分( 像素) 的光度或 色彩单独记录,位图中的每个数据点的位置决定了该数据点所代表的像素,即数据点 ( 位) 与图像对应,“位图”由此而来,位图适用于色彩、阴影或形状变化负责的图 像,如照片、绘画或数字化视频等。 第2 章手指语图像库的建立 向量方式这种方式用一系列线段或其他造型描述一副图像,它适合于线型图等 简单的图形或图像。 2 2 2b m p 图像格式 在手势识别中,识别处理的对象就是各种手势图像,实验中处理的图片大部分是 b m p ( b i t m a p ) 格式,因为b m p 格式的图片自带颜色信息、简单、通用,任何运行 w i n d o w s 的计算机都可以处理d i b ,所以一般在应用程序中可以方便的显示。b m p 文件是m i c r o s o f tw i n d o w s 所定义的图像文件格式,全称是m i c r o s o f t 设备独立位图 ( d e v i c ei n d e p e n d e n tb i t m a p ,d i b ) ,最早应用在微软公司的m i c r o s o f tw i n d o w s 窗口 系统中【4 0 4 。 b m p 图像文件具有以下特点:( 1 ) 只存放一幅图片;( 2 ) 只能存储单色、1 6 色、 2 5 6 色和真彩色四种图像数据;( 3 ) 图像数据有压缩和非压缩两种处理方式;( 4 ) 调 色板的数据存储格式较为特殊,存储格式不是固定的,而是与文件头的某些具体参数 密切相关的。 b m p 图像文件分为三部分:表头、调色板和图像数据。表头长度固定为5 4 个字 节,里面包含了图像所有属性的数据包括宽度、高度、颜色信息等。调色板数据中每 一种颜色以四个字节来表示,它们分别是b l u e 分量、g r e e n 分量、r e d 分量和一个保 留值。在b m p 图像文件中,图像的数据以自上而下,自左到右的顺序存放,并且必 须保证每行的数据必须是4 个字节的整数倍,b m p 图像文件中个部分内容非常紧凑, 所以省去了标志相应地址的信息,在b m p 图像中除了真彩色r g b 图像以外,所有不 超过2 5 6 色的图像必须带有调色板信息即使是单色图像也不例外。 2 3 手指语字母图像库的建立 实验中,我们以黑布为背景,用索尼数码相机采集字母手势图像,要求不同演示 者演示时手部不穿戴任何东西。3 0 个手指字母,每个取照1 0 张,包括不同演示者的 字母手势和同一演示者不同角度的字母手势,共形成3 0 0 张图片库。我们从中选择前 5 套作为训练样本用来产生手势模板,其余的5 套作为测试样本用基于切线距离的方 法进行识别。为了便于处理,我们将字母手势图像库中的所有图像都进行尺度归一化 处理,人小统一为1 2 8 1 2 8 像素, 图像库中的一套字母手势图像如下罔所示: 图22 图像库中的一套手指字母图像 取黑色为背景的基本考虑是: 1 黑色背景与手的色差较之白色背景更大,这样有利于后期手势的分割。 2 黑色背景可以有效的去除手势阴影在白色背景上产生的“灰色效应”。 取照完毕,我们还要对照片作一些简单的处理。 第一,按比例将手指字母图缩放到计算机可以实时处理的大小,实验中我们把图 像归一化到1 2 8 * 1 2 8 的大小; 第二数码相机直接得到的图像是j p e g 格式的,j p e g 格式图像利用一种失真 式的图像压缩方式将图像压缩在很小的储存空间中,其压缩比率通常在1 0 :1 4 0 :l 之间,这样可以使图像占用较小的空间所以很适合应用在网页的图像中。但我们的 手势识别中由于其压缩比高,对于我们读取图像信息就无谓地增加了很多麻烦,所以 我们把j p e g 格式手势图像转换为b m p 图像,b m p 图像文件格式是微软公司为其 w i n d o w s 环境设置的标准图像格式,而且w i n d o w s 系统软件中还同时内含了一系列 支持b m p 图像处理的a p i 函数,这对于我们后期对图像数据的读取和处理都带来了 一定的方便。 两南大学硕l 学位论文 第3 章手势图像预处理 手势图像的预处理是识别过程的第一步,它的效果直接影响着手势识别的效果。 当我们把采集到的原始的手势图像转换成可用计算机处理的数字图像时,图像在生 成、传输或变换过程中会受到各种因素的干扰和影响,图像的画质将会因噪声而在不 同程度上出现畸变,本文对输入图像进行了灰度变换、平滑、二值化等预处理。预处 理的目的是去除图像中的噪声,加强图像中的有用信息,并对输入方式或其他意愿造 成的退化现象进行复原,图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年第二季度麻精药品培训试题(附答案)
- 坚果增肌食品研制创新创业项目商业计划书
- 大学生村委会社会的实践报告
- 2025年诚信知识竞答试卷含答案
- 2025年《汽轮机本体检修》职业技能鉴定知识考试题库及答案
- 大学生我的青春理想奋斗的演讲稿
- 端午节传统习俗故事及教学素材
- Unit1SectionB3a3cwriting课件-人教版八年级英语上册
- 医院安全用药知识培训课件
- 历年安全员c证及答案教材
- 常见药物不良反应及安全用药
- 陪诊服务培训课件模板
- 严禁管制刀具进校园主题班会课件
- 2024年山东省春季高考技能考试汽车专业试题库-上(单选题汇总)
- 国庆、中秋双节前安全排查记录
- 八年级上学期轴对称练习题
- 双姿培训课件
- GB/Z 41082.2-2023轮椅车第2部分:按GB/Z 18029.5测得的尺寸、质量和操作空间的典型值和推荐限制值
- 实施项目经理岗位的工作职责描述
- 中频操作评分标准
- 生活中的理财原理知到章节答案智慧树2023年暨南大学
评论
0/150
提交评论