(计算机应用技术专业论文)基于动态模糊神经网络的手势识别算法研究.pdf_第1页
(计算机应用技术专业论文)基于动态模糊神经网络的手势识别算法研究.pdf_第2页
(计算机应用技术专业论文)基于动态模糊神经网络的手势识别算法研究.pdf_第3页
(计算机应用技术专业论文)基于动态模糊神经网络的手势识别算法研究.pdf_第4页
(计算机应用技术专业论文)基于动态模糊神经网络的手势识别算法研究.pdf_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录 i i i 1 j 蓑1 现:状2 1 2 1 国内研究情况2 1 2 2 国外研究情况2 1 3 所做的研究工作4 1 4 论文的意义与创新4 1 5 论文内容安排5 第2 章相关理论知识6 2 1 特征提取理论6 2 2 d 刚7 2 2 1d f n n 结构8 2 2 2d f n n 学习算法8 2 2 3 前提参数确定9 2 2 4 结构参数确定1 0 2 2 5 最小输出方法1 1 第3 章特征提取1 3 3 1 基于z e r n i k e 矩的特征提取13 3 2 图像重构一1 4 3 3 特征降维15 第4 章神经网络分类器1 8 4 1 样本采集18 4 2 分类器训练和测试1 9 4 3 分类器的性能分析与评价2 0 4 4 手势分类2 0 第5 章仿真实验与结果分析2 2 5 1 实验环境介绍实验准备2 2 f 嘲 y 彳岩拦燮翟w 掣 参考文献3 2 致 谢3 5 硕士期间发表的论文3 6 两南大学硕十学伊论文摘要 基于动态模糊神经网络的 手势识别算法研究 计算机应用技术专业硕士研究生齐镗泉 指导教师邓辉文教授 摘要 手势是一个自然、直观的交互工具,在需求高的人机交互中有着重要的作用,它不仅是 一个交流信息的通道,更是一个示范学习的载体。通过手势,人们可以和机器人自然的沟通, 使得机器人可以根据人们的意图完成一些高难度、高危险的任务,降低任务的危险性,得到 人们首肯。但是现在通过手势的人机交互还不成熟,并且使用价值不高,所以手势识别成为 近年来研究的热点和难点。 从人机自然交互的角度出发,本文研究了独立于用户视角的手势识别方法,提出了基于 动态模糊神经网络的手势识别算法,目前算法主要致力于静态手势的方面。考虑到正向的手 势特征不足以充分描述自然手势,本文使用了完备特征集来描述手势特征,根据z e r n i k e 矩 的重构图像和原始图像的海明距离来判断z e r n i k e 矩的最高阶次,确定手势的完备特征集。 在特征降维方面,从分类准确性和保持原始图像点与点之间的几何关系的角度出发,本文采 用等距离映射( i s o m a p ) 方法来对手势特征降维。在分类方面,本文构造了基于动态模糊神 经网络的分类器,用来对输入样本的进行分类。在识别阶段,提取测试样本集的特征作为训 练好的分类器的输入进行判断。 接下来,本文分析了基于动态模糊神经网络的手势识别算法的性能并指出目前存在的问 题,而且提出了解决方案。最后本文利用实验证明,z e r n i k e 矩的手势完备特征集能等价描述 手势特性,同时实验结果显示,用i s o m a p 降维后的特征保存了点与点几何关系。分类器的性 能比较实验显示,基于动态模糊神经网络的分类在性能方面优于r b f 分类器、b p 分类器和l q v 分类器性能。最终的实验结果显示本文提出的算法,对于本文采集的1 0 种手势的识别率比较 高。 关键字:手势识别;神经网络;z e r nik e 矩;分类器 , s u p e r v i s o r :p r o f d e n gh u i w e n a u t h o r :q it a n g q u a n a b s t r a c t g e s t u r ei san a t u r a li n t u i t i v ea n di n t e r a c t i v et o o l s ,w h i c hp l a y sa ni m p o r t a n tr o l ei nh i g h d e m a n d i n gh u m a n - c o m p u t e ri n t e r a c t i o n i ti sn o to n l yac o m m u n i c a t i o nc h a n n e l ,b u ta l s oa d e m o n s t r a t i o ns t u d yc a r r i e r b yu s i n gg e s t u r e s ,p e o p l ec a nn a t u r a l l yc o m m u n i c a t ew i t hr o b o t ,s o m e d i f f i c u l ta n dh i g hd a n g e r o u sm i s s i o nc a nb ec o m p l e t e db yr o b o ta c c o r d i n gt op e o p l e si n t e n t i o n s , w h i c hc a nr e d u c et h er i s k , a n dp e o p l et h i n kt h a ti ti sv e r yi n t e r e s t i n ga n dv a l u e b u tn o wu s i n g g e s t u r e so fh u m a n c o m p u t e ri n t e r a c t i o ns t i l ln o tc o m p l e t e l y , a n di so fh i g hu s e f u lv a l u e ,s or e c e n t l y g e s t u r er e c o g n i t i o nb e c o m e sa r e s e a r c hh o ts p o ta n dd i f f i c u l t ys p o t f r o mt h ea n g l eo fm a n - m a c h i n en a t u r a li n t e r a c t i o n ,t h ea r t i c l es t u d i e st h ei n d e p e n d e n to fu s e r p e r s p e c t i v eo fg e s t u r er e c o g n i t i o nm e t h o d ,a n dp r o p o s e sag e s t u r er e c o g n i t i o na l g o r i t h mb a s e do n d y n a m i cf u z z yn e u r a ln e t w o r k s ,t h i sm e t h o di sm a i n l yu s ef o rt h es t a t i cg e s t u r e s c o n s i d e r i n gt h e p o s i t i v eg e s t u r e sd on o tf u l l yd e s c r i b en a t u r a lc h a r a c t e r i s t i c s ,t h i sp a p e ru s e st h ep e r f e c tg e s t u r es e t t od e s c r i b et h ef e a t u r es e t ,a c c o r d i n gt oj u d g eh a m m i n gd i s t a n c eo fz e m i k em o m e n t sg e s t u r e f e a t u r e so ft h eo r i g i n a li m a g ea n dz e m i k em o m e n t sg e s t u r ef e a t u r e so fr e c o n s t r u c t i o ni m a g e sd e f i n e t h eh i g h e s to r d e ro fz e r n i k em o m e n t s i nd i m e n s i o nr e d u c t i o no fg e s t u r ef e a t u r e ,f r o mt h ea n g l eo f c l a s s i f i c a t i o na c c u r a c ya n dm a i n t a i n i n gt h eg e o m e t r i cp r o p e r t i e sa m o n gt h eo r i g i n a li m a g ep o i n t , t h i sp a p e ru s e si s o m e t r i cm a p p i n g s ( i s o m a p ) m e t h o df o rg e s t u r e sf e a t u r e sd i m e n s i o nr e d u c t i o n i n t h i sp a p e r , c l a s s i f i e rb a s e do nd y n a m i cf u z z yn e u r a ln e t w o r ki sc o n s t r u c t e d ,u s e dt oc l a s s i f yi n p u t s a m p l e s i nr e c o g n i t i o np h a s e ,t e s ts e tf e a t u r e sc o n s i d e rt r a i n i n gs a m p l e sc h a r a c t e r i s t i c sa si n p u td a t a o fc l a s s i f i e r n e x t ,t h ep a p e ra n a l y z e st h ep e r f o r m a n c eo fa l g o r i t h mo fg e s t u r er e c o g n i t i o nb a s e do nd y n a m i c f u z z yn e u r a ln e t w o r ka n dp r o p o s e st h ee x i s t i n gp r o b l e m sa n ds o l u t i o n s f i n a l l y , t h r o u g hs i m u l a t i o n e x p e r i m e n t s ,t h i sp a p e rp r o o f t h a tp e r f e c tg e s t u r e ss e tb a s e do nz e r n i k em o m e n t sc a nc o m p l e t e l y r e p r e s e n tg e s t u r e sc h a r a c t e r i s t i c sa n di s o m a pt e c h n o l o g yw a sa l s op r o v e di t c a l ls a v eg e o m e t r i c p r o p e r t i e sb e t w e e no r i g i n a li m a g ep o i n t s e x p e r i m e n t ss h o wt h a tt h ep e r f o r m a n c eo fc l a s s i f i e rb a s e d i l i i i 两南大学硕+ 学位论文第1 章绪论 第1 章绪论 本章主要对论文的研究背景、国内外相关研究现状、研究内容与意义以及论文的内容安 排给予说明。 1 1 论文研究背景 手势是人机交互过程中一个很重要的信息交流通道,手势识别的研究获得越来越多的关 注。性能优异的静态手势识别有助于更进一步的动态手势分析。本文主要研究在自然环境下 的不同用户不同角度下的静态手势识别。 目前为止,静态手势识别方法主要分为两类,第一种是基于3 d 手势模型方法,第二种是 基于手势图像变现方l l 】。基于3 d 手模型的方法需要从图像中恢复出手指关节角度和手掌位 置等信息,进而识别手势。在实际应用中,这种方法通常会在用户的手上贴上有颜色的标签 或者让用户带上有不同颜色分布的手套来简化图像处理【2 3 1 ,降低了人机交互的自然性。另外 由于手具有2 7 个自由度,需要计算的重构参数复杂,目前还很难达到实时应用。而基于图 像表观的方法直接从图像中提取表观特征【4 j ,如方向直方图,图像几何参数,区域矩,轮廓矩, 不需要恢复出手在3 d 空间中的姿势。当然,基于表观的方法对手势的辨别能力是有限的。 由于手势表观是3 d 空间内的手向2 d 图像平面的投影,本身包含的信息不充分,另外由于 视角、手指的自遮挡等因素影响,同一种手势在图像平面中的表观有较大差异,因此,基于 表观的方法能够识别的手势种类比较有限,但是由于在人机交互过程中,需要识别的手势种 类不会很多,考虑到人机交互的自然性和实时性要求,本章采用基丁图像表观的识别方法。 目前大多数的研究大都集中于正向的手势识别1 5 。7 j ,但是作为一个使用的人机交互系统必 须满足两个条件: 用户独立性,尽管不同用户的手形、手指长度、手掌宽度等不一样,机器人必须能够识 别不同用户的同一种手势; 视角独立性,作为一个自然的人机交互系统,用户不应该被限制在某些同定的区域做手 势,机器人应该能够识别不同视角下的手势。 目前有两种方式来尽量消除视角对手势表观的影响。第一种方式是采用两个或多个摄像 头来获得独立于视角的手势表观。文1 6 j 把用户的手臂建模成为三维空间中的一条直线,使用两 个摄像头获得手臂的方向,通过手臂的方向来规整手部区域的姿势,进而获得正向的手势表 观。这个方法有个隐含条件,那就是需要用户手掌的法线方向与手臂方向垂直,而在实际应 用中,这个条件并不总是满足的。文哺。用三个摄像头采集不同视角下的手势,建立了一个两层 的手势结构库来表示2 d 的图像表观和3 d 的手势特征,但是这种方式还是需要一个数据手 套以获得用户手指关节的角度。另外一种方式从图像的表观中寻找手势的不变特征表示,比 如不变矩和曲率尺度空间。文| 5 使用7 个h u 不变矩来表示手势,当识别的是同一个物体时, h u 矩具有平移、等尺度缩放和平面内旋转不变性,但是由于同一种手势可能由不同的用户做 出,即同一种手势的主体是不同的,所以h u 不变矩并不是严格意义上的不变量。文旧1 提出了 两南人学硕十学伊论文第1 章绪论 一种改进的基于曲率尺度空间( c u r v a t u r es c a l es p a c e ,c s s ) 的特征匹配方法,使用c s s 图 像特征来描述手势轮廓的形状,分类器使用最近邻匹配技术,寻找与输入的c s s 特征最匹配 的预先存储的模板,这种方法依赖丁稳定的轮廓提取,轮廓提取过程中的局部噪卢对最终的 结果影响很大,并且计算复杂。 上述这些方法都是期望寻找能够表示手势的不变特征,但事实上,目前文献中的手势识 别系统所采用的特征并不是真正意义上的能够等价地表示手势的特征,只是表征了手势的局 部特性。而在基于自然手势的人机交互过程中,不同视角下的手势表观之间存在非线性形变, 加上不同用户的手形,手指粗细、长度都是不一样的。如果使用局部的、不完备的特征来描 述那些自然手势,会造成手势样本在特征空间中的分布比较复杂,使得分类困难。因此有必 要探索一种新的特征表示方法,可以描述自然人机交互过程中的静态手势,实现独立于视角 和用户的静态手势识别。 1 2 国内外研究现状 1 2 1 国内研究情况 在我国,手势识别的研究起步于8 6 3 项目“多功能感知机”的研究h 引,将a n n h m m 混合 方法应用于有1 8 个传感器的c y b e rg l o v e 型号数据手套的中国手语识别系统中,孤立词识别 率为9 0 ,简单语句的识别率为9 2 1 。2 0 0 0 年,在国际上首次实现了5 0 0 0 词以上的连续中 国手语识别系统。清华大学林学阎教授、徐光佑教授、祝远新和任海滨等做了大量工作,给 出了一种基于视觉的动态孤立手势识别技术u 刳,在进一步研究中,他们又给出了有关连续动 态手势的识别,最后,提出动态时空规整算法用于手势识别,对1 2 种手势,平均识别率高达 9 7 ,取得了很好的成果引。哈尔滨工业大学的吴江琴和华东船舶学院曾芬芳等人也都做了许 多工作”0 1 引。与此同时,国内的相应学术交流也日益增加,2 0 0 3 、2 0 0 4 年一二届“和谐人机 交互技术”高级研讨班的成功举行标志着这方面的研究逐渐升温。 1 2 2 国外研究情况 手势识别是一个复杂的问题,到目前已经提出了很多不同方法来解决这个问题。k o u i c h i m u r a k a m i ,h i t o m it a g u c h i 在1 9 9 1 年提出一种针对日本符号语言手势识别方法【l5 1 。他们使用神 经网络构建了一个手势识别系统,能识别4 2 个手指字母符号。然后又构建了一个系统,并且 此时每一个手势代表一个字,在处理动态过程中使用了递归神经网络。k i e l d s s e na n dk e n d e r ( 1 9 9 6 ) 提出一个基于h s v 颜色空间的皮肤颜色分割算法【l 酬,对分割图像序列使用反向传播 神经网络识别手势。h u a n gc ha n dh u a n gw y ( 1 9 9 8 ) 提出由三个模块组成的手势识别系统【1 7 1 , 第一步基于模型的手势跟踪,使用h a u s d o r f f 方法。此方法是由h u t t e n l o c h e r 等人于1 9 9 2 提出 的。第二步特征提取;第三步用修改过3 dh o p f i e l d 神经网络识别。h o n g oh ,o h y am ,y a s u m o t o m ,y a m a m o t ok ( 2 0 0 0 ) 使用皮肤颜色分割技术来分割出手势区域【1 8 1 ,然后通过提取方向特 征和使用线性辨别分析进行识别。m a n r e s ac ,b a r o n aj ,m a sr ,p e r a l e sf j ( 2 0 0 0 ) 提出一个 包含三个主要步骤的方法【l9 1 ,第一步基于皮肤颜色信息的手势分割;第二步对于手势的实时 变化,使用基于像素的方法来跟踪手势的位置和手的方向;第三步估计手势状态,提取多个 2 两南火学硕十学伊论文第1 章绪论 手特征,进行手势识别。k l i m i ss y m e o n i d i s ( 2 0 0 0 ) 文中作者使用了一种简单快速的方向直方 图方法,并将此方法应用于工作空间中1 2 u j 。此文把图像转化成特征向量,并且要和训练手势 集进行比较。最后,系统要利用前反馈神经网络执行。h u a n g ,j e n g ( 2 0 0 1 ) 提出基于模型 的识别系统1 2 1 | ,也分为三个阶段,第一阶段边界和运动轨迹特征提取;第二使用p c a 训练 h m m 和h a u s d o r f f 距离;第三使用v i t e r b i 算法手势识别。h e r p e r sr ,d e r p a n i sk e l ( 2 0 0 1 ) 使用手势分割算法检测区域中皮肤色点1 2 引。应用坐标抽转化,最后通过分析骨骼图像结果来 识别手势。y o o nh s ,s o h uj ,b a ey j ,y n a gh s ( 2 0 0 1 ) 提出包含三个不同模块的手势识别 系统瞄引。第一步手的定位;第二步手的跟踪;第三步确定手势正确位置。手的定位模块以皮 肤颜色和手的运动为基础检测手的候选区域,手的跟踪算法用来发现运动手区域的中心,并 连接它们,用来产生手的运动轨迹。手势正确位置定位算法把轨迹分成真实的和有意义两部 分。这个方法使用位置、角度和速度作为手的特征,并且使用k 均值聚类算法。t r i e s c h ,v o n d e r m a l s b u r g ( 2 0 0 1 ) 构建了计算机视觉系统1 2 训,此系统基于e g m ( e l a s t i cg r a p hm a t c h i n g ) ,e g m 的扩展目的是使得不同特征的组合。c h e nf s ,f uc m ,h u a n gc l ( 2 0 0 3 ) 提出手势识别系 统,在静态背景识别连续手势【2 5 1 。这个系统由四个模块组成,第一实时的手跟踪;第二特征 提取;第三h m m 训练;第四手势识别。首先,使用手的跟踪和提取算法来跟踪运动手,并 提取手区域。然后使用傅里叶描述符来描绘空间特征和通过分析运动来描述当前手的特征。 他们合并输入图像序列的两个特征,作为特征向量。应用h m m s 来识别输入手势。x i a o m i n gy , m i n gx ( 2 0 0 3 ) 使用基于r c e 神经网络颜色分割算法来分割手势,提取手指边界点作为兴趣 点,基于手的拓扑特征来匹配他们1 26 i 。例如手掌中心。n o r i k o y o s h i i k e ,y o s h i y a s u t a k e f u j i ( 2 0 0 3 ) 提出了一种基于最大值神经网络的物体分割技术的手势识别系统【27 1 。他们提出了一种新的聚 类方法用于移动物体分割和非移动目标分割。他们假设运动目标物体遵循以下条件,首先外 部结构运动物体数据连续性;然后内部结构运动物体数据为连续性。在他们系统中,聚类一 直遵循这两个条件。d a w t u n gl i n ,c h u a n - n a nc h a n g ( 2 0 0 3 ) 提出了一个实时有效最近领域 规则径向基神经网络的方法,来识别两种手势1 2 8 1 。他们构建了一个智能手势识别,能接受不 同数量的手势传感器,系统设计非常人性化,使用者可以自己定义手势,并且可以用于不同 应用中。此系统基于低成本个人计算机,在线学习技术,实时操作。并且对手势识别有很高 的识别率。t a nr ,d a b i sj w ( 2 0 0 4 ) 使用基于颜色分割技术和卡尔曼滤波来跟踪人脸和手区 圳2 9 】。通过手的运动轨迹来识别不同类的自然手势。主要通过手的定位、位置、速度和反复 运动。b o g d a nl o n e s c u , d i d i e rc o q u i n , p a t r i c kl a m b e r t ( 2 0 0 5 ) 提出了一种新颖的动态手势识别技 术p u j 。对于每一个手势,每个姿态的手骨这个技术基于2 d 人手骨骼,对于每一个手势的手骨 都是重叠的,这样就提供了单一图像,单一图像代表每一个手势的动态信号。通过对比这些 信号来进行手势识别,并且利用b a d d e l e y 距离来衡量模型参数之间差异。a n d r em a u r e r , m i c h a h e r s c h , a u d eg 【- b i l l a r d ( 2 0 0 5 ) 把扩展的h o p f i e l d 神经网络应用于手势识别1 3 1 1 。在文中,利用 h a m 来存储持续变化的多重序列。应用此模型来学习、识别和解码人手手势集,并且通过噪 声来测试模型的性能。最后同h m m s 比较此模型性能。e s t e r g i o p o u l o u 。n p a p a m a r k o s ( 2 0 0 9 ) 提出了一种新的基于手势匹配过程的手势识别方法【3 2 1 ,通过一种自生长、自组织神经气网络 ( s g o n g ) 。首先在y c b c r 颜色空间中,应用基于皮肤颜色过滤的颜色分割技术来检测手的 兴趣区域。然后,应用s g o n g 网络在手区域处理手的形状。t i nh n i n nh n i n nm a u n g ( 2 0 0 9 ) 3 1 - 3 所做的研究工作 基于国内外研究情况,本论文提出一种基于动态模糊神经网络的手势识别的方法 ( g e s t u r er e c o g n i t i o nb a s e dd y n a m i cf u z z yn e u r a ln e t w o r k ,简称g r d f n n ) ,体现了动态模糊 神经网络的实时性和特征提取的重要性。 本论文的研究工作包括如下: ( 1 ) 特征提取,在手势识别中,特征的提取是主要的工作也是关键的工作,特征选取 的优劣直接影响着手势识别的效率。本文在国内外手势特征提取成果之上,提出来一种有效 的特征提出算法。 ( 2 ) 基于动态神经网络的优缺点,本文把动态神经网络设置成分类器,应用到手势识 别的环节,并根据分类器分类情况好坏对神经网络做调整。 1 4 论文的意义与创新 基于动态模糊神经网络的手势识别算法研究,是一种基于视觉识别的一种。作为新兴技 术,基于视觉的手势识别是对目前的人机交互的有效补充。自然手势是人们日常生活中使用 的一种非语言交流手段,能表达一些语言无法表达的意思,特别实用于特定的环境。成为替 代语言的一种有效方式,是人机交互重要的发展方向。 在模糊逻辑理论中,主要有三个根本性问题旧引:知识表达、近似推理及知识获取。前两 个问题取得了很大进展,并反映在有关模糊逻辑理论书籍及有关期刊杂志上,而知识的获取 却成为模糊系统的瓶颈,模糊神经网络的提出,为知识获取提供了一条行之有效的途径。但 是,在现有模糊神经网络中,无论是哪一类,神经网络的作用都只是对模糊系统参数的学习 和优化,并对可能的变化在参数上做自适应调整。也就是说,研究人员必须预先划分输入空 间,然后确定模糊规则数,从而预先定好神经网络的结构,在此基础上,再利用神经网络的 学习功能和自适应能力对系统参数进行优化。但是,它们不能对模糊规则数进行辨识,更进 一步地,这些方法都不能回答模糊规则数如何确定,模糊规则数多少为好,那条更重要等等 问题。一个模糊神经网络的结构大小是由模糊规则数决定。一个神经网络好坏的核心指标是 他的泛化能力。泛化与它的初始值的选取和学习算法密切相关,但主要原因还是结构的选取: 从工程角度来看,模糊神经网络学习方式大部分是基于b p 算法,众所周知,b p 算法的速度通 常是很慢,并且容易陷入局部最小。因此特别需要找到一个快速的学习方法。在此背景下动 态模糊神经网络就产生了。 神经网络与模糊理论相结合可以取长补短,从而得到一种既具有学习、联想、自适应性, 又能进行模糊思维的新型结构,这就是模糊神经网络。神经网络虽然具有较强的学习、联想、 识别等功能,但不能处理模糊信息;而模糊理论虽然能较好地处理模糊信息,但又没有学习 4 两南大学硕十学伊论文第1 审绪论 等功能。可现实生活中的好多问题都是极复杂的,往往集学习、识别、自适应、模糊处理于 一体。因此,模糊神经网络无疑会在解决这些问题方面起到重要作用。再加上动态,使得神 经网络就具有动态设定网络结构。 动态模糊神经网络的手势识别将能使得系统实时性更好和时间复杂度变小。动态模糊神 经网络来识别手势,是一种新的组合。识别率可能提高。不仅仅是识别手势,而是希望能理 解其含义。进一步改进系统,希望能利用在工业上。 1 5 论文内容安排 本文详细的介绍了基于动态模糊神经网络的手势识别算法,并对其中的主要技术和改进 分别进行了详细的阐述和研究。全文分为6 章。 第l 章主要介绍了本论文的研究背景和国内外在手势识别方面的研究现状,并且提出了 本文主要的研究问题。 第2 章对本文用到的理论知识给予详细的阐述和论证。 第3 章主要研究手势识别中的特征提取,系统了阐述了本文中特征提取算法。 第4 章主要阐述神经网络分类器的构造方法,并且分类器的具体设置问题。 第5 章为仿真实验对手势识别算法性能和识别率分析和评价。主要说明手势识别的最后 阶段,给出正确识别率和错误识别率等参数来衡量算法的优劣。 第6 章总结了论文的研究成果,并提出了未来的工作方向。 5 一个角度来看,出于人观察物体的视角、手指本身的遮盖和光照的原因,同一种手势在图像 中的表示差异是很大的,所以,基于图像表现的方法能够识别的手势种类有限。但是,基于 人机交互实时性和自然性的考虑,本文采用基于图像表现的方法。由于不同的人做同一种手 势存在必然的差异,从这种方面考虑,在不同的视角观察下同一种手势存在非线性形变,因 此,需要考虑自然手势的特征表示。 在手势识别的理想特征提取中,最好能够提取出独立于用户和视角的不变特征来表示自 然手势,使得同一种手势能够聚类,这种情况对于手势的分类很有帮助。对于不变特征,目 前有两种方法,一种是傅里叶描述子,一种是区域矩。而第一种主要依靠具有鲁棒性的轮廓 提取方法,傅里叶系数很容易受到局部形状的细微变化的影响,对于自然手势的识别,光照 情况影响着提取完美的手势轮廓。但是对于第二种,图像局部的变化不会产生影响,具有描 述全局的能力,因此本文采用区域矩作为手势特征。 z e m i k e 矩是基于z e m i k e 多项式的正交化函数。虽然他的计算复杂度同几何矩和l e g e n d r e 相比更加复杂,但是z e m i k e 矩的在特征表达能力和低的噪卢敏感度方面比其他区域矩更优越, 所以本文选择z e r n i k e 矩表示手势特征。 下面对主要介绍z e m i k e 矩的计算、主要的性质和一种快速的计算z e m i k e 矩的算法。1 1 阶的z e m i k e 多项式( ,口) 定义为在极坐标系中,p 的函数: ( ,口) = ( ,) 尹( 2 1 1 ) 其中,( ,) 是一个实数值的径向多项式,如下式给出: = 扣孙5 一广缸 ( 2 1 2 ) 其中,刀= o ,l ,2 ,o i 肌l ,n - m i 为偶数。 z e m i k e 多项式正交情况如下: f嘭臼必,o)rdrd0002 南屯矗 ( 2 1 3 ) v 。1 , 这里屯,瓯表示k r o n e c k e r 符号。 从( 1 ) 式可得: ( ,0 ) = 【圪一。( ,口) 】( 2 1 5 ) p 阶的z e m i k e 矩定义为: 勿g = 了p + l2 。5 吃( 啪) m ,口脚p ( 矧) ( 2 1 6 ) 其中,函数是上面定义的且在极坐标系的单位圆内的正交的p 阶q 重的z e m i k e 多项式, 木表示复数共轭。p 是一个非负的整数,q 是一个满足一下条件的整数。 p - q l 为偶数,且h p ( 2 1 7 ) 假如n 是沿图像的各坐标轴的像素数,上式可以用离散形式表示: = 夏等鲁姜善( ,- ,p ) 厂( 墨y ) ( 2 1 8 ) 其中, ,- = ( x 2 + y 2 ) 2 ,0 = t a n _ ( y x )( 2 1 9 ) 这里的占在0 到2 x 。 ( 2 ) 式中的径向多项式( ,) 基本性质如下: ( 1 ) = 1 糍i 亿o , 氏( 厂) = 1 一7 心柚( ,_ ) = p ( 2 r ”一1 ) 通常情况下,是把一幅图像的强度函数的z e m i k e 矩分裂成实部和虚部,具体公式如下所 示: c ( 聆,m ) :! ! ! 丝 了j 乙( ,) c o s ( 肌护) 厂p 夕) ,西d p ( 2 1 1 1 ) 石 。0 。0 2 2d f n n 咖川一竽鳟啪脚帅夕) 删( 2 1 1 2 ) 本节主要介绍动态模糊神经网络的结构、学习算法和算法基本思想1 3 4 1 。 7 两南大学硕十学伊论文第2 章相关理论知识 2 2 1d f n n 结构 本文用到的动态模糊神经网络的结构如图一所示。在图中图片序列表示输入的语言变量, y 代表系统的输出,m e 表示第i 个输入变量的第j 个隶属函数,r j 代表第j 条模糊规则,n i 表示第j 个归一化节点,0 3 i 表示第j 个模糊规则的权值,u 代表总的规j j l 0 数。对动态模糊神经 网络的各层进行详尽的阐述。 第一层:称为输入层,节点表示每一个输入的语言变量。 第二层:隶属函数层,节点代表不同的隶属函数( 可以相同) ,隶属函数用下式表示: 厂,、2 心( 薯) :e x p i i 兰 笋i f :l ,2 ,r :1 ,2 ,甜( 2 2 1 ) l 叶 j 其中,肚i 表示葺的第j 个隶属函数,q ,表示葺的第j 个高斯隶属函数的中心。仃,表示高 斯函数的宽度,r 表示输入变量总数,u 表示隶属函数数量,同时表示总的规则数。 第三层:规则层,又称t - 范数层,每个节点表示模糊规则中的i f 部分。所有该层节点表 示模糊规则数。第j 个规则数r i 的输出为 一一掣r 2 一e 坤怍i x - 芸j l l 2 一 纠2 ,村 国 其中,x = k ,x r ) e 飒7 ,c = ( c l ,r 玎) 贸7 是第j 个r b f 单元的中心。坛层中州1 丁- 1 4 - 点 代表r b f 单元。 第四层:归一化层,该层的节点数和规则数相等。第j 个节点输出为 西 o , j = l j = 1 ,2 ,u ( 2 2 3 ) 纯 k = l 第五层:输出层,每一个节点代表一个输出变量,该层的输出时所有输入的累加和: y ( x ) = q 依 ( 2 2 4 ) k = l 2 2 2d n 州学习算法 很明显,对于规则数太少的系统,不能完全包含一个输入输出的状态空间。d f n n 将表现 出很差的性能。但是对如太多的规则数,不仅能增加系统的非必须的复杂性,而且还会增大 系统计算复杂度,导致d f n n 具有很差的泛化能力。所以,系统误差是规则数增加与否的重 要参数。 对于误差的描述如下:观察第i 个数据( x ;,t ;) ,其中,x 是输入向量,t 。是期望输出, 根据( 5 ) 式计算d f n n 的全部输出y ,。 8 定义 如果 = 忙一圳 屯 ( 2 2 6 ) ( 2 2 7 ) 满足( 7 ) 式的条件下,增加一条规则这里的也是根据d f n n 期望的精度预先设定的。 图1d f n n 的结构 观察高斯函数,一个具有良好局部特性的高斯函数,其输出随着与中心距离的增加而单 调递减。当使用高斯函数来描述隶属函数时,也就是说用一系列的高斯函数来划分整个输入 空间。如果输入一个新的样本,能被已有的高斯函数所覆盖,则称为可容纳边界内,此输入 的新样本可以用高斯函数描述,没有必要产生新的规则,也就是新的d f n n 的新单元。 对于可容纳边界的判断做如下描述:输入第i 个样本( 五,) ,计算输入值置和现有的径 向基( r b f ) 单元的中心c ,之间的距离z ( ,) ,也就是 4 ( j ) = l i x , 一c , i i j = l ,2 ,甜( 2 2 8 ) 其中,甜表示规则数或者r b f 单元数。 计算出距离中的最小值,如下式所示 d 。= a r gm i n ( d , ( j ) )( 2 2 9 ) 设幻表示可容纳边界的有效半径,如果叱。 幻,对于d f n n 就要考虑新增一条模糊规则, 否则,输入值由现有的单元所描述。 2 2 3 前提参数确定 当产生一条模糊规则后,首先要解决的问题就是如何确定它的参数。实验结果显示影响 9 两南大学硕十学伊论文 第2 章相关珲论知识 系统泛化性能的至关重要的因素是r b f 单元的宽度,如果r b f 单元宽度小于一个邻近输入的 距离,则模糊神经网络( f n n ) 就体现出非常差的泛化能力,因此,d f n n 将不能给出期望的 输出。相反,如果这个宽度过大,及r b f 单元趋于饱和,也就是不论输入样本多大,它的实 际输出都会非常大,接近于上界1 0 。所以,对于新的模糊规则的产生后的参数,按照如下方 式进行赋值: z = c j( 2 2 1 0 ) q = k x ( 2 2 1 1 ) 其中的妖扮1 ) 是重叠因子。 当第一个样本( 置, ) 输入时,此时的d f n n 构建起来,所以第一个样本作为第一条模糊 规则,进行赋值。c 1 = 五,o i = o o ,并且其中的为预先设定。并且只有当符合i 屯, 。 k , t 这两个条件时,d f n n 才会新增加一个模糊规则。对如不满足条件其他三个情况,描 述如下: 第一种:i l e , i i 乞,氏。匕 这种情况下,输入样本完全被d f n n 所容纳。即,什么也不做。 第二种:i l e , ij 乞,九。 乞 此时的d f n n 具有很好的泛化能力,不需要增加模糊规则,仅仅调整结果参数即可。 第三种:i k l i 屯,d , m 。吒 此时的输入值虽然可以聚集在r b f 单元的附近,但是这些的r b f 单元并不重要。也就是 说此时d f n n 泛化能力较弱。所以,不管是r b f 单元还是结果参数,要同时进行调整。调整 如下式: = k 。靠1( 2 2 1 2 ) 其中,丸是提前确定的常数,并且大于零。 2 2 4 结构参数确定 如上节所述的模糊规则产生准则,假定有1 1 个输入样本已经产生u 个规则,n 节点输出由 ( 3 ) 给出,把公式写成矩阵的表示形式: f ,仍- 妒= l ; ( 2 2 1 3 ) i 吼。 所以,对于任意输入样本x ,( x l ,屯,勤) ,d f n n 给出输出咒由( 4 ) 计算。把此公式重新写成 矩阵形式:吵= y ,其中对于s 模型,w 孵,y 贸。而对于t s k 模型,和妒有下 面的式子给出: w = ( 口l o 吼o 口。i 口l ,口。) ( 2 2 1 4 ) 1 0 两南大学硕十学伊论文 第2 章相关理论知识 妒= 仍l 吼l 仍l l 绒i 1 仍i 1 吼l l ( 2 2 1 5 ) 假定理想的输出t = ( f 1 ,f 2 ,) 9 t “。d f n n 的目标是:给定y 9 1 川如”和t 9 t ”之间的 关系如下: y = 形y ( 2 2 1 6 ) 重= l l r - r l l ( 2 2 1 7 ) 寻找一个最优的系数向量形+ 吼”1 m 是误差能量髓7 最小化。对于该问题可以使用其他技术来 逼近最小值。例如线性最小二乘法( 简略) 。 2 2 5 最小输出方法 参考文献【2 5 】使用误差下降率方法作为修剪策略。对于误差下降率方法如下描述,输入n 对输入输出 j ( 耽,( f ) ,江l ,2 ,刀 ,把1 6 ,1 7 式作为线性回归模犁的一种特殊情况: d = h 8 + e ( 2 2 1 8 ) 其中,d = t 7 锨”为期望输出,h = y 7 = ( 扛h v ) 9 t ”,v = u x ( r + 1 ) 称为回归向量, 0 = 形7 孵”包含实参数并且假定e 9 t ”是与回归量危不相关的一个误差向量。 对于任意的行数大于列数的矩阵日,要通过q r 方法进行分解。具体过程如下: h = 鲫( 2 2 1 9 ) 可以把矩阵日变成与日同维数的正交向量q = ( q l ,9 2 ,q v ) 贸“”,其中的各列向量构成正交 基,同时矩阵么为一个上三角矩阵。通过公式( 1 9 ) 的变换,有可能从每一基向量计算每一个个 体对期望输出能量的贡献。 把( 1 9 ) 式带入( 2 0 ) 式中得: d = h a o + e = q g + e g = a o ( 2 2 2 0 ) 从而得到g 的线性最d x z 乘法解为 g = ( 矿q ) 。1 矿d( 2 2 2 1 ) 或者 g i = 挈州2 一,v( 2 2 2 2 ) 吼研 当f 时,因为q 和q j 正交,d 的平方和或能量由下面公式给出: d d 7 = 晶2 研t 吼+ 7 e ( 2 2 2 3 ) h m 册 ; ; ; ; 就是与第i 个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论