![[硕士论文精品]基于hmm的训练识别实验 手势识别_第1页](http://file.renrendoc.com/FileRoot1/2017-12/8/4697863e-5612-4707-865d-90cb5e101cdc/4697863e-5612-4707-865d-90cb5e101cdc1.gif)
![[硕士论文精品]基于hmm的训练识别实验 手势识别_第2页](http://file.renrendoc.com/FileRoot1/2017-12/8/4697863e-5612-4707-865d-90cb5e101cdc/4697863e-5612-4707-865d-90cb5e101cdc2.gif)
![[硕士论文精品]基于hmm的训练识别实验 手势识别_第3页](http://file.renrendoc.com/FileRoot1/2017-12/8/4697863e-5612-4707-865d-90cb5e101cdc/4697863e-5612-4707-865d-90cb5e101cdc3.gif)
![[硕士论文精品]基于hmm的训练识别实验 手势识别_第4页](http://file.renrendoc.com/FileRoot1/2017-12/8/4697863e-5612-4707-865d-90cb5e101cdc/4697863e-5612-4707-865d-90cb5e101cdc4.gif)
![[硕士论文精品]基于hmm的训练识别实验 手势识别_第5页](http://file.renrendoc.com/FileRoot1/2017-12/8/4697863e-5612-4707-865d-90cb5e101cdc/4697863e-5612-4707-865d-90cb5e101cdc5.gif)
已阅读5页,还剩59页未读, 继续免费阅读
[硕士论文精品]基于hmm的训练识别实验 手势识别.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要手势是一种自然而直观的人际交流模式,基于视觉的手势识别是实现新一代人机交互所不可缺少的一项关键技术,而由于手势本身具有的多样性、多义性,以及时间和空间上的差异性等特点,加之人手是复杂的变形体以及视觉本身的不适定性,使此方向研究成为一个极富挑战性的多学科交叉研究课题。本文侧重于研究复杂背景下的手势分割以及利用不同方法对手势轨迹进行识别,在此基础上对手势的检测和样本的自动聚类做进一步研究,并通过建立基于HMM的门限模型以增强抗千扰能力从而提高识别率。手势分割的好坏直接影响到识别率高低,而基于颜色及运动信息的分割技术已成为运动目标跟踪分析的有效手段,本文通过引入具有强特征提取能力的SOM神经网络进行肤色的聚类,并结合人手的主运动分量分析提取出完整的手形,通过实验验证了该算法的有效性和良好的自适应能力。通常手势轨迹在人类交流中传递较多的信息,本文借鉴成功应用在语音识别领域中两种识别方法HMM和DTW,对预定义的8种手势轨迹进行训练和识别。HMM模型是一个双层随机过程,它包含一个状态序列S和输出符号序列O,也就引申出三个参数A,B,二。A是状态转移概率矩阵B是观察符号对于状态的输出概率矩阵二是状态的初始概率分布。这样便构成了一个HMM模型一AA,B,C,在BM”中需要解决以下三个基本问题1POI幻的估算问题,可通过前后向算法解决2在己知模型及观察序列条件下,如何确定最佳的状态序列Q9,9Z,9R,引用VITERBI算法能有效解决此问题3HMM模型的训练问题,通过BAUMWELCH算法可以解决。本文基于HMM的训练识别实验建立在MATLAB61和HTKHMMTOOLSKIT平台上,实验中对8个孤立手势的识别达到较高的平均识别率一一9704,DTW方法是具有非线性时间归一化效果的模式匹配算法,使用某种指定属性的非线性规整函数对时间轴上的波动近似模拟,从而消除两个时空表示模式之一三毛鹭蒸粼塑选刽蒸蒸一鲡一间的时间差别。训练中先对每种轨迹找到一个代表作为该模板的参考,待测样本与每一参考轨迹计算匹配距离,通过寻找最小值判断测试样本的类别以达到识别目的,实验得到平均识别率为9526本文在对手的颜色特征进行分析的基础上,利用肤色在HHUESSATURATION空间的分布在一相对固定区域上的特点,进行了手势检测的实验,同时在进一步研究中,分别通过引入MKM算法和基于HMM的门限模型以实现样本的自动聚类和提高识别的抗干扰能力,均获得了较佳的效果。关键词手势分割,轨迹识别,隐马尔可夫模型,动态时间规整,MKM聚类限模型摘要ABSTRACTHANDGESTURESPLAYANATURALANDINTUITIVECOMMUNICATIONMODEFORALLHUMANDIALOGSTHEABILITYFORCOMPUTERTOVISUALLYRECOGNIZEHANDGESTURESISESSENTIALFORFUTUREHUMANCOMPUTERINTERACTIONHOWEVER,VISIONBASEDRECOGNITIONOFHANDGESTURESREASONSISANEXTREMELYCHALLENGINGINTERDISCIPLINARYPROJECTFORTHEFOLLOWING1HANDGESTURESARERICHINDIVERSITIES,MUFTIMEANINGSANDSPACETIMEVARIETIES2HUMANHANDSARECOMPLEXNONRIGIDOBJECTS3COMPUTERVISIONITSELFISANILLPOSEDPROBLEMTHISPAPERFOCUSESMOSTLYONHANDSEGMENTATIONFROMCOMPLEXBACKGROUNDANDRECOGNITIONOFHANDTRACKBYTWODIFFERENTMEANSONTHEBASISOFTHIS,THREEASPECTSARERESEARCHEDFURTHER,WHICHARE1GESTUREDETECTION2MKMBASEDAUTOMATICCLUSTERINGOFTRAININGSAMPLES3TMTHRESHOLDMODELBASEDONHMMFORENHANCINGTHEABILITYOFELIMINATINGDISTURBANCEANDIMPROVINGRECOGNITIONRATETHEEFFECTOFHANDSEGMENTATIONWILLINFLUENCETHERECOGNITIONRATEDIRECTLYTHESEGMENTATIONTECHNIQUEBASEDCOLORANDMOTIONCUEHASBEENEFFECTIVELYUSEDINTRACKINGANALYSISOFDYNAMICPROJECTS,玩THISPAPER,THESOMWITHTHEPOWERFULFEATUREEXTRACTIONPERFORMANCEISUSEDFORSKINCLUSTERINGTHENTHEWHOLEPOSTURECANBEEXTRACTEDBYTHEPRIMARYCOMPONENTANALYSISOFHANDMOTIONEXPERIMENTRESULTSSHOWTHATTHEALGORITHMISEFFECTIVEANDSELFADAPTIVECOMMONLY,GESTURETRACKCANCONVEYMUCHINFORMATIONINHUMANHUMANINTERACTIONTHISPAPERUSESHMMHIDDENMARKOVMODELANDDTWDYNAMICTIMEWARPINGTHATHAVEGAINEDSUCCESSINSPEECHSIGNALPROCESSINGTORECOGNIZETHEPREDEFINEDTRACKSHMMISADUALSTOCHASTICPROCESSAHMMACONSISTSOFNSTATESANDATRANSITIONMATRIXEACHSTATEHASASSIGNEDANOUTPUTPROBABILITYDISTRIBUTIONFUNCTIONBO,WHICHGIVESTHEPROBABILITYOFTHESTATESTHEREARETHREEBASICPROBLEMSINHMMTHEFIRSTPROBLEMISEVALUATIONPQ/A,WHICHCANBESOLVEDBYFORWARDBACKWARDALGORITHMTHESECONDPROBLEMISTOFINDTHEMOSTLIKELYSTATE一碗份林一一,一黔玉兰巡垫丝全赳逸人一一一一一一一一一SEQUENCES,乡VENANOBSERVATIONANDAHMMMODELTHEVITERBIALGORITHMISUSEDTOSOLVEITTHETHIRDPROBLEMISTOTRAINTHEHMMBAUMWELCHALGORITHMISUSEDTOSOLVEITTHEPLATFORMOFHMMBASEDRECOGNITIONEXPERIMENTISMATLAB60ANDHTKHMMTOOLSKITTHEAVERAGERECO咖TIONRATEIS9704THEDTWALGORITHMISAMATCHINGMETHODWITHNONLINEARTIMENORMALIZINGPERFORMANCEFTUSESSOMENONLINEARWARPINGFUNCTIONPREDESIGNATEDTOELIMINATETHETEMPORALDIFFERENCEOFTWOTEMPORALSPATIALMODELS玩THETRAININGPHASE,AREFERENCESAMPLEDENOTINGONEGESTUREWILLBESEARCHEDBYCOMPARINGTHEDTWDISTANCEBETWEENTESTINGVECTORANDTHEREFERENCES,WECANDETERMINETHECLASSOFTHETESTINGVECTORTHEAVERAGERECOGNITIONRATEBASEDDTWIS9526VIAEXPERIMENTWITHTHEANALYSISOFSKINCOLOR,WEFINDTHATSKINCOLORFALLSINTOAVERYSMALLREGIONINTHEHSSPACEHENCEWECANDETECTHANDSBYTHISFEATUREBESIDESTHESE,WECONSIDERTHEFOLLOWINGTWOASPECTSFURTHER1MKMALGORITHMFORCLUSTERINGADAPTIVELY2TMBASEDHMMFORRESISTINGDISTURBANCEANDIMPROVINGRECOGNITIONRATEBYEXPERIMENTSWEGAINMANYMEANIN响1RESULTSKEYWORDSGESTURESEGMENTATION,TRACKRECOGNITION,HIDDENMODEL,DYNAMICTUNEMODIFIEDKMEANSCLUSTERING,THRESHOLDMODEL一一一一一一一一一一一一一一一一卫旦鱼01一一一一一一一一一一一符号说明状态转移概率矩阵输出符号概率矩阵初始状态分布矢量HMM模型FROM中的状态符号HMM中的状态序列HMM中的输出符号序列状态I向J的转移概率状态J对输出符号K的出现概率状态S的初始出现概率又SQO马气前向变量算子后向变量算子自组织匹配SELFORGANIZEDMAPPING隐形马尔可夫模型HIDDENMARKOVMODEL动态规划技术DYNAMICPROGRAMMING动态时间规整DYNAMICTIMEWARPING人工神经网络ARTIFICIALNEURALNETWORK改进K均值算法MODIFIEDKMEANS门限模型THRESHOLDMODEL。ATIPZISOM妙DP妙ANN呻TM一一币理蟀六题胜旦型岁业些匕一一前言长期以来,图形用户界面GUIGRAPHICALUSERINTERFACE一直是人机交互HCIHUMANCOMPUTERINTERACTION的主流平台,这种基于键盘、图形、鼠标的交互方式使用户使用计算机时更为方便。然而,随着人们使用计算机方式的变化以及计算任务种类和数量的大量增加,GUIS已经很难实现满足用户需求所必需的所有交互形式。为了适应更多更广的应用场景,需要一种更加自然、直观、自适应,更为用户所接受的交互方式,人们逐渐研究采用多种方式与机器交互,如自然语言接口、眼动跟踪、姿势识别、三维输入、表情识别、听觉界面,手势识别等,并获得了一定的成功。这其中由于人手本身所具有的方便、直观等特性使得基于手势的分析1,2成为此领域的重要研究方向。动态手势的分析按所识别的内容一般分为静态手形和动态手势按采用的方法一般分为三类基于数据手套、基于三维建模,以及基于视觉的方法。数据手套在数据的采集以及特征的提取方面具有明显优势,并曾在手势识别研究的早期发挥了巨大作用,然而却不符合人机交互的方便自然等内在特性要求。文献习通过联合角度模型方法对手势建立三维模型并进行分析识别在原理上,基于三维人手模型的手势模型非常精细,适合于给所有手势建模41,然而模型参数多,计算复杂度高,并且参数化过程使用过多的近似,使得此种方法实现起来非常困难,离实际应用还很遥远。基于视觉的手势分析56,71在最近几年里取得了一定的进展,此方法主要研究如何直接利用图像序列里的表观变化来识别手势,它的着重点不是手或手臂的三维结构,而是运动所引起的图像序列的表观变化181。本论文研究的侧重点便是基于视觉的动态手势分割与识别。基于视觉的手势识别所要解决的三个主要问题是手势的分割、特征提取和建模以及手势的识别。分割是整个识别分析的关键和前提,它的好坏直接影响系统的识别率,而分割受背景复杂度以及光照变化的影响较大,所以针对不同的要求,不同的图像信息,可以采用不同的分割算法,一般来讲,图像分割方法大致分为以下三类一是基于直方图的分割,即阂值法二是基于局部区域信息的分割三是基于颜色等一些物理特征的分割方法。由于手势识别与语音识别具有相似的时空特性,目前广大学者将成功应用布赫一一一I3UG一一一一一在语音识别领域的知识借鉴到手势识别研究中,常用的识别方法有动态时间规整法DTWDYNAMICTIMEWARPING隐形马尔可夫模型法HMMHIDDENMARKOVMODELS以及人工神经网络方法ANNARTIFICIALNEURALNET。本论文研究侧重于复杂背景下的手势提取以及对手势轨迹进行识别。文中,第一章简单介绍了本课题相关知识以及国内外关于动态手势识别的研究现状第二章介绍融合肤色聚类与运动信息进行手势检测分割的方法第三章分别讲解了DTW和IRVIM识别方法的基本原理第四章给出孤立手势的分割以及轨迹识别实验仿真过程,在此基础上进行手势检测实验,并利用MKM方法对训练样本进行自动聚类,用基于HMM的门限模型方法解决孤立手势、复合手势以及非手势间的混扰问题第五章给出本文结论并对此课题今后工作进行展望。本课题的研究得到了山东省自然科学基金和中科院沈阳自动化研究所机器人学重点实验室基金的资助。份一一一些咚擎塑塑叁经巡鱼红一一一一一一一一一第一章背景知识基于视觉的手势识别是一门涉及到模式识别、神经网络、人工智能、数字图像处理、计算机视觉等多个学科的交叉研究领域,也是当今信息科学中人机交互研究的一个热点和难点问题。本论文侧重于复杂背景下单目视觉的手势检测与轨迹识别,在引出本论文的核心部分一一手势分割与识别之前,有必要对手势识别相关知识加以阐述,本章首先给出模式识别和人工神经网络基本理论知识,然后对基于视觉的手势识别作系统阐述。11模式识别理论模式识别诞生于20世纪20年代,随着40年代计算机的出现,SO年代人工智能的兴起,模式识别在60年代初迅速发展成一门学科。模式识别主要的目的是确定、分类图像中的物体,其主要特点是采用数值模型来表达识别对象的模型。通常先定义一类量度,把对象的各个特征及其变化规律进行定量的描述,其结果得到一组参数或参数集合。一旦特征量度和特征参数被确定,则在识别对象物体时,可先采用特征量度取得它们的特征参数,然后根据参数落在哪个范围内,就可判断对象的所属。一个典型的模式识别系统可用图11表示,其关键技术可分为下列几部分。输入特征特征提取分类器学习训练模式识别系统的基本构成预处理预处理的目的是从输入信息中去除噪声,加强有用的信息,并对输入测量仪器或其他因素所造成的退化现象进行复原。特征提取为了有效地实现分类识别,需要对原始数据进行变换,得到最能反映分类本质的特征,这便是特征提取和选择的过程学习训练学习训练的作用是从模式的样本中总结归纳出模式判别的规则。先第一章背景知识由人指定每一种样本的类别,然后进行学习的方式称为有监督学习而通过学习从各类型的样本中自动进行分组归类,从而得到各类模式的判别准则的方式可称为无监督学习。分类器分类就是在特征空间中用统计方法把被识别对象归为某一类别,通常做法是在训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。此外,在实际的识别应用中,往往引入相关处理功能模块,通过它提供关于识别对象周围环境的相关信息来提高识别精度。例如,可以利用语言模型或人工语法约束获得支持。1,2人工神经网络理论ANN目前神经网络模型己有40多种,为了便于研究,从不同角度将其分类按网络结构可分为前馈型和反馈型按网络的性能分为连续型和离散型、确定型和随机型网络按照学习方式可分为有监督和无监督学习。鉴于本论文手势分割采用融合SOMSELFORGANIZEDMAPPING一自组织匹配肤色聚类和运动信息的方法,其中SOM为人工神经网络中的一种无监督的学习模型,本节分别对ANN的学习算法规则和SOM网络模型加以介绍。121ANN学习算法通过向环境学习获取知识并改进自身性能是神经网络的一个重要特点。在一般情况下,性能的改善是按某种预定的度量通过调节自身参数如权值逐步达到的。而权值设置是区分不同ANN学习算法的重要特征,据此,可以把ANN按学习方式分为以下三种类型监督学习这种学习方式需要外界存在一个“教师”,他可对给定一组输入提供应有的输出结果,这组已知的输入输出数据称为训练样本集,学习系统神经网络可根据己知输出与实际输出之间的差值误差信号来调节系统参数,此种学习方式如图12所示。一一一R一一些鱼左彝丝选望越进匹一钾图1Z有教师指导的学习框图今非监督学习非监督学习是不存在外部教师,学习系统完全按照环境提供数据的某些统计规律来调节自身参数或结构这是一种自组织过程,以表示出外部输入的某种固有特性如聚类或某种统计上的分布特性。此种学习方式如图13所示。图13无教师指导的学习框图,再励学习强化学习这种学习介于上述两种情况之间,外部环境对系统输出结果只给出评价信息奖或惩而不是给出正确答案。学习系统通过强化那些受奖的动作来改警自身的性能。此种学习方式如图14所示图14再励学习框图下面为神经网络的几种学习算法学习规则今误差纠正学习令YKN为输入XKN时,神经元在N时刻的实际输出,DKN表示应有的输出可由训练样本给出,则误差信号可表示为E,N二DKN一ARKN误差纠正学习的最终目的是使某一基于EN的目标函数达到最小,以使网第一章背景知识络中每一输出单元的实际输出在某种统计意义上逼近应有输出。一旦选定了目标函数形式,误差纠正学习就变成了一个典型的最优化问题。最常用的目标函数是均方误差判据,定义为误差平方和的均值J一L2LREKNL其中E为求期望算子,上式的前提是被学习的过程是宽平稳的,具体方法可用最优梯度下降法。直接用J作为目标函数时需要知道整个过程的统计特性,为解决这一问题,通常用J在时刻N的瞬时值N代替,即“,全万EKNK问题变为求戮的对权值W的极小值,根据梯度下降法可得加。二YKNXN其中77为学习步长,这就是通常所说的误差纠正学习规则或称DELTA学习规则。在自适应滤波理论中,对这种学习的收敛性及其统计特性有较深入的分析。令HEBB学习由神经心理学家HEBB提出的学习规则可归纳为“当某一突触连接两端的神经元同步激活同为激活或同为抑制时,该连接的强度应增强,反之应减弱”,几乎所有的神经网络学习算法都可以看作HEBB学习规则的变形。用数学方式可描述为OWFYKNXN式中Y,N,XN分别为W。两端神经元的状态,其中最常用的一种情况是EWLYRKNXN由于OW、与YKN,X,N有关,有时称为相关学习规则。竞争COMPETITIVE学习顾名思义,在竞争学习时,网络各输出单元相互竞争,最后达到只有一个最强者激活,最常见的一种情况是输出神经元之间有侧向抑制性连接,这样原来输山东大学硕士研究生学位论文出单元中如有某一单元较强,则它将获胜并抑制其他单元,最后只有此强者处于激活状态。最常用的竞争学习规则可写为AWN77X,一WR,若神经元I竞争获胜AWE,“。,若神经元J竞争失败当神经网络的学习系统所处环境平稳时统计特性不随时间变化,从理论上讲通过监督学习可以学到环境的统计特性,这些统计特性可被学习系统作为经验记住。如果环境是非平稳的统计特性随时间变化,通常的监督学习没有能力跟踪这种变化,为解决此问题,需要网络有一定的自适应能力,此时对每一不同输入都作为一个新的例子来对待。其工作过程如图15所示,此时模型即神经网络被当作一个预测器,基于前一时刻输入XN1和模型在伽一1时刻的参数,它估计N时刻的输出XNXN与实际值XN作为应有的正确答案比较其差值称为“新息”,如新息EN二0,则不修正模型参数,否则应修正模型参数以便跟踪环境变化。输入信号预报XN图15自适应系统框图122SOM网络自组织过程是一种非监督学习,通过学习它可以提取一组数据中的重要特征或某种内在规律如分布特征,络拓扑结构如图16所示。或按某种特征聚类。基于自组织特征映射的网输出层输入层图16KOHONEN自组织映射网络第一章背景知识KOHONEN自组织网络是由输入层和输出层两层神经元网络所组成的,图16中网络上层为输出节点,输出层中的神经元一般是以二维形式排成一个节点矩阵,它们中的每个神经元是输入样本的代表。输入节点处于下方,若输入向量有”个元素,那么输入端共有。个节点,输入层中的每一个神经元,通过权与输出层的每一个神经元相联。在输出层中的竞争是这样进行的对于“获胜”的那个神经元。,在其周围N。的区域内神经元在不同程度上得到兴奋,而在N区域以外的神经元都被抑制,从是T的函数,随着T的增加,N的面积成比例缩小,最后剩下一个神经元,也可能是一个组的神经元,它们反映一类样本的属性。自组织映射的目标是神经元中突触内部联结权矢量试图模仿输入信号。在训练的起始阶段,不仅对获胜节点做权值调整,而且也对其较大范围内的几何邻接点做相应的调整,随着训练过程的继续进行,与输出节点相联的权矢量也越来越接近其代表的模式类。这时,对获胜节点的权值进行比较细微的调整时,只对其几何邻接比较近的节点也做相应的调整。直到最后,只对获胜节点本身做细微调整。这样,保证了训练结束后对某一类输入模式获胜节点能够做出“最大”响应,而相邻节点做出“较大”响应。KOHONEN自组织网络训练步骤具体如下R权值初始化对所有丛输入节点到输出节点的连结权值都赋以随机的小数2网络输入模式为XKX,X_,XN3对X计算XK与全部输出节点所连权向量叮的距离妈二艺XK一WT,Z,E1,2,N,JE1,2,M其中从拼分别为输入输出节点个数。具有最小距离的节点N,竞争获胜DI“MIND齐,12,月在每一步学习中,N内的神经元自适应变化,而N外的神经元保持不一,M祖一一招蠕K熬TWFLT攀L一一一一一一一一变,调整输出节点NJ所连结的权值以及N1几何邻域N内节点所连权值为AW,77FXTWY,其中NIEN,IE1,2,一,N。式中,77T与NT是经验时间函数,往往选取77R091一T/1000B若还有输入样本数据,那么TFL,并转到步骤2013视觉手势的背景知识近年来,手势逐渐成为HCI中一种新颖的交互手段,研究手势识别的主要目的就是把手势这种既自然又直观的交流方式引入人机接口中,实现更符合人类行为习惯的人机接口。此外,手势识别还可用于虚拟现实、三维设计、临场感、可视化、医学研究、手语理解等领域,手势识别问题的解决方法对于表情识别、唇读、步态识别、时空纹理分类、视觉导航、图像拼接和基于内容的视频检索等研究都有直接推广的意义。因此手势的识别是一个多学科交叉的、富有挑战性的研究课题。其中由于基于计算机视觉的手势识别相对于基于机械传感设备的手势识别在实现上具有自然方便高效等特性的巨大优势,而逐渐引起研究人员的广泛关注和兴趣。然而基于视觉的手势识别本身也具有很大的难度。首先,不同的文化背景对手势的定义是有区别的,本文采用文献创对手势的定义“手势是人手或者手和臂结合产生的各种姿势或动作,它包括静态手势指姿态,单个手形和动态手势指动作,由一系列姿态组成”作为视觉手势识别的理论依据。而TO从技术角度将手势以及手臂的运动分成6个层次,它们分别是手在手臂带动下的大范围运动轨迹,不包括对人手的复杂运动分析用于指向、尺度描述类型的手势分析,手形限于简单类型手部形态,即我们定义的指语,以及手部运动分析手部运动,形态以及手、手臂大范围运动相结合手、手臂的运动形态与脸部表情相结合手、手臂脸部表情以及语言的综合性分析和完整的多模态分析。第一章背景知识其次,对于手势的划分也因具体应用场景而改变,手势的分类对参数空间以及手势间间隔的确定都有很大的影响,本文采用的是文献【5中的手势分类法如图17所示。手/臂运动无意识的运动操作式交流式动作符号图17HCI中手势分类一个基于视觉的手势识别系统的总体结构如图I8所示。首先,通过一个或多个摄像机获取视频数据流,接着,系统根据手势输入的交互模型检测数据流是否有手势出现,如果有,则把该手势从视频信号中切分出来。然后,选择手势模型进行手势分析,分析过程包括特征检测和模型参数估计,识别阶段,根据模型参数对手势进行分类并根据需要生成手势描述最后,系统根据生成的描述去驱动具体应用。以下分别从手势建模、手势分析和手势识别等几个方面对手势识别方法加以简单介绍。视频输入手势描述图18基于视觉的手势识别流程131手势建模手势建模问题是直接影响到人机交互接口性能好坏的关键,而手势模型的建立很大程度上要依赖于HCI环境的应用意图。例如,在某些要求较低的场合仅需一个简单的模型就可完成交互任务,然而,如果实现更加自然并符合多数场景一一一一些达赶胜理丝之些洛一一的人机交互,那么必须建立一个精确而有效的手势模型,使得识别系统能够对用户所作的绝大多数如果不是全部手势做出正确的反应。目前手势建模的方法大致可归为两大类基于表观的手势建模和基于3D模型的手势建模。基于表观的手势建模是建立在手臂图像的表观之上,它通过分析手势在图像里的表观特征去给手势建模。基于3D模型的手势建模方法考虑了手势产生的中间媒体手和臂,一般遵循两步建模过程首先给出手和臂的运动以及姿态建模,然后从运动和姿态模型参数估计手势模型参数。基于3D手臂模型的手势模型又可以分为体模型、网格模型、几何模型以及骨架模型。3D体模型主要用于跟踪和识别身体姿态,跟踪和识别的基本方法是基于合成的分析方法,简单地说就是首先合成人体的3D模型,然后改变模型的参数直到模型和真实人体映射出同样的视觉图像,从而分析身体姿态。然而,即使这样的模型相当成熟,它们还是太复杂以致于不能达到实时性要求。更适合计算机实时处理的方法是使用简单的3D几何结构去给人体建模。目前最常使用的3D模型是3D骨架模型,其参数是经过简化的关节角度参数和指节长度。人手的物理特性可以为3D骨架模型提供两组约束静态约束关节角度范围和动态约束运动依赖关系。如文献11使用了26个自由度的骨架模型并且利用了以上这样的约束条件。总而言之,使用手臂3D模型时存在两个主要问题其一,参数空间的维数高其二,通过视觉技术获取这些模型的参数困难重重并且非常复杂。基于表观的手势模型大致分为四类。第一类基于表观的手势模型使用2D灰度图像本身建立手势模型。例如文献12提出运动历史图像作为手势模型。运动历史图像是指在某个时间区间上累加图像序列里各单个像素点的运动位置而形成的2D图像。第二类基于表观的手势模型建立在手臂的可变形2D模板的基础上。可变形2D模板是物体轮廓上某些点的集合,一般把它用作插值节点去近似物体轮廓,基于可变形模板的人手模型通常被用于人手跟踪。第三类基于表观的手势模型建立在图像属性的基础上。我们把从图像属性抽取的参数统称为图像属性参数,它们包括轮廓、边界、图像矩、图像特征向量以及区域直方图特征等等。由于图像矩计算简单,因此常被用作图像属性参数,其它常被使用的属性参数还包括ZEMIKE矩、方向直方图、颜色直方图等等。第四类基于表观的手势模第一章背景知识型通过计算图像运动参数,抽取手势模型参数。这类表观模型主要用在动态手势识别中,例如,文献13通过区域相关性计算光流,然后进行光流聚类,把图像中运动区域分割成“运动块SL32手势分析手势分析阶段的任务就是估计选定的手势模型的参数,分析阶段一般由特征检测和参数估计两个串行任务组成。在特征检测过程中,首先必须定位做手势的主体人手。根据所用的线索不同,可以把定位技术分为基于颜色定位、基于运动定位、以及多模式定位等三种。绝大多数颜色定位技术依赖于直方图匹配或者利用皮肤的训练数据建立查找表的方法。基于颜色定位技术的主要缺点是在不同的光照条件下皮肤颜色变化较大,这经常导致未被发现的皮肤区域或者误检测出非皮肤区域。利用限制性背景或者颜色手套,使得高效地、甚至实时地定位人手成为可能,然而对用户以及对接口设备施加了明显限制。基于运动的定位技术通常跟某些约束条件及假设一起使用。例如,假设通常情况下只有一个人在做手势,并且手势者相对于背景静止的的运动量很小,因此,图像里的主要运动分量通常是手臂运动。为了克服利用单个线索定位的局限,基于多线索融合即多模式定位技术已经被提出来了。鉴于上述原因本文采用融合运动信息和SOM肤色聚类的技术分割手势,取得了较好的效果。手势本身具有丰富的形变、运动以及纹理特征,选取合理的特征对于手势的识别至关重要,从分割后的低层次图像中提取出所需要的特征往往依赖于应用中的手势模型,尽管不同的手势模型参数各不相同,但是用于计算模型参数的图像特征基元通常是非常相似的,常用的图像特征基元包括灰度图像、二值影像、区域、边界以及轮廓或者指尖等。手势分析中的最后一个阶段便是估算模型参数,在手势识别系统中,识别工作一般跟随在这一过程之后,而在手/臂的跟踪系统中,通常计算完模型参数便能得到最终输出结果。参数估算过程往往依赖于手势模型的特征,3D手模型通常涉及到两组参数角度参数关节角度等和直线参数指骨长度和手掌尺度等。对上述的四类基于表观的手势模型而言,基于灰度图像本身的表观模型有许多不同的参数,在最简山东大学硕士研究生学位论文单的情况下,可以选择模型视图序列作为参数,也可以使用序列里各帧图像关于平均图像的特征分解表示。基于运动图像表观模型的参数包括平移运动参数,旋转运动参数,以及图像变形参数等等。133手势识别手势识别就是把模型参数空间里的轨迹或点分类到该空间里某个子集的过程。静态手势对应着模型参数空间里一个点,而动态手势则对应着模型参数空间里的一条轨迹,因此它们的识别方法有所不同。静态手势识别算法包括基于经典参数聚类技术的识别和基于非线性聚类技术的识别。动态手势涉及时间及空间上下文,绝大多数动态手势被建模为参数空间里的一条轨迹,不同用户做手势时存在的速率差异、熟练程度会在轨迹的时间轴上引起非线性波动,如何消除这些非线性波动是动态手势识别技术必须克服的一个重要问题。考虑到对时间轴的不同处理,现有的动态手势识别技术可以分为两类基于隐马尔可夫模型HIDDENMARKOVMODEL,简称H“的识别,基于动态时间规整DYNAMICTIMEWARPING简称DTW的识别。迄今为止,HMM应用在基于表观的手势识别中已获得了巨大的成功。在基于HMV的识别算法里,每种手势有一个HMM。可观察符号对应着模型参数空间里的向量点,基于KNIM识别技术的优点包括提供了时间尺度不变性,保持了概率框架,以及具有自动分割和分类能力。DTW方法是具有非线性时间规一化效果的模式匹配算法,使用某种指定属性的非线性规整函数对时间轴上的波动近似建模,通过弯曲其中一个模式的时间轴使之跟另一个模式达到最大程度的重叠此时的残差距离最小从而消除两个时空表示模式之间的时间差别。实际上,它是HMM的简化,对于比较简单的时间序列,它们二者是等价的。DTW方法的优点是概念上简单,也比较有效,在测试模式和参考模式之间允许充分的弹性,从而实现正确的分类。本论文在第四章中将对这两种方法加以详细讨论。第二章手势分割第二章手势分割手势分割是整个识别分析的关键和前提,它的好坏直接影响系统的识别率,然而,在诸多基于视觉的手势识别研究中,许多学者把过多精力致力于手势建模和识别算法的实现上,如文献【141利用BNIM对手运动轨迹进行识别,虽能达到较高的识别率,却忽视了手势分割在识别系统中的重要性,很难向实用化推广。目前的视觉手势定位分割技术大多需要对背景、用户以及视频采集等加以约束,例如可以通过基于简单的背景或者要求做手势者带有特殊颜色的手套的方式进行分割分析,这与人机交互向自然高效的目标发展不尽相符。分割往往受背景复杂度以及光照变化的影响较大,所以针对不同的要求,不同的图像信息,可以采用不同的分割算法,一般来讲,分割方法9,19大致分为以下三类一是基于直方图的分割,即闽值法,通常取灰度直方图的波谷作为闽值二是基于局部区域信息的分割,如基于边缘和基于区域的方法三是基于颜色等一些物理特征的分割方法。基于直方图的闽值分割处理对物体与背景有较强对比景物的分割特别有效,此方法计算简单,而且总能用封闭而连通的边界定义不交替的区域,但对复杂背景的分割适应性较差。基于边缘以及基于区域的方法在处理动态序列中目标幅度移动较小的情况下能够得到较好的结果,否则就需要采用一些补救措施去完成分割定位,因而此种方法鲁棒性较差另外,基于边缘和区域的方法计算量大,它应用于对实时性要求较高的场景中就显得力不从心。颜色已成为图像分割的重要线索,一些成功的分割系统都是以颜色作为分割依据,相比较于基于边缘和基于区域的方法,此分割方法具有高效和强鲁棒性等特性,尽管如此,当图像中背景颜色分布复杂及光照变换快时,基于简单颜色的分割方法仍面临着巨大的挑战。目前众多研究者尝试着利用融合多种信息的技术来进行肤色区域的分割,如文献15利用结合卡尔曼滤波和边缘检测的方法实时分割出视频序列中的手势,ROSS13利用结合光流方法分割出基于视觉的手势,它们都获得了较好的分割效果。本论文利用具有强特征提取能力的SOM自组织匹配网络,将图像颜色分类,并结合运动信息完成分割从而提取出运动的手。下面分别对图像中手势运动检测和基于SOM的色彩分类算法加以介绍。价一一一一一一LL90FFLF5LLL兰RIJT一一一一一一一一一一一21手势运动检测图像序列中手势的运动意味着图像变化,运动估计算法中的一个基本依据是图像强度的变化,可以用图像序列中相邻的一对图像的差来表示强度的相对变化,图像差运算20定义为FLXI1112二FX,12一FX,11式中儿是差分图像,这种运算只涉及到对应像素强度的相减运算,因此是相当简单的,并且适合于并行运算。图像差分在某种程度上反映了景物的较高层次性质或蕴含在图像平面上的传感器运动的变化。考虑到在实际的手势识别系统中,摄像机的位置以及背景都是固定的,所以可以对同一手势序列中相邻两帧图像进行差分运算,这样便能有效地保留发生变化的部分手,滤除图像中保持不变的大部分背景区域,尤其是那些和人肤色相同或相近的区域。相邻两幅图像进行差分求和运算如下SR1一R2卜GI一G2BI一B2其中,RL,GL,BL和R2,G2,B2分别是当前图像和前一帧图像中各像素点的RGB分量,通过计算S值并与事先给定的某一闽值K进行比较,当SK时,认为此像素点属于变化的区域,当S05。一旦各输入模式有了相对应的映射位置后,则转入精学习和细调整阶段。在这一阶段中,网络学习集中在对较小范围内的连接权进行调整,学习率应随着学习的进行不断减小。一般此阶段的学习率选为05。对于连接权初值的确定,学习规则是将网络的连接权W,赋予0,1区间内的随机值,但在实验过程中发现,这种方法会出现网络学习时间过长,甚至无法收敛的现象,这在对实时性要求较高的场景应用中,影响是致命的。本论文实验中将所有连接权矢量赋予相同的初值05,这样可以减少输入模式在最初阶段对连接权矢量挑选余地,增加每一个连接权矢量被选中的机会,尽可能快地校正连接权矢量与输入模式之间的方向偏差。对于凡T的初值选择一般为竞争层节点数的1/31/2,随着网络学习的不断深入,N8T的范围逐渐缩小,最后达到预定范围。另外由于所要识别的目标所处背景不确定,而且易变化,如果对于网络的输出节点个数设为某一固定值,便不能有效地反映出分类的真实情况,容易将本身不应属于同一类的物体错分为同一类,或者将同一类分成不同的类。对于这种情况应在训练过程中不断调整其输出节点个数,本文提出一种改进算法能够使在网络学习过程中输出神经元的个数随背景复杂程度不同而改变,具体如下1对每次训练的各个输出神经元,计算其权值与输入之间的欧式距离,如上面步骤,中所示计算D,的平均值界若一MAXD,一刁二网DL一刁,9其中为略大于。的某一闽值103,9为一较大的闽值101,此时说明学习过程中各输出值接近,且距离输入较远,不能将最小值确定为获胜神经元,应该在输出层中增加一个新的神经元。为了拉大输出节点间的距离,新的神经元的权值应与输入值尽可能接近,为此取新输入节点权值为输入值。对于不满足上述判断条件的,反复采用上面的训练算法,直至得到输出最小值的节点作为获胜神经元,然后进行学习调整。2每次训练过程中对于各输出节点的权值WF,计算两两之间的距离,若接近于零即距离小于10勺,则这两个节点近似,应将其归并为一个节点,我们取这第二章手势分割两个节点的权值向量的平均值作为新的归并节点的权值向量。3经过一定次数为一预设值200的训练后,统计各输出神经元的获胜次数,若某一神经元很少获胜,说明属于此类的输入占整个样本的比例很小,或者可以将其看成噪声,我们可以将此节点删除掉,从而使分类效果加强。根据以上算法便可以自动地调整输出神经元的个数,使类别数随背景的变化而改变。在本文第四章中,将详细给出基于上述融合肤色聚类和运动信息的理论来分割出完整手的实验步骤及结果。一R,一一一一1A达望塑皿塞兰巡鱼生一一一一一一一一一第三章手势识别理论目前,在诸多的基于视觉的手势识别研究中,有三类模型得到广泛关注。它们分别是动态时间规整DYNAMICTIMEWARPING,DTW,神经网络NEURALNETWORK,NN和隐形马尔克夫模型HIDDENMARKOVMODELS,HMM。DTW算法是采用动态规划技术将一个复杂的全局最优化问题化为许多局部最优化问题一步一步地进行决策,它是语音识别23中一种很成功的模板匹配算法,在识别小语义简单手势中也获得了成功,但在识别复杂手势以及未定义的手势时效果却不理想。HMM是一种最成功的应用于语音识别领域中24,25的统计模型,近年来被借鉴到手势识别领域中,取得了一定的成功26,27,28,291。神经网络方法因本身具有的强特征提取性能被广泛应用到各个领域,但该方法对时间序列信号的处理较差,在目前的手识别领域中,神经网络技术还是更多的应用在手形的识别上。也有部分学者30,31采用神经网络与IIIBM相结合的方法进行手势识别,如文献【26通过HMM/SOFM自组织特征映射模型进行非特定人的手语识别,比仅依赖HMM进行识别得到了更高的识别率。本章主要介绍广泛应用在手势识别中的DTWHMM模型的基本原理。31动态时间规整DTW模板匹配法是多维模式识别系统中最常用的一种相似度计算方法,在训练过程中,经过特征提取和特征维数的压缩,并采用聚类方法或其他方法,针对每一个模式类各产生一个或几个模板TEMPLATE,识别阶段将待识别模式的特征矢量与各模板进行相似度计算,然后判别它属于哪一类。手势识别也可以采用模板匹配法进行相似度计算,但它在特征维数方面存在一个时间对准问题,是通常模式识别匹配计算时不具备的一些特殊情况。例如,在手势训练与识别过程中,对于完成同一个手势,不同时间,不同的人在手势所持续的时间长度上具有一定的随机性,因此在匹配时如果只对特征矢量序列进行线性时间规整,就缺乏有效的理论依据,而应该采用某种非线性时间对准算法。动态时间规整DYNAMICTIMEWARPING,简称DTW就是效果最好的一种非线性时间规整模板匹配算法。DTW是采用动态规划技术DYNAMICPROGRAMMING,简称DP将一个复杂第三章手势识别理论的全局最优化问题化为许多局部最优化问题一步一步地进行决策。设参考模板特征矢量序列为A二,21,A2“,A,,输入手势特征矢量序列为BBBZ,B,1XJDTW算法就是要寻找一个最佳的时间归整函数,使被测手势模板的时间轴J非线性地映射参考模板的时间轴,使总的累计失真量最小。不同的人做同一手势或同一人多次做同一手势所用的时间是不同的,正如一个人在发同一单词“SPEECH”的两次发音是不同的,图31以语音信号为例,反映两次不同的发音做时间匹配的情况。/卜一有厂AI1D_,I,JY,1一,州/曰曰回同洲目日图2一二一中E一卜SSIP一E。HH,I7INTIME一图31利用DTW方法对两语音信号进行匹配设时间规整函数为CC1,C2,CN其中N为路径长度,CNIN,JN表示第N个匹配点对是由参考模板的第IN个特征矢量与被测模板的第JN个特征矢量构成的匹配点对。二者之间的距离或失真值DAN,气N称为局部匹配距离。DTW算法就是通过局部优化的办法实现加权距离总和最小,即一一召蠕熏熬吐翌型进鱼丝艺DA,A,BWNDMIN“CR一31乙W其中加权函数的选取可考虑两个因素”根据第”对匹配点前一步局部路径的走向来选取,惩罚45度方向的局部路径,以便适应IJ的情况2考虑手势各部分给不同权值以加强某些区别特征。在式31所表达的优化过程中,对时间规整函数C作某些限定,以保证匹配路径不违背语音信号各部分特征的时间顺序。一般要求规整函数满足如下约束1单调性ININ一1,LNAN一12起点和终点约束一般要求I1J1二1INI,INJ3连续性一般规定不允许跳过任何一点,即1177N一111,2,二,N为状态转移概率矩阵,这里只考虑一阶HMM,当前所处状态QT只与前一时刻所处的状态,一,有关,即R二PQR二凡1Q,S,QR25T,二PQ,S,14,ISR第三章手势识别理论它满足艺A1JB为观察序列O中任一观察,它是随机变量或随机矢量在各状态的观察概率空间中的分布。这个分布有离散型和连续型两类,分别相应于离散HMM和连续HNIM,其分布分别为A在离散HMM情况下,观察序列为符号序列,B为一概率矩阵BB,K,J1,2,NK二1,2,M它满足艺BIK1其中M为编码符号集中符号的总数,在用矢量量化编码时,M就是码书的大刁、。B在连续HMM情况下,观察序列为矢量序列设维数为D,D维的概率密度函数的集合BB,0,J二1,2,N其中B就是N个O为观察矢量空间中的任一矢量,每一个密度函数都满足归一的条件,即LBI0DO,所在的全空间。其中乌表示J状态的观察概率空间,它可以是矢量O也可以是其中的一个子空间或一个区域。以上就是隐形马尔可夫模型的完整的定义及说明。从这个定义中可以看出,HMM与有限状态的一阶马尔可夫链一样,用初始分布、状态转移概率矩阵来描述有限长随机序列的统计特性,但它不同于马尔可夫链由每一观察即可确知当前所处的状态,而是由每一观察仅能估算出当前处于各种状态的概率。这就是说,它具有双重随机性,是一种双重随机过程。322HMM的结构和类型隐马尔可夫模型的结构主要有两种,一种是各态历经模型,一种是从左到右模型,如图34所示。由于左一右模型的HMM具有的性质可以用来模拟随时间变化的特征信号,所以在手势序列识别中一般选择从左到右的HMM。并且有凡。,当JA为对于给定的模型人和观察序列0,在T时刻处于状态匀,在TL时刻处于状态SI的概率用前后向变量表示N曰于一一一一一一一LB主TLKRFY5RLIT兰些变组一一一一一一一一一一一有,I,JAJI夙B,JA,UIPO1A二A,IAIBO,/3,UP艺艺A,I夙毛O,十戏十,J,J司根据上述两个变量的定义,不难给出它们的关系Y,I艺,I,J于是可以给出一组合理的重估参数公式二二在时刻I1处于状态S,的概率MI从状态S,过渡到状态5的平均次数4,I,J川艺T1阴艺间A从状态S向其他状态转移的平均次数Y,I艺Y,UBK处于状态J和出现观察口的平均次数处于状态J的平均次数O,OR艺Y,U其中的,,AL,和BK分别表示,经过参数重估后的HIVII”参数,即分别为二,B三参数。可以证明,经过这样的重估算法后,有结果POI幻PO幻产所以我们如果利用以上的算法,并重复迭代,在某个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年手术室护理实践指南试题
- 卫生公共基础试题及答案
- 王者荣耀试题及答案
- 土木专业竞聘试题及答案
- 2025年双方含未成年子女离婚赡养费协议书
- 2025年成都市教育设施扩建征地补偿策划协议书
- 2025年废物处理合作协议
- 2025年水产购买协议书模板
- 2025年官方授权支付协议模板策划大纲
- 2025年品牌权益并购协议
- 机械通气患者护理
- 2025年数控技术专业毕业考试试题及答案
- 危险源辨识及风险评价表
- 医疗数据驱动的数字化转型路径
- 普惠金融推动共同富裕的理论框架与实证研究
- 上海市2024年初中语文学业水平考试试卷真题(精校打印)
- 车牌租赁协议和抵押合同
- 《张敏瑞的传奇人生》课件
- 2024年液压与气动技术试题及答案
- 山东师范大学《英语综合阅读二》2023-2024学年第二学期期末试卷
- 《眼压测量技术进展》课件
评论
0/150
提交评论