




已阅读5页,还剩66页未读, 继续免费阅读
(计算机应用技术专业论文)手形特征与运动轨迹相结合的动态手势识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 人与计算机的交互活动越来越成为人们日常活动的一个重要组成部分。而由于手 势本身具有的多样性、多义性,以及时b j 和空间上的差异性等特点,加之人手是复杂 的变形体以及视觉本身的不适定性,使此方向研究成为一个极富挑战性的多学科交叉 研究课题。 本文结合上海市自然科学基金资助课题。手势识别与合成”,从手势图像的预处 理、手势的特征提取和手势的分类器设计等三方面研究了基于视觉的动态手势识别的 识别算法。 在图像预处理阶段,我们先对手势图像进行无冗余的帧分离操作,将我们感兴趣 的手势图像从视频流中分离出来,接下来我们进行灰度化处理和平滑去噪,平滑后我 们用自适应阈值法对手势图像进行二值化,得到了较好的二值化效果。 在特征提取环节,我们先提取手形特征并依据手形特征进了粗分类,然后提取手 势图像的运动轨迹特征与手势的手形特征相结合产生了手势的特征向量。 在分类器的设计上,我们将1 4 套手势图像这样划分:4 套为训练集1 0 套为测试 集。然后先根据手势训练集学习手势特征,再计算测试集中手势与训练集中手势的欧 氏距离,最后用近邻法来识别判断。 实验的结果证明了我们的方法是完全行之有效的,识别率达到了9 3 3 。 关键词:动态手势识别,图像预处理,白适应阈值,近邻法 h a n dg e s t u r e sp l a yan a t u r a la n di n t u i t i v ec o m m u n i c a t i o nm o d ef o ra l l h u m a nd i a l o g s t h ea b i l i t yf o rc o m p u t e rt ov i s u a l l yr e c o g n i z eh a n dg e s t u r e si s e s s e n t i a lf o rf u t u r eh u m a n c o m p u t e ri n t e r a c t i o n h o w e v e r v i s i o n b a s e dr e c o g n i t i o n o fh a n dg e s t u r e sr e a s o n si sa ne x t r e m e l yc h a l l e n g i n gi n t e r d i s c i p l i n a r yp r o j e c tf o r t h ef o l l o w i n gh a n dg e s t u r e sa r ed c hi nd i v e r s i t i e s m u 似- m e a n i n g sa n ds p a c e - t i m e v a d e u e s ;h u m a nh a n d sa r ec o m p l e xn o n d g i do b j e c t s ;c o m p u t e rv i s i o ni t s e f fi sa n i l l p o s e dp r o b l e m t h i sp a p e rd i s c u s s e dt h er e s e a r c ho fv i s i o n b a s e dd y n a m i cg e s t u r e r e c o g n i t i o nb a s e di n3a s p e c t s :g e s t u r ei m a g ep r e p r o c e s s i n g ,f e a t u r ee x t r a c t i o n a n dt h ed e s i g no fc l a s s i f i e r i nt h ep r o c e s so fi m a g ep r e p r o c e s s i n gw ee x t r a c tt h ef r a m e st h a tw ea r e i n t e r e s t e di nf r o mt h ev i d e of i l ef i r s t t h e nt h e r ea r es e v e r a li m a g eo p e r a t i o n sw e s h o u l dd o w et u mt h er g bc o l o ri m a g e si n t og r a y - s c a l e di m a g e s ,t a k et h e s m o o t h i n gm e a s u r et or e d u c et h en o i s ei nt h ei m a g e s ,t h e nw eg e tt h eb i n a r y v e r s i o no ft h ei m a g e sb yt h em e a n so fa d a p t i v es h r i n k a g ev a l u e f o l l o w i n gt h ei m a g ep r e p r o c e s s i n g ,i t st u r nt oe x t r a c tt h ed g h tf e a t u r e f r o mt h eg e s t u r e w eg r o s s l yc l a s s i f i e dt h eg e s t u r ea c c o r d i n gt ot h et r a c ko ft h e h a n da n dt h es h a p eo ft h eh a n d a n dt h e nw ec a l c u l a t et h e v a l u eo f 仇ef e a t u r e i nt h ec l a s s i f i e rd e s i g n i n g ,w es p l i tt h e14s e t so fg e s t u r ei m a g e si n t o10 t e s t i n gs e t sa n d 4d e s i g n i n gs e t s t h es y s t e mg e t st h ef e a t u r ef r o mt h ed e s i g n i n g s e t sa n ds a v ei ta sat e m p l a t e ,a n dt h e ni tc a l c u l a t e st h ef e a t u r eo ft h ei n p u t g e s t u r eo ft h et e s t i n gs e t s c o m p a d n gw i t ht h et e m p l a t eu s i n ge u c l i d e a md i s t e n c e 。 i tg e t st h er e s u i tb yn e a r e s t n e i g h b o rr u l e t h er e c o g n i t i o nr a t i oi sp r o v e d9 3 3 。t h er e s u i ts h o w so u rs y s t e mi s t o t a l l ye f f e c t i v e x i a n g k u nt s e n g ( c o m p u t e rd e p t ) k e yw o e d s :d y n a m i cg e s t u r er e c o g n i t i o n ,i m a g ep r e p r o c e s s i n g ,a d a p t i v e s h r i n k a g ev a l u e 。n e a r e s tn e i g h b o rr u l e 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文 中除了特别加以标注和致谢的地方外,不包含其他人或者其他机构已经发表 或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作 了明确的声明并表示了感谢。 作者签名: 论文使用授权声明 日期:丝专 本人同意上海海事大学有关保留、使用学位论文的规定,即:学校有权保 留送交论文复印件,允许论文被查阅和借阅;学校可以上网公布论文的全部和 部分内容,可以采用影印、缩印或者其它复制手段保存论文。保密的论文在解 密后遵守此规定。 储擗2 峄导 日期: 托丝 群 1 1模式识别简介 第一章绪论 模式识别诞生于2 0 世纪2 0 年代,经过4 0 年的发展到6 0 年代初迅速发展成 为- f l 学科。它所研究的理论和方法在很多科学和技术领域中得到广泛的重视, 同时也推动了人工智能系统和计算机应用的发展。许久以柬的研究成果涉及各个 领域,包括遥感数据分析、地震波的检测、自动视觉检测、非数字系统中的故障 检测和分析、医学数据分析、文字识别、语音识别、人脸和手势的识别等等1 1 1 。 在模式识别中,有两种经典的识别方法: 1 、统计方法。又称为定量统计判断方法,就是用一组统计量来描述模式。基于 这种方法的识别过程由四个部分构成:数据获取、预处理、特征抽取和分类。 结构方法。又称句法分析,是对模式进行结构描述和分析,把一个复杂模式 分化成为若干较简单的子模式的组合,并模仿语言学中句法的层次结构,运 用形式语言和自动机识别技术。 基于统计识别法的模式识别系统主要由五部分组成:数据获取、预处理、特征抽 取,分类设计和分类器。如图1 - 1 。 客 结果 信息获取过程是通过测量、采样和量化,用矩阵和向量表示二维图像或一维波形。 预处理的目的是除去噪声,加强有用信息,并对种种因素造成的退化现象进行复 原。特征抽取的过程是对原始数据进行选择或变换,得到最能反映分类本质的特 征,构成特征向量。为了把待识模式分配到各自的模式类中去,必须设计出一套 分类判断规则基本做法是:用一定数量的样本( 称为训练样本集) ,确定出一套 分类判别规则,使得按这套分类判别规则对待识模式分类所造成的错误识别率最 小或引起的损失最小。这就是分类器设计的过程。分类器按已确定的分类判别规 则对待识模式进行分类判别,输出分类结果。 1 2 课题背景 手势是一种自然、直观、易于学习的人机交互手段,它是聋哑人进行信息交 流的一种最常用方式。手势识别的目标就是通过计算机提供一种有效的、准确的 机制将手势翻译成文本或语音使得聋人和听力正常入之间的交流变得更方便、快 捷。 手势识别的研究可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟 人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方 面,同时也有助于改善和提高聋哑人的生活学习和工作条件,为他们供更好的服 务;另外,手势的研究涉及到教学、计算机图形学、机器人运动学、医学等多学 科。因此,手势识别的研究是一个非常有意义的课题。 手势的识别不但具有深远的研究意义,而且具有广阔的实际应用前景,至少 表现在以下几个方面:( 1 ) 从认知科学的角度,研究人的视觉语言理解的机制, 提高计算机对人类语言的理解水平;( 2 ) 对语音识别起着辅助作用;( 3 ) 利用手 势控制v r 中的智能化;( 4 ) 机器人的示范学习;( 5 ) 虚拟现实系统中的多模式 接口;( 6 ) 能够使得聋哑人,尤其是使得文化程度比较低的聋哑人,使用手语和 正常人交流等。 2 1 3手势识别分类 1 3 1根据识别对象分类 根据识别对象形态的差异可以将手势识别分为静态手势识别和动态手势识 别。 静态手势识别的研究重点对象是手的姿态( p o s t u r e ) 和单个手形。这方面的 工作国内有:哈工大的李勇、高文等提出的基于指尖染色和手指染色的颜色手套 模型,实现可以识别中国手指字母表3 0 个基本手形的静态手势识别系统。1 、哈 工大的张良国等提出基于h a u s d o r f f 距离的手势识别。1 以及上海交通大学的刘江 华等用最小二乘支持向量机( l s s v m ) 作为分类器对2 6 个字母手势进行识别“1 ; 国外的有r e m i kz i e m l i n s k i 等提出过专门的静态识别方法“1 。 动态手势识别的识别对象是一组连续的手势动作,通过相应的识别算法,识 别出整个手势动作的意义,在这方面国内外研究者投入了很大的精力和热情,也 提出了各种识别的算法【6 岱1 ,本文后续内容将重点讨论动态手势识别。 1 3 2根据手势输入设备不同分类 根据手势识别研究中所采用的手势输入设备不同可以分类为基于数据手套 的手势识别和基于视觉的手势识别。 基于数据手套的手语识别系统,是利用数据手套和位置跟踪器测量手势在空 间运动的轨迹和时序信息,这种方法的优点是系统的识别率高,缺点是打手语的 人要穿戴复杂的数据手套和位置跟踪器,并且因为目i i 输入设备比较昂贵,大量 推广比较困难。 历史上,g r i m e s 在a t & t 最先取得了“数据手套“专利1 因此,它也可被 认为是最早进行手势识别研究的人,手势识别的历史比手语识别的历史长,一般 认为手语识别研究始于1 9 9 2 年。从识别方法上看,目前主要采用的是隐马尔可夫 模型( h m m ) 、模板匹配方法及神经网络方法,模板匹配主要用于少量孤立手 3 势的识别。 基于视觉( 有些文献称为:基于图像) 的手势识别研究是利用摄像机采集手 势信息,并进行识别。该方法的优点是输入设备便宜,计算机与人的交互更加趋 于自然化,但其目静识别率较低,实时性较差,特别很难适用于大词汇量的手语 识别。不同文化背景对手势的定义是有区别的,由于手势本身具有的多样性、多 义性以及时i 日j 和空间七的差异性等特点,加之人手是复杂变形体以及视觉本身的 不适定性,因此摹于视觉的手势识别是一个多学科交叉的、富有跳战性的研究课 题。 1 4基于视觉的动态手势识别系统 一个基于视觉的动态手势识别系统的总体构成如下:首先,通过一个或多个 摄像机获取视频数掘流。接着,系统根据手势输入的交互模型检测数掘流罩是否 有手势出现。如果有,则把该手势从视频信号中切分出来。然后,选择手势模型 进行手势分析,分析过程包括特征检测和模型参数估计,识别阶段,根据模型参 数对手势进行分类并根据需要生成手势描述。最后,系统根据生成的描述去驱动 具体应用具体步骤如下: 一、帧分离 将手势图像帧从视频数据流中分离出来并进行相应的预处理供系统调用。 二、手势分割 手势分割的目的是在i ; 景中仅保留手势部分,对于大部分分割工具,必须通 过以下三步来实现: 1 用一个边缘检测器确定图像的边界。 2 通过一种运动检测技术,决定图像的所有运动部分。 3 通过结合两种信息来抽取运动边界。 三、手势建模 手势模型对于手势识别系统至关重要,特别是对确定识别范围起关键性作 用,模型的选取根本上取决于具体应用,对于某个给定的应用,一个非常简单并 且粗糙的模型可能就是充分的。然而,如果要实现自然的人机交互,那么必须建 立一个精细有效的手势模型,使得识别系统能够对用户所做的绝大多数( 如果不 4 是所有的) 手势作出正确的反应( 识别或拒识) 。目前,主要的手势建模方法是通 过手势的表现给手势建模,这种基于表现的手势模型是建立在手势图像的表现之 上,它通过分析手势在图像( 序列) 里的表现特征去给手势建模,基于表现的手势 模型主要有以下几种: 1 基于灰度图像本身的表现模型。例如,把人手的完整图像序列作为手势 模板”。在手指跟踪应用里,仅仅手指的图像也可以用作模板。运动历史图像也 可作为手势模型,运动历史图像是指在某个时间区问上累加图像序列罩各单个像 素点的运动位置而形成的2 d 图像。 2 基于可变形2 d 模板的表观模型。可变形2 d 模板是物体轮廓上某些点的 集合,般把它用作插值节点去近似物体轮廓。模板由平均点集合、点可变性参 数,以及所谓的外部变形构成,平均点集合描述了某一组形状的“平均”形状, 点可变性参数描述了允许的形变,通常称这两组参数为内部参数,外部变形或者 外部参数描述了一个可变形模板的全局运动,如旋转、平移等。基于可变形模板 的人手模型通常被用于人手跟踪汹1 ,最近,有人把2 d 可变形模板扩展成3 d 可交 形模型( 3 d 点分碲模型) 用于手势跟踪。 3 基于图像属性的表现模型。我们把从图像属性抽取的参数统称为图像属 性参数,它们包括:轮廓、边界、图像矩、图像特征向量以及区域直方图特征等 等,由于图像矩计算简单,因此常被用作图像属性参数,其它常被使用的属性参 数还包括z e r n i k e 矩、方向直方图、颜色直方图等等。 4 基于运动图像的表现模型。这类表现模型主要用在动态手势识别里,例如, 通过运动边界点以及方差约束计算光流,然后通过向量聚类以及运动平滑性约束 抽取手势的运动轨迹,并根据轨迹坐标建立手势模型。 四、手势分析 手势分析阶段的任务就是估计选定的手势模型的参数,它由特征检测和参数 估计两个串行任务组成。在特征检测过程中,首先必须定位做手势的主体( 人手) 。 根据所用的线索不同,可以把定位技术分为基于颜色定位、基于运动定位、以及 多模式定位等三种。绝大多数颜色定位技术依赖于直方图匹配或者利用皮肤的训 练数据建立查找表的方法。基于颜色定位技术的主要缺点是在不同的光照条件下 皮肤颜色变化较大,这经常导致未被发现的皮肽区域或者误检测出非皮肤区域。 5 尽管不同手势模型的参数各不相同,但是用于计算模型参数的图像特征基元通常 是非常相似的。常用的图像特征基元包括灰度图像、二值影像、区域、边界及轮 廓或者指尖等。 特征检测结束之后,就可以进行参数估计。在如前所述的四类基于表观的手 势模型中,基于灰度图像本身的表现模型有许多不同的参数,在最简单的情况下, 可以选择模型视图序列作为参数,也可以使用序列罩各帧图像关于平均图像的特 征分解表示,最近有人累积图像序列里的信息,从而形成单个2 d 图像,即所谓 的运动历史图像,然后,采用基于2 d 图像描述技术( 如几何矩描述或者特征分解) 去参数化那些2 d 图像。 基于可变形2 d 模板表观模型的典型参数是模板节点的均值m 和它们的方差 v 。通过在训练集上进行主成分分析( p r i m a r yc o m p o n e n ta n a l y s i s ,p c a ) 可得到 模型参数。与可变形模板模型参数相联系的还有外部变形参数( 指手或身体在工 作区间里的旋转和平移运动) 。可以在类似于刚体运动估计的框架下估计模型参 数的更新,所不同的是可变形模板需要估计由于模板可变性d v 而引起的附加位 移。 基于图像属性表现模型的常用参数是手形几何矩、z e r n i k e 矩、以及朝向直 方图等等。这些图像特征参数易于估计,但是它们对图像中其它非手物体非常敏 感。 五、手势识别 手势识别就是把模型参数空间里的轨迹( 或点) 分类到该空问里某个子集的 过程。静态手势对应着模型参数空日】里一个点,而动态手势则对应着模型参数空 日j 罩的一条轨迹。目前主要采用的识别方法有模板匹配方法、神经网络方法及隐 马尔可夫模型( h 删) 。模板匹配主要用于少量孤立手势的识别,该方法计算简单、 速度快。神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能 力不强,目前广泛用于静态手势的识别。著名的f e l s 的g l o v e t a l k 系统采用神 经网络方法作为识别技术。对于分析区间内的手势信号,通常采取删方法进行 模型化。删是众周知并广泛使用的统计方法,一般拓扑结构下的t i m m 具有非常 强的描述手势信号的时空变化能力,在动态手势识别领域一直占有主导地址,如 卡内基梅隆大学的美国手势识别系统及台湾大学的台湾手势识别系统等均采 6 用删作为系统的识别技术。在基于删的识别算法罩,每种手势有一个h 姗。 可观察符号对应着模型参数空间里的向量( 点) ,例如几何矩向量,z e r n i k e 矩, 特征图像系数向量,或者3 d 空间的运动速度等等。基于删识别技术的优点包 括提供了时| 日j 尺度不变性,保持了概率框架、以及具有自动分割和分类能力。另 外,g r o b e l 与a s s a m 利用m 蹦识别由戴有色手套的用户通过摄像机输入的2 6 2 个孤立手势词,正确率为9 1 3 啪1 。然而正是由于h m m 拓扑结构的一般性,导致 这种模型在分析手势信号时过于复杂,使得h m m 训练和识别计算量过大。尤其是 在连续的h m m 中,由于需要计算大量的状态概率密度,需要估计的参数个数较多, 使得训练及识别的速度相对较慢,因而以往手势识别系统所采用的 删一般为离 散舢。 1 5手势识别的一般方法 1 5 1模板匹配技术 这是一种最简单的识别技术,它将输入的原始数据与预先存储的模板进行匹 配,通过测量两个模板之间的相似度来完成识别任务。如张良国,吴江琴等人论 文基于h a u s d o r f f 距离的手势识别就是利用改进过的h a u s d o r f f 距离,通过计算 预处理后的输入图像的h a u s d o r f f 距离和标准模板库中各种图像的h a u s d o r f f 距 离进行判断伽 1 5 2神经网络技术 这是一种较新的模式识别技术,具有自组织和自学习能力,能有效抗噪声和 处理不完整的模式以及具有模式推广能力,比较常用的方法是基于模糊神经网络 的手势识别。“,其网络结构有5 层组成: 第一层为输入层。该层的各个节点直接与输入向量的各分量x i 连接,它 起着将输入值x :卜”屯,】传送到下一层的作用,输入层节点数m 。厅- 7 , 7 即七维向量,其中分别为数据手套中取出的各个角度值,值域为 - 9 0 ,9 0 。 第二层每个节点代表一个语言变量值。用于计算各输入分量属于各语言变 量值模糊集合的隶属度函数。所用隶属函数为高斯函数表示的正态分布函数,即: u ;e - ( x - c # 州 其中i :1 ,2 ,n 是输入量的维数,j :1 ,2 ,m 。是模糊分割数;巳, 分别表示隶属函数的中心和宽度。该层的节点总数:= m 1 m :x x m n ,系统 将该层的每个输入层的节点模糊化为3 到5 个分支节点,故共有节点2 1 至3 5 个。 第三层是归一层,它是一个中间过渡性的缓冲变量,它与规则层节点一一 对应,它的每个接点代表一条模糊规则,用于匹配模糊规则前件,计算出每条规 则的适用度。如果利用两种合成算子,则有两种适用度,e p 取小求解法或连乘求 解法求口j 。总数为 r 3 = m ,系统对每条规则口一,有一个对应的整型数组变量存放 形成它的模糊层中的节点值的下标值,以作备用。 第四层的节点数与第三层相同,即= m ,它所实现的是归一化计算,e p 口口,7 善口;,( j :1 ,2 ,。m ) : 第五层是输出层,它所实现的是清晰化计算求解结果,即 y 。善n 4 ,( i :1 ,2 ,r ) 这里的相当于) ,一的第j 个语言值隶属函数的中心值,上式写成向量形式, 则为y 一眦,其中 y - y 1 y 2 : y , 。w - q 口2 : 口m 该系统的输出层节点数据结构为十三维的向量y ,1 - = 1 3 ,其中,y 分别为 该节点的输入节点值与相应权值的乘积,标准库输出层的正确取值范围为0 至1 | 1 之间。该层的节点只有当输入层节点在库中有匹配时才有有效值( 约为l 的值) 8 所以对于每个输入的手势,该层中最多有一个节点值约为i ,当隶属度函数小于 允许误差e p s 时近似取为0 。而接近于i 以致达到误差允许范围内的节点下标值, 即为所识别的手势在标准手势库中对应的输出层下标值。 1 5 3统计分析技术 通过统计样本特征向量来确定分类是一种基于概率统计的方法。该技术的缺 点是要求人们从原始数据中提取特定的特征向量,而不能直接对原始数据进行识 别,其中常用方法之一的是基于k l 变换的特征提取方法( 又称主元分析方法, p c a ) 列。 对于一系列图像 j ( p ) ib - 0 ) ,石2 q ) ,h q ) r ( p = l ,2 ,p ) 我们要找出一个特征向量集 厩i 【m l ,m l ,】 ( i = 1 ,2 ,m ,m n ) , 相应的主分量为 噍一彰五( p ) 所以能量函数e 要小于一个容忍的度 e 一;蠢旺。) 一觅( p 旺( p ) 一元) ) 一;妻 ( p ) 一m - - m - t n - 。( p ) ) e ( p ) 一m - - h - t n - , ) ) 其中 互【p)-!兰:一。厩,厩,田j苎至 9 只c o ) = 囊厩 最后的输出罗( p ) 应该尽量与j ( p ) 接近 村 歹( p ) 善元) 。荟 一帚 1 5 4奇异值分解法 用经典的奇异值分解获取的奇异值( s v ) 来表示手势图像的代数特征嘲,以“ 是一幅手势图像,它有s v d 分解 a 。u x v 7 g ( ,九,九,o ,o ) ( 土如土九) ,“2 ,“。,“i ,“_ ) ,v 2 c 心“i ,v * ) 其中砰是朋7 和彳7 4 的特征值, 是a 的奇异值。 ( i :1 ,2 ,l = r a n k ( a ) ) 接近零的项较多,去掉它们得到 万。善 玎 孑可以看作a 在特征图像“- v :,球z v ;,“,v j 上的投影的叠加,再计算它和标 准模板库中的特征向量的点乘距离,按照一定的准则进行判断。 1 5 5基于几何矩的识别方法 图像矩的属性在统计学和力学中有以下相似之处。一个概率密度函数的零 1 0 , 拙 “ “ 中 - - i 其 ,晓 、 阶、一阶、二阶矩分别表示其全概率、数学期望和方差。而对于力学矩,质量空 问分布的零阶、一阶、二阶矩分别表示全部质量、矩心位置和惯量。如果一幅图 像被认为是一个二维密度分布,那么与空间位置有关的像素值的几何矩函数,同 样能够提供该图像的形状信息1 3 4 j1 3 5 1 ,例如,图像的总面积、图像矩心的坐标以 及图像的方位。这些形状特点能被进一步用于构造特征矢量,而这些特征矢量在 图像的平移、旋转、尺度变化时保持不变。零阶到三阶矩用于描述总体水平上的 图像特征,而更高阶矩则含有更好的图像细节,但通常对噪声敏感,可以变换方 式减少或消除噪声的影响。这种方法是通过计算原始图像中的一系列几何矩和标 准模板库中的几何矩的点乘距离进行判断。 1 6相关的研究历史和现状 从较早时期到九十年代,己经发展了很多基于手势的应用。c o l e m a n 研制出 了一种基于校对者标记的文本编辑器啪1 。m i n s k y 建立了一个用于标志程序设计 的手势界面”1 。b u x t o n 的研究小组制造出了一个利用手势输入的语音得分编辑 器以及一个图形编辑器。k u b i n e 制作了一个工具包,用来建立使用单击手势识 别器的基于手势的应用仪器。在手提电脑的发展浪潮中,笔录入计算机开始出现。 这种计算机不需要键盘,其核心技术包括手写字识别和手势识别。另外,w a t s o n 对当前的手势识别的技术和应用做了一个综述文章。人体运动,特别是手势在近 年来已经成为h c i 领域的重要课题陬8 “。然而,许多以前的基于手势的应用需 要特殊的硬件,诸如鼠标,键盘实现手势的输入。它们不方便而且很不自然。为 了让人手成为更加自然的输入工具,许多方案诸如数据手套,利用在手套上的可 以直接测量关节角和手部空间位置的传感器来进行人手运动的跟踪。不幸的是, 这样的设备昂贵而且笨重,不适合实际操作。采用无接触的基于视觉的技术利用 低成本的摄像机来捕捉人手的运动是具有前景的一种方案。这种技术同时促进了 建模,图像分析,形态模拟和手势识别等多种技术的发展。手势的识别是一项复 杂的技术,包括了运动建模,运动分析,模式识别的机器学习以及语言学习。根 据不同的应用深度,手势可以分为好几个种类,诸如对话手势、控制手势、操作 手势和通信手势。手语是一个很重要的通信手势。因为手语的结构性很强,所以 很适于作为计算机视觉算法的试验平台“。与此同时,对于残障人士而言,也 l l 是实现交流的一个很好选择。控制手势是目前基于视觉的界面研究( v b i ) 的焦点 嘲。视觉目标也可以通过分析点状手势来进行定位“”一些显示控制的应用已经 证明了点控手势识别在h c i 的应用前景1 。 。 在基于视觉手势识别方面,具有代表性的研究成果包括:1 9 9 1 年富士通实验 室完成了对4 6 个手语符号的识别工作m 1 ;j d a v i s 和m s h a h 将戴上指尖具有高 亮标记的视觉手套的手势作为系统的输入,可识别7 种手势m 1 ;s t a r n e r 等在对美 国手语中带有词性的4 0 个词汇随机组成的短句子识别率达至i j 9 9 2 m “;k g r o b e l 和m a s s a m 从视频录像中提取特征,采用h m m 技术识别2 6 2 个孤立词,正 确率为9 1 3 1 。 利用数据手套等典型传感设备的方法中,台湾大学的l i a n g 等人利用单个v p l 数掘手套作为手语输入设备,可识别台湾手语课本中的2 5 0 个基本词条,识别率 为9 0 5 5 ”,c m u 的c h r i s t o p h e rl e e 和x u 在1 9 9 5 年完成了一个操纵机器人的手 势控制系统嘲;m w k a d o u s 用p o w e rg l o v e s 作为手语输入设备,识别由9 5 个孤 立词构成的词汇集,正确率为8 0 啪1 。 此外,v o g l e r 与m c t a x a s 将两种方法相结合用于美国手语识别,交互采用一 个位置跟踪器及三个互相垂直的摄像机作为手势输入设备,完成了5 3 个孤立词 的识别,识别率为8 9 9 i 蚓。1 9 9 5 年开始,他们对1 3 手势词进行了基于视觉的 非特定人识别研究【5 5 1 1 9 9 8 年,他们完成了基于单只c y b e r g l o v e 数据手套的汉 语手指字母流的识别侧,随后在1 9 9 9 年实现了2 2 0 个词的连续手语识别“”及1 0 6 4 个孤立词的手语识别,在2 0 0 0 年在国际上首次实现了5 0 0 0 词以上的连续中国 手语识别系统嘲。 尽管已经实现了大词汇量的手语识别系统,但中国手语识别仍然面临许多挑 战性课题,如:手势不变特征的提取、手势之f b j 的过渡模型、手语识别的最小识 别基元、自动分割识别基元、词汇量可扩展的识别方法、手语识别的辅助信息、 非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法 等。 1 7本论文的工作 本论文对基于计算机视觉的动态手势分割和识别进行研究。首先对手势视频 流进行了帧分离操作,通过颜色检测来分割手势,识别过程采取了自适应阈值二 值化方法进行预处理,特征提取兼顾了手势本身的形状特征和整个手势序列的运 动轨迹特征,以中国手语中的扳、不是、擦、撮、打、给、挂、捞、拿、推、托、 抓1 2 个单手手势为识别对象删,获得了较高的识别率。系统流程如图卜2 所示。 预 处 理 结 果 集 图1 2 系统流程 本论文是上海市自然科学基金项目一一“手势识别与合成”( 基金编号: 0 2 z d l 4 0 5 3 ) 课题的动态手势识别算法研究部分。 2 1手势视频流获取 第二章图像预处理 手势识别与人脸识别不同,它没有公开的现成的可供研究者使用的图像库, 所以手势识别的第一步工作就是得到识别对象手势图像库。 实验中,我们采用视频输入设备采集了中国手语中的:扳、不是、擦、撮、 打、给、挂、捞、拿、推、托、抓1 2 个单手手势,每个手势拍摄了1 5 套样,本 其中4 套作为训练集1 0 套作为测试集,排除1 套,拍摄样本为3 2 0 x 2 4 0 像素2 4 位真彩色,3 0 帧每秒,手势最短为3 秒最长为1 0 秒。视频流格式采用w i n d o w s 标准的a v i 格式,我们利用w i n d o w s 提供的v f w 类库对其进行读写。 2 2视频流样本格式 a v i ( a u d i ov i d e oi n t e r l e a v e d 的缩写) 是一种r i f t ( r e s o u r c ei n t e r c h a n g ef i l e f o r m a t 的缩写) 文件格式,多用于音视频捕捉、编辑、回放等应用程序中。 通常情况下,一个a v i 文件可以包含多个不同类型的媒体流( 典型的情况下有 一个音频流和一个视频流) ,不过含有单一音频流或单一视频流的a v i 文件也 是合法的。a v i 可以算是w i n d o w s 操作系统上最基本的、也是最常用的一种媒 体文件格式。 2 2 1r i f f 文件格式 r i f t 文件使用四字符码f o u r c c ( f o u r - c h a r a c t e rc o d e ) 来表征数据类型, 比如r i f f 、a v i 、l i s t 等。w i n d o w s 操作系统使用的字节顺序是 l i t t l e - e n d i a n ,因此一个四字符码a b e d 实际的d w o r d 值应为0 x 6 4 6 3 6 2 6 1 。 另外,四字符码中像a v i 一样含有空格也是合法的。 r i f l 口文件首先含有一个如图2 - 1 的文件头结构。 1 4 4 字节4 字节4 字节 图2 - 1r i f f 文件结构 最开始的4 个字节是一个四字符码r i f f ,表示这是一个r i f f 文件;紧 跟着后面用4 个字节表示此r i f f 文件的大小;然后又是一个四字符码说明文件 的具体类型,比如a v i 、w a v e 等;最后就是实际的数据。文件大小值的计算 方法为:实际数掘长度+ 4 ( 文件类型域的大小) ;也就是说,文件大小的值不 包括r i f f 域和“文件大小”域本身的大小。 r i f f 文件的实际数掘中,通常还使用了列表( l i s t ) 和块( c h u n k ) 的形式 来组织。列表可以嵌套子列表和块。其中,列表的结构为:l i s t l i s t s i z e l i s t t y p e l i s t d a t a l i s t 是一个四字符码,表示这是一个列表;l i s t s i z e 占用4 字节, 记录了整个列表的大小;l i s t t y p e 也是一个四字符码,表示本列表的具体类型; l i s t d a t a 就是实际的列表数据。l i s t s i z e 值的计算方法为:实际的列表数据长度+ 4 ( 1 i s t t y p e 域的大小) ;也就是说l i s t s i z e 值不包括l i s t 域和l i s t s i z e 域本身 的大小。再来看块的结构:c k i dc k s i z ec k d a t a 、c k i d 是一个表示块类型的四 字符码:c k s i z e 占用4 字节,记录了整个块的大d ;c k d a t a 为实际的块数据。c k s i z e 值指的是实际的块数据长度,而不包括c k l d 域和c k s i z e 域本身的大小。( 在下 面的内容中,将以l i s t ( 1 i s t t y p e ( 1 i s t d a t a ) ) 的形式来表示一个列表,以c k l d ( c k d a t a ) 的形式来表示一个块,如【o p t i o n a le l e m e n t 】中括号中的元素表示为可选 项。) 2 2 2 v i 文件格式 a v i 文件类型用一个四字符码a v i 来表示。整个a v i 文件的结构为: 一个r i f f 头+ 两个列表( 一个用于描述媒体流格式、一个用于保存媒体流数 据) + 一个可选的索引块。a v i 文件的展开结构大致如下: r i f f ( a v i l i s t ( h o d a v i h ( 主a v i 信息头数据) l i s t ( s t r l s t r h ( 流的头信息数据) s t r f ( 流的格式信息数据) 【s t r d ( 可选的额外的头信息数据) 】 【s t r n ( 可选的流的名字) 】 ) ) l i s t ( m o v i s u b c h u n kil i s t ( r c c s u b c h u n k l s u b c h u n k 2 ) ) 【i d x l ( 可选的a v i 索引块数据) 】 ) 首先,r i f f ( a v i ) 表征了a v i 文件类型。然后就是a v i 文件必需的 第一个列表h d r l 列表,用于描述a v i 文件中各个流的格式信息( a v i 文 件中的每一路媒体数据都称为一个流) 。h d d 列表嵌套了一系列块和子列表 首先是一个a v i h 块,用于记录a v i 文件的全局信息,比如流的数量、视 频图像的宽和高等,可以使用一个a v i m a i n h e a d e r 数据结构来操作: t y p c d e fs t r u c t _ a v i m a i n h e a d c r , f o u r c cf c c ;必须为a v i h d w o r dc b ;本数据结构的大小,不包括最初的8 个字节( f o e 和 1 6 c b 两个域) d w o r d d w o r d d w o r d d w o r d 引块等 d w o r d d w o r d 该指定为o ) d w o r d d w o r d 容纳最大的块) d w m i c r o s e c p e r f r a m e ;视频帧间隔时间( 以毫秒为单位) d w m a x b y t e s p e r s e c ;这个a v i 文件的最大数据率 d w p a d d i n g g r a n u l a r i t y ;数据填充的粒度 d w f l a g s ;a v i 文件的全局标记,比如是否含有索 d w t o t a l f r a m e s ;总帧数 d w l n i t i a l f r a m e s ;为交互格式指定初始帧数( 非交互格式应 d w s t r e a m s ; 本文件包含的流的个数 d w s u g g e s t e d b u f f e r s i z e ;建议读取本文件的缓存大小( 应能 d w o r dd w w i d t h ;视频图像的宽( 以像素为单位) d w o r dd w h e i g h t ;视频图像的高( 以像素为单位) d w o r dd w r c s e r v e d 4 ; ,保留 a v i m a i n h e a d e r ; 然后,就是一个或多个s t r l 子列表。( 文件中有多少个流,这里就对应 有多少个s t d 子列表。) 每个s t r l 子列表至少包含一个s t r h 块和一个s t r f 块,而s t r d 块( 保存编解码器需要的一些配置信息) 和s t m 块( 保存流的 名字) 是可选的。首先是s t r h 块,用于说明这个流的头信息,可以使用一个 a v i s t 队m h e a d e r 数据结构来操作: t y p e d e fs t r u c t _ a v i s t r e a m h e a d e r f o u r c cf c c ;必须为s t r h d w o r dc b ;本数据结构的大小,不包括最初的8 个字节( f c c 和c b 两个域) f o u r c cf c c t y p e ;流的类型:a u d s ( 音频流) 、v i d s ( 视 频流) ,m i d s ( m i d i 流) 、t x t s ( 文字流) f o u r c cf c c h a n d l e r ;指定流的处理者,对于音视频来说就是解码器 d w o r dd w f l a g s ;标记:是否允许这个流输出? 调色板是否变 1 7 化? w o r d 级最高的为默认流) w o r d d w o r d d w o r d d w o r d d w o r d d w o r d 有关) w p r i o r i t y ;流的优先级( 当有多个相同类型的流时优先 w l a n g u a g e ; d w l n i t i a l f r a m e s ;为交互格式指定初始帧数 d w s c a l e ;这个流使用的时间尺度 d w r a t e ; d w s t a r t ;流的开始时日】 d w l e n g t h ;流的长度( 单位与d w s c a l e 和d w r a t e 的定义 d w o r dd w s u g g e s t e d b u f f e r s i z e ;读取这个流数据建议使用的缓存 大小 d w o r dd w q u a l i t y ; 流数据的质量指标( 0 1 0 , 0 0 0 ) d w o r d d w s a m p l e s i z e ;s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村新型合作经营体系建设协议
- 时间单位的换算说课课件
- 骆驼祥子人物分析:名著阅读与生活实践教案
- 一年级写景作文望雪250字(13篇)
- 人教版三年级下册期末考试数学试卷(含答案)2024-2025学年广东省汕头市潮南区
- 健康医疗信息服务平台建设合同
- 早教知识培训名称大全课件
- 写人作文大头男孩500字8篇
- 沧桑800字初三话题作文(15篇)
- 日记战胜困难500字13篇
- 《湖南省房屋建筑和市政工程消防质量控制技术标准》
- 《高压开关柜》课件
- 装配钳工高级试题(附答案)
- 【数学】一元一次方程的应用(第2课时)课件 2024-2025学年北师大版七年级数学上册
- 劳务用工合同
- 215kWh工商业液冷储能电池一体柜用户手册
- 论文不涉密证明模板
- 安装空调水管合同协议书范文
- 福建省泉州市永春县2023-2024学年八年级下学期期末考试数学试卷(含答案)
- 广东省佛山市南海区2025届高三摸底考试数学试题
- 2024-2030年中国膏药市场风险评估与投资战略规划策略分析研究报告
评论
0/150
提交评论