




已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)基于几何特征的手势识别算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基十 )l何 特初的手 势识别算r j : 研7 i 摘要 手势是人们生活当中 种自 然而直观的人际交流模式, 随着计算机技术的发 展和人机交互逐渐向以人为中 心转移, 对手势识别的研究也逐渐成为人们研究的 热点。 然而,由于手势本身具有的多样性、多义性、以及时间和空间上的差异性 等特点, 加之人手是复杂变形体及视觉本身的不适定性, 因此基于视觉的手势识 别是 个极富挑战性的多学科交叉研究课题。 手势分为动态手势和静态手势, 动 态手势定义为手运动的轨迹, 而静态手势强调通过手型传递一定的意义。 本文结 合上海市自 然科学基金资助课题 “ 手势识别和合成算法” ,对静态的手势识别算 法进行研究。 手势识别的过程大致分为三个部分, 手势图像预处理、 手势图像特征提取和 识别。在手势图像预处理部分,对己 经被标准化的手势图像 ( 大小为 1 2 8 * 1 2 8 像素的b m p 格式的灰度图) , 根据需 要采用局部平 均法对图像进行平滑, 然后对 图像采用拉普拉斯算子进行锐化, 再对图像采用最大方差法进行二值化, 最后用 八方向邻域搜索法对二值化图像做轮廓提取。 在手势特征提取和识别部分,本文提出了 两种基于手势图像几何特征的方 法: h d c 提取关键点的识别算法及应用几何矩和 c a n n y边缘检测结合的识别算 法。 在h d c 提取关键点的识别算法中, 提出一种提取手势轮廓曲线关键点对手势 进行识别的算法。 手势图像经过二值化后, 提取其轮廓。 将图像的轮廓看成一条 曲 线, 应用层次离散相关原理, 以 一个内核对曲线进行多次平滑, 得到曲线的尺 度空间, 再通过跟踪曲线在尺度空间中的运动找出手势轮廓的关键点。 最后通过 最小距离法进行识别。 在应用几何矩和c a n n y 边缘检测结合的识别算法中, 提出 一种结合几何矩和边缘检测的手势识别算法。 手势图像经过二值化处理后, 提取 手势图像的几何矩特征, 取出几何矩特征七个特征分量中的四个分量, 形成手势 的几何矩特征向量。 在灰度图基础上 直接检测图像的边缘, 利用直方图表示图像 的边界方向 特征。最后, 通过设定 两 个特征的权重来计算图 像间的距离, 对 3 0 个字母手势进行识别。 最后,f ld c 提取关键点的识别 算 法在实验中 对3 0 个手势进行识别,识别率 为8 3 .3 % 。 应用几何矩和。 a n n y 边缘 检测结合的识别算法结合了 两种图像特征的 优点, 在实验中识别率为9 1 .3 % . 关键字乎势识别,关键点,几何矩,边缘检测,欧式距离 基7 儿何 特祖的于 势识别算法研究 ab s丁r act h a n d g e s t u r e s p la y a n a t u r a l a n d i n t u it i v e c o m m u n i c a t io n m o d e f o r a l l h u m a n d ia lo g s . wit h t h e d e v e lo p m e n t o f c o m p u t e r t e c h n o lo g y , h c i ( h u m a n c o m p u t e r i n t e r a c t io n ) i s a d v a n c i n g a n d h u m a n i s b e c o m i n g t h e c e n t e r in h c i s o a g r o w in g n u m b e r o f r e s e a r c h e r a r e c o n c e r n i n g t h e s t u d y o n h a n d g e s t u r e r e c o g n it io n . h o w e v e r , v is io n - b a s e d r e c o g n it io n o f h a n d g e s t u r e s i s a n e x t r e m e ly c h a lle n g i n g i n t e r d i s c i p l in a ry p r o j e c t d u e t o f o ll o w i n g t h r e e r e a s o n s : ( 1 ) h a n d g e s t u r e s a r e r ic h in d iv e r s it ie s , m u lt i - m e a n i n g s , a n d s p a c e - t i m e v a r i e t i e s ; ( 2 ) h u m a n h a n d s a r e c o m p l e x n o n - r i g i d o 切 e c t s ; ( 3 ) c o m p u t e r v i s i o n it s e lf is a n i ll - p o s e d p ro b le m . h a n d g e s t u r e s in c l u d e d y n a m ic h a n d g e s t u r e s , w h o s e m e a n in g s a r e b a s e d o n t h e t r a c k o f t h e m o t i o n o f h a n d s , a n d s t a t i c h a n d g e s t u r e s i n w h ic h t h e s h a p e o f h and g e s t u r e i s u s e d t o e x p r e s s t h e m e a n i n g . t h is p a p e r , a s a p a r t o f t h e r e s e a r c h i n g s u b j e c t , t h e a l g o r it h m o f h a n d g e s t u r e r e c o g n it i o n a n d s y n t h e s iz in g , is s u p p o r t e d b y s h a n g h a i n a t u r e a n d s c i e n c e f u n d , t r i e s t o p e r f o r m s t u d y o n s t a t i c h a n d g e s t u r e r e c o g n it i o n . h a n d g e s t u r e r e c o g n it io n is c o m p o s e d o f t h r e e p a r t s , p r e p r o c e s s i n g h a n d g e s t u r e i m a g e s , e x t r a c t i n g i m a g e f e a t u r e s a n d r e c o g n iti o n . d u r i n g t h e p r e p r o c e s s in g , i m a g e s m o o t h i n g , t h e n i m a g e s h a r p e n in g a r e p e rf o r m e d o n s t a n d a r d h a n d g e s t u r e i m a g e s ( 1 2 8 * 1 2 8 p ix e l s g r a y b m p i m a g e ) . f i n a l ly , b i n a ry i m a g e i s e x t r a c t e d a n d c o n t o u r i s d e t e c t e d b y m e a n s o f 8 - c o n n e c t e d b o u n d a ry t r a c k i n g w h e n n e c e s s a ry . i n t h e p a rt o f f e a t u r e e x t r a c t io n a n d r e c o g n iti o n , t h i s p a p e r p r e s e n t s t w o m e t h o d s b a s e d o n g e o m e t r ic f e a t u r e s : a lg o r it h m b y u s i n g h d c f o r f e a t u r e p i x e ls a n d a lg o r it h m b a s e d o n i n v a r ia n t m o m e n t a n d e d g e d e t e c t i o n . i n t h e a l g o r it h m b y u s i n g h d c f o r f e a t u r e p ix e l s , t h e c o n t o u r o f h and g e s t u r e , w h ic h w i ll b e r e g a r d e d a s a c u rv e , i s e x t r a c t e d a ft e r p r e p r o ces s i n g . t h e n a s c a l e s p a c e o f t h e c u rv e is c r e a t e d b y t h e即p lic a t i o n o f t h e h i e r a r c h i c a l d i s c r e t e c o r r e la ti o n . a n e w m e t h o d w h i c h is b a s e d o n t h e m o t io n o f t h e c u rv e t h r o u g h s c a le s p a c e i s p r o p o s e d f o r f e a t u r e d e t e c ti o n . f i n a lly , g e s t u r e p a tt e r n s a r e r e c o g n iz e d b y m e a n s o f m i n i m a l d is t a n c e o f f e a t u r e p ix e ls . i n a lg o r i t h m b a s e d o n i n v a r ia n t m o m e n t a n d e d g e d e t e c t io n , a n a lg o r it h m b a s e d o n t w o f e a t u r e s 基 i几何特征的手 v 识别算法研究 o f in v a r ia n t m o m e n t a n d e d g e d e t e c t io n is p r e s e n t e d . a ft e r p r e p r o c e s s in g , b in a ry i m a g e is o b t a i n e d a n d t h e n 4 f r o m 7 i n v a r ia n t m o m e n t s a r e e x t r a c t e d . b y e d g e d e t e c t i o n , h is t o g r a m is f o r m e d t o d e s c ri b e t h e e d g e i n f o r m a t i o n f in a ll y , t h e r e c o g n it io n is p e r f o r m e d o n 3 0 l e tt e r g e s t u r e s b y c o m p u t i n g d is t a n c e , i n w h ic h d iff e r e n t c o e ff ic i e n t s a r e s e t t o t h e s e t w o f e a t u r e s t h e r e c o g n it io n r a t e o f is 8 3 .3 % i n a lg o r it h m b y u s i n g h d c f o r f e a t u r e p ix e l s b y p e rf o r m i n g r e c o g n it i o n o n 3 0 h a n d g e s t u r e s . i n a l g o r it h m b a s e d o n i n v a r ia n t m o m e n t a n d e d g e d e t e c t io n , t h e r e c o g n it io n r a t e o f 9 1 . 3 % is a c h i e v e d . y a n g q i n g h e ( c o m p u t e r s o f t w a r e a n d t h e o ry ) d i r e c t e d b y . y u a n g e k e y w o r d s g e s t u r e r e c o g n it io n , f e a t u r e p ix e l , i n v a r ia n t mo m e n t , e d g e d e t e c t i o n , e u c l id e a n di s t a n c e 论文独创性声明 本 论 文是我个人 在导 师 指 导 下 进行的 研 究 工 作 及 取 得的 研 究成 果. 论 文 中 除了 特 别加以 标注 和致 谢 的 地方 外, 不包 含 其 他 人 或其 他机构已 经发表 或 撰 写 过 的 研究 成果。 其 他同 志 对 本研 究的 启发 和 所 做的 贡 献均已 在 论文中 作 了明确的声明并表示了谢意。 作 者 签 名 : 业卿/ 6 0日 期: 论文使用授权声明 本 人同 意上海海 运学院 有 关保留、 使用学 位 论文的 规定,即: 学校有权 保留 送 交论文复印件, 允 许 论 文 被 查阅和 借阅 : 学 校 可以 上网 公布 论文的 全 部或部分内容, 可以 采用影印、 缩印 或者其它复制手段保存论文。 保密的 论 文在解密后遵守此规定。 作者签名:导师签名:日 期:少 0 毕 i 儿何特 证的 f 势识别算法研究 第一章 引言 手势识别概述 随着社会信息化的发展, 计算机的应用在我们的日 常生活和工作中成为越来 越重要的组成部分, 因此如何让人和计算机吏方便、 自 然地交互也逐渐成为人们 研究的热点问 题。 键盘作为一种基本的 用户接口, 是以文本方式让人机交互, 而 鼠标的发明把我们带到一个图形用户接口的时代。 但不管是键盘还是鼠标, 都还 是停留在 2 d 层面上,在 3 d 应用变得越来越普及的今天,人们也越来越需要在 3 d环境有更灵活的人机交互模式。于是,各种人机交互技术的研究不断涌现, 这些研究包括人脸识别、面部表情识别、唇读、头部运动跟踪、凝视跟踪i i if2 1 手 势识别以 及体势识别(3 114 1 等等, 可以 看出, 在计算机处理技术突飞猛进的今天, 人们正试图摆脱以计算机为中心的交互模式,而向以人为中心的交互模式发展。 在人类的相互交流中, 除了采用自 然语言的口语、 书面语言外,人体语言包 括表情、 体势、 手势也是相互交流的基本方式之一, 并月 . 更加自然, 有的时候甚 至是不可或缺。 与人类交互相比, 当前的人机交互还显得单一而不够丰富, 因而 研究人体语言 理解, 即人体语言的感知, 及人体语言与自 然语言的信息融合对于 提高计算机的人类语言理解水平。 加强人机接口的可实用性是非常有意义的。 手 势是聋哑人常用的语言, 它是由 手形动作辅之以 表情姿势而构成的比较稳定的表 达系统, 是一种靠动作和视觉进行交际的特殊语言, 它还是一种包含信息量最多 的人体语言, 它与语言及书面语等自 然语言的表达能力相同, 因而在人机交互方 面, 手势完全可以 作为一种手段, 而且具有很强的视觉效果, 它生动、 形象、 直 观。 对手势进行研究, 提高机器对手势的认知能力, 不仅有助于改善和提高聋哑 人的 生活学习 和工作条件, 为他们提供更好的服务, 同时也可以 应用于计算机辅 助哑语教学、 电 视齐 乙 目 双语播放、 虚拟人的研究、 电影制作中的特技处理、 动画 的制作、 医疗研究、 游戏娱乐等诸多方面。 总结起来, 手势识别研究包括以下的 应用领域: 1 ) 能够使得聋人,尤其是使得文化程度比 较低的聋人,使用手势和正常 人交流: 2 ) 从认知科学的角度, 研究人的视觉语言理解的机制,提高计算机对人 类语言的理解水平; 基j 、 儿何特i ii 的 手势识别算法研究 :3 ) 利用手势控制虚拟现实中的智能体; 4 ) 机器人的示范学习; 5 ) 虚拟现实系统巾的多模式接 等。 1 . 2 研究现状 国外对手势识别的研究已有很长的历史,1 9 9 1 年富士通实验室完成了对 4 6 个手势符号的识别工作5 1 ; j . d a v i s 和m . s h a h 将戴上 指尖具有高 亮标记的视觉 手套的 手势作为系统的输入, 可识别了 种手势16 1 ; s t a r n e r 等在对美国手势中带 有词性的4 0 个词汇随机组成的短句子识别率达到9 9 . 2 % 7 l 8 1 ; k . g r o b e l和m . a s s a m从视频录像中提取特征,采用 h m m技术识别 2 6 2个孤立词,正确率为 9 1 . 3 % 9 . 我国的高文、 吴江琴等人给出了a n n 与h m m 的混合方法作为手势的训练识别 方法,以增加识别方法的分类特性和减少模型的估计参数的个数,将 a n n - h m m 混合方法应用于有1 8 个传感器的c y b e r g l o v e 型号数据手套的中国手势识别系统 中, 孤立 词识别率为9 0 % , 简单语句级识 别率为9 2 铲o 1 p i 1 。 接下 来高文等又 选取 c y b e r g l o v e 型 号 数 据 手 套作 为 手 势 输 入 设 备 ,并 采 用 了 d g m m ( d y n a m i e g a u s s i a n m i x t u r e m o d e l ) 作 为 系 统的 识 别 技 术 , 即 利 用一 个 随时 间 变 化的具有m个分量的混合 g a u s s i a n n 一 元混合密度来模型化手势信号,可识别中 国 手势字典中2 7 4 个词条, 识别率为9 8 . 2 % 1 2 1 。 与基于h m m 的识别系统比 较, 这 种模型的识别精度与h a n模型的识别精度相当, 其训练和识别速度比h m m 的训练 与识别速度有明 显的改善。 他们为了 进一步提高识别速度, 识别模块中选取了多 层识别 器, 可识 别中国手 势字 典中 的2 7 4 个词条, 识 别率 为9 7 . 4 % 1 1 3 1 。 与基于单 个d g m m 的识别系统比较, 这种模型的识别精度与单个d g m m 模型的识别精度基本 相同, 但其识别速度比单个d g m m 的识别速度有明显的提高。 2 0 0 0 年在国际上他 们首 次实 现了5 0 0 0 词以 上的 连续中国 手势识别系统1 4 1 。 另 外, 清华大学祝远新、 徐光佑等给出了一种基于视觉的动态孤立手势识别技术, 借助于图像运动的变阶 参数模型 和鲁棒回归分析, 提出 一 种基于 运动分割的图像运动估计方法。 基于图 像运动参数, 构造了 两种表现变化模型分别作为手势的表现特征, 利用最大最小 优化算法来创建 手势参考模板,并 利用基于模板的分类技术进行识别, 对 1 2 种 手势的识别率超过9 0 % 。在进一步研究中, 他们又给出了有关连续动态手势的识 别, 融合手势运动信息和皮肤颜色信息, 进行复杂背景下的手势分割; 通过结合 手势的时序信息、 运动表现及形状表现, 提出动态手势的时空表现模型,并提出 基 于) l 何特征的 f 势识别算法研究 基 于颜色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参 数,最后,提出动态时空规整算法用于 手势识别,对 1 2 种手势,平均识别率高 达9 7 % h s l 手势的采集方法 根据手势图像采集方式的不同, 我们至少可以将手势识别分为两种,基于 数 据手套的方法和基于视觉的方法, 图 像采集方式不同, 所采用的技术也不同. 1 . 基于数据手套的方法 基于数据乎套的手势识别系统, 是利用数据手套和位置跟踪测量手势在空间 运动的轨迹和时序信息, 这种方法的优点是系统的识别率高, 缺点是打手势的人 要穿戴复杂的数据手套和位置跟踪器, 并且输入设备比较昂贵。 利用数据手套等 典型传感设备的方法, 台湾大学的l i a n g 等人利用单个v p l 公司的数据手套作为 手势输入设备, 可识别台湾手势课本中的2 5 0 个基本词条, 识 别率为9 0 . 5 % h 6 1 1 n 1 o 卜 耐基一梅隆大学 ( c m u )的c h r i s t o p h e r l e e 和x u 在1 9 9 5 年完成了一个操纵 机器人的 手势控制系统11 8 1 . k a d o u s 用p o w e r g l o v e s 作为手势输入设备,识别有 9 5 个孤立词构成的词汇集,正确率为8 0 % 9 1 a 2 . 基于视觉的方法 基于视觉的手势识别系统是利用摄像机采集手势信息,并进行识别,该方法 的优点是输入设备比较便宜, 但识别率比较低, 实时性较差, 特别是很难用于大 词汇量的手势库的识别。在基于视觉的方法方面,具有代表性的研究成果包括: d a v i s 和s h a h 将戴上指间具有高亮标记的视觉手套的手势作为系统的输入,可 识别7 种手势. s t a r n e r等在对美国手势中带有词性的4 0 个词汇随机组成短句 子识别率达到9 9 . 2 % o g r o b e l 和a s s 二从视频录像中 提取特征, 采用h m m 技术识 别2 6 2 个孤立词, 正确率为9 1 . 3 % 。 此外, v o g l e r 与m e t a x a s 将两种方法结合用 于美国手势识别, 交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输 入 设备, 完 成了5 3 个 孤立词的 识 别, 识别 率为8 9 . 9 % 12 0 1 0 二、手势识别方法 手势识别的实质是识别出用户通过手势运动表达的意图。目 前手势识别的分 类算法很多, 如m a r t i n 采用句法模式识别方法, s u n采用模板匹配和查表的方 法, q u e k 使用贝叶 斯分类器, s u 等人采用组合神经网 络, h u a n g 等人采用h o p f i e l d 神经网 络法, b o e h m 等人使用s o n 法, k i n 采用模糊神经网 络识别手势。下面阐 述常用的几种手势识别方法: 1 . 几何特征识别法 传统的儿何分类法算法简单, 与神经网络的方法相比, 几何分类法显示出了 摧十) l 何特征的 f 势识别算法研究 高识别速度和可靠性, 其允许定义一个不同手势类别特点的特征集, 估计一个局 部最优的线性分辨器, 根据手势图像中提取的大量特征识别相应的手势类别。 抽 取的儿何特征有多种类别。一类是整体统计特征,如手势图像的重心( c 助和主 轴方向, 另一类是基于轮廓的局部特征, 包括指尖和指根。 整体特征和局部特征 构成一 个特征向 量, 用于识别和跟踪手势2 a z , 神经网络识别法 在手势识别领域中,神经网 络12 2 1 也是一种广泛使用的工具。它由许多具有 非线性映射能力的神经元组成的一种大规模并行处理网络, 神经元之间通过权相 连。 神经网 络方 法具有分类特性及抗干扰性, 然而由于 其处理时间序列的能力不 强,著名的f e l s 的g 1 o v e t a l k 系统采用神经网络方法作为识别技术。 神经网络能实现复杂的非线性映射,映射关系是通过学习( 或训练) 得到的。 下面主要介绍识别应用中常碰到的b p 神经网络。 b p ( e r r o r b a c k p r o p a g a t i o n n e u r a l n e t w o r k误差反向 传播神经网 络)由 r u m e l h a r t 和h i t t o n 于1 9 8 6 年提出, 它是一种能向 着满足给定的输入输出关系 方向进行自 组织的神经网络, 当输出层上的实际输出与给定的输入不一致时, 用 f 降法修正各层之间旧的结合强度, 直到最终满足给定的输入输出关系为止, 出 于误差传播的方向与信号传播的方向正好相反称为误差反向传播神经网络。 b p神经网 络的理论认为:只要不断给出输入和输出之间的关系,则在神经 网络的学习过程中, 其内部就一定会形成表示这种关系的内部构造, 并且只要使 关系形成的速度达到实用值, 那么b p 的应用就不存在任何的困难.但实际上, 把它作为识别机械时, 可能存在着中间层神经元的个数会很庞大, 学习时间太长, 结合系数范围太宽等严重缺点。 在手势识别过程中,从系统建立的训练库中输入特征数据,训练b p 网络, 并用训练好的b p 网 络来识别和理解所要求识别的手势的含义,并转换为对计算 机的操作。 劫拘勺构为 图1 .t神经网 络示意图 基于几何特征的手势识别算法研穷 神经儿网络由输入层、隐含层和输出层组成 ( 如图 1 . 1 ) 0输入层的神经兀 将 输入 信息x 分配 到隐 含 层的 各 神经元。 隐 含层中 的 神经 元 j的 输入加权和为 艺 w i; x ; , 其 中 叽为 输 入 信 息 x 、 与 神 经 元 j 之 间 连 接 权 值 , 神 经 元 j 的 输 出 是 这一加权和的函数,即 y j = f ( 叉 w , x i ) ( 1 一 1 ) 式 1 - 1 中f ( 。 ) 为作用函数,它一般为s 形函数,即 f ( s ) = 1 / ( 1 + e - s ) ( l - 2 ) 在学习算法中,规定在神经元i 和.7 之间连接权值的变化为 a w j; = 7 7 8 i x ; ( 1 - 3 ) 式1 - 3 中77 为 学习 率 , s 成 为 一 个因 子 , 它 随 神 经 元 所 处的 位置不同 而 不同 为 了 加快b p 算法的学习过程,通常在上述算式中增加一个动量项,即 叽( k + 1 ) 一 i j a ; x ; + 7y e 叭( k ) ( 1 - 4 ) 式1 - 4 中 叽( k 十 1 ) 叽( k ) 分 别 为k 十 i 和k 时 刻的 权 值的 变 化 量 ,u 为 动量系数。 在 网 络 学 习 阶 段 , 将 具 有p 个 输 入 模 式 的 x p 输 入 网 络 , 通 过 反 复 调 节 权 值 w f 使 系 统 的 输出 与日 标 输出 t p k 的 偏 差 达 到 用 户 的 要 求 。 接 着再 用 另 一 个 模式 输入网络, 直到所有模式均学习一遍后, 学习结束。 学习好的网络即可用于识别。 3 . i im m ( h i d d e n m a r k o v m o d e l ) 方法 隐马尔可夫模型( i llm m ) 11 咋为信号的一种统计模型,已 经在语音信号处理领 域得到了广泛的应用, 取得了 很大的成功, 近年来也逐渐走入了手语识别领域并 取得了很好的识别效果。 隐马尔可夫模型的理论基础是1 9 7 。 年前后由b a u m 等人建立起来的,随后由 c m 。 的 b a k e r vi b m 的j e l i n e k 等人将其应用到语音识别中。由 于b e l l 实验室的 r a b i n e r 等人在2 0 世纪 8 0 年代对h m m 的 深入浅出的介绍, 才逐渐使h m m 为世界各国 的研究人员所了 解和熟悉, 进而在语音处理领域成为一个研究热点。 h m m 是在m a r k o v 链的基础之上发展起来的。 由于实际问题比m a r k o v 链模型 所描述的更为复杂, 观察到的 事件并不是与 状态一一对应的, 而是通过一组概率 分布相联系, 这样的模型就 称为h m m 。 它是一个双重随 机过程;一是m a r k o v 链, 这是基本随机过程, 它描 述状态的转移; 另一个随机过程描述状态和观察值之间 的统计对应关系。 这样, 站在观察者的角度, 只能看到观察值, 不像链m a r k o v模 型中的观察值和状态一一对应, 因此, 不能直接看到状态, 而是通过一个随机过 程去感知状态的存在及其特性。因而称之为 “ 隐” m a r k o v 模型,即h m m . 一个f q m m 可以由下列参数描述: 基于儿何特征的 手势识别算法研究 ( 1 ) n : 模型 中 m a r k o v 链 状态 数目 记 n 个 状态为。 : , 0 2 , ., 口 二 ,记 l 时 刻 m a r k o v 链所处 状 态为 9 , ,显 然q , e( 0 , 1 0 , , 二 , 0 , ) ( 2 ) m : 每 个 状 态 对 应的 可能的 观察 值数目 。 记 m 个观察值为v 1 , v 2 , . . . , v m , 记 时刻 t 观 察到 的 观 察 值 为。 , ,其 中 0 , e ( v p v 2 ,. - v . ) ( 3 )、 : 初 始 概 率 矢 量 ,卫= ( 7 v )t 2 , 二 , 二 、 ) 其中 : .7 二 p ( 9 , = b i ) 1 i n ( 4 ) a : 状 态 转 移 概 率 矩 14 a 一 ( a ij ) n n , 其 中 a= p ( 9 , , 二 b j ) l 9 二 b , ) 1 i , j n ( 5 ) b : 观 察 值 概 率 矩 阵 , b 一 ( b 户 。 二 , 其 中 : b /k 一 p ( 0 , = v ,e 1 4 一 b j ) 1 j n ,1 - k - m 这样可以 记 一个h m 为a 一 ( n , m, j c , a , b ) , 或者简写 为a 一 ( c , a , b ) 。更 形 象地说, h m ” 可以分为两个部分;一个是m a r k o v 链,由, a描述,产生的输出 为状态序列;另一个是随机过程,由b 描述,产生的输出为观察值系列。h m m 组 成如图1 . 2 , t 为观察值时间长度。 图1 . 2 h m m 组成示意图 建立一个h o模型以后, 有3 个问 题需要解决: 一个是评估问题: 对于给定 的模型, 求某个观察值序列的概率 p ( 0 / a ) 。在手势识别中就是给定一个未知 手势, 根据学习 形成的u m模型计算该手势和哪个手势的 模型生成的 概率最大, 则认为该未知手 势为 那一类手势。 一个是解码问 题: 对于给定的模型和观察值序 列, 求 可 能性 最 大的 状态序列。 这两个问 题可以 采用v i t e r b i 算法实现。 另 一个 是学习问 题: 对于给定的一组观察值序列, 调整参数入 , 使得观察值出现的概率 p ( 0 / a) 最大。 手势识别中 就是要通过一组相同人的不同手势,通过学习算法, 建立一个 h m m模型,这实际 上 是一个参数估计问题。这个问题可以采用 b a u m - w c l c h 算 法 解 决。 基于几何特征的手势识别算法研究 隐马尔u j 夫模型在一维信号的统计特征提取与识别中取得 了 很好的效果, 特 别是在语音识别领域。从iti 1 m 的定义可以看出它擅长于处理一维的信号,同时目 前也己经提出一些经典的快速算法, 因此h m m 在语b,e 3 识别领域取得 了 很大的突破。 但是在图像处理和识别方面,由于图像是一个 _ 维信号,如果建立 几 维的h m m 模 型, 实际运用中的计算复杂度太大, 很难用于实川。 要将手势或人脸识别问题建 立一维模型, 需要将图像这个h m m 二维信号 进行适当的处理, 变为一个一维信号。 这种模型己经被用在光学字符识别( o c r ) 中。 .3 本文的方法 本论文得到上 海市自 然科学基金项目一一 “ 手势识别与合成算法” 的资助, 为了找到一种简单、 高效的识别方法, 笔者采用了 两种不同的基于图像几何特征 的方法进行识别:( 1 ) h d c 提取关键点的识别算法;( 2 ) 应用几何矩和 。 a n n y 边 缘检测的识别算法。 首先, 对输入手势图像进行预处理, 分别对手势图像采用非 加权平均法进行平滑处理、 利用拉普拉斯模板算子进行锐化、 采用最大方差比方 法二值化图像。 然后, ( 1 ) 在h d c 提取关键点的识别算法中, 应用八方向邻域搜 索法提取出手势图像的外围轮廓, 把图像的轮廓看成一条曲线, 然后对曲线应用 h d c原理进行平滑。 通过设置内核,对曲线进行递归运算,建立尺度空间。再 通过跟踪曲线在尺度空间中的运动, 寻找到手势的关键点。 最后通过计算输入手 势的关键点坐标与样本库中手势图像的关键点坐标的均方误差,对手势进行识 别; ( 2 ) 在应用几何矩和c a n n y 边缘检测的识别算法中, 手势图像经过二值化处 理后, 提取手势图 像的几何矩特征, 取出几何矩特征七个特征分量中的四个分量, 形成手势的 几何矩特征向 量。 在灰度图 基础上直接检测图 像的 边缘, 利用直方图 表示图像的边界方向 特征。 最后, 通过设定两个特征的权重来计算图像间的距离, 再对字母手势进行识别。 攀f 儿何特征的乎势识别算法研究 第二章 手势图像的格式及基本操作 为了 使计算机能够对各种信息进行分类识别, 要用计 算机可以运算的符号来 表示所研究的 对象。通常输入 对象的信息有三种类型124 卜 (1) 一二 维图像 如文字、 指 纹、 地图、 照片这类对象。 ( 2 )一维波形 如脑电图、心电图、机械振动波形等。 ( 3 )物理参量和逻辑值 前者如在疾病诊断中病人的体温及各种化验数 据等;后者如对某参量正常与否的判断或对症状有无的描述,如疼 与 不疼,可用逻辑值。 和 1 来表示。在引入模糊逻辑的系统中,这 些值还可以包括模糊逻辑值,比如很大、大、比较大等。 在手势识别中, 处理的对象是手势的图像, 我们提取数据的目标就是将手势 的图像用一个特征向量来表示出 来。实验中处理的图片一般有t i f f 与b m p 两种 格式,t i f f格式相对来说要复杂一些,可以存储的图像也要丰富得多,它可以 存储多张图片, 还可以存储多种压缩格式的图片, 而b m p 格式的图片简单、 通用, 一 般在应用程序中可以方便的显示。 因此在本文的实验中, 使用的手势图像格式 主要是b m p 格式。 2 . 1手势图像格式 2 . 1 . 1数字图像的表示 数字图像的表示方式可以分为两类:位图方式和矢量方式。 位图方式 该方式将一副图 像划分为一张栅格, 格中每一部分 ( 像素)的光 度或色彩单独记录,位图中的一 个数据点的位置决定了该数据点所代表的像素, 即数据点 ( 位)与图像对应, “ 位图”由 此而来,位图 适用于色彩、阴影或形状 变化负责的图像,如照片、 绘画或数字化视频等。 矢量方式 这种方式用一系列线段或其他造型描述一副图像,它适合与线型 图等简单的图形或图像。 基 1 儿何牡 1 j 的 t 势识别算法研究 2 . 1 . 2数字图像的灰度图 灰度又称为 简单的非黑即白 g r a y s a c l e , 它代表像素的亮度值。 在 一 副黑白照片中,不是 而是逐步过渡的, 他们可区分为不同的亮度等级即灰度级。 灰 度划分越细 的灰度用一 , 越能准确的再现图像。目 前普遍采用的是2 5 6 灰度级, 即每个像素 0 表 j c 全黑,2 5 6 表示全白。 中头 其表 个字节 ( 8 位)表示, 2 . 1 . 3 b m p 图像格式 b m p 图像文件也分为三部分:调色板和图像数据。 表头长度固定为5 4 个字节, 里面包含了图像所有属性的数据包括宽度、 高度、 颜色信息等。 调色板 数据中 每一 种颜色以四个字 节来表示, 它们分别是b l u e 分量、 g r e e n 分量、r e d 分量和一个保留值。 在b m p 图像文件中, 图像的数据以自下而上,自 左到右的顺 序存放,并且 必须保证每行的数据必须是4 个字节的整数倍。b m p 图像文件中各 部分内容非常紧凑,所以省去了标志相应地址的信息。 2 .2基本的图像操作 手势识别中的常用图像操作包括图像的剪切、 图像的缩放、图像的旋转以及 图像的亮度调整。我们以p i x e l a r r a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出国接待协议书范本
- 出版战略合作协议书范本
- 宠物用品领养协议书范本
- 意向买卖协议书范本
- 货物延迟交付协议书范本
- 竖弯钩说课课件
- 生产安全施工协议书范本
- 旧货处理协议书范本
- 2025年食品、饮料及烟草批发服务合作协议书
- 2025版城市排水系统改造劳务总承包合同书
- 图片格式教学课件
- 电力工程安全生产操作规程
- 建设项目使用林地可行性报告
- GB/T 15972.42-2021光纤试验方法规范第42部分:传输特性的测量方法和试验程序波长色散
- 基础2000词汇-英语
- 新员工三级安全教育课件(公司级)
- 北京积分落户解读课件
- 陕西省商洛市各县区乡镇行政村村庄村名居民村民委员会明细
- 化学品定点测厚施工方案
- 预制装配式综合管廊
- 施工方案基坑支护
评论
0/150
提交评论