




已阅读5页,还剩68页未读, 继续免费阅读
【优秀毕业论文】基于视觉的手势识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学 硕士学位论文 基于视觉的手势识别技术研究 姓名 赵亚飞 申请学位级别 硕士 专业 信息与通信工程 指导教师 王维东 20110907 浙江大学硕士学位论文摘要 摘要 计算机和互联网的普及使得人机交互成为日常生活的重要组成部分 随着计算机的处 理能力越来越强 人们开始探索符合人类交流习惯的自然人机交互技术 基于视觉的手势 识别符合人的自然交流习惯 并且可以进行远距离 非接触的交互 成为自然人机交互研 究中的热门方向 论文首先简单介绍了手势识别技术的研究背景和研究意义 归纳总结了基于视觉的手 势识别技术的研究现状 然后提出一种基于多信息融合的手势检测定位方法 采用自适应 更新的肤色建模方法进行肤色检测 利用r u n n i n ga v e r a g e 方法不断更新背景 采用背景 减除的方法进行运动检测 结合肤色检测和运动检测的结果提取手势候选区域 提高了手 势检测定位的准确率 接着论文提出一种基于梯度方向直方图和p c a l d a 的静态手势识 别方法 从归一化之后的手势图像中h o g 特征 然后利用p c a l d a 的方法进行降维 将h o g 特征映射到低维子空间 在子空间中采用最近邻原则进行手势分类识别 该方法 在静态手势集上的测试识别率达到9 5 以上 与相关算法相比识别率有较大提高 最后论 文将手势检测定位方法和手势识别方法综合起来 构建了应用于视频序列的手势识别原型 系统 对该原型系统采用r o c 曲线的方法评价其分类识别性能 针对真实场景下手势会 有不同角度的旋转 在训练手势分类器时增加旋转训练样本 分类识别性能得到明显改善 提出一种连续手势的识别方法 从视频序列中分割和识别出连续手势 对定义手势的正确 识别率可以达到9 3 而对非定义手势的正确识别率可以达到8 3 关键词 手势识别 计算机视觉 肤色检测 运动检测 背景减除 梯度方向直方图 p c a l d a 浙江大学硕士学t 寺论文 a b s t r a e t a b s t r a c t h u m a n c o m p u t e ri n t e r a c t i o n h c i h a sb e c o m ea ni m p o r t a n tp a r to fo u rd a i l yl i f ea sa r e s u l to ft h ep o p u l a r i z a t i o no fc o m p u t e r sa n dt h ei n t e r n e t a sc o m p u t e r sa r eb e c o m i n gm o r ea n d m o r ep o w e r f u l p e o p l eb e g i nt oe x p l o r en a t u r a lh c im e t h o d s v i s i o nb a s e dh a n dg e s t u r e r e c o g n i t i o n w h i c hc o n f o r m st oh u m a nc o m m u n i c a t i o nh a b i t s c a np r o v i d el o n g d i s t a n c ea n d c o n t a c t l e s si n t e r a c t i o nw i t hc o m p u t e r s t h e r e f o r e i th a sb e c o m et h ef o c u so fr e s e a r c hi nt h e f i e l do fn a t u r a lh c i t h i sp a p e rf i r s t l yi n t r o d u c e st h eb a c k g r o u n do fh a n dg e s t u r er e c o g n i t i o na n dr e v i e w st h e r e s e a r c ho fv i s i o nb a s e dh a n dg e s t u r er e c o g n i t i o ni nr e c e n ty e a r s s e c o n d l y am u l t i c u eb a s e d h a n dl o c a l i z a t i o nm e t h o di sp r e s e n t e d w h i c hm a k e sac o m b i n a t i o no fs k i nc o l o rd e t e c t i o na n d m o t i o nd e t e c t i o ns oa st oi m p r o v el o c a l i z a t i o nr e s u l t s s k i nc o l o rp i x e l sa r ed e t e c t e db ya p r o p o s e da d a p t i v es k i nc o l o rm o d e l w h i c hi su p d a t e du s i n gt h ep r e v i o u s r e s u l t so fs k i n d e t e c t i o na n dm o t i o nd e t e c t i o na te a c hf r a m e m o t i o ni sd e t e c t e db yb a c k g r o u n ds u b t r a c t i o n w h i l et h eb a c k g r o u n di su p d a t e dt h o r o u g ht h er u n n i n ga v e r a g em e t h o d t h er e s u l t so fs k i nc o l o r d e t e c t i o na n dm o t i o nd e t e c t i o na r ef u s e dt og e n e r a t eh a n dg e s t u r ec a n d i d a t e s t h i r d l y as t a t i c h a n dg e s t u r er e c o g n i t i o nm e t h o di sp r o p o s e db a s e do nh i s t o g r a m so fo r i e n t a t e dg r a d i e n t s h o g a n dp c a l d a h o gf e a t u r e sa r ee x t r a c t e df r o mn o r m a l i z e dh a n dg e s t u r ei m a g e sa n dt h e n p r o j e c t e dt ol o w d i m e n s i o n a ls u b s p a c eb yp c a l d a c l a s s i f i c a t i o no rr e c o g n i t i o nr e s u l t sa r e g i v e ni nt h es u b s p a c eb yt h en e a r e s tn e i g h b o rm e t h o d t h em e t h o da c h i e v e sar e c o g n i t i o nr a t e o fm o r et h a n9 5 o nt h et e s t i n gs e ta n do u t p e r f o r m sr e l a t e ds t a t i ch a n dg e s t u r er e c o g n i t i o n m e t h o d s f i n a l l y t h eh a n dl o c a l i z a t i o nm e t h o da n dh a n dg e s t u r er e c o g n i t i o nm e t h o d a r e c o m b i n e dt om a k eap m t o t y p es y s t e mt or e c o g n i z eh a n dg e s t u r e si nv i d e o t h ep e r f o r m a n c eo f t h ep r o t o t y p es y s t e mi se v a l u a t e db yi t sr o cc u r v e c o n s i d e r i n gt h ep o s s i b l eo r i e n t a t i o no ft h e h a n di nn a t u r a ls c e n e o r i e n t e dt r a i n i n gs a m p l e sa r ea d d e dt ot r a i nt h eg e s t u r ec l a s s i f i e r w h i c h b r i n g so b v i o u si m p r o v e m e n t i nt h ec l a s s i f i e rp e r f o r m a n c e ac o n t i n u o u sh a n d g e s t u r e r e c o g n i t i o nm e t h o di sp r o p o s e d w h i c ht a k et h ea d v a n t a g eo ft e m p o r a lc o r r e c l a t i o nt os e g m e n t a n dr e c o g n i z ec o n t i n u o u sh a n dg e s t u r e s u s i n gt h i sm e t h o d 9 3 o ft h ed e f i n e dc o n t i o u sh a n d g e s t u r es e g m e n t sa r ec l a s s i f i e dc o r r e c t l yw h i l e8 3 o ft h eu n d e f i n e ds e g m e n t sa r ec o r r e c t l y l l 浙江大学硕士学位论文 a b s t r a c t d e t e c t e d k e y w o r d h a n dg e s t u r er e c o g n i t i o n c o m p u t e rv i s i o n s k i nc o l o rd e t e c t i o n m o t i o nd e t e c t i o n b a c k g r o u n ds u b t r a c t i o n h i s t o g r a mo f o r i e n t a t e dg r a d i e n t s p c a l d a 致谢 在论文完成之际 谨向指导帮助我的老师 关心陪伴我的家人 朋友和同学致以深深 的谢意 首先 感谢我的导师王维东副教授 在攻读硕士学位的三年时间里 王老师给了我悉 心指导和亲切关怀 王老师学识渊博 治学严谨 不但传授我很多专业知识 也让我学会 了很多为人处世的道理 我这三年所取得的很多进步 都离不开王老师的指导和帮助 再 次感谢王老师对我的培养 同时 感谢姚庆栋教授 姚老师渊博学识 德高望重 诲人不倦 在一些关键时刻给 了我醍醐灌顶般的指导和启发 感谢刘鹏老师和史册老师 你们的指导 给了我很大的帮 助 感谢王锐老师 刘翔老师和周绮敏老师 谢谢你们在学习上和生活上对我的关怀和帮 助 感谢张贻雄 蔡卫光 章骇 汪少杰几位师兄 我学业的完成离不了你们的鼓励和帮 助 特别谢谢蔡师兄在我面对困难时给我提出了很多宝贵建议 感谢张申 吴祖成 刘志强 陈潇红 涂植跑 曹石颖 感谢你们带给我的支持和快 乐 让我一次次找回信心和勇气 你们是我一生中最重要的兄弟和朋友 感谢大实验室中的其他师兄 师姐 师弟 师妹们 你们让我感受到大实验室的温暖 感谢求学路上陪伴过我的同学和朋友们 感谢你们陪我学习 游玩 打球 我的人生 因为你们而倍加丰富和有趣 感谢a s 感谢你陪我走过刻骨难忘的一年 给了我最为珍贵的一段记忆 赋予我人 生另外一种意义 最后 我要感谢我的父母 舅舅 哥哥和其他亲人 在这么多年的求学历程中 父母 亲人一直都是我最坚实的后盾 永远支持 鼓励和关心我 让我能够坦然面对任何困难 接受所有挑战 让我能够克服这些困难挑战并勇敢走下去 你们是我生活的意义和动力 有你们的支持和鼓励 我会继续接受各种挑战 战胜各种困难 走好今后的人生路 趁互秀 2 0 11 年8 月于浙大 浙江大学硕士学位论史绪论 1 1 研究背景和意义 1 1 1 研究背景 1 绪论 计算机和互联网的迅速普及使得人机交互活动成为人们日常生活的重要组成部分 传 统的人机交互方式 如鼠标 键盘 遥控器等 需要人类去适应计算机 按照预先设定的 规范完成交互任务 随着近年来技术的不断发展 计算机的处理能力越来越强 人们开始 探讨新的人机交互模式 并逐渐形成一种共识 即新的入机交互应该从 人类适应计算机 过渡到 计算机适应人 正如美国卡内基 梅隆大学的d a nr o l s e n 教授1 1 所指出的 我 们已经花费了至少5 0 年的时间来学习如何制造计算机以及如何编写计算机程序 下一个 新的领域自然是让计算机服务并适应于人类的需要 而不是强迫人类去适应计算机 自 然和谐的人机交互模式应该是以直接操纵为主 符合人类自身交流习惯的人机交互形式 因此自然人机交互技术的研究变得异常活跃 这些研究包括语音识别 人脸识别 表情识 别 凝视跟踪 运动跟踪 手势识别以及体势识别等等 总的来说 人机交互技术已经 从以计算机为中心逐步转移到以人为中心 是多种媒体 多种模式的交互技术 1 2 基于 视觉的手势识别研究顺应了这一潮流 已经成为自然人机交互研究中的热点 随着成本的不断下降 现在摄像头在消费类电子产品和家电产品中日益普及 如可拍 照手机 m p 4 网络摄像头等 价格低廉的摄像头作为基于视觉的手势识别的输入设备非 常合适 另外 虽然能够达到较高识别率的手势识别算法其运算量都很大 并且目前的研 究都集中在p c 机平台 但是现在可用于快速图像视频处理的d s p 芯片的价格也在不断下 降 比如t i 公司的d a v i n c i 系列数字媒体处理芯片 这为基于视觉的手势识别在嵌入式系 统中的实现提供了硬件保证 1 1 2 研究意义 人机交互系统的发展到现在为止经历了三个阶段 手工操作 命令语言和图形用户界 面 g u l 现已广泛使用的输入设备有键盘 鼠标 手写j 触摸屏 扫描等 这些输入设 备都存在一定的缺点和不足 它们的输入习惯和人类本身的自然交流方式不一致 为了操 l 浙汀大学硕士学位论文绪论 作人们被迫学习输入规则 另外这些交互方式需要接触设备 不适合远距离操控以及一些 特殊的工作环境 比如有污染 粉尘的环境 基于视觉的手势输入可以克服以上这些缺点 首先它符合人的自然交流习惯 其次采 用视频输入的方式可以进行远距离 非接触的控制 基于视觉的手势识别技术有着广阔的 应用前景 1 应用于虚拟现实环境 对虚拟环境和虚拟物体进行操控 比如虚拟世界漫游导航 外 科手术模拟仪器的训练操作 2 应用于智能家电和控制领域 比如电视等家电的手势遥控 视频游戏的控制界面 车 载设备的控制系统 3 应用于机器人控制 在一些危险环境 水下 外太空或者其它不便于接触控制的特殊 环境下使用手势进行人机交互 4 应用于聋哑人教育和病患 老人看护 通过人机接口 实现聋哑人和计算机的交流 可以提高其受教育的水平 同时也能在聋哑人与普通人之间建立沟通管道 在医院或 者老年看护中心为行动不便的病患或老人提供更好的看护呼救系统 1 2 手势识别的定义和分类 手势是一种自然 直观 易于学习的人机交互手段 手势通常定义为 人手或者手和 手臂结合产生的各种姿势或动作 2 1 手势可以分为静态手势和动态手势两种 静态手势 指在单个时间点上手的空间姿态 如手的形状 方向和身体的相对位置等 动态手势则是 由一段时间内的手的一系列姿态组成 相比静态手势增加了时间信息和动作特征 如手的 姿态变化和运动轨迹 根据手势输入采用的传感技术的不同 可以将手势识别技术可以分为基于数据手套 o 基于触摸屏 基于加速度传感器 基于超声波传感 基于红外距离传感以及基于视觉 摄 像机 等几类 1 2 1 基于数据手套的手势识别 最初的手势识别系统是基于数据手套的方法 该方法利用传感器测量手指的弯曲程度 和关节角度 同时结合位置跟踪设备测量手的空间运动轨迹 利用采集到的这些信息进行 手势建模和识别 图1 1 中展示了美国c y b e r g l o v es y s t e m s 公司生产的c y b e r g l o v ei i 型数 一 二 浙江大学硕士学位论文绪论 据手套 3 1 基于数据手套的手势识别系统识别率高 速度快 并且能够实现对大量词汇的 识别 2 0 0 4 年 国内的高文等 4 选用两个c y b e r g l o v e 数据手套和3 个位置跟踪器作为手 势输入设备 采用模糊决策树的方法对中国手语中的5 1 1 3 个手语符号进行识别 其中对 孤立字符的平均识别率达到9 1 6 平均每个耗时0 2 6 3 秒 对7 5 0 个不同语句的平均识 别率达到9 1 9 平均每句耗时1 2 7 秒 虽然数据手套的方法具有快速准确等优点 但该方法要求使用者穿戴复杂的数据手套 和位置跟踪器 不是符合自然人机交互的要求 并且数据手套的价格昂贵 需要上万元甚 至几十万元 目前仅用于实验室研究和一些特殊场合 不适合大量推广 1 2 2 基于触摸屏的手势识别 图1 1c y b e r g l o v e 数据手套 美国c y b e r g l o v es y s t e m s 公司 触摸屏是现在消费电子中最为常用的手势传感技术 比如各种平板电脑和触摸屏手 机 最早的触摸屏只支持单点触摸 在使用时手势的输入与鼠标 激光笔等设备的输入类 似 随着多点触摸技术的出现 采用触摸屏可以实现较为复杂的手势输入 如利用两个手 指滑动实现图片的缩放 采用多点触摸技术的消费电子中以苹果公司的i p h o n e 手机为代 表 基于触摸屏的手势输入和识别非常直观 但是这种方法需要用户接触屏幕 相比之下 非接触的方式能够提供更为自然的人机交互 1 2 3 基于加速度传感器的手势识别 手势识别的另一种输入方式是采用加速度传感器 加速度传感器可以检测人手的运 动 任天堂公司推出的w i i 游戏控制器 5 通过加速度传感器检测玩家的手势动作 让玩家 可以动作控制游戏 l o g i t e c h 公司推出的m x a i r 无线空中鼠标 6 也内嵌了加速度传感器 让用户可以通过在空中挥手来操作计算机 采用加速度传感器的手势输入 用户需要拿着 3 浙江大学硕士学位论文绪论 输入设备 并且这种输入很容易受到干扰 需要用户做出配合 1 2 4 基于超声波传感的手势识别 超声波传感可以用来检测和跟踪手势 n a v i s e n s e 7 1 和e l l i p t i c a l a b s 8 公司都开发出了 基于超声波的手指 手势识别系统 n a v i s e n s e 公司的i p o i n t 系统可以跟踪手指运动来移动 控制屏幕上的光标 可以在手机上实现非接触的短消息编辑 如图1 2 但是超声波传感 存在诸如易受干扰 速度慢等问题 文献 9 1 0 中讨论了这些存在的问题 图1 2 基于超声波传感的手势控制 n a v i s e n s e 公司 1 2 5 基于红外距离传感的手势识别 2 0 0 8 年 m i c r o s o f t 1 l 利用红外距离传感器 i rp r o x i m i t ys e n s o r 为手机开发了一个 手势控制接口 手机两侧内置的红外l e d 发出红外信号 当有物体 比如手指 靠近手 机时 红外信号被反射并被同样内置在手机两侧的红外接收传感器感应 将同样的装置扩 展到一张平面上 就可以实现单点触摸或者多点触摸的手势操作 c e l l u o n 公司 1 2 利用同 样的原理实现了虚拟键盘 将一个键盘的图像投射到一个平面上 当用户点击键盘上的一 个按键时 红外信号被反射 利用信号反射处的三维位置信息实现按键的识别 如图1 3 4 浙江大学硕士学位论文 绪论 1 2 6 基于视觉的手势识别 图1 3 采用红外距离传感技术的虚拟投射键盘 基于视觉的手势识别利用一个或者多个摄像机采集手势图像或视频 采用图像处理和 机器视觉的方法分析识别手势信息 虽然有些基于视觉的手势识别系统需要用户佩戴专门 的标记物 但基于视觉的方法研究的重点是实现无标记的 非接触的手势识别 该类方法 的突出优点是输入设备便宜 摄像头在各种消费电子产品中越来越普及 并且它对人手不 做附加要求 使计算机与人的交互更加趋于自然化 因此对基于视觉的手势识别的研究越 来越多 在识别率和实时性方面都有很大的提高 基于视觉的手势识别除了采用普通的摄 像头之外 也用到一些专用的摄像传感器 比如采用近红外摄像头来解决光照不足的问题 采用立体摄像机或者t o f t i m eo f f l i g h t 摄像机获取深度信息实现更直接更准确的手势 识别 m i c r o s o f t 为x b o x3 6 0 开发的体感输入外设k i n e c t 采用p r i m e s e n s e 公司开发的 s t r u c t u r e dl i g h ti m a g i n g 技术 1 3 获取深度图像实现人体姿态的识别 其中包括部分动态手 势的识别 基于视觉的手势识别已经逐渐出现在实际应用领域 东芝 日立等公司都已经开发出 采用手势遥控的电视 采用普通摄像头作为输入设备 2 0 0 8 年东芝推出业界首款支持手 势操作的笔记本电脑q o s m i og 5 5 用户通过手势可进行音乐 视频播放以及p p t 演示等 操作 1 4 5 浙江大学硕士学位论文绪论 1 3 基于视觉的手势识别研究现状 目前国际上研究手势识别的大学和机构有美国的卡内基 梅隆大学 c m u 加州大 学圣巴巴拉分校 u c s b m i t 佐治亚理工学院 伊利诺伊斯大学 u i u c 以及英国 的剑桥大学东芝实验室等 微软 i b m 东芝 日立等公司也在手势识别研究中做了很多 努力 在商业化方面 美国的g e s t u r e t e k 公司是提供手势识别解决方案和产品的最为有名 的一家公司 以色列的p o i n t g r a b 公司提供基于普通摄像头的指示手势识别应用的解决方 案 国内的对该领域进行研究的高校和研究所有中科院软件研究所和自动化研究所 北京 交通大学信息科学研究所 上海交通大学等 现在对手势识别的研究都还处于算法研究方 面 文献查阅的情况表明绝大部分的实现都是基于p c 机平台的 只有少数研究为提高速 度而采用了硬件加速的方法 如文献 1 5 1 8 基于视觉的手势识别大致可以分为以下几个过程 检测分割 跟踪定位 特征提取以 及分类识别 利用摄像头获取视频图像之后 首先要从视频图像中检测分割出人手区域 如果是运动中的人手 还需要对手不断的进行跟踪定位 对分割出来的手区域进行识别 首先要提取手势的特征参数 然后把这些特征参数跟训练好的手势模板的特征参数进行比 较匹配 确定出不同的手势类别 通过语法语义的规定 来控制计算机或其它设备 实现 人机交互 1 3 1 检测分割 手势的检测分割包括两部分 一是检测定位 指从图像中确定有没有手势出现 找到 手势所在区域 二是手势分割 将手势区域从画面中提取出来 去除背景的干扰 这两部 分一般都是同时进行的 但有些基于统计学习的识别方法不要求一定进行手势分割 只要 能确定手势所在区域的位置和大小即可 手势检测分割的方法有肤色分割 背景减除 模 板匹配等 肤色分割是手势检测分割中最常用的方法 实验证明 人体的肤色在颜色空间中的分 布是集中于某个区域当中的 肤色检测主要是根据肤色在颜色空间上的这种分布特征来检 测图像中的皮肤区域 m i c h a e lj j o n e s 和j a m e sm r e h 9 1 1 9 l 在2 0 0 2 年研究了人体肤色在 r g b 空间的分布 对大量的图片进行了统计分析 建立了肤色分布的通用模型 该模型 6 浙江大学硕士学位论文 绪论 被许多研究者采用 用于手势的检测与分割 j o n a t h a n a l o n 等人 2 0 采用了该通用肤色模型 计算肤色似然图像 再结合运动信息获得手势似然图象 实现手势检测 k o l s c h 等 2 1 2 4 在手势识别系统h a n d v u 中也采用了该肤色模型 l i uy u n 等 2 5 选择o s t u 二值化方法对 y c b c r 空间的c b c r 通道进行处理 从视频图象中分割出手势 f a n g y i k a i 掣2 6 在h s v 色彩空间对手部肤色建立高斯模型 利用该模型进行手势的分割 h e b e r t 和a d i l s o n 2 7 1 在 r g b 空间采用基于高斯混合模型的背景去除算法实现视频序列中的手势分割 能取得很 好的效果并能做到实时处理 j u a nw a c h s 等1 2 8 1 研究并实现了用于医学图像浏览的实时手势 人机交互系统g e s t i x 该系统在初始化时先进行手部肤色校正 获取使用者的肤色信患 然后结合运动信息实现手势的检测与分割 有的研究者在进行肤色分割时采用了多个色彩 空间和多个肤色模型 m a r y a mv a f a d a r 等 2 9 同时采用y i q 和h s v 空间肤色模型 利用k 均值聚类算方法分别在两个空间得到手区域 然后将两个区域叠加得到最后的分割结果 背景减除是另外一种常用的手势检测分割方法 在限制背景完全静止不变的前提假设 下 采用最简单的静止背景减除方法就可以从图像中分割出手势f 3 皿3 甜 在上述前提假设 不成立的情况下 一些自适应背景建模的方法被用来进行手势检测分割 比如f r e e m a n 等 3 3 1 采用r u n n i n g a v e r a g e 的方法进行背景建模和背景减除 文献 3 4 采用类似的方法进行手一 势的检测分割 采用肤色分割 背景减除的方法进行手势检测分割时都需要做出一些假设 比如认为 手是图像中唯一的或者最大的肤色区域 2 6 3 5 1 或者认为图像中有三块较大的肤色区域 分 别对应入脸和两只手 通过位置关系区分三者1 3 6 3 8 1 或者认为手势是图形中唯一的或者最 大的运动前景 这些假设只在一定的应用下成立 采用多种信息运动结合的方法可以减少 这些假设条件的限定 比如将背景减除与肤色分割结合 提取图像中较大的运动肤色区域 既属于运动区域 又属于肤色区域 作为手势候选区域 3 9 1 部分研究者 3 7 4 0 1 采用深度相 机获取深度信息来辅助检测定位 文献 4 1 中则采用调谐至人体温度范围的红外相机辅助 手势的检测分割 这些方法减少了对应用场景的限制 提高了检测分割的准确度 但同时 也增加了硬件成本和信息处理的复杂度 基于模板匹配的方法采用训练好的手势检测模板 遍历整幅图像中的每个位置进行匹 配检测 检测过程中缩放模板大小或图像大小以匹配不同尺度 可以确定图像中是否存在 做出定义手势的人手 4 2 1 也可以直接确定是否存在某种定义手势 4 3 4 4 即在检测定位的同 时完成识别 由于需要遍历不同位置和不同大小 采用一般的模板匹配方法必然导致运算 量非常大 因此一种由p v i o l a 和m j o n e s 提出的快速人脸检测方法被引入到手势识别领 7 浙江大学硕士学位论文 绪论 域 被不少研究者采用 只v i o l a 和m j o n e s 4 5 在2 0 0 1 年基于学习模式识别方法研究单目 视觉脸部检测时 提出了一种基于a d a b o o s t 训练方法的人脸检测算法 建立了第一个真 正实时的人脸检测系统 该方法引入了h a a r l i k e 特征的概念 h a a r l i k e 特征的定义是黑 色矩形和白色矩形在图像子窗口中对应区域的灰度级总和之差 它反映了图像局部灰度变 化 包括边界 线 对角线等特征 如图1 4 所示 囊口b 巴 d 留e 口口 图1 4 类h a a r 特征 这些特征可以通过积分图在常数时间内快速计算出来 积分图则可以通过迭代方式快 速计算 计算出这些特征之后 利用a d a b o o s t 迭代机器学习算法训练出分类器 利用该 方法既可以做出区分手与非手的分类器 也可以做出区分不同手型的分类器 k o l s c h 等 2 2 4 6 1 年i j 用v i o l a j o n e s 方法训练了手检测器 并对六种手型分别训练了分类器 c h e nq i n g 3 2 4 3 采用该方法训练了四种手型的分类器 将四个分类器构成一种并行结构 对每一个检测 窗1 2 同时利用四个分类器分别进行处理 以提高检测速度 1 3 2 跟踪定位 手势的跟踪目前采用比较多的算法主要有c a m s h i f t 算法 基于光流的k l t 跟踪算 法 粒子滤波器算法 1 c a m s h i f t 跟踪算法 该算法由b r a d s k i 4 7 在研究人脸跟踪时从m e a ns h i f t 算法中改进得到的 m e a ns h i f t 算法是一种密度函数梯度估计的非参数方法 通过迭代寻优找到概率分布的极值来定位目 标 b r a d s k i 将m e a ns h i f t 算法扩展到连续图像序列 形成了c a m s h i f t 算法 该算法对 视频图像的每一帧作m e a ns h i f t 处理 并将上一帧的处理结果 搜索窗的质心和大小 作为 下一帧m e a ns h i f t 算法的搜索窗的初始值 如此迭代下去 就可以实现对目标的跟踪 j u a nw a e h s 等人 4 8 开发的g e s t i x 人机交换系统中采用c a m s h i f t 算法进行手势跟踪 利用跟踪到的手的运动轨迹作为方向导航命令 彭娟春等 4 9 将c a m s h i f t 和k a l m a n 滤 波结合起来 基于c a m s h i f t 算法计算手势跟踪窗口的位置和大小 并用k a l m a n 滤波 预测手心位置 有效地解决了背景中大面积肤色干扰和手势部分被遮挡等问题 获得了很 8 浙汀大学硕士学位论文 绪论 好的跟踪效果 2 基于光流的k l t 跟踪方法 k l t 算法先从待跟踪窗口中提取特征点 然后以在视频图像帧间的灰度差平方和 s u m o fs q u a r e di n t e n s i t yd i 仃e r e n c e s 作为度量对特征点进行跟踪 k o l s c h 等f 5 0 对该方法进行了 改进 引入 f l o c ko ff e a t u r e s 的概念 增加对各特征点之间距离和所有特征点整体距离 的限制 避免特征点在一个小范围内聚集 提高了跟踪的精度 处理一帧7 2 0 4 8 0 的图 像只需2 1 8m s 与原k l t 方法以及c a m s h i f t 相比 改进后的k l t 方法在跟踪的准确 度上有很大的提高 h y e j i nk i m v 5 i j 等结合二阶自回归模型和k l t 特征提出了一种a r k l t 的跟踪方法对两只手同时进行跟踪 跟踪的精度达到9 0 以上 速度也很快 能做到每 秒处理4 5 帧 3 粒子滤波器 粒子滤波器是一种从带噪声的数据中估计运动状态的技术 它用一组带权的粒子近似 系统的后验概率分布 通过不断迭代更新粒子的状态和权重 从粒子的平均状态预测目标 物体的位置 实现目标跟踪 l a r sb r e t 2 r e r 等 5 2 中使用粒子滤波器进行手势的定位跟踪 n i k o l a ys t c f a n o v 等1 5 3 在粒子滤波器中引入变长马尔可夫模型 解决了表观非连续交他的 手势跟踪问题 c a i f c n gs h a h 等 5 4 1 结合粒子滤波器和m c a ns h i f t 算法二者的优点 提出一 种m e a ns h i re m b e d d e dp a r t i c l ef i l t e r 的方法 实现对手势的实时跟踪 并具有很好的鲁棒 性 g i a n n i 等 5 5 1 使用三个粒子滤波器同时跟踪人手和头部 通过引入重采样和退火更新步 骤 提高了对遮挡和肢体快速变化的鲁棒性 1 3 3 特征提取 对于静态手势识别 从检测分割后的手势图像提取的特征有以下几类 第一类是基于形状的特征 主要有统计矩特征和轮廓线特征两种 统计矩特征如h u 矩 z e m i k e 矩等 可以用来描述手的形状 具有比例不变性 平移不变性和旋转不变性 文献 2 5 中采用了h u 矩作为特征 利用支持向量机的方法进行分类识别 达到了9 6 5 的识7 5 0 率 文献 5 6 和1 5 7 中提取了手势的多种特征 其中也用到了h u 矩 基于轮廓线 的特征 采用傅立叶描述子的方法提取特征 该方法先对分割后的手型区域进行处理得到 手的轮廓线 然后将轮廓线上各像素点位置坐标按连接顺序排列成二维离散序列 之后将 该二维序列转换成一维复数序列并对一维复数序列进行离散傅立叶变换 d f t 对变换 9 浙江大学硕士学位论文绪论 系数作归一化处理之后得到傅立叶描述子 一般选取低频部分的傅立叶描述子组成手势的 特征向量 因为低频部分决定了图像的整体轮廓 而高频部分只是一些细节的体现 由傅 立叶变换的特性可以知道 选择傅立叶描述子描述手势 具有平移和旋转不变的特性 另 外由于进行了归一化处理 该方法还具有比例不变性 r e ny u 和z h a n gf e n g m i n g 5 剐采用 了1 2 个傅立叶描述子作为1 0 种手型的特征向量 然后利用支持向量机对1 0 种手型进行 训练分类 对每种手型的识别率基本都能达到9 0 基于形状的特征要求能够很好的分 割出手势的形状 这在很多应用中是难以做到的 第二类是基于手掌手指结构的特征 l i n d e b e r g 等 提出了s c a l e s p a c e 特征的概念 可以用来检测图像中几何结构 l a r s 等 5 2 利用s c a l e s p a c e 特征结合多尺度模型检测手势中 的点脊 b l o b sa n dr i d g e s 能够得到手掌结构和手指结构 通过制定特定的识别规则 手 指个数 手指夹角等 得出手势识别的结果 文献 6 0 和 6 l 等利用该方法进行手势的识 别 文献 6 2 中通过一种肤色像素直方图映射的方法检测手指的个数和相对位置关系 区 分表示1 9 九个数字的手势 能达到9 0 以上的平均识别率 a r g y r o s 等1 6 3 通过检测手指 个数的方式实现了用手势代替鼠标的人机交互 通过手指个数区分手势能表达的手势个数 有限 并且在很多应用中手指在图像中所占比例较小 加上光照不足等因素 很难正确检 测手指个数 第三类采用原始图像每个像素值作为特征 一些基于统计学习的方法直接将检测分割 后的手势图像作为特征 如w u 掣删将预处理 直方图均衡 亮度校正 缩放 之后的图 像作为部分手势特征 v a nd e nb e r g h 等 6 5 将缩放后的手势灰度图和剪影图 s i l h o u e t t e 一 起伊为手势特征 这里特征受背景 光照变化或者分割的影响比较大 第四类类对原始图像做数学变换 如d c t 小波变换 g a b o r 变换等 将交换后的 系数作为手势特征 部分研究者 6 4 6 6 6 7 采用g a b o r 变换从手势图像中提取特征 但g a b o r 变换的计算量比较大 不适合实时应用场合 这些数学变换的系数受背景 手的姿态变化 等因素的影响很大 提取的特征对手势的描述能力有限 最后一类是一些统计的特征 这类特征统计图像中灰度变化 纹理特征 梯度分布等 一种用于人脸识别和表情识别的l b p l o c a lb i n a r y p a t t e r n 局部二值模式 特征计算较 为简单快速 被部分研究者 6 9 6 9 1 1 i 入到手势识别领域进行手势特征提取 取得了不错的识 别效果 采用v i o l a j o n e s 方法进行手势检测和识别的方法 2 2 2 4 3 2 4 3 1 利用a d a b o o s t 的 学习方法选择h a a r l i k e 特征 训练得出每种手势的分类器 该方法采用模板匹配的方式 可以同时进行检测定位和分类识别 不需要手势分割 基于统计的特征对手势分割要求不 1 0 浙江大学硕士学t i 论文绪论 高 可以减少光照变化带来的影响 兼容不同的手势姿态 通过b o o s t i n g 支持向量机或 者神经网络等方法从大量样本训练选择较优的特征 训练分类器 可以取得很高的识别率 对于动态手势识别 除了可以将每帧的静态手势识别结果作为特征 还需要提取与运 动相关的特征 如手势轨迹 速度 形状大小变化等 1 3 4 分类识别 对于样本库中的每个手势提取了手势特征之后 需要根据这些特征量对各个手势进行 分类建模建立手势库 然后在手势识别时通过将待识别手势的特征与手势库中的每个手势 模型进行比较匹配 得出识别结果 采用手指 手掌结构作为特征的手势识别方法 通过 区分手指个数 手指方向即可实现手势的分类识别 如文献 2 6 5 2 6 3 最简单的分类识 别方法可以最近邻原则 在特征空间中为每个手势类别建立模型 在识别时计算待识别样 本与每个手势类别的距离或者属于每个类别的概率 选择距离最近的或者概率最大的类别 作为分类结果 如文献 3 9 除了这些方法之外 目前静态手势的分类识别绝大部分都是 采用基于统计学习的方法 有b o o s t i n g 学习方法 支持向量机 s u p p o r t v e c t o rm a c h i n e s v m 神经网络 n e u r a ln 咖o d n n 隐马尔科夫模型 h i d d e nm a r k o vm o d e l h m m b o o s t i n g 是一种增强学习的方法 该方法需要大量的正样本和负样本 首先利用这些 样本训练弱分类器 这些弱分类器的分类效果只比 随机猜测 稍微好一些 然后将这些 弱分类器组合 通过迭代更新的方式筛选最优组合作为最终的分类器 采用v i o l a j o n e s 方法进行手势检测和识别的方法 2 2 2 4 3 2 4 3 分类器训练所采用的a d a b o o s t 的学习方法就 是b o o s t i n g 的一种 文献 6 8 采用了a d a b o o s t 的一种变形方式进行分类器的训练 文献 7 0 采用梯度方向直方图特征表示手势图像 利用a d a b o o s t 的方法训练了手势检测器 平均 错误率在3 左右 静态手势识别中另外一种常用的方法是支持向量机 支持向量机是一种基于结构风险 最小的统计学习理论 用于分类与回归问题 支持向量机的基本思想概括起来就是通过非 线性变换 将输入空间变换掰一个高维空间 在这个新空间中求最优分类面 文献 2 5 7 1 7 2 都采用了支持向量机的方法进行静态手势的识别 文献 5 7 实现了一种基于最优有向无 环图的支持向量机的手势识别系统 文献 5 6 1 采用支持向量机在两个特征空间分别训练了 分类器 然后将两个分类器的输出概率加权求和得到最终的分类概率 能达到8 5 的平均 识别率 浙江大学硕士学位论文 绪论 神经网络是一种模仿人类神经网络行为特征 进行分布式并行信息处理的算法数学模 型 这种网络通过训练调整内部大量节点之间相互连接关系 从而达到信息处理的目的 神经网络具有自适应与自组织的特性 可以自动发现特征和规律性 因而常被用来进行分 类识别 w y s o s k i 等 7 3 采用m l p m u i t i l a y e rp e r c e p t r o n 神经网络对2 6 个美国手语手势 进行识别 取得了9 8 以上的识别率 文献 7 4 中采用b p 神经网络对l o 种手势进行分类 识别 对8 9 以上测试样本做出了正确分类 文献 7 5 也采用了b p 神经网络的方法进行 静态手势的识别 神经网络的方法经过大量的训练之后能够较为准确的实现较大规模的手 势 但是其算法复杂度很高 训练耗时 并且不能确保准确率相应提高 与静态手势不同 动态手势识别技术必须考虑不同用户做手势时存在的速率差异 熟 练程度会在轨迹的时间轴上引起非线性波动 因此消除这些非线性波动是动态手势识别技 术必须克服的一个重要问题 目前动态手势识别的方法可以分为 基于隐马尔科夫模型 h i d d e nm a r k o vm o d e l s h m m 的方法 基于动态时间规整 d y n a m i ct i m ew a r p i n g d t w 的方法 基于时延神经网络 t i m e d e l a y n e u r a l n e t w o r k t d n n 的方法和基于时间模板 的方法 在基于h m m 的识别算法里 每种手势有一个h m m 可观察符号对应着模型参 数空间里的向量点 例如几何矩向量 z e m i k e 矩 特征图像系数向量 或者3 d 空间韵运 动轨迹等 基于h m m 的识别具有时间尺度不变性 d t w 方法是具有非线性时间规一化 效果的模式匹配算法 使用某种指定属性的非线性规整函数对时间轴上的波动近似建模 通过弯曲其中一个模式的时间轴使之跟另一个模式达到最大程度的重叠 此时的残
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版九年级化学上册第二单元实验活动1 氧气的实验室制取与性质说课稿1
- 第12课 民族大团结 说课稿 2025-2026学年统编版八年级历史下册
- 2.3我们爱分享 第二课时(教学设计)-2024-2025一年级下册道德与法治(统编版)
- 第三节 氢原子光谱教学设计-2025-2026学年高中物理粤教版选修3-5-粤教版2005
- 2024-2025学年高中地理 第2章 乡村和城镇 第1节 乡村和城镇内部的空间结构说课稿 中图版必修第二册
- Unit 7 To Your Good Health说课稿-2025-2026学年高中英语冀教版必修一-冀教版2004
- 地产公司工业化建造体系全剪外墙应用技术指引
- 7 两件宝(教学设计)-2024-2025学年语文一年级上册统编版
- 《苏武传》教学设计 2024-2025学年统编版高中语文选择性必修中册
- 8《科技发展 造福人类》第一课时(教学设计)-部编版道德与法治六年级下册
- 资阳市安岳县县属国有企业招聘(33人)考前自测高频考点模拟试题附答案详解
- 2025北京平谷区初三二模数学试题及答案
- 2025年中级会计职称考试经济法冲刺试题及答案
- 2025年应急通信保障中心招聘笔试预测试题及答案
- 神经调节的基本方式练习题(含答案)
- GB/T 10609.3-1989技术制图复制图的折叠方法
- 钢结构基本原理及设计PPT全套课件
- 初中课外阅读指导课-课件
- 房建满堂脚手架专项验算书
- 国家综合性消防救援队伍消防员管理规定
- 《非线性动力学》课程教学大纲
评论
0/150
提交评论