(计算机软件与理论专业论文)基于表观的二维手势识别方法研究.pdf_第1页
(计算机软件与理论专业论文)基于表观的二维手势识别方法研究.pdf_第2页
(计算机软件与理论专业论文)基于表观的二维手势识别方法研究.pdf_第3页
(计算机软件与理论专业论文)基于表观的二维手势识别方法研究.pdf_第4页
(计算机软件与理论专业论文)基于表观的二维手势识别方法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)基于表观的二维手势识别方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕十学何论文 摘要 随着计算机视觉技术的发展以及人们对新的交互手段的需求,基于计算机视 觉的交互系统( 如手语、人脸、表情、唇读、头势、体势等) 便逐渐发展起来。 其中手势完全可以作为一种手段,它生动、形象、直观,可以增强人机交互过程 中的自然性。 本文从自然人机交互的角度出发,研究了基于表观的二维手势识别技术,并 实现了一个基于简单自然手势的人机交互系统并应用到鼠标控制中,为后续的深 入研究奠定了平台基础。具体研究工作包括以下几个方面: ( 1 ) 为了克服现有的手势分割算法中单线索分割的局限,提出一种基于概 率模型的表观手势分割方法。该方法首先利用肤色概率分布图得到图像的肤色信 息,然后将图像分块后用统计的差减法得到运动信息,最后结合手势的肤色分布 与运动信息的多线索融合进行手势分割。实验结果表明,此方法提高了复杂背景 下的手势分割的准确度。 ( 2 ) 针对现有动态手势跟踪方法不能准确跟踪轮廓的缺点,从统计和概率 分布上考虑,通过将现有的一维肤色概率分布扩展为二维肤色概率分布,提高了 肤色的表示精度。该方法首先通过将各个像素分别看作独立的系统,并建立像素 状态模型估计当前像素与区域的状态,然后对当前帧进行基于区域的自适应阈值 分割,以达到对手势进行实时轮廓跟踪的目的。 ( 3 ) 针对传统的目标物形状识别不能识别相似样本,且在多样本、多分类 的情况下分类率低等问题,利用小波多分辨率分析的细节信息与近似信息对物体 形状具有特征描述的特点,通过对轮廓链码p 阶归一化极半径信号h a a r d 、波分解, 提取出一种用于形状识别的极半径h a a r t j 、波特征。实验结果表明此特征可识别相 似形状,样本数、分类数越多,分类效果越好。 最后,结合上述研究,用v c + + 6 o 实现了一个简单的基于v f w 的手势应用系统。 该系统可以识别简单的几种手形,并通过语义解释,动态手势识别,实现了鼠标 功能。并在此系统的基础上,提出了人机交互中用手势控制鼠标、键盘,即完全 实现手势控制的计算机视觉交互的一般的系统架构,为复杂的应用提出了思路。 关键词:人机交互;手势识别;肤色概率分布图;h a a r 小波;广度优先搜索; 区域扩张;多分辨率分析 a b s t r a c t w i t ht h er e q u i r e m e n tf o rt h en e wi n t e r a c t i v em e t h o da n dt h ed e v e l o p m e n to ft h e c o m p u t e rv i s u a lt e c h n o l o g y ,t h ev i s u a lb a s e dh u m a n c o m p u t e ri n t e r a c t i v es y s t e m ( s u c ha sh a n dg e s t u r e ,h u m a nf a c e ,f a c i a le x p r e s s i o n ,h e a de x p r e s s i o n ,b o d yg e s t u r e ) l sb e c o m i n gm o r ea n dm o r ep o p u l a r t h eh a n d g e s t u r ei sv i v i d ,l i v e l y ,w h i c hc a nb e u s e di nt h e h u m a n 。c o m p u t e ri n t e r a c t i o nt o s t r e n g t h e nt h en a t u r a l n e s so ft h e i n t e r a c t i o n f r o mt h ep e r s p e c t i v eo ft h eh u m a n c o m p u t e ri n t e r a c t i v e ,t h i sp a p e rs t u d i e st h e a p p e a r a n c e - b a s e d2 dh a n dg e s t u r er e c o g n i t i o n ,a n db a s e do nt h es i m p l en a t u r eh a n d g e s t u r e ,ah u m a nc o m p u t e ri n t e r a c t i v es y s t e mi sr e a l i z e dt oc o n t r o lt h em o u s e t h i s s y s t e ms e t sap l a t f o r mf o rt h er e s e a r c hi nd e p t h t h ed e t a i l e dr e s e a r c hw o r ki si nt h e f o l l o w i n g : ( i ) i no r d e rt oo v e r c o m et h el i m i t a t i o no ft h es i n g l ec l u es e g m e n t a t i o n ,am e t h o d o fh a n d g e s t u r es e g m e n t a t i o nw i t h a p p e a r a n c eb a s e do n p r o b a b i l i t ym o d e li s p r o p o s e d f i r s t ,i to b t a i n st h es k i nc o l o ri n f o r m a t i o n u s i n gt h e s k i nc 0 1 0 r p r o b a b i l i t yd i s t r i b u t i o ni m a g e t h e n ,a f t e rt h ed i v i s i o no ft h ei m a g e s ,t h em o v i n g i n f o r m a t i o ni so b t a i n e db yt h eu s eo ft h es t a t i s t i c a lf r a m ed i f f e r e n c em e t h o d a tl a s t i tc o m b i n e st h es k i nc o l o ri n f o r m a t i o na n dt h e m o v i n gi n f o r m a t i o nt o g e t h e rt o s e g m e n tt h eh a n dg e s t u r e e x p e r i m e n t ss h o wt h a tt h i sm e t h o di m p r o v e st h ea c c u r a c v o ft h eh a n ds e g m e n t a t i o ni nt h ec o m p l e x b a c k g r o u n d s ( i i ) c o n s i d e r i n gt h ed e f i c i e n c yo fa c c u r a t eh a n dg e s t u r ec o n t o u ri n a c c e s s i b i e t h e s t a t i s t i c a la n dp r o b a b i l i t yi sc o n s i d e r e d at w od i m e n s i o n a ls k i nc o l o rp r o b a b i l i t y f o r e c a s tm e t h o di sp r o p o s e dt oi m p r o v et h ea c c u r a c yo ft h es k i nc o l o r p r e s e n t a t i o n i nt r a c k i n g ,f i r s t ,s e tt h ee a c hp i x e la s t h ei n d e p e n d e n ts y s t e m ,t h ep i x e l ,s s t a t e m o d e li sb u i l tt oe s t i m a t et h es t a t eo fp i x e l sa f t e rw a t e r s h e dc o m p u t a t i o n t h e nt h e c u r r e n t b l o c k i n gf r a m ei sa d a p t i v et h r e s h o l ds e g m e n t e da n dt h eh a n d g e s t u r e t r a c k i n g i sr e a l i z e d e x p e r i m e n t ss h o wi tc a nt r a c kt h eh a n d g e s t u r ec o n t o u r a c c u r a t e l y ( i i i ) c o n s i d e r i n gt h el o wc l a s s i f i c a t i o nr a t eo ft h et r a d i t i o n a lf e a t u r ee x t r a c t i o n m e t h o d si n r e c o g n i z i n gt h e s i m i l a r s a m p l e s , o n m u l t i c l a s s i f i c a t i o na n d0 n m u l t i 。s a m p l e sc o n d i t i o n s ,b y u s i n gt h em u l t i - r e s o l u t i o n sc h a r a c t e ro f s h a p e 硕士学位论文 d e s c r i p t i o ni nd e t a i l e di n f o r m a t i o na n da p p r o x i m a t ei n f o r m a t i o n ,t h r o u g ht h eh a a r w a v e l e tm u l t i r e s o l u t i o no ft h ep o r d e ro ft h en o r m a l i z e dp o l a rr a d i u ss i g n a lo ft h e i m a g ec o n t o u rc h a i nc o d e ,ah a a rw a v e l e td e s c r i p t o ri so b t a i n e dt or e c o g n i z et h e d i f f e r e n ts h a p e s t h ee x p e r i m e n t ss h o wt h a tt h e s ei n v a r i a n t sc a nc l a s s i f yt h es i m i l a r s h a p e ,a n dm o r eo v e r ,i th a st h eb e t t e rc l a s s i f i c a t i o na b i l i t yt h a nt h eh ui n v a r i a n t m o m e n ta n dp o l a r r a d i u si n v a r i a n tm o m e n t a t l a s t ,c o m b i n i n gt h es t u d i e sa b o v e ,av c + + 6 0v f w b a s e ds i m p l eh a n d g e s t u r ea p p l i c a t i o ns y s t e mi se s t a b l i s h e d t h i ss y s t e mc a nr e c o g n i z es a m es i m p l e h a n d g e s t u r e s ,a n dt h r o u g ht h e s e m a n t i ci n t e r p r e t a t i o n ,d y n a m i ch a n dg e s t u r e r e c o g n i t i o n ,i tr e a l i z e dt h ef u n c t i o no ft h em o u s e b a s e do nt h i ss y s t e m ,a ni d e ao f t h eh a n dg e s t u r eb a s e dh u m a n - c o m p u t e ri n t e r a c t i v et oc o n t r o lt h em o u s ea n d k e y b o a r d i s p r o p o s e d ,a n dt h a t i sa l s ot h es y s t e ms t r u c t u r eo ft h ec o m p l e t e l y h u m a n c o m p u t e r i n t e r a c t i v e t h i si d e ap r o p o s e ds o m ec l u e st ot h ec o m p l e x h u m a n - c o m p u t e ri n t e r a c t i v ea p p l i c a t i o n k e y w o r d s :h u m a n - c o m p u t e ri n t e r a c t i v e ;h a n dg e s t u r er e c o g n i t i o n ;s k i n c o l o r p r o b a b i l i t yd i s t r i b u t i o ni m a g e ;h a a rw a v e l e t ;t h ed e p t hf i r s ts e a r c h ;r e g i o ng r o w t h ; m u l t i 。r e s o l u t i o na n a l y s i s i h 基于表观的二维手势识别方法研究 插图索引 图1 1 手势识别框架图5 图2 1r g b 彩色立方体1 1 图2 2 收集肤色信息的直方图1 3 图2 3 手势图像与肤色概率分布图1 4 图2 4 手势分割多模式系统流程图1 4 图2 5 手的图像与运动统计信息图一1 6 图2 6 区域扩张结果1 8 图2 7 相应的手势跟踪实验结果1 8 图3 1 肤色概率查找图2 5 图3 2 手势概率分布图2 5 图3 3 手势模型2 6 图3 4t 时刻与t 一1 时刻状态s ( t 一1 ) 与s ( t ) 的关系2 7 图3 5 手势跟踪的各个步骤2 8 图3 6 手图像连续跟踪实验2 9 图3 7 脸部图像连续跟踪3 0 图3 8 加入噪声脸部跟踪一3 0 图4 1 基于拓扑的特征提取3 3 图4 2b y z n t i n e 的p e t a s t i 一部分3 6 图4 3 算法流程图4 3 图4 4 同种形状的手势符号4 4 图4 56 种不同形状4 4 图4 6 实验3 中1 0 种不同形状检测性能4 6 图4 7 小波特征与其它特征对比分类信号图4 6 图5 1 系统功能结构图4 9 图5 2 软件状态分解图4 9 图5 3 键盘操作状态图4 9 i v 硕+ 学位论文 v o o 1 1 2 2 5 5 5 5 5 5 图 一 态 别 理 别 状 一识管 识作图势征入势操流手特输手标据态本色态鼠数静样肤动 4 5 6 7 8 9 5 5 5 5 5 5 图图图图图图 基于表观的二维手势识别方法研究 附表索引 表3 1 跟踪方法比较3 0 表4 1 同种形状的极半径小波描述子4 4 表4 2 不同种形状的极半径小波描述子4 5 表4 3 极半径h a a r 小波特征识别图2 的相似差异4 5 表4 4h u 矩识别图2 的相似差异一4 5 表4 5 实验中使用3 种特征识别1 0 种手势的精度4 6 表4 6 各种特征性能对比4 7 v i 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 储虢易腱,嘲磁年多月夕日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学 校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中 国学位论文全文数据库,并通过网络向社会公众提供信息服务。 作者签名:当跃冕选l 导师签名:力彩智亿务 日期:彩年 日期:沙,拜 厂 6 月日 占月7 日 , 硕七学位论文 第1 章绪论 1 1 课题的研究背景与意义 自从计算机在上个世纪中叶诞生,人和计算机的交互问题就随之出现并一直 存在了【1 1 。 人机交互系统经历了手工操作,命令语言和图形用户界面等几个阶段,在输 入设备方面,经历了键盘、鼠标、手写、触摸屏、扫描等多种输入方式,目前更 是发展到了通过语音、三维输入数据手套、三维鼠标、力矩球,以及视觉输入。 当前各种方法很难进行3 d 和高度自由的输入,主要不足是繁杂的输入设备 和特殊的工作环境严重影响了工作效率,输入设备昂贵较易损耗,维护成本较高, 输入与人类自然的交流方式不一致,为了操作需要被迫学习输入规则,很多方法 必须要接触设备,不适合远程操控以及有污染、粉尘的环境。这些不足有些是可 以克服的,例如软硬件的落后,有些是难以克服的,诸如输入手段先天的缺陷。 尤其在虚拟现实( v i r t u a lr e a l i t y ) 、可穿戴计算机( w e a r a b l ec o m p u t e r s ) 等应用 中变得愈发明显【2 3 】。这些需要操纵硬件的交互方式,对人而言,不方便流畅, 也不自然直观,且限制了人机交互的速度【1 ,4 j 。 要克服这些问题,只能寻求更加高级的输入手段。人类交互方式往往声情并 茂,其中有采用自然语言,表情、体势交互,而手势也是人类交互的基本方式之 一。人机交互与人类交互相比就显得呆板得多,因此研究多模式人机接口技术u j 在众多应用领域中变得越来越重要。多模式人机接口技术是集语音、文字、手语、 人脸、表情、唇读、头势、体势【5 ,6 】等多通道为一体的,并对这些通道的信息进 行编码、压缩、集成、融合的计算机智能接口技术,其研究目标正是要解决计算 设备的高智能性和高可用性问题,为了使得用户可以方便、自然地用人类所熟知 的方式使用计算机,建立自然的人机交互环境,其中的重要环节就是要使计算机 能够准确无误的感知包括自然语言、手势语言、面部语言在内的人类表达方式1 2 j 。 也就是说,人机交互技术已经从以计算机为中心逐步转移到以人为中心,是以多 种媒体、多种模式为基础的交互技术。 手势是一种聋哑人使用的语言,由手形动作辅之以表情姿势,构成比较稳定 的表达系统。这种特殊语言主要靠动作进行交际,是一种包含信息量最多的人体 语言,其表达能力与语言及书面语等自然语言相同,因而在人机交互方面,手势 完全可以作为一种交互手段,而且具有很强的视觉效果,它生动、形象、直观1 5 j 。 未来信息社会将是“无处不在的计算 ( u b i q u i t o u sc o m p u t i n g ) 和“普及计 基于表观的二维手势识别方法研究 算 ( p e r v a s i v ec o m p u t i n g ) ;人和计算机的关系越来越紧密,人机交互技术已经 从以计算机为中心逐步转移到以人为中心,人和计算机交互的需求越来越多。在 这种情况下,人们愈发迫切地需要友好、方便、直观的人机交互方式。因而,自 然的手势交互技术成为目前计算机相关学科中的一个研究热点【1 , 7 , 8 】。手势的研究 有助于改善和提高聋哑人的生活学习和工作条件,为他们提供更好的服务,同时 也可以应用于电视节目双语播放、计算机辅助哑语教学、电影制作中的特技处理、 虚拟人的研究、动画的制作、医疗研究、游戏娱乐等诸多方面【9 j 。 这场史无前例的计算革命将带来的一系列后果,其意义在于: ( 1 ) 虚拟现实( v i r t u a lr e a l i t y ,v r ) 。从虚拟现实的交互技术来说,其目 标是利用手势控制虚拟现实中的智能体。文【1 0 1 ;乖0 用语音和手势识别系统实现了 虚拟现实中物体的直接控制。浙江大学c a d & c g 国家重点实验室提出一种考虑 摩擦的虚拟于交互碰撞力觉生成和反馈方法,以使用户手指感受到逼真的冲击, 增强虚拟操作的真实性和沉浸感。 ( 2 ) 计算机辅助设计与制造( c a d c a m ) 。手势识别可以用于与虚拟环境 的交互,如虚拟制造和虚拟装配、产品设计等。如:n e c 公司开发的虚拟现实系 统,操作者通过使用数据手套可以处理三维c a d 中的实体模型。 ( 3 ) 机器人控制。为使机器人更易于使用,需提供语音、手势以及直接的 物理接触等多模态用户接口。如:文【1 1 利用手势识别使机器人理解音乐指挥动 作,1 9 9 5 年,卡耐基一梅隆大学的c h r i s t o p h e r l e e 和x u 完成了一个操纵机器人的 手势控制系统【1 2 】。 ( 4 ) 用于多通道、多媒体用户界面。为了消除在单通道输入时存在的歧义, 手势输入在人机交互中应用时可以为语言、视线、唇语等交互手段通道提供空间 的或其他的约束信息。 ( 5 ) 人机手语翻译系统。手语识别可以构成一个“人机手语翻译系统”,让 机器看懂聋哑人的语言,将手语识别和手语合成相结合,使聋哑人可以使用手势 与周围环境及正常人进行交流。如:文 1 3 1 实现了一个美国手语识别系统,使计 算机可理解美国手语的含义。 虽然手势识别已经取得了很大进展,但在实际的人机交互应用中仍然面临着 许多严峻的问题,手势本身具有的多样性,鲁棒的手势分割与跟踪,手势特征的 提取,非特定人的手势识别,以及时间和空间上的差异性等等。主机器人融入人 类社会与人类和谐共存,赋予机器人学习能力、类人的交互行为,还需要不同学 科研究领域的学者共同做出不懈的努力。 1 2 手势识别的定义和组成 通常把手势定义为:手势是为了表达或帮助表达想法、情绪或强调所说的话, 2 硕十学位论文 使用手或者手和臂结合所产生的各种姿势和动作。手势包括静态手势( 单个手形) 和动态手势( 一系列手形组成的序列) 。静态手势对应空间里的一个点,动态手 势对应着模型参数空间里的一条轨迹,使用随时间变化的空间特征来表述,这里 参考了任海兵等人对手势的定义1 14 1 。 人的手势大致可以分为:交互性手势与操作性手势,前者手的运动表示特定 的信息( 如乐队指挥) ,靠视觉来感知,后者不表达任何信息( 如弹琴) ;离心手 势和向心手势,前者直接针对说话人,有明确的交流意图,后者只是反应说话人 的情绪和内心的愿望;自主性手势和非自主性手势,后者与语音配合用来加强或 补充某些信息( 如演讲者用手势描述动作、空间结构等信息) 。 1 3 基于表观手势识别的现状及分析 1 3 1 手势识别发展的三个阶段 最初,研究主要集中在使用专用硬件设备来进行输入。例如数据手套,即人 可以戴上一个类似于手套的传感器,计算机通过它可以获取手的位置、手指的伸 展状况等丰富信息,但这需要实验者带上一个专用设备,非常不方便,且设备昂 贵。第二个阶段,人们又致力于标记手势的研究,即通过在手上作标记,例如在 手腕和手指处贴上或画上特殊颜色的圆点,用来识别手势。这虽然给识别带来方 便,但同样给实验者带来麻烦。最后,人们终于把注意力集中到自然手上,通过 专用的加速硬件和脱机训练,一些研究者成功地研制了手势识别系统,但识别算 法难度大,其识别的手势仅限于几种【1 5 1 。基于视觉的手势识别是未来发展趋势。 人的观察( l o o k i n ga tp e o p l e ) 是计算机视觉领域中最活跃的研究主题之一, 其核心是利用计算机视觉技术从图像序列中检测、跟踪、识别人并对其行为进行 理解与描述,以彻底摆脱键盘鼠标式的人机交互手段。手势识别技术也不断蓬勃 发展,研究内容逐渐从经典方法走上百花齐放,百家争鸣的盛况,越来越多的新 算法涌现出来,类似越来越多的应用必将促进手势识别的迅速发展。 1 3 2 国内外研究现状 国际上也不断涌现相关的商业产品,例如,本田推出了一款能识别手势能打 招呼和对话的机器人,微软x b o x 3 6 0 摄像头能够将玩家的特定手势动作“翻译成 游戏语一言,成为除x b o x 3 6 0 手柄外的第二“游戏控制器 。德国卡尔斯鲁厄大 学开发的双目视觉服务生移动机器人【1 6 1 。用户可以与机器人进行直接、流畅的 交互,通过手势解释机器人内部预先设定好的行为模式,使机器人完成一些基本 的操作任务。文 1 7 研究了基于手势的示范编程系统,用户通过手势向机器人示 范如何抓取和放置等操作。示范的任务由一个模型描述,研究的目的是为了让机 器人具备从用户的任务示范中学到技能。巴西圣保罗大学移动机器人手势识别系 3 基于表观的二维手势识别方法研究 统1 1 8 】胄邑够实时地识别7 种基本的静态手势。此系统的特点在于采用了f p g a 硬件 结构,能够并行地对图像进行处理。通过降低图像的分辨率,用神经网络进行分 类,取得了很好的识别效果。s o n y 于2 0 0 4 年推出的用于p s 2 的u s be y e t o y 摄像头 【”】,能够识别用户的肢体动作,用户不需要使用控制器,就可以进入游戏画面 来控制游戏的进行。文f 2 0 使用立体视觉系统,结合语言识别和手势识别实现 w i n d o w s 界面的基本操作功能。v o g l e r 与m e t a x a s 2 1 】将两种方法结合用于美国手 势识别,交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备, 完成了个5 3 孤立词的识别,识别率为8 9 9 。美国m i tm e d i al a b 的t s t a r n e r 和 a p e n t l a n d 实现的两个美国手语识别系统【2 2 】采用h m m 模型,可以实现对美国手 语中的4 0 个词汇构成的词汇集上的句子级别的连续手语识别。其中,第一个系统 使用了基于桌面的摄像头,第二个系统使用了基于帽檐( c a p w o m ) 的摄像头前 者的识别率9 2 ,后者识别率9 8 。德国的k i r s t ig r o b e l 与m a r c e l la s s a m 禾l j 用 h m m 方法实现了可识别2 6 2 个孤立手语词的识别系统,识别率为9 1 3 。该系统 的特征信息是从戴颜色手套的打手势者的视觉记录中提取出来的1 2 引。 仅就国内而言,已经先行起步的许多研究单位已经逐渐形成了自己的特色, 建立了学术梯队。清华大学计算机系人机交互与媒体集成研究所实现了基于手势 的全景图浏览器和3 d 手势鼠标等项目 2 4 , 2 5 】,侧重于基于视觉的手势识别研究; 文【2 6 使用数据手套和三维跟踪器研究了虚拟装配系统中的人机交互问题;文【2 7 】 研究了基于视觉的人机交互过程中的变形手势跟踪;哈尔滨工业大学计算机系利 用边缘检测、神经网络等方法,实现了基于视觉的可识别1 3 个静止手势的手势识 别系统和基于视觉的简单的连续变化手势识别系统【2 9 1 ,该系统不要求用户戴任 何特殊手套:2 0 0 1 年哈尔滨工业大学又利用h a u s d o r f f 距离实现了基于边缘特征 像素点的中国手语3 0 个手指字母的静态识别【3 0 1 ,该系统同样基于徒手,该方法 较适合于静态手势( 序列帧) 的识别,但结合d t w 可实现动态手势的识别,在 2 0 0 2 年又实现了基于颜色手套的对中国手语手指字母的动静态识别【3 1 】;上海交 通大学自动化系开发的仿人机器人j f h r 手势识别系统【2 引,此视觉子系统共有四 个自由度,两个眼睛各一个自由度,颈部有两个自由度。此系统采用支持向量机 对二维手势进行分类,并基于双目视觉研究了三维手势识别系统,先寻找手的主 轴方向,按主轴方向旋转得到手势模板,可以减少手势旋转带来的干扰,取得了 较好的结果。 1 3 3 基于表观的二维实时手势识别系统发展趋势 未来在以下几个方面很可能会有所飞跃: ( 1 ) 结合虚拟现实或者增强现实环境,强调用户的体验,例如用户参与其 中的竞技项目,或者是虚拟场景的互动,随着计算技术和硬件条件的不断完善, 4 硕十学位论文 构造任意虚拟场景已不再遥远,随之而来的语音和手势的识别也必将得到极大的 促进。 ( 2 ) 在航天事业和机器人应用中,使用简单手势作为沟通手段,也可用在 仿生学,根据用户的手势用于设计仿真动画。 ( 3 ) 辅助盲聋哑人的教育,促进正常人通过计算机和聋哑人的交流。 ( 4 ) 融合其他手段作为未来家庭生活的一项内容。在不远的将来,人们能 够扔掉遥控器,直接用手实现对设备的控制。 随着技术的日新月异和人们对本领域的关注,当前制约手势识别发展的技术 难关正一个个被突破,从前看似遥不可及的梦想到今天已经变为现实。 1 4 基于表观的手势识别的框架 一个基于表观的二维实时手势识别系统一般有以下几个模块构成【1 4 l 。如图 1 1 ,先通过一个摄像机获取视频数据流,然后,系统根据手势输入的交互模型 检测数据流里是否有手势出现,如果有,则把该手势从视频信号中切分出来,然 后,选择手势模型进行手势分析,分析过程包括特征检测和模型参数估计。在识 别阶段,根据模型参数对手势进行分类并根据需要生成手势描述,最后,系统根 据生成的描述去驱动具体应用【4 1 。 图1 1 手势识别框架图 1 5 存在问题 而在实际场景中,背景往往是复杂多变的,光照强度的变化、背景中物体的 变动、背景中存在与手势特征类似的物体、阴影问题、手势遮挡等,这些都给手 势的准确分割、跟踪带来了困难。虽然人眼能够很容易地在复杂背景下识别手势 区域,但这种能力对于基于普通摄像头的计算机来说,还是非常难以达到的。虽 然目前有基于颜色的,还有运动信息等方法进行提取,但是效果还不是非常好。 在合适的特征的提取方法,首先是手势的模型的建立比较困难。目前的计算 的运算能力或者说算法还很难实时地将的图像转换到空间上去。因此,基于简化 的表现的建模多少影响到手势特征的提取,在基于单摄像机在复杂背景下实时识 5 基于表观的维手势识别方法研究 别多种手势是目前手势识别的发展方向、如何提高手势分割的精度以及设计一个 更好的手势模型,将是亟待解决的问题。 1 6 课题来源 论文研究内容来源于甘肃省教育厅硕导科研基金“复杂背景下动态手势分割 与实时跟踪识别方法研究”( 0 7 0 3 0 8 ) 。 课题主要研究内容:为了使基于计算机视觉的手势识别方法在人机交互中能 够在自然场景下付诸应用,本课题提出一种在复杂背景下对动态手势进行实时跟 踪和识别的方法并进行研究。 课题主要研究目标: 1 ) 提出一套可行的复杂背景下动态手势分割的方法,能够实时、准确提取 出手势区域。 2 ) 复杂背景下动态手势实时跟踪方法研究,解决包括遮挡、光照变化等复 杂情况下的手势跟踪。满足跟踪的实时性、连续性和鲁棒性要求。 3 ) 建立基于表观的手势模型。综合提取形状特征、手势运动信息以及其它 手势不变特征,组成时空特征向量,一种手势对应一种手势模型,能满足实时、 连续、稳定的跟踪识别要求。 1 7 论文主要研究内容与组织结构安排 本文的研究重点在利用肤色概率分布图,结合分块的运动信息来进行手势分 割,然后在分割的基础上利用状态估计模型来跟踪手势的运动。由于普通的肤色 模型来识别手通常会受到环境因素影响比较大,因此通过统计的方法来进行分割 与跟踪会提高交互的鲁棒性。在特征提取方面,利用了小波多分辨率分析的细节 信息与近似信息对物体形状具有特征描述的特点,使用h a a r d , 波对手势信号进行 分解得到描述子以描述手势形状,以提高相近形状的可分类性。最后本文在手势 分割与特征提取的基础上实现了一个简单自然手势的人机交互手势识别系统。 全文一共分为五章,具体章节安排如下: 第1 章绪论:首先阐述了本课题研究的理论意义及实用价值,接着介绍了 国内外研究现状,最后指出目前该研究领域中存在问题和难点。 第2 m复杂背景下基于表观的二维手势分割方法研究:本章总结了图像分 割的一些基础理论和算法。结合各种算法的优点,使用多模式分割, 提出了一种基于概率模型的手势分割方法。为下一步开展跟踪工作 作好理论与技术准备。 第3 章复杂背景下基于表观的二维手势轮廓跟踪方法研究:本章研究了图 6 硕十学位论文 像跟踪中的一些基础理论和算法。在得到第一帧手势分割区域的基 础上,提出了一种基于二维的肤色概率分布图与一种基于颜色概率 与状态估计模型的手势轮廓跟踪方法,可以精确跟踪到手势的轮 廓。 第4 章手势识别的特征提取方法研究:本章首先描述了在手势识别特征提 取方面的现有算法。在识别手势形状方面,提出了一种基于广度优 先搜索的轮廓跟踪方法与一种用于形状识别的极半径h a a r d 、, 波特 征提取方法。 第5 章简单手势识别应用及实现:本章结合上几章的各个模块,在系统上 比较详细的描述了整个简单手势识别系统的框架,介绍了交互系统 的流程,并实现了一个简单的用o p e n 和c l o s e 手势模拟鼠标功能的应 用程序。 7 基丁表观的二维手贽识别方法研究 第2 章复杂背景下基于表观的二维手势分割方法研究 2 1 引言 手势分割是将有意义的区域( 即手势) 从拍摄的手势图像中划分出来。在此 领域,前人已经做了不少的工作,目前具有代表性的技术有基于颜色分割、基于 运动分割、基于模板匹配分割、基于局部区域信息的分割及多模式分割等【32 1 。 2 2 图像分割概述 2 2 1 基于颜色的分割 在手部区域中,肤色信息是最为有效的物理特征,是图像中相对集中和稳定 的区域。虽然,不同的人肤色不同,即使同一个人,在不同时间或者穿着不同的 衣物肤色也可能不同。但是肤色在色彩空间中的一定范围内呈聚类特征【3 3 1 ,因 此,目前绝大多数的手部图像分割方法都是利用肤色特征进行人手分割。 肤色模型即用一种代数的( 解析的) 或查找表等形式来表达某一像素的色彩 和肤色的相似程度,肤色模型是与色彩空间相联系的,也就是说肤色模型的建立 需要结合不同的色彩空间。在不同的色彩空间下建立的肤色模型,其肤色聚类集 中程度也各有差异,这种差异将直接影响肤色分割的好坏。选择肤色模型原则是 在该色度空间中能否用给定的肤色模型描述肤色区域的分布,一般有高斯模型, 肤色概率分布图等。在h s v 空间来说,人的肤色范围( h 的取值) 大约在0 - 4 0 之 间,s 是3 0 2 5 5 ,v 是2 0 2 5 5 。 例如:姜威等【3 4 1 使用y u v 颜色模型进行人手分割;周航等【3 5 j 利用c i e l a b 肤色 模型分割;路凯等【3 6 】在h s v 空间中进行肤色检测;l i mw e ih o w e 等【3 7 l 将不同人 手分别在r g b 空间、h i s 空间的肤色聚类效果进行了比较研究;吕东辉等【3 8 】采用 y c b c r 空间来构建皮肤颜色分布模型。 基于颜色分割对光照敏感,这里不包括颜色手套与特定背景,处理对物体与 背景有较强对比的分割特别有效。缺点是对复杂背景的分割适应性较差,当背景 颜色分布复杂及光照变化快时力不从心。并容易将背景中的类肤色区域误检为肤 色,因此对于复杂背景中存在的类肤色物体,仅仅使用肤色信息进行人手分割是 不够的。 2 2 2 基于运动信息 ( 1 ) 基于光流法的分割 8 硕士学位论文 基于光流法的分割主要是基于光流场的运动参数估计,求出符合运动模型的 像素区域,进而合并区域构成运动对象进行视频分割【39 1 。光流法是用于估计运 动参数的一个普遍的方法。光流的计算基于两个假设:任何物体点所观察到的亮 度是恒定不变的;图像平面内的邻近点以类似的方式进行移动【4 0 1 。假设有一个 连续图像,在t 时间间隔中( t 很小) ,图像上的物体点从( x ,y ) 位置移动到( x + ax ,y + ay ) 位置,根据上述假设,物体点的亮度在运动前后保持不变,可以得 至ui ( x ,y ,t ) = i ( x + a x ,y + a y ,t + a t ) 令址呻0 ,得到光流的基本方程为 丝生+ 旦塑+ 丝;o 缸出a y 出砸 ( 2 1 ) 令l 面0 ;j ,= 万0 ;一i 0 ;“;瓦d x ;,一石d y ( 2 2 ) 式( 2 2 ) 可以表示为 l u + l ,+ = 0 ( 2 3 ) 式( 2 3 ) 表示灰度对时间的变化率等于灰度空间梯度与光流速度的点积。 光流的计算就是对光流约束方程求解,即根据图像点的灰度值的梯度求光流分 量,其目标就是计算速度( u ,v ) 。 利用光流值对图像的连接部分进行标注,以达到分割运动区域的目的。把光 流大于一定值的像素点连接起来,这些连接起来的区域就是分割的目标。 对于光流场估计方法,比较典型的方法有:i k u s h iy o d a 和k a t s u h k i k o s a k a u e t 4 2 】使用光流在整个图像上光滑变化的假设来求解光流:a n d r e wd w i l s o n 和e d w a r dc u t r e l l 4 3 】假设在一个小的空间邻域上运动矢量保持恒定,然后使用加 权最小二乘法估计光流。但是由于存在孔径问题和遮挡问题【4 1 1 ,用光流法估计 的二维运动场往往是不确定的。 ( 2 ) 基于变化检测的分割 对于背景静止或者场景只有简单全局运动的视频图像,可以使用差分或运动 补偿的变化检测算法,其算法避免了逐点计算光流估计中的光流场,通过区分时 域上相邻两帧图像的变化和未变化区域,再将场景中的像素通过判决归属为不同 的区域就可以分割出运动对象。 m a l k a w i a 和s r i n i v a s a n r 【4 4 】通过分析累积差分图像( a c c u m u l a t i v e d i f f e r e n c ep i c t u r e ,a d p ) 从静止摄像机的场景中提取刚体运动体,它主要利用从 图像序列中恢复静态场景分量或整幅图像背景,运动对象的检测通过比较当前帧 与静止背景图像完成。 9 基于表观的二维手势识别方法研究 2 2 3 基于模板匹配 模板匹配是最常用的一种图像定位方法,该项方法可以在一幅图像中找到已 知的物体。就是以目标物体的特征数据为模板,拿已知的模板和原图像中同样大 小的一块区域去匹配,在搜索区域里寻找匹配点,以搜索窗口与目标物体形态特 征的匹配度作为送气来实现目标检测与跟踪。 衡量搜索窗口与模板图像的相关程度通常有以下4 种测度公式( 2 4 ) ( 2 7 ) 【4 5 1 ,公式中t i l j 】为手形模板的狄度矩阵,u r 是它的狄度均值,是它的均方 差,研讲,】为输入图像区域的灰度矩阵,它的灰度均值为u 胄,均方差为,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论