




已阅读5页,还剩78页未读, 继续免费阅读
(模式识别与智能系统专业论文)用于人机交互的视觉手势识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 基于视觉的手势识别,是让计算机能够像人那样看见并理解人的手势;它在人机交 互、虚拟现实、手语理解、远程控制等领域中有着广泛而重要的应用。以智能轮椅作为研 究平台,本文对视觉手势识别在人机交互中的应用做了深入的研究,包括手的特征选取、 手势跟踪、静态手势识别、动态手势理解等方面的内容。本文的主要工作和贡献有: 提出了一种改进的粒子滤波算法一结合均值漂移的粒子滤波m s e p f 。通过在粒子 滤波中加入均值漂移步骤,m s e p f 实现了更为有效的采样策略,提高了粒子集中 的有效粒子数,在一定程度上避免了传统粒子滤波的采样恶化和采样枯竭问题;同 时,m s e p f 不需要大量粒子来维持后验概率的多峰分布节约了所需粒子数,提高 了计算效率。 使用m s e p f 实现了智能轮椅入机交互场景下的实时手势跟踪。得益于粒子漂 移,m s e p f 使用了简单但有效的弱动态模型。我们首先选用肤色对手建模,并 且考虑到动态场景中光照变化会带来肤色改变,在跟踪过程中自适应更新肤色模 型。为了克服背景中存在的肤色干扰,我们提出了融合肤色和运动信息的观测模 型。m s e p f 中的粒子漂移也是基于肤色和运动信息进行。 基于方向直方图思想,提出使用手轮廓方向直方图来识别静态手势。在借助手势跟 踪算法定位图像中手的位置后,我们根据肤色分割出手的轮廓;然后计算手轮廓方 向直方图,通过与事先训练好的模型匹配来识别手势。 通过在时序模板中引入时空轨迹,提出了时序模板轨迹概念将从运动序列中跟踪 得到的手势运动轨迹压缩到单幅图像中。我们设计了一种两层分类器,通过时序模 板轨迹的形状和运动方向分析,实现对预先定义的七种动态手势的识别。实验表 明,时序模板轨迹优于一般的时序模板,对动态手势具有更好的可分性;且实现简 单,不需要复杂的训练。 在上述研究的基础上,设计并实现了智能轮椅基于视觉手势识别的外部控制接口, 作为轮椅多模态感知接口的一个重要组成部分。该实时手势控制接口在实际中工作 良好。 关键词:手势识别,视觉人机交互,视觉跟踪,轨迹分析,服务型机器人 第i 页 英文摘要 v i s i o n b a s e dh a n dg e s t u r er e c o g n i t i o nf o rh u m a n c o m p u t e ri n t e r a c t i o n a u t h o r :c m f e n gs h a n s u p e r v i s o r :t i e n i ut a n a b s t r a c t v i s i o n b a s e dh a n dg e s t u r er e c o g n i t i o n ,e n a b l i n gc o m p u t e rt os e ea n du n d e r s t a n dh a n dg e s t u r e sa sh u m a n sd o c o u l db ew i d e l ya p p l i e di na r e a ss u c h8 s v i r t u a lp l e a l i t y , h u m a nc o m p u t e ri n t e r a c t i o n ,s i g nl a n g u a g er e c o g n i t i o na n d t e l e r o b o t i c s i nt h ec o n t e x to fa ni n t e l l i g e n tw h e e l c h a i r ,w ec o n d u c t e dr e s e a r c h o nv i s i o n - b a s e dh a n dg e s t u r er e c o g n i t i o nf o rh u m a nc o m p u t e ri n t e r a c t i o n h a n d r e p r e s e n t a t i o n ) h a n dt r a c k i n g s t a t i c h a n d p o s t u r er e c o g n i t i o n ,a n dd y n a m i c h a n d k e s t u r er e c o g n i t i o na r ed i s c u s s e dh e r e t h em a i nc o n t r i b u t i o n so ft h i st h e s i sa r e s u m m a r i z e da sf o l l o w s : w ep r o p o s e d an o v e lt r a c k i n ga l g o r i t h m ,t h em e a ns h i f te m b e d d e dp a r t i c l e f i l t e rf m s e p f ) ,t oi m p r o v et h ee f f i c i e n c yo fc o n v e n t i o n “p a r t i c l ef i l t e r s b y e m b e d d i n gm e a ns h i f fi t e r a t i o ni np a r t i c l ef i l t e r t h em s e p fl c a d st om o r e e f f i c i e n ts a m p l i n g ,c o n c e n t r a t i n go np a r t i c l e sw i t hl a r g ew e i g h t s ;t h e r e f o r e ) t h ed e g e n e r a c yp r o b l e ma n ds a m p l i n gi m p o v e r i s h m e n tp r o b l e mo fp a r t i c l e f i l t e r sa r ec i r c u m v e n t e db yi n c r e a s i n gt h en u m b e ro fe f f i c i e n ts a m p l e s a t t h es 8 i n et i m e ,t h em s e p fd o e sn o tn e e dal a r g en u m b e ro fp a r t i c l e st o m a i n t a i nm u l t i p l em o d e so fp o s t e r i o rd e n s i t y ,h e n c es a v em u c h c o m p u t a t i o n c o s t r e 出t i m eh a n dt r a c k i n gi ni n t e l l i g e n tw h e e l c h a i re n v i r o n m e n tw a sa c h i e v e d b yu s i n gt h em s e p f as i m p l eb u te f f e c t i v ed y n a m i cm o d e l i su t i l i z e dh e r e d u et op a r t i c l es h i f t i n g w ef i r s ta d o p t e ds k i nc o l o rt or e p r e s e n tt h eh a n d a n dt h es k i nc o l o rm o d e li s a d a p t e df r a m e - b y f r a m ef o rs k i nc o l o rc o u l d c h a n g ed u et ov a r y i n gi l l u m i n a t i o n i no r d e rt oh a n d l et h es k i n - c o l o r e d d i s t r a c t o ri nb a c k g r o u n d ,w ep r o p o s e dt h eo b s e r v a t i o nm o d e lf u s i n gc o l o r a n dm o t i o nc u e s m e a ns h i f ti t e r a t i o ni 8a l s op e r f o r m e do ns k i nc o l o ra n d m o t i o no n e s b a s e do nt h ei d e ao fo r i e n t a t i o nh i s t o g r a m ,w ep r o p o s e do r i e n t a t i o nh i s t o g r a mo fh a n dc o n t o u rt or e p r e s e n th a n ds t a t i cp o s t u r e a f t e rh a n di s l o c a l i z e di nt h ei m a g e ,h a n dc o n t o u ri so b t a i n e db ys e g m e n t a t i o nb a s e do n s k i nc o l o r o r i e n t a t i o nh i s t o g r a mo fh a n dc o n t o u ri s c o m p u t e dt om a t c h w i t hm o d e l sl e a r n e df r o mt r a i n i n gs e tf o rf i n a lp o s t u r er e c o g n i t i o n w ep r e s e n t e dt h et e m p o r a lt e m p l a t eb a s e dt r a j e c t o r i e s ( t t b t ) b yi n t r o d u c i n gs p a t i o - t e m p o r a lt r a j e c t o r yi n t ot e m p o r a lt e m p l a t e st t b t c o l l a p s e 第i i 页 英文摘要 t h et r a c k e dh a n dm o t i o nt r a j e c t o r yi n t os t a t i ci m a g e at w o - l a y e rc l a s s i t i e r si sd e s i g n e dt or e c o g n i z et h ep r e d e f i n e ds e v e nd y n a m i cg e s t u r e s ,b a s e d o nt h es t a t i s t i c a ls h a p ea n dm o t i o no r i e n t a t i o na n a l y s i so ft t b t t t b t h a v eb e t t e rs e p a r a t ea b i l i t yt h a nt e m p o r a lt e m p l a t e sf o rd y n a m i cg e s t u r e s t h er e c o g n i t i o nm e t h o di s e a s yt oi m p l e m e n ta n dd o e sn o tn e e dc o m p l e x t r a i n i n g b ya p p l y i n gt h ea b o v ea l g o r i t h m so nt h ei n t e l l i g e n tw h e e l c h a i r ,w ed e s i g n e d a n di m p l e m e n t e dar e a lt i m eh a n dc o n t r o li n t e r f a c e ,w h i c hi s p a r to ft h e m u l t i m o d a lp e r c e p t u a li n t e r f a c eo ft h ei n t e l l i g e n tw h e e l c h a i r t h eh u m a n r o b o ti n t e r f a c eb a s e do i l h a n dg e s t u r er e c o g n i t i o nd e v e l o p e di nt h i st h e s i s w o r k sw e l li nr e a lw o r l d k e y w o r d s :h a n d g e s t u r er e c o g n i t i o n ,v i s i o n b a s e dh u m a nc o m p u t e ri n t e r a c t i o n v i s u a lt r a c k i n g ,t r a j e c t o r ya n a l y s i s ,i n t e l l i g e n ts e r v i c er o b o t s 第i i i 页 独创性声明 本人声明所递交的论文是我个人在导师指导下进行的研 究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确地说明并表示了谢意。 签名 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用 学位论文的规定,即:中国科学院自动化研究所有权保留送 交论文的复印件,允许论文被查阅和借阅;可以公布论文的 全部或部分内容, 论文。 签名 用于人机交互的视觉手势识别 第一章绪论 1 1 研究背景 自从计算机在上个世纪中叶诞生,人和计算机的交互界面问题就随之出现 并一直存在了。用户界面的发展,经历了一开始的以键盘为主要工具的文本用 户界面,和后来的以鼠标为主要工具的图形用户界面1 1 。虽然这中间也出现了 基于操纵杆( j o y s t i c k ) 等其他装置的交互方式,但是因为使用起来比较笨拙, 这些交互手段没有得到广泛使用。今天,人和计算机之间的交互仍主要是通过 键盘和鼠标进行。然而,这些需要操纵硬件的交互方式,对人而言,不方便流 畅,也不自然直观,且限制了人机交互的速度。随着计算机在人类生产生活中 的日益普及,未来信息社会将是“无处不在的计算”f u b i q u i o u sc o m p u t i n g ) $ f l “普及计算”( p e r v a s i v ec o m p u t i n g ) ;人和计算机的关系越来越紧密,人和计 算机交互的需求越来越多。在这种情况下,人们愈发迫切地需要友好、方便、 直观的人机交互方式。因而,新的智能化人机交互界面成为目前计算机相关学 科中的一个研究热点f 1 ,2 1 。 人的行为和动作,是人际之间自然的交互方式。如果计算机能够感知识别 人的行为和动作,那么我们就可以像和人交互那样和计算机自然方便地交互。 比如,我们对计算机做个喝水的动作,计算机能够知道我们渴了要喝水;我们 对计算机笑一笑,计算机能理解我们很开心。让计算机能够识别人的行为和动 作,这将会“给人机交互带来一场革命”3 1 。 为了让计算机能够感知人的行为,一开始人们尝试着在人的身上放置很多 传感器,利用这些传感器传回的数据来判断理解人的行为f 4 1 。比如,为了理 解舞蹈演员的动作,人们在舞蹈演员身上放置很多传感器。但是,这种主动感 知方式因为它的侵犯性和不易操作及代价昂贵,很难在实际中使用。研究人员 后来逐渐关注基于视觉信息的人的行为理解| 5 56 ,7 ,4 ,8 ,9 1 。基于视觉的行为理 解,是指通过视频采集设备拍摄人的行为序列,然后采用计算机视觉技术来分 析理解人的行为。这种基于视觉的被动感知方式具有非侵犯性、代价小、方便 使用等优点。计算机能够“看懂”人的行为和动作将使自然、直观、方 第1 页 第一章绪论 便、快捷的人机交互成为可能。 手势( h a n dg e s t u r e ) ,是指人手或手臂有目的或有意义的运动f 2 。作为人 类通用的肢体语言,手势是人们非常重要的交流方式。它不仅仅是对口语的补 充,其本身也是人类语言发展过程的一部分f 1 0 1 。人们自然而然希望能够使用 手势和计算机进行交互。比如人们对计算机摆摆手,计算机能够知道人们在 召唤它。基于手势的人机交互具有简便易行,形象生动,适应性强的优点。因 而,如何基于视觉信息对手势进行自动识别,并使之用于人机交互,近年来引 起研究人员的广泛关注f 2 ,1 ,1 0 1 。 除了是智能人机交互或智能感知接口的重要实现方式之外,视觉手势识别 在很多领域都有着重要的应用,比如,虚拟现实 3 1 、手语翻译f 1 1 1 、远程会 议 1 2 、远程控制 1 0 ,1 3 ,等等。另外,因为手在人身体构造中的重要地位, 人的大部分行为都与手的运动有关,可以借助对手的运动分析来理解人的行 为。因此,对视觉手势识别开展研究,将有助于一般意义上的人行为的视觉理 解。 5 1 2 研究思路 1 2 1 智能服务型机器人一智能轮椅 智能服务型机器人( i n t e l l i g e n ts e r v i c er o b o t s ) ,泛指广泛应用于人们日常 生产和生活的各个领域,能对外界环境进行感知,能与人进行交互,能判断、 理解人们下达的命令,并协助人们完成任务的机器人设备f 1 4 1 ,它有第三代机 器人之称。智能服务型机器人能够通过视觉、听觉等多模态感知接口与人自然 地交互,能够在各种复杂的非结构化场景中自适应导航。 智能轮椅( i n t e l l i g e n tw h e e l c h a i r ) ,是一种典型的智能服务型机器人,是 后者在人类生活中的典型应用。智能轮椅为残障人士和老年人而设计。据 中国残疾人联合会统计,迄今我国肢体残障的人士有8 7 7 万f 1 5 1 ;而1 9 9 9 年 的数据显示美国共有1 5 0 2 0 0 万轮椅用户,美国的三大轮椅制造商平均每周 向市场投放2 1 0 0 台轮椅f 1 4 1 。因此,有必要研究智能化的轮椅设备,借助科 学技术保证老年人和残障人士更高质量的生活。 :女f l b o r g o l t e 在一份报告中 指出:“保守估计,在欧洲至少会有超过2 0 0 万人将从个性化配置的智能轮 第2 页 用于人机交互的视觉手势识别 ;n ( i n d i v i d u a l l yc o n f i g u r a b l ei n t e l l i g e n tw h e e l c h a i r ) 中受益” 1 6 a 因而,对智能 轮椅开展研究,有很强的现实意义和较好的社会效益。自上世纪九十年代以 来,美、欧、日本等国相继投入大量资金,资助研制智能轮椅 1 4 】。国内也启 动了相关研究,比如,中国科学院自动化研究所模式识别国家重点实验室研制 的n l p r w h e e l c h a i r ( 1 1 ) 。 图1 - 1 智能轮椅n l p r w h e e l c h a i r 智能轮椅作为服务型机器人,需要具备友好自然的人机交互接1 3 ,比如, 能够昕懂人说的话,能够看懂人的姿态和表情。因而,智能人机接口是智能轮 椅的一个重要研究内容。语音识别技术已经被应用在智能轮椅中 1 7 。基于视 觉的交互方式也正逐渐用于轮椅的人杌交互中,这主要体现在利用人的头部姿 态【1 8 ,1 9 、手势 2 0 】或身体行为来对轮椅进行控制。 5 1 2 2 研究目的和思路 本文的研究目的,是基于具体的智能轮椅硬件平台,对基于视觉的手势识 别开展研究,并将研究结果作为智能轮椅控制系统的子模块加以封装,为智能 轮椅设计一个基于视觉手势识别的交互接口,使得人们可以通过手势与轮椅进 行友好方便的实时交互。 第3 页 第一章绪论 本文研究工作基于的智能轮椅是上述的n l p r w h e e l 出a i r ( 图i - i ) 。智能轮 椅n l p r w h e e l c h a i r 的原型是一台电动轮椅,由2 4 d c 蓄电池供电,后轮由两台 直流电机( 3 0 0 w 2 ) 驱动,最大车速7 k m h ,轮椅的转向由两个后轮的转差决 定。轮椅的控制结构框图如图1 2 f a ) 所示,整个系统分为控制部分和传感部分, 控制部分,由笔记本电脑、d a 转换通讯板、电机控制板、摄像机云台控制单 元等组成。电机控制板为p w m 脉宽调制板,可提供控制杆( j o y s t i c k ) 方式的控 制,并可与上层的控制单元通讯。摄像机云台有三个自由度( p a n ,t i l t ,z o o m l , 与笔记本以串口通讯方式连接,并提供专门的通讯协议。所有控制、识别 和决策算法都在笔记本电脑中完成。传感部分,由超声波阵列、超声波 顺序控制单元、红外传感阵列、摄像机、视频采集卡和麦克风等组成。 超声波阵列由3 类超声波传感器组成,其测重范围分别为2 0 0 2 0 0 0 m m ,5 0 0 4 0 0 0 m m ,8 0 0 6 0 0 0 m m ,超声波顺序控制单元的作用是保证传感器同步。红 外传感器的测量范围为o - 1 0 0 0 m m ,主要作用是补偿超声波传感器的测量死区。 轮椅上共有1 2 个红外传感器和6 个超声波传感器,呈放射状排列,基本上可以覆 盖轮椅的周边( 见图1 2 ( b ) ) 。视觉传感单元由摄像机和视频采集卡组成,由于采 集卡采用p c m c i a 接口,图像采集速率较慢,对于1 4 4 x 1 7 6 的s v i d e o 信号, 最高速率1 2 h z 。音频信号由普通麦克风采集。 ( a ) n l p r w h e e l c h 出的控制结构框图 ( b ) n l p i h e e l c h a i r 的传感器配置 图1 - 2 n l p r w h e e l c h a i r 的硬件体系结构 本文研究的核心问题是用于智能轮椅人机交互的视觉手势识别,这 第4 页 用于人机交互的视觉手势识别 包括手的特征选取( f e a t u r es e l e c t i o n ) 、手的检钡1 ( h a n dd e t e c t i o n ) 、手势跟 踪( h a n d l y a c k i n g ) 、静态手势识别( s t a t i ch a n dp o s t u r er e c o g n i t i o n ) 、动态手 势识别f d y n a m i ch a n dg e s t u r er e c o g n i t i o n ) 等相关问题。这些问题已经研究了 很多年,研究人员也已提出了一些成熟解决方法,并有了一些实际应用2 1 。但 是这些现有方法往往针对特定使用环境而设计,比如要求固定背景、特定光照 条件、固定视角或人机位置,等等。这些方法若被直接用于智能轮椅中的视觉 手势识别,将面临着下列挑战: 鲁棒性:轮椅可以在室内或室外随意走动,光照和背景都在变化,存在的 外界干扰比较严重。这些对算法的鲁棒性提出很高要求。 实时性:用户要利用手势对轮椅做实时控制:并且,轮椅在行进中不仅要 处理人机交互,还要完成自定位、避障等其他操作,这就要求轮椅的手势 控制接口具有实时性和低耗性的特点。 因此,有必要对智能轮椅的非确定性人机交互场景下的视觉手势识别相关问题 展开研究。 本文的研究思路是先对手势跟踪算法进行研究,寻求一种鲁棒有效的跟踪 算法,能够在背景嘈杂、变化光照、存在干扰情况下对手的运动做实时跟踪。 然后,在跟踪的基础上,确定手部图像,对手的静态姿势进行分析理解,用来 控制轮椅。同时,研究有效的动态手势识别方法,对手势运动轨迹做分析,使 轮椅能够识别动态手势。图1 3 是本文研究的视觉手势识别系统框图。 图1 - 3 视觉手势识别系统框图 第5 页 第一章绪论 1 3 本文的主要内容和结构 本文将对视觉手势识别相关问题进行研究。首先对视觉跟踪问题做了深入 研究,提出了改进的粒子滤波算法;接着把这种跟踪方法用于智能轮椅的实时 手势跟踪。然后介绍了基于轮廓方向直方图的静态手势识别方法。最后,提出 了一种新的时序模板轨迹分析方法理解动态手势。基于上述这些算法,设计实 现了智能轮椅的手势控制接口。论文的结构如下: 第一章是绪论。我们首先从计算机用户界面的发展和现状出发,介绍了视 觉手势识别的研究背景和意义;然后简介了本文研究基于的硬件平台和应 用环境:智能服务型机器人一智能轮椅:接着阐述了本文的研究目的和研 究思路。最后给出了本文的主要内容和整体结构。 第二章是对视觉手势识别国内外研究现状的系统综述,尤其重点介绍了最 近几年视觉手势识别领域的最新研究进展。这里依次围绕着手的建模和特 征选择、手势跟踪、静态手势识别、动态手势识别等方面对现有研究进行 分析、讨论和总结。 第三章讨论了本文提出的结合均值漂移的粒子滤波m s e p f 。我们首先分 析了当前两种主流的跟踪方法:粒子滤波和均值漂移:前者是模型驱动的 随机性寻优方法,可以处理非线性和非高斯情况下的视觉跟踪;而后者是 数据驱动的确定性寻优方法,是一种非参数的快速跟踪方法。两者各有优 缺点。m s e p f 通过加入均值漂移步骤对粒子滤波进行改进,实现了更有 效的采样策略,提高了粒子集中的有效粒子数目,缓解了恶化问题和粒子 枯竭问题:同时减少了所需粒子数,提高了运算效率。 第四章介绍了m s e p f 在智能轮椅的手势跟踪中的应用,给出了m s e p f 的 具体实现细节。我们首先设计了简单的弱动态模型,粒子漂移对其做补 偿。接着,我们提出了融合肤色和运动信息的观测模型。为了处理光照变 化带来的肤色改变,肤色模型在跟踪过程自适应更新。然后,我们给出了 基于肤色和运动信息的均值漂移算法。大量实验表明,m s e p f 能够对轮 椅场景下的手势做实时鲁棒的跟踪,优于均值漂移跟踪算法和传统的粒子 滤波。 第6 页 用于入机交互的视觉手势识别 第五章分析了基于手轮廓方向直方图的静态手势识别算法。在手势跟踪结 果上,我们首先利用肤色信息分割得到手的轮廓;然后以手轮廓的方向直 方图为特征,对不同的静态手势建模;最后对输入的静态手势利用模型匹 配进行识别。实验表明,这种简单的静态手势识别方法,在实际的智能轮 椅人机交互中非常有效。 第六章提出了时序模板轨迹,并以此实现了动态手势识别。我们首先分析 了基于轨迹分析的识别方法和不基于轨迹的时序模板方法。然后,通过在 时序模板中引入时空轨迹,我们提出了时序模板轨迹t t b t 。时序模板轨 迹把手势运动轨迹压缩在单帧图像中。借助对时序模板的形状和运动方向 分析,我们所实现对预先定义的七种手势的有效识别。实验表明,这种算 法比一般时序模板可分性好,且不需要复杂的训练,实现简单。 第七章是结束语。总结了本文的工作,并对下一步的工作做了展望。 第7 页 第二章视觉手势识别的研究现状 第二章视觉手势识别的研究现状 2 1 引言 在开展视觉手势识别的研究之前,有必要对这个领域的国内外研究现状做 一清楚的了解。本章将系统综述视觉手势识别的研究现状,尤其重点讨论最近 今年这方面研究的新进展。5 2 2 首先对手势识别做简单介绍,给出手势的定义 和分类方法,以及手势识别的发展历史:并介绍视觉手势识别系统的构成。然 后,在2 3 中讨论二维图像平面和三维空间手的表示和建模方法。手势跟踪是 视觉手势识别的重要前提,5 2 4 首先分析手的运动和动态模型,然后对手势跟 踪的各种方法做介绍和分析。接下来,2 5 和5 2 6 分别讨论静态手势识别和动 态手势识别的各种方法和研究进展。 泣2 手势识别简介 2 2 1 手势的定义和分类 手势,泛指手或手臂有意义的或有目的的运动。在生物学和社会学 中,手势没有严格的定义f 1 0 】。生物学家把手势广泛界定为“a l lk i n d so f i n s t a n c e sw h e r ea ni n d i v i d u a le n g a g e si nm o v e m e n t s w h o s ec o m m u n i c a t i v ei n t e n t i s p a r a m o u n t ,m a n i f e s t ,a n do p e n l ya c k n o w l e d g e d ” 2 1 。作为人类通用的肢体 语言,手势是人类重要的交流方式:它不仅仅是对口语的补充,其本身也是人 类语言发展过程的一部分【l o 。n e s p o u l o u s 等人在【2 1 】中给出了生物学和社会学 中手势的各种分类方法: 口语相关( g e 8 t i c u l a t i o n ) 手势和自主( a u t o n o m o l l s ) 手势:前者是指和口语 相关联的手势,而后者则是功能和口语无关的手势。自主手势本身也可以 组成用来交流的手势,比如,手语( s i g l ll a n g u a g e ) 。 动作( a c t ) 手势和符号( s y m b 0 1 ) 手势:前者是指只单纯表示动作的手势, 而后者是表示为符号的手势。动作手势在实际中有时也可以表示为符号。 第8 页 用于人机交互的视觉手势识别 模糊( o p a c i t y ) 手势和透明( n a n s p a r e n c y ) 手势:这是从手势的通用性角度 分类。透明手势是指在不同的文化背景中含义相同的手势,而后者则相 反。实际上,绝大多数手势的含义都和它所处的文化背景有关。 自主记号语言( a u t o n o m o u ss e m i o t i c ) 手势和多记号语言( m u l 珏s e m i o t i c ) 手 势:前者是指本身就是自主记号语言系统的元素的手势,比如手语;后者 是指伴随着其他语言的手势。 离心( c e n t r i f u g a l ) 手势和向d , ( c e n t r i p e t a l ) 手势:这是根据手势的目的性分 类。如果手势指向具体的物体,则称为向心手势:否则称为离心手势。 任意( a r b i t r a r y ) 手势、模拟( m i m e t i c ) 手势和直观( d e i c t i c ) 手势:模拟手势 是指使用手势来表示物体的形状或其它有代表性的特征,这类手势一般都 是上述透明手势。直观手势一般都指向重要的物体,在特定环境中,这种 手势也是透明的。任意手势是指其含义必须通过学习才能知道的手势,这 类手势一般是模糊手势。 一一一一 g m r t u m ou n m k m l l o n a l k m 啪 。一_ ? 。? 、“、? j 。 、 附币恻”c ! = ! ! 翼 舢 。 ,、 ,- 、 m b n e “c h k i i c 舳蛐i 脯h - 岣 图2 1 作为人机接口的手势的分类 2 j 在研究手势识别作为交互接口的领域,一般认为手势是手或者手和手臂结 合产生的姿势或者动作。p a v l o v i c 等人【2 1 给出了人机交互中手势的分类( 如图2 一 l 所示) :手势被分为交流型( c o m m u n i c a t i 、,e ) 手势和操作型( m a n i p u l a t i v e ) 手 势。交流型手势又可以分为符号- ( s y m b o l s ) 手势和动作( a c t s ) 手势这是因 为手势通过手或肢体的静态姿势,或者手或肢体的时空运动来传递信息。 符号手势和动作手势还可有更细的划分。w u 等人f 2 2 把手势分为四类: 第9 页 第二章视觉手势识别的研究现状 会话( c o n v e r 8 a t l 。n a l ) 手势、控制( c o n t r o l l i n g ) 手势、操作( m a n i p u l a t i v e ) 手势和 交流( c o m m u n i c a t i v e ) 手势。在视觉手势识别中,手势通常被简单地分为静 态手势( s t a t i ch a r dp 0 8 t 眦e ) 和动态手势( d y n a m i ch a n dg e s t u r e ) ,分别被计 算机识别为符号命令( s y m b o l i cc o m m a n d ) 和轨迹运动命令( n a j e c t o r ym o t i o n c o m a m n d ) 。 2 2 2 手势识别的发展 手势识别研究目的,是设计实现能够识别人的特定手势,并以此来传递信 息或者控制设备的系统f 1 0 。比如,借助手势识别技术实现人机交互。 手势识别的研究已经有四十多年的历史。最早的手势识别研究,是研究基 于笔或鼠标之类的二维输入设备的书写识别2 3 1 。书写可以看作是手势,因为 书写就是手在二维平面上的手势。尤其在线书写( 也称动态书写) 识别和动态手 势识别是同问题,都是分析时空运动轨迹。b l k 等人f 2 4 ,2 5 研究动态手势 识别就是针对人拿着激光笔在白板上书写形成的手势进行的。1 9 6 3 年出现的 基于光笔( lg h tp e n - b a s e d j , 的输入装置:r a n d 写字板,是最早的书写识别研 究。1 9 6 9 年,一种基于手写识别的文本编辑器c a m i c h a e lc o l e m a n 在c m u 开发出 来。1 9 7 0 年之后,这种书写装置出现在商业产品中。1 9 9 2 年,a p p l en e w t o n 把 书写识别用于个人数字助理p d a 中。现在,书写识别广泛地用于各种数码产品 中。 严格意义的手势识别开始于基于跟踪器( a c k e r , b a s e d ) 的手势识别,就是 通过在手上放置传感器,利用传感器传回的数据来进行的手势识别。典型的装 置是数据手套( d 乱ag l o v e ) f 2 3 卜这种方式能够获得手势的精确数据,对手势做 准确地分析。尽管这种基于被动感知方式的手势识别在特定应用场合得到有效 使用,但是因为它的侵犯性和操作复杂性,很难在实际中广泛使用。研究人员 逐渐关注主动感知方式的基于视觉的手势识别。 视觉手势识别,是指对视频采集设备拍摄到的包含手势的图像序列,采 用计算机视觉技术来处理,最终识别手势。视觉手势识别在1 9 9 2 - 丰左右才出 现2 6 1 ,因为这时有了彩色视频采集设备,可以用来实时拍摄手势图像序列。 在这之后,视觉手势识别得到广泛地关注,研究人员对视觉手势识别做了深入 地研究f 1 0 ,2 ,1 ,2 7 ,2 6 1 。因为人手变形复杂,手势具有多样性和多义性:视觉问 第1 0 页 用于人机交互的视觉手势识别 题本身存在各种困难,这些使得视觉手势识别极富挑战性。研究人员一开始通 过在人手上放置特定颜色的标( m a x k e r ) 来简化问题。但是这种方法不方便用 于在实际系统中,因此现在主要研究的是不使用特定标( m a r k e r - f r e e ) 的视觉 手势识别。 手势的含义依赖于具体的文化背景和应用场景,所以很难有统一的手势集 合。一般实现手势识别系统时,先针对具体应用定义特定的手势集合。一个完 整的视觉手势识别系统,一般包含下面三个部分: 手的检测与跟踪:在手势识别之前,需要将待处理对象一手,从图像或图 像序列中检测出来。这是手势识别的前提,包括手的检测和手的跟踪。 静态手势识别:针对从图像中检测并分割出来的手,可以识别手的姿势。 手的静态姿势,本身具有丰富的含义;同时可以看作动态手势特征状态空 间中的状态f 1 4 ,静态姿势识别有助于下面的动态手势分析。 动态手势识别:通过对图像序列中手势运动的跟踪,得到手的运动轨迹。 研究手势在时间空间或特征状态空间的运动轨迹,可以识别不同的动态手 势。 在本章的后面,将分别从这三个方面来介绍视觉手势识别的研究现状。在对手 势做跟踪识别之前,需要先选择手的特征,因此下面首先讨论手的建模和表 示。 2 3 手的建模和表示 图像序列中包含的手势,是三维空间中的手势在图像平面的投影。对手势 的分析可以直接基于图像中手的二维表示进行:也可以从二维图象恢复到三维 空间,基于手的三维模型或三维数据进行。 2 3 1 二维图像中手的表示 图像中的手,可以使用手在图像平面投影的几何特征,如轮s g ( c o n t o a r ) 【2 8 ,2 9 ,3 0 ,3 1 ,3 2 ,3 3 、指尖( f i n g e r t i p s ) 和手指的方向( f i n g e rd i r e c t i o n s ) 3 4 等;或 第1 l 页 第二章视觉手势识别的研究现状 非几何特征,如颜色( c o l o r ) 3 5 ,3 3 ,3 6 、纹理- ( t e x t u r e ) 2 0 ,3 7 、运动( m o t i o n ) 、 表现等,来表示。 手的轮廓,是一种很有效的特征2 8 ,2 9 ,3 0 ,3 1 ,3 2 ,3 3 1 。很多算法中采用点 分布模型( p o i n td i s t r i b u t i o nm o d e l ,p d m ) 和参数化b 样条曲线( p a r a m e t e r i z e d b s p l i n ec u r v e ) f 3 2 来模拟手的形状。在【3 3 】中使用傅立叶描述子( f o u r i e r d i s c r i p t o r s ) 来描述手的形状。因为指尖是手非常明显的集合特征,有些算法也 以指尖作为手的特征,比如,o k a 等人f 3 4 1 提出基于指尖进行手势跟踪。 肤色( s k i nc o l o r ) ,是手非常明显的特征,因此是手势分析算法中一种屉常 用的特征f 3 5 ,3 3 ,3 6 1 。研究表明,尽管各人种表现为不同肤色,但在特定的颜色 空间内,人体肤色的差异不大 3 8 l ,可以在颜色空间对人体肤色进行建模3 9 1 。 肤色在颜色空间中的建模方法分为两类3 1 :非参数化( n o n p a r a m e t r i c ) 方法和参 数化( p a r a m e t r i c ) 方法。菲参数化方法,一般使用颜色宣方图来对肤色进行建 模 4 0 ,3 9 。这里面临如何对颜色进行量化的问题。另一种非参数化的方法是使 用自组织映射方法【4 0 非监督地近似肤色分布。参数化的方法,一般采用高斯 分布或多高斯分布来表示肤色模型4 小利用e m 算法从训练数据中求得模型参 数。 选择肤色作为特征,存在一些困难。首先是肤色样本采集问题。为了实现 用户独立性,手势分析算法必须能够对各人种用户进行处理。这要求从大量的 肤色样本中学习肤色模型;而收集大型的肤色样本库是非常困难的f 3 1 。另外 一个难题是光照对肤色的影响。众所周知,颜色对光照变化敏感。由于光照变 化,肤色的分布会出现漂移。对于这个问题,可以通过加以约束来避免,比如 限制背景和衣服的颜色:但是这在实际的应用系统中很难满足。现在更多的算 法是采用自适应肤色模型f 4 0 ,4 1 ,4 2 1 ,通过对肤色模型进行自适应调整来克服光 照的影响。r a j a 等人f 4 1 1 使用混合高斯模型在h s 空间表示肤色分布,在跟踪过 程中利用新一帧的肤色数据来对肤色模型进行线性插值来更新肤色模型。w u 等 人f 4 0 ? 使用自组织映射的转换来更新肤色模型。t s a p 等人在f 4 3 l 中采用了球形 坐标变化( s p h e r i c a lc o o r d i n a t et r a n s f o r m ,s c t ) 来处理肤色,把色彩和亮度分 开来,然后归化色彩使得肤色对光照具有一定不变性。 纹理特征是指图像中包含的频率信息。由于人手图像中包含着一定的频率 信息,因而可以使用纹理作为手的特征【2 0 ,3 7 】。t r i e s c h 等人【2 0 ,3 7 】用图形化 第1 2 页 用于人机交互的视觉手势识别 的g a b o rj e t sm o d e l 实现复杂背景下不同手的姿势的识别。手势分析研究的是 序列图像,因此运动信息也可以作为手的特征,比如,s h a h 等人f 4 2 1 利用帧闯 差分检测手部区域。表现特征是指图像中包含的灰度信息,可以将整个手部图 像作为手的表现特征4 4 1 。 在实际系统中,每种特征都有其弱点,比如,手的形状特征,往往由于自 遮挡变得不可用或不可靠 i 】。单纯依靠某一种特征是不可靠的。所以,很多算 法采用多种特征融合( n l s i o n ) 的方法 2 8 ,4 5 ,4 6 ,4 2 来表示手。 现实世界中的物体,在不同尺度下观测到的是不同的图像特征,即不同 图像特征在不同的尺度下可见。因而,当构造物体模型来表示物体时,应 该在不同尺度下提取不同的图像特征,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租赁公司年终总结汇报报告
- 福建省晋江市潘径中学2026届英语九年级第一学期期末教学质量检测模拟试题含解析
- 云南省镇康县第一中学2024-2025学年高二上学期11月月考历史试卷
- 2025年轨道车司机(高级技师)职业技能鉴定考试题库(含答案)
- 江苏省江阴市长寿中学2026届九上化学期中预测试题含解析
- 2026届山西省晋中市九年级化学第一学期期中质量跟踪监视试题含解析
- 柳州市重点中学2026届九年级化学第一学期期中检测试题含解析
- 租赁场地开办幼儿园合同范本(包含装修条款)
- 高层建筑空调系统销售、安装及安全运行合同
- 汽车行业售后担保合同质量保障与消费者权益保护
- 质量分析工具-5W1H分析法课件
- 《运动与位置》(31张)-完整版课件
- 五年级上册数学课件-2.1 轴对称 ︳青岛版 (共17张PPT)
- GJB9001C-2017质量管理体系检查内容的内部审核检查表【含检查内容】
- 半导体数字集成电路测试技术概要
- 心包积液以及心包填塞
- 商业银行内部审计技术与方法
- 河道清淤整治工程施工组织设计方案
- 论信息技术对公共行政的影响分析研究行政管理专业
- 技术部薪资等级晋升制度76799
- 生物化学:第2章 核酸的结构与功能
评论
0/150
提交评论