(计算机科学与技术专业论文)基于动态手势的人机交互系统研究.pdf_第1页
(计算机科学与技术专业论文)基于动态手势的人机交互系统研究.pdf_第2页
(计算机科学与技术专业论文)基于动态手势的人机交互系统研究.pdf_第3页
(计算机科学与技术专业论文)基于动态手势的人机交互系统研究.pdf_第4页
(计算机科学与技术专业论文)基于动态手势的人机交互系统研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机科学与技术专业论文)基于动态手势的人机交互系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 计算机在各个应用领域的不断延伸使得现有人机交互通道的瓶颈效应日益 突出,普适计算以及以人为本的交互理念促使自然的人机交互成为当前计算机 应用研究的重要方向。手势作为人之间的一种常用且具有较强表达力的交互方 式自然而然地受到研究者们的关注。将手势引入人机交互过程将有效地拓宽人 机交互通道且大大地提升交互体验。 以手势数据采集方式为划分标准,当前基于手势的人机交互的研究可分为 基于数据手套、基于机器视觉、基于肌电信号和基于惯性传感器等多种方案。 这些方案各具优势,然而综合比较方案对人、机器以及环境等因素的适应性后, 基于惯性传感器的方案突显出较大优势。本文的研究采用加速度传感器采集手 部在空间中运动的加速度数据,对这些原始数据进行处理可以计算出手在空间 的运动轨迹。手势特征提取使用了方向矢量量化的方法,该方法能够大大降低 后续处理的时空复杂度。手势识别采用了隐马尔科夫模型,每个具体手势均建 立了相应的模型。为分割出连续输入流中的各个手势,引入了门限模型作为分 割器。门限模型不仅能分割出各原子手势,而且能找出最匹配的目标手势模型。 为提高识别精度,加速度信号在提取手势特征前进行了去噪处理,这里采用了 一个改进的卡尔曼滤波算法来滤除系统噪声。 继解决手势识别的问题后,本文讨论了双手人机交互设计的问题。从探讨 双手交互理论入手,逐一讨论了双手交互的行为学基础、心理学基础和双手交 互的时序特征。以双手交互理论为基础,探讨了手势库设计中人、机两个对立 层面的参数协调问题。 在理论研究之后,本文对所提出的理论和方法进行了实验验证。验证用例 使用的是图片浏览器,该用例支持使用预定义的手势控制图片的加载、平移、 缩放和旋转等操作,初步验证了基于手势的自然人机交互的可行性。 关键词:人机交互,手势识别,加速度传感器,姿态解算,双手交互模型 a b s t r a c t f o rt h ec o n t i n u o u se x p a n d i n go fc o m p u t e ra p p l i c a t i o n si nv a r i o u sa r e a ,t h eb o 砌e n e c ke a e c to f e x i s t i n gh u m a n - c o m p u t e ri m e r a c t i o nc h a f u l e lh a sb e c o m em o r ea n dm o r e p r o m i n e n t n o w a d a y s ,a st h ep r o m o t i n go fp e r v a s i v ec o m p u t i n ga n dp e o p l e o r i e n t e d c o n c e p t ,n a t u r a lh c ib e c o m e sa ni m p o n a n tr e s e a r c ha r e ao fc o m p u t e ra p p l i c a t i o n s g e s t u r ei sac o m m o na d o p t e da n de x p r e s s i v ew a yf o rc o m m 岫i c a t i n gw i t he a c h o t h e r , t h e r e f o ri ta r o u s e dt h ec o n c e mo fr e s e a r c h e r s i ti sn od o u b tt l l a ti n t r o d u c eg e s t u r ei n t o h c lw i l le 疏c t i v e l yb r o a d e nt h eh c ic h a 肌e la n dg r e a t l ye i l h a n c et h eu s e re x p e r i e n c e t a k et h eg e s t u r es i g n a la c q u i s i t i o nm e t h o da st h ec l a s s i f i c a t i o ns t a n d a r d ,t h ec u r - r e n tg e s t u r e - b a s e dh 啪a n d c o m p u t e ri n t e r a c t i o nr e s e a r c hc a nb ec l a s s i f i e da sf o u rm a i n c a t e g o r i e s ,d a t ag l o v eb a s e d ,m a c h i n ev i s i o nb a s e d ,s e m gb a s e da n di n e r t i as e n s o r b a s e d a l t h o u 曲t h e s es o l u t i o n sh a v et h e i ru n i q u ea d v a l l t a g e s ,t h ei n e r t i as e n s o r b a s e d s o l u t i o nh a sah i 曲l i 曲t sa d v a n t a g e 、h i l ec o n s i d e r i n gt h eh u m a n ,m a c h i n ea i l de n v i r o n m e mf a c t o r sc o m p r e h e n s i v l y t h i ss t u d yu s e sa c c e l e r o m e t e r st oc o l l e c tt h eh a n d m o v e m e n td a t a t h et r a je c t o r yo fm o v i n gh a i l dc a nb eo b t a i n e db yp r o c e s s i n gt h er a w a c c e l e r a t i o nd a t a av e c t o rq u a n t i z a t i o nm e t h o di sa d o p t e dt oe x t r a c tt h ef e a t u r eo ft h e g e s t u r e t h em e t h o dc a ng r e a t l yr e d u c et l l et i m ea n ds p a c ec o m p l e x i t ) ro ff o l l o w - u p 仃i :a 恤e n t s h m mi su s e dt or e c o g n i z et h eg e s t u r e ,t h e r ei sam o d e lc o r r e s p o n d i n ge a c h s p e c i f i cg e s t u r e t bp a n i t i o ne a c hg e s t u r ee m b e d d e d i nt h ec o n t i n u o u si n p u ts 骶锄, t h r e s h o l dm o d e l i s 硫r o d u c e da sad i v i d e r t h em o d e lc a nn o to n l ys e g m e n tt h ea t o m g e s t u r e s ,b u ta l s oc a nf i n dt h eb e s tm a t c ho f t h et a l 苫e tg e s t u l em o d e l f o ri m p r o v i n gt h e i d e n t i f i c a t i o na c c u r a c y ,t h ea c c e l e r a t i o ns i g n a l i sd e n o i s e db e f o r ee x t r a c t i n gt l l eg e s t u r e f e a t u r e h e r eu s e sam o d i f i e dk a l m a l lf i l t e r f o l l o w i n gt h er e s o l v e di s s u eo f g e s t u r er e c o g n i t i o n ,t h et h e s i sd i s c u s s e s t h ed e s i g i l o fd u a l h a n dh c i s t a n i n gf b mt h et h e o 巧o fd u a l - h a n dh c i ,t h ei s s u e so fb e h a v i o r b a s i s ,p s y c h o l o g yb a s i sa n d t h et i m i n gc h a r a c t e r i s t i c so fd u a l h a n di n t e r a c t i o na r ed i s - s i l s e d t a k i n gt h ed u a l - h a n d i n t e r a c t i o nt h e o 叮a st h eb a s i s ,t h ep a r 锄e t e r sc o o r d i n a t i o n o fg e s t l j i el i b r a 巧d e s i g ni sd i s s u s e d a 髓rt h et l l e o r e t i c a is t u d y ,t h ep r o p o s e dt h e 0 9a n dm e t h o dh a sb e e nt e s t e dw 汕a u s e c a s e t h eu s e c a s ei sai m a g ev i e w e r i ts u p p o r t sa s e to f p r e d e f i n e dg e s t u r et oc a n y l i 武汉理工大学硕士学位论文 o u tt h ec o n t r o lc o i n 】m a n do fl o a d i n g ,位m s l a t i o n ,z o o m i n ga i l dr o t a t i n g t l i su s e c a s e p r e l i m i n a 巧v a l i d a t e st h ef e a s i b i l i 够o fg e s t u r e - b a s e dn a t u r a lh c i k e yw o r d s :h u m a n c o m p u t e ri n t e r a c t i o n ,g e s t u r er e c o g n i t i o n ,a c c e l e r o m e t e r , a t t i t u d er e s o l v i n g ,d u a l h a n di n t e r a c t i o nm o d e l 一l 一 l c d h c i c r t g u i w 1 m p m e m s h m m d t w f n n a n n s e m g r f i d a c m p c b i s m 主要符号对照表 液晶显示器( l i q u i dc r y s t a ld i s p l a y ) 人机交互( h u m a n c o m p u t e ri n t e r a c t i o n ) 阴极射线管( c a t h o d er a yt u b e ) 图形用户界面( g r a p h i c su s e ri n t e r f a c e ) 窗口图标菜单一指针( w i n d o w i c o n m e n u p o i n t e r ) 微机电系统( m i c r oe l e c t r om e c h a n i c a ls y s t e m s ) 隐马尔科夫模型( h i d e nm a r k o vm o d e l s ) 动态时空规整( d y n 锄i ct i m ew a 印i n g ) 模糊神经网络( f u z 巧n e u r a ln e t w o r k ) 人工神经网络( a n i f i c a ln e u r a ln e 帆o r k ) 表面肌电( s u r f a c ee l e c t r o m y o g r a p h y ) 射频识别( r a d i of r e q u e n c yl d e n t i f i c a t i o n ) 美国计算机协会( a s s o c i a t i o nf o rc o m p u t i n gm a c h i n e r y ) 印刷电路板( p r i n t e dc i r c u i tb o a r d ) 工业、科学、医学( i n d u s 时s c i e n c em e d i c a l ) 一,n 一 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和 致谢的地方外,论文中不包含其他人已经发表或撰写过的研究 成果,也不包含为获得武汉理工大学或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规 定,即学校有权保留并向国家有关部门或机构送交论文的复印 件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学 可以将本学位论文的全部内容编入有关数据库进行检索,可以 采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用 或收录本学位论文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :哆f 1 缈导师( 签名) :陬专日期:知p 广 1 1引言 第1 章绪论 如同奇客t 们心醉神迷于坐在配备了大尺寸l c d 和符合人体工学的键盘鼠 标前回忆起旧日像交换地下出版物一样交换多行八孔纸带的场景 ,笔者也十分 怀念在盒子计算机上扳动一组开关来输入计算数列和的代码时的那种心神跟随 门电路翻转开闭的美好体验。纵然那些旧日时光在记忆中沉淀得如冬日暖阳般 令人无比眷恋,人机交互的手段却不曾止步不前。这个星球上无数的实验室和 蛰居在这些实验室里的研究者们每日都在穷尽他们的心智和耗费他们的金钱来 推动人机交互技术向前发展。他们应该都怀揣着同一个梦想,那就是要改变现 有的人机关系,让人机交互向着更加灵活、高效、透明和自然的方向发展。 毋庸置疑,计算机在人们的工作和生活中扮演的角色越来越重要。无论是 忙碌的生产线上的机械手,还是邀游在深空的探测器,再或者是客厅里的游戏 机,计算机无疑都占据着相当核心的地位。然而令人感到尴尬的是,考察这些 场景我们可以发现,作为人类工具的计算机在某种程度上却在奴役着人类。它 们迫使人类端坐在控制台前冒着患上腕管综合症 和颈椎劳损的危险日复一日地 挥舞鼠标和敲击键盘。计算机的操作者不得不将自然友好的交互本能压制在一 种怪异而机械的方式下,极力表现得像个顺从的仆人一样迎合着主人的偏好。 人机间的交互之所以存在这样怪异的方式,是因为现在的计算机闻不可辨音视 不能识形,人与人之间交流所采用的语音和动作等自然交互手段不能被计算机 所识别,因此只能降格让操作者来适应计算机的交互手段并不可避免地被其绑 架。显而易见的是,现有的人机交互方式在效率和效能两方面都是低下的, 抛开学习键盘鼠标等输入设备的使用所投入的时间不计,只考虑交互过程,我 们亦不难得出这个结论。操作者在构思出计算意图后,需要翻译成以间接方式 t 音译白英语单词g e e k ,据维幕百科,这个词指智力超群,善于钻研但不懂与人交往的学者或知识分 子,计算机和网络兴起后义常片i 来形容对技术有狂热兴趣并投入大毋时间钻研的人。 见s c o nr o s e n b e r 所著d ,p 口小以g 加c d 如? 丁订dd 0 _ 弛订p ,昭阳脚,l e 憾豫憎p 拖d 憾t7 3 28 “黟,册dd 舵 i e 配s tf o rt h n n s c e n d e h ts o f i w c 口冤。章。 这是笔者念本科时住“计算机组成原理”课程巾做的课程实验:编写一个从l 加到l o o 的稃序并人 工翻泽成机器指令,然后通过扳动开关的方式将指令输入由fj 电路芯片搭建的一台计算机里,计算的最终 结果由组l e d 输出。 俗称“鼠标手”。 武汉理工大学硕士学位论文 描述的键盘的敲击或者鼠标光标的移动点击,计算机接受这些输入后才执行相 应计算。在一些重复机械或者不涉及创造性的应用场景中,这样的交互手段尚 可接受,然而在这些场景之外,由于计算意图的翻译而造成的思维切换对创造 力的发挥必然会造成一定的削弱。 无论是在科幻影视的光影中t 还是在现实世界的重力场下,操作者们亟需摆 脱这种原始的弥漫着笨拙机械气息的交互方式。基于手势的人机交互的发展, 将操作者从控制台前解放出来,摆脱机器的奴役,重获久违的自由。失衡的人 机关系必将因为这类新的交互方式的发展而回归到正常状态中来! 1 2 人机交互的发展历程 人机交互( h u m a n c o m p u t e ri n t e r a c t i o n ) 是研究用户、计算机以及他们间 相互影响的技术。纵观人机交互发展的整个历史,不难发现这是一个从人适应 计算机到计算机转而渐渐来适应人的发展史。【l 】 回顾现代电子计算机诞生以来短短的6 0 余年时光,我们可以看到人机交互 方式已经历经了三个发展阶段,目前正向第四阶段迈进。第一个阶段是早期的 手工作业阶段,人机交互主要通过穿孔纸带进行,其交互过程的效率和直观性 均非常低。进入第二代作业控制语言和交互命令语言阶段后,键盘和c r t 显示 器被引入作为输入输出设备,交互效率得到提升。随后发展起来的图形用户界 面和鼠标以其直观性使得交互效率进一步提升。第三代g u i 界面的桌面隐喻、 w i m p 技术和所见即所得等特性大大减少了用户的记忆的键盘敲击负担,使得 信息产业得到空前的发展。但是这些交互方式由于计算机应用领域的不断扩大 其局限性也日益明显,特别是在虚拟现实和可穿戴计算等应用场景下其局限性 尤为凸显。在计算设备小型化和计算机应用向各个领域渗透的背景下,加上普 适计算概念的推动,新的交互方式正引起越来越多的关注。新一代的交互方式 以多通道和多媒体为特征,将使人机交互变得更加智能。这里的多通道指利用 人的多种感觉通道和动作通道,如语音、姿势、动作、眼动、唇动、表情和意 识等。这种交互方式实现了以并行、非精确的方式与计算机进行交互,从而大 幅度提高了人机交互的自然性和交互效率。 在新一代人机交互方式的研究中,众多研究者和应用厂商都投入了极 t 最令人称道的是梦工厂和二十世纪福克斯f2 0 0 2 年出品的由汤姆克鲁斯主演的少数派报告,片 中犯罪预测簟家通过存空中挥舞手势与超级计算机交互的场景堪称经典。类似的还有& 口,g 口伦彳f 肠 f 括科 幻剧集里某一集中m a c k e y 博上穷尽一生精力计算时问倒流的那个场景。其中后者止是笔者开始本文的研 究的上要动凶之一。 一2 一 武汉理工大学硕士学位论文 大的热情和资源开展新技术的研发工作。在语音识别技术上,i b m 公司的 v i a v b i c e 产品已经具备相当好的实用性,同样微软公司也进行了很多卓有成 效的工作。其m i c r o s o r o f j f i c e 办公套件自x p 版开始便集成了一个语音识别引 擎,通过该引擎可以进行文字输入和发出语音命令操作o f j f i c e 套件。在微软公 司最新的操作系统w i n d o w s 7 中也集成了一个语音引擎,该引擎使得用户从只 能使用语音操作某个应用扩展到操作整个操作系统。在语音交互发展的同时, 触摸屏交互技术也在不断发展。特别是随着移动设备的日新月异,触摸技术已 经从单点触摸发展到多点触摸。多点触摸技术应用最成功的当属a p p l e 公司的 i p h o n e 针,其多点触摸技术能够支持用户使用手势进行缩放图片、旋转图片等 操作。最近,微软也推出了基于多点触摸技术的概念产品s u r f a c e 。它可以让 用户在水平台面上使用手或者其他物体与计算机交互。在娱乐平台上,任天堂 公司于2 0 0 6 年推出的、m i 游戏机摒弃了传统的游戏摇杆而代之以植入多种 传感器的新式控制器,玩家可以使用身体或者肢体的动作来控制游戏角色的动 作。这种方式给玩家带来了前所未有的新体验,因此该游戏平台在商业上取得 了极大的成功。在商务领域,用于演讲时p o w e r p o i n t 固遥控的无线设备更是有 众多生产商提供功能相当完备的产品。广大技术爱好者在人机交互方面同样也 有一些颇具创造力的尝试,如用简单的摄像头和平板玻璃制作的多点触摸装置 i ,或者将w i i s r e m o t e 改装以控制机器人或者控制p c 的鼠标i 等等。 从上述厂商的努力以及取得的成就不难看出,当前人机交互正向着愈来愈 自由、愈来愈人本化的方向发展。交互输入模式由穿孔纸带、键盘等字符设备 的一维模式发展到鼠标等指点设备的二维模式,目前正向着三维全空间模式的 方向发展。交互输入模式遵循此进步路线可以说是应用需求所带来的必然结果。 在计算机出现早期,作为科研、教育的重要工具进行数值处理、计算时,简单 的一维命令式语言已经足够。但是随着计算机应用领域向着非数值处理、计算 等领域延伸,此时形式语言界面的复杂性、抽象性,对记忆负荷要求等限制了 计算机应用的深入和普及,因此人机交互的输入模式必然向着人类日常技能的 方向发展,从而进行“自然的人机交互”。考察人与人进行交流的日常技能,一 般包括:语言,书写,肢体动作等。对应于语言和书写,目前语音识别和联机 t h t t p :,、v w 、v a p p i e c o m i p h o n e ;h n d :w w w m i c r o s o r c o m s u r f - a c e 拿h t t p :w 、v w n i n t e n d o c o i p 1 k o n r a d o l c z a k ,p a w e l r o g 使用红外摄像头搭建的多点触摸系统 h t t p :、n 、m c s p u t p o z n 锄p l u j a s k o w s k i i n d e ) 【p h p ? p a g e = s t u d e n t s & s u b = k c k 0 8 , 2 0 1 0 0 2 p o z n a nu n i v e r s i 哆 o ft e c h n o l o g y i c u b i e 自制w i ir e m o t e 控制器的红外线发射器( 使用u s b 接头) h n p :s 、v f c o m t w ? p = 1 3 1 2 0 1 0 0 2 3 一 武汉理工大学硕士学位论文 手写体识别已经取得相当大的成就,从微型计算机到手持设备都有其成熟的商 业应用软件。而动作识别当前仍停留在实验室研究阶段,除前文介绍过的w i i 游戏平台外没有一个成熟的应用,因此在此领域具备很大的研究空间。 1 3 基于手势的人机交互研究现状 手势是一种复合人类日常习惯的交互手段,在日常生活中人之间的交流通 常会辅以手势来传达一些信息或表达某种特定的意图。某些特殊人群或在特定 环境下,交流几乎全部依赖于手势,如聋哑人士或者正在执行秘密任务的战士。 囿于早期计算机的处理能力,手势在很长一段时间内未被作为人机交互方式的 方式加以研究。不过随着计算机处理能力的提升和不仅仅以数值处理为目标的 多样化计算任务的出现,手势在人机交互中的作用正得到越来越多的关注。 虽然现今有大量的学者和研究人员在进行基于手势的人机交互的研究工 作,但是没有确切的证据表明这一领域的开创者的荣誉应该给谁。不过可以查 证的是,a t & t 的g r i m e s 在1 9 8 3 年率先取得了“数据手套 的专利,他似乎 可以被认为是最早进行手势识别研究的人。【2 】随后v p l 公司于1 9 8 7 年生产了 d a t ag 1 0 v e ,它使用光纤传感器探测手指的弯曲程度。台湾大学的l i a n g l 3 1 等 人利用d a t ag l o v e 实现了对台湾手势课本中2 5 0 个基本词条达到9 0 5 的识别 率。这之后不久,任天堂公司便推出了更便宜的p o w e rg l o v e ,它使用超声波 传感器探测手腕与显示器间的距离,用导电油墨来测量手指的弯曲程度。该手 套在使用过程中需要重新校正以消除手套与手指间的相对滑动带来的误差。当 时间到达1 9 9 1 年,n u a lt e c i l i l o l o g i e s 公司推出了c y b e m l o v e 。它使用线形弯 曲传感器并且集成了电子张力变形测量器。由于使用了具有良好线性和强健性 的压电传感器,该手套获得了很好的精度和稳定性。高文和吴江琴等人【4 】基于 c v b e 硒l o v e 数据手套提出了将a m i 和h m m 相结合的方法来减少估计参数的 个数,他们建立的中国手语识别系统的孤立词识别率为9 0 ,简单语句识别率 则达到了9 2 。之后f a k e s p a c el a b e s 公司生产了p i n c hg l o v e 。该手套在指尖、 指背和手掌中间置入了电极式的传导纤维,能够测量到手指接触的开关量。虽 然该手套简单且无需校准,但是由于缺失一些手指弯曲度等模拟量,使其在 应用领域上有所受限。其后f i 劬d i m e n s i o nt e c h i l o l o g i e s 公司研制了5 d td a t a g l o v e 数据手套,该手套使用光电弯曲传感器且在手腕处还搭配有两个传感器 来测量手掌的俯仰角和倾角。 4 武汉理工大学硕士学位论文 在数据手套发展的同时,由于不满其需要使用者佩戴手套的诸多限制,在 机器视觉的道路上渐渐汇聚了众多的研究者。与数据手套流派采用贴近的动作 传感器( 组) 来感知手部动作和形态的方式不同,机器视觉流派采用单个或多 个摄像机在一定距离上捕获手势图像后再利用计算机视觉技术对捕获的图像 进行分析以获取手势的特征进行识别。在上世纪9 0 年代初,k r u e g e r 采用两个 摄像机实现了一个双手交互的v i d e od e s k 系统,该系统将采集的视频图像与 预先定义好的指点、拖拽和捏取等常用手势进行对比匹配来进行手势识别。【5 】 富士通实验室于上世纪9 0 年代初完成了对4 6 个手势符号的识别工作。之后 s 伽m e r 【6 】利用h m m 进行美国手语的识别研究,在只考虑手的x y 坐标的情况 下只用4 个特征值来表征单手手势的特征向量,其对美国手势中带有词性的 4 0 个词汇随机组成的短句子识别率达到9 9 2 。m g o l l 【7 1 则是用图像帧间差值 的七维向量来表征动态手势的特征,数据的处理同样采用了h m m 。由于该方 法是利用运动的差值信息,所以在手部形态的完整信息上有所缺失。h y e s u n p a r k 【8 1 利用双手区域与人脸指尖的位置关系为手势建立六维的特征向量,通过 一个整合的h m m 模型实现了1 3 种双手手势的识别。与传统方法的每种手势 单独建立一个h m m 模型相比这种方法能够利用手势间的关系来改善识别结 果,但其过于复杂的缺点也制约了训练和识别效率。b o b i c k 和w i l s o n 【9 】则走了 另外一条道路。他们提出一种基于状态的手势表示与识别方法,该方法将手势 描述为空间中的一条轨迹,轨迹曲线被划分为不同的状态,则手势可以用一组 连续的状态序列来表示。识别过程则是将带识别图像序列与原型进行比对,比 对的结果作为识别的依据。m i c r o s o rk o r e a 的l e e 【1 0 】采用基于h m m 的门限模 型( 1 1 鹏s h o l dm o d e l ) 来描述动态手势,该模型中手势以其运动轨迹来表征,此 种方式虽然能完全避开手形分割,但是也不可避免地丢失了手形的信息。任海 兵和祝远新等人【1 1 1 则提出利用手势的表观信息来表达动态手势。该模型综合利 用了颜色、运动与状态信息的融合策略抽取模型参数,并利用d t w 方法对手 势进行识别。为了应用高层语义规则进行识别,王西颖和戴国忠等人1 1 2 l 提出用 h m m 和卧跗相结合的方法来识别动态手势,该方法充分整合了h m m 对时序 数据建模的能力和f n n 读模糊规则建模和推理的能力。在变形手势跟踪算法 方面,王西颖和张习文等人1 1 3 】利用一组2 d 手势模型来替代高维度的3 d 模型。 算法首先利用贝叶斯分类器对静态手势进行识别,然后对图像进行手指和指尖 定位实现动态跟踪。该方法结合了基于模型和基于表观方法的特点,使得跟踪 计算量大为减小。 一5 一 武汉理工大学硕士学位论文 各种惯性传感器特别是m e m s 惯性传感器的发展为手势识别带来了新的 基础工具和应用案例。i b m 公司早在1 9 9 6 年便推出了一套能感知运动状态惯 性感知设备。之后c o m p a q 公司的j o e l 将惯性传感器植入手持设备中实现了滚 动、缩放和选定等功能。f j 4 】r e k i m o t oj 于2 0 0 1 年开发了一套称为g e s t u r e w 订s t 和g e s t u r e p a d l l 5 】的可穿戴式设备,该套设备集成了加速度和接近等多种传感 器。其中加速度传感器用来感应手部的运动,接近传感器通过测量手腕形变来 侦测手形的变化。这套设备使得用户可以使用手势与其他可穿戴设备或计算进 行交互。为提高基于加速度的手势的识别精度,j a n g ,i j 和p a 伙,w b 【1 6 】对加 速度信号的处理进行了探讨。他们将采集的加速度信号分为静态和动态两种然 后分别提供了处理方法。j u h ak 等人【1 7 】在2 0 0 6 年进行了基于加速度的手势 控制在设计环境中的应用研究。他们的研究表明手势相比于语音、激光笔和基 于r f i d 的物理实体等交互方式更具自然性。为改善移动设备上的游戏操控性, b a e k ,j 等人【1 8 j 于2 0 0 6 年提出通过分析加速度数据在两轴上的变化以及测量加 速度矢量与标准轴间倾角的方式来识别连续的动作和姿势。2 0 0 7 年,f e r s c h a , a 和r e s m e r i t a ,s 【1 9 l 基于普适计算的应用环境做了智能物体的手势交互研究。 他们以指向轨迹数据来表达原子手势,然后依据手势的语法规则来定义复杂手 势。此项研究中开发的g l i b 手势库由于具备独立于手势提供程序的特性或可 用于其他的基于手势的应用中。虽然基于惯性传感器的研究起步晚于基于机器 视觉的研究,但是前者的后发优势使得其避免了后者至今深藏在实验室中的命 运而快速成长起来。考察当今的消费电子市场,我们可以看到很多内嵌了惯性 传感器的产品成为用户竞相追逐的目标,而机器视觉要走出实验室似乎还有一 段不短的路要走。 采集s e m g 信号用于手势识别走的是生理学和计算机科学多学科交叉的一 条道路。从手势信号采集的距离上来说,该流派比机器视觉和传感器更加贴近 用户。由于s e m g 信号不但能反映关机的屈伸状态和屈伸强度而且还能实时反 映手势完成过程中手的形状、位置、朝向和运动信息,其在手势识别方面具备 了独特的优势。f 2 0 l 早在上世纪7 0 年代,d t a y l o r 和f f i n e l e y f 2j j 就开始利用多 电极阵列采集s e m g 信号来识别上肢肩关节、肘关节和前臂运动。之后s o a r e s 舢c i m a r 【2 2 l 、k e n g l e h a n 、d n i s h i k a w a l 2 3 l 、d o r ip e l e g 【2 4 】和j o n g s u n gk i m 【2 5 1 等 人在该领域均做过大量研究。 6 武汉理工大学硕士学位论文 1 4 研究背景及意义 如前文所述,人机交互正由人适应计算机的工作方式向计算机适应人的行 为方式的方向发展。毋庸讳言,人类创造了工具并越来越依赖各种工具,然而 这并不意味着人类需受制于工具。工具之于人类是其体力和智力的延伸与扩展, 这种延伸和扩展愈是自然愈能发挥其最大效能。具体到人机交互上,理想的交 互方式应该是用户自由、直接地操控计算机,无需借助中间媒介与表达方式。 毫无疑问,这将是未来必然的发展趋势。 自2 0 世纪9 0 年代至今,移动设备和消费电子一直保持着爆炸式的发展趋 势,新兴的设备和应用层出不穷。各种具备网络通信能力的出现使我们向普适 计算的美好蓝图更进一步,然而现有人机交互方式的低效率和非自然性却成为 阻碍我们进一步前进的藩篱。如前文所述,诸多研究者和厂商对冲破此藩篱投 入了大量的精力和资源。语音,触摸,表情,脑机接口,如此种种感官通道皆 有研究者为之奋斗,其中成就卓著的是语音识别和触摸技术。虽然触摸屏技术 在i p h o n e 等小屏幕产品上取得了传奇式的成功,然而不幸的是一旦面对超出臂 展范围的显示区域时,其可用性便迅速下降要求用户奔走在大范围显示区 域前来操作计算机显然是不友好的。值得庆幸的是,基于手势的交互方式与触 摸技术恰能长短互补。与触摸技术一样,用手势表达意图是一种非常自然的方 式,一个简单的手势可以蕴含丰富的信息,人与人可以通过手势传达大量的信 息从而实现高速通信,若将手势引入人机交互中,必将很好地改善人机交互的 效率。 基于手势的人机交互的研究将涉及到电子电路、模式识别、认知心理学等 多个学科领域,因而是一个多学科交叉的、富有挑战性的研究课题。该课题的 研究在对上述学科的理论成果做出验证的同时必将促进它们的进一步发展。 1 5 本文组织结构 本文以手势模型的研究为基础,讨论了手势识别算法,实现了一个系统原 型。全文共分七章,其结构如图l 一1 所示: 第一章,绪论。回顾了人交互的发展历程,论述了现有人机交互手段存在 的问题以及本文所进行的研究的意义。并介绍了学界和业界当前的研究热点和 进展,重点介绍了在基于手势的人机交互领域的不同技术流派以及这些流派在 国内外的研究现状。 一7 一 武汉理工大学硕士学位论文 图l l :论文组织结构 第二章,方案遴选和相关理论、技术准备。这一章对现有的手势交互方案 做了对比,结合应用场景分析了各种方案的优劣并确定了本课题选用的方案。 在确定方案后对涉及到的主要理论和技术进行了一些概念上的准备。 第三章,手势模型。这一章为整个研究的基础重点之一。对手势的详细分 析与完整建模将为后面的进一步应用打下坚实的基础。 第四章,手势识别。在手势模型建立后,手势识别算法将在模型和应用间 架设起一座顺畅的桥梁。高效而精确的手势识别算法能创造更加丰富多彩的应 用。 第五章,双手人机交互。实现了动态手势的识别只是解决了可行与否的问 题。若要在人机交互中实际应用手势进行高效地交互还需进一步研究人的双手 行为学,并在双手行为学研究的基础上设计出一套行之有效的手势库。 第六章,原型验证。这一章给出了一个系统原型用来验证上述几章的理论。 第七章,总结与展望。对本文所阐述的内容给出结论并指出需要在将来的 工作中进一步进行研究和探索的方向。 一8 一 第2 章方案遴选 2 1 人机交互的定义 人机交互学是关于设计、评价和蛮现供人j 1 圭用的交瓦式计算机系统,且 罔绕这些方面的主要现象进行研宄的科学t 。人机交互技术主要是研究人与计算 机之间的信息交换,主要包括人到计算机和计算机到人的信息交换两部分。这 是一个可观察的取向信息交换过程,即人和计算机既向对方输出信息同时又从 对方接收信息。整个人机系统可以用图2 - l 的摸型来袭示。人机交学是伴| ; f 着计算机的诞生而发展起来的一门科学,它涉及计算机科学、心理学、认知科 学和社会学以及人类学等诸多学科,是信息技术的一个重要组成部分,并将继 续对信息技术的发展产生巨大的影响口“。 l 一 图2 - l :人机交互模型 2 2 影响人机交互的因素 高散而自然的人机交互是众多研究者1 门努力追宄的目标。现有的以键盘和 鼠标为硬件工具,w i m p 为软件界面的人机交互手段较之前的交互手段在效率 上有大幅提升,但是在效率和自然性上仍未能令人满意。在作出提升效率和改 善自然性的努力之前,我们有必要先梳理一下影响人交互的若干重要因素。 坪自 c ms g g i 1 9 9 2 第6 页 : 武汉理工大学硕士学位论文 2 2 1 计算机的因素 作为人机交互的客体,计算机在人机交互需求的满足度上具有决定性的意 义。诸多因素都对人机交互产生影响。 首先是计算能力,计算能力是一台计算机的核心指标,它在整个人机系统 中占有基础性的地位。计算能力不足将直接制约计算机的响应速度。对于某些 需要较高计算能力的交互手段来说,计算能力不足将不仅仅导致响应延迟,而 是会直接使得该交互手段不可行。 存储能力也是计算机性能的衡量标准之一,它包括存取速度和存储容量。 和计算能力一样,对外部存储器的访问速度高低也将影响到系统的响应速度。 存储容量对响应速度无直接影响,但是在需要记录大量交互方式的配置信息甚 至是针对每个单独用户的配置信息的情况下,紧张的存储容量将限制所记录的 配置信息的粒度,显然愈是细粒度的配置记录愈能提升交互体验。 在一些需要进行网络通信的应用中,可用带宽将直接影响响应速度。随着 网络应用的普及,越来越多的资源需要通过网络从远程设备上获取。比需求带 宽要窄的可用带宽将导致响应延迟,严重的延迟将使得交互失去意义。 2 2 2 人的因素 人通过一系列的感觉和反应器官来感受外部环境并与之互动。感觉主要有 五种:视觉、听觉、触觉、味觉和嗅觉。其中前三种对于人机交互来说至为重 要,而后两者至今未在人交互中起重要作用。事实上,外界8 0 的信息都是通 过视觉得到的,因此在人机交互中作为用户获取机器反馈的手段,视觉处于重 中之重的地位。视觉感知可以分为两个阶段:受到外部刺激接收信息阶段和解 释信息阶段。一方面,受视觉系统的生理和物理限制,人无法感知到物理世界 的所有视觉信息,如对象处在视场外或者对象处在可见光波段外等。另一方面, 在解释视觉信息时,人脑可能会对信息做一些加工处理,使得感知到的信息与 客观世界并不完全一致,比如莱亚错觉现象。人机交互系统的设计需要考虑这 两方面的因素并注意到它们可能带来的影响。 在与计算机交互的过程中,用户有时需要回忆一些相关知识来帮助作出行 动决策。一个众所周知的记忆现象,是人类识别事物的能力要远胜于回忆事物 的能力。比如人能够快速地辨别一条命令所代表的操作,但却不一定能完整地 记住该命令的拼写。在使用计算机的过程中,过多的记忆内容将给用户带来负 一1 0 武汉理工大学硕士学位论文 担,因此利用人的记忆特点,减轻记忆负担是设计交互系统时需要重点考虑的 问题。 上述讨论集中在人在正常情况下的感知和认知特点,但是人的行为远非如 此简单。情感因素会影响人的感知和认知能力。积极的情感会使人的思考更有 创造性、解决发杂问题的能力更强;而消极的情感使人的思考更加片面,还会 影响其他方面的感知和认知能力;当一个人处于积极的情感状态时,对系统中 的交互设计缺陷可能不会太在意,但这决不能成为可以设计一个较差的交互系 统的理由。一个好的交互系统,应该能够充分考虑人在各种情感状态下的认知 特点,有针对性地进行交互的设计。一个差的交互系统,会反过来影响个人 的情绪,从而影响他解决问题的能力。 进行交互系统设计时还是不应该忘记人是存在个性差异的,如:长期的如 性别、体力和智力水平;短期的如压力和情感因素对人的影响;随时间变化的 如人的年龄等。人机交互设计应充分考虑个体的差异:当进行任何一种交互形 式设计时,应该考虑设计决策是否会对目标用户中的一部分带来不方便;现有 的强调图形界面的交互设计实际上排除了那些有视力缺陷的人,因此系统应考 虑提供其他的感知通道。 2 2 3 环境的因素 作为计算机和用户的容器,环境对人机交互也会产生一定的影响。 第一个需要考虑的因素是温度。现代电子计算机由很多超大规模的硅基集 成电路搭建而成,这些集成电路对工作温度有一些特定的要求,特别是在高温 下特别脆弱,过高的温度有可能造成器件的损坏或者进入自我保护模式,从而 直接导致人机交互的中断或者低效率。低温虽然不会对机器硬件造成大的影响, 但是却会影响到用户。有实验表明,在高温或者低温条件下,用户会因无法集 中精力而影响人机交互的效率。 第二个需要考虑的因素是环境光照。由于用户从计算机获取的信息大部分 是通过视觉,因此太强或太弱的环境光照都会对人机交互造成影响。太亮的环 境光照使得计算机的显示对比度相对下降,增加了用户的辨识难度。另外在以 电池供电的设备中,太亮的环境光照迫使用户增加显示亮度从而导致电池续航 时间减少,也形成了对人机交互的制约。反过来若环境光照太暗,计算机相对 较强的显示对比度同样会造成用户眼睛疲劳,影响交互效率。在基于机器视觉 的输入通道上,太弱的环境光照会影响摄像机采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论