




已阅读5页,还剩89页未读, 继续免费阅读
(农业电气化与自动化专业论文)手形识别在人机交互中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
手形识别在人机交互中的应用研究摘要近年来,计算机与人类日常生活联系越来越紧密,新的硬件和应用领域不断涌现,然而人机交流方式仍然局限于键盘、鼠标及光笔等,这些交互方式虽然越来越熟悉,但它们限制了人机交流的速度和方便性。因而,基于视觉的手形识别逐渐成为人机交互的研究热点,在计算机游戏、机器人控制和家用电器控制等方面具有广阔的应用前景。对手形识别技术的研究也成为当今计算机视觉领域、模式识别领域、数字信号处理领域的一个重要研究方向。本课题的主要研究目的是为用户提供一种更直观和自然的类键盘输入方式,使用户可以使用简便的交互设备作为人机接口操纵计算机。研究成果主要应用在数控系统的开放式控制面板上。本文主要研究了手形识别的实现,即通过4 个手指的伸缩状态来定义计算机指令。以p c 机标准键盘上1 2 个字符:0 - 9 数字以及小数点、回车为例进行仿真,从手形图像的预处理、特征提取和识别等三个方面研究了手形识别算法。在特征提取方面,与以往提取手形的重心和指尖、指根的算法相比,本文提出了一种手形特征提取算法,通过小手指外边缘作拟合直线。然后沿它的垂线方向扫描来确定食指、中指、无名指、小手指4个手指指尖的相对位置。最终能够计算出食指、无名指和小手指这3个手指相对中指的伸缩状态。在识别算法方面,以往的研究工作大多数是先建立好手形样本模板库,然后采用基于匹配的识别技术,利用手形分析中提取的特征参数与手形样本模板库进行匹配来完成识别。本文把最小错误率的贝叶斯决策规则作为分类器设计准则。整个算法在m a t l a b6 5 环境下实现。使用摄像头采集了6 0 个手形图像样本进行分析,正确识别率可达8 5 。实验表明本文提出的手形图像识别技术是行之有效的。关键词:模式识别人机交互手形识别贝叶斯决策t h ea p p l i e di 迮s e a r c ho fh a n dg e st u r er e c o g n i t i o ni nh u m a n 。c o m p u t e ri n t e r a c t i o na b s t r a c tc o m p u t e r sh a v eb e e ns ot i g h t l yi n t e g r a t e dw i t ho u re v e r y d a yl i f et h a tt h e i rn e wa p p l i c a t i o n sa n dh a r d w a r eh a db e e nc o n s t a n t l yi n t r o d u c e d h o w e v e rt h em a n - m a c h i n e 硫e f f a c e sm o s t l yu s e da tp r e s e n ta r eg e n e r a l l yl i m i t e dt ok e y b o a r d s ,m i c e ,l i g h tp e ne t c t h o u g hf a m i l i a rb yp e o p l e ,t h e s ed e v i c e sh a v et h e i ri n h e r e n tl i m i t si nt h es p e e da n dc o n v e n i e n c ew i t hw h i c hw ei n t e r a c to nc o m p u t e r s r e c e n t l y ,m o r ea n dm o r ei n t e r e s t sa r ef o c u so nh u m a nh a n dg e s t u r er e c o g n i t i o n ,w h i c hh a ds h o w ni t sp o t e n t i a la p p l i c a t i o ni nc o m p u t e rg a m e s ,r o b o tc o n t r o la n dh o u s e h o l da p p l i a n c e sc o n t r o le t c ,f o rm a n m a c h i n ei n t e r f i a c e f u r t h e r m o r et h eh a n dg e s t u r et e c h n o l o g yh a db e c o m ea l li m p o r t a n tr e s e a r c hb r a n c hi nt h ef i e l do fc o m p u t e rv i s i o n ,p a t t e r nr e c o g n i t i o na n dd i g i t a ls i g n a lp r o c e s se t c o u rr e s e a r c hw o r ka i m st os u p p l ya l li n t u i t i o n i s t i ca n dc o m f o r t a b l ek e y b o a r d - l i k ei n p u td e v i c ef o ru s e r st om o r ee a s i l ya n dn a t u r a l l vm a n i p u l a t eac o m p u t e rn u m e r i c a lc o n t r o ls y s t e m ,e g c n cm a c h i n et o o l so rc o o r d i n a t em e a s u r i n gm a c h i n e s w ee m p l o yh a n dg e s t u r et e c h n o l o g yt oa c h i e v eo u rt a r g e to ft h ep r o j e c t t h ek e yo ft h i st e c h n o l o g yl i e si nt h ec o d i n go fi n t e r a c t i v ei n s t r u c t i o n si n p u ti n t oc o m p u t e rw i m 此f l e xs t a t u s e so f4h u m a nf i n g e r s :i n d e xf i n g e r , m i d d l ef i n g e r , r i n gf m g e ra n ds m a l lf i n g e r t h o u g ha i m e dt ob ea p p l i e di nac n cs y s t e m ,w em a k e st h e12c h a r a c t e r so fas t a n d a r dp ck e y b o a r d :“0 - - 9 “a n d e n t e r 懿e x a m p l et os i m u l a t eo u ra l g o r i t h m t h er e s e a r c hw o r ki sd e c o m p o s e di n t o3p a r t s :t h ep r e p r o c e s so fh a n dg e s t u r ei m a g e ,f e a t u r ee x t r a c t i o na n dr e c o g n i t i o na l g o r i t h m t r a d i t i o n a l l y , p a l mc e n t r o i d ,s t a t u s e so ff i n g e r t i p sa n df i n g e rr o o t sa r et h e3m o s t l yu s e df e a t u r e sb yp r e c e d i n gr e s e a r c h e r si nh a n dg e s t u r er e c o g n i t i o n w i t hl o wc o r r e c t n e s sr a t i o d i f f e r e n tf r o mt h e i ra l g o r i t h m so ff e a t u r ee x t r a c t i o n ,t h i sp a p e rp r e s e n t san e wf e a t u r ee x t r a c t i o na l g o r i t h r nf o rt h ed e s i g no fc l a s s i f i e r t h i sm e t h o df i r s t l ym a k e sas t r a i g h tl i n et of kt h eo u t e re d g eo fl i t t l ef i n g e r t h e nt h ef i n g e r t i p so ft h e4f i n g e r sc a nb el o c a t e dt h r o u g hs c a n n i n ga l o n gt h ed i r e c t i o np e r p e n d i c u l a rt ot h ef i t t i n gl i n e n ef l e xs t a t u so ft h ef i n g e r s ,d e t e r m i n e db yt h er e l a t i v ef i n g e r t i p sp o s i t i o nt ot h a to f m i d d l ef i n g e r , i sf i g u r e do u ta n du s e da st h ef e a t u r e sf o rt h es u c c e d e n tr e c o g n i t i o na l g o r i t h m t h et r a d i t i o n a lr e c o g n i t i o na l g o r i t h me m p l o y e di nr e l a t i v ew o r k so fo t h e rr e s e a r c h e r sa r eg e n e r a l l yb a s e do nt h es o c a l l e dm a t c h i n gt e c h n o l o g y , i nw h i c ht h ee x t r a c t e df e a t u r e sa r eo n eb yo n em a t c h e dw i t ht h o s ei nap r e b u i l tf e a t u r el i b r a r y i nt h i sp a p e rb a y e s i a nd i s c r i m i n a n ti se m p l o y e da st h ec r i t e r i af o rt h ed e s i g no fc l a s s i f i e r o u rm e t h o di si m p l e m e n t e du n d e rm a t l a b6 5w i t h6 0h a n dg e s t u r ei m a g e s ,a m o n gw h i c h8 5 a r ec o r r e c t l yr e c o g n i z e d ,i n d i c a t i n gt h ee f f e c t i v e n e s so ft h i sp r o p o s e dm e t h o di nt h i sp a p e r p a t t e r nr e c o g n i t i o n ;h u m m a n m a c h i n ei n t e r f a c e ;h a n dg e s t u r er e c o g n i t i o n ;b a y e s i a nd i s c r i m i n a n ti v广西大学学位论文原创性声明和使用授权说明原创性声明本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相关知识产权属广西大学所有,本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容。除已注明部分外,论文中不包含其他人已经发表过的研究成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮助的个人和集体,均已在论文中明确说明并致谢。一:跫嚣殓学位论文使用授权说明年。多月历日本人完全了解广西大学关于收集、保存、使用学位论文的规定,即:按照学校要求提交学位论文的印刷本和电子版本:学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务:学校可以采用影印、缩印、数字化或其它复制手段保存论文:在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。请选择发布时间:口即时发布口解密后发布( 保密论文需注明,并在解密后遵守此规定)论文作者签名:弦禹硷导师签名:o f , e l2 方日手形识别在人机交互中的应用研究第一章引言1 1 研究手形识别的背景及意义在人机接口的发展过程中,键盘是基于文本方式的初始用户接口,鼠标的发明把我们带到一个图形用户接口的时代,然而,从某种程度上说,这些机械设备在自然直接交互方面是不方便和不适用的,因为这些设备很难进行3 d 和高度自由的输入。伴随着计算机技术的迅猛发展,研究符合人际交流习惯的新颖人机交互技术变得异常活跃,也取得了可喜的进步,这些研究包括人脸识别、面部表情识别、唇读、头部运动跟踪、凝视跟踪、手形识别、以及体势识别等等【1 】【2 】【3 】。总之,人机交互技术己经从以计算机为中心逐步转移到以人为中心,是多种媒体、多种模式的交互技术。人类交互过程中,除了采用自然语言( 口语、书面语言) 外,往往也采用人体语言( 表情、体势、手形) 。与人类交互相比,人机交互就呆板得多,因而研究人体语言理解,即人体语言的感知,及人体语言与自然语言的信息融合对于提高计算机的人类语言理解水平,加强人机接口的可实用性是非常有意义的。手形是聋哑人使用的语言,它是由手形动作辅之以表情姿势而成的比较稳定的表达系统,是一种靠动作和视觉进行交际的特殊语言,它还是一种包含信息量最多的人体语言,它与语言及书面语等自然语言的表达能力相同,因而在人机交互方面,手形完全可以作为一种手段,而且具有很强的视觉效果,它生动、形象、直观。手形的研究不仅有助于改善和提高聋哑人的生活学习和工作条件,同时也可以应用于计算机辅助哑语教学、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。研究手形识别具有的应用领域至少表现在以下几个方面:一、从认知科学的角度,研究人的视觉语言理解的机制,提高计算机对人类语言的理解水平;二、利用手形控制虚拟现实中的智能体;三、虚拟现实系统中的多模式接口i四、机器人的示范学习;手形识别在人机交互中的应u 景研究五、能够使得聋人,尤其是使得文化程度比较低的聋人,使用手形和正常人交流等。近年来,手形逐渐成为人机交互( h c i ) 中一种新颖的交互手段,研究手形识别的主要目的就是把手形这种既自然又直观的交流方式引入人机接口中,实现更符合人类行为习惯的人机接口。此外,手形识别还可用于虚拟现实、三维设计、医学研究、手语理解等领域,手形识别问题的解决方法对于表情识别、唇读、步态识别、时空纹理分类、视觉导航、图像拼接和基于内容的视频检索等研究都有直接推广的意义。因此手形的识别是一个多学科交叉的、富有挑战性的研究课题。其中由于基于计算机视觉的手形识别相对于基于机械传感设备的手形识别在实现上具有自然、方便、高效等特性的巨大优势而逐渐引起研究人员的广泛关注和兴趣【4 】1 5 】。借助手形识别技术实现人机交互,就是设计实现能够识别人的特定手形,并以此来传递信息和控制设备。1 2 手形识别的发展1 2 1 手形识别的发展和研究现状手形识别的研究已经有四十多年的历史。最早的手形识别研究,是研究基于笔或鼠标之类的二维输入设备的书写识别m 。书写可以看作是手形,因为书写就是手在二维平面上的手形。尤其在线书写( 也称动态书写) 识别和动态手形识别是同一问题,都是分析时空运动轨迹。b l a c k 等人【6 】【_ 7 】研究动态手形识别就是针对人拿着激光笔在白板上书写形成的手形进行的。1 9 6 3 年出现的基于光( l i g h tp e n - b a s e d ) 的输入装置:r a n d 写字板,是最早的书写识别研究。1 9 6 9 年,一种基于手写识别的文本编辑器由m i c h a e lc o l e m a n 在c m u 开发出来。1 9 7 0 年之后,这种书写装置出现在商业产品中。1 9 9 2 年,a p p l en e w t o n 把书写识别用于个人数字助理p d a 中。现在,书写识别广泛地用于各种数码产品中。严格意义的手形识别开始于基于跟踪器( t r a c k e r - b a s e d ) 的手形识别,就是通过在手上放置传感器,利用传感器传回的数据来进行的手形识别。典型的装置是数据手套( d a t ag l o v e ) 【6 】。这种方式能够获得手形的精确数据,对手形做准确地分析。尽管这种基于被动感知方式的手形识别在特定应用场合得到有效使用,但是因为它的侵犯性和操作复杂性,很难在实际中广泛使用。研究人员逐渐关2广西大国昀炙士掌位论文手形识别在人机交互中的应用研究注主动感知方式的基于视觉的手形识别。视觉手形识别,是指对视频采集设备拍摄到的包含手形的图像序列,采用计算机视觉技术来处理,最终识别手形。视觉手形识别在1 9 9 2 年左右才出现【8 】,因为这时有了彩色视频采集设备,可以用来实时拍摄手形图像序列。在这之后,视觉手形识别得到广泛地关注,研究人员对视觉手形识别做了深入地研究【9 】。因为人手变形复杂,手形具有多样性和多义性:视觉问题本身存在各种困难,这些使得视觉手形识别极富挑战性。研究人员一开始通过在人手上放置特定颜色的标记( m a r k e r ) 来简化问题。但是这种方法不方便用于在实际系统中,因此现在主要研究的是不使用特定标志( m a r k e r - f r e e ) 的视觉手形识别。国外对手形识别的研究,1 9 9 1 年富士通实验室完成了对4 6 个手形符号的识别工作【1 0 1 ;j d a v i s 和m s h a h 将戴上指尖具有高亮标记的视觉手套的手形作为系统的输入,可识别7 种手形【1 1 1 ;s t a m e r 等在对美国手形中带有词性的4 0 个词汇随机组成的短句子识别率达n 9 9 2 1 1 2 j 【l 习;k c r r o b e l 和m a s s a m 从视频录像中提取特征,采用h m m 技术识别2 6 2 个孤立词,正确率为9 1 3 【1 4 1 。我国的高文、吴江琴等人给出了a n n 与h m m 的混合方法作为手形的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数,将a n n - h m m 混合方法应用于有1 8 个传感器的c y b e r g l o v e 型号数据手套的中国手形识别系统中,孤立词识别率为9 0 ,简单语句级识别率为9 2 【1 5 】【1 6 1 。接下来高文等又选取c y b e r g l o v e 型号数据手套作为手形输入设备,并采用了d g m m ( d y n a m i cg a u s s i a um i x t u r em o d e l ) 作为系统的识别技术,即利用一个随时间变化的具有m 个分量的混合c r a u s s i a n n - 元混合密度来模型化手形信号,可识别中国手形字典中2 7 4 个词条,识别率为9 8 2 【1 7 1 。与基于h m m 的识别系统比较,这种模型的识别精度与h m m 模型的识别精度相当,其训练和识别速度比h m m 的训练与识别速度有明显的改善。他们为了进一步提高识别速度,识别模块中选取了多层识别器,可识别中国手形字典中的2 7 4 个词条,识别率为9 7 4 t 川。与基于单个d g m m 的识别系统比较,这种模型的识别精度与单个d g m m 模型的识别精度基本相同,但其识别速度比单个d g m m 的识别速度有明显的提高。2 0 0 0 年在国际上他们首次实现了5 0 0 0 词以上的连续中国手形识别系统【1 9 1 。另外,清华大学祝远新、徐光佑等给出了一种基于视觉的动态孤立手形识别技术,借助于图像运动的变阶参数模型和鲁棒回归分析,提出一种基于运动分割的图像运动估计方法。基于图像运动参数,构造了两种表现变化模型3手形 i k 别在人机交互中的应用研究分别作为手形的表现特征,利用最大最小优化算法来创建手形参考模板,并利用基于模板的分类技术进行识别,对1 2 种手形的识别率超过9 0 9 6 。在进一步研究中,他们又给出了有关连续动态手形的识别,融合手形运动信息和皮肤颜色信息,进行复杂背景下的手形分割:通过结合手形的时序信息、运动表现及形状表现,提出动态手形的时空表现模型,并提出基于颜色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参数,最后,提出动态时空规整算法用于手形识别,对1 2 种手形,平均识别率高达9 7 2 0 。1 2 2 手形的定义不同文化背景对手形的定义是有区别的。从手形识别的角度考虑,把手形定义为【5 】“人手或者手和臂结合产生的各种姿势或动作,它包括静态手形( p o s t u r e ,指姿态) 和动态手形( d y n a m i cg e s t u r e ,指动作,由一系列姿态组成) 。总的来说,手形在传统意义上可被分为姿态和轨迹两类【9 】。由于静态手形不仅能表达信息,而且可以成为动态手形的暂态,因此静态手形识别是手形识别的重要内容,本论文重点进行静态手形识别的研究。手形的含义依赖于具体的文化背景和应用场景,所以很难有统一的手形集合。一般实现手形识别系统时,先针对具体应用定义特定的手形集合。一个完整的视觉手形识别系统【2 u ,一般包含下面三个部分:曩手的检测与跟踪:在手形识别之前,需要将待处理对象( 手) ,从图像或图像序列中检测出来。这是手形识别的前提,包括手的检侧和手的跟踪。b 静态手形识别:针对从图像中检测并分割出来的手,可以识别手的姿势。手的静态姿势,本身具有丰富的含义:同时可以看作动态手形特征状态空间中的暂态,静态姿势识别有助于下面的动态手形分析。c 动态手形识别:通过对图像序列中手形运动的跟踪,得到手的运动轨迹。研究手形在时间空间或特征状态空间的运动轨迹,可以识别不同的动态手形。1 2 3 手形识别与人机交互技术目前,人机交互系统方面虽然已经存在很多类型的输入设备,例如键盘和鼠标,但对于用户来说,这些输入设备大都受到输入要求和环境的限制,而利用人一人交互的思想去开发人一机交互则是与计算机或智能机器交互更为自4g - 西大掌硕士掌位论文手形识别在人机交互中的应用研究然的方式,因此是发展的方向【蠲。符合人一人交互习惯的手形交互技术也正是基于这样一个思想而得到充分重视和研究的。研究表吲捌,人类有使用手形来相互交流的自然能力,小孩在他们学习说话之前早已能学习使用手形来交流信息。手形是一种天生和深深根植于人类习惯的交互手段,但是目前的交互技术并没有很好的利用这种优秀的交互手段,因此,对手形交互技术的研究并不是个人的研究取向,而是现代交互技术发展的要求。人与计算机的交互活动越来越成为人们日常生活的一个重要组成部分。特别是最近几年,随着计算机技术的迅猛发展,研究符合人际交流习惯的新颖人机交互技术变得异常活跃,也取得了可喜的进步。这些研究包括人脸识别、面部表情识别、唇读、头部运动跟踪、凝视跟踪、手形识别、以及体势识别等等。总的来说,人机交互技术已经从以计算机为中心逐步转移到以人为中心,是多媒体多模式的交互技术。在这些交互技术中,手形识别以其直观、自然的特点受到大多数研究者的关注1 2 3 1 1 2 4 。对它的研究大体可以分为三类:第一类,基于数据手套的手形识别。运用连接在手套上的传感器将手指运动转换为电信号以确定手形,手指的相对位置是由附加的传感器决定的,该传感器通常是连接在数据手套上的带磁性的或有关声音的传感器。对于一些数据手套的应用,通常还提供一个查阅表软件工具包用于进行手形的识别:第二类,基于触摸屏的手形识别。将手在触摸屏上的运动作为输入:第三类,基于视觉的手形识别。它模仿人类接受周围信息的方式,是最自然的人机交互方式,也是难度最大的方式,是一门涉及到模式识别、神经网络、人工智能、数字图像处理、计算机视觉等多个学科的交叉研究领域,也是当今信息科学中人机交互研究的一个热点和难点问题。1 3 本文研究的主要内容本课题是自然科学基金:“空间精度校准与测量数据评价直接朔源的研究( n o 5 0 3 7 5 11 9 ) 一项目的一个子课题,主要研究目的是为用户提供一种更直观和自然的类键盘输入方式,使用户可以使用简便的交互设备作为人机接口操纵计算机。课题的研究成果主要应用在数控系统的开放式控制面板上。本文主要研究了手形识别的实现,即通过4 个手指的伸缩状态来定义计算机指令。以p c 机标准键盘上1 2 个字符:0 9 数字以及小数点、回车为例进行仿真,从手形图像的预5手形够u 副在人机交互中的应用研究处理、特征提取和识别等三个方面研究了手形识别算法。论文的主要工作:( 1 ) 首先经过连接到计算机的摄像头捕获手形图像;( 2 ) 对手形图像进行噪声滤波、边缘检测、二值化和边缘细化,得到一幅手形二值图像;( 3 ) 然后进行特征提取,提取完整的手形单像素边缘轮廓并用8 方向链码的方法表达出来,本文提出了一种手形特征提取算法,能够计算出食指、无名指和小手指3 个手指相对中指的收缩距离,这是手形识别需要的特征向量;( 4 ) 最后采用基于最小错误率的贝叶斯决策规则对手行进行分类识别。整个手形识别流程如图1 1 所示。图1 1 手形识别流程图f i g 1 1g e s t u r er e c o g n i t i o nf l o wc h a l t本文有两个特点:( 1 ) 在特征提取方面,与以往提取手形的重心和指尖、指根的算法相比,本文提出了一种手形特征提取算法,通过小手指外边缘作拟合直线。然后沿它的垂线方向扫描来确定食指、中指、无名指、小手指4 个手指指尖的相对位置。最终能够计算出食指、无名指和小手指这3 个手指相对中指的伸缩状态。这是手形识别算法所需要的特征向量。( 2 ) 在识别算法方面,以往的研究工作大多数是先建立好手形样本模板库,然后采用基于匹配的识别技术,利用手形分析中提取的特征参数与手形样本模板库进行匹配来完成识别。本文把最小错误率的贝叶斯决策规则作为分类器设计准则。6手形识另g 在人机交互中的五乙帛研究第二章图像存储与数学形态学图像能够以各种各样的形式出现,例如,可视的和不可视的、抽象的和实际的、适于计算机处理的和不适于计算机处理的。就其本质来说,可以将图像分为两大类:一类是模拟图像,包括光学图像、照相图像、电视图像、用线条画的图、绘画等。另一类是将连续的模拟图像经过离散化处理后变成计算机能够辨识的点阵图像,称为数字图像。数字图像可以理解为对二维函数f ( x ,y ) 进行采样和量化( 即离散处理) 后得到的图像,因此,通常用二维矩阵来表示一幅数字图像。本文中涉及到的图像处理都是指数字图像处理。2 1图像类型计算机一般采用两种方式存储图像:一种是位映射( b i m a a p ) ,即位图存储模式;另一种是向量处理( v e c t o r ) ,也称矢量存储模式【2 5 】阑。位图也称为栅格图像,是通过许多像素点表示一幅图像,每个像素具有颜色属性和位置属性。位图文件在有足够的文件量的前提下,能真实细腻地反映图像的层次、色彩。位图图像的缺点在于随着分辨率以及颜色数的提高,位图。图像所占用的磁盘空间会急剧增大,同时在放大图像的过程中,图像也会变得模糊而失真。矢量图只存储图像内容的轮廓部分,而不是存储图像的每一点。例如,对于一个圆形图案,只要存储圆心的坐标位置和半径长度,以及圆形边线和内部的颜色即可。该存储方法具有两个优点:一是它的文件数据量很小;二是图像质量与分辨率无关,这意味着无论将图像放大或缩小了多少次,图像总是以显示设备允许的最大清晰度显示。在计算机计算与显示一幅图像时,也往往能看到画图的过程。但是,矢量图有一个明显的缺点,就是不易制作色调丰富或色彩变化太多的图像,而且绘出来的图像不是很逼真。本文中针对的对象是位图。位图可以从传统的相片、幻灯片上制作出来或使用摄像头得到,也可以利用w m d o w s 的画笔用颜色点填充网格单元来创建位图。位图又可以分成如下47手形识别在人机童o 中的应用研究种:二值图象、灰度图象、索引图像和r g b 图像。下面就论文中用到的二值图象和灰度图象加以描述。2 1 1二值图像二值图像也叫黑白图像,就是图像像素只存在0 ,l 两个值。一个二值图像是纯黑白的。每一个像素值将取0 或1 中的一个值,通常用0 表示黑,1 表示白。图2 1 给出了二进制的手形图像。2 1 2 灰度图像图2 1 二进制手形图像f i g 2 1b i n a r ys y s t e mg e s t u r ei m a g e灰度图像是包含灰度级的图像。与二值图像不同,灰度图像的像素并不是只有0 、l 两个量化级数,而是具有多个量化级数,如6 4 级、2 5 6 级等。如当像素灰度级用8b i t 表示时,图像的灰度级就是2 5 6 ( 2 8 = 2 5 6 ) ,每个像素的取值就是2 5 6 种灰度中的一种,即每个像素的灰度值为o _ - 2 5 5 中的一个。通常,用0 表示黑,2 5 5 表示白,从0 到2 5 5 亮度逐渐增加。灰度图像只有亮度信息而没有色彩信息。通常所说的黑白照片,其实包含了黑白之间的所有灰度色调。图2 2 给出了灰度级为2 5 6 的手形图像。8手形识易g 在 、机交互中的厘乙用研究2 2 图像格式图2 2 灰度手形图像f i g 2 2g r a yg e s t u r ei m a g e图像文件的格式,即图像文件的数据构成。每一种图像文件均有一个文件头,在文件头之后才是图像数据。文件头的内容一般包括文件类型、文件制作者、制作时间、版本号、文件大小等内容。各种图像文件的制作还涉及到图像文件的压缩方式和存储效率等。常用的图像文件存储格式主要有b m p 图像文件、j p e g 图像文件、p c x 图像文件、1 i f f 图像文件以及g i f 图像文件等瞄j 【2 6 j 。下面就本文用到的b m p 图像文件格式加以介绍。2 2 1b m p 图像文件格式设备无关位图d m 是d e v i c e i n d e p e n d e n tb i t m a p ( 设备无关位图) 的缩写,它自带颜色信息,因此调色板管理非常容易。任何运行w i n d o w s 的计算机都可以处理d i b ,它通常以b m p 文件的形式保存在磁盘文件中。d i b 是标准的w i n d o w s 位图格式,b m p 文件中包含了一个d i b 。一个b m p 文件大体上分为如下4 个部分。如图2 39手形识别在人机交互中的应用研究b i n 讧a p f i l e h e a d e r位图文件头上b i t m a p i n 暇o h e a d e r位图信息头上p a i e t t e调色板上d m p i x e ld i b 图像数据图2 3b m p 图像文件格式f i g 2 3b m pi m a g ef i l ef o r m a t第一部分为位图文件头b i n 厦a p f i l e 脏a d e r ,构长度固定,为1 4 个字节。第二部分为位图信息头b i t m a p i n f o h e a d e r ,结构的长度也是固定的,为4 0 个字节。它是一个数据结构,该结它也是一个数据结构,该第三部分为调色板( p a l e t t e ) ,有些位图需要调色板,有些位图,如真彩色图,不需要调色板,它们的b i n 厘a p i n f o h e a d e r 后面直接是位图数据。调色板实际上是一个数组,数组中每一个元素的类型都是一个r g b q u a d的结构,该结构占4 个字节,其实质是定义了一种颜色中r 、g 、b 三种颜色的分量。第四部分就是实际的图像数据。对于用到调色板的位图,图像数据就是该像素颜色在调色板中的索引值,对于真彩色图,图像数据就是实际的r 、g 、b值。下面就是2 色、1 6 色、2 5 6 色和真彩色位图作一个比较:对于2 色位图,用1 位就可以表示该像素的颜色( 一般0 表示黑,1 表示白) ,所以一个字节可以表示8 个像素。对于1 6 色位图,用4 位可以表示一个像素的颜色,所以1 个字节可以表示1 0广西大学硕士掌位论文手形识易在- h 机交互中的基乙用研究2 个像素。对于2 5 6 色位图,1 个字节刚好可以表示1 个像素。对于真彩色图,3 个字节才能表示1 个像素。2 3 数学形态学数学形态学( m a t h e m a t i c a lm o r p h o l o g y ) 2 7 1 2 司是- - i 3 新兴学科。它是法国和德国的科学家在研究岩石结构时建立的。形态学的用途主要是获取物体拓扑和结果信息,它通过物体和结构元素相互作用的某些运算,得到物体更本质的形态。它在图像处理中的应用主要是:( 1 ) 利用形态学的基本运算,对图像进行观察和处理,从而达到改善图像质量的目的;( 2 ) 描述和定义图像的各种几何参数和特征,如面积,周长,连通度,颗粒度,骨架和方向性。在这里主要介绍二值图像数学形态学。2 3 1 腐蚀与膨胀腐蚀( e r o s i o n ) 诜4 是一幅图像,而b 是结构元素,则定灿被b 腐蚀的结果定义为:f1c枷21 川晶口,玉q = a j 一 d其中,彳c 表莉的补集或余集,即从整幅图像中去拗后所剩的部分。腐蚀定义表明,若p 是a o b 中的点,则它一定满足性质:将结构元素b 用p 平移后应当包含在彳内,而如果原点( 0 ,0 ) 包含在b 中,这一定义便可理解为:将b 平移后放御内某个位置上,使b 上各点都与彳中相应点相重合。这时,原点所在的新位置便是彳中的一点。考虑b 的所有可能的位置后,原点移动的轨迹便构成了么o 曰。图2 4 表示了x 被b 腐蚀的结果,图中阴影线部分就是腐蚀的结果。从图中可以看到形状x 被从各个方向削减,就好像是被腐蚀掉了一部分,“腐蚀也就来源于此。膨胀( d i l a t i o n ) a 被b 膨胀的结果可以定义为:彳0b = u4 ( 2 2 )岛e 县1手形- i r 别在人机交互中的应用研究其中符号u 是集合论中的“并 记号,彳 表示彳被b 中元素平移的结果。彳0 召又称为彳和b 的明可夫斯基( m i n k o w s k i ) 和。在计算机中具体实现膨胀运算时的步骤:令图像原点( 0 ,0 ) 和彳中某点a 重合,然后检验口中各点当前所在的位置。若位置的灰度为0 ,则将其改为1 ;否则不变。当原点已经经过了彳中所有点后,这时结果便是彳0 曰。图2 5 表示了这种效果,形糨被从各个方向膨胀了一部分,所以就把这种操作称之为“膨胀一。jx石、一l 夕一x,龟、-碰彩励l 图2 4x 被b 腐蚀f i g 2 4be r o d e x2 3 2 开运算与闭运算图2 5x 被b 膨胀f i g 2 5bd i l a t e xj广inl _ !u一开运算( o p e n ) 定义为:ao b = c a o b ) 0 b( 2 3 )即彳先被召腐蚀,再被召膨胀的结果。利用开运算可以消除散点和“毛刺 ,即对图像进行平滑。闭运算( c i o s e ) 定义为:a o b = 似0 b ) o b( 2 4 )执行过程正好与开运算相反:先被b 膨胀,再被男腐蚀。当选择了适当的结构元素后,可以通过闭运算将两个邻近的目标连接起来。1 2广西大掣螺炙士掌位论文手形识别在人机交互中的应用研究2 3 3 击中击中( h i t ) 一个物体的结构可以通过物体内部各种成分之间的关系来确定。为了研究物体( 指图像) 的结构,可以逐个地利用各种成分( 例如,各种结构元素) 对其进行检验,判定哪些成分包括在图像内,哪些在图像外,从而最终确定图像的结构。击中运算就是在这个意义上提出的。抛是被研究的图像,b 是结构元素,而助由两个不相交的部分召- 和成组成,即b = 岛u 易,马n 岛= a( 2 5 )于是,a 被b “击中的结果定义为a 掌b = pi ( 蜀) p 彳且2 ) p 量彳c ( 2 6 )彳被召击中的结果仍是一个图像,其中每点p 必须同时满足两个条件:蜀被p 平移后包含枷内,而且岛被p 平移后不枷内。击中另一种表达式:a b = ( 彳) 一( 彳0 岛)( 2 7 )彳被b 击中的结果相当和被蜀腐蚀的结果与彳被岛的反射集展膨胀的结果之差。不难看到,击中运算相当于一种条件比较严格的模板匹配。它不仅指出被匹配点所应满足的性质即模板的形状,同时也指出这些点所不应满足的性质,即对周围环境背景的要求。2 3 4 薄化和厚化设b 由岛,岛两部分构成。贝归被b 薄化的结果定义为:- 、么 b = a - ( a 宰功即眦中去拗被b 击中的结果。彳被b 厚化定义为:彳eb = a u ( a 宰b )即枷的基础上增批被b 击中的结果。( 2 8 )( 2 9 )2 4 小结本章引入了数字图像的相关知识和数学形态学的基本知识。图像经过数字1 3手形识别在人机交互中的屋己j 稠研究化后才能被计算机接受,数字图像就是一个灰度值的二维数组,该数组若用( x ,y ) 来表示,其含义是位于坐标( x ,y ) 处的像素,其灰度值是f ( x ,y ) ,研究数字图像的处理,最基本的就是研究一个二维数组的处理。灰度图像、二值图像、b m p 图像都是与手形识别密切相关的。数学形态学基本理论、方法是手形图像处理的基础,本章内容是图像预处理的预备知识。1 4手形识另在人机j o 中的应用研究第三章图像预处理本文采用摄像头采集手形图像传输给计算机,对图像进行相应的数字图像处理。图像在生成,传输或变换过程中会受到各种因素的影响,从而产生噪声。预处理的目的就是为了去掉图像中的噪声,加强图像中的有用信息,并能对输入仪器或其它因素造成的退化的现象进行复原。本章就论文用到的图像预处理【2 9 1中的噪声滤波、边缘检测、二值化和细化部分加以说明。3 1图像噪声及消除方法无论用什么数字化设备得到的图像都受到或多或少的噪声污染。例如,受非相干光照明的物体在其表面上就已经含有引起波面统计性起伏的噪声。在光学系统中,检测仪器、放大器、量化器等设备及各种计算机处理过程中也会混进噪声。这种噪声给图像的有效利用方面造成极大的损害。可能导致最后得到的结果,与预想结果相去甚远。所以在对数字图像进行其他处理之前,消除图像噪声是图像处理技术必要的一步【3 0 j 。对这个图像噪声问题试作如下的数学描述1 3 1 1 。希望知道的是真实图像,其灰度可以表示为坐标o ,歹) 的函数x ( f ,j f ) 。但是x ( f ,) 被一般称之为不可预料的噪声,l ( f ,) 污染了。因此,观测到的图像畎“) 是由这两个量构成的。在这类污染方式中,能够进行较好的处理的是用y g ,j ) = x ( i ,- ) + n ( i ,歹)y ( i ,j ) = x ( i ,j ) n ( i ,歹)( 3 1 )( 3 2 )表示的两种情况。前者称为加法噪声,后者称为乘法噪声。噪声的性质不同,问题的处理方式也需要改变。其中,噪声的统计性质是否依赖于图像x o ,) 的问题是很重要的。在不依赖于图像的情况下,把这种噪声叫做不依赖于信号的噪声。所谓消除图像噪声的问题,可以说就是从已经给出的图像y ( i ,_ ,) 中去掉噪声刀( f ,- ) 成分,得到更接近于真实图像x ( f ,歹) 的问题。1 5手形识别在人机交互中的矗u 书研究3 1 1 用平滑化消除噪声对于图像y ( f ,歹) 是平滑的情况,已知用平滑处理来消除噪声是很有效的【3 1 1 。所谓平滑处理,就是将某像素的灰度用该像素的灰度的平均值来代替。以9 点平滑为例,图3 1 就是用9 点像素,j1一11一一1图3 19 点像素f i g 3 19p o i n t sp i x e ly ( f ,歹)歹 - l ,0 ,1 的取样平均歹( f ,j ) ,亦即用:y ( i ,j ) = 百1 y ( i ,)( 3 3 )7j 。一1j 。一1来作为消除图像噪声的方法。现在假设真实的图像x ( i ,_ ,) 可以在这9 点平面上作近似,写成:x ( f ,) = a f + b ,+ x ( o ,o )f ,j 一1 , 0 ,1 )( 3 4 )a ,b 为每个方向上的斜率。把这个模型代入式( 3 1 ) 和式( 3 3 ) 便得到歹( “) = ;1 毛1 圭ip , + 乃+ 羽,o ) ) + 万1 ,三l 歪1 力_ 邶 o ) + 吾苎。苎力c 3 5 ,因此消除噪声的图像y ( i ,歹) 是由上式右端第二项所表示的新的噪声与真实图像叠加的图像。现在假设非相关噪声刀( f ,歹) 的均方差为仃寻,则新的噪声变为:1 60=小j口。卜。1ii中式广西大掌硕士掌位论文手形识另口在人机交互中的压【j 胃研究ej 吾,窭。吾1 ,c f ,歹,) 2i = 吾叮另c 3 6 ,是噪声方差的1 9 。为标准偏差的1 3 因此噪声被减小了。这种方法的缺点是图像x ( f ,) 在不能用平面作近似的部分,与真实值就有差异了。例如边缘就是图像不能用平面作近似的典型例子。边缘会由于平滑化而模糊不清,其模糊度与所取邻域半径的大小成正比【3 2 】。为了克服平均化的缺点,常常只把有不同值的点看成是由噪声产生的,用周围点的灰度平均值置换。表3 1 所示的3x3 邻域是消除噪声用的掩膜( m 破) o x 和q 为各点的灰度值,x 点的灰度值由式( 3 7 ) 给定:表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 访问控制模型研究-洞察及研究
- 2025年性安全教育常识测试题及答案
- 就业政策区域差异研究-洞察及研究
- 出差行车安全知识培训课件
- 陕西省司法考试司法制度考试题(附答案)
- 出差安全培训交底课件
- 2025物业服务委托管理标准合同范本
- 出国企业安全培训课件
- 出入院流程课件
- 出入量记录课件
- (新教材)2025年秋期人教版二年级上册数学核心素养教案(第2单元)(教学反思有内容+二次备课版)
- 心理学基础(第2版) 课件 第7章 学习
- 2023年普通高等学校招生全国统一考试(全国乙卷)文综历史试题附答案
- 边坡作业安全教育培训
- 印染工厂设计
- ktv安全消防管理制度
- 公司贷款流程
- 血透患者高血钾的护理
- 医疗卫生机构安全生产标准化管理规范
- 心内科出科汇报
- 生成式人工智能课件
评论
0/150
提交评论