(计算机系统结构专业论文)基于傅立叶描绘子的手势识别算法.pdf_第1页
(计算机系统结构专业论文)基于傅立叶描绘子的手势识别算法.pdf_第2页
(计算机系统结构专业论文)基于傅立叶描绘子的手势识别算法.pdf_第3页
(计算机系统结构专业论文)基于傅立叶描绘子的手势识别算法.pdf_第4页
(计算机系统结构专业论文)基于傅立叶描绘子的手势识别算法.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机系统结构专业论文)基于傅立叶描绘子的手势识别算法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 手势的使用是一种重要的人机交互方式,基于视觉的手势识别是实现新一代 人机交互的一项关键技术。本文从手势图像的预处理、手势的特征提取和手势的 识别三方面对基于视觉的手势识别算法进行了研究。 图像预处理包括图像增强、图像分割和图像形态学处理。本文首先对输入的 图像进行平滑,锐化处理,然后采用基于灰度的阈值分割方法,从图像中分割出 手势,最后将得到的手势部分图像进行膨胀和腐蚀处理,达到最佳的手势分割效 果。 在手势的特征提取部分,本文针对手势图像识别率较低,易受噪声干扰的问 题,提出一种基于二维极坐标傅立叶描绘子的手势特征提取算法。算法中设计的 描绘子具有平移、尺度、旋转不变性,与传统的一维傅立叶描绘子相比,该描绘 子不仅利用了手势图像的边界信息,还提取了手势图像的内部信息,受边界噪声 的干扰更小,通用性更好,鲁棒性更高。 针对手势的识别,本文采用了基于b p 神经网络的识别方法。首先利用大量 的样本图像训练b p 网络,通过训练成功的网络来实现手势图像的识别,并根据 输出结果来判定识别的正确性。 实验结果表明,本文提出的基于二维极坐标傅立叶描绘子和b p 神经网络的 静态手势识别算法识别率可以达到9 4 ,是一种有效的静态手势识别算法。 关键词:边缘跟踪傅立叶描绘子b p 神经网络手势识别 a b s t r a c t t h eu s eo fh a n dg e s t u r e sh a sb e c o m ea l li m p o r t a n tp a r to fh u m a nc o m p u t e r i n t e r a c t i o ni nr e c e n ty e a r s t h ea b i l i t yf o rc o m p m e rt ov i s u a l l yr e c o g n i z eh a n dg e s t u r e s i se s s e n t i a lf o rf u t u r eh u m a nc o m p m e ri n t e r a c t i o n t h i st h e s i sp r e s e n t sav i s i o n b a s e d h a n dg e s t u r e sr e c o g n i t i o na l g o r i t h mf r o mp o i n t so fp r e p r o c e s s i n g ,f e a t u r ee x t r a c t i o n a n dr e c o g n i t i o no fh a n dg e s t u r e si m a g e p r e p r o c e s s i n gh a n dg e s t u r ei m a g ei sc o m p o s e do ft h r e ep a r t s ,i m a g ee n h a n c e m e n t , i m a g es e g m e n t a t i o na n dm o r p h o l o g i c a li m a g ep r o c e s s i n g t h et h e s i sf i r s t l yp e r f o r m s i m a g es m o o t h i n ga n ds h a r p e n i n g ,t h e ng e t st h eb i n a r yv e r s i o no ft h ei m a g e sb yt h e m e a r l so fag r a yl e v e lt h r e s h o l da l g o r i t h m a f t e rt h a t ,t og e tab e t t e rb i n a r yi m a g et h e s y s t e mt a k e st h eo p e r a t i o no fm o r p h o l o g i c a lf i l t e r i n g i nt h ep a r to ff e a t u r ee x t r a c t i o n ,f o c u s i n go nt h ep r o b l e mo fl o wr e c o g n i t i o nr a t e a n dl a r g en o i s ei n t e r f e r e n c ei nt h ec u r r e n th a n dg e s t u r e sr e c o g n i t i o n , an e wa l g o r i t h m b a s e do nt w o d i m e n s i o n a lp o l a rf o u r i e rt r a n s f o r mi sp r e s e n t e di nt h i st h e s i s t h e d e s c r i p t o ri nt h i sa l g o r i t h mi si n v a r i a n tt og e n e r a lt r a n s f o r m a t i o ni n c l u d i n gt r a n s l a t i o n , s c a l ea n dr o t a t i o nt r a n s f o r m a t i o n c o m p a r e d 、析t 1 1t r a d i t i o n a lo n e - d i m e n s i o n a l d e s c r i p t o r , t h i st w o - d i m e n s i o n a ld e s c r i p t o ru s e st h eb o u n d a r yi n f o r m a t i o no fah a n d g e s t u r e si m a g ea n da l s oe x t r a c t st h ei n f o r m a t i o ni n s i d ei t t h e r e f o r et h ed e s c r i p t o ri s s t r o n g l ya p p l i c a b l ea n dh i g h l yr o b u s t i nt h ep a r to ff e a t u r er e c o g n i t i o n ,am e t h o db a s e do nb pn e u r a ln e t w o r k si su s e d i nt h i st h e s i s f i r s t , t h eb pn e t w o r ki st r a i n e dw i t hal a r g en u m b e ro fs a m p l ei m a g e s a f t e rt h en e t w o r ki st r a i n e ds u c c e s s f u l l y , t h es y s t e mc a nr e c o g n i z eh a n dg e s t u r e i m a g e s ,a n dt h ev a l i d i t yo fi d e n t i f i c a t i o n c a r lb ed e t e r m i n e da c c o r d i n gt ot h e r e c o g n i t i o nr e s u l t t h ee x p e r h n e m a lr e s u l t ss h o wt h a tt h ea l g o r i t h mb a s e do i lt w o d i m e n s i o n a lp o l a rf o u r i e r t r a n s f o r i l la n db pn e u r a ln e t w o r k si sv e r ye 伍c i e n ta n dt h er e c o g n i t i o nr a t ei s9 4 k e y w o r d :c o n t o u r 。t r a c i n g f o u r i e r d e s c r i p t o r b pn e u r a ln e t w o r k s h a n dg e s t u r e sr e c o g n i t i o n 西安电子科技大学 学位论文独创性( 或创新性) 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:室星聋缉 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在年解密后适用本授权书。 本人签名: 导师签名: 军7 l盗红 蚴盥 - 第一章绪论 第一章绪论 随着计算机技术的发展,人与计算机的交互活动成了人们日常生活的一个重 要组成部分,而这种交互活动的手段却严重不足。如传统用户界面只利用了极少 的输入信息,在用户使用二维鼠标器时,计算机仅能获得二个维度的移动信息和 少数手指的点击,除此之外计算机不能识别任何别的动作,仅仅将人的手和眼局 限在狭小的桌面上。可喜的是,目前符合人际交流习惯的新颖人机交互技术的研 究非常活跃,并取得了很大进步,这些研究包括人脸识别、表情解释、口形( 唇 读) 识别、头部方位检测、视线跟踪、三维定位、手势解释和人体姿势解释等。 人机交互技术正在从以计算机为中心逐步转移到以人为中心。 在人类日常交际活动中发挥重要作用的手势,理应成为一种自然、直观而又 易于学习的人机交互手段。以人手直接作为计算机的输入设备,人机间的通讯将 不再需要中间的媒体,用户可以简单地定义一种适当的手势来对周围的机器进行 控制【1 一。从手势以及更多的输入通道获得用户更丰富的交互意图是当前人机交互 技术发展的新动向、新课题。 1 1 手势识别在人机交互中的应用 传统的用户界面已经走过了基于字符的以形式语言为主的命令行用户界面和 基于二维图形的以直接操纵技术为主的图形用户界面( 2 d g u i ) ,目前新的发展趋 势是扩充二维图形,集多媒体和多通道交互为一体的综合技术,并将进一步引入 语音交互、手势交互甚至视线交互等形式,利用和发挥人类日常交际技能,体现 了人机交互由抽象向形象、由低维信息向高维信息发展的趋势【2 ,3 ,4 1 。w e i m e r 分析 了在人机交互中使用手的几种方式1 2 j : ( 1 ) 直接操纵( d i r e c tm a n i p u l a t i o n ) 。2 d g u i 提供了较为完善的二维空间的直接 操纵技术,虚拟现实技术也较好地发展了三维空间的直接操纵技术,如利用 六自由度空间控制器来实现三维物体操纵。直接操纵技术利用的是所谓“操 纵性手势 ,即手势本身不传达语义信息。 ( 2 ) 语言性手势( 手语) 。它利用的是所谓“交互性手势”,即计算机必须对手势 做出语义解释,如利用指关节的模式匹配技术实现手势词汇识别。 ( 3 ) 补充性手势。它利用的是所谓“非自主性手势 ,它介于直接操纵和语言性手 势之间。对这种手势的解释更多地依赖于语音识别,换言之,它为语音提供 补充信息。 2 基于傅立叶描绘子的手势识别算法 一般说来,将手势用于人机交互可能有以下的优点: ( 1 ) 手势在不同文化习俗间是相似的,与语言无关; ( 2 ) 手势填补了图形交互与自然语言交互之间的空白,起到中介作用,从而使两 者相互结合; ( 3 ) 用户能较快学会和掌握手势交互; ( 4 ) 可同时用双手完成许多任务,可大大提高人机交互的效率。 在语言性手势交互的应用,除非对于经过训练的用户,一般用户较难掌握大 量的手势词汇。例如手语词汇集虽不过3 0 0 0 个词,但普通用户只能使用其中少量 手势。不过,对于特定应用领域或只需建立有限词汇用于完成特定任务的场合仍 是实用的。手势识别主要应用于虚拟环境交互,手语识别,多通道、多媒体用户 界面,机器人机械手的抓取等方面。 1 2 手势的定义和分类 不同文化背景对手势的定义是有区别的。从手势识别的角度考虑,手势可定 义为“手势是人手或者手和手臂结合产生的各种姿势或动作,它包括静态手势( 指 姿态,单个手形) 和动态手势( 指动作,由一系列姿态组成) 1 2 l 。由于手势本身 具有的多样性、多义性以及时间和空间上的差异性等特点,加之人手是复杂变形 体以及视觉本身的不适定性,因此基于视觉的手势识别是一个多学科交叉的、富 有挑战性的研究课题。为了寻找突破口,必须研究人际交流中的手势用法,从而 确定合理的研究范围。人们对手势做了不同的分类: ( 1 ) 交互性手势与操作性手势,前者手的运动表示特定的信息( 如乐队指挥) ,靠 视觉来感知,后者不表达任何信息( 如弹琴) ; ( 2 ) 自主性手势和非自主性手势,后者与语音配合用来加强或补充某些信息( 如 演讲者用手势描述动作、空间结构等信息) ; ( 3 ) 离心手势和向心手势,前者直接针对说话人,有明确的交流意图,后者只是 反应说话人的情绪和内心的愿望。 手势的各种组合相当复杂,因此,在实际的手势识别系统中通常需要对手势 做适当的分割、假设和约束。例如,可以给出如下的约束: ( 1 ) 如果整个手处于运动状态,那么手指的运动和状态就不重要; ( 2 ) 如果手势主要由各手指之间的相对位置构成,那么手就应该处于静止状态。 1 3 计算机手势输入技术 利用计算机识别和解释手势输入是将手势应用于人机交互的关键前提1 捌。 第一章绪论 目前人们采用了不同手段来识别手势: ( 1 ) 基于鼠标器和笔,缺点是只能识别手的整体运动而不能识别手指的动作;优 点是仅利用软件算法来实现,从而适合于一般桌面系统。需要说明,仅当用 鼠标光标或笔尖的运动或方向变化来传达信息时,才可将鼠标器或笔看作手 势表达工具,这类技术可用于文字校对等应用。 ( 2 ) 基于数据手套( d a t ag l o v e ) ,数据手套是虚拟现实系统使用的传感设备。用户 通过数据手套与虚拟世界进行交互操作,例如做出各种手势向系统发出命令。 这种输入方式的优点是:输入数据量小,速度高,能直接获得手在空间的三 维信息和手指的运动信息,可识别的手势种类多。但这种方法会给用户带来 不便( 如出汗) ,而且相对而言较为昂贵( 需专门购买) 。 ( 3 ) 基于计算机视觉,即利用摄像机输入手势,其优点是不干扰用户,这是一种 很有前途的技术,目前有许多研究者致力于此项工作。 1 4 1 系统构成 1 4 基于视觉的手势识别研究现状 一个基于视觉的手势识别系统的总体构成如图1 1 所示。首先,通过一个或 多个摄像机获取视频数据流。接着,系统根据手势输入的交互模型检测数据流里 是否有手势出现。如果有,则把该手势从视频信号中切分出来。然后,选择手势 模型进行手势分析,分析过程包括特征检测和模型参数估计。识别阶段,根据模 型参数对手势进行分类并根据需要生成手势描述。最后,系统根据生成的描述去 驱动具体应用。 婆斟竺竺 多个摄像机ll 。1 “” 手干 势l 用户 1 4 2 手势建模 剥手势撕嘲手势删卜剖舔嚣 手势建模 图1 1 基于视觉的手势识别系统构成图 语法、语义 及其它约束 手势模型对于手势识别系统至关重要,特别是对确定识别范围起关键性作用, 模型的选取根本上取决于具体应用。对于某个给定的应用,一个非常简单并且粗 4 基于傅立叶描绘子的手势识别算法 糙的模型( 例如,文献 2 】使用图像梯度方向直方图去跟踪人手以及识别静态手势) 可能就是充分的。然而,如果要实现自然的人机交互,那么必须建立一个精细有 效的手势模型,使得识别系统能够对用户所做的绝大多数手势做出正确的反应( 识 别或拒识) 。从目前的文献来看,几乎所有的手势建模方法都可以归结为两大类【z j : 基于表观的手势建模和基于3 d 模型的手势建模。基于表观的手势模型是建立在 手( 臂) 图像的表观之上,它通过分析手势在图像( 序列) 里的表观特征去给手 势建模。基于3 d 模型的手势建模方法考虑了手势产生的中间媒体( - y - 和手臂) , 一般遵循两步建模过程:首先给手和手臂的运动以及姿态建模,然后从运动和姿 态模型参数估计手势模型参数。图1 2 对这两类手势模型进行了进一步的分类。 手势模型 基于3 d 手( 臂) 模型的手势建模基于表观的手势模型 叫hh h罔阕罔降 建立在图像属性基础上的手势建模把从图像属性抽取的参数统称为图像属性 参数,它们包括:轮廓、边界、图像矩、图像特征向量以及区域直方图特征等等, 例如,文献【3 】使用了基于边界的轮廓特征。由于图像矩的计算简单,因此常被用 作图像属性参数。其它常被使用的属性参数还包括z e r n i k e 矩,方向直方图,颜 色直方图等等。 1 4 3 特征分析 在任何识别系统中,选择合适的特征都是非常关键的。由于图像数据本身具 有冗余性,直接利用图像数据作为特征是不合理的。因此,特征提取阶段的目的 就是去除图像数据的冗余性,找出与有用信息对应的一系列用数值表示的特征, 并用这些特征代表图像。这些特征应满足以下要求: ( 1 ) 来自同一类物体( 手势) 的图像必须有相似或相近特征; ( 2 ) 对于来自于不同类物体( 手势) 的图像,它们的特征必须显著不同; ( 3 ) 所选特征必须具有尺度、旋转和平移不变性,这意味着,在识别过程中,必 第一章绪论5 须考虑到物体( 手势) 的尺寸、位置和方向。 手势特征分析阶段的任务就是估计选定的手势模型的参数。特征分析阶段一 般由特征检测和参数估计两个串行任务组成。在特征检测过程中,首先必须定位 手势的主体( 人手) 。根据所用的线索不同,可以把定位技术分为基于颜色定位, 基于运动定位,以及多模式定位等三种。绝大多数颜色定位技术依赖于直方图匹 配或者利用皮肤的训练数据建立查找表的方法。基于颜色定位技术的主要缺点是 在不同的光照条件下皮肤颜色变化较大,这经常导致未被发现的皮肤区域或者误 检测出非皮肤区域。利用限制性背景或者颜色手套,使得高效地、甚至实时地定 位人手成为可能,然而对用户以及对接口设备施加了明显限制。 尽管不同手势模型的参数各不相同,但是用于计算模型参数的图像特征基元 通常是非常相似的。常用的图像特征基元包括灰度图像、二值影像、区域、边界 及轮廓或者指尖等。 1 4 4 手势识别 手势识别就是把模型参数空间里的轨迹( 或点) 分类到该空间里某个子集的 过程。静态手势对应着模型参数空间里一个点,而动态手势则对应着模型参数空 间里的一条轨迹。目前主要采用的识别方法有模板匹配方法、神经网络方法及隐 马尔可夫模型( h m m ) 。模板匹配主要用于少量孤立手势的识别,该方法计算简单、 速度快。神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能 力不强,目前广泛用于静态手势的识别。著名的f e l s 的g l o v et a l k 系统采用神经 网络方法作为识别技术。对于分析区间内的手势信号,通常采取h m m 方法进行 模型化。h m m 是众所周知并广泛使用的统计方法,一般拓扑结构下的h m m 具 有非常强的描述手势信号的时空变化能力,在动态手势识别领域一直占有主导地 址。在基于h m m 的识别算法里,每种手势有一个h m m ,可观察符号对应着模 型参数空间里的向量( 点) ,例如几何矩向量,z e m i k e 矩,特征图像系数向量, 或者3 d 空间的运动速度等等。基于h m m 识别技术的优点包括提供了时间尺度 不变性,保持了概率框架、以及具有自动分割和分类能力。然而正是由于h m m 拓扑结构的一般性,导致这种模型在分析手势信号时过于复杂,使得h m m 训练 和识别计算量过大。尤其是在连续的h m m 中,由于需要计算大量的状态概率密 度,需要估计的参数个数较多,使得训练及识别的速度相对较慢,因而以往手势 识别系统所采用的h m m 一般为离散h m m 。 6基于傅立叶描绘子的手势识别算法 1 5 基于视觉的静态手势识别的研究现状 到目前为止,手势识别的工作大多数都集中在动态手势的研究上,而对静态 手势的研究并不广泛。在对静态手势识别的研究中,c u i 和w e n g 5 j 在1 9 9 5 年通 过分割m d f ( t h em o s td i s c r i m i n a t i n gf e a t u r e ) 空间,使用最大差分特征对手势进 行了分类,该算法可以适应于复杂背景场合下;加利福尼亚大学的t r i e s c h 和 m a l s b u r g 在2 0 0 1 年提出用弹性曲线匹配( e g m ) 的方法模拟手指运动,对手势 分割的要求不高,在复杂背景下能达到8 5 的识别率;n o l k e r 和r i t t e r 6 在1 9 9 8 年提出使用一个局部线性映射( l l m ,l o c a ll i n e a rm a p p i n g ) 神经网络来定位二 维图像中的指尖,然后使用自组织特征映射( p s o m ,p a r a m e t r i cs e l f - o r g a n i z i n g m a p ) 神经网络将指尖的二维位置映射到三维坐标,由于p s o m 具有联想及偏畸 处理能力,所以该方法可以在不同视角识别手形;上述的这些方法虽然从不同的 角度解决了手势识别中遇到的各种问题,也得到了较高的识别率,但是他们的算 法都有一个共同的缺点:算法复杂,计算量大,达不到实时的要求。 1 5 1 静态手势输入 相对于数据手套和多目视觉的输入系统而言,基于视觉的静态手势识别系统 具有系统实现成本小、设备简单、使用方便的特点。所以本文讨论基于单目视觉 的静态手势识别技术,如图1 3 所示。 图1 3 基于视觉的静态手势识别系统流程图 对于单目系统,手势的分割有两种实现方法,一种方法是利用图像流( 即连 续多帧图像) 捕获输入手势,如文献 7 】,这种方法是对相邻图像间做差分运算, 利用差分图像判定视区中手势的存在性与稳定性。另一种方法是利用单帧图像, 通过变换图像颜色空间对肤色进行检测与聚类,来分割出手势区域,如文献 8 , 9 ,1 0 】。对变换后的颜色空间,要求能够很好地聚类肤色,并要考虑到光照条件、 皮肤表面高光和阴影对肤色聚类的影响。常用的颜色空间有州h i s ,x y z 等。 第一章绪论 7 1 5 2 静态手势特征提取 目前,常用的手势特征有:轮廓、边缘、图像矩( 如手形几何矩、z e r n i k e 矩) 、图像特征向量以及区域直方图特征等等。但对于静态手势识别而言,最常用 的特征是边缘信息。如在文献 7 】中,是以边缘的f r e e m a n 链码作为特征的,并通 过对边缘链码作差分、滤波等处理,提取出对噪声不敏感且具有几何不变性的特 征,从而实现特征的不变性。文献 1 1 】采用的方法是,首先求出手势的主轴方向, 该主轴方向通过手势的中心,并认为能够区分不同手势的特征信息主要分布在主 轴方向两侧的一定角度范围内,在该角度范围内,将手势边缘点到手势中心的距 离构成特征矢量,并对特征矢量进行归一化,即得到对应手势的特征。文献【9 】则 联合使用了手势的轮廓线特征和统计量特征。轮廓线特征包括指尖、指根等拐点 处的曲率,统计量特征包括手势的重心、主轴方向、等效矩形边长等,通过将这 些特征组合为特征矢量来区分不同的手势。 此外,有的文献也用到方向直方图、i c a ( 独立分量分析) 等方法提取手势 特征。其中,文献 1 2 】利用方向直方图作为手势识别的特征向量。虽然方向直方 图具有平移不变性,但它不具有旋转不变性。同一手势图像,经过旋转后,直方 图会不同。而且方向直方图不具有唯一性,即不同的手势图像可能会有相似的方 向直方图。i c a 是一种统计信号处理技术,可以看作是p c a ( 主成分分析) 的推 广。这种方法能够去除信号中高阶统计的相关性。i c a 特征通常与图像的边缘等 局部描述有关,它能够对图像的局部特征给出很好地表示。如文献 1 3 所述,利 用自适应随机梯度下降法,将测试集手势图像代入迭代公式即可得到独立分量空 间s 。独立分量空间s 反映了同一类手势的某种相似性,刻画了同一类手势的内 在特征,构成了手势的独立分量特征,因此具有鉴别不同手势的能力。 1 5 3 静态手势识别技术 目前基于视觉的静态手势识别技术主要有三大类【l 卅: ( 1 ) 模板匹配技术 这是一种最简单的识别技术,它将输入的原始数据与预先存储的模板进行匹 配,通过测量两个模板之间的相似度来完成识别任务。如文献【l o 就是利用改进 过的h a u s d o r f f 距离,通过计算预处理后的输入图像的h a u s d o r f f 距离和标准模板 库中各种图像的h a u s d o r f f 距离进行判断。 ( 2 ) 神经网络技术 神经网络方法这种技术具有自组织和自学习能力,具有分布性特点,能有效 8基于傅立叶描绘子的手势识别算法 地抗噪声和处理不完整模式以及具有模式推广能力。采用这种技术,在识别前都 需要一个对神经网络的训练( 学习) 阶段。,然而由于其处理时间序列的能力不强, 目前广泛用于静态手势的识别。著名的f e l s 的g l o v et a l k 系统采用神经网络方法 作为识别技术。 神经网络是一种大规模并行处理网络。由许多具有非线性映射能力的神经元 组成,神经元之间通过权相连神经网络能实现复杂的非线性映射,映射关系是通 过学习( 或训练) 得到的,神经网络具有很高的计算速度、很强的容错性和鲁棒 性,特别适合用于模式识别。 人工神经网络同现行的计算机不同,是一种非线性的处理单元。只有当神经 元对所有的输入信号的综合处理结果超过某一门限值后才输出一个信号,因此神 经网络是一种具有高度非线性的超大规模连续时间动力学系统,它突破了传统的 以线性处理为基础的数字电子计算机的局限,标志着人们智能信息处理能力和模 拟人脑智能行为能力的一大飞跃。 b p 神经网络是目前使用最广泛、方便的一种单向传播的多层前向神经网络, 除输入输出节点外还有一层或多层隐层节点,同层节点之间没有耦合,输入信号 从输入层节点,依次传过各层节点,最后到达输出层节点。如文献【1 5 】采用基本 的b p 神经网络对手势特征进行分类。文献 7 】是利用传统b p 神经网络、按照多 层次分析方法构造出多层b p 子网,来实现对手势由粗到细的分类。 ( 3 ) 统计分析技术 这是一种通过统计样本特征向量来确定分类器的基于概率统计理论的分类方 法。这种技术要求人们从原始数据中提取特定的特征向量,对这些特征向量进行 分类,而不是直接对原始数据进行识别。常用方法之一的是基于k l 变换的特征 提取方法( 又称主元分析方法,p c a ) 。 对于一系列图像 x ( p ) = x a ( p ) ,x 2 ( p ) ,h ( p ) 】f ( 1 - 1 ) 要找到一个特征向量集 w j = 【w , l ,w 2 ,】 ( 江1 ,2 ,m ,m “忉( 1 - 2 ) 相应的主分量为 t 曩= w id 。( p ) ( 1 - 3 ) 所以能量函数e 要小于一个能容忍的度 第一章绪论9 其中 e = 击( d 。( p ) 一y 如) ) ( d ,( p ) 一y ,( p ) ) 1 1p 2 1 一 。,( 1 - 4 ) p 一 f 一 , = 吾( d ,( p ) 一w - w - d ,( p ) ) ( d ,( p ) 一w 。w ,么( p ) ) j ,( p ) : 一 。x ( p )= 1 ( 1 - 5 ) 【x ( p ) 一( ,w 2 ,w 1 ) ( 如( p ) ,h 2 ( p ) ,红一l ( p ) ) o t h e r 乃( p ) = h i 嵋 最后的输出y ( p ) 应该尽量与x ( p ) 接近 m m, y ( p ) = 只( p ) = 忽w i ( 1 - 6 ) ( 1 - 7 ) i c a 是一种统计信号处理技术,可以看作是p c a ( 主成分分析) 的推广。文 献 1 1 】就是结合手势图像i c a 特征,利用i c a 方法识别手势。 1 6 论文的工作及章节安排 模式识别是人工智能研究领域之一,其狭义研究目标是为计算机配备各种感 觉器官,以便直接接受外界各种信息,如图形识别主要研究各种图形( 文字、符 号、各种照片和图像) 。基于计算机视觉的手势识别逐渐成为模式识别领域的一个 研究热点,国内外已有众多的学者对此课题从不同的角度、不同的层次从事了一 定的研究工作。本文在对手势识别算法进行了大量的理论和实践上的研究,提出 一种基于二维极坐标傅立叶描绘子和b p 神经网络的静态手势识别算法。本论文 的结构安排如下: 第一章绪论 本章首先阐述了手势识别技术的研究背景和研究概况;然后描述了基于视觉 的手势识别系统的构成、手势建模、特征分析及识别算法的研究现状;讨论了基 于视觉的静态手势识别技术研究现状,其中包括:手势输入技术,特征提取方式, 识别算法等方面;最后介绍了论文的工作和结构安排。 第二章手势图像的预处理 预处理的目的是去除噪声,加强有用的信息,并对输入测量仪器或其他因素 造成的退化现象进行复原。本文中的图像预处理包括三部分:图像增强、图像分 割和图像形态学处理。首先要对于输入的图像进行图像增强,增强感兴趣的信息, 而削弱或去除不感兴趣的信息;然后采用合适的图像分割方法,从图像中分割出 l o基于傅立叶描绘子的手势识别算法 手势;最后对分割出的手势部分进行形态学处理。本章首先介绍了图像增强、图 像分割和图像形态学处理的基本方法,然后重点描述了系统采用的处理方法,即 对输入的图像进行平滑,锐化处理后,对其进行灰度阈值分割,将得到的手势部 分图像进行膨胀和腐蚀处理。本章最后对于不同的图像进行了详细的实验并进行 分析。 第三章手势特征提取算法 本章重点提出一种基于二维极坐标傅立叶描绘子的手势特征提取算法。首先 介绍了轮廓跟踪的基本方法,然后针对传统的基于一维傅立叶描绘子的手势特征 提取算法进行研究,提出基于二维极坐标傅立叶描绘子的手势特征提取算法。并 且结合实验对通过图像预处理获取的用户手势区域,利用轮廓跟踪算法提取手势 边界点的坐标,分别采用一维傅立叶描绘子和改进的傅立叶描绘子提取了手势图 像的特征向量,并将两种特征提取方法进行了详细的比较分析。 第四章手势识别算法 本章重点研究了基于b p 神经网络的识别方法。首先从神经元模型、传输函 数、网络结构、学习方式及规则方面介绍了人工神经网络的基本原理,然后在此 基础上具体分析了b p 神经网络的主要思想、数学描述、功能优点以及缺点和改 进,最后通过实验从网络输入层的设计、隐层的设计、输出层的设计、网络的初 始化、学习速率的选择、期望误差的选取方面对b p 网络的设计进行了分析。 第五章手势识别原型系统 针对给出的本系统所使用的各种算法,本章主要介绍整个手势识别系统的实 现方法。首先介绍系统的整体框架,然后结合本文用到的算法介绍了系统的实现, 最后给出了整个系统的运行结果,并作相应的分析。 第六章结束语 本章将对本论文的工作做出总结,并指出尚未解决的问题和今后的研究方向。 第二章手势图像的预处理 第二章手势图像的预处理 图像在生成、传输或变换过程中会受到各种因素的干扰和影响,图像的画质 将会因噪声而在不同程度上出现畸变,必须对输入图像进行平滑、锐化、二值化 等预处理。预处理的目的是去除图像中的噪声,加强图像中的有用信息,并对输 入方式或其他原因造成的退化现象进行复原。图像预处理过程是对图像的一个过 滤过程,要排除干扰保留需要处理的部分,并过滤掉不需要的部分。由于成像设 备在读入手势图像时会扩大取景范围,其中含有很多无效的像素点,这会影响以 后的处理,增加计算量,因此首先完成的是尽可能准确的从读入图像中取出包含 被测物体的图像部分,这个过程的主要难度在于判断图像是否属于需要保留的部 分,且必需保证其准确性,否则将会对下一步图像分析和判断造成严重的影响。 2 1 1 图像平滑 2 1 图像增强 图像在生产和传输过程中常受到各种噪声的干扰和影响,使图像质量下降。 为了抑制噪声改善图像质量,必须对图像进行平滑处理,这可在空域或频域中进 行,在平滑噪声时应尽量不损害图像中的各种细节。对于滤除图像中的噪声,己 经有很多种方法。通常,将数字图像的平滑技术划分为两类:一类是全局处理, 即对噪声图像的整体或大的块进行校正以得到平滑的图像,例如在变换域中使用 w i e n e r 滤波、最小二乘滤波等,使用这些技术需要知道信号和噪声的统计模型。 但对于大多数图像而言,人们不知道或不可能用简单的随机过程精确的描述统计 模型,而且这些技术计算量也相当大;另一类平滑技术是对噪声图像使用局部算 子,当对某一像素进行平滑处理时,仅对它的局部小邻域的一些像素加以运算, 其优点是计算效率高,而且可以多个像素并行处理,因此可实现实时或准实时处 理。 ( 1 ) 局部平均法 局部平均法是一种直接在空域上进行平滑处理的技术。该方法认为图像是由 许多灰度恒定的小块组成,相邻像素间存在很高的空间相关性,而噪声则是统计 独立的。因此,可用像素邻域内的像素的平均灰度值代替该像素原来的灰度值, 实现图像的平滑。 最典型的局部平均法就是非加权邻域平均,它均等地对待邻域中的每个像素。 1 2 基于傅立叶描绘子的手势识别算法 该方法简单,计算速度快,但主要缺点是在降低噪声的同时使图像模糊,特别在 边缘和细节处,邻域越大,模糊程度越厉害。对上述算法的改进算法有超限像素 平滑法、灰度最相近的k 个邻点平均法、自适应滤波等。 设从高为h ( 以像素为单位) ,宽为w 的图像f ( x ,y ) ( o x w ,0 y h ) 中以( ) 点为中心,取出一个,2 n 的窗口( 邻域) ,经过平均后输出的该中心像素 的灰度值p ( i ,j ) ,非加权平均可表述为: f 宰( f ,歹) = 熹g ( w ) ( 2 - 1 ) n x ,2 :勺,三= 通常,将n 取为奇数,故式中l c = - ( n 1 ) 2 ,一般n 越大平滑效果越好,但计算量 也越大,同时造成的模糊也越明显。 ( 2 ) 中值滤波法 中值滤波也是一种局部平均平滑技术,它对于脉冲干扰和椒盐的抑制效果好, 在抑制随机噪声的同时能使边缘减少模糊。 中值滤波法是一种非线性的图像平滑方法,它对一个滑动窗口的诸像素灰度 排序,用其中值代替窗口中心像素原来的灰度值( 若窗口中像素是偶数个,则取 两个值的平均) 。 中值滤波的效果与局部平均的效果相比较,中值滤波有以下优点:一、降低 噪声的效果比较明显;二、在灰度值变化较小的情况下可以得到很好的平滑处理; 三、降低了图像边界部分的模糊程度。 ( 3 ) 频域平滑技术 图像的平滑除了可以在空域中进行外,也可以在频域中进行【1 6 - 1 。频域中的平 滑是一维信号低通滤波器概念在二维图像中的直接推广。图像经过二维傅立叶变 换后,噪声频谱一般位于空间频域较高的区域,而图像本身的频率分量则处于空 间频率较低的区域内,因此可以通过低通滤波器的方法,使高频分量收到抑制, 从而实现图像的平滑。滤波器的数字表达式为: g ( uv ) = h ( 屿v ) f ( uv )( 2 2 ) 其中f 沁v ) 为原图像的傅立叶变换,g 仳v ) 为平滑后图像的傅立叶变换,h 沁 v ) 是滤波器的转移函数。常用的低通滤波器有: 理想低通滤波器 理想低通滤波器的转移函数为: 1d 亿v 、 d 。 )o(2-3 其中或为截止频率,d ( u ,v ) = ( u 2 + 1 ,2 ) 2 是点( u ,v ) 到频率平面原点的距离。 理想低通滤波器虽然有陡峭的截至特性,但效果并不好。图像由于高频分量的滤 第二章手势图像的预处理 波而变得模糊,同时还会产生振铃效应。 b u t t e r w o r t h 滤波器 b u t t e r w o r t h 滤波器的转移函数为: 以v ) 2 = 蠡( 2 - 4 ) “并1 加 其中d 0 为截至频率,当d ( u ,v ) - - d o 和n = l 时,h ( u ,v ) 降为最大值的1 2 。n 为阶数,取正整数,阶数n 控制曲线的形状。由于转移特性曲线较为平滑,没有 振铃效应,故将减少图像的模糊。 指数形滤波器 指数形滤波器的转移为: 脚) = 晰【警n ( 2 - 4 ) 其中d o 为截至频率,n 为阶数,当d ( u ,v ) = d o 和n = l 时,h ( u ,v ) 降为最 大值的1 e 。图像较b u t t e r w o r t h 滤波器模糊一些,但没有振铃效应。 2 1 2 图像锐化 图像在传输过程中,传递函数对高频分量有衰减作用,造成图像模糊,细节 轮廓不清楚,图像锐化就是补偿图像的轮廓,增强图像的边缘灰度跳变的部分, 使图像变得清晰,图像锐化可在空域或者频域中进行处理。 ( 1 ) 梯度锐化 梯度有两个重要的性质: 梯度的方向在函数f 取,y ) 最大变化率方向上 梯度的幅度用g f ( x ,”】表示,其值为: g f ( x ,y ) 】2 ( 2 - 5 ) 由式( 2 5 ) 可得出这样得结论:梯度的数值就是f ( x ,y ) 在其最大变化率方向上 的单位距离所增加的量。 对于离散的数字图像,式( 2 5 ) 可写成: g i f ( 例= 瓜而丽丽而丽丽 ( 2 6 ) 通常可以近似为下面的形式: 1 4 基于傅立叶描绘子的手势识别算法 g f ( i ,) 】= 【厂( f ,) 一厂( f + 1 ,+ 1 ) 】2 + 厂( f + 1 ,) 一厂( f ,+ 1 ) 】2 ( 2 - 7 ) 这个公式称为r o b e r t s 梯度。因为它运算简单、实用,而且效果也不错,通 常在实际运用中也采用该梯度公式。 ( 2 ) l a p l a c i a n 算子法 可借助于l a p l a c i a n 算子来实现空域的高通滤波,其表达式为: g ( x ,y ) = f ( x ,y ) + iv 2 f ( x ,y ) i( 2 8 ) v 2 f ( x ,y ) 为l a p l a c i a n 算子,具有高通性质。 v 2 m 川= 警+ 孑 ( 2 - 9 ) 在计算机处理时,一般采用二阶差分运算来近似实现微分运算的,公式如下: v 2 f ( x ,y ) = f ( x + l ,y ) + f ( x - 1 ,y ) + f ( x ,y + 1 ) 4 - f ( x ,y - 1 ) - 4 f ( x ,y )( 2 - 1 0 ) 0 - 10 其模板形式为呒= l - 1 4-1 i l0 1 0j ( 3 ) 理想高通滤波( i h p f ) 传递函数为: h ) :f 0d ( 甜,v ) d o ( 2 - 1 1 ) 脚,v ) = 1 d 品,- d 0 其中或为截至频率,d ( u ,v ) = ( u 2 + v 2 ) “2 是频域平面点仳v ) 距原点的距离, 高通滤波后,其输出图像g ( x ,y ) d p 含有频率大于( 或等于) 截至频率d 0 的频谱成 分,而其它低于d 0 的频谱成分被彻底滤掉了。 ( 4 ) 巴特沃思( b u t t e r w o r t h ) 高通滤波器( b h p f ) 两种传递函数 2 而瓦1 掰 以卜击 p 1 3 ) 其中n 的大小决定了衰减率。两者区别在于截至频率的定义不同。 第二章手势图像的预处理 1 5 2 2 图像分割 图像分割的目的是将图像空间分割成一些有意义的区域。例如,一幅航空照 片,可以分割成工业区、住宅区及湖泊等。这里“有意义”的内涵随着解决的问 题的不同而不同。在本论文中的“有意义”的区域就是手势区域,就是要从输入 的手势图像中分割出手势。 阈值分割方法是把图像的灰度分成不同的等级,然后用设置门限的方法确定 有意义的区域或欲分割物体的边界,根据图像处理的目标要求,需要把多灰度级 的图像变成只有两个灰度级的图像,即对图像进行二值化。设图像坟x ,y ) 的灰度 值范围在hb 】,二值化阈值设为t ( a t b ) ,则二值化处理的一般式为: 出= 忙黎棠焉 p g ( x ,y ) 是二值图像,通常用1 来表示对象物( 黑色区域) ,用0 来表示背景区域( 白 色区域) 。对阈值t 的选择有多种方法,它决定着二值图像的质量。按照阈值t 的选择方法,图像二值化可分为以下几种: ( 1 ) p 参数法 当预先知道对象物在图像中所占的面积比率时,将灰度直方图中面积比率为 p 的点作为阈值,这种方法称为p 参数法( p t i l em e t h o d ) 。但在实际中,对象所占 的面积比率一般不能预先知道,通常都是按照一定的规律推算出来的。例如在书 画作品中,文字部分所占的面积比率一般情况下是可以估计出来的,这时用这种 方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论