




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北鏖交道太堂亟j 垒奎生窒垴墨 中文摘要 摘要:最近几年,随着计算机技术的迅猛发展,人与计算机的交互活动日益频繁, 人机交互也成为人们日常生活的一个重要组成部分。依靠传统的交互方式,用户 通过键盘、鼠标向计算机输入信息,这种方式的弊端在于用户不能以习惯的方式 ( 如手势、语音) 与计算机进行交互;而现代的交互方式冲破了人机通信的瓶颈, 充分体现了以人为本的思想,通过手势、语音等方式实现人机交互,是一种多媒 体、多种模态的交互技术。 手势是一种自然、直观、易于学习的人机交互手段,与鼠标相比,手势不但 提供了更加丰富的空间信息,而且自然舒适符合用户的交互习惯。手势的识别就 是根据用户的手势识别手势的含义。本文描述一个基于数据手套的手势识别系统。 本文采用中科院研发的c a s g l o v e 型数据手套,针对传感器的特性,将传 感器的原始数据转换为角度数值,提高了系统的精确度和识别率。本文分析了手 形的几何关系,建立了虚拟手的模型,由数据手套的数据接口获取各指节的曲伸 角度,建立手势标准样本库,实现了基于b p 神经网络的手势识别方法,用手势标 准样本加以训练,使其具备识别手势的功能。 本文还提出了基于决策树的手势识别方法,实现了实时识别功能。该算法非常 简单,识别速度快,识别率高,其缺点是容易造成误差的累积,使决策树中离根 节点较远的样本识别率较低,而且无法进行拒识别。 关键词:手势识别数据手套b p 神经网络决策树 i e 立交通太堂亟监奎 旦s 至r 工 a b s t r a c t a b s t r a c t r e c e n t l y , w i t ht h er a p i dd e v e l o p m e n to f t h et e c h n o l o g yo f c o m p u t e r , t h o i n t e r a c t i o nb e t w e e nh u m a na n dc o m p u t e ri sm o r ea n dm o r ec o n t i n u a l 。a n di tb e c o m e sa l l i m p o r t a n tp a r to fo u l d a i l yl i f e b yt h et r a d i t i o n a lw a yo fi n t e r a c t i o n , t h ec o n s u m e r 8 i n p u t t h ei n f o r m a t i o nw i t ht h eb o a r do rt h em o u s e t h ea b u s eo f i ti st h a tt h ec o n s l l m e l - s c a n n o tc o m m u n i c a t ew i t ht h ec o m p u t e rw i t ht h e i rh a b i t u a lm o d e s , s u c ha sg e s t l l r e , v o i c ee t c b u tt h em o d e mm o d e so ft h ei n t e r a c t i o nb r e a kt h ec h o k ep o i mo ft h e i n t e r a c t i o nb e t w e e nh u m a na n dc o m p u t e ra d e q u a t e l yr e p r e s e n tt h ei d e ao f h u m a n b e i n g s 钟p r i n c i p a l ”i ti sa ni n t e r a c t i o nt e c h n o l o g yo fm u l t i m e d i aa n dm u l t i m o d et o a c t u a l i z et h ei n t e r a c t i o nb e t w e e nh u m a na n dc o m p u t e rb yg e s t u r eo rv o i c e g e s t u r ei san a t u r a l i n t u i t i o n i s t i ea n de a s ym o d ef o rt h ei r i t e r a c t i o nb e t w e e n h u m a na n dc o m p u t e r c o m p a r e dw i t ht h en l o l l s e ,g e s t u r en o to n l ys u p p l i e sm o r e p l e n t i f u ls p a c ei n f o r m a t i o n , b u ta l s oa c c o r dw i t i lo u rh a b i to ft h ei n t e r a c t i o nw h i c hi s m u c hm o r es p o n t a n e o u sa n dc o n v e n i e n t g e s t u r er e c o g n i t i o nm e a n f lt h a tw ec a n r e c o g n i z et h em e a n i n ga c c o r d i n gt h ec o l l s u m e l sg e s t u r e t h ep a p e rd e s c r i b e sag e s t u r e r e c o g n i t i o ns y s t e mb a s e do nd a t ag l o v e w eu s et h ec a s g l o v e d e v e l o p e db yc a s w e t r a n s f o r mt h eo r i g i n a ld a t ai n t ot h e a n g l ev a l u ea c c o r d i n gt h ec h a r a c t e r i s t i co ft h es e n s o r s ,a n dt h e nt h ep r e c i s i o no ft h e n e t - t r a i n i n g nb ee f f e c t i v e l yi m p r o v e d t h i sp a p e ra n a l y s e st h eg e o m e t r i cr e l a t i o no f h a n ds h a p e s t h em o d e lo fv i r t u a lh a n di sc o n s t r u c t e d t h et o r t i l ea n g l ed a t ao fe a c h j o i n ti sg o tf r o mt h es e r i a ld a t ap o r to ft h eg l o v e t h es t a n d a r ds a m p l ec o p yl i b r a r yi s b u i l t w ea c h i e v et h eg e s t u r er e c o g n i t i o nw i n lb pn e u r o nn e t w o r k s t h en e t w o r ki s t r a i n e db yt h es t a n d a r ds a m p l e s ,a n di th a st h ef u n c t i o no f g e s t u r e r e c o g n i t i o n w ea l s op u tf o r w a r dt h em e t h o do fg e s t u r er e c o g n i t i o nb a s e do i ld e c i s i o nt r e e ,a n d a c h i e v er e a lt i m er e c o g n i t i o n t h i sa r i t h m e t i ci ss i m p l e r , c o s t sl e s st i m e , a n dh a sa l a i g h e rr e c o g n i t i o nr a t e t h ed i s a d v a n t a g ei st h a ti tc s u s c st h ea c c u m u l a t i o no fe l t o r e a s i l y , s ot h er e c o g n i t i o nr a t eo ft h es a m p l ew h i c hi sf a rf i o mt h er o o tn o d ei sl o w e r , m o r e o v e r , i tc a l l tr e j e e tt h er e c o g n i t i o n k e y w o r d 8 :g e s t u r er e c o g n i t i o nd a t ag l o wb pn e u r o nn e t w o r k s d e e i s i o nt r e e 致谢 在论文完成之际,我衷心的感谢我的导师阮秋琦教授。阮老师在我就读 硕士研究生期间在学习和生活上始终给予了耐心细致的指导和无私的帮助。我学 到的不仅仅是过硬的专业知识,更重要的是通过阮老师严谨的治学态度的和勤奋 的工作精神,使我学到了进行学术研究的方法,并在实践中得到宝贵的锻炼机会。 所有这些将使我在今后的学习和工作中受益匪浅,研究生的经历将使我受益终生。 在论文完成之际,请允许我对导师阮秋琦教授表达深深的敬意和诚挚的谢意。 在多年的学习阶段,信息所的其他老师也给予了我极大的关心和帮助。在论 文完成之际,我还要感谢尊敬的袁保宗教授、唐晓芳老师以及信息所的其他老师, 感谢他们对我的指导以及他们严谨求实的作风对我的影响,还有中科院的博士生 郑海波,他不厌其烦的耐心指导让我深受感动。 在学习期问,我的很多想法得益于和同学之问的交流,从他们的身上我也学 到了不少东西,得到了许多帮助,在此谨向他们表示诚挚的谢意。 最后,感谢我的父母和亲人,他们在我学习阶段给了我许多关怀和鼓励,我 能够完成学业与他们的关怀和帮助密不可分。 1 1 手势识别概述 1 1 1 手势的定义 1 绪论 手势是指人手或者手臂结合产生的各种姿势或者动作,它包括手形( p o s t u r e , 指姿态) 和动态手势( g e s t u r e ,指动作,由一系列姿态组成) 。它包括两方面的含 义:手的运动及其表达出的手势者的意图或者说手势所表达的概念。 根据手势的时变特征,可将手势分为静态手势( s t a t i cg e s t u r e s ) 和动态手势 ( d y n a m i cg e s t u r e s ) 。静态手势是一种手的特殊形状或姿势,是指只需用手的形状 特征来表示的手势。从测量的角度看,静态手势可用某一时刻手的空间特征的测 量值来表示。动态手势是运动的手势,它由一组序列图像组成,特指需要使用随 时间变化的空间特征来描述的手势。从测量的角度看,动态手势需用一段时间内 手的空间特征的一组测量序列值来表示。 同时,人们根据不同的角度,对手势做了不同的分类:1 1 】 表1 手的运动分类 t a b 1t h ec l a s s i f i c a t i o no f h a n dn l o v o m o n t 手掌的位手指弯曲度 置和方向 不考虑手指静止手指运动 不考虑无手指的状态例如:拳头用手指做手势 手掌静止手掌的状态方向及状态有方向地做手势 例如:拇指朝下例如:再见过来 手掌运动用手掌做手势摆姿势用手势表示 例如:重击或敬礼例如:强烈要求过来 交互性手势与操作性手势。前者手的运动表示特定的信息( 如乐队指挥) ,靠 视觉来感知;后者不表达任何信息( 如弹琴) 。 自主性手势和非自主性手势。后者与语音配合用来加强或补充某些信息( 如 演讲者用手势描述动作、空自j 结构等信息) 。 离心手势和向心手势。前者直接针对说话人,有明确的交流意图,后者只 是反应说话人的情绪和内心的愿望。 另一种分类方法是将手的运动分解为两个可测量分量:手掌方向位置和手 北赢坌遵太堂亟:i 金奎绻j 金 指弯曲度,并根据这两个分量的不同组合对手势做了表l 所示的完备的分类。 可见手势的各种组合相当复杂,因此、在实际的手势识别系统中通常需要对 手势做适当的分割、假设和约束。 1 1 2 手势识别的研究背景 1 9 9 1 年,h a n sr i j p k c m a 和m i c h a e lg i r a r d 研究了用于机器人基于知识的手动 作1 2 】。1 9 9 4 年,r a n l o nm a s s a n s o 和d a n i e lt h a l m a n n 研制了一种用合成手动作的 控制与抓取系统【3 1 ,它是基于物理约束的手抓取过程。1 9 9 5 年,l e e j i n t a e 和k u n i i t o i s y a s u l 研究了用立体图像数据来自动分析三维手势,用摄像机拍摄手的运动图 像,使用轮廓提取边界特征进行识别的方法,成功地提取了2 7 个交互作用手的参 数,实现了三维手势的重构【4 l 。1 9 9 7 年,加拿大多伦多大学的s s i d n e yf e l s 开发 的g l o v e - t a l k ,是一种用神经网络识别手势的系鲥5 】。这些研究为虚拟现实交互技 术和机器人研究的发展做出了贡献。 此外,c h a r a y a p h a n 和m a r b l e 研究了一种用图像处理的方法来识别3 1 个美国 手语词,可以正确识别出其中的2 7 个【6 】。s t a m e r 用基于视觉的方法,从二维图像 中提取特征,采用h m m 模型,对4 0 个词构成的具有很强语法约束的短小语句进 行识别,识别率为9 9 2 略”。f e l s 和h i n t o n 等人开发了一个用v p l d a t a g l o v e m a r ki i 数据手套和p o l h c m u s 跟踪器作为输入设备的系统,使用神经网络对手势进行聚类 瞵一。r h l i a n g 和m o u h y o u n g 用h m m 的方法实现包括7 1 2 5 0 个手语词 的基于数据手套的台湾手语的连续识别【l 川。k i s t ig r o b e l 和m a r c c l la s s a n 用h m m 识别2 6 2 个孤立的手语词,识别率为9 1 3 【儿1 。c v c l g l e r 和d m e t a x a s 用h m m 技术实现5 3 个美国手语词构造的连续语句的识别【1 2 1 。c v o g l e l 和d m g t a x a s 提出用“音子”代替整个词作为识别基元的方法来实现连续语句识别,他们对2 2 个 手语词做实验,发现基于音子和基于词的识别率相差不大【”h 4 】。w e ng a o 等人提 出了大词汇量的中国手语识别系统,1 0 6 4 个孤立词的识别率为9 0 左右,具有嵌 入式训练的2 2 0 个词构成的8 0 个句子的识别率为9 5 2 t i s l 。w e ng a o 等人还实现 了一个中国手语自动翻译系统,其中5 1 7 7 个孤立词的离线识别率为9 4 8 1 6 1 。 在基于视觉的方法方面,具有代表性的研究成果包括:1 9 9 1 年富士通实验室 完成了对4 6 个手语符号的识别工作飞j d a v i s 和m s h a h 将戴上指尖具有高亮标记 的视觉手套的手势作为系统的输入,可识别7 种手势;s t a r n c r 等在对美国手语中 带有词性的4 0 个词汇随机组成的短句子识别率达到9 9 2 嘣1 9 2 0 ;i cg r o b d 和m a s s a m 从视频录像中提取特征,采用h m m 技术识别2 6 2 个孤立词,正确率为 9 1 3 2 q 。 2 利用数据手套等典型传感设备的方法中,台湾大学的l i a n g 等人利用单个,l 数据手套作为手语输入设备,可识别台湾手语课本中的2 5 0 个基本词条,识别率 为9 0 5 【毖2 3 1 ,c m u 的c h r i s t o p h e rl e e 和x u 在1 9 9 5 年完成了一个操纵机器人 的手势控制系统【2 4 】;m w i 【a d o u s 用p o w e rg l o v e s 作为手语输入设备,识别由 9 5 个孤立词构成的词汇集,正确率为8 0 2 s 。 1 1 3 手势识别技术的分类及比较 针对人的手势有多种研究方向:最热门的是以佩带式输入设备 ( b o d y - i n s t r u m e n t a t i o n ) 为基础的研究以及以计算机视觉为基础的自然手势识别研 究。 在以佩带式输入设备( b o d y - i n s t r u m e n t a t i o n ) 为基础的手势识别研究中,常使用 的输入设备主要有数据手套和3 d 跟踪装置等。数据手套采用具有一定弹性的材料 制成,在其相应于人手的关节处放置用于检测手指弯曲、外展、以及手腕动作的 传感器。它的基本功能是实时地测量人手各个关节角度的变化,并将这些信息送 往生成虚拟环境的计算机,从而使用户以一种比较自然的方式与计算机生成的虚 拟环境进行实时交互。当用户带上数据手套时,计算机通过采样信号控制器对各 个传感器进行信号采样和处理,即可将用户手的姿态和动作信息传递给计算机, 从而达到人机交互的目的。数据手套的组成及工作原理如图l 所示。其中,初始 化( o p e n g l 、通讯端口等) 模块主要完成运行前的自动初始化工作;控制模块主 要负责总体控制系统运行以及各个模块之间的协调调度等;通讯模块通过串口组 织计算机与d s p 控制器进行通讯;绘图输出模块控制虚拟手的实时绘制;数据处 理模块从计算机的串口中送入的传感器信息转变成弯曲的角度信息;力反馈输出 模块设置力反馈方式及输出端口:标定模块主要在使用前对数据手套进行标定, 确定传感器的最对最小弯曲角度;数据采集模块将数据手套的传感器信息经d s p 信号处理后送入计算机的串口;角度校准模块用于调试阶段校准各个弯曲角度数 值。 三维跟踪装置可以实时给出物体的空问位置,根据这一特点,通过将其安装 在手语发话者的手掌和胳膊上的相应部位,借助于适当的算法就能得到手掌和手 臂在空间中的位置和姿势方面的信息。以佩带式输入设备( b o d y - i n s a u m c n t a t i o n ) 为 基础的手势识别研究的主要优点是可以测定手指的姿势和手势,但是相对而言较 为昂贵,并且有时会给用户带来不便。 f i g lt h es t n t o t u r ea n dw o r kp r i n c i p l eo f d a t a g l o v e 以计算机视觉为基础的自然手势识别研究,就是利用摄像机输入手势。系统 首先通过一个或多个摄像机获取视频数据流;接着,系统根据手势输入的交互模 型检测数据流是否有手势出现,如果有,则把该手势从视频信号中切分出来;然 后,选择手势模型进行手势分析,分析过程包括特征检测和模型参数估计,识别 阶段,根据模型参数对手势进行分类并根据需要生成手势描述;最后,系统根据 生成的描述去驱动具体应用。基于视觉的手势识别系统的总体结构如图2 所示。 厂 塑塑塑垒 三蔓至亘 ( j 至壶基e _ ! 竺望竺q 二乎手势描述 畸t 南嶝 图2 基丁二视觉的手势识别流程 f i 9 2t h ef l o wc h a r to f g e s t u r er e c o g n i t i o nb a s e d v i s i o n 此外,对于自然手势识别的研究还可以基于鼠标器和笔,缺点是只能识别手的 整体运动而不能识别手指的动作;优点是仅利用软件算法来实现,从而适合于一 般桌面系统。需要说明,仅当用鼠标光标或笔尖的运动或方向变化来传达信息时, 才可将鼠标器或笔看作手势表达工具。这类技术可用于文字校对等应用。 1 1 4 手势识别的发展方向 4 北京交道太堂亟论塞绪论 目前虽然已经实现了一些手语识别系统,但是手势识别的研究重点都在静态 手势的识别,其技术难点有以下几点: 1 手势目标检测的困难 2 手势目标识别的困难 目标的实时截取是指在人以复杂的背景条件下从图像流中截取出目标来,这 是机器视觉主要研究的课题之一。目前已有许多针对专用自动视觉系统的较为成 熟且易于实现的技术。例如,利用目标窗与背景窗的直方图分割目标的方法,基 于多图像信息的目标分割方法以及二维熵的阈值分割方法等。 手势识别则是根据人手的姿态以及变化过程来解释其高层次的含义,提取出 具有几何不变性的特征是其关键技术 2 6 1 。 1 由于手是弹性物体,故同一种手势之间差别很大; 2 由于手有大量冗余信息,由于人识别手势关键是识别手指特征,故手掌特 征是冗余信息; 3 由于手的位置是在三维空间,因此难以定位,并且计算机获取的图像是三 维向二维的投影,因此投影方向非常关键; 4 由于手的表面是非光滑的,因此易产生阴影。 另外,对于基于数据手套的手势识别系统,手套的大小会限制手套的戴用者 范围;手套与手之间会发生滑移,影响精度等。对于基于视觉的手势识别系统, 假设景物中运动且具有人体皮肤色度特征的物体就是做手势的人手,这个假设在 景物中出现大面积人脸时就不成立了。针对上述问题,我们应该将基于机器视觉 的手势识别方法和基于佩带式输入设备的手势识别方法两种方法在将来的研究中 应当结合起来,二者互相辅助。 期待尽快在一般手势的识别问题上取得突破是不现实的。但我们应该看到, 即使在现有的技术条件下,手势输入仍然展现出广阔而美好的应用前景。这也将 进一步促进手势识别技术的研究。 1 2 中国手语介绍 手语是聋人之间的交流语言,包括手指语和手势语。手指语是用手指的指式 变化和动作代表字母,并按照拼音顺序依次拼出词语:在远古时代,全人类都处 在简单的有声语言阶段,常常用手做各种姿势来表示意思,这样的手势大多数是 指示性和形象性的动作,叫做自然手势。此后,随着社会的进步,特别是聋人教 育的发展,开始创造出具有语言性质的手势,这种在有声语言和文字基础上产生 的,与有声语言密切结合的手语,称之为人为手势。自然手势和人为手势结合成 韭塞塞逼太堂醚土论塞缮i 金 为手势语。 扇子我国幅员辽阔,入日众多,如同汲谬脊各地方蠢一样,手语魂有各种不 同的地方手语。5 0 年代后期,中国聋哑人福利会修订出一套聋哑人通用手语草 图( 四辑) ,这是我国聋人警语规范化工侔豹开端。1 9 7 9 年,中国囊入聋哑人 秘会将鞭有戆圈瓣修订为嚣耩,定名态聋凝入逶露手滠瀚,激螽,又陆续编 纂了第3 辑和第4 辑。1 9 8 5 年底,又对这四辑手语单词进行增删、修订,在1 9 8 7 年召歼的全国第三次手语工作会议上,将簿哑人通用手语图易名为中国手 浯。1 9 9 0 年,孛莛聋久捺会缡辑戆中国警语i 具书燕式窭叛发纷,1 9 9 4 年 又组织编写、出版了中国手谬续集,对推广手语,规范手语,宥稳麓要意义。 猩中国手语的发话过程中,发话者的信息分别由身体动作( 例如鞠躬) 、手 指字母与手部动馋( 单手、双警) 的配合、警部与身体萦一部位的配会( 与身体 静配会或与匿部表情的配合) 绘蹬。按其发话的动作来分,中国手语黪谪汇可敬 被分为以下几种炎溅【2 8 1 : ( 1 ) 手指语: 葶攒语绘爨掰鸯豹汉语拱豢字母致及数字,著与其它动终配合给掇褪痤懿谲 汇。一些手语词汇荫手指语单独给出,如“剪子”、“还给”、“否定”、“成功”等, 而另些词汇则由字母连打组成,如“支部”、“行政”。 ( 2 ) 单手手璐词汇: 举手手语词汇由一哭手与身体兹菜一部彼,霹痦、嘴艨、耳朵、下领、前额 等配食给出。在单筝手语中,除去手指语之外,其余都与视觉有关,如“想念”、“声 音”等,均与耳朵、脸孔、嘴唇等有位置关系。 ( 3 ) 双手手渗漏汇: 谯双手手语词汇的发话过程中,一只手为主导手( 通常是右手) ,而另外一 只手则为从手。与燕手相比,从手的动作比较简单,而鼠常常与主手动作对称在 双手等语孛,约有6 豹手语为游态静,帮褒警语发话过程巾起始手形粒终止手形 相同,丽且手在空两的位置也没有发生交健( 翔“门”、“房子”) 等。大部分手 语词汇的发话过程为动态的。农手语的发话过程中手的运幼轨迹有直线( 如“平 等”) 、圆弧( 如“搬”) ,也有比较复杂的“之”字型,( 如“芭蕾舞”) 因此其识 囊氇院较嚣难。 ( 4 ) 其它; 在中国手语中还存在一些由身体本身的动作所形成的词汇( 例如“鞠躬”和 一些必鬟身体与手翳熬配合两形成豹词汇,如“舞蹉”) 等。 葶谮是聋睡入使用的语言,是由手螫动作辘之以表情姿势由符号构成酶魄较 稳定的表达系统,蹩一种靠动作视觉交际的语言。手语识别的研究目标是让机器 6 “看懂”聋人的语言。手语识别和手语合成相结合,构成一个“人一机手语翻译 系统”,便于聋人与周围环境的交流。 中国手语手指语是由字母语言发展起来的,又称指拼法,手指拼法,简称指 语,即用手指的指式变化代表字母,按照汉语拼音方案拼成普通话。中国手语共 有3 0 个手指字母( 参见图3 中的中国手语手指字母图) ,汉语句子中的任意一个 词语都可以根据汉语拼音由序列手指字母表示。一些专有名词、地名和人名只能 通过手指语进行交流。所以,手指语识别,即汉语手指字母流的识别,对于手语 识别研究领域是至关重要的。 酋嗡q 耍兮 a 、 b 、c d e 孑穸念焱 fg h 、 i 、j u vwx 3 孑而曰 y zz hc hs h n g 图3 中国手语手指字母图 f i 9 3n l u s t m f i o no f c h i n e s eg e s t u r el a n g u a g e 1 3 本文采用的识别思路与方法 本论文主要研究是基于数据手套的手势识别。本文选取中科院的c a s g l o v e 7 数据手套作为输入设备,该数据手套共有1 6 个传感器,分别完成手指关节弯曲角 度,手指开合程度及手腕动作的测量。当用户戴上数据手套时,计算机通过a d 采样板和信号调理电路对各个传感器进行采样,即可将用户手的姿态和动作信息 传给计算机。 本文实现了利用b p 神经网络的方法进行非实时的批量单手静态手势的识别, 同时也提出了利用决策树的方法实现实时的单手静态手势的识别,决策树合成在 模式识别的各个应用领域是非常有用的,因为它利用了各个分类器的信息,发挥 了各个分类器的优势,使系统识别率得到有效的提高。 本文计划从模式识别的基础知识入手,在具体分析人手模型的基础上,介绍 了主要的几种数据手套,并详细说明了模式识别领域的一些关键问题。后续会着 重介绍本实验所采用的c a s g l o v e 型数据手套及其相关的技术说明,并重点突出 的说明本论文提出的两种手势识别算法。在文章的最后结尾部分,介绍了实验系 统的详细说明及实验结果分析。 业立变道太堂亟论塞 登基知迟 2 1 模式识别理论简介 2 背景知识 2 1 1 模式和模式识别的概念2 7 1 我们在生活中时时刻刻都在进行模式识别。环顾四周,我们能认出周围的物 体是桌子、椅子,能认出对面的人是张三、李四;听到声音,我们能区分是汽车 驶过还是玻璃碎裂,是猫叫还是人语,是谁在说话,说的是什么内容。我们所具 备的这些模式识别的能力看起来极为平常,谁也不会对此感到惊讶。只有在计算 机出现以后,当人们企图用计算机来实现人或动物所具备的模式识别的能力时, 它的难度才逐步为人们所认识。本文讨论的模式识别是指用计算机实现人的模式 识别能力。 广义地说,存在于时间和空间中可观察的事物,如果我们可以区别它们是否 相同或是否相似,都可以称之为模式。但模式所指的不是事物本身,而是我们从 事物获得的信息。因此,模式往往表现为具有时间或空间分布的信息。对于用计 算机进行模式识别,信息进入计算机之前都要经过取样和量化,在计算机中具有 时空分布的信息表现为向量即数组。所以所谓的模式识别就是对这些具有特殊意 义的数组或向量进行操作,以达到识别的目的。通常,我们把通过对具体的个别 事物进行观测所得到的具有时间和空间分布的信息称为模式,而把模式所属的类 别或同一类中模式的总体称为模式类( 或简称为类) 。也有人习惯把模式类称为模 式,而把个别具体的模式称为样本。 2 1 2 模式识别系统2 7 】 有两种基本的模式识别方法,即统计模式识别方法和结构( 句法) 模式识别 方法,与此相应的模式识别系统都由两个过程所组成,即设计和实现。设计是指 用一定数量的样本( 叫做训练集或学习集) 进行分类器的设计。实现是指用所设 计的分类器对待识别的样本进行分类决策。基于统计方法的模式识别系统主要由4 个部分组成:数据获取,预处理,特征提取和选择,分类决策,如图4 所示。 9 北塞銮亟太堂亟论塞登基翅迟 训练过程 图4 模式识别系统的基本构成 f i 9 4t h es t r u c t u r eo f p a t t e r nr e c o g n i f o ns y s t e m 1 数据获取 为了使计算机能够对各种现象进行分类识别,要用计算机可以运算的符号来 表示所研究的对象。通常输入对象的信息有下列3 种类型,即 ( 1 ) 二维图像如文字、指纹、地图、照片这类对象。 ( 2 ) 一维波形如脑电图、心电图、语音信号、机械震动波形等。 ( 3 ) 物理参量和逻辑值前者如在疾病诊断中病人的体温及各种化验数据 等;后者如对某参量正常与否的判断或对症状有无的描述,如疼与不疼,可用逻 辑值即0 和1 表示。在引入模糊逻辑的系统中,这些值还可以包括模糊逻辑值,比 如很大、大、比较大等。 通过测量、采样和量化,可以用矩阵或向量表示二维图像或一维波形。这就 是数据获取的过程。 2 预处理 预处理的目的是去除噪声,加强有用的信息,并对输入测量仪器或其他因素 所造成的退化现象进行复原。 3 特征提取和选择 由图像或波形所获得的数据量是相当大的。例如,一个文字图像可以有几千 个数据,一个心电图的波形也可能有几千个数据,一个卫星遥感图像的数据量就 更大。为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类 本质的特征。这就是特征提取和选择的过程。一般我们把原始数据组成的空间叫 测试空间,把分类识别赖以进行的空间叫做特征空间,通过变换,可把在维数较 高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。在特征空 间中的一个模式通常也叫做一个样本,它往往可以表示为一个向量,即特征空间 中的一个点。 特征提取在模式识别中是不可忽视的一个重要环节,由于一般原始数据的信 息量太大,而通常无法直接对这些数据进行操作,所以在一般的模式识别系统中 都必须获得样本的特征。然而,由于数据的复杂性,选取特征的工作比较困难, 所以选择一个高效的特征在整个系统中尤为关键。 i o 4 分类决策 分类决策就是在特征空间中用统计方法把被识别对象归为某一类别。基本做 法是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进 行分类所造成的错误识别率最小或引起的损失最小。分类器的设计也是非常重要 的,一个好的、有效的分类器可以在算法和实时性的允许范围内,获得最小分类 的错误率。 2 2 手模型分析 2 2 1 手的物理模型分析 人手是一个多肢节的系统,具有很复杂的结构,是由骨骼和连接骨骼的韧带、 作为动力机构的肌肉和把肌肉与骨骼连在一起的肌腱以及手上的软组织和皮肤等 组成。骨骼在关节处相连,其大小不变,肌肉产生力矩,通过肌腱控制关节和关 节的运动。 手势模型对于手势识别系统至关重要,特别是对确定识别范围起关键性作用。 模型的选取根本上取决于具体应用,如果要实现自然的人机交互,那么必须建立一 个精细有效的手势模型,使得识别系统能够对用户所做的绝大多数手势做出正确的 反应。 人手由2 7 块骨骼组成,也可看成是由4 个相邻手指、一个大拇指和手掌组成, 而每个手指又由指段和关节组成因此手是一种由关节相连的结构,随着关节运 动,手的形状在不断变化。这种变化可以通过指段和关节的状态空间位置的变化 来描述。 在各种不同的手势识别系统中,都把手势分为静态和动态两种。静态手势是 一种手的特殊形状或姿势,而动态手势是运动的手势,它由一组序列图像组成。 图5 所示为手模型的关节表示及它们可能具有的运动类型。每一个手指( 1 i - v ) 具有4 个自由度,其中手指的基部( m p ) 有两个自由度,弯曲和旋转。手指的中 间关节处( p i p ) 和末端关节处( d i p ) 分别各有一个自由度,主要是弯曲运动。 大拇指除了与其他4 个手指一样具有4 个自由度外,即其绕食指为轴的旋转运动和 弯曲运动,它还有一个外展运动,所以大拇指具有5 个自由度。外加手掌的空间6 个自由度,即三维空间坐标和绕x ,y ,z 轴的旋转角度。所以手运动总共具有2 7 个自由度,即状态空间为2 7 维 2 9 1 。设每种状态的平均变化为g ,则该状态空间所描 述的孤立状态应为g 2 1 。 j e 塞銮道太堂亟论奎登基翅迟 纠p 升p m p 展 图5 手模型的关节及运动类型 f i 9 5t h e j o i n ta n dm o v e m e n ts t y l eo f h a n dm o d e l 2 2 2 手关节运动约束分析3 0 】 手关节运动主要可分为关节弯曲或者伸展运动,以及手指的侧向运动,并定 义了手指和拇指的局部坐标,由于手上的某一部分的运动是由它绕其关节点的旋 转运动产生的,则可将绕3 个坐标轴的旋转变换表示成q :( ,) ,其中,口表示旋转 轴,表示关节,表示手指。 由于所定义的手势或手势语言,都应具有准确的含义。我们对其运动类型及 所涉及的关节,在手模型中加入了如下约束: 约束1n i p ,p i p ,d i p 关节以及手指“中轴”始终处于某一平面。除大拇指 的m p 关节可能有弯曲、伸展或者侧向运动外,p i p 和d i p 只能在同一平面上做弯 曲、伸展运动。 约束2d i p 和p i p 之间弯曲角度具有线性关系,其相关性表示为: = ( 2 3 ) 0 n p 约束3 除大拇指外的每个手指中的m p 侧向移动的动态最大角度为: d 一( q 0 ) = | | j 一( 铭) 其中k = ( 1 一( 1 s 一( ) ) 矽0 。d 一是关节运动最大动态角度:j 一是关节运 动最大静态角度。 2 3 几种常见的数据手套 1 2 j e 哀交道太堂亟论奎萱基知迟 2 3 1v p l 公司的数据手套d a t a g l o v e 在人机交互方面,有各式各样的交互设备。其中,跟踪球和3 d 探头的优点 是简单,紧凑和工作速度快。但是其特性限制了用户手的运动范围是在桌上很小 的区域内。于是用户手的自然的运动就受到影响。为了与仿真有更大的基于手姿 的交互,必须要求i o 工具能处理手在一定空间的自由运动。也希望通过感觉单个 手指的运动,得到更多的自由度。人的手指动作有“弯曲一伸直”,也有侧向“外 展一内收”。此外,拇指动作有“前位一复位”,前位使拇指与手掌相对。 为了满足上述要求,设计人员制造出了新式的虚拟现实工具数据手套。 至今应用最多的传感手套是v p l 公司的数据手套d a t a g l o v e ,它也是第一个推向 市场的。传感手套使用光纤,光纤安装在轻便且有弹性的l y e r a 手套上。它还使用 i s o t r a c k3 - d 位置传感器。 手指的每个被测的关节上都有一个光纤维环。纤维经过塑料附件安装,使之 在手指弯曲时作小的移动。在标准的布局中,每个手指背面只安装两个传感器, 以便测量主要关节的弯曲运动。作为任选方案,可以把附加的传感器用于次要关 节,以及外展- 内收和前位一复位。光纤传感器的优点是轻便和紧凑,用户戴上手 套感到很舒适。 光纤连接到光电子接口。每个纤维环的一端联到l e d ( 发光管) ,光敏晶体 管敏感返回到另一端的光线。当纤维是直的时,传输的光线没有衰减,因为圆柱 壁的折射率小于中心材料的折射率。在手指关节弯曲时,光纤壁改变其折射率, 于是在手指弯曲处的光线就漏出。这样就可能根据返回光线的强度间接测出关节 角。也就是说,当光纤发生弯曲是,传输的光将会有损失,传输的光量与其弯曲 程度有关系,这样就能达到测量角度的目的。 把原始的传感器读数变成手指关节角的过程称为手套校准。每当开始一次新 的仿真,戴上数据手套时,都必须重新作校准。这是因为不可能知道是否用户把 手套松紧合适地戴在手指上。 数据手套d a t a g l o v e 的结构如图6 所示。 北京变道太堂亟论塞 萱基翅迟 图6 数据手套d a t a g l o v e 的结构 f i 9 6t h es 帆c t u r eo f d a t a g l o v e 这种光纤的塑料护套的优点在于它轻便,识别精度较高,经手套校准后传感 器误差为4 0 8 0 ;但同时它也存在一定的不足:其成本较高,一般弹性较差,多次 弯曲后,难于复原,接触面渐渐产生应力,从而作用其内部光纤;而光纤本身是 塑料制成的,多次弯曲亦会产生应力,容易造成弯曲处裂隙。这种影响的存在对 传感器的测量精度的提高产生很大的威胁。 2 3 25 d t 公司的数据手套 5 d t 公司数据手套的设计是为了满足那些从事运动捕捉和动画工作的那些专 家们的严格需求。它使用简单,操作舒适,驱动范围广,高数据质量使得它成为 虚拟仿真用户的理想工具。 目前5 d t 公司的数手套主要分为5 触点型及1 4 触点型。5 触点数据手套主要 是测量手指的弯曲( 每个手指一个测量点) 。1 4 触点数据手套也主要是测量手指的 弯曲( 但每个手指两个测量点) 。手套通过u s b 和计算机相连,也有单独为串口 用户设计的接口。它提供8 - b i t 的开放式弯曲特色,不仅穿戴舒适而且数据准确不 发生漂移。无线手套工具是通过蓝牙技术和计算机通信( 有效范围2 0 米) ,电池 连续工作8 小时以上。它由合成弹力纤维做成,适合各种手型使用。 5 d t 数据手套外观如图7 所示。 1 4 韭联变通去堂瑙盘论塞 萱基翅讽 豳75 d t 数槲乎套外观图 f i 9 7 t h e 弼警联搬撒o f 5 d t d a t a g l o v e 5 d t 数据手套其有先进的传感技术;广泛的应用支持;穿戴舒适;质量可靠; 适合各种手型;自动校准- - 8 b i t 弯曲带宽;独立的使用平台;有跨平台开发工具 ( s d k ) ;捆绑软传;手指闽兹于扰等众多突趣豹优点,谯廛掇现实豹研究领域季譬 到广泛的应用。 2 3 3c a s g l o v e 型数据手套 c a s - g l o v e 裂数据手套是中科院自动化研究所在国家“8 6 3 ”高技术计划支持下 研制汗发的一种商性能低成本数据手套。它是一种采用黎性材料制作的、并在其 耜废位置安装了鼹感器以浏蠹警指冬关节翅凄豹手套。京其寿辍带舒逡、对手攒 运动限制小、重藤轻等特点。该数据手套共寂装有1 5 个传感器,该褥感器已申请 为中科院自动化研究所专利技术( 中国国家实用新型专利,专利母:z l9 92 0 4 9 9 6 2 ,批准日期:1 9 9 9 年1 2 月l o 日) ,它们分别完成对手指各个关节弯曲角 度及筝指嚣会程度靛溺量。 圈8c a s - g l o v e 溅数据手套外观蹦 f i 9 8t h ea p p e a r a n c eo f c a s - g l o v e j e 塞奎通太堂亟论塞萱基知识 本文的实验正是基于这种c a s - g l o v e 型数据手套,它的外观如上图8 所示。 2 4 关于模式识别的一些基本问题 2 4 1 相似与分类2 7 】 模式识别是把具体事物归入某一类别的过程。要进行归类,首先要有类的存 在。通常我们设计模式识别系统时,分类标准是人为地从系统外给定的,通过设 计或有监督的学习过程使系统能完成特定的识别任务。这种方法的优点是能够设 计出较经济的系统,软件规模不会过于庞大;缺点是系统学习能力不强,使设计 开发工作变得极为繁重。与此不同的是,人的模式识别过程具有极强的学习能力, 通过学习,人不仅能学会归类( 识别) ,而且能创造新的类别( 认知) 。可以说, 识别( r e c o g n i t i o n ) 就是再认知( r e - c o g n i t i o n ) ,研究相似与分类这样的认知基 本问题,有助于更深入的理解模式识别。 如果用集合论中的子集和元素来代表模式类和模式,可以用集合论中的概念 讨论相似关系。在一个集合m 中可以定义一个关系r ,如果对所有j m ,x r x 成 立。则称关系r 是自返的;如果对于x ,y ,z m ,x r y ,y r z j x r z ,则称关系r 是传 递的。同时满足自返、对称和传递的关系称为等价关系。例如,相等就是一种等 价关系。满足等价关系的集合必定可以划分为若干子集,即m = l j m 。且 m ,n m ,= 妒( f _ ,) 。在同一子集m 。( 或称等价类) 中的各个元素在一定意义上是 不可区分的。如果把一个子集当成一个模式类,则满足等价关系的各类间有明确 的界限,或者说是可区分的。遗憾的是相似关系不具有传递性。例如,父亲与儿 子相似,儿子与母亲相似,但父亲与母亲未必相似。因此,实际的相似
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家事业单位招聘2025中央财经大学学校办公室收发室岗招聘1人(非事业编制)笔试历年参考题库附带答案详解
- 南昌市2025江西南昌动物园招聘1人笔试历年参考题库附带答案详解
- 商品收纳培训课件
- 2025浙江舟山国家远洋渔业基地建设发展集团招聘14人笔试参考题库附带答案详解
- 2025数字重庆公司下属智算科技分公司招聘29人笔试参考题库附带答案详解
- 2025年度国家计算机网络应急技术处理协调中心省级分中心公开招聘21人笔试参考题库附带答案详解
- 2025国网湖南省电力有限公司高校毕业生招聘约390人(第二批)笔试参考题库附带答案详解
- 2025四川眉山市国有资本投资运营集团有限公司招聘50人笔试参考题库附带答案详解
- 2025内蒙古鄂尔多斯市天安公交集团招聘21人笔试参考题库附带答案详解
- 2025中远海运博鳌有限公司“启明星”等你来笔试参考题库附带答案详解
- 穴位按摩法操作评分标准
- 充电站运营管理制度(参考模板)
- 体育与健康教学设计《手倒立前滚翻》
- NISP一级考前模拟训练题库200题(含答案)
- JJG 20-2001标准玻璃量器
- 2024外研版初中英语单词表汇总(七-九年级)中考复习必背
- 《大数据平台部署与运维》课程标准(含课程思政)
- 英语中的时间表达(示范课例)
- 脊柱外科进修汇报
- 《史记》上册注音版
- 苏州大学文学院语言学纲要课程笔记
评论
0/150
提交评论