(机械电子工程专业论文)基于多判据的多目视觉手势立体姿态检测.pdf_第1页
(机械电子工程专业论文)基于多判据的多目视觉手势立体姿态检测.pdf_第2页
(机械电子工程专业论文)基于多判据的多目视觉手势立体姿态检测.pdf_第3页
(机械电子工程专业论文)基于多判据的多目视觉手势立体姿态检测.pdf_第4页
(机械电子工程专业论文)基于多判据的多目视觉手势立体姿态检测.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(机械电子工程专业论文)基于多判据的多目视觉手势立体姿态检测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et he s i so fs h a n g h a iu n i v e r s i t y 摘要 从2 0 世纪9 0 年代起,计算机视觉拓展了一个所谓“看人”( 1 0 0 k i n ga tp e o p l e , 以下简称l 心) 的应用领域,用计算机视觉作为人机接口,通过观察( 监视) 、 分析人体不同部分的表情或姿态,从中提取有用的控制信息。由于是非接触性检 测,因此对于操作者而言感觉比较自由而且自然,同时还能为机器提供丰富的信 息资源,具有广阔的应用范围。在l o o k i n ga tp e o p l e 应用中,手势姿态分析主要 研究内容是分析用手势表达的符号语言( 如手语字符) 的意义。 本文进行的研究将l o o k i n ga tp e o p l e 的方法应用于人的手势姿态分析和重 建。采用多摄像机系统从不同角度“观察”人的手势,经过图像分析,信息合成, 得到三维空间中手的姿态信息,然后利用点的三维重建方法和三维虚拟建模技术 在计算机中形成人手手势姿态的三维立体虚像,进行对比验证和可靠性、准确性 分析。研究主要完成了下列工作: 1 根据人手的生理结构特点,设计了适合于具有小幅度运动的非刚性构架 上特征点的搜索、排序方法,可以迅速、准确地将摄像机拍摄的处于一 定约束空间方位姿态下的手的姿态图像上的各关节点( 含手腕和指尖) , 按手指的归属重新排序。 2 根据拍摄图像的特殊性,设计了适用于有轻微变形的柔性物体图像上特 征点的匹配方法,利用上述重新排序算法,对不同摄像机拍摄的各图像 采用相同的规则排列特征点的顺序,在解决了特征点的位置归属问题同 时,也解决了图像对上对应点的匹配问题。 3 本研究采用张正友的平面标定方法对系统中的摄像机进行标定,该方法 标定物简单、标定过程比较方便等特点。 4 研究中由于观测盲区的存在,一对摄像机无法观测到所有的特征点,只 有两对或两对以上的摄像机的协作才可以完全提取所有特征点,本文采 用四个摄像机构成的多目视觉系统获取手势图像,设计了多摄像头的信 息融合算法,将各摄像头获得的特征点的三维坐标统一到同一个世界坐 标系中,得到了全部关键点信息,为手势重建提供了所需数据。 5 采用点的三维重建方法和三维虚拟建模技术在计算机中完成了三维手 势姿态重建,并通过实验,对重建的精度进行了分析。 研究采用的方法计算量小,算法简单易行。系统中所用的手套仅作为放置标 记点的载体,因而不需要进行手套的标定;手套不与计算机相连,使人的手的动 作比较自由,在摄像机监视范围以外,手可以自由动作。系统中操作人员的手的 大小对算法执行和姿态分析没有影响,对手势姿态没有特殊的规定。 关键词:计算机立体视觉空间手势姿态分析h a r r i s 角点检测极线约束 上海大学硕士研究生学位论文 ! 坚兰q 墨! g 螋型丛兰! 坚垦兰! 兰q ! 兰坚垒型鱼坚垒! 旦整! 兰堕! ! ! a b s t r a c t b a s e do nc o m p u t e rs t e r e o v i s i o nt h e o r y ,t h i sp a p e rd i s c u s s e sa b o u tt h ed e t e c t i o n a n dr e c o n s t r u c t i o no fah a n dg e s t u r e am u l t i - c a m e r as y s t e mw a su s e dt os o l v ee f f e c t i v e l yt h es h e l t e r i n gp r o b l e mo f k e yp o i n ti nt h ef i n g e r s t w oc a m e r ap a i r so b s e r v et h eh a n dg e s t u r eo ft h eo p e r a t o r f r o md i f f e r e n td i r e c t i o n sa n dt w op a i r so f g e s t u r ei m a g e sa r ec a u g h t p r o g r a m sa b o u t i m a g ep r o c e s s i n g ,i m a g ea n a l y z i n ga n di n f o r m a t i o nf u s i o na r ed e s i g n e dt os e g m e n t t h ek e yp o i n t so nt h eh a n da n dd e c i d et h ec o r r e l a t i o no ft h e p o i n t s s t e r e o v i s i o n t h e o r yi su s e dt oc a l c u l a t et h ec o o r d i n a t e so ft h ek e yp o i n t si nt h e3 ds p a c e u s i n gt h e c o o r d i n a t e so ft h ek e y p o i n t s ,av i r t u a lh a n dc o u l db er e c o n s t r u c t u r e d as e to fr o b u s ta l g o r i t h m sf o rd e t e c t i n gt h ek e y p o i n t sp o s i t i o n so nt h eh a n da n d t h e i rc o r r e l a t i o n sw a sd e s i g n e d i ti ss u i t a b l ef o rt h en o n r i g i ds t r u c t u r ew i t hs o m e s m a l lm o v e m e n ts u c ha sh u m a n sh a n d t h ea l g o r i t h mc o u l ds e a r c ha l lt h e k e yp o i n t s o nt h eh a n dw i t ha na r b i t r a r yg e s t u r ea n d r e a r r a n g et h e ma c c o r d i n gt ot h e i rh o s tf i n g e r a n dt h e i rp o s i t i o no nt h ef i n g e r s b e c a u s eo ft h es h e l t e r i n g , a n yp a i ro ft h et w oc a m e r ap a i r si nt h es y s t e mc o u l d o n l yo b s e r v ep a r t so ft h ek e yp o i n t so nt h eh a n d ,t w oc a m e r ap a i r sw e r ec o m b i n e dt o o b s e r v et h eh a n df r o md i f f e r e n td i r e c t i o n s i n f o r m a t i o nf u s i o na l g o r i t h m sh a v et ob e c o n s i d e r e dt oc o m b i n et h ep a r t i a lk e y p o i n t si n f o r m a t i o ni ne a c hc a m e r at og o ta l lk e y p o i n t si m a g e s t h i sm e t h o dw a sc o n s i d e r e dq u i t ea p p l i c a b l ef o ram u l t i c a m e r a s y s t e m ,i tc o u l dr e s o l v et h eo c c l u s i o np r o b l e mo c c u r r e di n h u m a n m a c 】 1 i n e c o m m u n i c a t i o n t h e3 dc o o r d i n a t e so ft h ek e yp o i n tw e r ec a l c u l a t e dt om o d e ia v i r t u a lh a n di nav i r t u a lc i r c u m s t a n c e t h er e s u l to ft h i sr e s e a r c hc o u l db eu s e df o rt r a c k i n ga n dr e c o n s t r u c t i n gt h e m o t i o no fah u m a nl i m bo ro t h e r n o n r i g i do b j e c t ,o ra sah u m a n m a c h i n ei n t e r f a c e k e y w o r d s :c o m p u t e rs t e r e o v i s i o mh a n dg e s t u r ea n a l y s i si nt h e3 ds p a c e ;h a r r i sc o m e r d e t e c t i o n ; e p i p o l a rc o n s t r a i n t i i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:碾 日 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交 论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:虚超导师签名:盏堇基 日期:兰翌:兰l 签名:生丝导师签名:鲞主墨 日期:兰型:兰l 上海大学硕士研究生学位论文 t l i ep o s t g r a d u a t et h e s i so fs h a n g h a lu n i v e r s i t y 第一章绪论 机器人已经逐步进入人类同常生活的各个领域,成为人类的得力帮手,冈此, 人类行为信息研究和利用,不仅r i j 以增强机器人在非结构环境中的工作能力,也 将在助残助老,提高人类的生活质量方面有着重要的意义。本研究课题得到了上 海市教育委员会科研项日基于立体视觉的非冈0 性物体姿态检测技术研究的支 持。 传统机器人的控制采用离线编年晕或示教的方法。机器人的动作只能足程式化 的,这种l :作方式缺乏适应性。而且即便足在所谓的结构化环境中,机械手仍需 要依赖多种形式的“学习”,“积累”处理可能出现的各利,情形的知识,并建立相 关的数据库,而存许多情况下,工作环境和刈象往往具有不确定性( 非结构化环 境) ,机器人要完全适应性地完成各种作j i k 任务,需要人机配合,根据情况变化, 通过人机交互接口x , i 杉t 器人下达动作指令,以指挥机器人改变工作策略l1 。 鼠标和键钴足在线指挥机器人的比较常用的方式,但是仍然不够灵活。用数 据手套进行机械手或其它装置的控制,可称为新型的人机交互手段 ( h c i h u m a n c o m p u t e r i n t e r a c t i o n ) 之一,或称为一种人可选择的增强性通讯 手段( h a a c - h u m a na l t e r n a t i v ea n da u g m e n t a t i v ec o m m u n i c a t i o n ) 12 ,13 。 数据手套足一利- 接触j i = 检测装置,可以检测人手的姿态或接收感觉信息。数据手 套的优点足可以直接反映戴手套人的指关节角度等信息,而且无论手在空间的什 么位置,测量郁1 i 受影响,但是这样却把操作人员的手“机件”化了。大多数系 统启动以后,就丌始榆测操作者的手的每一个动作,并对一系列姿态作出解释。 冈此,只要蛾着手套,手的任何一个姿念,不论是否是有意发出的命令姿态,只 要动作达到一定的闽值,计算机就可能检测到并加以分析,这就有可能将操作者 的一些无意识的动作也当作命令送给被控的对象,导致系统出错。另外,由于人 的姿态是自然连续的动作,系统必须能够把捕捉到的连续动作分割为离散的“语 义( 1 e x i c a le n t i t i e s ) 9 99 才能进行解释并将姿态转换为一系列命令,这是一项比较困 难的处理任务。为此,必须设计出检测姿态意义的完善方法。目日订大多数数据手 套系统都仅达到谚 别静态手势命令的能力 1 2 】。系统必须在手势静i 七一定时问后 进行判别,用此办法末减少错判的可能。数据手套的其它缺点还有:手套的价格 比较高而目容易损坏,这是由于大多数商业化产品的数据手套都是接触式的,并 装有昂贵的传感器:手套比较重,加上所附测量装置的电缆以及与计算机的连接 的电缆,使手的自由移动受到限制:数据手套在每次操作日 必须经过标定,手的 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 大小对数据手套的测量精度也有很大影响 1 】。 为了让人机接口进一步智能化、拟人化,从2 0 世纪9 0 年代起,计算机视 觉拓展了一个所谓“看人”( 1 0 0 k i n ga tp e o p l e ,以下简称l ”) 的应用领域,用 计算机视觉作为人机接口,对人类行为信息进行非接触式检测的研究,通过观察 ( 监视) 、分析人体不同部分的表情或姿态,经过分析处理以后,从中提取有用 的控制信息,转换成机械装置的控制命令或各种符号语言。由于是非接触性检测, 因此对于操作者而言感觉比较自由而且自然,同时还能为机器提供丰富的信息资 源,具有广阔的应用范围,因此是上世纪末本世纪初计算机视觉领域的一个新的 研究热点。机器观察的范围包括人的面部表情、眼球运动方向、手势姿态和人体 姿态跟踪等 3 1 ,3 2 】。主要用在h c i 和h a a c 研究中,其中对手的姿态的研究 比较集中。选择人手的姿态代替传统上常用的鼠标、键盘,是因为姿态可以表达 更多的意义。原来在机械手的遥操作控制中常用的人机接口鼠标,通常只有 两个自由度。而手势姿态可以给出5 个以上的自由度。同时,自然的手势姿态非 常适合用来指示空间关系和位置,作为人机交互的接口还有以下优点: ( 1 ) 交互自然:因为姿态是人的一种自然的通讯形式,容易学习; ( 2 ) 简洁而功能强:因为一个简单的姿态既可以定义一个命令,也可以定 义成某种参数,手和手指的位置和动作还可以提供功能更强的、更高级的表示方 式。 ( 3 ) 交互直接:人手成为输入装置,可以省去中间的转换装置,用户可以 用简单的设计和满意的姿态与周围的机构进行交互操作 1 2 。 基于计算机视觉的方法进行手势姿态检测( 以下简称视觉手势检测) ,是用 摄像机观察、跟踪操作人员的手势动作,用图像处理的方法分析姿态参数。由于 摄像机属于非接触式传感器,用它来取代检测手势姿态的数据手套,操作人员的 手可以比较自由、舒服,减少了束缚,因此是一种自然、无接触型检测方式。采 用视觉手势检测代替数据手套检测手势姿态,在某些方面上可以克服数据手套的 不足 1 。 而且,由于视觉检测系统中,当手离开摄像机监视区域后,手的动作就不再 起控制作用,因此用户可以在摄像机监视范围之外自由地与其他人进行手势交 流,或操纵其它设备,这是戴着数据手套不能做的。如果再为用户配备上感受虚 拟感觉信息的手套,就可以构成闭环伺服控制系统,感受信息的数据手套因为只 接受虚拟感觉信息,不检测人手的动作姿态,所以增加的手套对用户与其它人或 装置间的交流没有影响 1 。 人的肢体属于一种柔性构架,与刚性构架不同,其运动规律不能用已知的公 式进行计算。但将肢体语言直接用来控制机器人的动作这种形式由于其简单、易 于掌握,因此作为一种新的人机接口,一直引起相关领域的研究兴趣,采用视觉 2 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 传感器的方式检测人的肢体动作,可以使被观测者有较大的动作自由性,但由于 人的肢体的自由度很多,可以完成很复杂的动作,因此用视觉系统分析人在三维 空间中作出的操作姿态,并将其转换为被控机械对象的对应动作比较困难。在这 方面开展一些研究有实际应用价值 1 。 本文基于多摄像机系统进行人的手势姿态分析和重建。采用多摄像机系统从 不同角度“观察人的手势,经过图像分析,信息合成,得到三维空间中手的姿 态信息,然后利用点的三维重建方法和三维虚拟建模技术在计算机中形成人手手 势姿态的三维立体虚像,进行对比验证和可靠性、准确性分析。论文结构如下: 本文共分七章: 第一章为绪论,介绍本文的研究背景和研究内容,概述手势姿态分析的研究 现状。 第二章主要介绍基于视觉的手势姿态分析的理论基础,主要包括摄像机成像 几何、线性模型摄像机定标、两视图对极几何与基本矩阵以及空间点的三维重构 方面的内容。 第三章介绍研究中所需要的人手解剖学基础知识和视觉实验研究系统的方 案比较。 第四章涉及研究中的二维图像处理部分,讨论有关图像的采集、分割、特征 点提取、标号、特征点排序问题。讨论柔性、可变形的物体( 本研究中为人的手) 上特征点的搜索、排序的算法。 第五章根据手势姿态的匹配结果计算特征点三维数据,并设计了根据计算出 的三维特征点数据重建手势姿态的方法。 第六章给出了研究中提出的各种算法的实验数据结果。 第七章为结论和展望。 最后是本文的参考资料。 附录1 为研究中的主要程序流程图和子程序流程图。 附录2 为图像匹配实验算法的详细实验步骤。 1 2 基于视觉的手势姿态分析的研究概况 如1 1 中所述,基于计算机视觉的方法进行手势姿态检测( 以下简称视觉手 势检测) ,是用摄像机观察、跟踪操作人员的手势动作,用图像处理的方法分析 姿态参数。一般研究集中在手势影像分割、手势姿态识别和手势姿态重构几个方 面。 在视觉手势检测中,首先做的是手势影像分割。在以手的外观形象为研究对 象的研究中,颜色和运动是最常用的信息 2 4 。图像背景对手的图像分割效果有 3 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i s0 fs h a n g h a iu n i v e r s i t y 很大影响。当在室内进行控制和操作姿态图像采集时,可以人为将拍摄姿态的背 景设置为单一颜色,或者采用限制背景、衣物、戴单色手套或在手手指上放标 记的方法 5 4 ,5 5 ,可以解决一部分问题,有利于提取姿态影像。但在许多情况 下,需要从自然环境条件中提取操作人员的姿态,由于自然环境下的摄像背景比 较杂乱,在进行手势姿态分析前,需要先设计从复杂背景中提取手或手指的算法 4 , 5 6 , 5 7 。 通用的图像分割方法有多种,基于颜色的检测技术大多依靠直方图 3 9 , 5 7 5 9 】,例如直方图阈值算法( o t s u 算法) 可以在灰度图像中自动分割手势姿态, 再用形态滤波算法从分割出的图像中有效祛除残余的背景和物体噪声 1 3 】;将人 手颜色信息和手势运动信息相结合,对复杂背景下的手势进行分割效果也很好 6 0 2 4 6 1 6 4 。 还有其他基于颜色的图像分割技术,其中之一就是肤色检测技术,比如应用 人体皮肤颜色在h s v 空间的聚集特性,将彩色视频图像转换为皮肤概率分布图 像,通过c a m s h i f t 算法,利用位置和面积等约束条件分割出人手 2 ,也有人 对c a m s h i f t 算法做了一些改进 3 5 。还有基于肤色c i e l a b 空间的视觉窗口 手势跟踪 7 。其他一些肤色检测算法及其改进见文献 8 】 9 1 0 。 也有人使用建立手势形状数据库 1 1 的方法:如密西根州立大学计算机系的 学者建立了一个数据库,其中有各种手势类在各个时刻、不同位置、不同比例下 的手型图像,通过匹配的方法实现手势的分割。这种方法比较费时间,现在已经 很少用。还有轮廓跟踪方法:典型的有基于s n a k e 模型的手势分割 1 4 ,利用s n a k e 模型对噪声和对比度的敏感性来有效跟踪目标的形变和非刚体的复杂运动,达到 将目标从复杂背景中分割出来的目的,这种方法的效果比较好但比较费时,不能 用于实时系统。 差影法及其改进算法 1 5 1 6 1 7 1 8 1 :差影法就是将目标图像和背景图像相 减,此方法对消除背景图像具有很明显的效果,但也有一个致命的弱点,就是一 定要保证背景图像和手势图像的对应像点位于空间同一目标点上,否则会造成很 大的误差。所以要保证在摄取背景图像和手势图像时,摄像机的位置和角度保持 不变,这一点限制了其使用的自动化实现。 s f m 算法 5 1 ,5 2 用带有彩色标记的手套作为视觉系统的输入装置,实时从 运动得到结构( s t r u c t u r i n gf r o mm o t i o n ) 。当手移动时,图像序列上彩色标记的 图像随之改变位置,用视差动作向量、离散度( d i v e r g e n c e ) 、卷曲以及对每一个 任意三角形( 每个顶点上有一个彩色点) 作仿射变换,从中得到转动轴的投影、 尺寸变化等信息。这些从彩色标记抽取到的信息给出的不是整个手( 每个手指) 的位置,而是一种手的替代模型图像。 视觉手势检测中,手势姿态识别是另一个研究得比较多的问题。 4 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y s t a m e r 以椭圆为人手建模 1 9 】,以椭圆中心位置、椭圆长短半轴长以及椭圆 长半轴与坐标系z 轴夹角这些参数的变化轨迹作为手势特征。然而,这些方法只 研究手的整体运动,并不考虑手形的细微变化,因而不能检测出由于局部运动而 导致的微小变化,大大地限制了手势识别的种类,是一种粗略的手势运动参数识 别算法。 有人使用基于统计学的手势识别算法:利用傅立叶描述子获取静态手势特征 向量,通过l s s v m 大尺度算法求解方程组来得到l s s v m 分类器 2 7 ,进行静 态手势识别,取得了较高的识别率。还有人提出一种用于特征检测的基于高斯函 数的特征相似度函数 2 8 。 还有人使用模板匹配的方法,将手语图像做成模板库,用拍摄的手势图像和 库中的手势图像进行对比,就可以得到当前用户的手势含义。但可以想象得到的 是:拍摄图像时,手和摄像机之间上述的位置关系往往很难完全匹配。图像中手 的形状、位置和移动变化是常常会出现的三个关键问题。许多研究中采用了运动 信息( 手的移动) 和空间信息( 手形识别) 相结合的方法解决这些问题 3 5 2 2 6 1 6 3 】 6 5 】 6 8 ,6 9 ,提出了不同的算法,比如:用多级、多维判别式自 动选择最能区分出的手势识别用线性特征,用递归分割树近似( r e c u r s i v ep a r t i t i o n t r e ea p p r o x i m a t o r ) 方法进行分类,用快速索引方法了解大量的手的形状,使用从 多次固定中获得的子图像进行分割,用训练样本预测有效的分割搜索,用基于学 习的内插值方案进行验证,这种方法允许手有自遮挡。在提取手的图像后,用傅 立叶算子定义手的空间特征,用运动分析定义瞬时特征,再将这些特征作为系统 的特征向量,应用h m m ( h i d d e nm a r k o vm o d e l ) 进行输入识另1 j 6 1 。或者在手 区域中矩特性与多尺度模型相结合的方法进行特征提取及分类识另1 j 6 3 。 有些研究人员采用灰度互相关技术可以实时区别、测试两个姿态间的差异 4 4 】。这种方法利用图像之间的归一化互相关关系和一套二维视图模型,将动态 时变形( t i m ew a r p e d ) 的姿态与存储的姿态图像进行匹配,完成姿态间的区分。 解决手的位置移动问题,可以采用随手运动的坐标系,结合手区域的形状特征, 融合颜色、运动和边缘等多种能够反映人手结构特性的特征线条,跟踪这些特征, 抽取平移不变的平面模型参数,采用独立分布的多状态高斯概率模型,完成手势 识雯j i j 6 5 ,7 0 。 还有人通过对独立分量分析( i c a ) 理论的研究以及对人机交互手势特征的分 析,提出了一种基于i c a 的静态手势特征提取与识别的方法。用i c a 方法分别 提取各类静态手势图像的独立分量特征( z c f ) ,构成手势图像的独立基函数空间, 对手势图像采用独立分量的最t j 、- - 乘意义下的表示,结合系统的判别阈值实现对 手势的分类识别 6 。 l a l i tg u p t a 1 3 用一个局域化的轮廓序列表示姿态的轮廓,用轮廓上像素间 5 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs 1 t a n g h a iu n i v e r s i t y 的垂直距离构成样本窗口,窗口中心设在姿态图像的某个像素上。用对比轮廓序 列的方式,测量手势姿态间的相似性。 b a y e s i a n 模型的几何预测( g e o m e t r i cp r i o r ) 、遮挡处理、图像建模和动态编 程优化算法,可以构成可变形的、不需要由用户进行初始化的模板 6 6 】。几何预 测对手的模板的大概形状作一个近似估计,遮挡处理、图像建模则用概率方法描 述了一幅灰度图像中各种特殊形状的可能形态。b a y e s i a n 模型为每一种可能出现 的手的形状指定了一种后续( p o s t e r i o r i ) 的可能形状,动态编程算法进行形状搜索, 以找出最适合图像数据的形状。这种模板具有旋转、平移不变性,可适应变形状 态、严重遮挡、混乱背景和多只手出现的情况,解决了在真实的图像中,用标准 的边缘检测方法检测不到大段的目标边界的问题。算法在提取手的运动图像的边 界轮廓后进行特征识别,完成三维手势自动分析,计算结果可用于实现三维手势 的重构 7 1 和手势识别系统 6 7 】。 张良国等人采用上述算法建立了一个手势识别系统 6 7 1 。这个系统利用 h a u s d o r f f 距离模板匹配的思想,采用边缘特征像素点作为识别特征,在距离变 换空间内,用单目视觉的方法,实现了中国手语手指字母集中,3 0 个手指字母 的手势识别。 手势姿态重构目的是为了根据识别出的手势姿态重构手势模型,可以用于姿 态仿真或智能机械的运动控制。根据获得的姿态信息在计算机中重构三维手势姿 态也是本文的研究目的。因此在手势姿态重构方面也做了一些调查工作。 三维手模型可以应用在几乎所有的手势姿态研究上。大部分手势建模可以分 为两大类:基于表观的手势建模和基于3 d 模型的手势建模。基于表观的手势建 模是建立在手图像的表观之上,它通过分析手势在图像序列里的表观特征去给手 势建模。基于3 d 的手势建模方法考虑手势产生的中间媒体,一般遵循两步建模 过程:首先给手的运动以及姿态建模,然后从运动和姿态模型参数估计手势模型 参数。基于3 d 的手势建模又可以分为体模型,网络模型,几何模型以及骨架模 型。最常使用的3 d 模型是骨架模型,其参数是经过简化的关节角度参数和指节 长度。人手的物理特性可以为3 d 骨架模型提供静态( 关节角度范围) 和动态( 运 动依赖关系) 两组约束。如果要实现简单的人机交互,可以仅采用一个简单的模 型,用图像梯度方向直方图去跟踪人手以及识别静态手势,然而,如果要实现复 杂的人机交互,就需要建立一个精细有效的手势模型( 如3 d 人手模型) ,使得 识别系统能对用户所作的绝大多数手势做出比较精确的反映。但是精确地建立手 ( 手臂) 的三维模型时,由于参数空间的维数高,通过视觉技术获取这些模型的 参数比较复杂,因此计算量令人生畏,这对于实时姿态识别应用来说代价太高, 而且没有必要。因此,手势模型的选取根本上取决于具体应用。 对本课题而言,研究目标是检测人手姿态,接着根据检测到的手势姿态的关 6 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 键点三维坐标数据在计算机中建立仿真的手势姿态,而这一研究未来计划用于对 多关节、多自由度的机械灵巧手进行远程实时控制,因此建立逼真的人手那样的 高图像质量的、柔性的模型是没有必要的,采用经过简化的骨架模型进行人手的 三维仿真建模就可以满足应用需求。 7 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 第二章基于计算机视觉的手势姿态检测方法的理论基础 本课题采用的手势姿态检测是基于计算机视觉的,因此有必要介绍一下计算 机视觉的基本理论。 计算机视觉的研究目标是使计算机具有通过一幅或多幅二维图像认知周围 三维环境信息的能力。由数字图像恢复摄像机的运动和物体的三维结构的完整的 处理过程主要包含以下几方面内容:摄像机内外参数的确定( 摄像机标定) ;图 像特征的提取和匹配;景物的三维重构。这也是当前关于计算机视觉研究的几个 热点问题。 摄像机成像原理、对极几何和多视图几何是计算机视觉的理论基础,有大量 的文献和著作给与介绍和讨论,其中比较著名的有马颂德的介绍计算计视觉的算 法和理论的计算计视觉 2 0 】,和r i c h a r dh a r t l e y 关于计算机视觉中多视图几 何的( ( m u l t i p l ev i e wg e o m e t r y i nc o m p u t e rv i s i o n ) ) 21 。 2 1 摄像机模型1 2 0 】 摄像机成像就是将一个三维空间的点投影为一个二维成像平面上的图像点 的过程。理想的投影成像模型是针孔模型,如图2 1 是针孔摄像机模型的示意图。 c iy 一一呷a : y z i 。 l 一 : x 一 图2 1 摄像机针孔成像模型 在这个模型中,c 为摄像机中心,可以看出空间坐标点活( xzz ) 2 被映像 到图像平面的一点x ,它是连接点屿投影中心的直线与图像平面的交点。根据相 似三角形的性质,可以算出点( zz ) 被映像到图像平面上点的坐标为( f x z , 钇力t o 可用下面的投影公式表示为: x - - - | z 【y = f r z ( 2 1 ) 若用齐次向量表示世界坐标点和图像坐标点,那么( 2 1 ) 式也可以写成如下矩 阵乘积的形式: 8 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y x 】厂 z 1 = p x ( 2 2 ) 式中脉为摄像机投影矩阵,艨示世界坐标点的齐次向量( xzz 1 ) t 如 果图像坐标点的齐次向量阮y ,1 ) 2 用x 表示,则式( 2 2 ) 可以紧凑地写为: x = p x ( 2 3 ) 上式就是计算机视觉中的投影变换公式。 式( 2 1 ) 是假定图像平面的坐标原点在图像中心( 即主点) 上。但是实际情况 可能不是这样,假定主点坐标为西) r ,此时式( 2 2 ) 可写为: 若记 k = l p x0 p y0 1o fp 工 f p y l x 】厂 z 1 ( 2 4 ) ( 2 5 ) 则( 2 3 ) 式可以表示为: x = 研司o 】x 伽( 2 6 ) 矩阵脉为摄像机内参矩阵。在式( 2 6 ) 中记( 疋zz 1 ) r 为是为了强调摄 像机的光心被设定在一个欧氏坐标系的原点且摄像机的主轴沿着z 轴的指向,而 且点是按此坐标系表示的。这样的坐标系可以称为寂诸祝丝粝贰 由于摄像机可安放在环境中的任何位置,在环境中还要选择一个基准坐标系 来描述摄像机的位置,并用它描述环境中任何物体的位置,该坐标系称为笸男垒 旒由x w ,y w ,z w 轴组成。摄像机坐标系与世界坐标系之间的关系可以用旋 转矩阵( 3 x 3 正交单位矩阵) 与三维平移向量来描述。如果腚一个表示世界坐 标系中点的三维齐次向量,而碰以摄像机坐标系来表示的同一点,那么可以 记比= 刀( x , - - c ) ,其中c 表示摄像机中心在世界坐标系中的坐标,腥一个3 x3 的旋转矩阵,表示摄像机坐标系的方位。这个方程在齐次坐标下可以写成: 9 o o o , , 。l l l 、, z ,。一 、, x y , 矶现 + + z 伢腭营 、, x y l 厂 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y = h1 x 。 匕 z 。 1 = :一fe 卜 ( 2 7 ) 结合式( 2 3 ) 和( 2 6 ) 有: p = g g l t i( 2 8 ) 其中t = 一r c ,摄像机投影矩阵有1 1 个自由度。在相差任意一个比例因子的 情况下与一个3 x 4 矩阵的自由度数目一样的。 式( 2 8 ) 中,髟羡示摄像机的内参,r 和t 分别为摄像机在某一世界坐标系下的 方位和位置。从上一章可以知道,基于计算机视觉的手势姿态检测的最后结果就 是要在虚拟场景中建立真实环境下人手的姿态,利用图像识别和处理的方法,其 中必不可少的步骤就是要知道拍摄图像的摄像机的内参( 焦距、主点、象素宽度 等) 脚外参( 欠和f ) 。因此求解投影矩阵是基于计算机视觉的手势姿态检测方 法需要解决的主要问题。 2 2 摄像机标定的方法 摄像机标定( c a l i b r a t i o n ) 是计算机视觉领域中从二维图像获取三维欧氏 结构信息必不可少的关键一步,标定结果的精度也会直接影响重构的质量。 传统的摄像机标定是利用一个标准参照物与其图像的对应约束关系来确定 摄像机模型的内参数,即在摄像机前放置一个已知形状和尺寸的物体,称为标定 物,摄像机获取该标定物的图像,并由此计算摄像机的内外参数。在实际情形中, 当光学参数如焦距,放大倍数等随着任务的变化而改变时,每次都用标准参照物 很不方便,有时甚至是不可能的,这时应用传统的标定技术就很难。而自标定 ( s e l f c a l i b r a t i o n ) 可以克服这一缺点。自标定是指直接由未标定的多幅图像 来确定摄像机内参数的过程,不同于传统的摄像机标定技术,它无须利用一个标 准参照物以获得准确的三维度量信息,而是利用从图像序列的匹配信息中得到的 约束关系来计算摄像机模型的参数,这就使在线地、实时地校准摄像机模型参数 成为可能。孟晓桥等 5 0 总结了近期关于摄像机自标定的方法。 传统的标定方法可达到较高的精度,但是标定过程比较复杂,不适用于在线 标定和不可能使用标定块的场合。自标定方法的比较灵活,但是标定的结果精度 不高。本文主要是在摄像机内参已知的情况下实现特征点匹配的,因此摄像机的 标定可以在特征点匹配前完成。另一方面,匹配的结果与标定的好坏有很重要的 关系,而本文最终需要实现三维仿真手势姿态,因此要求摄像机机标定要有较高 的精度,同时兼顾到标定方法的使用便利,本文选择张正友的平面标定方法 2 0 , l o 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 基本方法是利用一个标准参照模板与其图像的对应约束关系来确定摄像机模型 的内参数。在摄像机前放置一个已知图形的平面模板( 标定模板) ,摄像机获取 该标定模板的多幅图像,并按下式计算摄像机的内参数。: 扑地, x 】, 0 1 在这里假定模板平面在世界坐标系z = 0 的平面上。式( 2 9 ) 中,k 为摄像 机的内参数矩阵,m = xyl 】2 为模板平面上点的齐次坐标,痢= “v1 】7 为模 板平面上点投影到图像平面上对应点的齐次坐标, r lr 2 以】和t 分别是摄像机坐 标系相对于世界坐标系的旋转矩阵和平移向量。 h = h ih 2j i l , = 入题r l1 2f 】( 2 1 0 ) 1 1 = k h l ,r 2 - 二k h 2 几 几 【2 11 ) 根据旋转矩阵的性质,即r l7 r 2 = 0 币n l l r 川= i i r 2r i = 1 ,每幅图像可以获得以下 两个对内参数矩阵的基本约束: h i z k r k h 2 = 0 ( 2 1 2 ) h i k r k 。1 h j = = h 2 z k 。r k 。7 h 2 ( 2 1 3 ) 由于摄像机有5 个未知内参数,所以当所摄取得的图像数目大于等于3 时, 就可以线性唯一求解出置。 2 3 对极几何与基本矩阵1 2 0 】 2 3 1 对极几何 对极几何是两个视图之间内在的射影几何。它独立于景物结构,只依赖于摄 像机的内参数和相对位置。 假定摄像机在两个视点下拍摄同一场景的情况,如图2 2 所示。c 和c 分别是 两个摄像机的中心。c 在第一个像平面上的投影为e ,c 在第二个像平面上的投影 为e ,也就是基线分别与两个像平面的交点,它们称为对极点。图像点x 反向投 影成三维空间的一条射线,它由第一个摄像机中心c 和x 确定,这条射线在第二 个视图中被影射成一条直线j ,其为对应于x 的对极线。同理在第一个视图中也 存在着一条对应与x 的对极线j ,它们都分别通过其对应的对极点。对极平面就 是图像点和它的对极线确定的一个平面。 92 ,l 1j x y 。l 1 j f 吃1 k = 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n l v e r s i t y 。| | 愆- 钐 图2 2 对极几何 当三维空间点x 位置变化时,对极平面绕基线“旋转”,所有的对极线相交于 对极点。现在假定点x 在第一幅图像上的投影点x 已知,平面刀被基线与由x 定义 的射线所确定。由于对应的在第二幅图像上的投影点x ,的射线在y 上,因此点x 在平面3 与第二幅像平面的交线j 上,直线,是从x 反向投影的射线在第二幅视图 上的像。在搜索对应点中,这是一个非常有意义的性质,无须在整幅像平面上搜 索x 的对应点,只要限制在其对极线,上即可。 在基于计算机视觉的手势姿态检测中,检测的基本依据就是多幅图像、或者 一系列连续的图像,在这些图像中找到相关的点是必须进行的基本操作,对极几 何所揭示的对应点之间的关系可以有效地提高匹配效率,显然是十分有用的工 具。 2 3 2 基本矩阵1 2 0 】 基本矩阵是对极几何的代数表示,通常用臁表示,它是两视图几何的精华, 包含了摄像机内参和相对位置的信息。在上述讨论中,对于一幅图像上的每点x , 在另一幅图像中必然存在一条对应的对极线,。在第二幅图像上,任何与该点x 匹配的服必然在极线j ,上。极线是通过点x 和第一个摄像机中心c 的射线在第二 幅图像上的投射。因此,存在一个从一幅图像上的点到另一幅图像上它的对应极 线的映射,这个映射就称为基本矩阵,上述关系可用公式表示为,if x ,因为x 的匹配点x 在对极线,上,故有: x o r f 均= 0 ( 2 1 4 ) 由( 2 1 4 ) 式可以看出基本矩阵的重要性在于不用参考摄像机矩阵,即可仅从 对应图像点,就能给出一种计算基本矩阵的方式,从而可仅由图像点对来计算,。 具体的说,硐在相差一个整体尺度因子的意义下唯一的确定,一般要至少7 对 的对应点可以计算砾巨阵。 基本矩阵有下述基本性质: 1 2 上海大学硕士研究生学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s l t y 1 基本矩阵硝芮足式( 2 1 4 ) j i r a n ( f ) = 2 ,自由度为7 ; 2 j - f x 是对应h 的对极线;f 。f r x ,是对应h 的对极线; 3 极点e 满足f e = 0 ,极点p ,满足f 丁e ,= 0 ; 4 脏相差一个非零常数因子下是唯一确定的。 从上述内容可知,基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论