




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)基于光流计算和dtw算法的动态手势识别研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天津师范大学硕士学位论文 摘要 手势识别涉及图像处理、模式识别、计算机视觉、人工智能等多门学科,其 研究的主要目的就是把手势应用到人机接口中,实现更加自然、和谐的人机交互。 手势识别可用于虚拟现实、三维设计、临场感、可视化、医学研究、智能监控等 领域,具有良好的社会和经济效益。 本文在分析手势图像序列各种特征的基础上,介绍了动态手势图像序列的光 流特征及目前主要的光流计算方法。对h o m s c h u n k 光流算法、l u c a s k a n a d e 光 流算法及本文所采用的高斯金字塔光流算法进行了重点研究。通过对手势图像序 列光流特征的提取及量化,建立了手势模型,并在此基础上训练生成了特定动态 手势的公共模板库及在线识别索引序列库。最后,采用优化的d t w 算法实现了 特定动态手势的识别。 在光流算法的研究中,采用m a t l a b 进行仿真实验,结果表明高斯金字塔光 流算法可以得到更为精确的光流场。整个识别系统在v i s u a ls t u d i o n e t2 0 0 8 结 合o p e n c v1 0 环境下,采用c 撑开发语言,编程实现了输入视频的预处理、高斯 金字塔光流计算、d t w 识别算法等。 实验结果表明,本文的特定动态手势识别系统能够较好地识别出四种特定的 动态手势,平均辨识率达到了9 4 5 。 关键词:手势识别,光流计算,手势建模,d t w 算法 天津师范大学硕士学位论文 a bs t r a c t g e s t u r er e c o g n i t i o ni n c l u d e sm a n ys c i e n c ed o m a i n s ,s u c ha s :i m a g e p r o c e s s i n g ,p a t t e r nc l a s s i f i c a t i o n ,c o m p u t e rv i s i o na n da r t i f i c i a li n t e l l i g e n c e , e t c t h em a i np u r p o s eo ft h i ss t u d yi st oa p p l yg e s t u r e si n t oh u m a nc o m p u t e r i n t e r f a c e ( h c i ) ,a n dr e a l i z eam o r en a t u r a l ,h a r m o n i o u sh u m a nc o m p u t e r i n t e r f a c e g e s t u r er e c o g n i t i o nc a nb ew i d e l ya p p l i e dt ov i r t u a lr e a l i t y , t h r e e d i m e n s i o n a ld e s i g n ,t e l e p r e s e n c e ,v i s u a l i z a t i o n ,m e d i c a lr e s e a r c h ,a n dt h e s m a r ts u r v e i l l a n c e ,a n dh a v ev e r yg o o ds o c i a la n de c o n o m i cb e n e f i t s o nt h eb a s i so fa n a l y z ev a r i o u sf e a t u r e si nv i d e os e r i e s ,o p t i c a l f l o w f e a t u r e sa n dt h em a i nc u r r e n to p t i c a l f l o wa l g o r i t h m sa r ei n t r o d u c e di nt h i s t h e s i s a n dt h r e ei m p o r t a n to p t i c a l - f l o wa l g o r i t h m s :h o r n - s c h u n k ,l u c a s - k a n a d e , a n dg a u s s i a np y r a m i do p t i c a l - f l o wa l g o r i t h ma r es t u d i e da n da n a l y z e d t h e n o p t i c a l - f l o wf e a t u r e so fg e s t u r ev i d e os e r i e sa r ee x t r a c t e da n dq u a n t i z d a n d b a s e do nt h e s ee x p e r i m e n t a lr e s u l t s ,t h ec o m m o ns p a t i o t e m p o r a lt e m p l a t ea n d t h ei n d e xs e q u e n c e sw a r e h o u s ea r eb u i l t a tl a s t ,o p t i m i z a t i o nd t wa l g o r i t h m i su s e dt or e a l i z ed y n a m i ch a n dg e s t u r er e c o g n i t i o n i nt h es t u d yo fo p t i c a l - f l o wa l g o r i t h m t h es o f t w a r em a t l a bi su s e dt or e a l i z e t h es i m u l a t i o ne x p e r i m e n t a st h er e s u l to ft h ea n a l y z a t i o no ft h r e ed i f f e r e n t a l g o r i t h m sa n di t se x p e r i m e n t a lr e s u l t s ,t h eg a u s s i a np y r a m i do p t i c a l f l o wa l g o r i t h m c a l lg e ta nm o r ep r e c i s e l yo p t i c a l - f l o wf i e l d t h er e c o g n i t i o ns y s t e mi sc o n s t r u c t e d u n d e rt h ee n v i r o n m e n to fv i s u a ls t u d i o n e t2 0 0 8a n do p e n c v1 0 ,a n dv i d e o s e r i e s p r e t r e a t m e n t ,g a u s s i a np y r a m i do p t i c a l f l o wa l g o r i t h m ,d t wa l g o r i t h m a r er e a l i z e db yp r o g r a m m i n g e x p e r i m e n t a lr e s u l t ss h o wt h a t ,t h ed y n a m i ch a n dg e s t u r er e c o g n i t i o n s y s t e mc a nr e c o g n i z ef o u rs p e c i a lg e s t u r e se a s i l y ,a n dt h er e c o g n i t i o n r a t eo nf o u r g e s t u r e si s9 4 5 k e yw o r d s :g e s t u r er e c o g n i t i o n ,o p t i c a l f l o wc a l c u l a t i o n ,g e s t u r em o d e l i n g , d t w a l g o r i t h m i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得叁鲞! 垂整盘堂或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 了谢意。 签名: 学位论文版权使用授权书 本入完全了解天津师范大学有关保留、使用学位论文的规定,即:学校有权将学位论 文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、 汇编以供奁阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的论文在解密后应遵守此规定) 签名:蝉导师签名: 天津师范大学硕士学位论文 1 1 引言 第一章绪论 在计算机处理技术突飞猛进发展的今天,人们正试图摆脱以计算机为中心的 交互模式,而向以人为中心的交互模式发展。在日常生活中,手势是一种常用的 自然直观的交流方式。而在传统的人机交互中,鼠标和键盘却扮演着重要的角色, 这种传统的输入方式已成为限制实现“普适计算的瓶颈。因此,手势识别技术 也越来越受关注。 手势识别技术按输入设备的不同可以分为基于数据手套的手势识别和基于 视觉的手势识别。基于数据手套的手势识别是利用数据手套跟踪测量手势在空间 运动的轨迹和时序信息,这种方法获得的手势信息比较精确,系统的识别率高。 但与此同时,数据手套等接触性传感器会削弱人机交互的自然性和灵活性,昂贵 的设备在很大程度上也限制了其应用的推广。而基于视觉的手势识别直接以人手 作为输入设备,是一种非接触式人机交互方式。人机之间的通讯不再需要中间媒 体,用户可以通过定义一系列适当的手势来对周围的机器进行控制,真正符合新 二代人机交互的最高目标:自然、便捷、友好、和谐。同采用数据手套的手势识 别相比,基于视觉的手势识别更加自然舒适。但是由于手势本身具有多样性、多 义性以及时间和空间上的差异性等特点,加之人手是复杂变形体以及视觉本身的 不适定性,基于视觉的手势识别是一个富有挑战性的、多学科交叉的研究课题。 从手势识别的对象来看,目前手势识别系统又可分为动态手势识别系统和静 态手势识别系统。其中,静态手势识别系统主要是利用手部做出的各种不同的手 形作为不同的语义的表达,静态手势并不研究手部的运动轨迹,与正常的人机交 互目标还有一定的差距。而动态手势识别系统通过跟踪整个手部做出的不同运动 轨迹,把这些不同的运动轨迹看作不同的语义表达,来实现更符合人类习惯的人 机对话。 静态手势识别由于不涉及图像时空序列的研究,因此,在对象分离和对象跟 踪上相对简单。而动态手势识别需要解决手部分离、手部跟踪、手部运动轨迹的 理解等一系列的问题,因此涉及的研究领域比较广泛,其中包括图像处理、模式 天津师范大学硕士学位论文 识别、人工智能等多门学科。另外,动态手势识别还可以兼容和结合静态手势识 别的结果,从而达到更加丰富的语义表达,能够更好地实现和谐人机交互。基于 计算机视觉的动态手势识别技术正成为探索人机交互系统的关键技术之一。 1 2 手势识别的现实意义与研究现状 1 2 1 手势识别的现实意义 随着先进人机交互技术( h c i ) 的提出及发展,手势识别正成为其中一项关 键技术,动态手势识别技术更是当前人机交互界面研究的一个热点。国内外已有 众多的学者对此课题在不同的角度、不同的层次获得了一定的研究成果,然而这 项技术仍然在不断发展和改进中,因此值得进行深入的研究。 另外,手势识别涉及图像处理、模式识别、计算机视觉、人工智能等多门学 科,在实现更加自然、和谐、符合人类行为习惯的人机交互方式的同时,其研究 的进展和不断深入有助于促进多学科的发展和不断融合。手势识别还可广泛应用 于虚拟现实、三维设计、临场感、可视化、医学研究、智能监控等领域,具有良 好的社会和经济效益。 1 2 2 手势识别的研究现状 国外对手势识别的研究已有很长的历史,1 9 9 1 年富士通实验室完成了对4 6 个手势符号的识别工作【l 】;j d a v i s 和m s h a h 将戴上指尖具有高亮度标记的视 觉手套的手势作为系统的输入,可识别7 种手势【2 1 ;s t a m e r 等在对美国手势中带 有词性的4 0 个词汇随机组成的短句子识别率达到9 9 2 【3 】;k g r o b e l 和m a s s a m 从视频录像中提取特征,采用h m m 技术识别2 6 2 个孤立词,正确率为9 1 3 【4 】。 随着基于视觉的手势识别研究技术的不断进展,已建立了m a s s e y 手势库【5 培口 p u r d u e 美国手语库【6 】等常用的手势数据库。 在我国,哈尔滨工业大学的吴江琴、高文【7 j 等给出了a n n 与h m m 的混合 方法作为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参 数的个数。将a n n h m m 混合方法应用于有1 8 个传感器的c y b e r g l o v e 型号数 据手套的中国手语识别系统中,孤立词识别率为9 0 ,简单语句级识别率为9 2 。 天津师范大学硕士学位论文 接下来高文等又选取c y b e r g l o v e 型号数据手套作为手语输入设备,并采用了 d g m m ( d y n a m i c g a u s s i a n m i x t u r e m o d e l ) 作为系统的识别技术,即利用一个随时间 变化的具有m 个分量的混合g a u s s i a n n 元混合密度来模型化手语信号,可识别 中国手语字典中的2 7 4 个词条,识别率为9 8 2 。与基于h m m 的识别系统比较, 这种模型的识别精度与h m m 模型的识别精度相当,其训练和识别速度比h m m 的训练与识别速度有明显的改善。他们为了进一步提高识别速度,识别模块中选 取了多层识别器,可识别中国手语字典中的2 7 4 个词条,识别率为9 7 4 。与基 于单个d g m m 的识别系统比较,这种模型的识别精度与单个d g m m 模型的识 别精度基本相同,但其识别速度比单个d g m m 的识别速度有明显的提耐引。另 外,清华大学的祝远新、徐光祜等给出了一种基于视觉的动态孤立手势识别技术, 借助于图像运动的变阶参数模型和鲁棒回归分析,提出一种基于运动分割的图像 运动估计方法【9 】。基于图像运动参数,构造了两种表观变化模型分别作为手势的 表现特征,利用最大最小优化算法来创建手势参考模板,并利用基于模板的分类 技术进行识别,对1 2 种手势的识别率超过9 0 。在进一步的研究中,他们又给 出了有关连续动态手势的识别,融合手势运动信息和皮肤颜色信息,进行复杂背 景下的手势分割。通过结合手势的时序信息、运动表现以及形状表观,提出动态 手势的时空表现模型,并提出基于颜色、运动以及形状等多模式信息的分层融合 策略抽取时空表观模型的参数。最后,提出将动态时空规整算法用于手势识别, 对1 2 种手势进行识别,平均识别率高达9 7 。 然而,目前在动态手势的识别中仍存在以下两个突出问题:一是时间的不一 致性,即不同人做同一种手势或者同一个人在不同的时刻做同一个手势,由于运 动速率不同,所耗费的时间各不相同;二是手势分割,即如何准确地识别动态手 势的开始和结束。 1 3 手势识别的关键技术 解决手势识别问题的普遍方法就是将其看成一个模式识别( p a t t e r n r e c o g n i t i o n ) 问题:首先从单目或多目的视频输入中对手势进行分割,将得到的 人手信息分解成一组特征值,接着将这些特征值与已经定义好的、代表不同手势 的模板进行匹配。如图1 1 所示。 天津师范大学硕士学位论文 摄像机 手势识别 图1 1 基于视觉的手势识别结构框图 1 3 1 手势图像的分割 手势图像的分割【3 4 】是计算机进行后续处理的前提,也是利用计算机进行手 势识别最困难的一步。分割效果的好坏将直接影响到识别的效果和效率。目前, 还没有一个很好的方法能够将人手精确地从复杂的背景中分割出来。主要存在算 法计算量大、分割效果不理想等问题。进行分割的方法一般有: ( 1 ) 增加限制的方法。如使用与肤色反差较大的黑色或白色的墙壁、衣服 作为背景;或者利用基于数据手套的方法,要求使用者戴上特殊的数据手套或位 置跟踪器等来得到相对准确的人手形状及位置信息。 ( 2 ) 大容量手势形状数据库的方法。如密歇根州立大学计算机系的c u i y u n t a o 建立了一个数据库。其中有各种手势在各个时刻不同位置、不同比例的手 型图像作为基于模板匹配识别方法的模板。 ( 3 ) 立体视觉的方法。如纽约哥伦比亚大学计算机系的g l u c k m a n 利用两 个不在同一平面镜子的反射图像,计算物体与摄像机之间的距离,并根据距离信 息分割出人手。 1 3 2 手势特征的选择和提取 手势特征序列可以分为以下三个等级【l o 】:来自运动模型的高层次特征;代 表图像本身的特征( 主要用于基于视图f v i e w b a s e d ) 的方法) ;通过图像测量得 到的低层次特征信息。 ( 1 ) 基于模型的方法总的来说就是试图通过获得的特征信息,重构手掌及 4 天津师范大学硕士学位论文 各个手指关节,从而推断、识别手势。这种方法通常利用基于边缘的人手图像获 得运动参数井对人手建模,然后将三维的人手模型映射成二维的手势图像( 如图 1 2 所示) 。 蚓12 人手3 d 模型( 左) ,映射得到的2 d 图像( 右) 其主要存在以下几点不足之处:对于每帧图像来说其初始的参数必须非常 接近所要得到的结果,雨则效果很u r 能会不理想:该方法对图像的噪声比较敏 感; 这种方法无法处理人手握拳时的情况,而这又是正常人机交互中一个不可 避免的手势;由于搜索空间的维度较高,这种取样方法的时间空间复杂度大。 _ f 是由于这些缺点的限制,在实际应用中这种方法应用的并不多。 ( 2 ) 基于视图的方法也叫做基于外观( a p p e a r a n c e b a s e d ) 的方法。主要是先 通过二维的亮度图像对人手进行建模,接着将手势建模成视图序列,用于分类识 别。目前,使用较多的是特征空问方法,它也代表了基于视图的方法的最高发展 水平。该方法最初是1 9 8 7 年s i r o v i c h k i r b y l 为实现图像压缩而提出的,其主 要思想是通过一系列少量的基本向量米代表大量的高维点阵序列。到1 9 9 1 年, t u r k p e n t l a n d 才提m 将特征空日j 方法用于识别。在手势识别的应用中,训练阶 段将所有的训练图像映射到摹本模板上,并且存储它们各自的系数用束表不视 图。当要识别个输入剧像时h 样将其映射到基本模板上,其系数作为索引去 搜索视图数据库,找到与之匹配的模板图像,从而实现图像的议别。这种方法在 人脸u l 别中已有较成熟的应用。 ( 3 ) 上面已经捉到基于模型的手势识别存在诸多缺陷,而日枉以手势识别 为同的的实际廊用, ,往往并小需要埘人手的完全重构。由此,计多利用低层的 天津师范大学硕士学位论文 图像测量信息( 人手区域的质心,人手运动的光流等) 作为特征的提取方法应运 而生,如:s t a m e r 以椭圆为人手建模,以椭圆中心位置、椭圆长短半轴长以及 椭圆长半轴与坐标系x 轴夹角这些参数的变化轨迹作为手势特征;l e e 1 2 】与 p e n 9 1 3 1 都将手看成一个点,以其运动轨迹作为手势特征;刘江华【1 4 1 等通过对人 手运动的视频序列的光流特征进行提取和主分量分析,结合d t w ( 动态时间规 整) 方法进行手势训练和识别,识别率达到9 2 。经实践证明这些方法不仅速度 快,对噪声也有较好的鲁棒性。 无论是基于模型、基于视图还是基于图像测量的传统方法,首先都要求从图 像序列的背景中检测到人手并对图像进行分割,得到人手的前景图像才能进一步 利用各种方法提取手势特征。因此,如何从复杂、多变的背景中对人手进行分割、 定位已成为制约手势识别发展的瓶颈。而基于图像测量的特征提取方法中的光流 计算方法,却不需要预先获取图像背景,其计算结果仅仅依靠相邻两帧中人手的 相对运动,不受复杂环境的影响,巧妙地避开了“瓶颈 问题。同时,得到的光 流特征能清晰地表示目标的运动,最少限度受到人手结构复杂、多变性的影响。 因此,本文选用基于光流的手势特征选择、提取方法对几个特定的动态手势进行 分类识别,并得到了较好的实验结果。 1 3 3 手势特征的分类 手势的分类就是通过一定的方法将提取的被识别对象的特征信息归为某一 类别,从而实现手势识别目的的过程。常用的分类方法可以分为两大类:基于规 则( r u l e - b a s e d ) 的方法和基于机器学习( m a c h i n el e a r n i n g b a s e d ) 的方法。 基于规则的方法是通过人为的寻找特征之间及特征内部的关系,并将找到的 关系规定为分类的规则。当输入一个手势特征序列时,将其与规定好的规则进行 对比,达到某一闽值则被归为该类。这类方法不仅需要的工作量大,而且由于人 类并不善于寻找高维特征空1 8 j 的向量关系,分类结果往往不够理想。这也是推动 机器学习方法出现并不断改进的动力。 传统的机器学习可以描述为:令形是一个问题空间,( x ,y ) w 称为样本或 对象,其中,z 是一个n 维矢量,y 是一个类别域中的一个值。由于人类观察能 天津师范大学硕士学位论文 力的限制,我们只能获得形的一个真子集,记为qc 形,称为样本集合( 对象集 合) 。由此,根据q 建立一个模型m ,并期望这个模型对形中的所有样本预测的 正确率大于一个给定的常数目。一个模型对形的预测的正确率,也可以称为模型 对的泛化能力。另外,如果样本含有测量( 或观察) 噪音,且获得模型的目 标函数具有统计性质( 例如,均方差) ,模型可以理解为对问题空间矿的一种统 计描述。 常用的机器学习分类方法有,基于统计理论的支持向量机( s v m ) ,a d b o o s t , 隐马尔可夫模型( h m m ) ,人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) ,动态时间 规整( d t w ) 等。其中,神经网络对于静态手势显示了非凡的能力,但对于动 态手势中的非手势模式不是很适用。h m m 因为其对非手势模型的建模能力,比 较适合于连续手势识别,对于复杂的涉及上下文的手势很合适,但是存在训练复 杂、判别能力差、观察概率相互独立、先验假设不合理等缺点。 手势特征分类的最终目的是实现手势的理解与描述,常用的手势识别方法有 两种:模板匹配法和统计法。模板匹配法是为每个特定的手势动作建立一个或多 个模板,当输入一个模板时,寻找它和已建好模板之间的最优匹配,如常用的 d t w t l 5 】算法。该类方法的缺点是抗噪声能力差。基于统计方法的手势识别虽然 有更好的动态适应能力,如常用的隐马尔可夫模型( h m m ) ,但在概率计算中, 如用维特比( v i t e r b i ) 算法,需要v * n 2 * t 步计算。其中,v 是词汇表的大小, n 是隐状态数目,t 是手势序列的长度,即帧数。显然,它的计算复杂度随着词 汇量的增加而增加。 以往手势识别系统主要采用基于人工神经网络及基于隐m a r k o v 模型等方 法。神经网络方法具有分类特性及抗干扰性,然而由于其处理时问序列的能力不 强,目前广泛用于静态手势的识别。著名的f e l s 的g l o v e t a l k 系统采用神经网络 方法作为识别技术。对于分析区间内的手语信号,通常采取h m m 方法进行模型 化。h m m 是众所周知并广泛使用的统计方法,一般拓扑结构下的h m m 具有非 常强的描述手势信号的时空变化能力,在动态手势识别领域一直占有主导地位, 如卡内基梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采 用h m m 作为系统的识别技术。另外,g r o b e l 与a s s a m 利用h m m 识别由戴有 色手套的用户通过摄像机输入的2 6 2 个孤立手语词,正确率为9 1 3 。然而正是 天津师范大学硕士学位论文 由于h m m 拓扑结构的一般性,导致这种模型在分析手语信号时过于复杂,使得 h m m 训练和识别计算量过大。尤其是在连续的h m m 中,由于需要计算大量的 状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢。因 而以往手语识别系统所采用的h m m 一般为离散h m m 。 由于d t w 算法更易实现,更加实用,同时结合本文所提取的手势光流特征, 以及在现实世界中,相同手势在时间上的不一致性,本文选用d t w 算法对特定 动态手势进行识别。 1 4 本文内容安排 本文共分五章,内容组织安排如下: 第一章首先分析了本实验研究课题的现实意义和研究现状,然后介绍了手 势图像的分割、手势特征的选择和提取及手势特征的分类等几个手势识别的关键 技术。本章最后还介绍了本文的主要工作。 第二章首先研究了光流计算的基本概念及基本光流约束方程,接着按照不 同光流计算方法分析了光流计算的研究现状。在此基础上对h o m s c h u n k 算法和 l u c a s k a n a d e 算法两种常用的光流计算方法进行了研究,并与本文所采用的高斯 金字塔光流算法进行了实验对比分析。 第三章本章实现了动态手势的建模,其中包括手势光流矢量的量化及模型 的建立两个部分。接着在分析研究动态规划技术及d t w 算法原理的基础上,结 合本实验系统,从增加全局路径限制和设定失真度阈值两个方面对算法进行优 化,进一步提高了识别的效率。 第四章介绍了动态手势识别实验系统的架构,编码实现了手势识别系统。 通过实验对比分析,说明了本文的手势公共模板库的优势和优化后的d t w 算法 在运行效率上的改进。最后还对系统实验结果进行了分析。 第五章对全文所做工作进行了总结,并提出了对未来工作的展望。 天津师范大学硕士学位论文 第二章光流计算方法及实验对比分析 图像运动估计是动态场景分析的基础,主要有两类方法:一类是基于特征的 方法,另一类是基于光流场【3 2 】的方法。基于特征的方法首先需要对图像进行处 理、抽取特征,而且求得的仅仅是特征处的运动信息,其它部分的运动信息要根 据特征处的信息,经过一定的插值外推求得。而光流法是直接对图像本身进行处 理,可以求得图像中每个像素所对应物体的运动信息,且不需要在图像序列中建 立特征之间的对应关系。 光流法不需要预先获取图像背景,而且计算结果仅仅依靠连续帧的相对运 动,不受复杂环境的影响,因而在基于对象的运动估计、运动检测和跟踪等领域 都有广阔的应用前景。鉴于此,本文采用光流法来估计人手的运动。 2 1 光流计算综述 2 1 1 光流的基本概念 在很多情况下,人们都是通过摄像机等设备获取2 d 图像序列来记录真实世 界的3 d 物体运动。也就是说我们得到的视频是3 d 物体运动在2 d 平面上的投 影,如图2 1 所示。其中,p 为观测点,为投影面,物体真实的3 d 运动矢量 为y = a 专b ,在投影平面上能观测到的是v 的投影1 ,= a 一b 。 p 图2 1 真实空间的3 d 运动及其在2 d 观测面上的投影 9 天津师范大学硬十学位论文 当物体运动时,在图像上对应物体的亮度模式也在运动。当人的眼睛观察运 动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列 连续变化的信息不断“流过”视网膜( 即图像平面) ,好像一种光的“流”,故 称之为光流( o p t i c a lf l o w ) 。 更准确的悦,光流是指空州运动物体在观测成像而一l 的像索运动的瞬时速 度,是动态的外界在视网膜上的连续流动。是一个二维的速度场。当成像物体运 动时,图像中的亮度图案也随之移动。光流是可看得到的亮度图案的运动,也可 以醢是表现运动希望光流能对应j 。运动场。光流的研究是利用图像序列中的像素 强度数据的时域变化和相关性来确定各自像素位置的“运动”,即研究图像扶度 在时日j 上的变化与景象中物体结构及其运动的关系。 将二维图像平面特定坐标点上的扶度瞬时变化率定义为光流矢量。光流场 ( o p t i c a lf l o wf i e l d ) 是指图像灰度模式的表观运动它是一个二维矢量场。它包 含的信息即是并像素点的瞬时运动速度矢量信息。研究光流场的目的就是为了从 序列图像中近似汁算不能直接得到的运动场。光流表达了幽像的变化,由于它包 含了目标运动的信息,因此可被观察者用柬确定日标的运动情况。 在理想情况f ,光流对应于物体的运动场,但这一命题小一定总是对的【】”。 如图22 所示的是一个非常均匀的球体,由于球体表面是曲面,因此在某一恒定 光源的照射下,亮度呈现一定的空问分布或叫明暗模式。当球体在摄像机前绕中 心轴旋转时,明暗模式并不随着表面运动,所以图像也没有变化,此时光流在任 意地方都等于零。然而事实上球的运动场并不等于零。反之,如果球体不动,而 光源运动,明暗模式运动将随着光源运动,此时光流不等丁零,但由于物体没有 运动,其运动场为零。 争v 蹦2 , 2 光流与运动场差别示意蚓 0 天津师范大学硕士学位论文 除了类似上述的特殊情况外,大多数情况下光流与物体的运动场没有太大的 区别,可以认为光流是物体运动的表征。本文就是利用人手运动形成的光流信息 来估计人手的运动。 2 1 2 基本光流约束方程 1 9 8 1 年,h o m 和s c h u n c k 【17 】创造性地将二维速度场与图像灰度相联系,引 入光流约束方程,利用时变图像灰度的时空梯度函数计算每个像素点的速度矢 量,得到光流计算的基本算法。 假设l ( x ,y ,t ) 是图像上点( x , y ) 在时刻t 的照度( 灰度值) ,点( 工,y ) 在t + a t 时 刻运动到( x + a x ,y + 每) 时对应的灰度值为i ( x + a x ,j ,+ 缈,h 出) ,假定图像照度 保持不变,即有: l ( x ,y ,f ) = ,( x + a x ,y + a y ,t - i - a t )( 2 1 ) 等式( 2 1 ) 右边利用泰勒公式展开得到: ,( x + 缸,y + 缈, t + a t ) = j ( 毛y 力+ 鬈出+ 若咖+ 瓦o 以+ p ( 2 2 ) 由等式( 2 1 ) 和( 2 2 ) ,当出专0 时,忽略高次得到: 警害+ 考老+ 鲁= o c 2 a xd t卸d ta t 、。 记:甜( 五y 力= 妄= 筹,v ( 五川) = 象= 石a y ,l = 瓦0 1 ,1 ,瓦0 1 ,l = 瓦o i 。则得到 基本的光流约束方程: i x u + ,1 ,+ = 0 ( 2 4 ) 其中“,v 分别是光流矢量在x 和y 方向上的分量。 将光流约束方程( 2 4 ) 写成矢量的形式: v i 矿+ = 0( 2 5 ) 实际上,光流约束方程产生的是恒值亮度轮廓图像运动的法向分量圪= s n , 天津师范大学硕士学位论文 其中,刀和s 分别是法向运动的分量方向和大小: 舻品一高 , 舻翮川。确 犯雨) 在光流约束方程( 2 4 ) 中,l x , l y ,i t 分别是参考像素点的灰度值沿五y ,t 方向的 偏导数,可直接从图像中求出。而剩下的两个未知分量“,1 ,只有一个线性等式 约束,如图2 3 所示,在约束线上的所有点都是光流约束方程的解。也就是说基 本光流约束方程( 2 4 ) 的解不是唯一的,这种不确定的问题也被称作光流计算的孔 径问题( a p e r t u r ep r o b l e m ) ,如图2 4 所示。如果基于一个局部窗1 5 1 ( f , h 孑l 径1 ) 来估计运动,则无法确定图像是沿着边缘方向还是垂直边缘方向运动,其中沿着 垂直边缘方向的运动是法向流。但是,我们观察孔径2 ,就有可能确定正确的运 动,这是由于图像在孔径2 中的两个垂直边缘方向上都有梯度变化。这样,在 一个包含有足够灰度变化的像素块上有可能估计图像运动。当然,这景隐含了一 个假设,那就是像素块中的所有像素都具有相同的运动矢量。因此,为了求解两 个未知的分量,必须引入更多的约束。 图2 3 光流约束方程解空间 天津师范大学硕士学位论文 j i 法艇 r 图2 4 光流计算孔径问题示意图 观察物体的运动或旋转会发现,物体上相邻的点在运动时有相似的速度,并 且对应图像亮度模式的速度场在相邻区域的变化也是平滑的。因此基于平滑性的 约束可以作为附加约束项来估计光流。该假设在一个物体的内部是合理的,因为 在物体内部,旋转和比例变化使像素间的速度变化很小,但该方法在遮挡边界上 的光流计算是不准确的。 表达附加约束常用的有两种方式【1 8 】:一是用迭代的方法找到既满足约束方 程,又能够使变化率最小的速度场。另一种衡量光流场平滑度的方法是光流的拉 普拉斯算子( l a p l a c i a n s ) x 和y 分量的平方和。u 和1 ,的拉普拉斯算子定义为: v 2 “= 窘+ 矿0 2 u ,i v - 1 2 y = 萨0 2 v + 矿0 2 v ( 2 7 ) 经典的h o r n s c h u n c k 法即是利用光流在整个图像上平滑变化的假设来求解 光流,通过寻找变化尽可能小的速度场来求得唯一解。即运动场既满足光流约束 方程又满足全局平滑性。 2 2 光流计算的研究现状 人们基于不同的理论基础提出各种光流计算方法,算法性能各有不同。 b a r r o n 等人对多种光流计算技术进行了总结,按照理论基础与数学方法的区别把 它们分成四种:基于梯度的方法、基于匹配的方法、基于能量的方法、基于相位 的方法。近年来神经动力学方法也颇受学者重视。 天津师范大学硕士学位论文 2 2 1 基于梯度的方法 基于梯度的方法又称为微分法,它是利用时变图像灰度( 或其滤波形式) 的 时空微分( 即时空梯度函数) 来计算像素的速度矢量。由于计算简单和较好的结 果,该方法得到了广泛研究和应用。典型的代表是h o r n s c h u n c k 的光流计算方 法,该方法是在光流基本约束方程的基础上附加了全局平滑假设,从而计算出光 流场。基于此思想,大量的改进算法不断提出。n a g e l 采用有条件的平滑约束, 即通过加权矩阵的控制对梯度进行不同的平滑处理;b l a c k 和a n a n d a n 针对多运 动的估计问题,提出了分段平滑的方法。虽然很多基于梯度的光流估计方法取得 了较好的光流估计,但由于在计算光流时涉及到可调参数的人工选取、可靠性评 价因子的选择困难,以及预处理对光流计算结果的影响,在应用光流对目标进行 实时检测与自动跟踪时仍存在很多问题。 2 2 2 基于匹配的方法 基于匹配的光流计算方法包括基于特征和区域的两种。基于特征的方法不断 地对目标主要特征进行定位和跟踪,对目标大的运动和亮度变化具有鲁棒性。存 在的问题是光流通常很稀疏,而且特征提取和精确匹配也十分困难。基于区域的 方法又称块匹配法,该方法先对类似的区域进行定位,然后通过相似区域的位移 计算光流。其模型为: v o p f f m = i n ,f 以z ) 2 + 1 ,t ) - l ( x ,f + 1 ) 】2 ( 2 8 ) j e f t ( x ) 这里,n ( x ) 表示x 的局部块,v 一可以不为整数。 这种方法在视频编码中得到了广泛的应用。然而,它计算的光流仍不稠密。 另外,这两种方法估计亚像素精度的光流也有困难,计算量很大。在考虑光流精 度和稠密性时,基于匹配的方法并不适用。 2 2 3 基于能量的方法 基于能量的方法首先要对输入图像序列进行时空滤波处理,这是一种时间和 空i 日j 整合。对于均匀的光流场,要获得诈确的速度估计,这种时空整合是非常必 1 4 天津师范大学硕士学位论文 要的。然而,这样做会降低光流估计的空间和时间分辨率。尤其是当时空整合区 域包含几个运动成分( 如运动边缘) 时,估计精度将会恶化。此外,基于能量的 光流技术还存在高计算负荷的问题。此方法涉及大量的滤波器,目前这些滤波器 是主要的计算消费。然而,可以预期,随着相应硬件的发展,在不久的将来,滤 波将不再是一个严重的限制因素,所有这些技术都可以在帧速下加以实现。 2 2 4 基于相位的方法 f l e e t 和j e p s o n 首次从概念上提出了相位信息用于光流计算的问题。因为速 度是根据带通滤波器输出的相位特性确定的,所以称为相位方法。他们根据与带 通速度调谐滤波器输出中的等相位轮廓相垂直的瞬时运动来定义分速度。带通滤 波器按照尺度、速度和定向来分离输入信号。 基于相位的光流技术的综合性能是比较好的:速度估计比较精确且具有较高 的空间分辨率,对图像序列的适用范围也比较宽。同时,这里仍有几个问题值得 讨论: ( 1 ) 与基于能量的光流技术一样,基于相位的模型既有一定的生物合理性, 又有较高的计算复杂性; ( 2 ) 尽管相位技术用两帧图像就可计算光流,但要获得足够的估计精度,就 必须有一定的整合时问,这个延迟将会降低边缘处运动估计的时间分辨率; ( 3 ) f l e e t 和j e s p o n 的方法对输入图像序列中的时间混叠比较敏感。 2 2 5 神经动力学方法 计算机视觉研究的初衷就是为了模仿人类视觉系统的功能。然而人类理解与 识别图像的能力与计算机形成了巨大的反差。视觉科学家们迫切期望借鉴人类处 理图像的方法,以摆脱困境。对于光流计算来讲,如果说前面基于能量或相位的 模型有一定的生物合理性的话,那么近几年出现的利用神经网络建立的视觉运动 感知的神经动力学模型则是对生物视觉系统功能与结构的更为直接的模拟。 g r o s s b e r g 等人的视觉运动感知神经动力学模型描述了运动感知中视皮层简 单细胞、复杂细胞、超复杂细胞以及视网膜双极细胞之问的相互作用,揭示了运 动分割与组合、竞争与合作的神经整合机制。这个称为运动边界轮廓系统的神经 天津师范大学硕士学位论文 网络解释了复杂运动图形上的局部模糊运动如何被积极地组织成一个整体一致 的运动信号,给出了整体小孔问题的一个解。这个模型对于整体运动方向的判别 非常有效,然而它却不能给出运动速度的大小。 f a y 和w a x m a n 模仿视网膜中的时空处理和大脑的视觉运动通路,基于并联 动力学提出了一个多层神经网络,它涉及光适应、边缘增强和边缘速度提取等几 个处理阶段。网络中,每个节点的动力学特性类似于具有可变电导的细胞膜,光 适应利用神经元间的抑制作用来获取,空间对比度增强借助于一个修正的o n 中 , 心o f f - 周边反馈网络来实现,最后的速度估计由一个称为对传活化法的动力学方 程来提取。这个神经网络在一个并行机上实现了3 0 帧秒的帧速下的速度提取。 遗憾的是它仅能提供运动边缘的法向速度估计,为了恢复整个模式的光流场,还 必须用速度泛函方法将估计的法向流整合成一个致密的光流场。尽管用这些神经 动力学模型来测量光流还很不成熟,然而这些方法及其结论为进一步研究打下了 良好的基础,是将神经机制引入运动计算方面所做的极有意义的尝试。 2 3 光流算法的实现及实验对比 本节通过介绍两种经典的光流算法:h o m s c h u n k 算法和l u c a s k a n a d e 算 法,讨论了如何引入平滑性约束来克服光流计算中的孔径问题。通过在m a t l a b 环境下进行实验仿真,与本文所采用的高斯金字塔光流算法进行了实验对比分 析,结果表明高斯金字塔光流算法可以得到更为精确的光流场。 2 3 1h o r n s c h u n k 算法 h o m 和s c h u n k 1 9 1 依据同一运动物体产生的光流场是连续和平滑的假设,提 出了在光流场上附加约束( 整体平滑约束) ,将计算光流问题转化为一个变分问 题,通过寻找变化尽可能小的速度场可以求得唯一解。即物体的运动场既满足光 流约束方程又满足全局平滑性。但整体平滑性约束条件在遮挡边界上的光流计算 是不准确的。根据光流约束方程( 2 4 ) ,光流误差为: e 2 ( x ) = ( ,u + i y v + i , ) 2 ( 2 9 ) 其中,x = ( x ,y ) 7 。对于光滑变化的光流,其速度分量平方和积分为: 1 6 天津师范大学硕士学位论文 s 2 ( x ) = f 旺( 竺) 2 + ( 罢) 2 + ( 兰) 2 + ( 兰) 2 d x d y ( 2 1 0 ) “a ) c o v 呶 鲫 将光滑性测度同加权微分约束测量结合起来,其中,加权参数口用来控制图 像光流约束微分和光滑性微分之间的平衡: e = f f e 2 ( z ) + 船2 ( x ) ) 蚴 ( 2 1 1 ) 其中口是控制平滑度的参数,口越大平滑度就越高,则估计的精度也越高。使用 变分法将上式( 2 11 ) 转化为对应的一组偏微分方程: j a v ,2 u = 1 2 u + i x l ,y v + i ( 2 1 2 ) 润2 v = ix i 一+ i j v + iv i t 、。 用有限差分方法将每个方程中的拉普拉斯算子换成局部邻域图像光流矢量 的加权和,并使用迭代方法求解这两个差分方程。 在这里只考虑离散的情况,在一点( f ,j ) 及其4 邻
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版商铺物业管理与消防设施维护服务合同
- 2025年度融资租赁担保合同违约损失分担协议
- 2025版水稻新品种推广种植购销合同范本
- 2025版绿色能源项目融资合同协议
- 2025版特种车辆驾驶员劳动合同范本
- 2025版股权期权激励方案合同范本
- 2025版水电设施维护保养长期服务合同范本
- 2025版企业宣传片拍摄制作合同范本
- 2025版汽车零部件铁艺加工及技术支持合同
- 2025传媒公司签约主播包含品牌代言与内容创作的综合合同范本
- 成人脑室外引流护理标准解读
- 算法认识与体验(教学设计)-2024-2025学年人教版(2024)小学信息技术五年级全一册
- 2025年辅警笔试考试题库题库与答案
- 2025危险品押运员模拟考试试题及答案
- 学会关心-教育的另一种模式课件
- 药物的结构性质与生物活性
- 少年中国说五线谱乐谱
- 国际公法学-第三章国际法与国内法的关系
- 广东广州市番禺区教育局招考聘用公办中小学临聘教师17人(必考题)模拟卷
- (高职)企业财务会计电子课件完整版PPT全书电子教案
- VTE的预防与治疗(课堂PPT)
评论
0/150
提交评论