(计算机应用技术专业论文)基于视觉的三维指尖检测算法和应用.pdf_第1页
(计算机应用技术专业论文)基于视觉的三维指尖检测算法和应用.pdf_第2页
(计算机应用技术专业论文)基于视觉的三维指尖检测算法和应用.pdf_第3页
(计算机应用技术专业论文)基于视觉的三维指尖检测算法和应用.pdf_第4页
(计算机应用技术专业论文)基于视觉的三维指尖检测算法和应用.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于视觉的三维指尖检测算法和应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 摘要 和传统的鼠标、键盘等人机交互设备相比,手势是更自然、更便利的交 互方式。基于手势的实时人机交互在虚拟现实领域有着重要的理论和应用价 值,它可以用来实现三维鼠标以及用于人机交互的三维游戏中。 本文描述了通过计算机双目视觉技术,实现一个三维指尖检测系统的算 法基础、框架实现以及其他关键技术,最后利用该系统实现了三维鼠标以及 若干基于指尖点击、指尖移动以及手掌翻转等多种手势的三维手势交互游 戏。 三维指尖检测系统由五个部分组成:第一部分是前景分割,实现了在线 的肤色检测算法以及阈值结合混合多高斯背景减法算法,这两种前景分割算 法可以根据系统使用的环境进行切换;第二部分是指尖检测,该部分包括单 指尖检测和多指尖检测,单指尖检测算法包括基于骨架的端点搜索、基于轮 廓k 向量极值两种方式,多指尖检测算法通过手掌轮廓凸包以及缺陷属性来 实现;第三部分是摄像机标定以及3 d 重建,摄像机标定通过一个自己设计的 标记,利用o p e n c v 的标定函数获得世界坐标系的原点以及方位。3 d 重建部分 利用在两个摄像机中得到的二维指尖位置,重建指尖在三维空间的位置;第 四部分是k a l m a n 滤波,k a l m a n 滤波主要用来平滑指尖轨迹以及预测指尖3 d 位 置,预测的3 d 位置会被投影到两个摄像机成像平面,然后用来设置前景分割 的r o i 区域;第五部分是获得指尖位置后的应用,用获得的指尖位置实现了 点、线、面的交互,设计了三维鼠标交互系统,实现了指尖运动速度的参数 化,并在这些交互方式的基础上实现了一些基于指尖手势的三维游戏。试验 结果表明我们的算法是有效的。 关键词:双目视觉;指尖检测,k a l m a n 滤波,3 d 重建 浙江大学硕士学位论文a b s tr a c t h b st r a c t h a n dg e st u r eisam o r en a t u r a1a n d c o n v e n i e n ti n t e r a c ti v em o d e c o m p a r i n g w i t ht r a d i t i o n a lm o u s e a n d k e y b o a r d d e v i c e s r e a l t i m e h u m a n 。c o m p u t e ri n t e r a c t i o nb a s e do nh a n dg e s t u r e sp l a y sa ni m p o r t a n tr o l e i nb o t ht h e o r ya n da p p l i c a t i o no fv i r t u a lr e a l i t y 二t h e p r o p o s e dm e t h o d i nt h i sp a p e rc a nb ew i d e l yu s e dt oi m p l e m e n t3 di n t e r a c ti o no fv i d e og a m e a n d3 dm o u s e i nt h is p a p e r ,w ep r e s e n t s o m ek e yd o m i n a n t a l g o r i t h m s a n d i m p l e m e n t a ti o no f3 df i n g e r ti pd e t e c ti o ns y s t e m f i n a ll y ,w eu s et h e s y st e mt oi m p l e m e n t3 dm o u s ea n ds o m e3 di n t e r a c ti r eg a m e s t h es y s t e mc o n s is tso ff i v ep a r ts t h ef i r s tp a r tisf o r e g r o u n d s e g m e n t a t i o n w ei m p l e m e n ta no n l i n es k i nd e t e c t i o na i g o r i t h ma n da n i m p r o v e db g sw h i c hc o m b i n e st h r e s h o l dd e c is i o nw i t hg m m a n y t i m e ,w ec a n s w i t c hb e t w e e nt h e m p a r t2i n c l u d e sd e t e c t i o no fs i n g l ef i n g e r t i pa n d m u l t i f i n g e r t i p s w eu s es o m ea l g o t i t h m sw h i c hc o n s is to fe n d p o i n ts e a r c h o fs k e l e t o n ,d e c is i o no fk - v e c t o re x t r e m ep o i n ta n dc o n t o u rc h a r a c t e r is t i c o fh a n dr e g i o n p a r t 3c o n s is t so fc a m e r ac a l i b r a t i o na n d3 dr e c o n s t r u c t i o n w eu s eam a r k e rt og e tw o r l dc o o r d i n a t e ,t h e nr e c o n s t r u c t3 dp o s i t i o no f f i n g e r t i p s k a l m a nf i l t e rise m p l o y e di n3 ds p a c et os m o o t ht h ef i n g e r t i p t r a j e c t o r ya n dp r e d i c tt h er a n g eo ff i n g e r t i p si np a r t4 ,p a r t5i m p l e m e n ts p o i n t ,1 i n e ,f a c ei n t e r a c t i o n ,a n dw ed e s c r i b es o m e3 da p p l i c a t i o n su s i n g t h e s ei n t e r a c t i o nw h i c hi n c l u d e3 dm o u s e ,3 dg a m e s e x p e r i m e n t a lr e s u l t s h o w st h ee f f i c i e n c yo fo u ra l g o r it h m 1 e y w o r d s : s t e r e ov is i o n ,f i n g e r t i pd e t e c t i o n ,k a l m a nf i l t e r ,3 d r e c o n st r u c ti o n 浙江大学硕士学位论文图目录 图目录 图1 1 计算机视觉和其它领域的关系( 来自 1 】) 2 图1 2 鼠标移动闭合循环控制模型4 图1 3 三种不同人机交互接口一j ,5 图1 4 手势识别控制器( 来自微软网站) 7 图1 5 基于手势控制器的人机交互游戏( 来自微软网站) 。7 图2 1 系统框架一9 图3 1r g b 颜色空间图i 二1 2 图3 2h s v 颜色空问图;13 图3 3 训练肤色模型的正样本和负样本1 4 图,3 4y c b c r 颜色空间肤色模型1 5 图3 5 原始图像1 5 图3 6a 是普通肤色检测b 是在线训练肤色检测1 6 图3 7 四种前景分割算法的结果2 0 图3 8 阴影检测图2 1 图3 9 前景图像细化求骨架2 2 图3 10 可移动的八个方向一2 3 图3 1 1 端点搜索结果2 4 图3 1 2k 向量的计算方法2 4 图3 13 指尖检测结果( a ) 手指前景轮廓图( b ) 指尖检测结果2 6 图3 1 4 轮廓的凸包和缺陷2 7 图3 1 5 多指尖检测的结果2 7 图4 1 摄像机和世界坐标系的关系2 9 图4 2h r t o o k it 的标记,3 1 图4 3 指尖检测系统固定标记3 2 图4 4 摄像机标定过程3 2 i i i 浙江大学硕士学位论文 图目录 图4 5 指尖轨迹k a l m a n 滤波3 8 图5 1 极线匹配3 9 图5 2 指尖指向:4 0 图5 3 极线匹配求指尖指向:4 1 图5 4 手指中轴计算4 1 图5 5 重建手掌平面4 2 图5 6 指尖移动速率变化4 2 图5 7 三维空间写字一4 3 图5 8 三维交互小游戏,一4 4 图5 9 基于手掌面模拟飞机驾驶游戏4 4 i v 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得逝姿盘堂或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:签字日期: 年月日 学位论文版权使用授权书 本学位论文作者完全了解逝姿盘堂有权保留并向国家有关部门或机构送交本 论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿盘堂可以将学位论文的 全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 导师签名: 签字日期:年 月日签字日期:年月 日 浙江大学硕士学位论文第1 章绪论 第1 章绪论 伴随着计算机视觉技术的发展以及硬件设备的进步,很多基于视觉技术的人 机交互从理论变成了现实,比如基于人脸识别以及人手移动的游戏等。这些交互 游戏大多通过单目摄像头,利用二维图像的识别来实现人机交互。如何通过立体 视觉技术,实现三维空间自然的人机交互是近年来热门的研究课题。在与i n t e l 亚太研发中心合作的项目中,我们建立了一套基于双目摄像机的三维指尖检测系 统,实现了三维指尖检测的关键算法,并把该系统用于三维游戏交互中,实现了 实时自然的人机交互。 1 1 计算机视觉技术 计算机视觉n 1 是一门研究如何使计算机观察世界的科学,具体来讲就是利用 摄像机和电脑代替人的眼睛对目标进行识别、跟踪以及测量等相关的机器视觉, 并对得到的结果进一步做图像处理,使其成为适合人眼观察或仪器处理的图像。 计算机视觉的研究目标胆3 是使计算机有通过二维图像认知三维环境信息的能力。 这种能力既包括三维物体几何信息获取,还包括它的位置、形状、姿态、运动以 及描述、识别、存储、理解等。 计算机视觉是一门新兴的学科,它在计算机工程以及计算机科学领域都有着 重要理论和应用价值。计算机视觉也是一门综合性的交叉学科,它吸引了来自不 同学科的研究者参加到它的研究之中,其中包括计算机科学和工程、信号处理、 物理学、应用数学、神经生物学、人工智能、机器人学等。图1 1 显示了计算机 视觉和其他领域的关系,其中计算机视觉和机器视觉、图像处理有着很多的交叉 部分,它们是彼此紧密联系但又有区别的学科。计算机视觉的研究对象主要是映 射到单幅或多幅图像上的三维场景,例如三维场景的重建。计算机视觉的研究很 大程度上针对图像的内容。图象处理与图像分析的研究对象主要是二维图像,实 现图像的转化,尤其是针对像素级的操作,例如提高图像对比度、边缘提取、去 噪声和图像几何变换等。这一特征表明无论是图像处理还是图像分析其研究内容 浙江大学硕士学位论文第1 章绪论 都和图像的具体内容无关。机器视觉主要是指工业领域的视觉研究,例如自主机 器人的视觉,用于检测和测量物体尺度的视觉等。在机器视觉领域,图像感知与 控制理论往往与图像处理紧密结合起来,从而实现高效的机器人控制或者各种实 时操作。 图1 1 计算机视觉和其它领域的关系( 来自【1 】) m a r r b l 把计算机视觉研究分为三个层次:计算理论层次,表达与算法层次, 硬件实现层次,现在计算机视觉的研究主要集中在前两个层次。从视觉计算理论 角度出发,视觉信息处理又分为三个阶段,即视觉信息从最初的二维图像到最终 对三维环境的表达经历的三个阶段:第一阶段构成基元图,基元图由二维图像中 的边缘点、直线段、曲线、顶点、纹理等基本几何元素或特征组成;第二阶段是 对环境的2 5 维描述,2 5 维意思是部分的、不完整的三维信息描述;第三阶段 就是得到物体完整的三维描述。 计算机视觉中的经典问题包括图像识别、运动跟踪、场景重建、图像恢复等。 在基于视觉技术的三维指尖系统中,使用到了视觉技术中的运动图像分割、图像 识别、摄像机标定、三维重建等多项内容,这些内容遍及视觉图像处理的三个阶 段。 2 浙江大学硕士学位论文第1 章绪论 1 2 实时人机交互 1 2 1 实时人机交互的概念 人机交互1 ( h u m a n - c o m p u t e ri n t e r a c ti o n ) 是关于设计、评价和实现供人 们使用的交互式计算机系统,且围绕交互式计算机系统进行研究的科学。狭义地 讲,人机交互技术主要是研究人与计算机之间的信息交换,它主要包括人到计算 机以及计算机到人的信息交换。人机交互也是一门交叉学科,它和心理学、认知 科学、人机工程学以及多媒体技术、虚拟现实技术、计算机视觉技术、机器人技 术等密切相关。通常的人机交互的设备包括鼠标、键盘、数据手套、操纵杆、压 力笔、显示器、音箱、打印机以及用手、脚、声音、姿势或身体的动作等。 在人机交互过程中,有时需要实时操作,比如用游戏操纵杆操纵游戏,而有 时则不需要,比如打印资料等不需要实时操作。如何定义“实时人机交互”的概 念? f i t z m a u r i c e b l 等给实时人机交互下了定义,“t i g h t l yc o u p l e ds y s t e m sh a v e t h ep h y s i c a la n dv i r t u a lr e p r e s e n t a t i o n sp e r f e c t l ys y n c h r o n i z e d ,t h e p h y s i c a lo b j e c t sa r et r a c k e dc o n t i n u o u s l yi nt e a lt i m e ”。简单地讲,就 是需要人和计算机交互过程中要保持“完美同步”。实际上,真实世界和虚拟世 界进行交互总会存在一些时延,不可能完美同步,所谓完美同步,是指时延足够 小,以致人们观察不到。比如在视频播放中,每秒3 0 帧和3 5 帧的时延不同,但 人眼不可能察觉其中的差别,所以可以认为,这两种视频播放都是实时的。 f i t z m a u r i c e 定义的实时人机交互系统使用了紧密耦合系统的概念,通常这种 系统都可以用一个闭合的循环控制系统来描述。w a r e 哺1 通过鼠标的操作的例子提 出了实时人机交互的闭合循环控制系统。 如图1 2 所示,当移动鼠标想到达屏幕上某个指定位置时,系统会根据用户 的移动,不断的反馈操作,使用户逐渐到达指定的位置。在这个过程中,用户一 直感觉鼠标在移动,形成一个“紧密耦合”的系统,并不会感觉到时延的存在。 可以看到,这个过程中的时延包括捕获时延、测量时延以及显示时延,其中捕获 时延和显示时延是由于输入输出设备产生的,而测量时延很小,一般可以忽略不 浙江大学硕士学位论文第1 章绪论 计。 捕获时延 测量时延 显示时延 图1 2 鼠标移动闭合循环控制模型 在过去3 0 年中,鼠标、键盘、显示器是最主要的人机接口,无论大型机还 是普通p c ,人们每天通过这些设备和计算机进行交互操作。近年来,随着技术发 展,出现了一些新型可抓取交互( g r as p a b l ei n t e r f a c e s ) 设备和数字交互设备, 比如虚拟现实系统中常用的头盔、手写板、w i i 游戏机的遥控器等。图1 3 显示 了三种人机交互接t j 的交互方式。 可抓取的交互设备可以是任何物体,这个物体可以和计算机系统通信。用户 把可抓取的交互设备从一个位置移动到另一个位置,计算机相应的会把虚拟物体 的逻辑位置从一个位置移动到另一个位置。和鼠标操作不同的是,可抓取交互设 备不用和屏幕上的光标或鼠标指针对应,它直接和虚拟物体对应。比如w ii 游戏 机的遥控器就是可抓取交互设备的一种。可抓取交互的设备的优点是可以快速访 问,多个可抓取设备可以同时操作等。 另外一种使用更广泛,数量更多的是数字接口设备。这些设备不是通过物理 接口控制计算机中的逻辑设备,而是通过手势直接控制逻辑设备,比如触摸屏, 可以用手在上面写字和操作,直接和计算机进行交互。数字接口设备的优点更多, 除了快速访问,可以多个设备同时操作以外,它还更便利,而且有很大的灵活性。 在三维指尖检测系统中,采用了基于视觉技术的三维指尖检测算法,实现了通过 三维手势与虚拟物体进行交互。这种交互方式实际上就是实现一种数字的人机接 1 2 。 浙江大学硕士学位论文第1 章绪论 传统图形用户接口物理设备逻辑设各 可解释交互接口 椤b 戢各 数字交互接口 逻辑设各 铲;舀督 图1 3 三种不同入机交互接口 1 2 2 基于视觉技术的实时人机交互 计算机视觉技术可以实现可抓取交互接口,也可以实现数字交互接口,在本 文中,主要基于视觉技术实现数字交互接口。 通过计算机视觉技术,可以实现手势识别,进而通过手势来实现实时人机交 互。基于视觉技术的人机交互可以用在虚拟现实、增强现实的系统或者游戏中。 徐一华 1 等利用视觉技术,通过放在显示器边上的摄像头,实现了手指和屏幕自 然交互。杨端端等始1 在他们的f w c r s 系统中,利用视觉技术实现了汉字书写功能, 通过摄像头等设备,人们可以在固定的桌子上进行汉字书写,系统识别这些汉字, 从而实现人机交互。 b e r a r d 挎1 概括了基于视觉技术的入机交互系统经过的几个阶段:检测,就是 定义一类物体在图像中的是否存在,并输出该类物体的位置、大小、轮廓等属性, 比如脸、手、眼睛等的检测;识别,就是在检测到的一类物体中,选出需要的物 体,如果是单物体,可以直接选定来做应用,如果包括多个物体,比如通过h o u g h 浙江大学硕士学位论文第1 章绪论 变化做人脸检测,而背景中有好多类似人脸的园形物体,这时就需要在多个圆形 轮廓中识别人脸;跟踪,大多数情况下,识别的物体都是运动物体,而不是静止 物体,就需要进行动态跟踪。当然,也可以每帧都做检测工作,但这时检测可能 会更耗时,而且系统可能存在多个检测物体,而这些物体在有些时候会出现重合, 这时光靠检测是不能得到结果的。 相比于其他人机交互技术方式,基于视觉技术的人机交互有很多优势。首先 就是设备非常便宜,现在普通的摄像头都在百元之内,甚至还可以把摄像功能集 成在单芯片中,比如手机中的摄像头功能。其次就是基于视觉技术的人机交互, 可以实现各种各样的功能,而其他交互设备,比如鼠标、键盘等只是实现单一的 功能。还有就是基于视觉技术的人机交互方式更加便利,例如基于视觉的鼠标并 不需要线和电脑相连。 基于视觉技术的实时人机交互也存在很多挑战,需要进一步得到解决。首先 就是时延问题。视频图像一般至少每秒1 5 帧,这样的视觉系统才不会有停顿的 感觉,这就要求检测、识别、跟踪操作要在1 1 5 秒之内完成,这样才能称作是 实时人机交互。再就是分辨率问题,数字图像是离散的,而分辨率和具体应用有 关,比如屏幕鼠标实现,就要求视频分辨率和屏幕分辨率一致。现在摄像头一般 是3 2 0 2 4 0 或者是6 4 0 * 4 8 0 ,高分辨率的视频图像会增加系统视频编解码的开销, 也会增加检测、识别、跟踪算法的时间。最后就是稳定性和可靠性问题,基于视 觉的技术很容易受到环境的干扰,比如光照条件的变化会给检测带来错误。这样 就限制了基于视觉技术人机交互系统的应用范围。 1 2 3 基于手势的三维空间人机交互 通过计算机视觉技术,可以实现三维空间的手势识别,进而实现自然和谐的 人机交互。基于手势的三维空间人机交互通常有两种方法,一种是通过深度摄像 机结合普通摄像机的方式,另一种是利用双目或者多目摄像头,通过立体视觉技 术,重建手势三维特征点,从而实现三维空间的人机交互。 深度摄像机方式的典型代表就是微软n a t a l 计划中x b o x3 6 0 游戏机手势识 淅大学硕士学位论文 第1 章绪论 别控制器。如图1 4 所示,可以看到控制器带有2 个摄像头,其中一个深度摄像 头,一个是普通的摄像共图15 则显示了通过手势控制嚣和游戏中虚拟人物进 行交互操作 目l4 手势m 别控制幂( 来自徽戟同站 田15 基f 手势控制的人机空驿残 来自徽戟目站j 另一种三维手势的实现方式是使用立体视觉技术,重建手势三维特征,从而 实现三维人机交互。s u n 等“”提出空间拉子注册( s r p ) 的概念,通过基于c g 的g p u 编程,实现了粒子空阈的虚实融合技术。z h u 等”通过立体视觉技术,解决了增 强现实中的虚实遮挡问题。我们的三维指尖检测系统使用了立体视觉技术在三维 空间获得手指点击、手指指向、手掌翻转等三维手势交互语义,从而实现了三维 空间昀自然人机交互 浙江大学硕士学位论文 第1 章绪论 1 3 本文的工作及论文的组织 在本文中,通过双目摄像头,运用立体视觉技术,开发了基于计算机视觉技 术的三维指尖检测系统,实现了三维手势的关键算法。通过三维指尖检测系统, 可以在三维空间识别指尖点击、指尖指向、手掌平面旋转等多种手势,并用这些 手势做了三维鼠标以及其它基于三维手势的交互游戏。 在第一章,首先介绍了计算机视觉、实时人机交互相关的基本概念以及相关 技术;第二章描述了基于视觉技术的三维指尖检测系统的程序框架,并介绍框架 中每个模块的功能;第三章提出了前景分割算法以及指尖检测算法。前景分割算 法包括肤色检测以及背景减法。指尖检测算法包括单指尖和多指尖检测算法;第 四章描述了摄像机标定、指尖位置三维重建以及k a l m a n 滤波在三维指尖检测系 统中的使用;第五章是三维指尖检测系统的应用,通过对三维指尖位置的参数化, 实现了基于指尖的点、线、面交互,并介绍了几个基于指尖检测系统的游戏以及 三维鼠标系统;最后一章对全文做出了总结,并对进一步工作做了展望。 浙江大学硕士学位论文第2 章三维指尖检测系统概述 第2 章三维指尖检测系统概述 本章主要介绍三维指尖检测系统框架组成,并概述了框架各组成部分使用的 算法以及系统的软硬件环境。 2 1 系统框架 基于视觉技术的三维指尖检测系统由一台普通p c 和两个摄像头组成,图2 1 描述了整个系统的流程,每个部分的算法细节将在后面章节详细介绍。 2 d 预测2 d 预测 k a l m a n 滤波 图2 1 系统框架 2 2 系统概述 如图2 1 所示,三维指尖检测系统由五部分组成:第一部分是前景分割,在 这个部分,使用了在线训练肤色检测和阈值结合混合多高斯的前景分割算法,从 9 浙江大学硕士学位论文第2 章三维指尖检测系统概述 两个摄像头中获取的视频图像中得到运动的手掌;第二部分是指尖检测,对于前 景分割后得到的手掌前景,使用指尖检测算法得到指尖点位置。指尖检测包括单 指尖检测和多指尖检测。单指尖检测算法包括基于骨架的端点搜索、基于轮廓k 向量极值点判定两种方式,多指尖检测算法通过手掌轮廓凸包以及缺陷( d e f e c ts ) 属性来实现;第三部分是指尖三维重建,这部分包括摄像机标定和指尖位置三维 重建两个内容,摄像机标定主要是基于固定标记,得到摄像机的外部参数,从而 得到o p e n g l 的模型视图矩阵。三维重建就是利用得到的模型视图矩阵和第二步 中得到指尖点,利用计算机视觉中的三维重建算法,重建指尖点在基于标记的世 界坐标系中的三维位置;第四部分是k a l m a n 滤波,k a l m a n 滤波主要用来平滑指 尖轨迹,同时在三维空间预测指尖点位置,并把预测位置投影到两个摄像机的成 像平面,在下帧处理时,设定前景分割的图像范围( r o i ) ,这样可以提高前景分 割速度。第五部分是应用部分,主要是通过指尖检测系统做的三维应用,比如三 维鼠标,基于指尖操作的三维游戏等,在论文第五章会介绍基于指尖检测系统的 各种应用。 三维指尖检测系统的编程环境为:w i n d o w sx p 操作系统;v i s u a ls t u d i o 2 0 0 5 ;o p e n g l 2 1 以及g l u t 框架,视觉框架使用的是开源视觉库o p e n c v l 1 。 系统的硬件环境为:c p u 酷睿双核2 g h z , 显卡为n v i d i a8 6 0 0 ,2 g 内存,摄像 头是两个普通网络摄像头。 2 3 本章小结 本章首先介绍了整个三维指尖检测系统的框架,接着对系统框架的五个部分 进行概括性的介绍,最后介绍了系统的硬件环境和软件环境。通过本章介绍,可 以对三维指尖检测框架以及框架各个部分之间的关系有更深的了解。 i o 浙江大学硕士学位论文第3 章前景分割及指尖检测 第3 章前景分割及指尖检测 本章主要介绍前景分割及指尖检测的关键算法及实现。前景分割算法包括在 线训练肤色检测算法、阈值结合混合多高斯的背景算法。指尖检测算法包括单指 尖检测算法和多指尖检测算法,单指尖检测算法又包括基于骨架的端点搜索方法 和基于轮廓k 向量的方法。多指尖检测采用的是基于轮廓的凸包以及缺陷 ( d e f e c ts ) 属性来求得指尖位置。 3 1 前景分割概述 前景分割就是把物体或者物体的一部分从背景图像中分割出来。比如在视频 监控领域,需要把行人和车辆从背景中分割出来。在人脸检测应用中,需要把作 为人身体一部分的人脸从背景图像中分割出来。在计算机视觉中,前景分割是属 于低层的视觉处理阶段。通过前景分割,得到了要检测和跟踪的物体,减少了下 一步处理的数据量。前景分割的结果通常用直方图、连通分量、图像的r o i 区域 等来表示。最常用的前景分割算法包括背景减法( b g s ) 和肤色检测算法等。 对于手、人脸等和肤色有关的前景,人们常用肤色检测来进行前景分割,b i n h 等“2 1 使用了肤色检测来进行手指前景分割,实现了基于手势的桌面人机交互系 统。肤色检测一般基于阈值或者查表的方法,利用人的肤色在y c b c r 颜色空间或 者h s v 颜色空问的聚类特性n 射,进行前景分割。肤色检测算法优点是速度快,在 移动摄像机的情况下也可以分割出手指前景,缺点是易受光照影响,而且在背景 中不能出现和皮肤颜色相近的物体,否则会被当成前景分割出来。为了解决肤色 检测不稳定的问题,o k a 等n 钔使用红外摄像头,利用人体表面温度范围,来取得 手指运动前景,p a r k 等n5 1 则用在线学习用户肤色的方法来减少肤色检测的误判。 相比于肤色检测算法,b g s 算法是通用的运动物体前景分割算法,常用在车辆 监控等领域。b g s 算法包括基于阈值的减法、混合多高斯算法【1 6 17 1 、码书模型算 法n 8 1 以及贝叶斯背景模型算法姐粥等。和肤色检测算法相比,除基于阚值的减法外, 其它b g s 算法都对环境变化有很高的适应性,更稳定,但计算量同时也会增大。 在三维指尖检测系统中,实现了在线的肤色检测以及阈值结合混合多高斯的 1 1 淅d 大学硬学位x第3 $ 前景n & 措尖n 剥 b g s 算法,用户可以根据实际需要,通过热键在这两种前景分割算法之问进行实 时切换。 3 2 肤色检测 3 2l 颜色空间描述 肤色检测算洼都是在一定颜色空同进行的,常用的颜色空问包括r g b 、y c b c r h s v 、l * a * b - 等,有些作者还自己构建了了特殊的颜色空间,比如e - 6 6 一h ”、 h g y w r r g b y ”1 空间以及离散k l 变化空间”“。有些作者”1 ”“”还论证7 最优 颜色空间的理论,但另一些学者质疑变化颜色空间对肤色检测的明显影响在各 种颜色空间中,r g b 、y c b c r ,l t s v 是肤色检测中应用最为广泛的颜色空问,本文 在线训练肤色检剥算法中,就周了这三种颜色空间。 r o b 颜色空问是基于视觉三原色原理,直接面向硬件的颜色空间,但各通道之 间高度相关,亮度和色度混台是其主要缺陷在r g b 模型中,用三元组( r ,g ,b ) 表示一种颜色,它对应三维笛卡尔坐标系中的一个空问位置,每个分量r 、g 、b 对应空间中的一个颜色平面r 、g 、b 的取值范围决定表示颜色的数量。比如在 o p e n c v 中,可选取r ,g ,b 的值为无符号字节,则它们表示的范围为 0 ,25 5 , 表示的颜色种类为16 777 2 1 6 种颜色图31 常用来表示r g b 颜色空闭 目3 1r 6 b 颇色空阈目 h s v 是知觉颜色空间,通过色度、饱和度、亮度来表示颇色,它也是人们能 够感觉到的颜色空间。其中h ( h u e ) 表示颜色的类型( 例如红色、绿色等) ,取值范 塑兰查兰璺主兰些堡查 星! 主堕墨垒型墨塑叁竺型 围为。一3 6 0 ,其中每一个值代表一种颜色。s ( s a t u r a t i o n ) 表示颜色的饱和度, 从o 到1 ,有时候也称为纯度( o 表示灰度图,1 表示纯的颜色) 。v ( b r i g h t n e sso r v a lu e ) 表示颜色的明亮程度,值从0 到1 ( o 表示黑色,1 表示特定饱和度的颜色) 。 图32 显示了f l s v 颜色空间的颜色分布图。 目32h s v 颤色空目目 y c b c r 颜色空间是r g b 颜色空间的线性变化空间,它也是m p e g 数字视频编码 标准建议的颜色空间,它在视频压缩城无需解压就能分析其颜色属性。其中y 表 示亮度,c b c r 都表示颜色,o p e n c v 中y 的取值范围是 o ,255 ,c b 、c r 的取值 范围是 16 ,2 3 5 】。 经过试验表明,在h s v 和y c b c r 颜色空间中,肤色有很好的聚类特性,所以 在三维指尖检测系统中,这两个颜色空间作为肤色检剥算法的颜色空间。 322 颜色模型建立 肤色检刹的目的,就是建立一个判定规则,从而判定图像中那些像素属于肤 色,那些像素不属于肤色,因此,建立一个精确的肤色模型是肤色检剥的前提。 v e z h n e v e 等”将肤色模型总结为两类:参数模型与非参数模型,这两者在肤色样 本训练所需时,所需要的时间及存储空问有很大差异。在参数式肤色模型中,y a n g 等“”利用高斯模型来求取肤色概率,但由于肤色模型并不完全满足单高斯分布, 因此m c k e n n a 等o ”利用混合多高斯模型来求取肤色概率值,而l e e 等”提出了肤 色椭圆边界模型,并证实比高斯模型更为精确。在非参数肤色模型中,z a r i t 等 淅大学硬- k 学位论x g3 $ 前景分割厦指失控 人”对五种不同的颜色空间的贝叶斯分类和直方固分类做出了比较。k a k u m a n u 等 ”则对各种不同的颜色模型和检测方法迸行了比较,指出了各种模型和检测方法 的优缺点。 肤色模型建立过程中,应该选一个比较合适的颜色空间,因为r g b 颜色空问 中r 、g 、b 值都和亮度有关,所以人们常用i i s v 和y c b c r 作为肤色检辩j 的颜色空 间。在建立三维指尖检测系统的肤色模型时,选用了y c b c r 颜色空问进行模型训 练。首先,选取在不同光照条件下的50 0 副包括肤色的图像,然君通过p h o t o s h o p 戟件把肤色的部分扣出来存为前景肤色文件,其余的部分为背景图像文件,如固 33 所示。把肤色文件作为正样本,背景文件作为负样本,然后循环遍历每一个 样本文件,并记录每个颜色是肤色次数和非肤色次数,最后通过肤色次数总计 数、非肤色次数总计数可以得到该颜色是肤色和不是肤色的概率。同时定义一 个25 6 , 25 6 的2 维数组表示肤色中的c b 、c r 的值,对表中的每个值,如果 p ( s k i n i c b c r ) 2 ,p ( n o s k i n i c b c r ) ,则该值表示的颜色为肤色,这里p 表示概率 分布,即是肤色的概率大于不是肤色的概率的2 倍,则认为该颜色属于肤色模型。 图34 显示了训练后的y c b c r 颜色空间肤色分布圉。 背景 前景 目33 训练肤色模型的t 样本$ 负样奉 新大学硕学位论x第3 章前晕舟割及指生d 目34y c b c r 色! 目肚e 模型 在实验中,发现单独采用y c b c r 空间的的查表方法进行肤色检测,并不能有 很好的结果,所以同时实现了基于闺值的h s v 颜色空间的肤色判定模型。在h s v 颜色空间,肤色的闽值判断范围为:h ( - i g ,s = 48 ,v 4 0 。在最终的 肤色检剥算法中,把这两种肤色检测模型结合在了一起。 3 23 在线训练肤色检测算法 由于肤色检测易受光照变化的影响,所以设计了在线训练的肤色检测算法。 该算法首先用h s v 和y c b c r 颜色空间中的肤色模型来判断田像中的肤色。然后, 设计一个用户训练表,用户通过在圈像中选取肤色区域,这些区域中的值便加到 肤色训练素中。对于通h s v 、y c b c r 空问判断为非肤色的像素点,再和训练表中 的值进行比较,确定是否为肤色。使用在缆训练的方法,可耻有效的解决由于光 照变化不能被检测到的肤色部分,比如人的指甲盖,由于有反光的作用,普通的 肤色检测通常不能检测出来如图35 、36 所示,图35 是原始图像,图3 6 显示了原始图像使用在线训练前后的肤色检剥结果。 函 目35g * 目慷 渐女学学位论文 第3 章前景舟割& 指生检剥 目36 是普通肤色捡刹b 是在w 练肤色检测 下面是结合在线训练的肤色桂剥算_ ;圭描述: 1 )输入视频图像。 2 )在h s v 颜色空闻对图像中的每个像素进行处理,如果该像素在h s v 肤色模型范围内,则为肤色,否则转到i i i 继续处理。 3 )在y c b c r 颜色空问,判断该像素是否在肤色y c b c r 肤色模型范围内, 如果在范围内则是肤色,否则跳到i v 继续处理。 4 )在线训练颜色表查询该像素值,如果该像素r g 8 值在表中,则为肤 色,否则非肤色。 3 3b g s 算法 3 3 lb g s 算法概述 背景减法( b g s ) 是运动检测中常用的一种方法,主要思想是经过一段时间的学 习获得一个参考帧,然后把参考帧作为背景帧( 背景模型) ,新获得的当前帧和背 景帧之问进行减法运算,差值超过一定闽值的像素点就认为是前景点。构建背景 模型是背景减法的基础,背景模型必须能够代表没有运动物体的静止场景,同时 不断是新,和视频中的背景保持一致。 3 32 阐值结合混合多高斯的b g s 算法 3 32 i 背景建模 渐江大学硕士学位论文第3 章前景分割及指尖检测 s t a u f f e r 等提出混合多高斯b g s 算法的概念,它的基本思想是将视频图像中的 每个像素点看成是随时间变化的一个动态过程,每个点可以用k ( k 通常n 3 - 5 ) 个高斯模型来表示,每个高斯模型表示该像素点所在前景或者背景的分布( 由均 值p 和方差仃表示) 。当前像素点是属于前景还是背景,可以通过k 个高斯模型概 率之和尸( 薯) 来判定( 公式3 1 ) 。 尸( ) 2 善q ,刀( 一“, i 9 z i , i ) 公式( 3 1 ) 其中,是当前像素点的值,h ,f ,己分别是在t 时刻,当前像素点的k 个高 斯中的第i 个高斯函数的均值和方差,r l ( x r j f - l i , t 乞,) 反映了当前像素值被第i 个 玉 高斯函数接受的概率,q ,( 扛1 ,2 ,k 是第i 个高斯函数的权重( 善q ,r = 1 ) ,反 映了在该像素点的运动过程中,对第i 个高斯模型背景的重要程度。 在背景建模过程中,设定k = 3 ,然后选取6 0 帧进行学习,学习过程中,根据 每种颜色出现的帧数除以6 0 ,来决定每种背景颜色的权重。 3 3 2 2 前景判断 s t a u f f e r 在n 们中提出,每个像素都建立了k 个高斯模型之后,对这k 个高斯模 型根据其权重和方差之比( c o o r ) 从大到小进行排序。因为权重越大并且越紧致, 三 则属于背景的可能性越大。排序后满足备q 纠的前b 个模型认为是背景( t 是设定 的阈值) 。在所有满足( 薯一“,r ) 2 ( 2 5 仃i ,) 2 的高斯分布中,排在最前面的高斯分布 被认为是可以接受当前像素点的模型。如果接受当前象素值的高斯模型 m ( m = 1 ,2 ,k ) 在这b 个高斯模型之中,则认为该象素当前是背景,否则认为该像 素是前景。 这样做能够比较准确的找出前景点,但是方差计算、高斯模型排序都是比较 耗时的操作,带来的准确度提升却相对很小。所以采用了基于距离的判定算法, 计算当前像素点与第i 个高斯模型的均值之间的欧式距离,如果它大于某个阈值, 浙江大学硕士学位论文 第3 章前景分割及指尖检测 则认为当前像素点落在第i 个高斯分布的置信区间外面。遍历该像素点的k 个高斯 模型并计算相应的欧式距离值,然后获得一个“可接受高斯集”。对于当前点的 “可接受高斯集”,计算所有的高斯模型权重之和,如果权重和大于一个闽值( 在 本系统中,设置该值为0 8 ) ,则认为该像素属于背景,反之则属于前景目标。 3 3 2 3 背景更新 背景通常是动态变化的,所以作为背景的高斯模型也要不断保持更新。当对 像素点进行分类判定( 前景或者背景) 后,必须进行实时更新,s t a u f f e r 在n 们中 提出了背景更新的规则。 ( 1 ) 对于判定为背景的像素点,从它的“可接受高斯集”中找出权重最大的 那个高斯模型,然后按照公式( 3 2 ) 赋予它更大的权重;同时按照公式( 3 3 ) 修正其它k - 1 个高斯模型的权重。 m a x b = a r g m a x ( 哆,) ip 嗍b ,+ l 三j l l 懈占,f ( 1 一q ) + ax x , 【圳2 印( 1 - a ) + a 。 公式( 3 2 ) ij l l 七,+ l = 七f ( 1 一a ) + a 【c o k ,f + l = ( 1 - a ) o ) k , 公式( 3 3 ) 其中m a x b 是接受当前像素权重最大的背景模型,a 是更新速度。 ( 2 ) 对于判定为前景的像素点,说明在这个像素位置,到目前并没有和它相 匹配的高斯背景模型,所以从k 个高斯模型中找到权重最小的高斯模型进行替换 操作,新的高斯模型以该像素点的灰度值和方差作为高斯模型的均值和方差,而 其余的高斯模型则保持均值和方差不变,调整其权重使得所有高斯模型权重之和 为1 o ,调整公式见( 3 4 ) 。 浙江大学硕士学位论文第3 章前景分割及指尖检测 国七:国t 三堑( 后m i n 形) 1 一国m i nw m i n w f 2 x 仃m i n w t = o i 删口, 国m i n ,f = 删倒 公式( 3 4 ) 在我们的算法实现中,对背景更新进行了简化处理,对判断为背景的像素, 按照公式3 2 、3 3 进行处理,对判断为前景的像素,直接跳过,不做背景更新。 背景更新速度口设置为0 0 0 5 。 3 3 2 4 算法描述 在三维指尖检测系统中,实现了阈值结合混合多高斯的b g s 算法来取得手指 前景。采用混合多高斯背景建模,可以有效减少背景噪声对背景模型的干扰。在 判断前景时,首先基于阈值进行判断,在阈值判断为背景情况下再使用混合多高 斯算法进行二次前景判断,这样可以减少系统开销。另外,本系统中求指尖前景 分割时只处理图像的部分区域( r o i ) 。r o i 区域主要通过k a l m a n 滤波求取,在第 四章详细讲述。 手指前景分割算法描述如下: 1 )从摄像头输入图像 2 )混合多高斯背景建模。每个像素点由k = 3 个高斯模型组成,每个模 型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论