(计算机软件与理论专业论文)一种复杂背景下的手势识别方法.pdf_第1页
(计算机软件与理论专业论文)一种复杂背景下的手势识别方法.pdf_第2页
(计算机软件与理论专业论文)一种复杂背景下的手势识别方法.pdf_第3页
(计算机软件与理论专业论文)一种复杂背景下的手势识别方法.pdf_第4页
(计算机软件与理论专业论文)一种复杂背景下的手势识别方法.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, tyllllltllli18lllllolll12llll4llll9if117llll 独剑性声明 本人声睨所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书丽使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:狮日期:j o f o 年 月- 1 日 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:讲导师签 日期:6 1 0 年r 月1 日 i一 摘要 摘要 从机器能思考吗一文的发表开始,人工智能已经经历从专家系统到神经 网络,再到今天统计学习理论几个阶段,这期间涌现了大量优秀的算法和理论。 但我们也看到,在智能领域尤其是识别领域中,新的理论和方法往往也具有高度 复杂和难以控制的特点,在实际应用往往不太实用。 本文提出了一种针对特定应用的简单识别算法。该算法只是通过简单的算法 组合和计算实现了一定意义的复杂背景下的手势识别。 本文的方法首先需要将从视频流得到的复杂背景下的图象转换到颜色空 间中进行处理,这一步操作的意义在于这个颜色空间具有许多优秀的性质,为未 来的算法处理提供了良好的基础。然后通过一个简单的贝叶斯分类器标记出图象 中大概的手部区域,再通过一系列图象形态学的操作获得了一条连续的图象的边 框曲线。获得了边框后,通过搜索边框获得该曲线的有序表达,再使用本文提出 的“点曲度和“中心角度”的计算方法得到手指的指尖位置。得到指尖位置对 于解决本文的问题具有重要意义,因为人手势的许多意义都是通过指尖以及指尖 的运动表达出来的。 在此基础上,本文实现了两个简单的系统,包括一个对视频中单一手指跟踪 的系统和一个简单的人机对战“石头剪子布 的小游戏系统。虽然该算法体系还 存在许多问题,但作为一种解决问题的新思路,无疑具有启发意义。并且可以认 为本文算法具备了实现更多应用和取得更好效果的基础,以及具备未来改进的可 能。 关键词:y u v 颜色空间,图象形态学, “点曲度 - l y;, a b s t r a c t a bs t r a c t s i n c et h ep u b l i s h r n e n to f c o m p u t i n gm a c h i n e r ya n di n t e l l i g e n c e ”,t h er e s e a r c ho f a r t i f i c i a li n t e l l i g e n c eh a se x p e r i e n c e dm a n ys t a g e s ,f r o me x p e r ts y s t e m st on e u r a l n e t w o r k s ,a n dt os t a t i s t i c a ll e a r n i n gt h e o r yw h i c hi sf a s h i o nt o d a y al a r g en u m b e ro f e x c e l l e n ta l g o r i t h m sa n dt h e o r yh a v ee m e r g e dd u r i n gt h i sp e r i o d a tt h es a m et i m e ,w e s h o u l da l s or e a l i z et h a tm o s to ft h e s em e t h o d sa r ec o m p l e xa n dh a r dt oh a n d l e , e s p e c i a l l yn o ts oc a p a b l ei nr e a ls y s t e m t h i sp a p e rp r o p o s e sa l la u t o m a t i cm e t h o dt or e c o g n i z et h eh a n dg e s t u r ec a p t u r e d f r o mv i d e os t r e a mi nac o m p l e xb a c k g r o u n d t h em e t h o di sj l a s tc o m p o s e dw i t hs o m e s i m p l es t e p s t h ef i r s t s t e p i st os w i t c ht h ep i c t u r e si n t oy u vc o l o rs p a c ew h i c hh a sm a n y o u t s t a n d i n ga t t r i b u t e sa n dw i l lb r i n g c o n v e n i e n c ei n t h e f u r t h e rs t e p s s k i nc o l o r d e t e c t i o ni su s e dt of i n do u tt h ep r o b a b l eh a n dr e g i o no u to fac o m p l e xb a c k g r o u n d t h e nas e r i a lo fm o r p h o l o g i c a lo p e r a t i o n si sp e r f o r m e dt og e tt h ec o n t o u ro ft h eh a n d a tl a s tt h ec o m p u t a t i o no fp o i n t c u r v a t u r ea n dc e n t e r - a n g l ei sf o rm a r k i n go u tt h e f i n g e r t i p s i ti sv e r yu s e f u lt og e tt h ep o s i t i o no ff i n g e r t i p s ,a st h em e a n i n go fh a n d g e s t u r ei sa l w a y sp e r f o r m e dt h r o u g hf i n g e r t i p sa n dt h em o v e m e n to ff i n g e r t i p s t w os i m p l es y s t e m sh a v eb e e ni m p l e m e n t e dw i t ht h ep r o p o s e da l g o r i t h m ,i n c l u d i n g as i m p l es i n g l ef i n g e rt r a c k i n gs y s t e ma n d ”s t o n es c i s s o r sp a p e r ”g a m es y s t e m a l t h o u g ht h e r ea r em a n yp r o b l e m se x i s t e di no u rm e t h o d ,i ti ss t i l lv e r yc o n s t r u c t i v e a n dw i t ht h eb a s i so ft h i sp a p e r , w ec a l li m p l e m e n tm o r ea p p l i c a t i o n sa n da c h i e v eb e t t e r r e s u l t si nt h ef u t u r e k e y w o r d s :c o l o rs p a c e m o r p h o l o g y , p o i n t - c u r v a t u r e i i 巴 一 目录 目录 第一章引言1 1 1 概述1 1 2 手势识别的概念与定义3 1 3基于视觉的方法4 1 4本文的主要内容4 第二章y u v 颜色空间中的肤色检测技术6 2 1 概述6 2 2 颜色空间7 2 2 1r g b 颜色空间7 2 2 2h s b 颜色空间8 2 2 3y u v 颜色空间8 2 3贝叶斯分类1 1 2 4 算法实现流程1 3 2 5 本章小结1 7 第三章图象形态学原理及其在手势识别中的应用1 8 3 1 概述1 8 3 2 图象形态学三种基本运算1 9 3 2 1 图象平移1 9 3 2 2 图象形态膨胀2 0 3 2 3 图象形态腐蚀2 2 3 3图象形态学的开闭运算2 4 3 3 1图象形态膨胀和图象形态腐蚀的对偶性2 4 3 3 2图象形态开运算2 4 3 3 3图象形态闭运算2 6 3 3 4图象形态开运算和图象形态闭运算的应用2 8 3 4边框检测以及在手势识别中的应用3 l 3 4 1 边框提取算法概述3 1 3 4 2图象形态学边框提取算法3 3 i i i 目录 3 5本章算法基本流程3 5 3 6 本章小结3 8 第四章“点曲度 及其在指尖标注中的应用3 9 4 1 概述3 9 4 2弧线的平均曲率3 9 4 3“点曲度 4 0 4 4“点曲度在手指标记中的应用4 l 4 4 1 计算手形轮廓的“点曲度 4 1 4 4 2 标记手指的辅助工作4 4 4 5本章算法基本流程4 9 4 5 1 搜索方向矩阵4 9 4 5 2 算法流程5 0 4 6 本章小结5 3 第五章系统实现5 4 5 1 概述5 4 5 2手势跟踪中的应用5 6 5 2 1目标跟踪概述5 6 5 2 2 本文算法在手势跟踪中的应用5 6 5 3 本文算法在人机交互游戏中的应用6 0 5 4 本章小结6 l 第六章总结6 3 6 1与已有的相近似方法的比较6 3 6 2 对本文工作的总结与展望6 3 致谢6 5 参考文献6 6 在学期间取得的研究成果7 0 i v 在能够预见的未来,智能化世界的到来变得可以预期,而这个世界中生活的方方 面面都将前所未有的与众不同。 回望历史,自计算机出现后的几十年间,人与机器的交互方式经历数次重大 的变迁,将人机交互方式从文本式带入图象界面的交互方式时代【i 】,极大提高了人 与机器的信息沟通的水平。近年来,大量研究集中在了一些相对比较自然比较友 好的人机交互方式上,比如基于人手的交互技术就成为了现在该领域研究的热点, 许多设计精巧性能优越的系统在近l o 年相继出现。图卜l 所示是m i t 研究人员开 发的实验系统【2 】,该系统通过挂在实验人员所戴帽子上的摄像头和与摄像头相连接 的处理系统来自动捕获人的手部运动,实现通过捕获并分析用户手形来自动拍照 的功能。图1 - 2 所示是日本某厂商开发的智能电视机,该电视机可以通过摄像头 捕获并分析人的手势,实现通过人的手部运动控制电视。图卜2 中所示研究人员 正在通过手势暂停电视画面。 图1 - 1m i t 开发的“第六感”系统 电子科技大学硕士学位论文 图卜2 手势控制的电视机 基于人手的人机交互研究成为热点是容易理解的。因为在人的情感表达方式 中,除了声音之外,身体语言是最重要的方式。让机器理解人的身体语言一直以 来就是智能科学的重要基础性问题。人身体的运动方式,尤其是手部的动作能够 提供关于人情感与意图的重要信息。如果能够成功实现这样的系统将极大提升人 机交互水准,并且现在全世界有大量的语言表达有障碍的人士,这一类型的系统 的成功实现,将有机会帮助大量的残障人士更加有效地与他人沟通。 在这一领域,近年来涌现出了大量的算法,其中大部分都提出了极具独创性 的思想,推动着该领域的前进。总体说来,这些方法可以分为“基于数据手套或 其他光学接收器 的方法c 2 】【3 】【4 】f 5 】f 6 1 和基于计算机视觉的方法忉【8 】 9 1 1 0 】。图i - 1 所 示的方法属于前者,如图i - 3 所示,实验人员需要佩戴彩色的指尖标记设备;但 后者是现在研究的主要方向和趋势,因为后者更接近于人的自然状态,更符合良 好人机交互的思想。 图1 - 3m i t “第入感”系统的指尖颜色标记 2 本文 想,实现 1 2 手势 我们需要在最开始给我们研究的问题一个定义,什么是手势,怎样的行为可 以认为是手势识别? 手势指的是有人手部的静态姿式,或者该姿势通过手臂运动所产生的动作( 这 种运动可以让手的姿势本身有所改变) ,该动作因为某种预先设定好含义的行为而 能够被人所理解。而手语就是利用大家约定的表达某些特定意义的手势来沟通的 方式。 手势识别当然就是让计算机分析并理解从外部设备中采集到的这样一些手势 的技术,而它最理想的结果是理解手语【3 5 】,相当数量的算法和系统也是以解决手 语的相关问题为目标。 本文算法以复杂背景下的简单手势识别为目标。所谓“复杂背景 ,也就是 指图像背景是一个生活中的一般场景,背景中存在任意多个不同颜色和形状的物 体;“复杂背景”与“简单背景”相对而言,一般“简单背景”是背景图像为单一 颜色的墙面等物体。 在“复杂背景 下的识别手势是该问题的难点,如何从复杂背景下分割出图 像中人手的部分是本文着力解决的问题。 就目前的研究状况而言,针对特定应用的相关识别技术发展较好,已经出现 了一些性能良好的理论和算法,并且已有相当多的产品出现。理解简单的手语词 语和短语技术发展也相对较为理想,但理解连续的手语长旬的难度和瓶颈较大, 短时间恐怕还难有突破。 ( 圃卜糯露 一一l 一 获取需要处 。理的对象 预处理卜特征提取 图卜4 一般的手势识别系统流群 3 + 分类,跟踪等 应刚 v 结束 电子科技大学硕士学位论文 1 3 基于视觉的方法 现阶段,基于视觉的方法是主流的方向,依据在系统流程中的不同阶段这些 方法所采用的不同技术可以分为如下几类。 从分析的对象不同,可以分为:基于轮廓的方法,也即提取出图象中手的边 框轮廓,依照边框的某些特点来进行分析【1 9 1 2 0 】 2 1 2 2 1 2 3 1 2 4 ( 本文算法属于此类) ; 基于模型的方法【2 5 】,即先采集n - 维图象中的手型,再使用一个包括了所有手部 能够产生运动的部位的模型去做分析,或者重构出该手势的三维模型去处理。 奶一 图卜5 手部关节模型和3 d 模型 按照对象采集方式的不同,可以分为:基于一个摄像头的,即只能够采集到 手势的二维的平面图象( 本文算法属于此类) ;基于多个摄像头的,即从多个不同 的角度采集同一个手势的二维图象,这些二维图象大多在后来作为重构成三维模 型的原始信息。 按照最后的分类方法不同,可以分为:基于学习的方法,即使用一些机器学 习技术【3 6 1 ( 如h m m ) 进行最后的分类;基于规则的方法【3 0 1 【3 i 】 3 2 】【3 3 】【3 4 】,即抽象出手 势的某些特点建立成规则,再进行分类,“第六感”系统属于这一类,图卜6 所示 是该系统所定义的一些手势行为。 趱黪嘤黪 图l - 6 “第六感”系统所定义的手势行为 1 4 本文的主要内容 ,一”。4 t i 曼赫 本文在研究该领域已有的方法和技术以及相关理论和应用的基础上,提出了 4 节 l 、妁 氛蛰, 一岁,妇; 镁 第一章引言 种新的算法体系。该算法能够实现在复杂背景下分割出图片中手形区域并准确 标记出手指指尖位置,而且在该算法的基础上实现了一些简单的应用。 本文算法主要包括三个步骤:( 1 ) 通过离线的对人工标记图片的学习,获得 肤色的概率信息,实现在复杂的背景环境中检测出皮肤颜色区域,( 2 ) 通过一系 列连续的图象形态学操作提取出手的轮廓:( 3 ) 通过计算手形轮廓上各个点的“点 曲度和“中心角度 值,精确地标记出手指位置。 基于本算法实现了一些简单的应用,包括一个简单的手指指尖跟踪并通过手 指指尖轨迹来判定用户输入的系统和一个简单的人机对战“石头剪子布”的小游 戏系统。虽然这些系统还相对简单,并且存在局限,但作为该领域的一个新方法 所实现的新系统,还是具有定的价值。 本文对算法体系的阐述放在第二章,第三章和第四章,第五章介绍基于本文 算法在m ic r o s o f tv s2 0 0 8 中使用c # 和m a tl a b 2 0 0 9 中使用m - l a n g u a g e 实现的系 统。第六章是全文的总结,主要概述了算法的思路以及算法目前还存在的局限和 问题。 正文部分,第二章主要讨论了在y u v 颜色空间中通过贝氏分类理论实现的手 势区域初步检测技术,该技术是在已经比较成熟的相关领域的技术中选择的一种 效果较好且较易于实现的技术。第三章主要介绍了通过一些列图象形态学操作来 提取图象边框的技术,该技术利用了图象形态学的滤波和平滑特性,实现了对图 象的预处理和提取边框。第四章提出了基于“点曲度 和“中心角度”的手指指 尖标记技术,该技术可以实现对图象中手指指尖的标注以及跟踪。第五章介绍基 于之前三章所介绍的算法在实现的一些简单系统,包括一个简单的手势跟踪系统 和简单的人机游戏系统,介绍了这两个系统的设计以及存在的问题等。第六章是 结论,总结了本文算法的流程,介绍了该算法的一些主要特点,实验的系统环境 以及该算法存在的问题和对未来的展望。 5 电子科技大学硕士学位论文 2 1 概述 第二章y u v 颜色空间中的肤色检测技术 本文问题的对象本质是三维空间中人的手通过摄像头在二维平面上的投影。 所以相应的研究方法就包括直接对手的平面表达的分析和将二维数据重构为三维 立体图象后的分析。本文算法属于前者,即不涉及三维重构,而只针对平面数据 进行操作。 为了能够从复杂的背景环境中提取出手部区域,第一个问题是如何从一张背 景复杂的二维图片( 图2 - 1 ) 中“大致”地找到其中人手的局部区域。因为肤色是 人手与图片背景最为显著的区别,利用肤色来初步区分人手和背景是很自然的想 法。但因为人的皮肤色彩随着环境变化而变化,尤其是受到光线的影响;所以要 简单地仅仅只通过肤色差别来区分手部区域和背景区域存在困难。 但是,在模式识别领域已经存在着大量的肤色检测技术,尤其是近年来很多 新的方法被提出和更新【1 1 】【1 2 】【1 3 】f 1 4 】【1 5 】【1 6 】0 7 】0 8 。不同的检测方法往往是基于不同 的理论基础,也有着极其迥异的技术实现方法。但近年来相关研究的主流方法是 基于实验主义的,包括:1 直接利用某些色彩信息建模【2 6 】;2 假设肤色的出现概 率遵循某些统计规律,然后通过统计学习获得这些规律【2 7 】( 具体表现为某种概率 的分布或者概率密度函数等) 。这一类方法往往涉及大量统计学习理论,如最大似 然法和最大期望算法等,相对复杂。 不同的检测方法有不同的特点,适用于不同的应用环境。本文算法选择贝叶 斯分类理论,也叫贝氏理论。因为该理论相对简单,容易实现,并且比较适合本 文算法中的具体问题。 6 一 , 第二章y u v 颜色空间中的肤色检测技术 图2 - 1 典型的复杂背景下手势图片 为了实现一个简单的贝氏分类器,我们需要先确定在什么样的颜色空间中进 行后续操作。因为一个拥有良好性质的颜色空间会极大地简化问题并使算法更具 代表性。 2 2 颜色空间 颜色空间是指用- - n 四个分量( 也可以就是色彩的成分) 来对色彩进行编码 的数学方法。以下介绍几种常见的颜色空间。 2 2 1r g b 颜色空间 r g b 颜色空间也称三原色光空间,是一种基于自然感知的编码方法。红色、绿 色和蓝色的色光的变化,以及以不同的比例相互之间叠加可以产生多种多样的色 光( 如图2 - 2 ) 。为红绿蓝三原色各分配一个o 一( 2 8 - 1 ) 的强度值,通过三个分量 ( 即r 分量,g 分量,b 分量) 的组合就可以形成2 2 4 种色彩。人的眼睛大概只能 感知并分辨不超过1 0 0 0 万种色彩,从而r g b 色彩空间基本上涵盖了人类视觉所能 感知的几乎所有色彩,被广泛应用于各种领域,是目前运用最广的颜色空间。 7 1 一 电子科技大学硕士学位论文 2 2 2h s b 颜色空间 图2 - 2 三色光叠加示意图 h s b 颜色空间是比h s b 更准确的,更符合人类感知的色彩编码方式。h s b 分别 指色相、饱和度、明度。 h s b 在今天已经广泛地被应用于绘画等艺术领域,尤其被画家采用,因为它以 人类更熟悉的方式封装了关于色彩的信息:“这是什么色彩? 深浅如何? 明暗如 何? ”,从而更符合人类感觉色彩的方式,并保持了计算上的简单。h s b 颜色空间 也被广泛用于计算机图形应用中。用户可以使用h s b 色轮来选择需要的色彩。( 如 图2 3 ) 2 2 3y u v 颜色空间 图2 - 3h s b 色轮 y u v 颜色空间是用于优化彩色视频信号传输的颜色编码方式。其中y 表示明亮 度,也就是灰度值;而u 和v 表示的则是色度,作用是描述影像色彩及饱和度, 8 第二章y u v 颜色空间中的肤色检测技术 用于指定像素的色彩。由于彩色电视与黑白电视的过渡时期,黑白信号只有亮度 信息,也就是y ,使用y u 、,的彩色电视信号可以向后兼容黑白电视机,使黑白电视 也可以接受彩色电视信号。 相对其他的颜色空间,y u v 颜色空间在具体实现上采用了独特的编码方式,并 且可以相对简单地实现与r g b 颜色空间的直接相互转化。转化具体方法如下式 ( 式中的y 、u 、v 和r 、g 、b 分别代表对应颜色空间中的相应分量) : y = 0 2 9 8 9 宰r 十0 5 8 6 6 木g + o 1 1 4 5 木b u = - 0 1 6 8 7 木r 一0 3 3 1 3 木g + 0 5 0 0 0 宰b 十1 2 8 公式( 2 一1 ) v = 0 5 0 0 0 水r 0 4 1 8 4 木g 0 0 8 1 6 木b + 1 2 8 本章算法采用y u v 颜色空间,也即是将所有由摄像头所采集到的r g b 图象首 先转化为y u v 空间中的图象进行处理,并且对于图象中的每一个像素点,只保留 剩下的两个分量值以供后续操作使用。即对于图象中的每一个点,使用i ( u ,v ) 来表 示该点的色彩信息( u 和v 分别表示两个色度分量) 。 滤掉亮度分量可以使得该算法对外部环境中光照变化不敏感。因为人与人之 间肤色在视觉差异的相当部分是由于光照等因素导致的亮度信息不同造成的,并 且大量的实验证明肤色在光照变化的影响下会出现飘移,所以不使用亮度分量y 也可以减小不同人皮肤色彩间的差异。同时,舍去一个分量数据,使得三维的色 彩描述改为二维描述,从而在某种程度上减少了计算量,降低了算法复杂度。 图2 - 4 所示是对两张在复杂背景下拍摄的手部图象分别提取出三个分量得到 的结果。如图2 - 4 ( b ) 和图2 - 4 ( c ) 所示,仅凭肉眼观察就可以发现两张图片中的 手形部分在单独的u 分量和v 分量图中相对完整地表示了出来,而复杂的背景环 境中的差异基本被弱化掉;这从某种程度上支持了上面所做的分析:在y u v 颜色 空间中,肤色之间的差异以及肤色和背景的差异往往是由亮度因素导致的,而在 其中的两个色度维度上,肤色值可能是集中在一定的区间中,而这些区间恰好又 是肉眼较为敏感的。 9 l 电子科技大学硕士学位论文 ( a ) 转化后的y 分量 ( b ) 转化后的u 分量 ( c ) 转化后的v 分量 图2 4 转化后的y u v 分量图 i o 第二章y u v 颜色空间中的肤色检测技术 2 3 贝叶斯分类 确定了分析图象的颜色空间之后,需要实现对图象中大致的手势区域的提取 操作。本文中的方法是基于贝叶斯理论。 假设现在有两个事件m 和n ,则贝叶斯定理【3 7 】【3 胡( 也即贝氏定理) 可以用下式 表示: p ( m l i v ) = 警 公式( 2 - 2 ) 公式2 - 1 告诉我们:事件m 在n 发生的条件下发生的概率,与事件n 在m 发 生的条件下发生的概率可以通过本公式联系起来。这样的联系给予了我们处理问 题的一个全新的视角和方法。因为在现实中人们会遇到大量的不确定信息,以及 由此带来的一些不精确的数据,在这样的情况下就无法对结果进行判断,而只能 对结论的可能性进行估计,贝氏定理可以用于处理这样的问题。 利用贝氏规则的推理本质是:当训练样本足够大时,甚至接近样本总体数量 时,样本中事件发生的概率将接近于总体中事件发生的概率。基于该思想,由贝 氏规则设计而成的分类算法被称为贝氏分类器,贝氏分类的基本原理是:计算得 到训练样本中的事件发生的概率( 即某样本的先验概率) ,然后通过贝氏公式计算 出该样本的后验概率( 也就是该样本属于某一个类别的概率) ,选择具有最大概率 的类作为该样本所属的类。 本章算法使用一个简化的朴素贝氏分类器【3 9 】 4 0 】【4 1 1 4 2 1 。所谓朴素贝氏分类器 即对贝氏分类理论的一个最简单有效的实现。本章算法首先利用摄像头采集到3 2 0 2 4 0 的图片,这些图片中都有一个清晰的手部区域,再利用标注和训练得到颜色 的概率信息,然后通过贝氏规则计算得到新的图片中每个像素点属于肤色可能性; 通过预先设置的值来确定该像素点的概率是否可以划分为肤色点。( 即具体分类标 准并不以最大后验概率的类作为该样本所属的类,而以人为预先设置的值为分类 标准。) 假设现在有n 张图片的样本集合y = p 1 ,p 2 ,p 3 p n ,每张图片规格为a 像素 b 像素,每一个像素的值为:i ( u ,v ) 。s c 和n s c 为类变量,分别表示属于肤色类 和不属于肤色类。则问题是需要判断一个新的样本是否属于肤色类( 即对新样本 i ( u ,v ) 鹏w 进行分类,判断i ( u ,v ) n 删属于s c ,还是n s c ) 。通过对训练样本处理得到 的每一个( u ,v ) 组合的先验概率信息,然后再依据贝氏规则,计算i ( u ,v ) m w 的概率 电子科技大学硕士学位论文 p ( s ( u ,v ) c ( u ,v ) ) 。s ( u ,v ) 表示该点是肤色点的事件,c 仳v ) 表示该点出现在图象中 的事件。 对于训练集合y 中的所有图片,通过人工标注图片中的肤色区域,并记录如 下信息:( 1 ) s r = s l ,s 2 ,s 3 s k s n 表示每一张图中标注出的肤色区域的像素 点数量;( 2 ) s p = s p ( u ,v ) 1 ,s p ( u ,v ) 2 ,s p ( u ,v ) 3 s p ( u ,v ) n 表示每一张图中每 一个( u ,v ) 组合在标注的发肤色区域中出现的次数;( 3 ) p = p ( u ,v ) 1 ,p ( u ,v ) 2 , p ( u ,v ) 3 p ( u ,v ) n 表示每一张图中每一个( u ,v ) 对出现的次数;则p ( c ( u ,v ) ) 表示 色彩组合( u ,v ) 的出现的概率,一般情况的贝氏分类应用中都会假设尸( c ( u ,v ) ) 是常 数,但在本算法中,我们通过下式计算得到尸( c 沁v ) ) : p ( ) 后 尸( c ( u ,v ) ) 2 等函f 尸( s 沁v ) ) 表示肤色类s c 的出现的概率,一般情况下,如果在具体的应用中因 为缺乏足够的条件而无法计算所有类的概率,则假设他们完全相同,在本章算法 中,因为训练数据相对较少,所有我们通过计算某一类样本在总样本所占的比例 得到类的出现的概率,如下式: y 船 p ( s ( u ,v ) ) 2 意而 p ( c ( u ,v ) s ( u ,v ) ) 表示色彩组合( 1 l ,v ) 在图象中出现的概率,通过下式可以计算得 到: s p ( u ,v ) k p ( c ( u ,v ) l s ( u ,v ) ) = 塑_ 一 y 船 j j k = l 最后,依据贝氏定理,可以得到p ( s ( u ,v ) 。c ( u ,v ) ) ,如下式: 1 2 第二章y u v 颜色空间中的肤色检测技术 p ( s ( u ,v ) l c ( u ,v ) ) = 竺堕塑坐芸鬻铲 s k k * l s k 毒 墨三! 刀木口木6 p ( u ,眦 量三! ,l 木口木b s p ( u ,v ) k p ( u ,v ) k k = i 上面的计算过程告诉我们,只需要统计图形中的s p 和p ,也就是每一张图中 每一个( u ,v ) 组合在标注的发肤色区域中出现的次数和每一张图中每一个( u ,v ) 组合出现的次数,就可以计算得到p ( s ( u ,v ) c ( u ,v ) ) 。而通过样本图片数据库中的 人工标注和计算得到了p ( s ( u ,v ) l c ( u ,v ) ) 之后,我们就可以分析新的样本图象中每 个点的肤色概率,并绘制出肤色概率图。 2 4 算法实现流程 本章算法所涉及的训练样本库包含4 0 张不同背景和光照条件下的图片,这些 背景基本都是相对复杂的背景环境。每张图片包含一个清晰的人手部,并且由人 标注手部具体区域,然后程序自动统计图片中的相关信息,这些信息包括:每一 张图中每一个( u ,v ) 组合在标注的肤色区域中出现的次数s p ,每一张图中每一个 ( u ,v ) 组合出现的次数p 。样本训练程序的界面如图2 - 5 所示,图片中线条为人工 标记的肤色区域。 1 3 电子科技大学硕士学位论文 瓣暖连。:囊蠢笺蒺露瑟缓鬣瑟瑟溪囊震露戮! 崞粤啦娶 f 勰 黾茹_ 二_ - 趔 固 圆 z :蜀陷 y :1 4 1 i r o n - o u t 图2 - 5 样本图片训练程序界面 在一些相类似的方法中,也有使用在线学习技术。即最开始,通过人工标注 确定肤色区域,当系统能够通过已有的概率信息找到相对较为完整的肤色区域后, 通过系统在线自动标注,一定数量的自动标注使得训练样本集合增加,从而加强 了肤色概率信息的代表性。 统计完成了相关信息,则利用上一节介绍的方法计算每一个( u ,v ) 组合的概 率信息。计算结果是一张二维表sp 1 - ,如图2 - 6 所示。s p t 的第一列表示对应的( u ,v ) 组合值,第二列是该色彩( 即( u ,v ) 值) 对应的是肤色的概率。如果有新的训练 图片标注后加入到计算中,则该概率二维表的值会不断得到更新。 强3 ,2 薹刁 一0 ,0 - :1 6 3 ,2 域0 。耋兹 【1 6 3 ,2 1 9 0 。1 1 【1 6 3 2 2 0 0 。o 1 1 6 3 ,款熏l 0 ,0 泌3 ,捌0 , 0 图2 - 6s p t 得到该概率表后,观察可以发现大量的概率值因为过小,趋近于o 。所以在具 体程序中,可以只保存概率值大于某一设定标准值的色彩信息( 即( u ,v ) 值) 到 一个一维的肤色表s t 中。当需要判断一个新的像素点是否属于肤色时,只需要得 到该点的( u ,v ) 值,再搜索s t 中有没有该值即可。因为u 和v 通过转化后的取值 范围都是0 - 2 5 5 ,所以s p t 的元素有6 5 5 3 6 ( 2 5 6 2 5 6 = 6 5 5 3 6 ) 个。而设置了恰当 1 一 一 1 4 第二章y u v 颜色空间中的肤色检测技术 标准值后滤除得到的s t 表的元素只有5 0 0 0 多个,从而降低了算法复杂度。 最后,对于从视频流中抓取到的图象中的每一个像素点,直接获取该点的r g b 三个分量值,然后计算得到该点的u ,v 值,再查找s t 表是否存在该( u ,v ) 值。如 果存在,则该像素点为肤色点,否则不是肤色点。最后,我们将判定为肤色的像 素点的值设为1 ,其他像素点设为o ,从而得到了检测结果图。可以设想,如果标 准值取得了一个相对合理的值,并且训练样本数据库中的图片数量足够大,则可 以相对完整地得到图片中人手或者其他皮肤色彩区域。算法具体流程如图2 - 7 所 示。 该部分涉及到需要设置具体的用来过滤非肤色点的阈值参数,即实现由s p t 表转化为s t 表的标准值。在具体的应用中,因为采集设别以及样本数量的差别, 该阈值会略有不同,本章实验中设置为0 6 5 。 主 、 (结束) 、o 一7 7 图2 7 算法流程 通过本章所述算法得到图象结果如图2 8 所示。工f 如图中所示,在不同的背 景和光线条件下,通过本章算法的流程,使用图片数据库中的图片标注和统计后 得到的肤色点的可能性信息来过滤新的图片中的肤色点,基本可以相对比较准确 地找到图中人的皮肤色彩比较集中的区域,从而为后续各章的操作提供良好的图 1 5 l 电子科技大学硕士学位论文 象数据。 ( a ) 昏暗复杂背景下的不清晰原图 ( b ) 昏暗背景原图得到的高概率肤色区域二值图象 ( c ) 光亮复杂背景下的较清晰原图 1 6 第二章y u v 颜色空间中的肤色检测技术 2 5 本章小结 ( d ) 光亮背景原图得到的高概率肤色区域二值图象 图2 - 8 试验结果 本章主要讨论了肤色检测技术,讨论了肤色检测中的关键问题和主流的实现 技术。肤色检测的关键是要确定一个尽量对环境变化不敏感的颜色空间,以及相 对简单易实现的分类技术。本章所述算法选择了y u v 颜色空间,并滤掉亮度分量, 这样可以使得肤色检测结果对光线变化不敏感,并且计算相对简单 再通过实现一个朴素的贝氏分类器来学习一些色彩成为是肤色点的可能性的 相关信息,再依据这些信息对新的样本数据图片中的像素点进行分类,最后将分 类的结果显示在与原图对应的概率图象中,供后续操作使用。结果显示通过一定量 样本数据的训练,该章所介绍的算法能够相对较好地实现预期的目的,为后续各 章打好基础。 1 7 电子科技大学硕士学位论文 第三章图象形态学原理及其在手势识别中的应用 3 1 概述 在早期的一些研究中,学者们认为形态学是特指- - i 1 专门研究生物形式的学 科。现代形态学常常被用以描述生物的形态和规律性,主要立足于现象学原理和 构形论思想的基础上。 数学形态学【4 3 】可以被认为是建立在格论和拓扑学基础之上的用于进行图象分 析的学科,其基本操作包括有图象形态腐蚀操作和图象形态膨胀操作,在这两者 的基础上可以通过运算产生大量的其他数学形态学运算族。 图象形态学泛指图象分析中的形态学处理,也就是将数学形态学作为工具从 待处理的图象中提取特定信息,这些信息往往是表达和描绘区域形状特别有用的 一些图象分量,比如边界和骨架,这些信息还用来进行预处理或后续的形态学操 作【4 8 】 4 9 】。图象形态学已经广泛应用于现代图象分析和信号检测的许多领域。因为 本它在具体的处理中会涉及大量的并行计算,而众所周知,这就让它相对其他类 似方法具有更加优异的可计算性能。 二值图象形态学,也就是指针对二值图象进行处理的数学形态学操作。二值 图象即每一个像素点只能取两个值的图象,上一章算法分析得到的最后肤色概率 图象就是二值图象。对这样一类图象的处理是通过使用“模板 ( 某种定义好的 基本结构,比图象本身要小并且可以在图象上做位移等操作) 与图象相互作用并 进行各种计算,最后得到图象中相对由价值的分量信息,从数学的角度可以认为 其本质就是图象与“模板相互逼近的过程。 灰度图象形态学【4 6 】指对图象中的每一个像素点取一个范围内的值的图象进行 处理的数学形态学操作。它的具体实现l k - - 值图象形态学的实现更为复杂,面对 的问题也远比二值图象中的问题更多。主要区别在于二值图象形态学处理的是集 合,而灰度图象形态学处理的是图象的函数;相应的,“模板”也由基本结构变 为一个定义好的子图象。 图象形态学的具体处理方法一般是:对输入图象地进行一系列的数学形态学 运算,然后通过“滤噪等辅助性操作完善图象,从而得到符合要求的目标图象。 具体流程见图3 - 1 ,本文将详细介绍该领域操作的一些主要基本技术,以及这些技 1 8 图3 - 1 图象形态学的处理流程 3 2 图象形态学三种基本运算 本节将以二值图片作为代表,介绍该领域的三种基本操作,对这些操作的一 些简单示例以及这些操作在本章算法中的应用。 3 2 1 图象平移 图象平移m :即简单地将图象沿某一特定方向( 也可以是沿着多个方向移动) 位移一定距离后得到的新的图象。比如:现在有图象m ,平行位移s ,得到图象m + s , 也就是: m + s = m + s l m m ) 公式( 3 一1 ) m + s 表示对m 中的每一元素做一个距离为s 的平移,举例如下( 二值图象中 的每一个点的取值对应于下面矩阵中相应位置的值,矩阵的第一个元素代表图象 的牮标原点) : 1 9 电子科技大学硕士学位论文 oo o1 o1 o o 0o 00 00 oo 11 1o 10 o o 0o 0o 1o o0 00 oo + s oo : l01i lj o0 o o 0o oo 0o 0 o 00 o 0 10 11 o1 01 0o 00 oo 1l oo oo 其中s 是“模板 。上例中s 可认为是一矢量,m 在s 的方向上位移了1 个 单位。也可以利用不同的s ,得到不同的位移结果。例如( 所有图象的坐标原点对 应为矩阵中的第一个元素) : oo o1 ol o o 0 0 o 0 o o o o 1l 1o 1o 0 0 oo o0 l0 00 o 0 o 0 + s 0 1 : l o o j oo o0 o0 0o o 0 0o o0 10 11 01 o1 o 0 0 o 0o 11 o0 00 oo 现在我们可以初步知道,不同的“模板”会让我们的操作产生不同的结果, 得到关于图象的不同分量信息,这就是“模板”的本质。对于二值图象,我们一 般采用3 3 的基本结构单元作为“模板 。本节介绍的操作作为一个最基本操 作,是一切后续相关运算的基础。 3 2 2 图象形态膨胀 图象形态膨胀:将图象沿某一特定“模板 中的所有元素位移特定距离后得 到了一系列新图象,原图和所有的这些位移后产生的新图的并集部分图象就是该 运算的结果。比如:现在有图象m ,“模板 s ,将m 沿s 位移后的图象记作m s , m u m s 就是结果图象,也即: mo s = u m + s i s & 公式( 3 - 2 ) m o s 表示形态膨胀,u 表示集合论中的取并的操作,也就是对满足花括号 内条件的图像,取得他们的并集。举例如下,s i :三i 为模板,( 矩阵的第一个元 素代表图象的坐标原点) : 2 0 第三章图象形态学原理及其在手势识别中的应用 0o o1 o1 0o oo 00 0o o1 01 o 0 o0 oo 0o 01 01 o1 o o oo oo oo 11 lo 0o oo o o 0o 11 1o oo 0 o 0o 1o 11 11 10 0o o o oo 1o 00 o0 o0 o o 0 0 10 0 0 o o 0o o o 00 1l 10 00 o0 。s 1 u o 0 0 o 00 00 00 o o oo 1o 11 0l 0o 00 o0 o o 11 oo 0o 0 o u 0o o o o1 o1 0 o 0o oo oo oo 11 10 0o o0 oo oo 1o oo oo 上例中的结果就是图象m 的原图和m 向两个不同方向位移一个单位得到的图 象的并集。一个简单的在二值图象中的实例如图3 - 2 所示: ( a ) 示例原图 ( b ) 操作后的图象 图3 - 2 图象形态膨胀实例 2 l l 电子科技大学硕士学位论文 i 1 11

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论