（电路与系统专业论文）基于视觉的人体检测与跟踪.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：54 大小：3.24MB 积分：0 举报 版权申诉

已阅读5页，还剩49页未读，继续免费阅读

（电路与系统专业论文）基于视觉的人体检测与跟踪.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要人体检测和跟踪是计算机视觉的重要研究课题之一，其应用已经遍及智能监控、体育运动分析、新型人机交互和虚拟现实等领域，研究基于视觉的人体检测和跟踪有着很重要的现实意义。本文研究了在智能家居环境中人体检测与人体运动跟踪问题，主要工作和特色如下： 1 对人体运动图像分析的关键技术进行了综述。详细介绍了人体运动图像中从初始化模型、人体跟踪、姿态估计和行为识别的各个步骤，及其主要的研究方法与进展，以及存在的问题。 2 研究了一种改进的自适应混合高斯模型的人体检测算法。家居背景经常发生变化，需要采用混合高斯函数来做背景建模。已有的自适应混合高斯模型可以快速对背景进行建模，但是当人体在某个空间位置短暂停留时，就会被学习成背景。本文采用一种近似s 曲线函数的分段指数函数来修正学习率和新的背景高斯成分的权重，并结合形态学、中值滤波和图像金字塔技术，有效地减除了人体阴影，降低了背景噪声的影响。 3 研究了一种融合了混合高斯模型和粒子群优化的自动人体跟踪算法利用混合高斯背景模型给出的目标前景区域，缩小跟踪的范围：利用粒子群优化方法对状态空间的随机搜索能力，寻找人体目标的最优空间位置，最后将两者的信息融合对比，实现自动的人体跟踪算法。本算法框架为每个跟踪目标维护一个历史灰度直方图信息，并在人体遮挡、人体目标离开场景等目标消失情况下，可以在稍后图像帧中自动地恢复跟踪和识别目标。关键词：智能家居，人体检测，人体跟踪，自适应混合高斯，粒子群优化 a b s t r a c t a b s t r a c t t h ed e t e c t i o na n dt r a c k i n go fh u m a nb o d yi sa ni m p o r t a n tp r o b l e mi nt h ec o m p u t e r v i s i o nf i e l d i t sa p p l i c a t i o nh a ss p r e a di n t e l l i g e n tm o n i t o r i n g ，s p o r t sa n a l y s i s ，an e w h u m a n c o m p u t e ri n t e r a c t i o na n dv i r t u a lr e a l i t ya n do t h e rf i e l d s r e s e a r c h i n gt h et e c h n o l o g yo ft h e h u m a nd e t e c t i o na n dt r a c k i n gb a s e do nv i s i o nh a sv e r yi m p o r t a n tp r a c t i c a ls i g n i f i c a n c e b o d yd e t e c t i o ni nt h es m a r th o m ee n v i r o n m e n ta n dh u m a nm o t i o nt r a c k i n gb a s e do n v j d e 0h a v eb e e ns t u d i e di nt h i sd i s s e r t a t i o n t h em a i nw o r ka n dc h a r a c t e r i s t i ca r ea sf o l 。 i o w s ： 1 t h ek e yt e c h n o l o g i e so fh u m a nm o v e m e n ti m a g ea n a l y s i sw e r er e v i e w e d t h i sp a p e rg i v e sd e t a i ls t e p si nt h eh u m a nm o t i o ni m a g ew h i c hc o n t a i nt h ei n i t i a l i z a t i o n m o d e l th u m a nt r a c k i n g | p o s ee s t i m a t i o na n db e h a v i o rr e c o g n i t i o n it h em a j o r r e s e a r c h m e t h o d s ，t h ep r o g r e s sa n dp r o b l e m s 。 2 r e s e a r c ha ni m p r o v e da d a p t i v eg a u s s i a nm i x t u r em o d e lf o rh u m a nd e t e c t i o na l g o 。 r j t h m t h ef r e q u e n tc h a n g e si nt h eh o m eb a c k g r o u n dn e e dt ob ed e s c r i b e db yt h em i x e d g a u s s i a nf u n c t i o nm o d e l i n g e x i s t i n ga d a p t i v eg a u s s i a nm i x t u r em o d e l sc a nq u i c k l ym o d e l t h eb a c k g r o u n d ，b u tw h e nt h eb o d ys t a y sas h o r tt i m ea tap o s i t i o n ，t h e yw i l l l e a r ni tf o r t h eb a c k g r o u n d s - c u r v ef u n c t i o nw h i c hi sa na p p r o x i m a t ep i e c e w i s ee x p o n e n t i a lf u n c t i o n i su s e dt om o d i f yt h eb a c k g r o u n dl e a r n i n gr a t ea n dt h en e wg a u s s i a nc o m p o n e n tw e i g h t s a f t e rt h a t | ac o m b i n a t i o no fm o r p h o l o g y ，m e d i a nf i l t e r i n ga n di m a g ep y r a m i dt e c h n o l o g y t i su s e dt oc u t so f fh u m a ns h a d o wa n dr e d u c e st h eb a c k g r o u n dn o i s e 3 。r e s e a r c ha na u t o m a t i ch u m a nt r a c k i n ga l g o r i t h mb yt h ef u s i o no fg a u s s i a nm i x t u r e m o d e la n dp a r t i c l es w a r mo p t i m i z a t i o n t h et a r g e tf o r e g r o u n da r e ag i v e nb yg a u s s i a nm i x t u r eb a c k g r o u n dm o d e li su s e dt o n a r r o wt h er a n g eo fh u m a nt r a c k i n g t h er a n d o ms e a r c hc a p a b i l i t yo fp a r t i c l es w a r mo p 。 t i m i z a t i o nm e t h o di nt h es t a t es p a c ei su s e dt of i n dt h eo p t i m a ls p a t i a ll o c a t i o no ft h eb o d y f i n a l l y ，t h ei n f o r m a t i o nf u s i o nb e t w e e nt h e mc a na c h i e v ea u t o m a t i ch u m a n t r a c k i n ga l g o r i t h m t h ea l g o r i t h mf r a m e w o r km a i n t a i n sah i s t o r yo fh i s t o g r a mi n f o r m a t i o nf o re a c h t r a c k i n go b j e c t ，a n dc a na u t o m a t i c a l l yr e c o v e rt r a c k i n ga n di d e n t i f yt a r g e t si nt h el a t e r i m a g ef r a m ew h e ns e l f - o c c l u s i o no rh u m a nt a r g e tl e a v i n gt h es c e n e i i a 8 s t r a c t k e yw o r d s ：s m a r th o m e ，t h eh u m a nb o d yd e t e c t i o n ，h u m a nt r a c k i n g ，a d a p t i v eg a u s s i a n m i x t u r e , p a r t i c l es w a r mo p t i m i z a t i o n i i i 中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者虢舷签字魄地业中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入中国学位论文全文数据库等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。忆仫开口保密( 年) 作者繇魈签字日期：丝垃：笸! 乜导师签名：签- w - i i i i ：星2 1 丝：么：! 垒第1 章绪论 1 1引言第1 章绪论从照相机的发明，到摄像机的普遍使用，从计算机的诞生，到机器人技术的蓬勃发展，从固定电话到移动电话和i n t e r n e t ，人类的认知范围和手段都在不断改进。为了解放人类的劳动力，我们借助机器来代替我们去劳动和获取信息。有研究表明，人类获取的信息有8 0 是从视觉获得的。为了更好地让机器给我们人类服务，我们就需要给它们一双“眼睛”，并且教会它们如何使用。2 1 世纪的两大科学方向一一生物科学和人工智能，为我们打开了这扇门。生物科学在研究解释动物和人类视觉的机制和原理，人工智能在研究如何让机器模仿人类的认知和决策。两者殊途同归，最终目的都是揭示人类的奥秘，延拓人类的智能。其中，机器视觉和图像识别是作者最感兴趣的两个方面。机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是指通过机器视觉产品( 即图像摄取装置，分c m o s 和c c d 两种) 将被摄取目标转换成图像信号，传送给专用的图像处理系统，根据像素分布和亮度、颜色等信息，转变成数字化信号：图像系统对这些信号进行各种运算来抽取目标的特征，进而根据判别的结果来控制现场的设备动作。本文下述“视觉”如无特殊说明，均指“机器视觉”。图像识别也叫图像再认，它是图形刺激先作用于感觉器官，再辨认出它是经验过的某一图形的过程。在图像识别中，既要有当时进入感官的信息，也要有记忆中存储的信息。只有通过存储的信息与当前的信息进行比较的加工过程，才能实现对图像的再认。本论文的研究方向就是，融合了机器视觉和图像识别的，基于视觉的人体检测和跟踪。相关的研究领域按照人体结构从粗到精可以分为，人体检测和识别，人体运动的检测、跟踪和识别，人体姿态的检测和识别和人体异常行为的检测和识别。 1 2 人体运动图像处理应用和发展借助计算机来分析和处理人体运动图像的领域，正在获得人们越来越多的关注和研究。因为它包含了很多困难的和不确定的问题，例如从2 d 图像中推断出一个铰链式自遮挡的非刚性的3 d 物体的姿态和运动。从纯学术角度出发，这种第1 章绪论复杂性使得这一领域的研究更具挑战性。并且从应用远景上来看，只有基于计算机视觉的方法才能提供非侵入式的解决方案。 1 2 1 应用领域人体运动图像处理的主要应用领域包括了：监视，控制和分析。这里的监视应用有别于传统的视频监视，它是一种智能视频监控应用，可以自动地从视频中分析和判断出目标物体及其相关行为。它包括了现场事故识别，现场人物追踪，人员拥挤报警，闯入检测等功能。在一些在机场或地铁里有大量人群通过时，自动地监视和理解人体位置及其他相关信息。在安防领域，还要实现队列行为分析，异常行为检测和个人身份识别等。控制应用是指，用估算出的人体运动或者姿态参数来控制某个物体。它可以被应用于游戏、虚拟现实等，成为一种人机交互界面。例如，日本索尼公司于 2 0 0 3 年推出的基于视觉的e y c t o y 游戏，虽然它的易操作性还不及任天堂公司于 2 0 0 6 年推出的基于运动感应手柄的w i i 游戏，但是这为广大游戏玩家提供了一种新的游戏体验模式。人体运动图像处理还可以应用于娱乐业，借助采集好的外观、形状和运动信息，可以使电脑生成和控制的图形模型更为逼真可信，3 d 电影阿凡达就是最好的例证。分析应用包括了：整形病人的自动诊断：运动员表现的分析和优化；视频索引和视频会议中，基于内容的视频检索和有效数据传输中的视频压缩；还有在汽车工业中，气囊的自动控制、疲劳检测和行人检测等。 1 2 2 国内外发展现状近些年来，软硬件的迅速发展为人体图像处理算法的研究提供了良好的环境。从2 0 0 0 年开始，国内外相关的研究、会议、文章和著作也越来越多，据不完全统计有5 0 0 多篇相关文章发表。基于视觉的人体运动图像处理的研究仍在蓬勃发展中。视频监控、娱乐业和可视媒体检索中蕴含着的潜在市场，和自动化场景解释问题的科学挑战，都在推动着这一领域的研究。这里，我们可以简要地归纳一下关键性的进展： ( 1 ) 初始化。文献【9 ，7 8 1 致力于模型的形状、外观和姿态的自动初始化研究。文献 7 9 8 2 介绍了静态图像中姿态检测的方法，它可以为人体运动重构提供自动初始化。 ( 2 ) 跟踪。监控应用促使着研究向非结构化户外场景中可靠的多人跟踪算法发展。特别是在目标与背景分割中使用了外观、形状和运动信息所取得的改 2 第l 章绪论进，使得检测和跟踪有部分遮挡的人体更加可靠了凸6 ，8 3 一站】。概率分类方洼【8 厢”删和随机采样i 6 瑚9 1 蚓的引入，改善，有遮挡的时空对应的可靠性。文献糟s + 9 8 1 研究了多摄像头的自校正和跟踪的系统。尽管如此，对下户外场景监视，现如今经典的跟踪人体方法鲁捧性还不够强。 ( 3 ) 多视图的人体运动重构。研宄者们已经在从视频中自动重构人体运动的目标上取得了重要的进展。文献婶副所倡导的基于模型的分析综合方法的引入，使得在重构多视图视频采集时，可以有效地搜索可能的姿态配置空间【孔”w ”。现如今的方法h 能够捕捉到粗糙的人体运动，还不能精确地重掏出细微的动作，例如手部动作或者轴向旋转。 ( 4 ) 单目人体运动重构。采用了随机采样技术的单视图人体运动捕捉也取得了部分进展”0 , 6 。i 。利用学习后的运动模型来约束基于运动的重构已经成为单目跟踪的趋势珊叫。有研究证明了，强先验概率模型的使用可以改善特定运动的单目跟踪效果。但是单日视觉投有深度信息，在重构3 0 姿态时存在多义性，即2 d 图像和3 d 姿态间不是一一对应的戈系，而是一对多或者多对一的关系，参见图1 1 。譬图11 使用单目轮廓时深度信息模棱两可“” 5 )自然场景中的姿态估计。克服非结构化场景视频中的单目跟踪的局限性，已经成为在个别图像帧中姿态检测的研究趋势。基于可靠的身体部位检测的概率集合己经成功地应用于杂乱环境中的2 d 姿态估计1 3 3r 3 4 西7 埔删，佣如电影胺片。文献怫1 ，8 2 ，l o o 在重构特定动作时采用了基于样本的方法即学习从图像空间到3 d 姿态空间的映射。 6 ) 行为识别。行为和动作理解成为如今研宄的热点。这方面的努力促进了监视应崩中异常活动自动检测的研兜，在简单动作识别和动作的语法描述上都有相当的进展。相对而言，至今很少有文章涉及动作文法中更高的抽象层【脚l ，这些已经触及，语义和人工智能。结合了目标的动作和行为的预见性也将带来一个全新的角度来识别物体。第l 章绪论尽管研究者们已经取得如此多的成绩，但是为了满足在可靠的自动化跟踪、重构和识别的潜在应用中的共同要求，我们还必须解决大量的难题。例如，需要与视点、身体形状和衣服无关的身体部位检测器，才能够在杂乱自然场景中实现可靠的跟踪和姿态估计。如今，习得的姿态和动作模型只能对特定的运动有效，还不具有通用性。我们还需要一个更为通用的模型来为宽范围的人体运动捕捉提供约束。产业应用也带来了特殊的要求：娱乐产品中的人体运动捕捉需要精确的多视图重构技术；智能监控应用需要有相对低画质的图像中可靠人体检测和行为动作识别的算法；人机交互需要低延迟、实时的手势识别，动作识别和自然行为识别。有需求就有动力。相信通过人们的不懈努力，基于视觉的人体运动图像处理领域将会开花结果，为人类的幸福生活添砖加瓦。 1 3 论文的背景和主要工作本文的研究背景是国家自然科学基金广东联合基金( 编号：n o u 0 8 3 5 0 0 2 ) ，数字家庭智能化的基础算法理论与关键技术的研究。主要研究在室内环境中，如何可靠地检测和跟踪人体，为进一步的数字化家庭技术的开发应用探索基于视频的各种可嵌入式的算法。本文的主要工作：硬件方面，在学校信息科学实验中心搭建了室内监控平台，装设了2 台有云台的球型高速彩色监控摄像机，通过一张8 路音视频采集卡采集真实的室内人体运动的监控视频。数据准备方面，对采集到的视频进行转化和预处理，并且进行离线的人工标定处理。算法方面，研究并实现了基于自适应混合高斯模型的运动目标检测算法，在人体检测中剪除阴影；融合了混合高斯与粒子群优化算法，对人体运动进行自动跟踪。人体检测算法中采用了分段指数函数对混合高斯模型的学习率和新高斯成分的初始权重进行了修正，更加符合人的真实视觉过程，即使人体在场景中有短暂停留，仍然可以准确地分割出人体目标区域。灵活运用了形态学运算、中值滤波、图像金字塔技术，实现了对检测图像的阴影剪除和降噪。人体跟踪算法中，借助混合高斯模型对前景目标的分割，缩小了粒子群优化算法的搜索范围，使算法更加稳健。考虑算法的实时性要求，对粒子群算法的迭代次数有比较严格的要求，故粒子群优化给出的只是一个近似最优解。但是，在 4 第1 章绪论融合了高斯模型的前景区域信息和跟踪目标的历史直方图信息后，仍然可以保持了不错的跟踪效果。 1 4 论文结构本论文的结构共分为5 章：第l 章，绪论。简述人体运动图像算法的应用与国内外发展情况，介绍了论文的背景与主要工作，给出了论文的整体结构。第2 章，运动人体图像分析综述。详细阐述了人体运动图像中从初始化模型、人体跟踪、姿态估计和行为识别的各个步骤，及其主要的研究方法与进展，还有存在的问题。第3 章，基于视频的人体检测。在自适应混合高斯函数基础上，改进了高斯成分学习率和初始化权重选择的机制，并结合了形态学、中值滤波和图像金字塔的图像处理技术，有效的减除了人体阴影，降低了背景噪声。第4 章，基于视频的人体跟踪。将第3 章的混合高斯与粒子群优化融合，实现了一个人体自动跟踪系统框架，对姿态变化不敏感，并对遮挡、隐匿情况有很好的自我恢复能力。第5 章，总结与展望。归纳总结本文的工作成果和存在的问题，对未来的研究方向进行展望。 5 第2 章体运动图像分忻综述 21 引言第2 章人体运动图像分析综述本论丈的研宄背景是在为未来智能家居中的智能视频监控应用，探索实用可靠的人体运动图像处理方法。所以，接下来全详细地介绍下智能监控领域的研宄投展情况。智能视频监控的分类方法很多。为了与实际系统的工作步骤相一致，我们基于m o e s l u n d 和g r a n u m 于2 0 0 1 年给出一种分类方式【1 1 将其划分为4 个步骤：初始化：确保系统在开始运行时，对当前场景有一个正确的描述。人体检测：在一帧或者多帧图像中分割和跟踪人体。姿卷估计：在一帧或者多帧图像中估计人体的姿态。识别：在帧或者多帧图像中，识别一个人或者多个人的身份、动作、活动和行为。图21 人体运动分析系统基本流程图 2 2 模型初始化基于视觉的人体罔像处理和分析的初始化，通常是需要定义一个在形状、表观或者运动学结构七相近的类八模型，然后初始化被跟踪主体的姿态参数。在多数的3 d 姿态估计算法中先手工地初始化一个与个体的形状和肢体长度相近的几何模型。为了可以自动初始化和改进跟踪质量，有一部分研究者们研究了如何才能从单视角或者多视角图像中更加准确地重建主体结构。舅叁突灸呔图22 人体跟踪模型“1 第2 章人体运动图像分析综述注：从左到右分别是原图，剪影，外形，中轴点，骨架初始化过程获取了一个特定人体的先验知识，可以被用来约束跟踪和姿态识别的范围。人体运动图像的先验知识可以被分为以下几种：运动学结构；3 d 形状；彩色外形；姿态；运动类型。这里我们主要回顾下前三种情况的研究进展。 2 2 1 运动学结构初始化多数基于视觉的跟踪系统都假设有一个由固定数目的指定自由度的关节构成的类人运动学结构。这个运动学初始化仅限于肢体长度的估计。商用的基于标定的运动捕捉系统一般都需要一个隔离了个别自由度的固定连续动作。重建的 3 d 标记在人体运动过程中留下的轨迹，可以帮助我们获得标记和肢体之间的对应关系，从而更加精确地估计肢体的长度。骨架结构的左右对称性通常作为一种硬约束作用于估计过程。大量的方法【2 ，3 5 1 被用于解决如何在单目图像中由人工标定的关节位置来初始化人体姿态和肢体长度。人体约束的肢体长度之间的比率被应用于估计运动学结构上未知的比例因子。从人体运动图像序列中直接估计运动学结构的方法也被研究过。k r a h n s t o v e r 等人【6 ，7 】提出了在单目视频图像运动分割中自动初始化上半身运动学结构的方法。 s o n g 等人1 8 】介绍了一种无监督学习算法，它采用了从杂乱的单目视频序列中提取出特征点的轨迹，来自动地构建全身运动学的三角形模型。学习得到的模型然后被用作跟踪侧面的行走运动。这些方法为我们提供了，借助直接从场景中推导出结构的初始化运动模型问题的更为通用的解决方案。也有人研究了如何从多视角重构出的3 d 形状序列中推导出运动学结构的方法。c h e u n g 等人【9 】是从一个各关节运动相对独立的人体视觉外形来初始化运动学结构的。简单的说就是，通过校准固定姿态下视觉外形模型里的各分割的可运动身体部位，得到一个融合了各身体部位形状的全身骨架结构。m e n i e r 等人【1 0 】提出了一种从视觉外形中轴估计3 d 人体姿态的自动化方法。这种运动学结构是独立于每一帧地初始化，使得跟踪更有鲁棒性。文献 i i ，1 2 】介绍了从时间序列的 3 d 形状里估计出底层的有脊柱骨架结构的更一般的方法。首先从每一帧的形状和鉴别出的时间结构中估计出脊柱，然后再估计出底层结构。这项工作展示了如何为婴儿、成人和动物重构出相近似的运动模型。如何确定人体运动学结构中关节角度的初始化范围，是将运动估计约束到一个有效的体姿中的重要问题。利用人体测量数据的手工确定的关节角度范围，已经被用于很多运动估计算法当中了。但是这些都没有考虑到关节活动范围的自然复杂性和不同自由度间范围的耦合问题。为了克服这些局限性，最近的研究者开始研究同时具有关节范围和他们相关性的学习模型。具有人体手臂关节角度( 肩 r 第2 体运动图像丹折综述膀肘部。手腕) 联系的人体测量模型被m 斟舢】甩来在视频跟踪和3 d 上半身姿态估计中提供约求条件。还有人关注如何使用标记系统中捕获的人体运动测量数据【城1 1 和临床数据”】来建模关节的活动范围。这些都被证实r 可以改进复杂的上半身运动的人体姿态估计的性能。如今，基于标记的商业系统获得的人体运动捕捉序列已经被用于学习人体运动学和特定动作的先验模型为随后的跟踪任务提供有效约束。唰样地，动作捕捉数据库“9 2 0 2 1 1 近来也被用于综合己知对应3 d 姿态的图像序列来学习一个从图像到重构姿奎空间的映射的先验模型。 2 22 形状初始化通用的类人模型常被用拄很多摹于视频的人体运动估计技术，来粮略地估计一个t 体的形状。模型表现既有使用简单几何基元的( 圆柱体，圆锥体椭圆体和超二次曲面) 也有使用附着在运动学骨架上的表面的( 多边彤网格，细分表面) i l lo 后来很多方法被提出来用于改善这种通用模型的形状诬它跟好的近似特定人的外表。龠禽爽目23 基于运动学的人体形状模型注：( a ) 二维模型“1 ；( b ) 超二次曲面组成的三维立体模型( c ) 三维表面模型。” 在早些的研究1 2 2 】中，改善了一种基于单目的正面和侧面翦影的通j j 嗍格模型，它将纹理映射应片j 于近似精细的外观。后来，从多个校准过的视角的同步捕捉，被用来获得更加精确的形状和外观信息阻”】。p l a n k e r s 和f u a l 圳在跟踪之前，先借助一个隐含的椭啮l 球体来拟台云点罔的方法，初始化上半身的形状模型。 c a r r a n z a 等人l 捌在跟踪全身运动之前，将一个通用网格模型配置到一个固定姿态的单人多视角剪影图像上。s t a r c k 和h i l t o n 捌则采用了在多视角下兼顾了剪影、立体感和容貌约束的最优化的通用网格模型重构了一个人的任意姿态下的全身形状和外观。假若这种通用模型的计算得到的形状是一个合理的初始化近似，部第2 章人体运动图像分析综述么这些模型拟合方法就可以提供精确的参数近似。模型拟合方法也有自身的缺陷，就是通常都假设短发和穿着贴身衣物，这点限制它们的通用性。全身3 d 扫描传感器的实用性为表面模型提供了精确测量。这项技术就是将通用的类人模型匹配到一个特定姿态的全身扫描数据上，它可以获得人体外形更加详细的表征并且参数化，可以用于动画和跟踪 2 6 , 2 7 。a l l e n 等人【2 6 1 提出了一种使用细化表面来拟合不同姿态下人体多种扫描，进而参数化人体表面形状随姿态的改变。文献| 2 8 , 2 9 使用3 d 扫描数据库学习了一种在全身模型下的人体内部变量的统计模型。从图像中重构出形状的方法可以借助某个学习模型的约束来提高其性能。 2 2 3 外观初始化由于不同着装下个人本身和人与人之间所存在的外观的巨大的可变性，外观的初始化通常都要基于一组观察图像，而不是某一张图像。跟踪时，一般会采用彩色统计模型。基于模型的姿态估计中，精细的表面外观的初始化也采用了来源于多视角图像中的纹理贴图1 2 3 , 2 s 1 。然后在姿态估计中，引入了一个代价函数来评估在投射模型和观察图像之间外观的差异性。 s i d e n b l a d h 和b l a c k 3 0 , 3 1 从事于为不同人体部位的图像观测值的相似度建模。他们在一组训练样本上基于其滤波响应值学习外观和运动的统计关系。相类似的还有，r o b e r t s 等人【3 2 】使用了3 d 表面模型上的多峰直方图来学习人体部位彩色外观的相似度，然后应用在混乱场景中上半身和步行运动的2 d 跟踪。近来的研究趋势又转向了身体部分检测器的学习，它可以先鉴定身体各部位的可能位置，然后在按概率组合定位人体的位置 3 3 , 3 4 , 3 5 , 3 6 】。这种模型的初始化需要不同身体部位的大量的正负训练样本的训练语料。诸如a d a b o o s t 的方法被成功地应用到了学习各身体部位检测器，例如人脸 3 7 】、手、手臂、腿，还有躯干 3 3 , 3 5 。另外，r a m a n a n 等人1 3 4 】检测步行图像序列中的关键帧姿态，在过渡帧中初始化一个局部外观模型来检测身体部位。 l i m 等人f 3 8 】给行走人体建立了动态外观模型，解决了由于运动造成的外观变化问题。它是使用了非线性局部线性嵌入算法( l l e ) 将一个矩形边框内的像素映射到了一个低维度空间上( 只有3 d ) 。在这个空间里，外观的时间连续性得到了维持，这样就允许为行走人体学习一个动态外观模型。如何初始化一个可以精确地表现外观随时间的变化的模型，包括衣服的褶皱、头发和运动过程中人体形状的变化，仍然是一个公开问题。最近的鲁棒的局部人体部位检测器为跟踪和姿态估计提供了一个潜在的解决方案。 1 0 第2 章人体运动图像分析综述 2 2 4 模型初始化的进展最过去的十年里，有大量的研究投入到了如何从多视角图像中自动初始化形状模型 9 , 2 3 , 2 4 , 2 5 】。这些方法重构了与特定人形状相似的铰链式模型，为改进跟踪的精确度提供了基础。有部分研究者试图解决如何在运动过程中人体形状变化的建模问题1 2 6 1 。类似的，多视角重构技术也被用于特定个体的外观模型的自动初始化。单目跟踪和姿态估计中的外观模型初始化还是个开放性问题。有很多人提出了基于图像块或者颜色混合模型的外观的初始化方法。最近的一些有关人体部位检测器工作 3 4 , 3 5 , 3 6 1 探索了有监督学习方法，可以从背景中区别出个体身体部位的外观。在单目图像序列中估计人体姿态，如何全自动地初始化运动学、形状和外观模型还是未来研究的主要方向。 2 3 人体检测自从2 0 0 0 年，人体检测算法研究主要集中到了监控应用，推动了相关领域的前进，其中就包括户外跟踪，有遮挡跟踪，静态图像的人体检测。下面回顾下这些领域的主要成绩和更为一般的人体检测问题。人体检测这个概念在人体运动的视觉分析文献中有着很多不同的解释。这里将它定义为如下两个步骤：( 1 ) 目标与背景分割，( 2 ) 时空对应。而后者的时空对应就是将当前帧的被检测人体与先前帧中的被检测人体联系起来，给出状态空间中的时空轨迹。最近的进展主要是在处理包含了多人和遮挡的自然场景。目标与背景分割是将感兴趣的目标( 人体) 与剩余的图像( 背景) 分开。目标与前景分割方法在多数系统里是第一步，因此也是至关重要的过程。近来的进展多数是扩展和改进原有的方法。本文将图像分割的方法按照运动、外观、形状和深度数据分类。在描述这些前，首先回顾下背景减除，这个跟踪算法中最开始的步骤。 2 3 1 背景减除直到上个世纪的九十年代，背景减除还只是受控室内环境里强有力的预处理步骤。在1 9 9 8 年，s t a u f f e r 和g r i m s o n 3 9 1 提出了用一个混合高斯函数( m o g ) 来表示每个像素，在运行过程中用新的高斯函数来更新每个像素。这样就允许背景减除方法可以应用到户外环境。这种更新通常是递归的，它可以建模场景中的缓第2 章人体运动图像分析综述慢变化。s t a u f f e r 和g r i m s o n 的方法今天成为了背景减除的标准。从1 9 9 8 年至今，还出现了很多背景减除的方法，例如背景表达，分类器，背景更新和背景初始化。 2 3 2 基于运动的分割基于运动的目标与背景分割就是利用了运动人体在连续图像帧中的差异信息来分割。人体运动可以用流量或者图像差异来测量。s i d e n b l a d h 删对人量的每个只包含一个行人的图像窗口计算光流，支持向量机( s v m ) 被用来检测视频中的行人。光流可能有噪声，然而图像流可以用较高层次的实体测量出来。例如， g o n z a l e z 等人通过k l t 特征获得流向量：s a n g i 等人1 4 2 】从像素块的位移中提取流向量；b r a d s k i 和d a v i s l 4 3 从运动历史图像的梯度中找出流向量( m h i ) l 删。图像差分可以迅速地适应场景中的改变，但是对于不移动或者与邻域相似的人体像素就无法检测出来了。因此出现了一种改进版本，就是使用连续三张图像 4 s 一4 6 4 7 。v i o l a 等人使用了一种不同的图像差分方法【删，他们采用了他们的经典人脸检测的原理，将简单的特征组成了渐进的强分类器的瀑布结构。他们将一个当前图像中矩形区域内的像素与之前图像中对应矩形区域内的像素进行比较，其中会对当前图像中的矩形区域分别做上下左右的平移，然后就得到了图像差分。输出能量越低，在这个方向上人体移动的概率就越高。这些操作的输出被用作构建一个由a d a b o o s t 训练出的人体检测器。 2 3 3 基于外观的分割基于人体外观的分割是构架在如下两个观点上：( 1 ) 人体和背景的外观是不同的，( 2 ) 个体间外观是不同的。这些方法可以分为三类：( 1 ) 给每个人构建一个外观模型；( 2 ) 给从当前图像中分割出的前景目标构建一个外观模型，然后拿它和预测的模型进行对比；( 3 ) 直接分割出当前图像里属于每个模型的像素。这些方法中，有的独立于时空背景，意味着它们可以应用到一个通用的人体外观模型。相反地，有的模型通过学习当前序列中较早的图像来更新人体外观模型。 2 3 4 基于形状的分割人体形状和场景中的其他物体的形状通常是有区别的。基于形状的人体检测会是有力的线索。相反的，基于外观的模型的个体间的形状经常非常相似。因此，跟踪中采用的基于形状的方法只包含简单的对应关系。这样的优点首要是适合于不受控环境中的人体检测和跟踪。因为其在背景减除的优点，可靠的轮廓线可以 1 2 第2 章人体运动图像分析综述描述图像序列中人体的形状。我们将基于形状的方法分成不使用时空背景和使用的两种情况。 2 3 5 基于深度的分割基于深度数据的目标与背景分割思想，是源自于人站在一个3 d 环境里的。这种方法既可以直接获取从场景中估计出的3 d 数据 4 9 , 5 0 , 5 1 , 5 2 , 5 3 ”，也可以间接地组合了提取出特征的不同摄像机的视 s 4 , 5 5 , 5 6 , 5 7 。这些改进要归功于更快速的计算机才能处理解决多个摄像机输入。背景减除对环境光照的改变很敏感。因此，基于深度的分割方法可以应用于背景由一个深度模型构成，并且比较从每一帧输入中估计出的深度数据来分割前景的情况。除非采用了特殊的硬件i s2 1 ，实时稠密立体算法仍然是有问题的。i v a n o v 等人【s 1 】的工作绕开了这个难题，使得其不需要在线的深度图。这种方法只需要学习两个摄像机像素间的映射关系，就可以实现对两个摄像头的由映射图确定的对应像素间的在线对比。这种检测现在有效，都是基于这样的假设：当且仅当他们描述了背景中的颜色和亮度在像素间是相似的。文献i s 2 中研究了这种方法的优缺点。基于深度数据的人体检测方法的其他改进包括：h a r i t a o g l u 等人【4 9 】将从安装在房屋天花板的摄像机获得深度数据投射到地平面上，这里通过寻找3 d 的头肩轮廓来定位人体：相类似的方法出现在 s o ，s 3 里，不同的是摄像机的安放位置，和对应3 d 点集采用了体素| 5 0 】。 m i t t a l 和d a v i s s s , s 6 使用了在每个摄像机视图中基于外观的方法检测人体。每个被检测人体的中心，是在另外一副图像中用对极几何学约束下的基于区域的立体方法找到的体素组合而成的。生成的3 d 点集被投射到地平面上，并且用高斯核和遮挡相似度的概率形式表示出来。y a n g 等人【5 7 】j 各不同摄像机中的剪影融合成为一个视觉外形，其中不正确的解释可以用一组准则和历史时空来裁剪掉。 1 w a s e 和s a i t o 5 4 】采用多摄像机来检测和跟踪多人体，在每个摄像机中，使用背景减除和环境先验知识检测出每个人的脚。对于每个摄像头，所有检测到的脚被映射到一个虚拟地平面上，其中迭代过程可以解决语义上的模糊性。相似的方法在 i s 8 也可以找到。 2 3 6 时空对应跟踪算法的个主要任务是找出时空对应。对于给定的在先前图像帧里的n 1 3 第2 章人体运动图像分析综述个人的状态，在当前图像帧中寻找对应个体的状态。这里说的状态主要是人体在图像中的位置，但是也包含其他属性，例如3 d 位置，颜色和形状。之前的跟踪算法主要是在受控环境和只有几个人的场景里受测试。近来的算法可以处理包含多人有遮挡的更为真实的户外场景。其中一个主要问题是如何更好地分割目标和背景，另一个同样重要的问题是如何处理可能发生互相遮挡的多人场景。 2 4 姿态估计姿态估计是估计人体运动学结构配置或者关节骨骼结构配置的过程。这一过程可能贯穿基于模型的分析综合方法的跟踪过程，也有可能对每一帧观测值直接进行处理。前人的综述【1 】将姿态估计算法基于他们所用的先验人体模型分成三个类： ( 1 ) 无模型匹配。这类方法没有明确的先验模型。文献【5 9 】采用了自下而上的方法跟踪和标记2 d 中的人体部位。文献【6 0 】直接将2 d 图像观测值序列映射到3 d 姿态上。 ( 2 ) 间接模型。这类方法在姿态估计中使用了一种先验模型，作为引导测量数据的做出合理解释的参考或者查询表。之前的文献提出了使用肢体长宽比f 6 1 】或者姿态识别【6 2 j 来标注人体部位的方法。 ( 3 ) 直接模型。这类方法使用显式的人体形状和运动学结构的3 d 几何表示来重构姿态。大多数这类方法都采用了分析综合方法来优化投射模型和观测图像间的相似度【6 3 ，硎。图2 4 给出基于模型的人体姿态估计流程图。在姿态估计问题中，从单视图图像中恢复出完整的3 d 姿态仍然是最困难的病态问题。因此，也有人开始研究单视图的3 d 姿态估计【1 8 ，弭7 0 1 和多视图的3 d 估计1 2 3 , 2 4 , 7 1 - 7 7 。例如，有的改进也在复杂的自然场景如电影胶片中估计2 d 姿态。 2 4 1 无模型匹配为了突破跟踪长序列视频时所受的限制，人们提出了在个别图像帧上直接做姿态检测。无模型匹配方法与基于模型的方法相比，其优点在于无需建立人体模型，无需进行人体初始姿态估计等。由于没有了模型的指导，在跟踪过程中，需要大量的学习样本，或者需要提取特征信息，并且也不能很好地处理有遮挡的情况。其中主要的两类方法是，基于部分的概率集合和基于例子的方法。 1 4 第2 章人体运动图像分析综述 2 4 1 1 基于部分的概率集合在自底而上的二维姿态估计中，我们引入了基于部分的概率集合方法。这种方法先检测身体部位的可能位置，然后再将这些信息融合，获得与观察值最匹配的配置。这种在跟踪中检测的方法有一个潜在的优势，就是可以在每一帧里独立：；：：；： l 、一l 、，jl 、，jl _ 、一扔始化础叁摸授搜索壤略惩功合成 f 迓动摸喇j ，边动约束) f 瓷态j - 价嫡数步淼谶捌等 j 人体横镬，图2 4 基于模型的人体姿态估计流程图的估计人体姿态，因此允许对快速运动的姿态估计。历史信息的融入或许可以帮助估计图像序列中的连续姿态参数。f o r s y t h e 和f l e c k 1 0 9 】引入了“人体平面”，将图像中的人体和动物表示成身体部位的有结构集合。沿着这个研究方向，文献【1 1 0 1 1 2 采用图案结构估计图像序列中的二维人体部位参数。近来，组合的人体部位检测器被 1 1 3 ，1 1 4 用来解决有部分遮挡的杂乱场景中定位多个人体的问题。基于身体部位检测器的概率集合方法用于解决单帧图像或者序列图像中全身二维姿态的自底而上的估计【3 3 3 剐。常用的身体部位的检测方法有，二维形状【3 5 】，支持向量机分类器【3 6 】，a d a b o o s t 33 1 ，局部初始化的外观模型3 4 1 。在基于单目图像的二维姿态估计问题中，r e n 等人【8 0 】使用身体部位问的成对约束，将各身体部位的检测结果融合得n - 维姿态参数。成对约束条件包括长宽比、尺度、外观、方向和连通性。r a m a n a n 等人 n 5 】学习了一个基于条件随机域的全局人体部位参数模型，可以同时地检测所有的人体部位。h u a 等人【7 9 】同时采用了自底而上的特征线索和马尔可夫网络，建模各部位的配置，实验证明，在如体育图像的混乱场景中有不错的姿态估计结果。 1 5 第2 章人体运动图像分析综述 2 4 1 2 基于例子的方法基于例子的人体姿态估计方法，就是将观测的图像与样本数据库

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电路与系统专业论文）基于视觉的人体检测与跟踪.pdf

文档简介

温馨提示

最新文档

评论

（电路与系统专业论文）基于视觉的人体检测与跟踪.pdf

文档简介

温馨提示

最新文档

评论

相关文档