(模式识别与智能系统专业论文)基于模型的行人跟踪.pdf_第1页
已阅读1页,还剩109页未读 继续免费阅读

(模式识别与智能系统专业论文)基于模型的行人跟踪.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 人运动的视觉分析就是通过对图像或视频进行处理,获取人体姿态和运动参 数,进行姿态识别、语义分析及行为理解,它在虚拟现实、智能监控、人机交 互、运动分析、基于模型的编码等方面具有广泛的应用前景和潜在的经济价值。 近年来,人运动的视觉分析受到国内外学术界和企业界的广泛关注,但作为计 算机视觉领域中的一个热点和难点,仍然有很多理论与技术问题需待解决。本 文围绕人运动的视觉分析中的重要课题一一基于模型的行人跟踪一一展开研 究,它不仅涉及底层视觉的许多问题,还是高层视觉处理的基础。 基于模型的跟踪是解决行人跟踪问题的一般性框架。我们以这个框架为基 础,在模型知识的学习和表示、姿态评价函数、初始化和搜索策略等子课题做 了细致的分析和探讨,提出了一些新的算法,并获得了一些有价值的实验结论。 ( 1 ) 从大量训练数据学习得到高斯表示的运动模型,它形式紧凑,在预测 和初始化方面有着重要的作用。我们也细致地分析了人体的运动约束,用高斯 混合模型模拟关节角度的分布,通过求解置信区间得到关节的活动范围。相邻 关节的依赖性用条件概率建模,从训练数据中学习得到概率分布的参数。 ( 2 ) 提出一种比较可靠的运动检测方法,用来提取图像的边缘特征和区域 特征。然后,这两种特征被同时考虑到姿态评价函数之中,一方面利用边缘的 精确定位提高评价的准确性,另一方面利用区域的丰富信息提高鲁棒性。 ( 3 ) 行人跟踪是一个高维优化问题,本文采用层次化的搜索策略将其分解 为全局位置估计和关节角度优化。对于后者,本文以弹力模型为基础,根据刚 体绕定轴的转动定律提出了基于动力学的算法,递归地优化关节角度。 ( 4 ) 为了避免动力学方法的不足,本文进一步将基于模型的行人跟踪纳入 概率框架之下,使用粒子滤波进行优化。根据粒子滤波理论,本文着重分析初 始化和动态模型。我们用前帧的时空信息和模型知识初始化人体姿态,融合 跟踪的历史信息、运动模型以及运动约束来设计动态模型。 关键词:基于模型的行人跟踪,人体模型,运动模型,运动约束,基于动力学 的跟踪,粒子滤波,动态模型 一 苎主堡! 塑堑堡堕 a b s t r a c t v i s u a la n a l y s i so fh u m a nm o t i o ni sc u r r e n t l yo n eo f t h em o s ta c t i v er e s e a r c h t o p i c si nc o m p u t e r v i s i o n i ta i m st or e c o v e rb o d yp o s e sa n dm o t i o np a r a m e t e r sf r o m s t a t i c i m a g e so rv i d e os e q u e n c e s t h er e c o v e r e dd a t a , u s e df o rp o s er e c o g n i t i o n , s e m a n t i ca n a l y s i sa n db e h a v i o ru n d e r s t a n d i n g ,h a v eaw i d es p e c t r u mo fp r o m i s i n g a p p l i c a t i o n s i n m a n ya r e a s s u c ha sv i r t u a l r e a l i t y , s m a r ts u r v e i l l a n c e ,a d v a n c e d p e r c e p t u a li n t e r f a c e s ,m o t i o na n a l y s i s ,a n d m o d e l b a s e dc o d i n g i nr e c e n ty e a r s , a l t h o u g hv i s u a la n a l y s i so fh u m a nm o t i o nr e c e i v e di n c r e a s i n ga t t e n t i o nf r o mb o t h a c a d e m i aa n di n d u s t r y , m a n yt h e o r e t i c a la n dt e c h n i c a lp r o b l e m sr e m a i no p e n t h i s t h e s i sf o c u s e so na l li m p o r t a n ts u b j e c ti nt h i sf i e l d ,i e ,m o d e l - b a s e dt r a c k i n go f w a l k i n gp e o p l e ,w h i c hn o to n l yi n v o l v e sm a n y i s s u e so fl o w l e v e lv i s i o nb u ta l s o p r o v i d e sm o t i o nd a t af o rh i 。g h l e v e lv i s u a la n a l y s i s m o d e l b a s e dt r a c k i n go fw a l k i n gp e o p l ei sag e n e r a lf r a m e w o r kf o rp e o p l e t r a c k i n g u n d e rs u c haf r a m e w o r k ,w ea n a l y z et h ei m p o r t a n tm o d u l e s ( i n c l u d i n g l e a r n i n g a n d r e p r e s e n t a t i o n o f p r i o rk n o w l e d g e ,p o s e e v a l u a t i o n f u n c t i o n , i n i t i a l i z a t i o n ,s e a r c hs t r a t e g y , a n ds oo n ) ,d e s c r i b es o m en o v e la l g o r i t h m s ,a n dd r a w s o m eu s e f u lc o n c l u s i o n s o u rc o n t r i b u t i o n sa r es u m m a r i z e da sf o l l o w s ( 1 ) ac o m p a c tm o t i o nm o d e li sl e a r n tf r o ma v o l u m eo f t r a i n i n ge x a m p l e s t h e m o d e l ,r e p r e s e n t e da sg a u s s i a nd i s t r i b u t i o n s ,p l a y sa ni m p o r t a n tr o l ei np r e d i c t i o n a n di n i t i a l i z a t i o n w ea l s oc a r e f u l l ya n a l y z et h eh u m a nm o t i o nc o n s t r a i n t s :i n t e r v a l s o f j o i n ta n g l e sa n dd e p e n d e n c i e so fn e i g h b o r i n gj o i n t s t h ef o r m e ra r ed e r i v e df r o m c o n f i d e n t i a li n t e r v a l so fj o i n t a n g l e d i s t r i b u t i o n st h a ta r em o d e l e da sm i x t u r e g a u s s i a n s t h el a t t e ra r er e p r e s e n t e db yc o n d i t i o n a ld i s t r i b u t i o n sw h o s ep a r a m e t e r s a r el e a r n tf r o m t r a i n i n gd a t a ( 2 ) w ep r o p o s e ar o b u s ta p p r o a c ht om o t i o nd e t e c t i o nt h a ti sa p p l i e dt oe x t r a c t i o n o ff e a t u r e so f e d g e sa n dr e g i o ni n f o r m a t i o n t h e nb o t hf e a t u r e sa r ec o m b i n e di n t ot h e p o s ee v a l u a t i o nf u n c t i o nt oo b t a i na c c u r a c ya n dr o b u s t n e s s ( 3 ) p e o p l et r a c k i n g i sa n o p t i m i z a t i o np r o b l e mo fh i g hd i m e n s i o n a l i t y w e d e c o m p o s ei t i n t ot w os u b p r o b l e m s :e s t i m a t i o no f g l o b a lp o s i t i o na n dr e f i n e m e n to f j o i n ta n g l e s a st ot h el a t t e r , w ep r o p o s ea ne f f e c t i v ea p p r o a c ht or e c u r s i v e l yr e f i n e e a c hj o i n t s e p a r a t e l y t h i sa p p r o a c h i sb a s e do nt h e s p r i n g m o d e la n dr o t a t i o n k i n e m a t i c a le q u a t i o n ( 4 ) t oa v o i dt h ed e f i c i e n c i e so ft h ea b o v ea p p r o a c h ,w ea l s ot r a c kp e o p l ei na 摘要 p r o b a b i l i s t i cf r a m e w o r ku s i n gap a r t i c l ef i l t e r i n ga c c o r d i n gt op a r t i c l ef i l t e r i n g ,w e e m p h a s i z e o nt h ei n i t i a l i z a t i o na n dd y n a m i cm o d e l w eu s et h e s p a t i o - t e m p o r a l i n f o r m a t i o no ft h ef i r s tnf r a m e sa n dp r i o rk n o w l e d g eo fh u m a nm o t i o nt oi n i t i a l i z e t h eb o d y p o s e t h e nt r a c k i n gh i s t o r y , m o t i o nm o d e la n d m o t i o nc o n s t r a i n t sa r ef u s e d t od e s i g no u r d y n a m i c m o d e l k e y w o r d s :m o d e l b a s e dt r a c k i n go fw a l k i n gp e o p l e ,h u m a nb o d ym o d e l ,m o t i o n m o d e l ,m o t i o nc o n s t r a i n t s ,k i n e m a t i c s b a s e dt r a c k i n g ,p a r t i c l ef i l t e r i n g ,d y n a m i c m o d e l 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知 除了文中特界j j n 以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。 虢爹张 f i 期:丛习:l 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自 动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅:可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。 签 ( 保密的论文在解密后应遵守此规定) 签名 日期:丛蔓! i :芏! 一 第一章绪论 1 1 引言 第一章绪论 人运动的视觉分析是计算机视觉领域一个重要的研究方向,它旨在对图像或 视频进行分析,从而获得人体姿态和运动参数,并进一步进行姿态识别、语义 分析及行为理解。它覆盖了脸像识别、手势识别、人体跟踪、语义分析等研究 领域 1 】,需要使用运动分割、跟踪、识别、语义表示与推理等技术,涉及到模 式识别、图像处理、计算机视觉、人工智能、图形学等学科领域。这是一个具 有挑战性的、跨学科的研究方向。本论文将对人运动的视觉分析中的人体建模 与跟踪进行研究。 1 1 1 研究背景 人是社会的主体,人类活动遍布地球的每个角落。每件事情,要么是以人的 活动为主题,要么人本身就是参与者或操纵者。随着经济的发展、网络和视频 技术的突破、娱乐业的发达、人类交流的频繁,对人类身份的控制、行为模式 的分析和人体自身的探索变得越来越迫切。 目前的人运动分析往往需要人的干预。如对敏感场所( 银行、超市、停车场 等) 的监控,往往是由保安人员2 4 小时巡逻。部分场所装有摄像机,但还是需 要专门工作人员监视显示器以便及时发现异常事件。这样不仅需要投入大量的 人力、物力资源,而且由于人的精力和注意力有限,在高强度的工作环境_ f 往 往可能会出现疏漏,从而不能及时对异常情况做出反应。至于运动数据的捕获, 一般是在人体各个关节上贴上特殊颜色的、或光电的、或磁性的标记,通过分 析这些标记的三维位置来恢复人体的运动数据。显而易见,贴上这些标记不仅 会增加成本,而且会影响人的动作以至于影响数据的准确性,因此具有很大的 局限性。 人运动的视觉分析就是为了避免这些不足,它利用计算机视觉和图像图形的 方法,在不需要人干预、或者只需要很少干预的情况下,通过对摄像机拍录的 视频序列进行分析来实现人的检测、定位与跟踪,并在此基础上获取人体姿态 基于模型的行人跟踪 和运动参数,并进一步进行语义分析和行为理解。总之,要在不侵犯被分析者 的前提下,实现运动分析的自动化,从而使人从繁琐的劳动中解放出来。 112 典型应用 计算机视觉领域对人运动的视觉分析的浓厚兴趣主要源于三个方面:一是计 算机视觉理论和算法的发展;二是廉价且高品质的视频采集设备的出现;三是 人运动的视觉分析本身有着广泛的应用前景和潜在的经济价值。其中第三点又 是最本质、最重要的原因。下面借鉴同行的分类 1 ,4 ,1 5 2 】,将人运动的视觉分析 的典型应用总结如下。 1 ) 虚拟现实( v i r t u a lr e a l i t y ) 为了在虚拟空间中产生生动逼真的人物动作,最好的办法就是先用视觉方法 对物理世界中的人体运动进行分析,获取人体模型、人体姿态以及运动参数, 再利用这些数据用图形学的方法生成动画。另外,以往网络上的虚拟空间( 如 聊天室) 主要通过文本来实现,有时也增加一些二维的图标来导航用户,更加 逼真、丰富多彩的虚拟空间应该是交互式的,它可以利用虚拟现实技术增加手 势、头部姿态以及脸部表情,为参与者提供更加自然便捷的交互方式。近年来 的电影和游戏也非常得益于虚拟现实技术,如电影最终幻想和怪物史莱 克中的人物动作( 行走和打斗等) 基本上是由电脑制作的。 2 ) 智能监控( s m a r ts u r v e i l l a n c e ) 这里强调的是“智能”。传统的视觉监控系统往往是将摄像机与显示器连接, 1 二作人员2 4 小时在显示器前监视,这种做法耗费大量人力物力,而且由于工作 人员的疲劳容易失误。一个真正智能的监控系统除了能够检测受控区域的人的 运动之外,还能够实时识别异常行为( 如非法闯入、偷窃等) 并及时报警,而 且这个过程基本是自动化的。因此,智能监控系统f 9 ,1 0 在安全监控场所很有应 用前景,如银行、超市、停车场等,它不仅提高安全性、减少犯罪,而且还节 省大量人力物力。在访问控制( a c c e s sc o n t r 0 1 ) 场台,也可以利用人脸或者步 态的跟踪识别技术 1 1 1 6 】以便确定来人是否有进入该安全领域的权利。另外,人 的运动分析在自动售货机、a t m 机、交通管理、公共场所行人的拥挤状态分析 1 7 ,1 8 】及商店中消费者流量统计等监控方面也有着相应的应用。 第一章绪论 3 ) 高级用尸接口( a d v a n c e dp e r c e p t u a li n t e r f a c e s ) 要使计算机能够被更加普遍化的使用,必须为计算机提供比鼠标和键盘更加 自然、快捷、智能的接口。语音接口大大简化了人机对话,而视觉信息( 如手 势、头部姿态、表情等) 又可以作为语音识别和自然语言理解的有效补充。通 过运动检测和脸像识别,计算机可以感知用户的存在,并识别用户的身份;手 势可以方便地给计算机下命令;而表情分析使计算机能够提前预测用户的目的, 从而使用户接口真正智能化。 4 、运动分析( m o t i o n a n a l y s i s ) 这种应用需求来源于体育比赛录像的检索、运动员的训练和医学矫丁e 。有时 候需要从大量的比赛录像中检索某个运动员进球的镜头,而人运动的视觉分析 可以使人免除浏览大量的视频数据。在训练运动员的过程中,可以用视觉技术 分析运动员的视频序列,恢复运动过程中的人体姿态和运动参数,再对这些数 据进行科学分析,找出动作的缺陷,从而为运动员的下次训练提供建议。另外, 人的运动分析在医学矫正有着重要应用,传统的步态分析是肌电图学、关节动 力学的研究范畴,而目前的医学步态分析 1 9 ,2 0 ,2 1 是一个旨在提供诊断和治疗 支持的研究领域,它可以提供人体正常步态建模的线索,有助于开发生物反馈 系统来分析病人的步态,判断其腿步受伤情况或者畸形程度,从而做出积极的 整形补偿或有效的治疗【4 ,1 5 2 】。 5 ) 基于模型的编码( m o d e l b a s e dc o d i n g ) 随着m p e g 一4 标准的推广,这个应用需求越来越迫切,尤其是在可视电话和 远程会议中。由于带宽的限制,一般的视频压缩技术无法满足可视电话和远程 会议数据顺畅的传输。这个应用,背景一般变化非常小,变化的主要是脸部表 情和头部姿态,如果能首先对脸像和头部建模,在后续过程中则仅仅只要对表 情和姿态进行编码传输即可。基于参数编码的压缩是目前视频计算的热点之一。 表1 i 简单总结了这些典型应用 1 。目前人运动的视觉分析还处于研究阶段, 真正的实际应用还属于少数。但不难预见,在不久的将来,这些技术将深入到 我们生活的各个领域,极大地提高我们的生活水平。另外,前面所述的意义都 是技术上的,但人运动的视觉分析的意义绝不仅此。在智能监控中,我们需要 从统计上分析人类行为模式,判断异常行为;虚拟现实关系到人类的生存方式 和社会心理学:智能用户接口基本上就是要窥探用户的心理过程,以此预测用 一苎王塑王叁一一一一 从而匝确 弹机视身就 运动的,分析 人类的徊认 应;分析一个人体关节_ 的研 。实现观觉曼。川功轧重毒廷的t 过程。 j 。,是里上和i , i i4 上汾,了舡门自i 一过程, j理的 1 人;r | 勺视五 : j ! 域特殊7 m 实:一交。j 一游 一虚: 一动1 - :一远j 盘控系统;一访 ,一停j 一超- t 。一自i 一交i ij 户接口 一标i 一手 一在f ( 如 r 析一基 一个f 一舞f 一医i 型的编一特“ 的典一“l ( j 源 1 】 拄拟空 , 乍室 泌 1 创 商场 货机、”m 译( 如:i 由的控i 声环境“ 工厂- 半的体; 拘运动 卅 怔 寺率的 j 、招弹) 助语 凄口 赛视剪的检要 练 压缩 。究现状 力的视贳沂是彰,几视费一个重究方m 也个很j ! 的研 它不仅j f 拟现智能;。、人一 工、运动分,基于 型的编 第一章绪论 码等方面具有广泛的应用前景和潜在的经济价值,在计算机视觉理论研究的层 次上也有很高的价值,而且对于人类认识自身有着重要的心理学和哲学上的意 义。它涉及到计算机视觉中的很多基本问题,例如运动检测和分割、目标定位 和识别、刚体和非刚体跟踪、时空推理、场景恢复与表示、行为分析和建模、 语义理解、多摄像机数据融合、机器学习等 1 5 3 】。人运动的视觉分析是具有挑 战性的研究工作,它的很多研究成果都可以被其它领域借鉴,从而更广泛地对 计算机视觉的整体研究工作产生推动作用。 因此,世界许多国家的政府、广大研究工作者以及商家对这个研究领域有着 浓厚的兴趣,并争相展开大量的研究项目,其中又以美国和英国为最 4 】。例如, 1 9 9 7 年美国国防高级研究项目署d a r p a ( d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t s a g e n c y ) 设立了以卡内基梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ) 为首、麻省理 工学院( m a s s a c h u s e t 【si n s t i t u t eo f t e c h n o l o g y ) 等高校参与的视觉监控重大项目 v s a m ( v i s u a ls u r v e i l l a n c ea n dm o n i t o r i n g ) 【1 2 1 ,1 2 2 】,主要研究用于战场及普 通民用场景进行监控的自动视频理解技术;实时视觉监控系统w 4 【2 5 不仅能够 定位人和分割出人的身体部分,而且通过建立外观模型来实现多人的跟踪,并 可以检测人是否携带物体等简单行为;1 9 9 9 年欧盟i s t ( i n f o r m a t i o ns o c i e t y t e c h n o l o g i e s ) 的f r a m e w o r k5 程序委员会设立重大项目a d v i s o r ( a n n o t a t e d d i g i t a lv i d e of o rs u r v e i l l a n c ea n do p t i m i s e dr e 啪e v a l ) ,旨在开发一个系统来有效 地管理公共交通系统( 如地铁) ,从而缓解城市的压力,它覆盖了人群和个人的 行为模式分析、人机交互等研究【5 】:2 0 0 0 年美国自然科学基金会设立重大项目 m u l t i m o d a lh u m a n c o m p u t e ri n t e r a c t i o n :t o w a r dap r o a e t i v ec o m p u t e r ,由u i u c 大学的贝克曼研究所承担,该项目希望开发新的更加智能的人机交互技术 6 】。 目前人运动的视觉分析还处于研究阶段,但一些初步结果开始逐步应用到商 业中,如i b m 与m i c r o s o f t 等公司正逐步将基于视觉的手势识别接口应用于商业 领域中 7 ,8 。为了进一步促进人运动的视觉分析研究的发展,为广大研究人员提 供便捷的交流方式,一系列国际期刊和国际会议将人运动的视觉分析作为一个 重要的主题内容,如国际上一些权威期刊d c v ( i n t e r n a t i o n a lj o u r n a lo f c o m p u t e r v i s i o n ) 、c v i u ( c o m p u t e r v i s i o na n d i m a g e u n d e r s t a n d i n g ) 、p a m i ( i e e e t r a n s o n p a t t e r n a n a l y s i sa n d m a c h i n e i n t e l l i g e n c e ) 、i v c ( i m a g ea n d v i s i o n c o m p u t i n g ) 和重要的学术会议h u m o ( w o r k s h o po nh u m a nm o t i o n ) ,i c c v ( i n t e r n a t i o n a l c o n f e r e n c eo nc o m p u t e rv i s i o n ) 、c v p r ( i e e e c o m p u t e rs o c i e t yc o n f e r e n c eo n 基于模型的行人跟踪 c o m p u t e r v i s i o na n dp a t t e r n r e c o g n i t i o n ) 、e c c v ( e u r o p e a n c o n f e r e n c eo n c o m p u t e r v i s i o n ) 、i w v s ( i e e e i n t e r n a t i o n a l w o r k s h o p o n v i s u a ls u r v e i l l a n c e ) a 1 2 基于模型的行人跟踪 前面介绍了人运动的视觉分析领域的一些基本情况,本文的重点是这个领域 的人体建模和跟踪问题,我们采用基于模型的方法,其原因要追溯到m a r r 理论。 8 0 年代初,m a r r 2 2 1 首次从信息处理的角度综合了图像处理、心理物理学、神 经生理学以及临床精神病学的研究成果,提出了第一个较为完善的视觉系统框 架。按照m a r r 的视觉计算理论,个视觉系统分为从下而上的三个阶段,即视 觉信息从最初的原始二维图像数据到最终对三维环境的表达经历了三个阶段的 处理 1 5 4 1 。第一阶段构成由二维图像中的边缘点、直线段、曲线、顶点、纹理 等基本几何元素或特征组成的要素图或基元图:第二阶段为对环境的2 5 维描述 ( 即部分的、不完整的三维信息描述) ,重建以观察者为中心的坐标系下的部分 三维物体的形状与位置。2 5 微描述是不够的,还需要第三阶段,即三维阶段, 进一步处理以得到物体的完整三维描述,而且必须是物体本身某一固定坐标系 下的描述。 m a r r 从下而上的视觉计算理论一度非常流行,视为经典,甚至至今仍然是广 大计算机视觉工作者接受的基本框架。但这一框架在细节上甚至主导思想方面 尚存在大量不完备的地方。例如,我们看到一个人时,并不是完全按照m a r r 的 三个阶段,先找出像手、脚、躯干一样部分再拼凑在一起构成一个完整的人。 根据经验,更可能的机理是我们大脑里本来就有人的形体概念( 或先验知识) , 当看一个物体并模糊觉得像一个人时,大脑会启用先验知识,并根据先验知识 一去印证人体的细节( 如手脚和躯干等) ,最后做出结论“这是一个人”。因 此一个在计算机视觉界争论的焦点就是模型知识( 或先验知识) 在认知过程中 的作用,即模型知识究竟只在识别时才有用,还是应作用于较低层次的视觉信 息。一种比较调和的看法是:当输入信息受噪声影响较小或者说它的不确定性 较小时,底层处理不需要上层知识;否则,上层知识应通过假设一检验或其它 方式介入底层处理。结构性环境的模型知识能够较方便的获取、表示和存储, 以用于指导视觉信息处理,因此对于这类问题,充分利用模型知识( 或先验知 第一章绪论 识) ,同时结合从下而上和从上而下的方法以简化视觉信息处理就更有吸引力。 l o w e 2 4 ,2 5 在这个方面做了许多精彩的工作,他利用基于模型的方法,非常精 确地从二维灰度图像中恢复物体的三维形状和位置。近年来,基于模型的方法 已经成了计算机视觉领域里一个研究热点。 对于我们的问题人体建模和跟踪,处理对象仅仅限于人,要考虑的人体 运动一般也是规律性的,因此,充分利用对象的先验知识( 包括人体模型、人 的运动模型和运动约束) ,采用基于模型的方法就成了我们首要选择。下面介绍 基于模型的行人跟踪的一般方法。 1 2 1 一般性框架 基于模型的行人跟踪是这样一个过程:先建立人体几何模型,在跟踪当前帧 时,根据上一帧的跟踪结果预测当前帧的姿态,将处于预测姿态的人体模型投 影到图像平面,计算匹配误差,然后根据误差优化预测姿态,使目标函数最小, 从而得到人体在当前帧的姿态。图1 1 形象地说明了这个过程。 在行人跟踪中可以利用的先验知识包括人的运动模型、运动约束和人体几何 模型。运动模型是为了用数学方法紧凑地表示人的规律性运动,如行走、跑步、 舞蹈等。运动约束表示人运动应遵守的限制,如关节不能无限制的活动,人体 一个部分不能穿越其它部分等。运动模型和运动约束是人运动的先验知识,在 预测中起着重要的作用。人体几何模型一般是根据人体的生理结构,将人体表 示成一系列由关节连接的骨架,根据相联的关系,进一步可以表示成层次性的 树状结构。为了得到更加精确的人体模型,有时候还在骨架外围加上肌肉和皮 肤纹理。几何模型能够很形象地表示人体的形状,但缺乏数学上的简洁性。为 此将人体几何模型进一步参数化,表示成一个状态向量p = ( p 。,p 。) 。其参数一 般包括两部分:一部分是静态参数风,它表示人体各个部分的形状和大小:另 一部分是运动参数p d ,包括各个关节的角度以及全局的位置,它是人体姿态的 反映。一个状态向量对应状态空问q 的一个点,但当摄像机的视角和位置变化 时,处于特定姿态的人在二维图像平面的投影有无数种可能,也就是蜕,状态 空间的一个点对应二维图像空i 瑚i 的无数个点。 从单幅图像,i 中恢复人体姿态可以看作是在状态空间q 中寻找对应点p , 摹丁- 模型的行人跟踪 使得,:f ( p ) ,这里r 是摄像机的投影函数,它将处于状态p 的人体几何模型投 影到图像平面。但一般来说,我们只能找到近似解,如果度量函数( 本文称为 姿态评价函数) 或者误差函数d = s ( 1 ,p ) 能够度量这个近似程度,那么寻找对应 点过程则是一个优化姿态评价函数的过程,使得d 最小化。跟踪过程可以做对 应的定义,它处理的是序列图像,f f l c i ,这里f 是时间。我们一般假设这些序 列图像比) 在时间f 上是连续的,于是跟踪就是从状态空间q 中寻找对应轨迹 e ( t ) ,使得1 ( 0 * - ( 尸o ”,或者最小化d = s ( ,( f ) ,j d ( 咖,这里也假设j p ( 0 是连续 的。换个角度,跟踪过程是建立二维图像空间i 与状态空间q 的映射的过程。 p = ( p ,p d ) 图l l 基于模型的行人跟踪 与从单幅幽像,中恢复人体姿态不同,跟踪处理的图像序列,( f ) 在时间f 上 是连续的t 利用连续性假设可以大大简化问题。基于模型的跟踪一般采用分析 “合成的方法,即预测一匹配更新这样一种模式 2 】。图1 2 是方法的框图。具 体柬况跟踪当前帧时,首先利用连续性假设和模型知识( 运动模型和运动约 第一章绪论 束) ,根据上帧的跟踪结果预测当前帧的人体状态向量,然后将处于预测状态 的人体几伺模型投影到图像平面,与当前帧的实际图像匹配,并通过姿态评价 函数计算匹配误差,根据误差,进一步优化姿态评价函数,更新人体状态向量, 使匹配误差最小。最后得到的状态向量则是跟踪结果。当跟踪第一帧时,因为 不能预测,所以需要例外处理即通过初始化来估计人体的大致姿态。据此, 一个完整的基于模型的行人跟踪系统需要完成如下模块。 l 、v 一l 、,一- 、,j l 、一 初始化 动态模型搜索策略运动合成、 ( 运动模型与运动约束)( 姿态评价函数、步态识别等 人体模型) 图1 2 基于模型的行人跟踪的框架 1 ) 模型知识。这早模型知识包括人体几何模型、运动模型和运动约束。建 立人体几何模型就是为了更好地利用人体生理结构这个先验信息。理论上讲, 人体模型越复杂,跟踪结果会越好但相应的计算复杂度亦会增加,如何在准 确性和复杂度寻找一个平衡是一个值得认真考虑的问题。运动模型为规律性的 运动建立数学模型,用于姿念预测。运动约束涉及的方面特别多,如关节的依 赖型、关节的活动范围、身体各个部分的不能相互穿透性等,这些知识可以很 好地缩小解空间,但存在如何表示和利用的问题。 2 ) 姿态评价函数。姿态评价是特定状态的人体几何模型投影的图像平面之 后,对模型投影与图像之间的匹配程度的量化估计,这个估计可以用函数的形 式定义出来。姿态评价函数需要考虑利用哪些图像特征( 如灰度、梯度、边缘、 区域和纹理等) ,如何定义距离函数使得函数在准确性前提下尽量曲面光滑而局 部最小值较少等问题。它直接影响到优化的效果。 基于模型的行人跟踪 3 1 动态模型。它利用连续性假设和先验性知识( 运动模型和运动约束) ,根 据卜一帧的跟踪结果预测当前帧的人体状态。一个好的动态模型应该尽可能多 地利用先验知识来预测当前状态,从而缩小解的搜索空间。但是一般来说,动 态模型利用先验知识越多,处理异常的能力就越差。 4 ) 搜索策略。它基本上对应姿态评价函数的优化。一般来说,有四种策略: 泰勒法( 梯度法) 2 3 ,2 4 ,9 0 ,5 0 1 、动力学方法 4 3 ,4 4 ,7 3 】、卡尔曼滤波【3 4 , 8 9 ,9 6 ,9 8 ,1 4 1 ,1 4 2 ,1 5 3 】以及粒子滤波1 7 3 ,7 6 ,8 7 ,9 7 ,9 7 1 0 0 ,1 0 1 ,1 0 2 。这四种方法 在相关工作小节将进一步阐述。显然,搜索策略在跟踪系统中起着决定性的作 _ ;j ,其它模块应该去适应这个模块。 5 ) 应用。奉h 对其它跟踪方法,如基于特征的、基于区域的和基于轮廓的方 法,基于模型的方法可以恢复运动的细节信息关节角度的时间变化曲线, 这些数据有着各种应用,如运动合成和步态识别等。 122 基于模型的跟踪的优缺点 与m a r r 的视觉计算理论不同,基于模型的方法同时结合了自下而上和自l 而f 的方法,凼而有其特有的优越性,同时也带来了相应的缺陷。主要优点有: - 利用模型知识通过推理可以很好地解决遮挡和自遮挡问题; - 充分利用了人体的生理结构、运动规律和运动约束在内的先验知识,可以提 高预测能力,缩小解空间,也可以跟踪高噪声的图像序列; - 可以恢复运动的细节信息关节角度的时间变化曲线,因而有着更重要的 应用价值。 主要缺点宵: 个性化的人体几何模型的获取特别困难。我们可以设计一个一般性的人体,l 何模删,侗跟踪特定人时,又需要将一般性模型个性化。理想的情况是根据 图像自动调整人体模型,但难度太大,所以目前一般手动完成这个过程。 - 运动模型存在严重的准确性与适用范围之间的矛盾 - 由于噪声影响,摄像机与早期视觉信息处理会带来误差,于是存在一个问题: 如何根据彳i 完整的、带误差的信息进行有效的姿态评价。 第一章绪论 1 3 相关工作 1 。3 1 模型知识 如前所说,模型知识包括人体几何模型、运动模型和运动约束等,它们在基 于模型的跟踪中起着重要的作用。 1 ) 人体几何模型 基于模型的跟踪使用的人体几何模型在细节上从简单到复杂有着很大的差 别。在早期研究中,简单的骨架模型 2 6 ,2 7 ,2 8 1 经常被使用,在这种模型中,身 体的各个部分被表示成简单的棍棒,这些棍棒由关节链接在起。骨架模型非 常简单,但姿态评价时很难度量匹配误差。因为人体的各个部分投影到图像平 面之后一般可以近似成规则的四边形,所以一个很自然的想法就是用二维的多 边形或曲边形表示这些部分,再由关节连接,纸板人 2 9 3 2 1 正是这样一种人体 模型。纸板模型避免了模型的三维投影过程,与二维图像有着直接的对应关系, 但不能解决三维参数的恢复问题。为此需要更加复杂的立体模型。早在8 0 年代 初,h o g g 【3 3 在人的运动分析方面做了不少开拓性的工作,他使用三维圆柱模 型,人体的每个部分都用一个圆柱体表示。在后来的工作晕,圆柱模型被不断 地使用 3 3 4 2 】。由于圆柱的两端相同大小,而人的手和腿显然不是如此,为此 又出现了圆台模型 4 3 4 7 ,6 6 1 。为了更加精确地将模型匹配到真实图像中的人, 4 8 5 2 1 使用超二次曲线,构建了逼真且可变形的模型。f 5 3 ,5 4 ,5 5 使用分层的结 构化的模型,它分为四层:骨架、椭球块表示的肌肉、多边形表示的皮肤、以 及最后渲染的结果,这个模型与人体真实的生理结构更加接近。前面的这些模 型一般都是通过手工设计,为了充分利用图形软件的功能,f 5 6 ,5 7 ,5 8 使用c a d 技术构建人体模型。另外,值得一一提的是,为了适应互联网在线虚拟现实的需 要,h u m a na n i m a t i o nw o r k i n g g r o u p 5 9 1 提出了一套标准,给出了一般人的表示 方法以及动画渲染的方法,这套标准已经在v r m l 9 7 中得到很好的实现。般 来说,模型越复杂越精确,其跟踪结果也就越准确,但同时需要更多的参数和 更多的时间来搜索解空间,如何根据实际问题在这二者之间寻找一个平衡是 个必须考虑的问题。 前面这些人体模型都是一般性的。当跟踪特定的人时,还需要调整人体模型 第一章绪论 习获取三次b 样条函数的参数,就可以很好的将一个人的步态表示出来。c h e n g 和m o u r af 6 6 1 利用这个结论跟踪正常行走的人,取得了比较好的结果。 在h m m 中,一个隐含状态集合首先被赋予一个先验概率然后通过学习 来估计各个状态之间的转移概率。它的每个状态代表一个姿态,行为识别就是 在状态空问搜索特定状态的过程。b r e g l e r 6 8 将人的行为分为四个抽象层次:第 一层是输入图像层:第二层是用概率表示的小区域( b l o b ) 层;在第三层b l o b 被分组成线性的随机过程模型,在最高层,这些随机过程模型分别作为状态的 转移概率而构成一个h m m 。对于周期运动( 如行走) ,状态是重复往返变化的, 据此,m a g e e 等 6 9 1 设计了一个循环的h m m ( c h m m ) ,它的初始和结束状态 是连接在一起的,这个模型被用来跟踪家畜的行走,并检测残疾的家畜。b r a n d 7 0 将人体运动看作是状态空间的流形( m a n i f o l d ) ,他将位置和速度基本是线性 关系的邻域用一个高斯函数拟合,然后在概率意义上将这些邻域连接,并通过 光滑插值进行分段线性近似,一个概率矩阵用来表示从一个邻域到另一个邻域 的转换速度,该速度也对应人的运动速度。这个流形在本质上就是一个h m m , 每个邻域的高斯函数对应隐状态的输出。b r a n df 7 2 1 用熵最小的方法训练h m m 的参数,这个模型最后用来恢复二维图像序列的人体姿态。在b r a n d 的另一个工 作里 7 1 】,他同样训练了一个h m m ,并为其增加一个风格变量( s t y l i c v a r i a b l e ) , 当这个变量变化时可以生成一个h m m 簇,这就是s h m m ( s t y l i ch m m ) ,它被 用来合成各种风格的运动。 p c a 在特征分析提取中起着降维的作用,在运动分析中,我们希望通过例 子学习,获取特定动作的主元以表示这个动作的规律。y a c o o b 和b l a c k 7 4 用” 维向量表示一个姿态,假设一个动作的图像序列长为r ,他们用n t 维向量表示 一个动作,该动作的k 个例子用个月t k 的矩阵a 表示,对该矩阵进行p c a 分析,就可以得到动作的主元表示,他们将p c a 模型用于运动识别,取得很好 的结果。在s i d e n b l a d h 等 3 7 3 9 1 的_ :工:作中,人行走的运动数据按周期分割,然 后对这些周期数据使用多元p c a ( m p c a ) 降维,得到一个表示紧凑的行走模 型,用在粒予滤波的跟踪中。人运动的状态空间是高维非线性的,o n g 与g o n g 7 5 采用结构化的p c a 表示这个空间,他们的方法分为两步:首先采用传统的p c a 对训练数据降维,去除冗余,由于全局特征向量的投影是线性的,降维后的训 练数据仍然是非线性的:然后,降维后的数据被聚类,每类用局部主元表示。 为了处理不连续的数据,他们还

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论