已阅读5页,还剩62页未读, 继续免费阅读
(通信与信息系统专业论文)基于视频的人体运动识别方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 目前,基于视频的人体运动分析是一个非常活跃的研究领域,而 其高级阶段,人体运动识别更是该领域内一个富于挑战性的课题,它 在人机交互、智能监控、体育性能分析、内容检索等领域具有广泛的 应用前景。在分析总结国内外计算机领域关于人体运动识别研究工作 的基础上,本文作者从视频中运动捕获的数据出发,针对具有复杂动 作特征的人体动作识别和人体连续动作识别,分别建立了合适的模 型。主要研究内容如下: 首先,针对传统概率模型中对观测序列的限制和存在的“标记偏 置”问题,提出了基于条件随机场模型描述人体动作时序特征序列的 方法。该方法无需对观测建模,从而避免了独立性假设,并在优化过 程中进行全局归一化又能解决“标记偏置 问题,从而更符合实际情 况中人体动作建模。此外,由于条件随机场模型具有容纳观测值重叠 和长距离依赖特征的特点,该方法在处理复杂人体动作识别时具有很 强的优势。 然后,针对人体连续动作的动作分段和识别,提出一种将条件随 机场和条件概率密度传播相结合的方法。该方法将连续动作识别分解 成各个单个动作识别的分治方法。首先利用条件概率密度对连续动作 序列进行分割,采用一种先假设再验证的策略,假设多个可能的动作 分段,再以条件随机场输出的概率形式的识别结果验证分段假设。由 于分割时去除了动作转换过程中部分过渡帧,从而减轻了过渡姿势的 影响,提高了识别的鲁棒性和正确率。 实验结果表明,本文作者提出的复杂动作识别和连续动作识别方 法是行之有效的,并为进一步的研究奠定了良好的基础。 关键词动作识别;连续动作识别;条件随机场;条件概率密度传播 a b s t r a c t h u m a nm o t i o na n a l y s i sb a s e do nv i d e oi sc u r r e n t l yo n eo ft h em o s t a c t i v er e s e a r c hf i e l d s ,a n dh u m a na c t i o nr e c o g n i t i o ni sac h a l l e n g i n g r e s e a r c ht o p i ci nt h i sf i e l d h u m a n m o t i o nr e c o g n i t i o nh a s m a n y p r o m i s i n ga p p l i c a t i o n s s u c ha sm a n - m a c h i n e i n t e r f a c e ,i n t e l l i g e n t s u r v e i l l a n c e ,a t h l e t i ct r a i n i n g ,a n dc o n t e n tr e t r i e v a l t h i st h e s i sa n a l y s e s a n ds u m m a r i z e ss o m er e l a t e dr e s e a r c hw o r ko nh u m a nm o t i o n r e c o g n i t i o ni nc o m p u t e rf i e l da n db u i l ts u i t a b l em o d e l st os o l v ep r o b l e m s w h i c hi sc o m p l i c a t e ds i n g l ea n dc o n t i n u o u sh u m a na c t i o n r e c o g n i t i o n a c c o r d i n g t ot h ed a t aw i t hm o t i o n c a p t u r e i nv i d e o t h em a i n c o n t r i b u t i o n sa r ea sf o l l o w s : f i r s t l y ,t h i st h e s i sp r o p o s e sam e t h o dt od e s c r i b eh u m a na c t i o n e i g e n s e q u e n c eb a s e do nc o n d i t i o n a lr a n d o mf i e l di no r d e rt os o l v et h e p r o b l e m so ft h e l i m i t a t i o nt oo b s e r v a t i o na n dl a b e l b i a se x i s ti n t r a d i t i o n a lp r o b a b i l i t ym o d e l s w i t h o u tm o d e l i n gt h eo b s e r v a t i o n ,t h i s m e t h o dc a na v o i du n r e a l i s t i ci n d e p e n d e n ta s s u m p t i o no nt h eo b s e r v a t i o n s g i v e nt h ea c t i o nc l a s sl a b e l s ,a n di th a ss e t t l e dt h el a b e l - b i a sp r o b l e mw i t h g l o b a ln o r m a l i z ei nt h eo p t i m i z i n gp r o c e s s ,t h e r e f o r e ,t h i sm e t h o di sm o r e s u i t a b l et oh u m a na c t i o nm o d e l i n gi nr e a l i t y b e s i d e s ,c o n d i t i o n a lr a n d o m f i e l da c c o m m o d a t e s o v e r l a p p i n g f e a t u r e so r l o n g t e r mc o n t e x t u a l d e p e n d e n c i e si nt h eo b s e r v a t i o ns e q u e n c e ,w h i c hm a k et h i sm e t h o dh a s a d v a n t a g ei nr e c o g n i z i n gc o m p l i c a t e dh u m a na c t i o n s e c o n d l y ,t h i st h e s i sp r o p o s e sam e t h o dc o m b i n e dw i t hc o n d i t i o n a l r a n d o mf i e l da n dc o n d e n s a t i o n ( c o n d i t i o n a ld e n s i t yp r o p a g a t i o n ) t o s e g m e n ta n dr e c o g n i z eh u m a nc o n t i n u o u sa c t i o n ,w h i c hd e c o m p o s et h e c o n t i n u o u sa c t i o nr e c o g n i t i o ni n t ov a r i o u s s i n g l ea c t i o nr e c o g n i t i o n f i r s t l y ,t h ec o n d e n s a t i o ni su s e dt os e g m e n th u m a nc o n t i n u o u sa c t i o n s e q u e n c e i n t o s i n g l e a c t i o n f r a g m e n t w i t h t h e s t r a t e g y o f h y p o t h e s i s v e r i f i c a t i o nb yg e n e r a t i n gah y p o t h e s i sa b o u tt h eb o r d e ro fa s i n g l e a c t i o ni nc o n t i n u o u sa c t i o n s e q u e n c e ;s e c o n d l y ,c o n d i t i o n a l r a n d o mf i e l di m p l e m e n t sr e c o g n i t i o no ft h eh y p o t h e t i c a ls i n g l ea c t i o n f r a g m e n t ;t h e n ,t h el i k e l i h o o do fah y p o t h e s i sc a nb ee v a l u a t e db yt h e i i p r o b a b i l i s t i co u t p u to fc o n d i t i o n a lr a n d o mf i e l d h a v i n gr e m o v e ds o m e t r a n s i t i o n a lf r a m e si nt h ea c t i o ns w i t c h i n g ,i tr e d u c e st h ei n f l u e n c eo n t r a n s i t i o n a lp o s e sa n di m p r o v e st h er o b u s ta n da c c u r a c yo f r e c o g n i t i o n t h ee x p e r i m e n tr e s u l ts h o w st h a tt h em e t h o d so f c o m p l i c a t e dh u m a n a c t i o nr e c o g n i t i o na n dc o n t i n u o u sa c t i o n r e c o g n i t i o np r o p o s e di nt h e p a p e ra r eu s e f u la n dh a v ee s t a b l i s h e das o l i df o u n d a t i o nf o rt h ef u t u r e r e s e a r c h k e yw o r d sa c t i o n r e c o g n i t i o n ;c o n t i n u o u s a c t i o n r e c o g n i t i o n ; c o n d i t i o n a lr a n d o mf i e l d ;c o n d i t i o n a ld e n s i t yp r o p a g a t i o n 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:埠 日期:堕年月生日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 储虢埠翩签碑礓吼塑年二月斗日 硕+ 学位论文第一章绪论 1 1 研究意义 第一章绪论 视觉是人类认知外界、获取信息的主要来源,它不仅指对光信号的感知能力, 也包括对信息的获取、传输、处理、存储和理解的整个过程。研究表明,人类接 受信息6 0 来自于视觉。可见,视觉是人类交流中信息传递的重要方式,在人类 的日常生活中扮演着重要的角色。随着影视、网络等媒体的迅速普及和发展,视 频已经成为承载信息的主要工具,人们对于利用视频自动获取、分析信息的需求 也不断高涨。 运动是视频的重要特性之一。近年来,摄像机等运动捕获设备价格不断降低, 计算机性能不断提高,使得应用领域需求的增加,利用计算机自动捕获、分析视 频中运动信息,实现计算机自动识别和理解成为新的研究热点。人体运动识别目 的在于,在成功实现运动捕捉、特征提取的基础上,通过分析获得的人体运动特 征参数,自动识别人体运动类型。运动识别技术在人机接口、智能监控、体育运 动分析等方面都具有重要的意义和广阔的应用前景l l j 。 1 ) 运动分析 人体运动分析的高级阶段是运动识别,也是不可缺少的一部分。对人体运动 进行分析识别,在很多方面都可以应用:体育运动识别可以用于创建个性化训练 系统,用于体育运动视频的自动分析、评判,提供科学直观的辅助分析手段,加 速数字化体育运动训练进程,也可为体育比赛的转播提供比赛评注、赛况自动讲 解等实时信息。具体在本实验室的国家自然科学基金项目基于视频的人体腾空 翻滚运动跟踪与分析方法( 项目编号:6 0 6 7 3 0 9 3 ) 中,运动识别可为运动追踪提 供约束,增强运动捕捉的鲁棒性和精确性,同时也可为后继的行为理解提供依据。 步态也是目前研究较多的运动形式。医学步态分析旨在提供诊断和治疗支 持,通过将病人的步态与对正常步态比较、分析,可为病人提供诊断的依据。步 态作为一种生物特征,也可应用于远距离的身份验证,成为新一代简单有效的安 全防护措施。 2 ) 高级人机交互 人体运动识别很有前景的潜在应用之一是高级人机交互。在智能化的环境 中,用户不需要键盘和鼠标,就可以进行用户和计算机之间的交互,这就要求计 算机能够理解人的意图,达到人与人之问交流的效果。人类进行交流的语言工具 分为自然语言( n a t u r a ll a n g u a g e ) 和人体语言( b o d yl a n g u a g e ) 两类,其中人体语言 硕士学位论文第一章绪论 的认知与理解,包括手势、表情、头部运动的身体动作等,身体语言的识别是其 中很重要的一部分,具有独特的优势。被广泛用于早期的人机交互上的语音识别, 容易受到环境噪声和距离的限制。人的动作识别则不受此限制,能从中获取更多 细节,对于实现人机之间更加自然和智能的交流的自然场景理解非常有用。用户 交互领域的应用包括手语翻译,姿势驱动控制等。 3 ) 智能监控 人体运动识别另一个重要的应用是智能监控。智能的监控系统不仅要求能够 感知环境中的运动,而且要求能够感知环境中的人,识别出是谁,在干什么? 步 态识别可以完成对人的访问控制,而实时分析监视数据进行人体的行为识别和理 解,可以提示相关机构警惕危险或异常动作,如辨别出偷窃、可疑人物的持续徘 徊等特定行为,为公共安全提供了的强有力的保障。这很适用于那些对安全要求 敏感的场合,如车站、银行、商店、军事基地等。除了安全方面的应用外,智能 监控还可用来测试公共场所人群的拥塞,购物场所消费者的人口统计等。 4 ) 基于内容的检索 大规模的视频数据库要求我们能够对这些视频数据进行高效的管理和访问。 而要使视频能够像文本一样被检索,就需要对视频作基于内容的检索。通过对视 频中的运动信息进行分析识别,对视频内容做出正确的标注,可以辅助用户从视 频库中快速找到感兴趣的片断,实现对视频数据库的高效管理和查询,提高信息 的使用效率。 人体运动识别在其它相关领域也有非常重要的应用,例如,动作制作中使用 视频人体动画技术,提取视频中的人体运动信息,恢复重建后驱动动画角色做相 似的动作,使之更为形象、逼真。同样的技术在虚拟现实、游戏制作等领域也有 重要的使用价值。此外,人体运动识别技术的发展对人体生理和心理学的研究也 有一定的促进作用。综上可知,人体运动识别涉及到人们日常生活的方方面面, 对改善和提高人们的生活质量有重要的作用和实际应用意义,因而,目前越来越 多的学者都投入到了该课题的研究当中。 基于视频的人体运动识别是具有挑战性的研究工作,涉及图象处理、模式识 别、机器学习、计算机视觉等多方面的内容,它的很多研究成果都可以被其它领 域借鉴,从而更广泛地对计算机视觉的整体研究工作产生推动作用。 1 2 国内外研究水平和现状 围绕人体运动所展丌的工作最早可追溯到上世纪7 0 年代,心理学j o h a n s s o n 对于人类的运动感知进行了一系列实验。黑暗的环境中,他在人的关节点上附着 亮点,使人能感知的信息只有关节点的位置和变化。实验结果表明:对于运动中 2 硕士学位论文 第一章绪论 产生的光点集合序列,人的视觉感知系统可以获得许多有意义的信息,人们可以 辨别出运动的形态如走路、跑步等,甚至判断出运动者的性别,由此证明运动识 别在人类感知中的重要性,它是非语言交流中信息传递的重要载体,故此开展了 对于运动的识别研究。在此之后,随着人体运动识别在各个领域中应用的深入, 运动识别的类别越来越细化。 人体运动识别根据研究对象来分,可以分成针对身体局部运动展开的识别和 整体运动的识别。其中局部运动进一步划分成两类,以人脸、唇、手势等为代表 的变化微小精细的小尺度运动和手臂挥舞、腿部迈动等变化范围较大的大尺度运 动。整体运动也包括两种,整体运动轨迹和包含全身所有部位动作共同组成的整 体动作。 从研究内容来分,人体运动识别可以由易到难分成静态姿势识别和动态过程 识别。早期的识别主要是静态姿势识别,将人体动态过程转化成一组静态的姿势 进行辨别。随着识别技术的不断发展,人们已经能够完成对人体运动动态过程的 识别,这也是目前研究的重点,图1 1 中给出了人体运动识别的分类。 手形识别头姿识别体式识别表情识别动作识别手势识别步态识别 图1 1 人体运动识别的分类 静态姿势识别仅用于对人体运动过程中特定形状感兴趣的应用中。比如手形 识别中【2 】【3 1 ,只有手的某些姿势才具有特定的具体含义,无需关心手的动作过程, 因此只需提取出包含静态姿势信息的轮廓信息,采用简单的模板比较辨别出这些 具体形状即可。同样,体式识别也只对具体身体整体姿势感兴趣,如b r a d s k i l 5 】 进行识别的目的是分辨出y t i 三种人体字体。静态姿态识别也可结合其他形式的 识别完成较复杂的应用,例如通过头部静态姿态和动态表情的组合识别,可以分 辨人的情绪信息。 动态过程识别包括手语识别、表情识别、步态识别、动作识别等。手语识别 是在手的形状识别基础上发展起来的,一个手语词要由完整手部动作来表达,因 此需要以手的运动速度、轨迹、手的形状等作为特征,利用h m m 、d t w 等算 法识别手的运动类型【8 儿9 1 。表情识别是通过面部变化来识别人的喜、怒、哀、乐 硕士学位论文第一章绪论 等表情【5 】。根据人的下肢运动特点来识别行走、跑步、病态步法,或者以其走路 姿态来识别人的身份【6 】【7 1 ,属于步态识别的内容。最复杂但是应用范围最广的是 人体动作识别,识别对象是人体整个身体运动过程f l o 】。 人的整体运动识别是当前研究的热点,具有很高的研究价值和广阔的应用前 景,反映了目前人体运动分析的研究水平,很多研究机构和学校都设置了专门 的实验室从事运动识别的研究,越来越多的国内外学者在这一前沿方向展开了广 泛而深入的研究,取得了很多研究成果。 以卡内基梅隆大学为首、麻省理工学院等高校参与的视觉监控重点项目 v s a m ( v i s u a ls u r v e i l l a n c ea n dm o n i t o r i n g ) t j ,主要研究用于战场及普通民用场 景进行监控的自动视频理解技术。欧盟i s t ( i n f o r m a t i o ns o c i e t yt e c h n o l o g y ) 的 f r a m e w o r k 5 程序委员会设立重大项目 s u r v e i11a n c ea n do p t i m i z e dr e t r i e v a l ) 12 1 a d v i s o r ( a n n o t a t ed i g i t a lv i d e o f o r 旨在开发一个系统来有效地管理公共交 通系统,从而缓解城市的压力,它覆盖了人群和个人的行为模式分析、人机交互 等研究。w 4 【1 3 】实时视觉监控系统护网可以检测人是否携带物体、运送货物、交 换书包等简单行为。英国的雷丁大学( u n i v e r s i t yo fr e a d i n g ) 开展了对车辆和行人 的跟踪及其交互作用识别的相关研列1 4 1 。此外,研究者也对研究方法和应用上展 开了许多探讨,k a n a vk a h o l l l 5 1 等采用分层的行为分割方法对舞蹈运动序列进行 舞蹈姿势自动分割,识别并指导舞蹈训练。r a mn e v a t i a t l 6 j 提出了一种分层的基 于语言的事件表达方法,完成对偷窃之类的异常行为的识别。文献【1 7 1 8 】通过 分析人体在房间内的位置变化识别人的日常行为。 国际上一些权威期刊和重要的学术会议也将基于视频人的运动分析研究作 为主题内容之一,为该领域的研究人员提供了更多的交流机会,如 i j c v ( i n t e m a t i o n a lj o u r n a lo fc o m p u t e rv i s i o n ) ,c v i u ( c o m p u t e rv i s i o na n di m a g e u n d e r s t a n d i n g ) ,p a m i ( i e e et r a n s a c t i o n s o np a t t e r na n a l y s i sa n dm a c h i n e i n t e l l i g e n c e ) ,i v c ( i m a g e a n dv i s i o n c o m p u t i n g ) 和重要的学术会议,如 i c c v ( i n t e m a t i o n a lc o n f e r e n c eo nc o m p u t e rv i s i o n ) ,c v p r ( i e e ec o m p u t e rs o c i e t y c o n f e r e n c eo nc o m p u t e rv i s i o na n dp a t t e r nr e c o g n i t i o n ) ,e c c v ( e u r o p e a n c o n f e r e n c eo nc o m p u t e rv i s i o n ) ,i w v s ( i e e ei n t e r n a t i o n a lw o r k s h o po nv i s u a l s u r v e i l l a n c e ) ,b m v c ( t h eb r i t i s hm a c h i n ev i s i o nc o n f e r e n c e ) 等。 国内虽然对人体运动识别的研究起步较晚,但也取得一些科研成果。清华大 学的任海兵【1 9 】以基于基元特征的动态贝叶斯网络实现非特定人的自然动作识别。 国防科学技术大学的陈剑赞【2 0 】等在分析了体育视频基本特征的基础上,提出了体 育视频中基本语义单元b s u 的概念,继而提出了一种基于b s u 的体育视频内 容分析的通用框架,并以足球视频为例,实例化了这种通用的体育视频内容分析 4 硕士学位论文第一章绪论 框架。中科院的王兆其【2 ”等也将研究拓展到体育训练上,其研究基于视频的方法 对运动员的训练动作进行三维重构以完成识别。 从总体来看,人体运动识别领域经过多年的发展,已经取得了一些重要的研 究成果,其总体研究趋势逐渐由简单的周期性运动如步行、跑步过渡到对人体非 周期性运动乃至复杂的体育运动的识别与分析;由处理单个运动人体过渡到处理 多个人体目标;由人工干预逐步过渡到自动化处理。随着研究的深入,人体运动 识别也面临着更多的难点和更大的挑战。 1 3 人体运动识别的难点和面临的挑战 在我们的同常生活中,人类通过肉眼识别人体运动几乎没有什么困难,但是 对于计算机视觉系统来说完成运动识别这项工作则是非常不容易的。用计算机来 分析、识别运动是一个非常复杂的具有挑战性的工作,如何捕捉人体的运动信息, 如何从训练样本中学习参考运动序列,如何使训练和匹配方法有效的处理相似运 动模式类中空间和时间上的小变化,如何利用得到的运动信息判断解释人的行为 意图等等都是运动识别技术需要解决的问题。 目前,运动识别技术的发展还处于起步阶段,存在的主要挑战在于: 1 ) 人体的复杂结构和非刚体运动 人体是高度复杂的关节体,运动是由多骨骼驱动的不同动作构成;人体运动 属于非刚体运动,在运动过程中身体各部分有不同的姿势和运动方向,呈现出复 杂的运动特征;此外,由于存在个体的身形、运动习惯等差异,使不同人对相同 动作表现各异,更增加了识别难度。 2 ) 连续运动的分割 连续运动由一连串动作构成,动作之间没有明显的边界指示,要进行显式分 割很困难。而且,人体动作转换时还会插入的不规则连接姿势,随前后动作的不 同而改变,这也是难点所在。相对于单个动作识别的大量研究而言,连续运动识 别的研究尚少,目前的研究对象以人体平移整体运动为主,但很少考虑包含四肢 精细复杂姿态的全身动作形式。 3 ) 识别算法的鲁棒性有待提高 当前的研究都是在多种假设下采集的人体动作,如果要将该技术用到现实生 活中,识别效果难以得到保障。至今没有一个能和人脑相媲美的系统,可以在任 意条件下对动作做到实时准确的识别。特别是当人体运动比较复杂时,算法识别 率并不理想,所以系统的鲁棒性还有待进一步提高。 此外,运动的识别还依赖于其它方面的因素: 1 ) 运动的分类和定义。目前国际上对各种人体运动还没有一个明确的层次 硕士学位论文第一章绪论 划分,基元、动作、行为、行动等已有的运动层次界限含糊;此外,一个动作具 体由那些姿势构成,可分成几个阶段,起始结束如何确定,这些都是研究者按照 经验和实验的需求白行定义。 2 ) 数据来源。只有搭建在相同数据平台的研究实验才有横向比较的意义, 而目前标准的人体运动数据库还很少,难以判定研究成果的价值。 这些问题都有待研究者进一步展开研究,加以解决。 1 4 本文主要工作 我们根据复杂程度不同,将运动识别由低到高分为基本动作识别、连续动作 识别和交互识别三个层次。把短时间内完成的基本运动称为基本动作,如摆手、 跳等,用于运动的标注;一段时间中持续进行的动作序列称为连续动作,;交互 识别是用于多个运动目标,即人与人、物体之间的行为识别。本文所依托课题是 对体育运动中腾空翻腾运动分析展开研究。人体在翻腾过程中整个身体快速做旋 转运动,四肢也有大幅度的屈伸,其运动规律分析和识别很困难,将翻腾动作作 为动作识别研究的主要对象,其研究成果对于推进人体运动的自动分析具有较大 的实用意义。针对课题中的运动特点,本文选择的研究对象是单个人体的复杂运 动识别,即具有腾空翻腾特征的复杂动作识别和连续动作的识别。 本文的主要工作归纳如下: 对于复杂动作识别问题,本文采用了一种新型的概率图模型一条件随机场 ( c o n d i t i o n a lr a n d o mf i e l d s ,简称c r f s ) t 2 2 1 。条件随机场继承了经典概率模型隐 马尔可夫模型对时间序列处理能力强的优势,同时还具有表示观测元素之间的复 杂的相互关联属性和长距离的依赖的优点,可以有效的利用具有重叠特征的上下 文信息,更加符合现实中的人体运动特点。 为了处理连续运动的识别,本文采用了基于分割的方法,先使用条件概率密 度f 2 3 1 。传播切分连续运动序列,再利用条件随机场单独对分段识别。实验证明, 条件随机场比较经典概率模型对复杂动作有更好的识别能力;而在条件概率密度 传播框架下的条件随机场在处理连续动作识别的任务时,能较好地完成序列分割 和处理动作转换过程,且具有较好的鲁帮性,能够适用于人体连续动作识别的处 理任务。 1 5 本文组织结构 围绕以上研究内容,本文的结构安排如下: 第一章介绍了运动识别的定义,人体运动识别的研究背景和意义,国内外人 体运动识别研究现状,人体运动识别的难点,论文的主要工作,最后概述了本论 6 硕士学位论文第一章绪论 文的结构安排。 第二章概述人体运动识别的主要方法,重点针对概率统计图法进行介绍。 第三章详细介绍了条件随机场模型的相关知识,包括无向图模型、条件随机 场模型的定义、条件随机场三个基本问题及解决方法等,最后是基于条件随机场 的复杂动作识别的具体实现。 第四章介绍基于条件随机场的连续运动识别的具体实现,首先陈述直接应用 条件随机场进行人体连续运动识别过程中容易出现的运动插入问题,然后提出如 何采用分段识别的方法,结合条件随机场和条件概率密度传播解决这个问题,并 介绍了具体算法,最后总结性描述基于条件随机场的人体运动识别框架。 第五章描述实验过程,包括实验设计、实验结果及结果分析三部分。 第六章对本文进行总结,并对下一步研究方向进行展望。 硕士学位论文第二章人体动作识别方法综述 第二章人体运动识别方法综述 简而言之,人体运动识别是对输入运动序列按其动作类型不同将其分类,识 别过程主要可分为特征提取、特征表示、动作分类三个阶段。如图2 1 所示,其 中,特征提取是从人体运动序列中提取所需的人体运动信息;特征表示是将提取 的特征信息按某种方式组织起来,进行压缩和抽象,以适应后续的具体分类算法, 这个步骤根据后续的识别算法可以省略;动作分类是将输入的运动序列归入到某 个具体类中,即给出一个类别标记。特征提取方法和识别算法是最重要的两个部 分,下文中将着重介绍在这两部分目前常用的方法。 特征提取_ 特征表示 - - - _ 动作分类 2 1 特征提取 图2 1 人体运动识别框架图 特征是从人体运动序列中抽取的可以表示运动状态的参数。采用的特征参数 既可以是直接从图像中获取的颜色、纹理等信息,也可以是由跟踪得到的运动学 信息,如人体运动速度、加速度、关节角度、位置等。特征作为识别的依据,如 何提取和如何挑选需要根据识别对象的特点来确定。 根据是否使用人体模型,特征提取方法可以分为两大类:非模型的方法和基 于模型的方法,后者是在前者的基础发展起来的。 2 1 1 非模型的方法 非模型方法无须对人体建模,直接提取图像中感兴趣区域的底层二维表观特 征,然后找出区域特征与人体动作的对应关系进行匹配。一般采用图像中的人体 表观特征,常用有边缘、剪影、轮廓、颜色、光流、深度图等,使用数字图像处 理和计算机视觉的基本算法进行特征提取。由于不采用明确的模型,该方法可以 根据特征的类型和识别动作的特点,灵活决定分类决策。现将基于视频的一些常 8 硕十学位论文第二章人体动作识别方法综述 用特征提取方法总结如下: 1 ) 分割背景,提取人体轮廓特征。 般事先预置背景或从运动序列中提取背景,然后将每帧图象与背景相减提 取前景区域,获得人体轮廓。如文献【2 4 】通过减背景和去阴影提m 运动人体轮廓, 对其直接提取小波矩描述运动序列,然后运用动态时问变形实现序列的动作匹 配。 2 ) 提取不同颜色块,根据预先的定义描述运动信息。 早期用于运动分析的图像是以固定颜色作为背景,或者让人体附着特定颜色 的紧身衣,提取相应颜色块把人体和背景区分丌来。商用的一些运动捕捉系统往 往在人体关节上附着反光标记或颜色点,然后再在图像中分割出标记。在自然状 态的人体运动图像中,也可以根据颜色对应人体部位的统计信息,决定颜色块的 归属类别【2 5 1 。 3 ) 利用相邻帧包含运动变化过程的特性提取时空域信息。 文献【3 5 】将图像沿x 举标轴和s 坐标轴方向划分成小格,在相邻两帧之问计 算每个格子内的光流,各个格子的光流之和组成的高维向量作为特征模极,采j 4 j 模板匹配进行识别。在背景固定不变的情况下,也町用帧差法提取相邻帧的筹异 作为运动描述。 4 ) 多种特征的结合。 每种特征所描述的运动特性不同,也不能完整的涵盖所有信息,- j 以将多种 特征结合起来,互为补充。特征中所包含的信息量越丰富,对运动的描述越准确, 识别的性能也越好。例如文献 2 6 就是将轮廓信息和时间特性结合起来,利用规 范化的运动历史图像( ( m o t i o n h i s t o r y i m a g e s 简称m h i ) ) 描述人体运动,首先提出 人体剪影进行差分,这些包含运动区域的图像经过时间累计成为运动能量图像 ( ( m o t i o n e n e r g yi m a g e s 简称m e i ) ,最后m h i 中每个像素的值与该位置的持续 运动时间成比例,增强为运动历史图像,从中提取出基于z e m i k e 矩的统计描述 作为特征向量用于识别阶段的模式匹配,见图2 2 。 ( a ) 走( b ) 蹲 图2 - 2 人体动作的运动历史图像 9 硕士学位论文第二章人体动作识别方法综述 由于运动特征直接从图像中获得,不对人体物理结构直接建模,也无需恢复 人体的姿态参数,非模型方法相对简单,容易实现,但其缺点是识别性能低,准 确率不高。原因在于,表观信息的提取容易受到图像噪声干扰,精确度无法保证; 再者,表观特征并不能完整地表达人体运动信息,特别是人体在运动过程中常常 伴随着身体各部分的遮挡,此时会丧失大量有用信息,造成分辨能力急速下降; 另外,识别算法以模板比较为主,难以处理人体外形差异、服装变化等因素的影 响。因此基于表观的方法往往只对一些简单的运动识别,或者作为基于模型方法 的辅助手段,无法直接应用到复杂动作的识别。 人体外观的多样性和运动的复杂性,使得仅仅从表观分析人体运动无法满足 识别正确性、鲁棒性的要求,因此,研究人员提出了基于模型的方法,以获取更 加精细、更加丰富的运动信息,为更高层次的人体运动研究奠定基础。 2 1 2 基于模型的方法 通过模型识别人体运动信息,首先利用人体结构的先验知识建立人体模型, 然后提取图像底层特征匹配到模型中,并以运动规律加以约束,从而得到人体运 动信息。由于采用统一的人体模型表征任意个体,因此能够不受人体外形差异的 影响。而在发生特征难以获取或不准确的情况下,运动规律可以指导人体姿态的 估计,使之近似于实际情况。因此,比较非模型的方法,基于模型方法能获得更 精确、更完备的特征数据,有利于识别更加复杂的人体运动,已成为人体运动识 别发展的趋势。 具体过程一般分为三个阶段:初始化、跟踪、姿态估计。初始化过程包括摄 像机定标,获得背景模型、人体模型的初始参数和模型初始姿态等。跟踪阶段是 对图像提取底层特征,并将帧之间的特征进行对应。然后,将底层特征匹配到人 体模型,从而得到人在当前帧的特征,完成姿态估计。在完成这三个阶段之后, 就可以得到人体运动特征数据,为运动识别提供依据。 根据使用的不同,人体模型可以分成两类,一类是二维模型,采用人体表观 特征估计的二维形状来拟和人体各个部分;另一类是三维模型,一般先采用人体 多关节骨架模型表示人体,然后根据需要定义一个身体形状模型附着在骨架模型 之上,如圆柱、圆锥几何模型f 2 9 】【3 0 1 。人体模型示意见图2 3 和图2 - 4 。 1 二维人体模型 用于人体运动识别的二维模型相对简单,一般直接从图像中直接提取底层表 观特征,分割出人脸区域、躯干部分、四肢等不同区域,据其估计人体二维模型 参数。但往往简化参数估计,使用包含较少参数的二维模型来对人体投影进行建 l o 硕士学位论文第二章人体动作识别方法综述 模。根据采用表现形式的不同,二维模型可以分成方块模型、带状模型、椭圆模 型和不规则块模型,见图2 3 。方块模型是以矩形为人体各部分建模,如c a r d b o a r d 将人体这种多关节体的投影表示为一系列在关节处相连接的矩形图像区域,如图 2 3 ( b ) ,每个矩形图像区域包含控制旋转平移和缩放的参数,通过调整参数对这 些矩形图像进行变形,使它们与当前时刻图像相匹配。带状模型是以二维带状四 边形为人体躯干、四肢建模,如l e u n g 在他们的“f i r s ts i g h t 系统中使用的二 维r i b b o n 模型,如图2 3 ( a ) 。g e u r t z l 2 7 】以椭圆为人体各个部分建模。m i t 媒体实 验室的w r e n 等人所开发的p f i n d e r l 2 5 】系统中,将人体按照颜色特性和空间特性分 成多个不规则的块( b l o b ) ,分别对应于人体的头部、四肢和躯干,每个块用位置 和颜色的高斯分布表示。 ( a ) - - 维带状模型( b ) 二维方块模型 图2 3 人体二维模型示意图 人体二维模型参数比较简单,但是二维模型的方法只能得n - - - - 维图像上人体 的粗略位置,缺乏深度信息,难以精确估计人体三维运动参数,无法应用于复杂 人体运动的精确识别。对于运动分析,一个多关节的三维人体运动模型必不可少。 2 三维人体模型 三维人体骨架模型是通过多个人体数据平均出来一个通用模型,文献中应用 较多。人体骨架模型定义了人体各个关节的连接关系、骨骼的长度以及各个关节 运动量的范围。在定义人体骨架模型的基础上,将姿态定义为控制关节角度或位 置的一组参数,而人的每一个动作序列是一组姿态的集合。例如潘春洪【3 l 】将人体 骨架用1 7 个直线段和1 4 个关节点来表示。近年来出现的还有锥台、椭圆柱、圆 柱体等立体三维模型。 三维人体模型可以充分的利用人体运动学以及人体三维形体属性等方面的 先验知识,由于模型中包含了深度信息,有利于3 d 姿态数据的恢复与计算。利 用这种模型,可以判断类似遮挡和碰撞问题可以克服二维模型对人体遮挡和碰撞 处理的不足,是未来发展的趋势。 硕f j 学化论文第二章人体动作谚! 别方法综述 ( a ) 3 d 骨架模型( b ) 3 d ) l 何模型 图2 4 人体三维模型示意图 但是目自订鲜有方法可以真j f 鲁棒地从视频序列中得到或恢复人体的运动信 息和三维结构的。人体运动是一个复杂的运动系统,人体的运动具有很大的自由 度和高度的非线性特点,且人体作为非刚性物体,模型参数非常多,为了估计模 型参数必须获取人体各方面的信息,此外,视频中的人体往往付着衣物造成干扰。 正是由于卜述问题的存存,利用视觉的方法估计模型参数,恢复人体三维姿态是 非常困难的,目自,j 对于人体运动分析的研究jj :作,都是从各种不同的角度着手, 采取各类不唰的约束j 自订提条件来简化研究j i :作。如文献 3 1 就是采用紧身衣、 标志点的方法,以v o r o n o i 图的方法获取体骨架,然后根据共面约束和刚体约束 自动检测上肢关节点,恢复人体三维姿态参数。目前实验室中常采用的方法还是 使用昂贵的运动捕获设备获取三维人体运动信息,然后再进行三维重建获得三维 模型,比! t h c m u l 3 2 】的运动捕获数据库中就包含多利运动的运动捕获数据,及进 行三维重建后恢复的运动信息。 2 2 识别 运动识别可以简单看成时变数据的分类问题,即将测试序列与预先标定的代 表典型运动的参考序列进行匹配,且能够处理在相似的运动模式类别中空间和时 间尺度上轻微的特征变化。目前已有的方法主要分成三大类:基于模板的方法, 概率统计的方法,基于语法的方法。 2 2 1 基于模板的方法 对于分类问题,最直观的方法就是将静态模板与已有的样本直接比较,因此 m 现了基于模板的方法。其基本思想是将图像序列转换为一组静态形状模式,然 后在识别过程中和预先存储的运动样本相比较,根据相似度判别类型。卜要方法 有模板匹配( t e m p l a t em a t c h i n g ) 、动态规戈l j ( d y n a m i cp r o g r a m m i n g ) 年 1 动态时空规 硕士学位论文第二章人体动作识别方法综述 整( d y n a m i ct i m ew a r p i n g ) 。 1 模板匹配 用于运动识别的最简单方法是模板匹配,该方法事先对每一动作建立起特 征数据样本模板,识别时只需按时间顺序将获取的待测动作特征数据与样本模板 进行匹配,通过计算两者之间的相似度来判断是否属于样本动作。例如文献 【2 5 2 6 都是采用模板匹配的算法。 模板的选择根据选取特征的不同而各异,可以是轮廓、彩色梯度为主的空域 特征,也可以是包含有时序信息的时域特征。模板之间相似度的计算一般采用最 近距离来度量。如果特征各分量之间是正交无关的,而且各维度的重要程度相同, 特征向量之间距离可以用欧氏距离来衡量,表示为: fn 2 d l2 蚤,砌p公式( 2 1 ) 其中a ,b 为用于比较的特征向量,n 是特征向量的数目。 马氏距离通常用于特征向量的各个分量间具有相关性或者具有不同权重的 情况下,计算方法为 d _ 口肠,= ( 彳一b ) r c _ 1 ( 彳- 8 )公式( 2 - 2 ) 其中c 是特征向量的协方差矩阵。 模板匹配算法优点是计算代价低,但其对时间间隔的变化敏感,这是其主要 缺点。 2 动态规划 动态规划算法的基本思想是多阶段最优化。在匹配过程中,样本模板和待测 模板无需考虑时间的对应关系,待测模板中每个时刻特征可以与样本模板任意时 刻特征进行匹配,搜索两个模板的最优匹配路径。例如b o b i c k t 3 6 】采用动态
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 34410-2017上肢矫形器的分类及通 用技术条件》
- 深度解析(2026)《GBT 34125-2017电力系统继电保护及安全自动装置户外柜通 用技术条件》
- 深度解析(2026)《GBT 34167-2017黄金矿业术语》
- 内科学总论肿瘤化学治疗方案课件
- 2025年广州市荔湾区教育局公开招聘事业编制教师备考题库及答案详解1套
- 南京市雨花台区医疗保险管理中心等单位2025年公开招聘编外工作人员备考题库附答案详解
- 2026年石家庄市长安区第十五幼儿园招聘备考题库完整答案详解
- 2026年钦州市灵山县赴高校招聘教师135人备考题库附答案详解
- 2026年招聘共启新程中科云谷招聘专场备考题库带答案详解
- 福州市交通建设集团有限公司2025年度公开招聘备考题库完整答案详解
- 2026年安康旬阳市残疾人托养中心招聘(34人)参考题库附答案
- 思想道德与法治2023年版电子版教材-1
- 水利水电工程建设参建各方安全生产职责
- 电梯整机安装质量检查记录
- 火力发电厂厂用电监控管理系统(ECMS)培训
- GB/T 3102.2-1993周期及其有关现象的量和单位
- GB/T 30340-2013机动车驾驶员培训机构资格条件
- 核对稿-400单元开车
- 康明斯M11配气机构课件
- 核对稿-300单元联锁
- CDA数据分析师Level Ⅱ考试题库(含答案)
评论
0/150
提交评论