




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于隐markov模型的视频行为活动识别关键算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕上学位论文基于隐m a r k o v 模型的视频行为活动识别关键算法研究 论文题目:基于隐m a r k o v 模型的视频行为活动识别关键算法研究 专业:计算机应用技术 硕士生:容福丽 指导教师:衣杨副教授 摘要 随着多媒体技术和信息技术的发展,众多的研究领域如智能监控、感知接 口、基于内容的视频检索等,对视频内容智能分析的要求越来越高,因此近年 来多媒体信息的内容理解和分析引起了越来越多的学者关注。而由于运动分析 和行为识别在视觉认知和计算中的高语义化程度,该问题是具有挑战性的科学 问题,同时也是具有广泛应用意义的实际问题。 本文采用粒子群优化算法对隐m a r k o v 模型的参数学习问题进行改进,并 提出基于事件概率序列的视频活动建模方法h m m p s ,从而实现视频行为活动 的识别。首先从视频序列中提取行为活动的目标运动轨线特征,利用隐m a r k o v 模型以语义事件概率的方式对行为活动进行表示,从而完成对行为活动的建模。 同时,基于粒子群优化算法对隐m a r k o v 模型中的参数学习算法进行改进,使 得h m m 的学习问题可以跳出局部最优,并有效解决传统参数估计方法的数据 溢出问题。然后,采用时间规整法对h m m p s 建模得到的事件概率序列进行匹 配以识别目标行为活动。通过c e n t r a lf l o r i d a 大学的人体运动数据集( u c f h u m a na c t i o nd a t a s e t ) 和来自u c i - k d d 的a s l ( a u s t r a l i as i g nl a n g u a g e ) 复杂运 动轨迹数据集的仿真实验表明,h m m p s 方法可以有效地对行为活动进行建模: 且与b a u m w e l c h 参数估计方法相比,h m m p s 在行为建模的学习性能上具有 较高的优越性;另外与相关方法比较,h m m p s 在识别率上取得更好的结果。 关键字:多媒体图像智能信息处理,视频行为识别,行为活动建模,隐m a r k o v 模型,事件概率序列 中山大学硕士学位论文 基于隐m a r k o v 模型的视频行为活动识别关键算法研究 t i t l e :r e s e a r c ho nh i d d e nm a r k o vm o d e l b a s e da c t i v i t yr e c o g n i t i o na l g o r i t h m s m a j o r :c o m p u t e ra p p l i e dt e c h n o l o g y n a m e :f u l ir o n g s u p e r v i s o r :a s s o c i a t ep r o f e s s o ry a n gy i a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rv i s i o na n di n f o r m a t i o nt e c h n o l o g y , v i s u a l a n a l y s i sb e c o m e sm o r ea n dm o r ei m p o r t a n ti nm a n yf i e l d ss u c ha si n t e l l i g e n t s u r v e i l l a n c e ,p e r c e p t u a lu s e ri n t e r f a c e ,c o n t e n t - b a s e dv i d e or e t r i e v a l ,t h u s ,t h ev i s u a l a n a l y s i sa n dc o n t e n tu n d e r s t a n d i n gh a v ea t t r a c t e dg r e a ti n t e r e s t sf r o mc o m p u t e rv i s i o n r e s e a r c h e r s d u et ot h eh i g h l e v e ls e m a n t i c si nm o t i o n a n a l y s i sa n da c t i v i t y r e c o g n i t i o n , t h i sp r o b l e mi sn o to n l yac h a l l e n g i n gs c i e n t i f i cp r o b l e m ,b u ta l s oa m e a n i n g f u lp r a c t i c a lp r o b l e mw i t hw i d ea p p l i c a t i o n i nt h i sp a p e r , w ei m p r o v et h ep a r a m e t e r sl e a r n i n gp r o b l e mi nh i d d e nm a r k o v m o d e lu s i n gp a r t i c l es w a r mo p t i m i z a t i o n , a n dp r e s e n ta na c t i v i t ym o d e l i n ga p p r o a c h h m m - p sb a s e do ne v e n tp r o b a b i l i t ys e q u e n c e sf o rv i s u a la c t i v i t yr e c o g n i t i o n f i r s t , w ee x t r a c tt h eo b j e c tt r a j e c t o r i e sa sa c t i v i t yf e a t u r e sf r o mv i d e os e q u e n c e ,a n d r e p r e s e n ta c t i v i t yb a s e do ns e m a n t i ce v e n t su s i n gt h eh m m p sf r a m e w o r k ,t h u s v i s u a la c t i v i t yc a nb em o d e l e db ye v e n tp r o b a b i l i t ys e q u e n c ec o m p u t e df o re v e r y m o t i o nt r a j e c t o r y a tt h es a m et i m e ,w eu s ep s ot oi m p r o v et h ep a r a m e t e r sl e a r n i n g p r o b l e mi nh i d d e nm a r k o vm o d e l ,w h i c hc o u l da c h i e v et h eg l o b a lo p t i m a lf o rt h e l e a r n i n gp r o b l e ma n da v o i de x c e e d i n gt h ep r e c i s i o nr a n g eo fm a c h i n ei nc o m p u t a t i o n t h e n , w eu s ed y n a m i ct i m ew a r p i n gt om a t c ht h ee v e n tp r o b a b i l i t ys e q u e n c e s c o m p u t e db yh m m p st oc l a s s i f yt h ea c t i v i t yp a t t e r n s t h ee x p e r i m e n t su s i n gt h e i n d o o ru n i v e r s i t yo fc e n t r a lf l o r i d ah u m a nm o t i o nd a t a s e ta n da s ld a t a s e tf r o m u c i k d dd e m o n s t r a t et h ef e a s i b i l i t yo fh m m - p s ,a n ds h o wt h a th m m - p s o u t p e r f o r m sb a u m w e l c ha l g o r i t h mi np a r a m e t e re s t i m a t i o n ,a n dc o u l do b t a i ng o o d r e s u l t si nr e c o g n i t i o nr a t ec o m p a r i n gw i t l lo t h e ra l g o r i t h m s k e y w o r d s :i n t e l l i g e n tp r o c e s s i n go fm u l t i m e d i a , a c t i v i t yr e c o g n i t i o n ,a c t i v i t ym o d e l i n g , h i d d e nm a r k o vm o d e l ,e v e n tp r o b a b i l i t ys e q u e n c e i i i 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:躲确 日期:加7 年心月1 日 | 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 学位论文作者签名撕 醐:1 年卵2 1 日 导师签名:芬枷 日期:刁钳肜日 中山人学硕上学位论文 基于隐m a r k o v 模型的视频行为活动识别关键算法研究 第1 章引言 1 1 课题背景和研究意义 随着计算机技术和现代信息技术的发展,基于传统文本描述的多媒体信息处 理方法已无法满足人们对海量的多媒体信息进行表示、检索、处理等需求。在视 频的智能监控、医疗监护、人机交互、基于内容的视频检索等领域,人体的运动 分析和行为识别成为不可或缺的一部分,而且由于运动分析和行为识别在视觉认 知和计算中的高语义理解程度,目前该问题引起了越来越多学者的关注。 视频行为活动识别通过在时间序列的多媒体信息中抽取目标运动和状态信 息,建立行为模式的表示模型,并用相关的机器学习和推理方法对行为进行识别、 理解,从而使得计算机对视觉信息具有智能化理解并以自然语言进行描述的能 力。 1 1 1 视频行为活动识别是多学科交叉、具有挑战性的科学问题 随着视觉信息计算理论和应用领域的不断发展,视频内容的分析逐渐成为研 究的热点。视频行为活动识别和运动分析旨在利用计算机对视频的内在行为进行 理解、识别和预测,不仅赋予计算机自主分析场景和事件的智能化技术,而且赋 予计算机对场景所发生的事件进行理解并以自然语言描述的能力。 从计算机视觉的认知机理去挖掘,计算机视觉理解涉及到生物技术、机器视 觉等研究领域;而从多媒体信息处理的角度而言,视频内容的分析又涉及到图像 处理、图像分析;从机器识别的方法去看待,行为识别还涉及到模式识别、人工 智能等众多研究领域,由此视频行为活动识别是一个跨学科的综合问题,也是一 个极具挑战性的前沿课题【l z l 。 1 1 2 推动计算机视觉计算从低层特征处理向高层语义理解转变 传统的多媒体信息计算一般基于手工文本标注的方式及低层的图像特征信 息对多媒体内容进行分析和识别。然而随着信息技术的发展,低层次的特征信息 和手工标注的方式已经无法满足信息化社会和人类对海量信息挖掘的需求,因而 中山大学硕士学位论文基于隐m a x k o v 模型的视频行为活动识别关键算法研究 对多媒体信息内容的理解将朝着更加智能化、自动化、高语义化的方向发展。人 类对多媒体信息的计算和处理主要分为三个层次,即视觉低层次、中层次及高层 次。比如在人体运动分析中,视频分割、目标检测和分类属于低层次的视觉信息, 目标跟踪属于视觉中层次,而行为识别和语义描述属于视觉高层次。 但是,在视觉计算的低层特征和高层语义概念之间存在语义鸿沟,而目前在 语义概念层次对视频内容进行分析和理解仍然处于初级阶段。行为识别和运动分 析的研究是基于低层的特征描述从视频中挖掘计算机智能化的语义理解,跨越语 义鸿沟对行为模式进行识别,是将计算机视觉低、中层次的处理推向高层抽象思 维的关键问题。 1 1 3 视频行为活动识别应用领域广泛 视频行为识别的分析研究具有广泛的应用前景,g a v r i l a 1 1 总结其主要应用领 域,王亮2 1 等对人运动的视觉分析的发展水平、主要方法等进行进一步的分析, 其应用领域主要包括以下: ( 1 ) 视频智能监控 传统的视频监控往往需要人为地进行信息筛选,但对于海量的视频数据,其 效率十分低下。视频智能监控【3 ,4 】系统通过自动分析摄像机捕捉的图像数据,当 异常情况发生时,系统能向保卫人员准确及时地发出警报,从而提高监控效率。 在一些访问控制场合,可利用人脸或者步态的识别技术5 ,6 1 以识别访问者的身份, 从而控制其访问权限。视频的智能监控在银行、交通管理、公共场所等安全监护 方面有着广泛的应用,对社会的公共安全起着重要意义。 ( 2 ) 感知接口 在高级用户接v i 应用领域中,可以通过智能化的方式对机器进行操作,如手 势驱动控制、手语翻译等。计算机通过感知外部环境的视觉信息,结合视频中人 体面部表情、身体姿势和手势等的分析【7 】可与人进行相应的交流。尤其在高噪声 的场合如机场,基于视觉的高级用户接口能够提供比语音识别更加准确的信息输 入【引。 ( 3 ) 医疗监护 视频行为的分析和理解可用于对病人进行家庭监护,通过对正常的人体行为 2 中山人学硕士学位论文基于隐地:a r k o v 模型的视频行为活动识别关键算法研究 进行学习和训练,从而在病人发生异常状况的时候,检测到异常情况并产生警报, 从而实现智能化的监护。另外,目前行为的步态分析可辅助提供医疗诊断和治疗 的信息,它可以根据人体正常步态建模的线索,开发相关的生物反馈系统来分析 病人的步态,判断其腿步受伤情况或者畸形程度,从而做出积极的整形补偿或有 效的治疗。 ( 4 ) 基于内容的视频检索 视频行为活动识别技术可自主地对视频的内容进行分析和理解,并形成语义 化的描述。在基于内容的视频检索中,可利用该方法动态地分析视频内容并提取 关键字对视频进行标注。与传统的文本标注方式相比,该技术一方面减少人工标 注的时间和精力,另一方面,可满足人类对海量信息检索的更高层次需求,并实 现视频检索的智能化和高语义化。 1 2 该领域国内外研究热点及趋势 1 2 1 行为活动的建模与识别 在视频行为识别和理解过程中,视频行为特征的提取由于受到视角的转换、 光照变化、遮挡等现实环境因素的影响,其行为活动的表示也存在着不稳定性。 所以如何从原始视频数据中提取底层特征描述视频行为运动,以及如何选择充分 有效的描述方法表征运动状态并且能够在时间分辨率和维数上减少计算量成为 视频行为理解中的关键问题之一。另外,针对行为建模的表示方法,如何采用高 效可靠的机器识别技术进行视频活动的分类和识别,仍然是亟待解决的问题。 1 2 2 多目标的复杂行为理解 在实际的视频监控中,监控的区域范围内通常会包括多个目标群体以及它们 之间复杂的交互活动,比如公共场合的小偷盗窃、团伙抢劫等。但多目标的复杂 行为理解由于其庞大的特征维数,目标个体数目的易变性以及目标个体主次角色 的难以确定性等,从而使得其行为理解更具挑战性。 1 2 3 多模态的信息融合支持 中山大学硕士学位论文基于隐m a r k o v 模型的视频行为活动识别关键算法研究 在复杂的场景或者环境中,可视信息会受到干扰而变得敏感不可靠,从而影 响对行为活动的理解,另外,基于可视信息的视频行为识别正确率仍然没法满足 人们的需求,因此研究者们正逐渐集成语音与视觉信息以产生更加自然的高级接 口,多模态信息融合技术将为行为理解提供一个很好的补充。例如,在遮挡的情 况下,基于多摄像机的信息融合方法能够很好地解决遮挡问题,从而有效解决了 特征提取的不稳定性并提高了识别的准确率。 1 2 4 视频语义分析和描述 由于计算机视觉低层特征和高层语义理解之间存在的巨大鸿沟,而通过行为 识别和理解可以使得计算机能自动地对行为模式进行分类和识别,但如何使用自 然化的语言对行为过程进行描述,仍然是一个有待探讨的问题。 1 3 本文的研究工作 本文对视频行为活动进行分析和研究,基于目标运动的轨线信息,通过利用 隐m a r k o v 模型对行为活动进行事件序列的表述,从而对视频行为模式进行识别。 同时,基于粒子群优化算法对隐m a r k o v 模型中的学习算法进行改进,提出了基 于p s o 的h m m 建模方法h m m p s ,从而提高了视频行为活动识别的学习性能 和识别准确性,主要研究内容如下: 1 ) 对视频行为活动识别和理解的应用背景、当前国内外的研究现状以及其 框架和技术方法进行深入研究; 2 ) 深入研究h m m 模型的理论以及其拓展的方法,并通过结合粒子群算法 对其学习方法进行改进,提出基于p s o 的h m m 时间序列分类方法h m m p s , 从而可以求解h m m 学习问题参数估计的泛极值问题,并有效防止计算过程的数 据溢出; 3 ) 对视频行为活动的建模和表示方法进行探究,采取基于事件概率序列的 方法表示行为模式,从而对视频行为进行识别; 4 ) 采用u c f 和a s l 数据集进行实验仿真,并分析h m m p s 方法在行为建 模中的性能以及识别率。 4 中山大学硕士学位论文基于隐b l a r k o v 模型的视频行为活动识别关键算法研究 1 4 本文的组织结构 第一章阐述本论文的课题背景和研究意义,并探讨了该领域国内外的研究 热点以及发展趋势,最后对本论文的主要工作和各章内容安排进行说明。 第二章主要为视频行为活动识别的研究综述。首先介绍视频行为识别的总 体框架,然后对当前行为活动的特征提取和建模方法进行探讨,尤其对基于轨线 的特征提取方法的现状进行分析;最后介绍用于视频行为识别的相关机器学习方 法。 第三章详细阐述隐m a r k o v 模型的理论和三个基本问题及其求解算法,并 根据经典h m m 在本文应用中遇到的问题介绍相关的拓展理论,最后探讨h m m 在视频行为识别分析中的应用现状以及理论发展历程。 第四章采用h m m 对基于轨线特征的行为活动进行事件序列建模,并结合 粒子群算法对隐m a r k o v 模型的学习问题进行改进,提出基于粒子群优化h m m 参数学习问题的h m m p s 算法,最后对行为活动进行识别。 第五章仿真试验。将h m m p s 方法应用到两个数据集中进行仿真试验,从 行为活动的建模及行为识别两方面分析和验证方法的可行性,并与相关方法比较 体现算法h m m p s 的优势。 第六章对论文总结和展望。 5 中山人学硕上学位论文基于隐m a r k o v 模型的视频行为活动识别关键算法研究 第2 章视频行为活动识别技术的研究 2 1 视频行为识别概述及现状 基于人体运动的视觉行为分析系统一般遵从以下的处理流程,如图2 1 所示: ( 1 ) 运动目标检测,( 2 ) 目标分类,( 3 ) 目标跟踪,( 4 ) 视频行为理解与描述。其中, 运动检测、目标分类、目标跟踪属于视觉中低级和中级处理部分,而行为理解和 描述则属于高级处理。 目标 -目标 目标 r )r ) 视频 检测分类跟踪 获取 图2 - 1 视觉行为识别框架图 目前,视觉图像的内容分析和理解是计算机视觉领域中最活跃的研究课题之 一,其核心是利用图像处理、图像分析、计算机视觉等技术从视频序列中检测、 识别、跟踪目标并对其行为进行识别、理解与描述。由于视频行为识别在高级人 机交互、智能视觉监控、医疗诊断及基于内容的图像存储与检索等方面具有广泛 的应用前景和潜在的经济价值,从而激发了国内外广大科研工作者的浓厚兴趣。 1 9 9 7 年美国国防高级研究项目署( d a r p a ) 设立了以c a r n e g i em e l l o n 大学为 首,m i t 等高校参与的视觉监控项目v s a m ( v i s u a ls u r v e i l l a n c ea n d m o n i t o r i n g ) ,以研究用于战场及普通民用场景的自动视频理解技术。另外,i s m a i l h a r i t a o 9 l 开发了能够识别人体简单行为的w 4 模型,该方法可对人进行跟踪,并 分析人体携带物体、交换物体等行为动作。英国雷丁大学【lo 】开展了对车辆和行 人的跟踪及其交互动作识别的相关研究。而国内发展比较前沿的主要是清华大学 7 中山大学硕士学位论文基于隐地a r k o v 模型的视频行为活动识别关键算法研究 的视觉研究组和微软亚洲研究院视觉计算研究组,以及中科院自动化研究所模式 识别国家重点实验室,其中微软亚洲研究院视觉计算研究组在人脸识别、指纹识 别方面的研究处于国际领先水平。近年来行为识别和理解受到越来越多学者的关 注,并取得了很多进步【l l 1 2 1 。 2 2 视频行为活动的特征提取与建模 2 2 1 视频行为活动特征表示 计算机视觉的行为理解首先需要对行为活动的视频信息进行特征提取,但由 于视角、光照变化、遮挡等现实环境因素的影响,特征的提取会产生不稳定性和 歧义性,从而给行为理解带来很大困难。所以如何从原始视频数据的底层特征中 提取有效的信息对视频行为进行描述,以及如何选择充分有效的描述方法进行表 示仍是行为理解的关键问题之一。 目前在行为特征的提取和建模方面,已有较多的研究方法。按照空间维数划 分,分别有基于2 d 和3 d 的,按照物理特性划分,主要包括基于轮廓的特征 表示( s i l h o u e t t e ) 1 3 1 ,基于运动轨迹( t r a j e c t o r y ) 的特征表示【1 t 1 6 1 ,基于分类构件 ( c a t e g o r yc o n l p o n e n t s ) 的特征表示【1 7 1 ,基于目标形状( s h a p e ) 的特征表示【1 8 】等。总 的说来,在目前行为理解研究所采用的特征主要分为如下三种:外观形状特征、 运动特征、时空特征。其中,形状特征和运动特征是两种最常用、也是最主要的 特征。另外,时空特征在行为理解研究中开始得到越来越广泛的使用。 ( 1 ) 基于外观形状特征方法 基于外观形状特征方法利用目标的几何结构、轮廓、影像、姿态等信息来量 化运动目标在每个时刻状态,并根据这些状态序列描述人体运动行为。s i n g h 等 【1 3 】提出一种基于轮廓的非模型算法对人体基本行为动作进行识别。该方法采用 自适应的前景背景分割技术抽取行为信息,并从输入的视频序列中产生前景影 像。从影像的轮廓中获取基于方向的特征向量,从而在向量空间中使用不同的方 向向量分布进行聚类和识别。为了提高识别的精确率,文中继续引用一种动态的 人体行为特征,在时间跨度上对决策变量进行过滤以保持行为活动迁移的平滑 性。u d d i n 掣1 8 】主要采用独立成分分析和主成分分析两种方法对目标的形状特征 中山人学硕士学位论文基于隐m a r k o v 模型的视频行为活动识别关键算法研究 进行提取,且通过对比实验表明,独立成分分析更易于进行行为识别。 p o p p e 和p o e l 1 9 】对傅里叶描述算子、形状上下文和不变矩三种算子在侧影轮 廓描述上的性能进行了比较,其实验结果表明傅里叶描述算子和形状上下文直方 图在形变侧影描述上相比其它方法具有优势。基于统计形状理论,v c c r a r a g h a v a i l 等人【2 0 】提出用自回归模型( a r ) 和平稳自回归模型( a r m a ) 学习形状变化的 动态特性,并用模型之间的距离测量作为两个形状序列之间的相似性测量,取得 了较好的分类效果。 ( 2 ) 基于运动特征方法 基于运动特征方法直接从视频图像序列中提取出目标运动特性来表征运动 状态,如光流信息、运动方向、轨迹、位置、速度等。与静态形状特征相比,运 动特征在远距离和恶劣的能见度情况下,依然能准确地识别目标运动的类型。 z h u 等人【2 1 】提出用光流直方图来描述动作的运动信息,然后用支持向量机作 分类器识别运动员的击球动作。b a s h i r 等【1 4 】提出一种采用目标行为轨线的方法对 目标行为进行识别的改进分类算法。该文中的轨线依据曲率的变化对轨线进行分 割,并用主成分分析法对分割后的子轨线进行表示。该文第一次提出采用混合高 斯模型评估基于主成分分析子轨线的多元概率密度函数的框架。r a o 等【l6 】对运动 轨线的速度和方向上明显变化的信息进行研究,提取在2 d 轨线上时空曲率的变 化量以表示行为活动,其中主要采用动态瞬间和间隔表示活动信息。c u n t o o r 等 【l5 】根据运动轨线特性的改变量对人体行为进行表示和识别,主要通过从目标运 动的时间和空间上提取变化量较大的事件序列构成活动的方法进行表示。 ( 3 ) 基于时空特征方法 时空特征通过采用二维形状在一段时间内形成的时空立体或差分图像来描 述行为,集合了形状和运动特征两者的优点。由于时空特征考虑了运动信息,也 有学者将其归类于运动特征。时空特征不仅包含人动作姿态的空间信息如人体躯 干和肢体的位置、方向等,而且还包含运动的动态信息如人体的全局运动和肢体 的相对运动等,从而避免了外观形状特征跟踪的自遮挡、外观改变和运动信息缺 乏等问题。b o b i c k 和d a v i s 2 2 1 集合时空运动特征,提出了用运动历史图( m h i s ) 和运动能量图( m e i s ) 对运动进行描述。 除上述几种方法,也有结合运动特征和形状特征的运动表示方法。t i n 等【1 7 l 9 中山大学硕士学位论文基于隐m a r k o v 模型的视频行为活动识别关键算法研究 采用组合的分类构件( 包括运动信息和形状信息) 对行为活动进行表示,即把特 征性质按某种特性标准以树形目录的方式对活动行为进行构建,文中表明该方法 提高了系统对新增行为活动的鲁棒性,而且对缺乏训练数据的行为建模更具灵活 性。 2 2 2 基于轨线的行为活动特征表示与建模 行为活动的建模在目标受到遮挡,或者可见度低,以及运动信息缺失的情况 下,显得尤为困难。目标运动轨线可以获取行为运动的时空信息,并形成可计算 的图像特征对活动进行表示,因此受到许多行为识别研究者的关注【2 3 】。r a 0 【1 6 1 等利用2 d 运动轨线的曲率变化对行为活动进行建模,并证明该方法对视角差异 的不变性。b a s h i r 等【2 4 】根据运动轨线上的速率和加速度变化,并采用基于假设检 验的方法定位曲率变化的点从而确定轨线分割点,并以p c a 系数表示子轨线的 运动特征,从而通过h m m 对运动模式进行识别。随后,b a s h i 2 5 】等将上述轨线 表示的方法拓展到视频序列的索引和检索中,通过对p c a 分割轨线的欧氏距离 和以字符表示分段轨线的字符匹配检索法实现对视频的检索。为了进一步提高轨 线表示的视角不变性,在文献【2 6 】中,b a s h i r 等提出两种基于运动轨线的无视角差 异特征表示法:中心距离函数和曲率尺度空间,分别对轨线特征进行表示,并用 h m m 方法进行行为识别和分类。在文献【1 4 】中,该作者等根据其在轨线特征提取 上的研究,进一步采用g m m 和h m m 的方法对运动进行识别。c u n t o o r 等【2 刀基 于运动属性发生变化时,其所描述的事件状态也会发生变化的假设,采用h m m 对运动轨线进行建模,并根据隐含状态问的迁移表示事件的发生概率,从而建立 事件概率序列的表示对运动模式进行表示。在文献【1 5 】中,该作者进一步研究基 于事件概率序列表示的运动建模和行为识别,并对模型参数和视角不变性进行分 析,应用到行为模式识别和异常检测中。 在国内,对目标的运动轨迹做出分析,学习出运动轨迹的分布模式,并进一 步做异常检测与行为预测是近几年来受到关注的前沿问题。首先胡等【2 8 】利用层 次自组织神经网络模型对基于流矢量序列描述的目标运动轨迹的分布模式进行 分析和学习,并提出利用轨迹分布模式检测出局部可能的异常现象和整个运动轨 迹所表示的事件是否为异常事件的目标行为预测的方法。潘【2 9 1 等针对真实场景 l o 中山大学硕士学位论文基于隐m a r k o v 模型的视频行为活动识别关键算法研究 中运动目标轨迹的复杂程度对各个轨迹模式类建立相应的隐马尔可夫模型,利用 训练样本训练模型得到可靠的模型参数,计算测试样本对于各个模型的最大似然 概率,并选取最大概率值对应的轨迹模式类作为轨迹识别的结果,从而对两种场 景中聚类后的轨迹进行训练与识别。 2 3 机器识别方法 视频行为识别问题简单地说,可看为时变特征数据的分类问题,即测试序列 与预先训练的行为序列参考模板的匹配问题。该问题的关键在于如何从学习样本 中获取行为序列的参考模板,以及如何度量模板序列与测试序列之间的相似性。 而由于行为活动执行时速度的不一致性,因此行为序列的学习和匹配还应考虑在 空间和时间尺度上的适应性和鲁棒性,尤其对相似运动模式之间存在的轻微特征 变化。 目前,行为识别方法一般分为静态识别和动态识别两类。静态识别方法指采 用测试样本和模板匹配的方法,对行为活动在时间顺序上的一组静态特征序列进 行匹配识别的过程。其中主要的方法为模板匹配方法。而动态识别方法则指通过 建立每个静态特征向量( 如姿势或者运动特征向量) 为图模型上的一个节点或状 态,并以概率或者推理的方法完成状态之间的遍历,其中状态的一次遍历过程表 示动作行为过程,以此动态的遍历过程对行为进行识别。常用的识别方法有隐马 尔可夫模型、动态贝叶斯网络等。 2 3 1 模板匹配法 模板匹配方法是指对视频图像序列中提取的静态特征与在训练阶段预先保 存的模板进行相似度比较,并从中选择与测试序列距离最小的已知模板的所属类 别作为被测试序列的识别结果的方法。在训练过程中对每个行为序列建立一个或 多个模板,其识别过程可看成是特征数据与模板之间的匹配过程。模板匹配方法 计算复杂度低、实现简单,但对运动序列中相邻时序之间的动态特性欠缺考虑, 且对于噪声和运动时间间隔的变化较为敏感。 为解决序列问运动快慢不一致情况下的匹配问题,通常采用动态时间规整 ( d y n a m i ct i m ew a r p i n g ,d t w ) 的方法,其基本原理主要是将两个不同时间长度 中山大学硕士学位论文基于隐l h r k o v 模型的视频行为活动识别关键算法研究 的运动特征模板按照一定的曲线进行时间规整,使时间长度达到一致,然后再匹 配。d t w 算法的思想是给定参考模板特征矢量序列与输入特征矢量序列,寻找 一个最佳的时间规整函数,使得输入序列的时间轴映射到参考模板的时间轴上总 的累计失真最小。对d t w 而言,即使测试序列模式与参考序列模式的时间尺度 不能完全一致,只要时间次序约束存在,它仍能较好地完成测试序列与参考序列 之间的模式匹配。d t w 具有概念简单、算法鲁棒的优点,常用于微生物学的d n a 匹配、字符串和符号的比较以及语音分析和图像序列的分类等中。 b o b i c k 和d a v i s 2 2 】将图像序列目标运动信息转换成运动能量图像( m e i ) 和运 动历史图像( m h i ) ,采用马氏距离度量测试序列与模板之间的相似性。 v e e r a r a g h a v a n 等人【2 0 用动态时间规整来匹配运动序列,在形状空间中用动态时 间规整方法计算两个形状序列之间的距离来识别动作和步态,并取得了很好的分 类结果。 2 3 2 状态空间法 ( 1 ) 隐m a r k o v 模型( h i d d e nm a r k o vm o d e l s ,) i m m ) 与d t w 相比,隐马尔可夫模型是一种更加成熟的时变数据匹配技术。h m m 用马尔可夫过程建立相邻状态之间的相互关系,并通过概率的方法将观察序列与 隐状态间构成联系,即为隐过程。h m m 是一种随机状态过程,该方法用于时变 数据的分类涉及到训练和识别两个阶段。训练阶段需要指定隐马尔可夫模型的隐 含状态数以及相关参数的初始值,并且优化相应的状态转移和输出概率。识别阶 段则通过计算观测状态序列的最大隐含概率序列或其他匹配原则来确定。 离散的h m m 最早被用于表示网球击拍过程,之后渐渐应用到符号语言识 别、基于步态的人体识别和运动识别中。在文献【1 4 】中,提出一种使用基于目标 轨线的主分量分析的h m m 分类方法,该试验表明通过合并时间信息的h m m 性 能优于基于轨线聚类的高斯混合模型g m m 。h u a n g 等【3 0 】提出了一种使用蚁群算 法对人体姿势进行评估和分类,并用h m m 对人体运动进行建模和训练。n a r e s h 等【1 5 】使用基于目标轨线的事件概率序列对运动行为进行建模,并通过用h m m 对 事件概率序列的学习和训练对行为进行识别。u d d i n 等【1 7 】使用独立分量分析的方 法对运动行为的形状信息进行建模,并用h m m 进行识别。除了直接采用h m m 1 2 中山人学硕士学位论文 基于隐f l a r k o v 模型的视频行为活动识别关键算法研究 进行建模和识别之外,还有一些文献对h m m 进行理论上的改进并应用到行为识 别中。p a u 和c h i n l 3 1 】中提出一种基于空间、活动、时间内容的内容分层h m m 方 法,并用于建立运动特征的表示方法和运动的识别过程。文献【3 2 】中提出一种在 无线传感器布置环境中人体运动识别的可重构h m m 方法。 ( 2 ) 动态贝叶斯网络( d y n a m i cb a y e s i a nn e t w o r k , d b n ) 动态贝叶斯网络是一种对随机过程描述的有向图解,通过网络拓扑结构反映 变量间的概率依存关系及其随时间变化的情况,且不受马尔可夫链的链状结构约 束。动态贝叶斯网络是对h m m 的泛化。作为一种处理时序信号的统计工具,动 态贝叶斯网络通过考虑各个时刻间的转移概率,能够更好地处理时间序列模型。 与隐马尔可夫模型相比,它在每个时刻上允许有多个随机变量而不仅仅是一个隐 藏状态变量。仇等【3 3 】通过把运动分解为多个随机交互的并与动作细节规模联系 的过程提出了一种行为识别的方法。为了建立交互过程的模型,提出了一种分层 次的动态贝叶斯网络。p a r k 和a g g a r w a l d 4 1 提出用层级贝叶斯网络方法识别两人 交互的动作行为。该方法在低层的贝叶斯网络中估计目标的局部姿态;然后在贝 叶斯网络高层估计全局的身体姿态;最后用动态贝叶斯网络综合处理各种信息。 m u n c a s t e r 等人【3 5 j 提出一个一般的玉层动态贝叶斯网络识别复杂的事件,在每一 层用确定性的退火聚类算法自动检测观测层的状态。 ( 3 ) 神经网络( n e u r a ln e t w o r k , n n ) 人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连 续或断续的输入作状态响应而进行信息处理,在分析时变数据时具有很大的优 势。神经网络在行为识别中的应用主要有两类:时间延迟的神经网络和自组织的 神经网络。时间延迟神经网络通过在多层前馈感知器神经网络模型中引入时延单 元使得神经网络增加记忆功能;同时,时变序列的前述值被用来预测下一个值。 与时延神经网络的有监督学习不同,自组织神经网络适用于目标运动信息非限制 的行为理解。b u c c o l i e r i 等人【3 7 1 用神经网络对轮廓进行分析来识别人的姿态。文 献1 3 6 】采用自组织的神经网络对行为进行识别。 除了上述几类方法,支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 由于能够 较好地解决常见的非线性分类问题中的小样本、非线性、高维数和局部极小点等 实际问题,在行为理解中也得到了充分的应用。z h u 等【3 8 1 提出一种基于光流直方 中山人学硕二e 学位论文基于隐m a r k o v 模型的视频行为活动识别关键算法研究 图的运动描述算子,并采用s v m 训练分类器识别运动员的动作行为。c a o 等3 9 】 提出了采用滤波图像对视频运动特征进行表示并用s v m 建立滤波图像分类器进 行识别的运动识别策略。 1 4 中山大学硕上学位论文 基于隐m a r k o v 模型的视频行为活动识别关键算法研究 第3 章隐m a r k o v 模型理论 3 1m a r k o v 链及离散隐m a r k o v 模型 3 1 1m a r k o v 链 m a r k o v 链是指状态和时间都离散的m a r k o v 过程,其定义如下: 随机序歹嵫,在任一时刻f ,其所处的状态可表示为g f ,q , p l ,易,o n ) ,且 它在朋般时刻处于状态q 脚+ k 的概率,只与它在m 时刻的状态q m 有关,而与聊时刻前 所处的状态无关,即: p ( 尸g 枞1 = g 所,而一l = q m 1 ,蜀9 1 ) = 聃一同耐一习脚) ( 3 - 1 ) 其中,吼,g :,q m ,+ ( q ,e 2 ,幺) ,则称为m a r k o v 链,并且对于下式: 尸钛m ,加+ 七户p ( g 肿尸剧q 脚- - 0 , ) ( 3 2 ) 其中,1 剐9 ,r t l ,后为正整数。 称式( 3 2 ) 为砂转移概率,当以坍,r e + k ) 与m 无关时,称这个m a r k o v 链为奇 次m a r k o v 链,此时令: 户杈现研+ 助= 删 ( 3 3 ) 当拓1 时,以1 ) 称为一步转移概率,简称为转移概率,记为呦,所有这些转 移概率可以构成一个转移概率矩阵: a = a 1 1q 2 a 2 1a 2 2 口l ,l 口2 j l a 打1a n 2 口胂 其中o o 。 4 ) 状萄的观察概率分布口= 姒助) ,表示状萄输出相应观察值的概率,其中 纵幼亍尸 卵攻ig 两) ,1 5 盛m1 5 k _ m 。 5 ) 初始化状态分布俨 而) ,矿p g l = 西) ,1 s i _ 2 v 一 从上述表示,h m m 可定义为一个五元组护d 4b ,力或简写为a = 似,b ,力。 更形象地说,h m m 可分为两个部分,一个是m a r k o v 链,由而a 描述,其 1 6 中山大学硕士学位论文基于隐m a r k o v 模型的视频行为活动识别关键算法研究 产生的输出为状态序列;另外一个是随机过程b ,产生的输出是观察值序列。如 图3 2 所示,其中r 为观察时间序列的长度。 i m 高链 g i ,q 2 一,q r 随机过程 d i ,d 2 ,o r - l 3 2h m m 三个基本问题 图3 - 2 h m m 组成示意图 h m m 中的三个经典基本问题如下: ( 1 ) 评估问题 给定观察序列0 = o i ,0 2 ,d 搠模型参数肛似,b ,力,计算在模型参数a 下产 生给定观察序列o = o i ,0 2 ,0 舶概率只d 。 ( 2 ) 解码问题 给定观察序列d = o i ,0 2 ,0 痢模型a = 似,b ,力,求在某种有意义的情况下最 优的相关状态序列q + - g l ,9 2 。,g ,。 ( 3 ) 学习问题 给定h m m 的结构( 如隐含状态数,观察值数m ) ,如何调整模型参数五= , 曰,兀) ,对于给定的观察序列0 = d i ,0 2 9 * o9 0 r ,使得只d 阻) 最大。 针对上述三个问题,常见的求解方法主要有前向后向算法、v i t e r b i 算法、 b a u m w e l c h 算法,如下文所示。 3 2 1 前向后i 句( f o r w a r d - b a c k w a r d ) 算法 该算法主要解决对于给定观察序y u o = 0 1 ,0 2 ,o r 和模型a = ,男,力,p ( o l 五) 的计算问题,即评估问题。 根据概率论中的知识,p ( ola ) 可直接计算如下: 对于每一个固定的状态序y u s = q i q 2 ,q r ,有: r p ( os ,五) = 兀尸( d rq , ,兄) 咆( q ) :( d 2 ) ,( q )( 3 6 ) 1 7 中山大学硕上学位论文 基于隐m a r k o v 模型的视频行为活动识别关键算法研究 其中,乞( q ) = q t = g
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年建筑施工安全管理信息化技术应用案例分析报告
- 现场出镜课件
- 江苏省宿迁市泗洪县2020-2021学年第一学期五年级科学期中试卷(含答案)
- 2026届甘肃省徽县职业中专伏镇校区化学高三第一学期期中经典试题含解析
- 四川省宜宾市2026届高一化学第一学期期中教学质量检测模拟试题含解析
- 现代汉语汉字简化课件
- 2025年注册测绘师考试专项训练试卷:测绘技术与法规
- 2025年春季初级经济师职业资格考试 经济基础知识冲刺押题试卷
- 测量员岗位职责
- 现代仓储管理知识培训内容
- 药食同源课件
- 医疗设备与医院感染控制
- 铁路桥涵设备检查-铁路桥梁桥面检查
- 2023施工项目部标准化工作手册
- 七年级生物《哺乳动物》教案
- 【数学】四川省普通高中2024届高三上学期学业水平考试试题(解析版)
- 原发性骨质疏松症诊疗指南(2022版)第一部分
- 初中信息技术奥赛基础知识
- 重庆医科大学附属第一医院改建PET-CT、PET-MR项目环评报告
- 2022水电站计算机监控系统上位机现场验收标准手册
- 非计划再次手术管理制度与流程
评论
0/150
提交评论