




已阅读5页,还剩51页未读, 继续免费阅读
(信号与信息处理专业论文)基于隐马尔可夫模型的视频内容分析与表达的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着多媒体技术以及i n t e m e t 的高速发展,基于内容的视频检索越来越受到人 们的关注。对视频内容进行分析和表达作为其中一项关键性技术,已成为了研究 的热点问题。本文主要针对语义层次上的视频内容结构化分析和表达进行了研究。 首先,介绍了视频内容分析中的几个基本问题和主要方法,并将现有的基于概率 模型,尤其是隐马尔可夫模型的分析方法与传统方法进行了比较和分析;接着, 介绍了变换隐马尔可夫模型,在此基础上对原有算法中变换矩阵的选取算法进行 改进,提出了一种新的种语义事件检测算法,并对对各个事件中的关键帧进行了 提取;最后,结合以上新方法,提出了一种基于m p e g 一7 视频语义内容的层次化 描述方案。实验结果表明,本文提出的视频内容分析及描述方案,能够有效地对 视频从语义层次上进行处理和表示,且与人们的主观认识较为接近,具有较大的 应用价值和前景。 关键词:视频内容分析,隐马尔可夫模型,事件检测,关键帧提取,m p e g - 7 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f m u l t i m e d i aa n di n t e r n e tt e c h n i q u e s c o n t e n t b a s e dv i d e o r e t r i e v a lh a sb e c o m et h ef o c h so fan u m b e ro fr e s e a r c he f f j r t si nr e c e n ty e a r s a sa c r u c i a le l e m e n t ,v i d e oc o n t e n ta n a l y s i sa n dr e p r e s e n t a t i o na t t r a c tm o r ea n dm o r e a t t e n t i o n s i nt h i st h e s i s ,w em a i n l yd e v e l o pt h em e t h o d sf o rv i d e oc o n t e n ta n a l y s i sa s w e l la sv i d e oc o n t e n tr e p r e s e n t a t i o no nas e m a n t i cl e v e l f i r s t w ed e m o n s t r a t es e v e r a l b a s i cp r o b l e m sa n dr e s e a r c hi n t e r e s t si nt h i sa r e a a n dc o m p a r et h eb a s i cm e t h o d s 、i t l l t h es t a t i s t i c a l a p p r o a c h e s ;e s p e c i a l l yt h e h i d d e nm a r k o vm o d e l sb a s e dt e c h n i q u e s t h e n ,w ei n t r o d u c et h et r a n s f o r m e dh i d d e nm a r k o vm o d e l ,a n da f t e rt h ei m p r o v e m e n t o ft r a n s f 0 1 t 1 1 a t i o nm a t r i xs e l e c t i o n ,n e wa l g o r i t h m sa r ea d v a n c e df o rs e m a n t i ce v e n t s d e t e e t i o na n dk e y f r a m e ss e l e c t i o n f i n a l l y , a c c o r d i n gt ot h en e wm e t h o d ,w ep r o p o s ea h i e r a r c h i c a lv i d e oc o n t e n td e s c r i p t i o ns c h e m eu n d e rt h ei n t e m a t i o n a ls t a n d a r d 【p e g 7 e x p e r i m e n t a lr e s u l t ss h o wt h a tt h en e wm e t h o d sc a l la c c e s sa n dr e p r e s e n tt h ev i d e o c o n t e n to ns e m a n t i cl e v e le f f e c t i v e l y , m a t c ht h ep e o p l e ss u b j e c t i v ep e r c e p t i o nw e l l ,a n d h a v et h ep r o m i s i n g p r a c t i c a lv a l u e k e yw o r d :v i d e oc o n t e n ta n a l y s i s ,h i d d e nm a r k o vm o d e l s ,e v e n t sd e t e c t i o n , k e y - f r a m es e l e c t i o n ,m p e g 一7 创新性声明 y6 9 5 7 5 4 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均己在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:邀日期j 吖。j 2 p 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业 离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本人签名: 导师签名: 亟 琏 日期! :! :! ! :! ! 日期堕堡二型 第一章绪论 第一章绪论 近年来,随着多媒体通信,多媒体压缩以及计算机网络技术的发展,各种多媒体信息尤其 是视频信息在科研、教育、工业生产和人们的e 1 常生活中得到了广泛的应用,并起到了越来 越重要的作用。与传统的文字信息相比,视频信息的数据量巨大,因此为了使人们能准确获 取所需信息基于内容的视觉信息检索技术已经成为了研究的热点问题:但视频内容信息极 为丰富,很难为传统的文字方式所表达,因此有效地对视频信息进行检索,就必须全面的、 一般性的和客观的来分析和表达视频内容。本文的研究工作就是围绕着视频内容的分析和表 达进行的 i 。i 论文的研究背景与意义 近年来,随着多媒体技术以及网络技术的快速发展,包括图像、音频、视频在 内的多媒体数据大量涌现,而视频作为人类信息传播的主要载体之一,在科研、 教育、工业生产以及人们的生活娱乐等多方面起到了越来越重要的作用。但是当 人们希望从庞大的视频数据库中检索感兴趣的资源时,却发现传统的基于关键词 的数据库检索方法难以实现。其主要原因在于:在许多情况下很难用一个或多个关 键词来充分描述视频中的丰富信息,而且这种描述也存在很大的主观性很难满 足人们对于信息表达的一般性要求。因此随着视频资源数量的不断增加,有效地 提取和表达视频内容,以便为视频浏览和检索服务就变得越来越重要,这也是基 于内容的视频分析的主要任务之- - 1 1 】。 基于内容的视频分析是指利用计算机技术对各种类型的视频数据的内容进行 处理、分析和理解。随着数字媒体的广泛应用,基于内容的视频分析技术,在多 媒体信息的访问、分类和检索的过程中显得必不可少。这种分析,通常包括把视 频文件划分为不同的结构单位,并将这些单位按照不同的语义特点归类到特定的 主题、场景或事件类别中,并且以此为依据对视频文件做索:j i t , n 摘要,以便浏览 和检索。 随着研究的不断深入,人们发现对视频内容进行分析,并与人的主观认识达到 一致,是一个相当困难却又十分必要的研究领域。越来越多的研究人员开始投入 到这一新兴领域中来,与此同时,研究的范围也在不断扩大。当前,半自动的视 频分析方法以及语义分析已经初见成效,可以预见,在广大研究人员的共同努力 之下,视频内容分析这一领域将会不断向前发展,并带动相关领域研究的深入, 终将使人类能够更加自由的在多媒体世界中畅游。 !基于隐马尔可夫模型的视频内容分析与表达的研究 1 2 该领域研究热点及难点 自上世纪8 0 年代起,国际上就开始了对视频数据的获取、存储、操作、传输 等方面的研究。近十几年来,基于内容的图像及视频分析这一研究领域逐渐活跃 起来,受到了广泛的关注,其研究热点主要集中在如下几个方面: 视频结构分析 2 :作为视频分析的一个重点问题,视频的结构分析一直以来 都受到人们的高度关注。当前,视频结构的分析主要是通过镜头分割,镜头聚类 等方法,在建立视频数据模型的基础上提供对视频文件的非线性化浏览方式。因 此,如何对视频数据建立相应的模型,并结合声音、图像等多种特征对视频进行 准确的结构划分是当前人们所广泛关心的一个问题。 视频内容概括与抽象:对视频文件进行概括与抽象,就是要针对一个长的视 频文件生成一个简短的摘要。具体来讲,就是要利用一系列静止的图像或简短的 视频序列来表示整个视频文件的内容,这种方式能在很好的保留原有视频基本信 息的基础上提供关于视频内容的精确信息。当前此问题研究的热点主要集中于关 键帧的提取算法的研究 3 】。 视频语义分析 4 :目前主要研究方向集中于利用低层特征,结合相关领域的 先验知识,对视频的高层含义进行分析与研究,比如对视频中的场景或者事件进 行检测。此类研究的目的在于,对视频数据进行高效的组织和索引,为视频文件 提供一种更有力的浏览和总结的工具,对符合人们主观认识的时空数据模型进行 深层次的挖掘。 基于m p e g 7 的多媒体描述及检索方案【5 :作为一项新的国际标准,m p e g 一7 ( 多媒体内容描述接口) 制定的意义就在于对图像、音频、视频等不同类型的多 媒体数据提供一种统一的描述方案,以达到快速浏览及检索的目的。当前对于 m p e g 一7 的研究主要集中于多媒体数据的标准化描述方面 6 。可以预见,这一标 准将在未来的多媒体处理及检索领域发挥越来越重要的作用。 经过近年来的研究,在这一领域及其相关领域中,研究人员已经取得了丰富 的成果,并有很多系统已经达到了实用的水平,如:q b i c 7 、v i d e o q 8 、m a r s 9 等。但是由于视频内容十分复杂,目前仍有许多问题尚待解决。 首先,视频数据具有非结构化的特点,而对视频进行合理的结构化则是后续 分析与处理的重要步骤。但是单纯的进行镜头分割并不能对视频进行充分的概括 和整理,因此有必要对视频数据进行更高层次上的划分。然而对视频的高层综合 分析,目前虽然取得了一些进展,但是仍有诸多方面不能令人满意。 其次,由于视频数据所具备的的颜色,运动等特征与人的主观认识上存在的 风景、体育等高层语义概念存在较大的差异,如何将底层特征与人类的主观认识 第一章绪论 结合起来,跨越语义鸿沟,一直以来都是一个难点问题。 最后,如何将视频数据进行统一的标准化的描述。国际标准m p e g 一7 的提出, 使人们有了一个有力的工具,但是目h b - 女n 何提取视频的内容和特征,以达到标准 中的要求,仍是一个需要解决的问题。 1 3 本文研究的主要内容 视频内容分析是一个很宽泛的概念,本文主要对视频内容分析和表达的概念 和基本方法做了一般性的研究和阐述,在此基础之上,主要针对基于统计模型, 特别是隐马尔可夫模型的结构化的视频语义内容分析表达方法进行了深入的研究 与探讨,并以此为基础,结合多媒体描述标准m p e g 7 ,设计了一种层次化的视 频语义内容描述方案。 主要研究内容如下: 对隐马尔可夫模型以及视频内容进行分析,将两者从语义层次上有机的结合 起来,通过一种隐马尔可夫模型的推广形式一变换隐马尔可夫模型,将视频中的 某些运动特征和语义事件与马尔可夫模型中的隐含状态变量以及变换方式联系起 来。在对变换隐马尔可夫模型的参数进行训练的同时,完成的视频语义事件的分 析与表达。并在一种变换矩阵的自动学习算法下,将此概率模型应用于多种类型 的视频文件的语义事件分析,取得了较好的效果。最后,本文还结合国际标准 m p e g 7 ,在对视频进行内容分析的基础之上,提出了一种层次化的视频内容描 述方案,该方案将视频内容按语义层次进行划分,对不同类型的视频文件作出了 统一的标准化描述,为进一步实现对视频文件的高效浏览与检索打下了基础。 1 4 本文的章节安排 本论文共分为六章,具体内容安排如下: 第一章,为绪论部分,主要介绍了视频内容的分析与表达的基本概念,分析 了国内外研究的热点与趋势,指出了本文研究的主要内容和目的,并对全文内容 以及章节安排进行了简要介绍。 第二章,介绍了视频内容的概念及结构化分类,对视频内容分析与表达的研 究发展进行了回顾,介绍了现有的视频结构化分析方法和视频摘要技术。着重对 基于统计方法的视频处理算法进行了讨论,指出了基于统计模型的分析方法在对 视频进行语义分析上的优势。 第三章,进一步介绍了隐马尔可夫模型的綦本概念、算法及应用。重点针对 隐马尔可夫模型及其推广形式在视频内容分析中的应用进行了分析,并将其从语 一4 基于隐马尔可夫模型的视频内容分析与表达的研究 义角度上与传统方法和其他统计方法进行了比较和讨论。 第四章,对隐马尔可夫模型的推广形式一变换隐马尔可夫模型的概念、算法、 以及应用进行详细介绍与分析。在此模型基础之上提出了一套针对视频数据进行 建模与语义分析的算法,结合一种新的变换矩阵的非监督学习方法,并利用所建 立的模型对视频中的事件进行检测,进而对关键帧进行提取,对视频内容进行动 态化的摘要和表达,给出了实验结果。 第五章,介绍了国际标准化组织提出的一种新的国际标准m p e g 一7 ,即多媒 体内容描述接口,对此标准的内容和应用进行了总结。并针对此标准中关于视频 的描述方法,结合本文所提出的视频数据模型分析表达方法,提出了一种可以适 应多种不同类型视频的视频语义内容层次化的描述方案。 第六章,是对全文研究的总结以及对未来的研究方向的展望。 第一二章视频内容分析概述 第二章视频内容分析概述 2 1 视频内容分析 视频内容分析是一个非常宽泛的概念,有些文献中也将其成为视频理解、视 频内容解释或者视频分类。 视频内容在概念上可以分为两类,一是视觉内容,二是语义内容。这两类内 容各有特点,并且有着内在的联系。这两类视频内容之间的关系可由图2 1 表示。 图21视觉内容与语义内容之间的联系 视觉内容是指视频文件本身所具有的特点,他主要表现为视频文件中所具有 的颜色、运动等视觉特征,以及根据不同的编辑方式所形成的帧、镜头等物理结 构。这些内容属于视频自身的属性,虽然对于视频所叙述的内容有一定松散的对 应,但是其自身并不对叙述内容产生影响,只是视频内容的一种简单表达方式。 对于视觉内容,当前已有许多成熟的方法可以自动或半自动的对其进行分析、提 取和表达。 与视觉内容相对的就是语义内容,这也是本文所要研究的主要内容。语义内 容是指一段视频所要表达的语义信息。根据所表达语义级别的不同,语义内容主 要可以划分为目标层、事件层和主题层三个层次 1 0 】。一段复杂的视频节目可以 看作是由不同的主题内容组合而成,主题的含义是指该视频的内容所属的大致信 息分类,例如新闻、体育、电影等等。主题层语义分析的目的是将视频划分为若 干部分,并依次辨别出其所属信息类型。视频中的事件可以定义为不同的视频对 象在一段时间内的相互作用。每段视频中均包含有视频事件,一个或多个视频事 件组成了一段视频,每个事件又有不同的层次和粒度,即每个大的视频事件可以 划分为多个小的视频事件,例如:比赛进行,比赛中断,任意球,界外球等事件 由粗到细描述了一场足球比赛这个整体事件。由此可见,事件蕴含了视频的主要 语义内容,对事件进行分析,就是要对视频中重要的事件进行检测和提取。对象 是构成视频语义的最小单位。对视频对象进行分析最主要的就是进行对象检测, 一6 基于隐马尔可夫模型的视频内容分析与表达的研究 如对人脸,车辆等目标的提取。对象的检测通常需要特定结构的特征,然后将这 些特征结合到相关的模式识别任务中取。 由以上讨论我们可以看出,语义分析是描述视频内容的最佳方式,而语义事件 是整个视频语义内容的核心部分,因此在语义分析中,事件的检测占有重要的地 位,本文研究的出发点就是对语义事件进行检测和描述。 2 2 视频内容分析的主要方法 在过去的十几年中,针对视频分析与表达这一领域,人们进行了大量的研究, 提出了许多有效的方法。在这节中,我们将针对视频分割、视频摘要以及视频 语义分析等几个主要方面进行介绍和讨论。 2 2 1 视频分割 视频数据是一种按非线性方式组合的数据,为了使人们能够更好的理解视频 的内容,可以将视频内容按一定规则重新进行排列和表达,也就是说首先要对视 频进行时域的分割。由于在连续的帧之间存在着很强的关联性,因此利用适当的 子单元可以较好的对视频数据进行表达。而采用何种处理方法,取决于选择何种 子单元。基于镜头的分析表达方法【1 1 ,是一种最为常用的处理方法。 镜头是由摄影机在一次连续操作中所采集的连续的帧的集合,同一镜头中各 帧通常都具有相似的视觉特性。镜头在发生转换时,视频数据通常会发生一定变 化,根据镜头转换类型的不同,通常有突变和渐变两种,因此对视频中不同镜头 进行分割,也就是对镜头的边界的检测,一般是通过比较不同帧之间的差异来实 现。首先提取某些特征来作为衡量帧与帧之间内容变化的程度,如:像素值、颜 色直方图、运动向量或其他某些特征,以及这些特征的组合。然后,通过某些标 准来度量这些特征之间的差异,可以是通过整帧进行比较,也可以通过每一帧中 重点的区域之间来比较。此外,人们根据需要还提出了其他的一些改进算法,如 基于互信息及联合熵的方法 1 2 1 ,这种方法可以同时对突变和渐变进行检测,取 得了较好的效果。 关于镜头分割的研究成果十分丰富,人们已经可以基本自动对镜头突变进行 检测和分割,当前,重点是要对渐变类型的镜头检测和分割进行更加深入的研究。 2 2 2 视频摘要 视频摘要技术的主要目标是选取合适的视觉表示形式来对整个视频序列中的 第二章视频内容分析概述 显著特征进行表达,这与文字信息处理中关键词、总结的含义相类似。人们通过 视频中某些关键的帧可以对整个视频进行推断和理解,因此,关键帧也就经常被 用作视频文件的一种简洁的视觉描述。 关键帧提取一种简单方法就是从每一个镜头中预先设定的时间位置中获取一 帧或多帧图像来表达整个镜头。为了使其能够对视频内容提供更加充分的表达, 人们根据不同的需要,提出了不同的关键帧提取算法。一种方法就是基于特征变 化的选择方法 1 3 】,首先选择每个镜头中的第一帧作为关键帧,然后根据颜色、 运动等特征依次对后续的每一帧进行比较,如果发生显著的变化,则以当前帧作 为关键帧。由于每个镜头中图像的变化不同,有时就需要根据镜头内容的不同来 选取不同数目的关键帧。其中一种方法是累计对各帧的变化程度,来作为一个镜 头中内容变化程度的度量,根据这种度量方式,关键帧的数目就可以自动确定, 然后再根据最小化原理来选取所需数目的关键帧【1 4 。此外,聚类技术也被广泛 应用于关键帧的选取中 1 5 】。 关键帧的提取方法很多,提取关键帧时不仅要注意反映视频的主要内容,使描 述尽可能的准确,同时也要考虑计算的复杂性,数据量要尽可能的小。对更为有意 义的关键帧的提取仍是一个在研究中的问题。 2 2 3 视频语义分析 现有的分析方法大多是基于颜色、运动等低层特征来进行,对视频数据的描 述一般都是以这些特征简单统计数据的形式出现,这与人对视频内容的理解还存 在着较大的差异。首先,人对视频内容的理解并不是靠简单数据的计算进行的, 人还有学习能力;其次,视频内容具有“模糊”的特性,无法用简单的特征向量 来描述;最后,人们对视频内容的理解使建立在人类已有的知识基础之上的,而 这些低级特征无法反映这些经验知识。所以在很多情况之下仅以低层特征来对视 频进行分析往往得不到满意的结果。 由此可知,如何描述视频内容。使其尽可能的与人的理解一致,则是视频内 容分析与表达的关键所在,也是难点所在。从人的认知角度看,人对视频内容的 理解和描述主要是在语义层次进行的,因此如何提取视频中的语义特征,已得到 了越来越多的关注。对视频内容进行语义分析,首先要建立语义模型,然后根据 所建立的模型进行分析,人们在这一方向上的研究主要集中在如下方面: 1 一种最简单的方法就是进行人工文字标注。一个例子就“s t r a t i f i c a t i o n ”方 法及其推广形式 1 6 】。基于文字标注的方法能初步表达人的主观认识,但是其工作 量大,而且在人工的条件下容易出现标注的主观偏差。 2 另外一种重要的方法就是利用时空联系,对视频中的实体例如视频对象建 基于隐马尔可夫模型的视频内容分析与表达的研究 立模型。这样视频对象的概念就可以与每一帧中的某个区域联系起来表达一定的 信息,若将其与时间相联系就从语义事件的层次上,则可以表达时空的信息。针 对这一问题人们提出了许多有效的算法【1 7 】,并取得了一定的进展。 2 3 基于统计方法的视频内容分析 近年来,基于统计方法的视频内容分析越来越受到人们的重视。这是由于统 计方法不但能有效地对视频进行传统方式的处理,而且可以发现视频内部以及视 频之间隐含的联系,这种联系往往是对入主观认识的一种有力反映,傻高层语义 能在低层特征中得到充分的表示。 2 3 1 视频分割 这里所指的分割既是指时域分割,又指视频内容的空间分割,也就是我们所说 的时空分割。当前该研究方向主要是对视频中的语义目标进行检测和分割。s o n g 1 8 1 综合高斯混合模型以及k l 距离,在统一框架内完成了对视频镜头中的关键帧的提 取以及时空目标的分割;f 1 9 中提出了一种基于时空马尔可夫随机场的分析方法, 对目标及其语义进行了有效地提取。2 0 提出了一种分段高斯混合模型对视频进行 建模,他将视频文件作为一个整体,而不是分成单独的帧来处理,通过非监督聚 类方法对视频中的区域进行了时空分割。由此可见,时空分割为视频的结构化和 语义描述提供了有力的支持。 2 3 2 视频语义内容分类与检测 在视频语义内容的分类中,模型依靠所需特征来表示语义,这可以被看作是 一个多媒体模式识别的问题。模型及其训练的方法一般是按照语义概念的特点选 取。由于多数的语义概念都可以归入目标和事件两个类别中。对于目标,我们需 要用包含形状、结构等内容的模型来表示:而对于事件,我们则需选取带有时间 动态特性的模型来表达。在对语义事件的建模中,包含时域特性的隐马尔可夫模 型是一种有效的模型。许多基于隐马尔可夫模型及其推广形式的方法 2 l 】 2 2 】被用 来进行事件检测以及结构表达等分析。 2 2 】中提出了一种通过低级特征与高级语 义之问的映射的技术,利用隐马尔可夫模型对视频中重复出现的相似事件进行检 测的方法,实验结果显示该方法对事件的提取有着有较好的分类效果。 当前,基于统计模型的视频内容分析的研究还不成熟,在模型的选择、训练 等方面还存在着许多不足,这给我们了留下了广阔的研究空间。 第三章隐马尔可夫模型及其在视频内容分析中的应用! 第三章隐马尔可夫模型及其在视频内容分析中的应用 3 1 隐马尔可夫模型( h m m l b a u m 等学者在2 0 世纪6 0 年代末至7 0 年代初的一系列经典论文 2 3 中,提出了 隐马尔可夫模型的基本理论,并于7 0 年代由b a k e r 等人将其引入语音信号处理领域 2 4 。到了8 0 年代后期,隐马尔可夫模型开始受到了广泛的关注,渐渐成为语音识 别领域居主导地位的方法。9 0 年代初以来,隐马尔可夫模型及其各种推广形式开 始被用于图像信号处理以及视频信号处理等领域 2 5 。本节将介绍隐马尔可夫模 型的基本概念和经典算法。 3 1 1 基本概念 1 离散马尔可夫过程 在介绍隐马尔可夫模型以前,我们首先回顾一下离散马尔可夫过程。 设存在一系统q = q r , 净l ,2 , ,在任一时刻t ,他总是处于n 个离散状态 s ,最,& 中的任意一个状态,并且 p 吼= 墨i q 。= s ,q 。= 瓯, = p 吼= q i q 。= s ( 3 - 1 ) 那么我们则称9 为一阶离散马尔可夫过程,并记: d “2 p l q r2 s jj 吼一l 。s i j1 f ,j n ( 3 2 ) 其中 n 嘞0 ,嘞= 】 ( 3 - 3 ) j = l 2 隐马尔可夫模型 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) 是双层结构的模型,一层 是状态转移过程,可由一个一阶离散马尔可夫过程来描述,由状态转移矩阵表示; 另一层是可见的由状态( 或状态跳转) 产生观测矢量的过程,由观测矢量概率分布表 示。其中模型所描述系统的状态并不能被直接观察到,即是所谓“隐含”的( 即状态 转移的随机过程是“隐”的) ,它可通过另一层状态输出的随机过程表现出来。 一个h m m 是一组由状态转移连接着的状态集,可由以下参数定义: ( 1 ) n 一模型中的状态个数。状态集表示为s = 丑,s :,s n ,时刻的状态记 里基于隐马尔可夫模型的视频内容分析与表达的研究 为q ( 2 ) m 一每个状态中离散观测符号的个数。记系统输出为v = v l , k ,j ; ( 3 ) a 一系统状态转移概率分布,a = ) ,其中 q = p e q ,= 一lq 。= s 1 - i ,( 3 4 ) ( 4 ) b 一状态下,观测符号概率分布,b = q ( 尼) 其中 b j ( 后) = p e o , = uf 吼= s j 1 ,1 女m ( 3 - 5 ) ( 5 ) 石一初始状态分布。记系统初始状态分布为石= 巧) ,其中 乃= p q l = j ,】 1 i n ( 3 6 ) 为简便起见,我们应用如下形式a = ( 爿,b ,万) 来描述模型的完整参数集。这样 我们便可以用隐马尔可夫模型产生一个观测序列0 = q ,d 2 ,q ,。 3 1 2 隐马尔可夫模型中的三个基本问题及经典算法 1 隐马尔可夫模型中的三个基本问题 ( 1 ) 给定观测序列o = d i ,0 2 ,岛以及模型参数 = ( 爿,b ,玎) ,如何有效地计 算观测序列的后验概率p ( o ia ) : ( 2 ) 给定观测序列o = d l ,0 2 ,q 以及模型参数 = ( 一,b ,石) ,如何选取一个 最佳的状态序列q = q t q2 ,q ,; ( 3 ) 如何调整模型参数五= ( 爿,b ,石) ,使得后验概率p ( o i a ) 最大化。 2 解决隐马尔可夫模型中三个基本问题的经典算法 ( 1 ) 解决问题1 的算法称为前后向算法( f o r w a r d b a c k w a r dp r o c e d u r e ) : 我们定义前向变量 q ( i ) = p ( q ,0 2 ,。:,研= s rf z ) ( 3 7 ) 然后采用迭代算法计算q ( i ) a 具体步骤如下: o 初始化: ( i ) = 乃6 ( d 1 ) 1 i n ( 3 8 ) 第三章隐马尔可夫模型及其在视频内容筮查斤中的摩旦兰 迭代:( ,) :兰q ( f p ,1 玎6 ,( q + ,) l 茎| v 1 r r 一1 ( 3 9 ) 结束:p ( df ) = 髓,( f ) ,= l 汁算过程如图3 1 所示: ( 3 - 1 0 ) m(1)m+io) 图3 1前向变量计算示意图 ( 2 ) 解决问题2 的算法称为v i t e r b i 算法( v i t e r b ia l g o r i t h m ) : 首先定义函数 巧( f ) 2 。m 。a x 。p m :g ,= f ,d l ,0 2 ,qi - q ( 3 - 1 1 ) 计算步骤如下: 初始化: 点( f ) = 巧6 j ( 0 1 ) 1 i n ( i ) = 0 ( 3 - 1 2 ) 迭代: 巧( ,) = 麟 4 一( f ) 屯( q ) 2 - t - t i j n ( 3 - 1 3 ) ( j ) = a r g m a x i 点一。( f ) l 2 r t 1 茎j n( 3 1 4 ) i s l s 一一 结束: 矿。罂紧m f ) ,g a r g 。m ;。a x f i r 。i ) ( 3 4 5 ) 路径( 状态序列) 回溯: 西= + ,( t 。) f _ r 一1 ,t 一2 ,1 ( 3 - 1 6 ) ( 3 ) 解决问题3 的算法称为b a u m w e l c h 算法( 也可以称作e m 算法) : 首先定义后向变量: 属( i ) = p ( 0 + d f qi q ,= , ) ( 3 1 7 ) 旦基于隐马尔可夫模犁的视频内容分析与表达的研究 f l , ( i ) 可以利用递归方法求解,即 屏( i ) = 1 1 曼i n 屈( i ) = 嘞q ( 0 ,+ ) 屈+ ,( ) f = t - 1 ,t 一2 ,一,1 1 s i n j = i 计算过程如图3 2 所示 定义后验概率函数 图3 2后向变量计算示意图 一( i ) = p ( 吼= 置1 0 , ) 由( 3 7 ) ( 3 - 1 7 ) n 知1 一( i ) 可用前后向变量表示为 ( 3 - 1 8 ) ( 3 - 1 9 ) f 3 2 0 ) 以f ) = 错2 甄a g , ( i ) 而f l r ( i ) ( 3 2 1 ) 定义概率函数: 毒( f ,) = p ( 吼= ,q 。= s j l 0 , ) ( 3 2 2 ) 同样,眚( f ,) 也可用前后向变量表示: 驰棚= 地躲掣2 拦畿p 2 3 , 计算过程如图3 3 所示: 过乙夕乡 一n a j j b j ( o , + 1 ) t 一1 + t :可+ t + 2 图3 、3前后向变量计算示意图 第二章隐马尔可夫模型及其在视频内容分析中的应用 由y ( f ) 和毒( f ,j ) 的定义可以看出两者之间有如下关系: 一( i ) = 专( f ,j ) ( 3 2 4 ) = 1 定义以上概率函数之后,对模型参数进行重估,表示如下: 最= n ( f ) ( 3 - 2 5 ) 专( f ,) r l 一( i ) r 一( - ,) 一 r = l 0 ( t ) = 等翌一 一( ) 此重估过程仍然满足h m m 参数的概率约束,即: 霉= 1 1 f 瓦= 1 1 蔓n 州 e ( k ) = 1 1 k m f 3 - 2 6 ) r 3 2 7 ) ( 3 - 2 8 ) 这样,根据观察序列数据o = 0 , 0 2 ,q ,以及初始模型参数兄= ( 爿,b ,y ) ,就 可由重估公式得到一组新的模型参数,即获得一个新的模型石= ( 彳,巨厅) 。可以 证明, 若定义q ( ,万) 2 善p ( 卯, ) l o g p ( 即,万) 为评价函数,则 峄 q ( 五,万) 卜p ( d | z ) p ( d i ) 。因此,循环执行重估参数和最大化评价函 数,可使概率函数p ( o i 五) 收敛到某一局部最大值,即解决问题3 。 3 2m 心d 在视频内容分析中的应用 根据上面的介绍,h m m 作为一种有限状态的统计模型,最成功的应用就是 对时间序列进行建模,例如对语音信号的处理与识别 2 5 】。这样我们自然而然的 基于隐马尔可夫模型的视频内容分析与表达的研究 就会想到利用隐马尔可夫模型对视频这一类型的时间序列信号进行建模与分析。 近年来,隐马尔可夫模型越来越多的被应用于视频内容分析领域,与其他应用相 类似,在视频内容分析中,隐马尔可夫模型的主要应用是对视频内容进行识别和 分类。在这一节中,我们将对其进行简要介绍。 隐马尔可夫模型提供了一个框架,在这个框架下,我们可以对时间特性和空 间特性以及他们之间的相关关系建立模型。时间的相关性可以用具有确定数目的 隐含状态及其状态转移矩阵的马尔可夫链来描述;空间特性则可以用观测变量以 及观测概率来进行描述。由此可见,利用隐马尔可夫模型对视频信号进行建模, 能够对视频信号中的时空信息进行一致和充分的描述和表示,并可以利用模型参 数来对视频内容进行识别和分类。 3 2 i 视频分类与识别 一个视频的片段,由不同的镜头组成,镜头之间按照时间的顺序相互转换 图3 4 给出了一个视频片段的组成示意图。 图3 4视频结构不意图 图3 4 中将每个镜头看作一个节点,并加入开始与结束两个不占用时间的附加 节点。按照镜头之间的时序特性,给出了转换关系,在这里我们假定每一个节点 都可以到达另外的一个任意节点。此外,这个模型除了时序关系外,还给出了其 他结构关系,如:该视频片段可以由任一节点开始,也可由任一节点结束。 给定以上关系之后,我们可以用颜色,运动等特征向量表示每个镜头中的不 同内容,并用不同的镜头代表不同的系统状态,这样就建立起了个隐马尔可夫 模型。然后根据样本视频片段,利用b a u m - w e l c h 算法对模型进行训练,就可以 得到模型参数。然后利用得到的模型参数,就可以对其他视频片段进行识别和划 第三章隐马尔可夫模型及其在视频内容分析中的应用 分。实验结果显示【2 6 】,利用这种方法对1 0 0 段不同类型视频进行分析,识别准 确率可以达到9 5 以上。 3 2 2 视频语义结构分析 对于大多数视频数据,如新闻、体育、电影等,都存在一个短期相关与长期 相关共存的结构,而且这些结构往往是与相关的语义联系在一起的1 2 2 1 。如果我 们能够寻找到一种能同时考虑视频的短期特征与长期特征的方法,那么我们就可 以对这些语义结构做出分析和表达。近年来,人们针对视频,尤其是体育视频中 的语义事件检测做了大量研究 2 7 2 8 2 9 1 ,其中隐马尔可夫模型在其中得到了成 功的应用。 a s s f a l g 3 0 提出了种基于h m m 足球比赛中事件检测的方法。在这一方法 中,假设比赛中摄像机主要随球运动,摄像机运动与足球运动之间存在着很大的 相关性,因此将足球比赛中诸如射门、角球、任意球等事件与摄像机的平摇、提 升、变焦等动作方式相联系。并将这些摄像机的动作作为观测变量,而将足球的 运动与点球,角球,任意球三类语义事件相联系,作为隐含状态。采用一种 l e f t r i g h t 隐马尔可夫模型对整个视频的过程进行描述。试验结果显示,根据上述 方法,可以对足球比赛中的点球、任意球、角球三类语义事件进行检测和分类, 准确率达到了8 0 以上。 为了进一步检测出一般意义上的事件,l i 3 1 给出了“p l a y s ”的概念,即在整 个体育比赛的过程中,只有一部分的时间体育比赛才有重要意义,也就是我们通 常所说的“比赛”场面。这些“比赛”近似周期性的出现,而每次出现时间较短, 但是在“比赛”中所包含的运动特征及其强度却是在整个体育比赛中密集的。因 此,可以将体育比赛描述为由“比赛”和“非比赛”两个基本状态所组成的一个 隐马尔可夫模型。图3 5 给出了该模型的示意图。 图3 5体育比赛中的隐马尔可丈模型 结合摄像机的动作等低层视觉特征对“比赛”和“非比赛”进行描述,通过 学习,确定模型参数。通过实验,该模型可以对棒球,足球,相扑等体育项目中 激烈的比赛场面进行识别和划分,准确程度也达到了8 5 以上a 除此以外,人们对其他如会议、新闻、教育等方面的视频也根据其内容的拍 堕基于隐马尔可夫模型的视频内容分析与表达的研究 摄规则建立起了相应的隐马尔可夫模型 3 2 ,这些模型在各自的领域内从不同的 程度上实现了语义事件的检测。 3 _ 3 小结 针对不同的类型的视频数据,人们根据隐马尔可夫模型提出了许多相关的分 析处理方法,并取得了预期的效果。但是这些处理方法大多数是针对某一特定领 域进行的,而且需要专门的先验知识作为基础,通用型不够强。对于普通的视频, 当没有先验知识或者先验知识很少时,缺少一种通用的模型和处理方法。因此, 如何建立一种通用的模型对视频结构和语义做出一般化的描述,成为了今后研究 的方向。 第四章基丁变换隐马尔可大模型的视频内窬分析方法 第四章基于变换隐马尔科夫模型的视频内容分析方法 4 1 变换隐马尔可夫模型( t h m m ) 为了适应不同应用的需要,基于经典隐马尔可夫模型,人们提出了多种隐马尔 可夫模型的推广形式,如:f a c t o r i a lh i d d e nm a r k o vm o d e l s 3 3 、h i e r a r c h i c a lh i d d e n m a r k o v m o d e l s 3 4 】、i n p u t o u t p u th i d d e nm a r k o vm o d e l s 3 5 等。在本节我们将结合 原有理论,介绍一种面向图像及视频分析处理的变换隐马尔可夫模型( t r a n s f o r m e d h i d d e nm a r k o vm o d e l s ) 3 6 及其模型参数的估计方法。 4 1 1t h m m 的基本理论 我们将某一视频看作是由- - d 部分能够概括整个视频的图像集合经过某种变 换所产生的。对于我们观察到的每一帧图像,所属图像集合及其历经的变换过程 被看作是隐含变量,而这两类隐含变量只依赖于视频序列中前一时刻的图像集合 以及变换过程。这样,我们实际上是建立起了一个粗略的隐马尔可夫模型,下面, 我们将对此模型进行具体介绍。 首先,假定视频序列符合如下生成模型。视频中的每一帧图像对应于有限个 图像集中的某一集合c ( c = 1 ,c ) ,每一集合均服从高斯概率分布。这样,我们 就可以认为:当生成某一帧图像时,首先由该集合按高斯分布产生一幅隐含图像, 然后对此隐含图像进行有限次的变换r ,( f = l ,l ) ,最终得到所要的观察图像x 。 有限个集合之间按一定规律转换,从而形成整个视频序列。此模型示意图如下: 。一、l7 一、:b一、x 、一- s 。( c “)s 。( c 、s 。f c “1 i i _i _ f i t 1 _ l ri j , 一。j 一 、? 、f )、( ( z t j 、( z “j 一n 二 、i、 1 | 1 r 。 ? x t - l l rx tx l 十j t 1t 什1 图41变换隐马尔可夫模型 基于隐马尔可夫模型的视频内容分析与表达的研究 由图4 1 可以看出,视频中的每一帧均对应于一个包含集合索引和变换索引的 状态s ,即s t = ( c t ,) 。实际观测图像x t 则是按如下集合概率分布随机产生: p ( x ,| i ) = p ( x ,ic ,) ,此分布服从高斯概率分布。 对于模型中的变换过程,由于将实际的图像运动变换融入推导过程会使计算 复杂度相当高,因此,我们事先假定存在一组固定的变化过程。与此同时,我们 假定变换后的观测图像,是由隐含图像向量与变换矩阵r ,相乘所得到。对于绝大 多数的变换过程,观测图像的每个象素只取决于隐含图像中少数几个象素因此, r ,可以用一个稀疏矩阵来表示,此矩阵的列数等于隐含图像的总像素数,行数等 于观测图像的总像素数。表示如下:i = f ,tl 。因此,我们就可以事先定义平移、 旋转、缩放、裁减等多种几何变换来满足我们的需要。 根据以上描述,我们就得到了能够概括整个视频的一个总体模型,下面我们 将介绍此模型的主要参数。 4 1 2t h m m 的模型参数 1 观测概率 对任一集合中,我们都假定其服从高斯概率分布。可知对应于给定集合c ,隐 含图像z 的分布概率为 p ( z 1c ) = n 【z ;i a 。,m 。) ( 4 - 1 ) 其中为隐含图像的均值,m 。为表示隐含图像中每一个像素变化程度的对角 协方差矩阵。因为现实数据维数较高,因此我们用对角协方差矩阵代替完全的协 方差矩阵。通常来讲,不同的集合c 代表了不同类型的隐含图像,而与之相对应 的噪声变化图。则描述了图像中未被纳入模型的区域 对应于给定的隐含图像z 和变换f ,我们可以得到观测概率: p ( x iz ,) = n ( x ;f ,z ,甲)( 4 - 2 ) 其中t 为对角协方差矩阵,用来描述观测图像中的噪声。这与m ,的含义有着 较大差异。m ,是用来描述集合以及其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 婴幼儿配方食品营养配方在婴幼儿营养素吸收中的营养素配比创新报告
- 山西普高单招考试题及答案
- 三国杀等级考试题目及答案
- 2025年家居产品合作伙伴合同函
- 2025年的事业单位短期临时用工协议样本
- 2025年新能源汽车销售代理合同官方版
- 2025年库存物资分期付款合同样本
- 2025年购物中心车位使用权出让合同范本
- 中职法律实务试题及答案
- 足球知识考试题及答案
- 车库洗车日常管理制度
- 2025年心理咨询师基础理论知识测试卷:心理咨询心理学理论体系试题
- 宿管面试试题及答案
- 湖北省圆创教育教研中心2025届高三三月联合测评物理试题及答案
- 车间轮岗培训总结
- 2025年电工(技师)职业技能鉴定理论考试题库(含答案)
- 幼儿转岗教师培训学习总结范文
- PQE试用期述职报告
- 基层卫生岗位练兵和技能竞赛试题及答案(全科医疗组)
- 结直肠癌肝转移外科治疗策略2025
- 【MOOC】《电路实验》(东南大学)章节中国大学慕课答案
评论
0/150
提交评论