




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于语义的视频检索.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于语义的视频检索 李德山( 计算机应用技术) 指导教师:李宗瓦( 教授) 摘要 基于内容的视频检索( c b v r ) 是当前图像工程热点课题之一,它指根据视频的内容 及上下文关系,对大规模视频数据库中的视频数据进行检索。可是人们习惯使用高层 语义概念判断相似性,但是现有的视频内容检索大多是非语义层面的。由于低层特征 和高层语义概念之间存在语义鸿沟,在语义概念层次进行视频内容的描述和操纵面临 巨大的困难。如何跨越低层特征和高层语义概念之间的语义鸿沟,实现基于语义的视 频检索,成为今天基于内容的视频检索( c b v r ) 的最大挑战。本文的主要研究内容和贡 献如下: ( 1 ) 对基于语义的视频检索的关键技术视频语义的提取以及视频语义对象的提 取进行了深入的研究,详述了目前已有的方法和算法,并从应用的角度分析了它们各自 的优缺点。 ( 2 ) 提出了一种基于视觉注意力的时空联合的自动视频语义对象提取技术。这种方 法是将人的视觉注意力引进进来,在时域和空域分别进行了视频语义对象的检测,最后 利用动态融合技术进行时空联合,检测出视频语义对象。它对视频语义对象的检测是健 壮和准确的,不但能够检测出时域视频运动语义对象,还能够检测出空域视频语义对象。 实验验证此方法具有较高的性能和效率。 ( 3 ) 提出了一种多层次网络化视频语义提取模型。这个模型能够与我们上面提取的 视频语义对象相适应,利用视频语义对象作为中间层,通过层次间的关联推理出高层视 频语义概念,最终跨越低层特征与高层语义概念间的语义鸿沟。 关键词:视频检索,语义对象,视觉注意力,语义提取模型 s e m a n t i c b a s e dv i d e or e t r i e v a l l id e s h a n ( c o m p u t e r a p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f e s s o rl iz o n g - m i n a b s t r a c t c o n t e n t - b a s e dv i d e or e t r i e v a l ( c b v r ) i so n eo ft h em o s ta c t i v eh o t s p o t si nt h ef i e l d so f i m a g ee n g i n e e r i n g i ts e a r c h e sv i d e od a t af r o ml a r g e s c a l ev i d e od a t a l m s eb ym e a n so ft h e c o n t e n ta n dc o n t e x to fv i d e o p e o p l ea r ea c c u s t o m e dt oj u d g es i m i l a r i t yu s i n gt h eh i g l l - l e v e l s e m a n t i cc o n c e p t , b u tt h ee x i s t i n gc b v ra r em o s t l yn o n s e m a n t i cl e v e l b e c a u s eo ft h e s e m a n t i cg a pb e t w e e nl o w - l e v e lv i s u a lf e a t u r e sa n dh i g h - l e v e ls e m a n t i cv i s u a lc o n c e p t s ,i t f a c e se n o r m o u sd i f f i c u l t i e sf o rv i d e oc o n t e n td e s c r i p t i o na n dm a n i p u l a t i o na ts e m a n t i c c o n c e p t u a ll e v e l t h u s ,b r i d g i n gt h es e m a n t i cg a pb e t w e e nl o w - l e v e lv i s u a lf e a t u r e sa n d h i g h - l e v e ls e m a n t i cv i s u a lc o n c e p t sa n dr e a l i z i n gs e m a n t i c - b a s e dv i d e or e t r i e v a lm a yb et h e b i g g e s tc h a l l e n g et h a tw ef a c ei ns u p p o r t i n gs e m a n t i c - b a s e dv i d e or e t r i e v a l t h em a i n c o n t e n t sa n dc o n t r i b u t i o n so ft h i st h e s i sa r es u m m a r i z e da sf o l l o w s : ( 1 ) t h ek e yt e c h n i q u e so fs e m a n t i c b a s e dv i d e or e t r i e v a l ,w h i c h i n c l u d e st h ev i d e o s e m a n t i ce x t r a c t i o na n dt h ev i d e os e m a n t i co b j e c te x t r a c t i o n ,a l es t u d i e di nd e p t h t h e p r e s e n t e dt e c h n i q u e sa l es u m m a r i z e d ;a l s ot h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h e ma l e a n a l y z e df r o mt h ev i e wo fa p p l i c a t i o n ( 2 ) w ep r o p o s ea na p p r o a c ho fa u t o m a t i cd e t e c t i o no fs p a t i o - t e m p o r a ls e m a n t i co b j e c t f r o mv i d e ow h i c hi sb a s e do nv i s u a la t t e n t i o n i ti n t r o d u c e sv i s u a la t t e n t i o na n dd e t e c t sv i d e o s e m a n t i co b j e c ti nt e m p o r a la n ds p a t i a ld o m a i ns e p a r a t e l y t h e nad y n a m i cf u s i o nt e c h n i q u e i sa p p l i e dt oc o m b i n eb o t ht h et e m p o r a la n ds p a t i a ls a l i e n c ym a p s f i n a l l y , v i d e os e m a n t i c o b j e c t sa r eo b t a i n e d i ti sr o b u s ta n da c c u r a t ef o rt h ed e t e c t i o no fv i d e os e m a n t i co b j e c t t h e p r o p o s e dt e c h n i q u ei sa b l et od e t e c tt h em o v i n gs e m a n t i co b j e c t si nv i d e o ,a sw e l l 锻t h e o b j e c t sw h i c hc a ni n t e n s e l ys t i m u l a t eh u m a n sa t t e n t i o ni nt h es t a t i cv i d e of r a m ei m a g e e x p e r i m e n tv a l i d a t e si th i g h e rp e r f o r m a n c ea n de f f i c i e n c y ( 3 ) w ep r o p o s eam u l t i l e v e ln e t w o r kv i d e os e m a n t i ce x t r a c t i o nm o d e l t h em o d e lc a nb e a d a p t e dw i t hv i d e os e m a n t i co b j e c tw h i c hi se x t r a c t e db yo u rm e t h o d a tt h eh e l po fv i d e o s e m a n t i co b j e c ta sam i d d l el a y e r , h i g h - l e v e lv i d e os e m a n t i cc o n c e p t sa l eo b t a i n e db y c o r r e l a t i o nb e t w e e nl e v e l s e v e n t u a l l y , s e m a n t i cg a pb e t w e e nt h el o w - l e v e lf e a t u r e s a n d l l i g h l e v e ls e m a n t i cc o n c e p t si ss o l v e d k e yw o r d s :v i d e or e t r i e v a l ,s e m a n t i co b j e c t , v i s u a la t t e n t i o n ,s e m a n t i ce x t r a c t i o nm o d e l v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得中国石油大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 签名:老隐山 7 年 j g 只讶b 关于论文使用授权的说明 本人完全了解中国石油大学有关保留、使用学位论文的规定,即:学校有权保留送 交论文的复印件及电子版,允许论文被查阅和借阅;学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密论文在解密后应遵守此规定) 学生签名:垒2 霎丛沙吁年 纩月万日 导师签名:丛l 一 卅年 f 月玎日 中国石油大学( 华东) 硕士学位论文 第一章前言 1 1 研究背景及意义 近年来,随着i n t e r n e t 的快速发展以及多媒体视频数据在捕获、存储、传播方面取 得的重大技术进步,人们可以方便快捷的获得大量的数字视频,并且新的视频应用,如 数字图书馆、视频点播、数字电视、视频会议、远程教育等等,已经为越来越多的人所 接受和熟悉。然而面对海量的多媒体数据,人们面临着一个新的问题就是如何快速准确 地搜寻到自己所需要的信息。例如,希望直接找到一段9 7 香港回归的新闻片断,或者 一段外科手术医疗视频等。但是视频数据信息量大,内容丰富,不容易组织管理,因此 如何方便有效地组织、表达、管理、查询和检索这些海量的多媒体数据成为近年来全球 计算机学术界和工业界研究的富有挑战性的热门课题之一。 早期的视频检索方式是基于文本的检索。该方法依靠对视频标注的文本信息进行检 索,其优点是检索简单、快速,但是采用单纯基于文本的方式,有其自身难以克服的先 天不足:一是对于网络中海量的视频数据手工标注工作量巨大,费时费力:二是人工具 有一定的主观性,对于同一段视频,不同的人可能有不同的理解;三是简单的文本索引 并不能精确的描述内容复杂多变的视频数据。进入九十年代以来,为了能够方便准确的 搜索视频数据,出现了基于内容的视频分析和检索研究,并取得了一定的进展,其目的 就是通过对视频内容进行计算机处理、分析和理解,并建立结构和索引,以实现方便有 效的视频信息获取。 所谓基于内容的视频检索,是指根据视频的内容及上下文关系,对大规模视频数据 库中的视频数据进行检索,主要是依赖视频数据中的视觉特征以及时空特性,进行这些 特征相似度衡量,最通常的方式是提交样例视频,查询类似的视频。它与文本标注方式 结合,能在大规模的视频数据库中检索到用户需要的视频。它突破了传统的基于表达式 的检索的局限,直接对视频内容进行分析,提取视频中的颜色、形状、纹理等内容特征, 并利用这些特征建立索引,根据计算示例视频与目标视频特征索引之间的相似性距离, 按相似度匹配进行检索。 基于内容的视频检索已成为多媒体领域一个活跃的研究方向,可是人们习惯使用高 层语义概念判断相似性,但是现有的视频内容检索大多是非语义层面的。由于低层特征 和高层语义概念之间存在语义鸿沟,在语义概念层次进行视频内容的描述和操纵面临巨 大的困难。如何从视频内容中提取人类思维中的语义概念,成为视频内容检索的新焦点。 第一章前言 语义视频检索方法的目的是利用人思维中高层语义概念( 低层特征对用户不可见) 来进 行视频内容过滤、概要、检索。要达到语义检索白q 目的,关键是需要在分析和理解视频 内容的基础上,用人类意识思维中的高层语义概念将视频内容表示出来。跨越语义鸿沟, 最终达到语义概念级的视频检索,正成为目前视频内容检索中最具有挑战性的研究内 容。 在本课题中,主要是研究基于语义的视频检索,目的就是要找到更好的能够跨越低 层特征和高层语义概念之间的语义鸿沟的方法,以及与之相适应的视频语义提取模型, 以实现基于语义的视频检索,使得基于语义的视频检索在基于内容的视频检索中扮演更 加重要的角色。 1 2 视频检索的研究现状 视频信息检索是多媒体领域的重要研究课题,是跨越图像处理、计算机视觉、模式 识别、人工智能以及数据库等领域的交叉学科,是对文本、图像、声音等多种媒体形式 的综合分析和查询。 1 2 1 基于内容的视频检索 当前的视频检索系统主要有三类:一是基于目录型文本数据的检索方案,通过文 本匹配实现检索;二是基于视频结构数据的检索方案,通过为原始数据建立一个在语义 上和结构上的层次结构,实现对视频数据的检索;三是基于特征数据的检索方案,通过 比较关键帧的相似度实现视频检索。 目前,国内外已经研发出了多个基于内容的视频检索系统,主要有: ( 1 ) q b i c ( q u e r yb yi m a g ec o n t e n t ) 系统 该系统是由i b ma l m a d e n 研究中心开发的,是基于内容检索系统的典型代表。 q b i c 系统允许用户使用例子图像、用户构建的草图和画图及其选择的颜色和纹理模式、 以及镜头和目标运动等图形信息,对大型图像和视频数据库进行查询。视频方面主要运 用了颜色、纹理、形状、摄像机和对象运动来描述内容。 ( 2 ) v i s u a l s e e k 系统 v i s u a l s e e k 系统是美国哥伦比亚大学研究的一种在互联网上使用的基于内容的检 索系统。它实现了基于内容的图像、视频检索,提供了一套供人们在w e b 上检索视频 的工具。 2 中国石油大学( 华东) 硕士学位论文 ( 3 ) v i d e o q 系统 v i d e o q 系统是哥伦比亚大学的一个研究项目,它扩充了传统的关键字和主题导航 的查询方法,允许用户使用视觉特征和时空关系来检索视频。 ( 4 ) t v f i 系统 t s i n g h u av i d e of i n di t 是清华大学开发的视频节目管理系统,该系统提供多种模式 访问视频数据,包括关键字的查询、基于示例的查询、按视频结构进行浏览、以及按用 户自己预先定义的类别进行浏览。 ( 5 ) i n f o r m e d i a 数字视频库工程 i n f o r m e d i a 数字视频库工程是卡耐基梅隆大学( c m u ) 关于数字视频媒体的处理与管 理的一个重大项目。i n f o r m e d i a 是较为完整的基于内容视频分析原型系统的先驱。该系 统率先将数字音频处理技术和文本处理技术运用到基于内容视频分析中。通过语音识别 和文字识别获取视频语义、辅助视频分段、抽取有意义的视频片段生成视频摘要。支持 自动的全方位的视频信息查询,以支撑基于内容的视频浏览、检索和服务。 ( 6 ) j a c o b 系统 j a c o b 系统是基于内容的视频数据库查询系统,分为两个功能模块:第一个模块 用于视频数据库中的分段;第二个模块用于数据库查询。视频序列通过镜头抽取模块被 划分为镜头,从每一个镜头中抽取一些代表帧,并通过它们的颜色和纹理内容对镜头加 以描述。 1 2 2 基于语义的视频检索 当前基于内容的视频检索系统主要利用视频图像的基本特征,以及综合各种视觉特 征进行联合检索,其缺点是不能有效地提取并利用视频流中语义信息实现检索。如何定 义及理解视频语义,计算机如何自动提取视频的语义信息,使其尽可能与人对视频内容 的理解保持一致,使计算机检索视频的能力接近于人的理解水平,从而达到视频检索语 义处理的最终目标,是当前基于内容的视频检索技术研究的关键问题。又由于低层特征 对于语义表达的局限性造成的语义鸿沟以及查询样本信息的不完善性,很难达到复杂语 义信息查询的要求。因此,对视频语义信息建模,提取高层语义特征就成为基于语义的 视频检索研究的重要内容。 基于语义的视频检索要实现复杂语义层次上的视频查询,就必须对视频信息在语义 3 第一章前言 层次上建模,实际上就是分析各类媒体数据,提取描述视频语义方面的信息。视频是一 种复杂的信息表示形式,其中包含多种媒体格式,。如图像、音频、文本等,这些多媒体 信息以无格式或半格式形式存在,从不伺的角度表现了视频数据在各个不同方面的特 征,因此需要有效地组织这些特征,使其能够准确地表达特定的语义概念,从而通过对 低层物理特征进行建模完成高层语义特征的提取 1 】。 对于视频语义信息建模以及高层语义特征提取,最常用的方法就是模式识别【2 】, 主要包括以下几种方法: ( 1 ) 模板匹配:将需要识别的模式与已经学习好的模板进行比较,允许尺度和姿态 上的变化。 ( 2 ) 统计分类:通过统计学习得到的分类器,利用从模式中提取的特征对未知模式 进行分类。 ( 3 ) 句法或结构匹配:通过与已经学习好的词根或语法规则进行比较来识别未知模 式。 ( 4 ) 神经网络:利用已经学习好的神经网络对未知模式进行识别。 对于视频语义信息的建模和表示;经过多年的研究己有产生许多方法,乃至发展较 为成熟系统。较为著名的研究有由美国n s f 、a r p a 和n a s a 资助的数字图书馆项目, 其主要目标是研究:搜集、存储和组织数字信息的新技术,通过网络实现信息的搜索, 检索和处理。共有六所大学参与该项目的研究,内容涉及多媒体数字信息管理和分析的 各个方面,其中针对视频语义信息建模方面的研究包括:自动内容分析、摘要提取、语 音识别、图像理解和自然语言处理等。m m 的c u e v i d e o 项目,也在视频内容分析和理解 等领域进行了相关研究,采用包括视频和音频分析、语音识别、高层语义理解和人工智 能等技术,对视频语义内容进行分析。 另外,在美i 虱n i s t ( n a t i o n a li n s t i t u t eo f s t a n d a r d sa n dt e c h n o l o g y ) 主办的关于视频 检索的国际性评测会议t r e c v i d 中,视频语义信息建模( 也称为高层语义特征提取) 也作 为评测任务之一,用于对视频语义信息建模方面研究成果的评比和展示,从而进一步推 动该领域研究的发展。从2 0 0 1 年至今,诸如c m u 、m m 等研究机构已经相继提出了一 些优秀的高层语义提取算法,并且取得了较好的研究成果 3 】 4 】。 在视频的语义提取方面,h a r r y 和m a r i o s 5 】已详细分析了视频语义层的语义模型, 从各方面分析了物体、事件和行为的语义模型。r n a p h a d e 6 】已提出了视频检索的训 练语义概念的三步骤:标注集的界面;基于标号样本的语义概念的表示框架;基 4 中国石油大学( 华东) 硕士学位论文 于关键词的查询系统。在视频的语义模型方面,l e e s 提出了一种新的视频语义模型来 表达了视频的语义,根据视频的知识数据库划分了五层结构模型,包括原始数据层和语 义数据层。在视频的语义x e j - g t 提取方面,尽管提取的方法文献年提到的很多,但是现在 准确的提取语义的视频对象的方法却还是非常困难的。目前大多数视频语义物体自动提 取方法都是利用了运动信息生成语义对象。另外的方法还有f u h u il o n g 提出了的视频语 义提取方法,不单利用了视频序列的第一帧和所有帧进行时空分割而且自适应完成时空 分割和融合,并具有较低的计算复杂度。f a n 7 等采用多层分析建立中间层的语义视频 概念,用显著对象作为低层特征与高层语义间的中间层,在医学视频中推理提取语义概 念,来缩短低层特征与高层语义概念间的鸿沟。 综上所述,目前基于语义的视频检索要处理的两项关键技术就是解决视频低层特征 和高层语义概念间的语义鸿沟以及有效的语义提取模型。尽管这两项关键技术都有前人 做出了相关工作,但是准确的视频语义对象的提取还非常困难,相关的语义提取模型也 不适合普遍适用。 1 3 主要研究内容 本文中,分别从视频语义对象的提取和视频语义提取模型两个方面来进行研究。 视频语义对象提取 对目前已有的视频语义对象提取方法进行深入的研究,分析并实现常用的视频语义 对象提取方法,进行相应的实验。同时,针对这些视频语义对象提取方法的各自的优缺 点,试图找到一种能够更好的提取视频语义对象的方法,这个方法应该具有较低的计算 复杂度和较高的准确性。 视频语义提取模型 对已有的视频语义提取模型进行深入分析研究,并针对各自的优缺点,争取找到一 个与本课题提出的提取视频语义对象方法相适应的视频语义提取模型,并进行相应的性 能评估。 1 4 论文组织结构 论文组织结构如下: 第一章前言。主要阐述了本课题的研究背景,简要分析了其研究意义,概括了主要 研究内容,介绍了相关技术与发展现状。 第二章基于语义的视频检索技术。本章为论文的前期准备工作,主要是对基于语义 5 第一章前言 的视频检索的两个关键技术问题视频语义提取和视频语义对象提取方法进行了详 尽的描述和总结,另外还对视频检索的性能评估方法做了简要的介绍。 第三章基于视觉注意力的视频语义对象提取。本章提出了一个新的视频语义对象提 取的方法,该方法通过引进人类视觉注意力选择机制,从而得到时空联合的视频语义对 象。这种新的视频语义提取方法,不仅能检测出视频中运动的时域语义对象,也能检测 出视频帧静态图像中的给人以强烈刺激的空域视频语义对象。为了降低该方法的计算复 杂度,我们还利用视频的特性,通过构造待检测视频序列的“新镜头 来降低计算量。 第四章多层次网络化视频语义提取模型。本章提出了二个新的多层次网络化视频语 义提取模型,这个模型能够与我们上面提取的视频语义对象相适应,利用视频语义对象 作为中间层,通过层次间的关联推理出高层视频语义概念,最终跨越低层特征与高层语 义概念间的语义鸿沟。 第五章是总结与展望。对本文的工作进行总结,介绍主要的创新之处以及下一步工 作的研究方向。 最后列出了本文的相关参考文献。 6 中国石油大学( 华东) 硕士学位论文 第二章基于语义的视频检索技术 2 1 引言 随着多媒体技术的不断成熟和高效存储技术的快速发展,数字化媒体信息急剧膨 胀,为了实现对海量多媒体信息的高效访问,多媒体信息处理和检索工具的研发就成为 当务之急。视频是多媒体信息中最复杂的一种,是集图像、声音和文本等为一体的综合 性媒体信息。它是在时间上连续的一系列帧的集合,是没有结构的流数据,如果没有有 效的索引,人们就不得不采用“快进”和“快倒 这种耗时的方式查找感兴趣的信息。 随着数字化视频数据量的迅速增加,传统耗时的浏览方式己远不能满足人们对视频内容 的访问和查询需求。人们越来越希望能在海量视频库中快速找到自己感兴趣的视频片 段,因此对视频内容进行分析和标注,以及给视频数据建立有效的索引结构就成为当前 研究的热点问题。 当前视频信息检索的研究主要集中在两大类:一类是基于视频低层特征的样例查询 ( q u e r yb ye x a m p l e s ) ;另一类是基于视频描述信息的语义查询( q u e r yb yk e y w o r d s ) 。第 一类属于基于样例的查询,是利用用户给出的查询样例,提取样例视频和数据库视频的 低层物理特征,并根据一定的相似度度量,通过计算二者之间的相似度得到用户所需的 查询结果。第二类属于基于关键词的查询,是通过对视频库中的视频数据进行高层语义 分析,通过用户提供的查询关键词对视频内容进行检索。这两类视频检索方法分别从低 层物理特征和高层语义特征两个方面对视频内容进行分析和检索,是视频检索领域两个 重要的研究方向。 基于内容的视频检索系统的检索过程:首先,将视频流数据结构化。即通过镜头边 界检测技术将原始视频分割成镜头,并利用关键帧提取技术获得视频关键帧图像;然后, 提取镜头与关键帧的特征,并存入视频数据库;最后,系统依据用户提交的查洵条件( 关 键字、视频样例等) 进行检索,将检索结果按相似程度返回给用户。用户与自己的期望 结果进行相关性比较,并给出正负相关反馈信息,系统则根据用户反馈再次检索,直至 检索结果满足用户需求为止。基于内容的视频检索系统构成如图2 1 所示。 7 第二章基于语义的视频检索技术 图2 - 1 基于内容的视频检索系统 f i 9 2 - 1c o n t e n t - b a s e dv i d e or e t r i e v a ls y s t e m 2 2 基于语义的视频检索 为了能有效快捷地对海量视听信息进行过滤、浏览和检索,人们提出了基于内容的 视频检索( c o n t e n t - b a s e dv i d e or e t r i e v a l ,c b v r ) 技术,并取得了一定的进展。但是人们 习惯使用高层语义概念判断相似性,现有的视频内容检索大多是非语义层面的。由于低 层特征和高层语义概念之间存在晤义鸿沟( s e m a n t i cc a p ) ,在语义概念层次进行视频内 容的描述和操纵面临巨大困难 9 】。如何从视频内容中提取人类思维中的语义概念,成 为视频内容检索的新焦点。跨越语义鸿沟,最终达到语义概念级的视频检索,正成为目 前视频内容检索中最具有挑战性的研究内容。 2 2 1 基于语义的视频检索系统的总体架构 基于语义的视频检索系统主要由3 个模块组成,即原始视频处理模块、语义概念提 取模块和用户检索模块。系统首先在时域上将视频分割为镜头。由于同一镜头由相关性 比较强的图像序列组成,所以可以用一幅或者几幅图像帧来表示该镜头,这些图像帧被 称作该镜头的关键帧。通过提取关键帧可以去除镜头中冗余的视觉信息。对得到的视频 镜头以及关键帧图像提取底层特征,然后利用语义提取模型建立底层特征与高层语义间 的映射,提取语义概念,以进行高层语义概念的检测。最后,将语义概念存储在视频语 8 中国石油大学( 华东) 硕士学位论文 义数据库中,设计以语义概念为检索条件的用户检索界面,根据查询语义词,返回给用 户所需要的视频镜头,从而实现在语义层对视频内容的检索。基于语义的视频检索系统 构成如图2 - 2 所示。 图2 - 2基于语义的视频检索系统 f i 蛇- 2s e m a n t i c b a s e dv i d e or e t r i e v a ls y s t e m 2 2 2 基于语义的视频检索系统关键问题及解决方法 2 2 2 1 语义鸿沟难题 访问多媒体视听数据,最自然的方法是通过高层语义概念来进行操纵。语义视频检 索方法的目的是利用人思维中高层语义概念( 低层特征对用户不可见) 来进行视频内容 过滤、概要、检索。要达到语义检索的目的,关键是需要存分析和理解视频内容的基础 上,用人类意识思维中的高层语义概念将视频内容表示出来,即用抽象的非几何方法表 达出来。但由于视频低层特征与高层语义间存在语义鸿沟,要实现最终的基于语义的视 频检索,如何跨越低层特征与高层语义间的语义鸿沟将是研究者迫切解决的难题与关键 问题。 如图2 3 所示,低层的特征空间包括视觉、声音、文本等特征,这些特征般可以 9 第二章基于语义的视频检索技术 自动从视频数据中提取。低层次的特征空间包含多个子空间,以视觉特征中颜色特征子 空间为例,可以采用色度( h u e ) 、饱和度( s a t u r a t i o n ) 、亮度( i n t e n s i t y ) - - - 基形成h s v 颜色 子空间。语义概念空间对应于人们通常思维中的高级语义概念。从认知层次角度进行视 频语义划分的语义概念,主要包括事件、场景地点和对象三类( 事件:火、烟、火箭 发射等;场景:绿地、陆地、户外、外层空间、沙、天空等;对象:飞机、船、火箭、 车、鸟等) 。两个空间的变换不是线性变换( 线性变换实质是采用一组新的基代替原空间 的基) ,这种变换映射很难用数学方法描述并建立模型,这是语义鸿沟出现的根本原因。 尽管计算技术不断发展,但让计算机准确地理解视频中的语义概念仍是个难题,因此要 完全跨越语义鸿沟是十分困难的。 2 2 2 2 跨越语义鸿沟方法 图2 - 3 语义鸿沟 f i 9 2 - 3s e m a n t i cg a p 当前对“视频语义”的理解是:用人可以描述、理解和表达的方式来实现“视频内 容 的映射,它是用来描述原视频内容的高度概括和抽象的名词。最简单的语义表示方 法是利用文本。其优点是可以描述一些高层的抽象的概念,并且比较直观,容易处理。 然而由于视频本身内容的复杂性和多样性,在现有技术条件下不容易自动获取完整视频 内容的文本描述。 视频综合应用图像、声音、文字等信息表达特定的主题,所以采用多模式融合和多 层次分析技术进行视频语义提取,将是尝试跨越语义鸿沟的最有效途径之一。将场景镜 头中提取的多模式特征( 图像、声音、文字等) 作为后续语义提取模型的输入,即特征融 合。这种融合往往产生高维特征矢量。直接将低层特征映射到高层语义概念很难实现, 1 0 中国石油大学( 华东) 硕士学位论文 而多层次分析可将高层语义分解为一系列可识别的低层原型及各原型和高层语义的约 束关系。低层基本事物与低层特征可直接产生映射。从低层原型事物出发,通过推断便 可提取语义概念。如图2 _ 4 所示,我们采用多层分析建立中间层的语义视频概念,厢显 著视频语义对象作为低层特征与高层语义间的中间层,在它们之间构建一座桥梁,并最 终跨越了低层特征与高层语义间的语义鸿沟。 高层语义概念 jl i 低层语义单元 下 对e i 低层多模式特征 图2 - 4 跨越语义鸿沟框架 f i 9 2 - 4s o l v es e m a n t i cg a pf r a m e w o r k 在本课题中,我们利用视频语义对象作为中间层,并采用与之相适应的多层网络化 语义提取模型来提取视频高层语义概念,最终跨越低层特征与高层语义间的语义鸿沟, 以实现基于语义的视频检索。 2 3 视频语义提取方法 目前提取视频语义的主要方法包括概率统计方法、统计学习方法、基于规则推理的 方法、结合特定领域特点的方法等 2 3 1 概率统计方法 概率统计方法将视频语义对象提取看作是待提取视频语对象( 此对象类别未知) 的 分类问题,利用模式分类方法来尝试跨越语义鸿沟。 语义检索的随机方法关注的是模型概率特性,其核心思想是用随机数学方法来描述 对象的不同特征并在此基础上建立多媒体概念模式分类器。如图2 5 所示,视频语义概 念模式的分类器主要包括多媒体语义对象模型和多媒体语义网络模型。建立分类器的过 第二章基于语义的视频检索技术 程要涉及两方面,即给定一般的模型或分类器的形式及利用训练样本去学习或估计模型 的未知参数。 视频内容分析 上 0 、特征描述的内查 区域特征 全局特征 1 l 语义概念模式分类识别器) 多媒体语义对象模型广1 多媒体语义网络模型 i l 上 视频语义概念 图2 5 语义视频检索随机方法框图 f i 9 2 - 5d i a g r a mo fs e m a n t i cv i d e or e t r i e v a lr a n d o mm e t h o d ( 1 ) 多媒体语义对象模型 视频的任意部分( 片段) 内容都可以理解为在某一地点或场景下存在或发生的事件。 依据此理解,提出多媒体对象的语义概念。多媒体对象是多种层次特征( 即包括低层次 的声音、图像、字幕特征,也包括分割的特征,还包括诸如人脸识别器等高层次的特征 探测器) 所支持的一种概率模式。多媒体对象利用概率结构模型作为中介,使低层次特 征和高层次语义概念间产生联系。通常来讲,多媒体对象不仅在帧内的空域具有空间上 的随机性,而且在每一个帧的时间序列及音频时间序列中还具有时间、空间上的随机性 质,所以通常在此模型中将低层的特征作为一个随机变量x ( 矢量) 。一般可以采用贝叶 斯决策理论建立的贝叶斯分类器来作为语义对象分类模型 1 0 】。 具体来讲,可以把观察到的特征值表示为多维随机变量x ( 向量) ,定义可能的假设 h ( 较简单的方法可以采用定义两个假设风和县,其中凰表示语义概念对象出现,县表 示语义对象未出现) 。对每一个假没,定义特征的条件概率密度函数和先验概率。通常 用贝叶斯决策理论在可能的假设间做决策时,认为条件概率密度函数是已知的。对静态 地点类语义概念,可用高斯混合模型( g m m ) 来得到其条件概率密度函数。对于同时具有 1 2 中国石油大学( 华东) 硕士学位论文 时空关系特性的事件和对象而言,用隐马尔可夫模型( h m m ) 得到每种假设下对应的条件 概率密度函数。 由于隐马尔可夫模型在语音识别方面应用效果较好,所以目前主要采用h m m 建立 多媒体声音对象、事件模型。在视频中的声音往往是多个不同声音源的合成( 比如背景 音乐和前景声音往往同时存在) ,混合音源中提取语义概念是音频语义的主要研究内容。 ( 2 ) 多媒体语义网络模型 用语义对象模型分类得到的语义概念之间并不是相互孤立的。在视频内容的上下文 背景中,语义概念间存在彼此的联系。多媒体对象网络就是描述对象间这种强关联性。 比如,天空、雪出现在户外的概率较大,人讲话时往往伴随嘴唇的活动等。为描述帧层 次上语义概念间的关系,可用加权图来建立模型。加权图包括贝叶斯置信信念网( b n ) 和马尔可夫随机场,其中用得较多的是贝叶斯置信网。b n 是描述联合概率分布的有向 无环图的拓扑形式。贝叶斯网络是用来表示变量间连接概率的图形模式,它提供了一种 自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示 语义概念,有向边表示语义概念间的依赖关系【1 1 1 。 语义网络可以间接提高模式分类器的语义概念识别能力,一些难以直接探测的语义 概念可以通过其他容易探测的相关对象推理而得。比如海滩概念难以直接探测得到,但 海滩的景色常伴随水、沙、树、船等容易识别的语义对象。因此可以通过水、沙、树、 船间接得到海滩语义,同时推断出这是一个户外景。 网络模型目前应用较成功。h o o g s 1 2 在处理视频中大量的对象、事件和场景时,将 语义对象分类与语义数据库相结合。由于此方法结合电子词典数据库w o r d n c t ,所以对 象和事件的识别能力得到大大增强。c h c n g 1 3 提出基于语义网络的语义联合模型,此模 型利用不同镜头间对象的关系来描述镜头间内容的相互关系,在形式上用六元组定义的 联合模型表示。l u o 1 4 用动态贝叶斯网和层次隐马尔可夫模型建立由粗到精的语义概念 模型。w a n g 1 5 等在文献中以智能代理确定网球的轨迹和落点,以之作为改进的贝叶斯 网络分类特征,分类后得到语义标签。 ( 3 ) 模式分类器的训练和学习 利用样本数据来确定分类器的过程称为训练分类器。在多媒体语义对象模型方法中 需要用到e m 算法来估计期望、协方差矩阵、g m m 和h m m 的混合比例,以及h m m 中 的转移矩阵。在机器学习算法的经验分析方面,可利用u c i 机器学习知识库中的数据。 语义概念模式分类器学习过程如下图2 6 所示。待学习的语义概念或函数称为目标 13 第二章基于语义的视频检索技术 概念,记作c 。一般来说c 可以是定义在实例集上的任意布尔函数,i i p c - x 专 o ,l 。概 念定义在一个实例集合之上,这个集合表示为x 。在学习目标概念时,必须提供一套训 练样例,每一个样例为x 中的一个观察值x 及其目标概念值c ( x ) 。对于c ( 炉0 的实例称为 反例或称为目标概念的成员。对于c ( x 产1 的实例称为正例或称为非目标概念的成员。训 练样本集中每个样本的类别归属是( 在人的参与下) “被标记了 的,通常在语义训练中 用到的是有监督学习。分类器学习的目标就是寻找一个假设h ,使对于x 中的所有x ,有 h ( 炉c ( x ) 【1 6 】。 图2 - 6 语义概念模式分类器学习过程 f i 9 2 6l e a r n i n gp r o c e s so fs e m a n t i cc o n c e p tp a t t e r nc l a s s i f i e r 2 3 2 统计学习方法 语义概率方法( 传统的统计模式识别方法) 研究的是样本数趋向无穷大时的极限特 性,是一种渐进理论。其性能在样本数足够多的前提下才能达到理论效果。而视频检索 中样本数目往往有限,因此如何应用有限样本情况下的统计学习理论进行语义概念提 取,也是研究的重点之一。 支持向量机( s v m ) 基于统计学习理论,建立在计算学习理论的结构风险最小化原则 之上。其目的是在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误 1 4 中国石油大学( 华东) 硕士学位论文 率。此类模型在只有小训练样例集的情况下,分类效果较好。如n a p h a d e 1 7 利用s v m 作为主动标注和主动学习的内在分类器。这种以支持向量机为基础的标注器建立在少量 已标注的数据之上,每次新数据学习后,分类器参数都会相应更新。 2 3 3 基于规则推理的方法 以上两种方法的理论基础都是模式分类,实质上是分类器通过学习训练样例由系统 内部产生分类标准。而基于规则推理的方法则考虑直接从系统外给定分类标准,即规则。 此类方法主要是根据视频内容特点,结合专业知识( 往往由专家参与) 定出相关的推理规 则。 基于规则推理方法可以定义为集合r r :f 专c ( f 是特征集合,c 是语义概念集合) 若对于f a n d c c ,c 依赖于f 则存在一个规则:f - - c r 。 图2 - 7 基于规则的语义提取方法 f i 9 2 - 7r u l e - b a s e ds e m a n t i ce x t r a c t i o nm e t h o d 图2 - 7 为基于规则的推理方法主要组成框图。此类方法主要是根据视频内容特点, 结合专业知识( 往往由专家参与) 定出相关的推理规则。推理规则的实质是给出语义分类 的阈值,利用一系列的门限值构成语义概念分类器。不同内容的视频流经视频分析后以 镜头为单位提取特征,进行推理分类并提取对应的语义概念。语义事件规则的制定有两 类:一是依据可视特征和时空关系来定制,另一种是根据对象在现实中的关系定制。同 时再加上时域上定义的相互位置关系和逻辑运算关系,便可实现预定义的语义对象、事 件的检索。确定性事件选择首先以低层的视听线索特征来表示事件,比如足球比赛中 1 5 第= 章基于语义的视拯检索技术 采用场地颜色、摄像机运动和边界等表示。在这些具有特征性质的线索被探测后,再根 据针对特定领域所制定的规则进行推理。得出语义概念。 3 34 结合特定领域特点的方法 通过限定、缩小视频领域是目前跨越语义鸿沟的有效方法之一。限定特定的领域后, 语义概念和事件的随机性就被缩小了。以上是此方法的理论基础。结合特定领域特点的 方法建立在对特定领域视频数据独立性质的分析上。通常结合应用领域的背景知识。简 化从低层特征到高层语义概念的映射关系。具体方法大多利用视频对象的位置、对象在 时问轴上的变迁与特定语义事件的关联等来实现。此类方法提出时间较早,目前应用 效果也比较满意。r a u t i a i n e n 1 8 利用建筑对象在垂直和水平方向的直方图累计量较大 的特性,用边界方向相关矢量或统计的边概率直方图来区分自然景色和城市语义。在新 闻节目中,f a n 建立层次语义概念分类器,每个节点对应一个语义概念。在影片语义 分析领域,r a s h e e d 1 9 】结合影片的特点只用四个视觉特征( 平均镜头长度、颜色差异、 运动内容和灯光) 将电影分为悲剧、动作、戏剧和恐怖片几种类型,达到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学习全国“两会”精神应知应会知识测试题附答案
- 教师招聘之《小学教师招聘》通关训练试卷详解参考答案详解
- 2025年教师招聘之《幼儿教师招聘》模拟试题附答案详解【满分必刷】
- 2025呼伦贝尔农垦那吉屯农牧场招聘笔试模拟及答案详解1套
- 2025年教师招聘之《幼儿教师招聘》模拟题带答案详解(黄金题型)
- 2025年教师招聘之《幼儿教师招聘》综合提升测试卷完整答案详解
- 内蒙古鄂尔多斯风电厂招聘笔试题库2025
- 教师招聘之《幼儿教师招聘》复习试题附参考答案详解【培优】
- 2025年教师招聘之《小学教师招聘》题库高频重点提升(共100题)带答案详解(夺分金卷)
- 2025年教师招聘之《小学教师招聘》考前冲刺测试卷包及完整答案详解(全优)
- 2025年职业卫生标准试题及答案
- 创新社区治理新路径
- 2025-2030中国智慧城市建设项目投资规模与运营效益评估报告
- 校园常见传染病防控知识课件
- 2025部编版八年级历史上册 第二单元 早期现代化的初步探索和民族危机加剧(大单元教学设计)
- 百师联盟2025-2026学年高三上学期开学摸底联考化学试卷
- 短波无线电通信原理课件
- 2023年度中国人民抗日战争纪念馆招聘4人笔试备考题库及答案解析
- 针灸治疗肩痛的技术与方法课件
- 铝合金门窗 工程监理实施细则
- 风电工程电气监理细则资料
评论
0/150
提交评论