




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)基于内容的视频检索系统研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要基于内容的视频检索系统是将视频结构化并依赖视频数据中的视觉特征以及时空特征进行相似度衡量的系统。其融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,是当前计算机视觉、视频数据库与数据挖掘等领域研究的热点之一。本文首先讨论了目前国内外基于内容视频检索领域的研究现状和发展趋势;然后对基于内容的视频检索的关键技术和方法进行了研究,并着重研究了自动门限检测算法及改进;接着论述了基于内容的视频段检索的基本概念,并对视频检索的形式和视频的相似性度量进行了研究,给出了一种视频检索性能评价的标准;最后设计了一个通用的基于内容的视频检索系统框架,并实现了一个实验系统,从实验结果看,该系统具有较好的视频检索效率和准确率。关键词:视频检索镜头检测关键帧提取视频数据模型场景提取a b s t r a c ta b s t r a c tc o n t e n t - b a s e dv i d c or c t r i e v a l ( c b qs y s t e mi sas y s t e mw h i c hs t m d u r e st h ev i d e od a t aa n du s c st h es t i hf e a t u r e sa n dm o t i o nf e a t u r e st or c 仃i e v et h ew a n t e dv i d e o sb ys i i n i l a r i t yd e 笋e e c b v rc o m b i n e sm et 1 1 e o r i e sa l l dt e c h n o i o 垂e so fd a t a b 弱e ,a n i f i c i a li n t e l l i g e n c e ,m a c h i n el e a r i l i n 舀a n ds t a t i s t i c s ,a l l di ti s0 n eo ft h em o s ta c t i v eh o tp o i n t si l lt h cc u 玎c mr c s e a r c hf i e l d ss u c h 舔t h ec o m p u t e rv i s i o n ,v i d e od a t a b a s e ,d a t am i n i n ga n ds oo n 1 1 l i sp a p e r t j r s t l yd i s c l l s s e st h ep r c | e md o m e s t i ca n df o r c i 印r e s e a r c hs i t u a t i o n 柚dd e v c j o p i n gt c n d c n c y c b v r ;t h e ns t u d i e st h ek e yt e c h n 0 1 0 季e sa n dm e t h o d s 锄c b v r ,柚dp a r t i c u l 训ys t u d i e st h ea u t o m a t i ct h r e s h o i da i g o r i t h m 锄di t si m p r o v 锄e n t ;a n dt h e nd i s c i l s s e st h eb a s i cc o n c e p to ft h ec o n t c n t - b a s e dv i d e os e g m e n tr c 们e v a l ,r c s e a r c h e st h em e a n so fv i d e os e g m e n tr c t r i e v a la n dt h es i m i l a r i t yo fv i d e o ,舀v e st h ep e ! o f m a j 】c ee v a l u a “o ns t 粕d a r do fv j d e or e t f i e v a l ;伽a l l 弘t h j sp a p c rd e s j 印sag e n e r a lf f a m e w o r ko ft h e 鲫l 把n t - b a s e dv j d e or e t r i e v a ls y s t e m ,i m p l e m e n t sa ne x p e r i m e n t a ls y s t e m ,a n dp r 0 v e db yt h ee x p e f i m e n t s ,t h ee x p c r i m e n t a ls y s t e mh 蕊b e t t e rr c t r i e v a le 施d e n c ya n da c c u r a c y k e y w o r d s :v i d r e t r i e v a ls h o td e t e c t i o nk e y - f h m ee x t r a c t i o nv i d d a t am o d e is c e n ee x t m c t i o n创新- 陛声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或其他教育机构的学位或证书而使用过的材料。与我一同工作过的同志对本研究所做的任何贡献已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:叁塾翌日期建! 翌:兰:三z关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定)本学位论文属于保密在年解密后适用本授权书。本人签名:丢氟呈本人签名:登! 左导师签名7 乏蠡制、日期c 渔丑。立! 苎z日期型乒主专l第一章绪论第一章绪论1 1 课题的研究背景及研究意义自上世纪九十年代以来,随着多媒体技术的发展,多媒体数据呈现出爆炸性地增长,包括视频、音频、图像的多媒体信息大量涌现。而在各种多媒体素材( 包括文本、图形、图像、音频、视频和动画) 中,视频信息以其直观性、生动性和极大的亲合力倍受人们的青睐。尤其是近年来,随着计算机技术、网络技术、通信技术、信息编解码技术及大规模集成电路技术的飞速发展,数字视频的存储和传输技术都取得了重大的进展,因而如何对这些海量信息进行组织、建库以达到快速、有效的检索成为当今人们需要迫切解决的问题。传统的多媒体检索技术大多能够很完善的进行基于文本的检索,但这种方法非常适用于结构化的文本和数值纪录信息的检索,将其应用于当前海量多媒体信息检索,会有很多困难。因为多媒体信息同文本数值有着本质的区别:( 1 ) 多媒体信息具有非结构化的特性。过去的信息是以离散形式存储在关系数据库或者网络上,并以结构化查询语言或者超链接查询检索。而多媒体信息具有较强的非结构化特性,它都以流的形式存在( 比如视频流、音频流) ,很难简单的用几个关键词来表征。( 2 ) 多媒体信息具有内容的多义性。在传统的数据库中,每个记录所包含的语义信息是确定而有限的,而多媒体信息中同样的内容在不同的应用中具有不同的解释,即具有多义性的特点,把这种解释都用关键词来表示是不可能的。在这种情况下,建立在媒体信息基础上的基于内容的检索c b r ( c o n t e n tb a s e dr e t r i e v a l ) 就应运而生了。所谓基于内容的多媒体检索就是根据媒体和媒体对象的内容以及上下文关联在大规模多媒体数据中进行检索。本文主要是针对基于内容的视频检索( c b v r ,c o n t e n t b a s e dv i d e or e t r i e v a l ) 系统进行研究与实现。基于内容的视频检索融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。基于内容的视频检索综合利用了数据库和计算机视觉研究领域中各方面的技术,是当前计算机视觉、视频数据库与数据挖掘等领域研究的热点之一。1 2 国内外研究状况及存在的主要问题1 2 1 国内外研究状况关于基于内容的视频分析与检索,前人已经取得了很多研究成果。目前,国外2基于内容的视频检索系统研究与设计已研发出多个基于内容的视频检索系统,主要有:q b i c 系统【l 】,是由i b m 公司推出的第一个商用的基于内容的图像查询系统,也是“基于内容”检索系统的典型代表。该系统支持示例图像查询和用户草图查询,抽取颜色、纹理、形状特征、镜头和目标运动等信息,并采用r t t r e e 作为高维索引结构,进而结合关键字对大型图像和视频数据库进行查询。0 b i c 搜索引擎运行在i b m o s ,2 和u n 下。j a k o b 是意大利p l e 瑚。大学开发的视频数据库查询系统,该系统通过镜头提取器把视频数据分割成镜头,从每个镜头中选取一些具有代表性的帧,根据颜色和纹理描述这些代表帧,然后计算与这些短序列相关的运动特征,给出一个动态描述,当向该系统提交一个查询或是例子直接查询时,查询模型会对它做出解释,排列好匹配参数,给出最相似的镜头,用户可以浏览这些结果,必要的话,改变参数,反复地进行查询。d e o q 系统【2 j ,由美国哥伦比亚大学研究实现。它扩充了传统的关键字和主题导航的查询方法,允许用户使用视觉特征和时空关系来检索视频。其主要特征有:文本和视觉搜索综合;自动视频对象分割和跟踪;丰富的视觉特征库,包括颜色、纹理、形状和运动;通过w w w 互联网交互查询和浏览。v j m g cs e a r c he n 舀n e 是同时支持图像和视频检索的商业系统,对于视频支持自动分割,镜头关键帧检索,以及使用声音,文本和标题内容进行检索,v j r a g cs e a r c h e n 舀n e 受到i f o m i x 和o r a c l e 数据库系统支持。s u a l s e e k 系统是美国哥伦比亚大学图像和高级电视实验室开发的,它实现了互联网上的基于内容的图像视频检索系统,提供了一套工具供人们在w e b 上搜索和检索图像和视频。m a r s l 3 j ,由u i u c ( u n i v e r s i t yo f i l l i n o i sa tu r b a n ac h a m p a i 印) 开发的多媒体分析和检索系统。从特征提取到建立适当的存储和检索结构,集成了计算机视觉、数据库管理到信息检索三个学科,力图做到合理和高效。国内的主要研究单位如清华大学,复旦大学,微软亚洲研究院,国防科技大学多媒体研究中心等大学等单位,也开展了对基于内容的视频检索技术的研究,获得了一定的成果。i f i n d 信息检索系统是微软亚洲研究院的张宏江博士所带领的小组研制出的系统,取得的成果最为突出。n e w d e o c a r 是国防科技大学多媒体研究开发中心研制开发的新闻节目浏览检索系统。m i r c 是国防科技大学系统工程系研制开发的多媒体信息查询和检索系统。t v f 1 系统,t s i n g l l u a d e of i n dn 是清华大学开发的视频节目管理系统。该系统可以提供视频数据入库、基于内容的浏览、检索等功能,并提供多种数据访第一章绪论3问模式,包括基于关键字查询、示例查询、按视频结构浏览及按用户自定义类别进行浏览。值得一提的是m p e g 7 ,即“多媒体内容描述接口”1 4 j ( m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e 响c e ) ,作为m p e g 组织提出的新标准,制定目标就是定义一种标准化描述接口,为多媒体信息提供快速有效的检索,这也注定了其在未来通用的视频检索中将扮演主要角色、发挥重要的桥梁作用。1 ,2 2 存在的主要问题由于视频具有非结构化的特点,这就要求在基于内容的系统的设计过程中首先解决视频的结构化问题。合理的结构化表示将有助于后续的特征和内容分析及用户检索,但是怎样划分具体的结构仍然是值得探讨的问题。传统的视频是时间顺序的媒体流,要实现基于内容的检索,有效地抽取视频结构是必需的。在这方面前入己作了大量的工作,其中较为成功的是镜头分割。在镜头检测的基础上,就可以实现基于镜头的浏览。由于镜头的单位太小,对于一段较长的视频,镜头数量倍增,有必要抽取更高层的视频单元。目前研究热点集中在结合多类特征( 音频、视频、文本等1 抽取视频的语义和叙事结构上,在多个层次上组织视频内容。此外,为了更为有效的描述视频中的内容,需要从低层次的视觉听觉特征中提取高层次的语义信息,这也是目前研究的难点所在。人们在实际的视频查询中习惯于使用简便的概念,例如用“汽车、海滩、日出”等词语来表达具体的含义,它们属于高层语义的抽象概念。而基于低层特征的检索与这些抽象语义的匹配是一个不可忽视的鸿沟。如果能够建立这些底层的特征与高层语义概念的关联,就能够使计算机自动抽取视频语义。在特定应用领域中,例如面部识别和指纹识别中,已经可以做到这一点。对于一般性的特征,建立起这种关联是非常困难的。最后,怎样综合运用各种知识指导及用户反馈,不断提高视频检索的有效性,也是c b v r 系统设计和实现过程中的难点所在。这里,我们可以在用户交互的基础上,采用语义模板、机器学习、神经网络等方法,建立从底层特征到高级语义的映射,进而实现有效的视频检索。考虑到视频的内容千差万别,不同应用领域下对视频内容和信息的要求也存在很大差异,因此这种按照不同用户学习的方法将有一可能解决视频检索中重要的领域相关问题。1 3 本文的研究内容和组织结构基于内容的视频检索系统是将视频结构化并依赖视频数据中的视觉特征以及时空特征进行相似度衡量的系统。基于内容的视频检索融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,是当前计算机视觉、视频数据库与4基丁二内容的视频检索系统研究与设计数据挖掘等领域研究的热点之一。本论文主要围绕目前国内外基于内容视频检索领域的研究现状和发展趋势,对视频检索的关键技术和方法进行了分析总结,同时设计了一个通用的基于内容的视频检索系统框架,并对其主要的模块进行了实现和实验分析。本文共分六章,各章的主要内容如下:第一章是绪论,论述了本课题的研究背景及研究意义,分析了其国内外研究现状及不足,概括了本文的主要研究内容以及章节安排。第二章首先分析了数字视频基本概念,数字视频的特点与其管理中存在的问题;在对现有的视频数据模型进行了分析对比的基础上,给出了一种通用的视频数据模型;最后讨论了基于内容的视频检索系统的结构和要求。第三章对基于内容的视频检索的下列关键技术:镜头检测、关键帧提取、场景构造,视频索引和浏览等进行了细致的研究,对当前主要的镜头检测和关键帧提取方法进行了总结分析,并重点研究了自动门限检测算法及改进。第四章论述了基于内容的视频段检索的基本概念,并对视频检索的形式和视频的相似性度量进行了研究,给出了一种视频检索性能评价的标准;同时在文中详细的研究了当前的几个经典的视频检索系统,对其的框架结构,工作原理等进行了总结分析。第五章在对现有关键技术和对检索系统的分析研究的基础上,设计了一个通用的基于内容的视频检索系统框架,同时按模块的不同进行了功能分析和详细设计,并对其主要的模块进行了实现和实验分析,从实验结果看,该系统具有较好的检索效率和准确率。第六章是总结与展望,总结了本文所做的主要工作和成果,并指出了其中的不足,进而对今后的发展方向和前景做了展望。第二章基丁内容的视频检索概述5第二章基于内容的视频检索概述2 1 数字视频基础2 1 1 数字视频的基本概念在本文中主要涉及到的数字视频基本概念【5 】有:帧:视频可以看作是一个连续静态图像的序列,其中的每一幅静态图像称为一帧。镜头:由摄像机记录下来的一段连续的帧序列,它是一段视频的物理组成单元。关键帧:一幅能描述镜头主要内容的帧。根据内容的复杂程度,一个镜头可以有一个或多个关键帧。场景:由一些语义相关的镜头组成,这些镜头不一定在时间上连续。场景描述了一个独立的故事单元( 或者说是一个高层概念) 、它是一段视频的语义组成单元。一般来说,一段视频由一些描述独立故事单元的场景构成,一个场景由一些语义相关的镜头组成,而每个镜头是由一些连续的帧构成,它可由一个或多个关键帧表示,其结构如图所示。挽频流个场景t镜头彳赖图2 1 数字视频的结构2 1 2 数字视频的特征数字视频f 叫含有丰富内容,结构复杂,不同于传统的字符型数据,如表2 1所示。一、视频数据量大,信息丰富( 一) 视频数据有巨大的数据量视频数据通常是由某种自动化手段产生的,如用扫描仪、摄像机或者图像采集设备八个图像帧自动输入计算机中,此时数据不是以结构化记录形式表示,而6基丁内容的视频检索系统研究与设计表2 1 字符型数据与非字符型数据的区别标准字符型数据非字符型数据( 视频)信息量少多分辨率低高字符集有限无限解释的模糊性低高解释成本低高相似度易定义不易定义是以数字图像或数字视频的非格式化形式表示。h a m p a p u r 指出,视频数据的数据量大约比结构记录数据大七个数量级。一幅中等分辨率的图像( 6 4 0 + 4 8 0 ) 颜色为2 4 b i t 象素,数字视频图像的数据量大约为1 m b ,如播放速度每秒3 0 帧,则1 秒的数据量约为3 0 m b ,一个6 0 0 m b 的硬盘也只能存放2 0 s 的动态图像。显然,要实现视频数据管理首先必须解决的关键问题就是动态图像的数据压缩编码和解码。目i i m p e g ,d v l ,h 2 6 1 以及q u i c k 啊m e 等压缩标准的压缩比可以达到5 0 :1 2 0 0 :1 。但即使压缩后的视频数据量仍然是相当大的,例如一部普通长度的影片( 2 小时) ,以m p e g 2 标准压缩后数据量仍有1 2 0 0 m 1 4 0 0 m 左右。( 二) 视频数据内容的多样性视频数据作为一种表达信息的媒体,其中包含内容可以分为两类:一类是信息内容( 1 n f 0 册a t i o nc o n t e n t ) ,指视频中包含的语义内容,例如,从一段描述犯罪现场的视频数据中,可以从中找出犯罪地点,背景,犯罪人,犯罪工具乃至作案手段等细节,这些都是语义内容;另一类是音视内容( a u d i ov i s u a lc o n t e n t ) ,指视频中含有的声音和活动图像的表示,如视频中所含的颜色,纹理,物体运动,物体间的关系,摄像机操作,物体形状大小等。其中,信息内容可以通过音视内容表示出来。( 三) 视频数据解释的多样性和模糊性视频数据是连续播放的图像信息,在图像帧中含有十分丰富的信息。不同的人对一副图像或一段视频可能有不同的解释,这就不像字符型数据那样有完全确切的客观的解释,视频数据常常有人的主观因素,如感情,心理等。由于视频数据解释的模糊性,使得进行查询时,无法像字符型数据那样用指定的字段作为关键字精确的查询一个特定的记录。在视频数据库中,往往只能用相似性进行查询,即只能用近似匹配对视频数据库进行查询。二、视频数据结构复杂( 一) 视频数据既有空间属性又有时间属性视频数据和文本数据以及图像数据的结构有很大的不同。文本数据是一种纯字第二章基了:内容的视频检索概述7符数值型数据,不含空间和时间属性,可以看作是一维数据;图像数据是一种具有空间属性的数据,但没有时间属性,可看作是二维数据。对于视频数据而言,则不但具有空间属性还具有时间属性,可以看作是三维数据,空间维是每一帧图像具有空间结构,时间维是指视频是系列的图像沿时间轴顺序分布而形成的一种流结构。因此视频数据具有时空特性,这使得视频数据的表达和模型的建立变的困难。如表2 2 所示:表2 2 视频和文本、图像数据的区别比较标准文本数据图像数据视频数据信息含量少丰富非常丰富数据维度静态一维静本一雉动奈2 维数据组织有结构非结构数据非结构数据数据容量小中等大数据关系简单,易定义复杂,不易定义非常复杂,难以定义( 二) 视频数据单元之自j 运算关系不明确在文本数据中,各数据单元之问的关系运算是明确的,可以比较两个文本数据项之间是相等还是不相等关系。但是,对于视频段之间的这种关系是十分复杂的,难以确切的定义,这就给视频数据库的建立和操作带来许多新的问题。对于非结构化的视频数据,要想直接进行检索是很困难的,因为很难给出两个非结构化的数据之间的相似性度量。即使人为构造视频的结构,由于其主观性,使得数据之间的“相等”或“不相等”的关系十分复杂而且难以定义,只能用其“相似度”这个概念来衡量,这就给视频数据的索引、查询等带来许多问题。对于视频序列之间的相似性运算就难以建立一个合适恰当的标准。2 1 3 视频数据管理存在的问题视频数据所特有的特性给视频数据的管理带来了很大的问题:一、管理单元的确定传统的数据库中的数据管理是以记录作为基本的管理单元,这是简单而明确的问题。但对于视频数据而言,就不是一个容易解决的闷题。首先由于视频数据是非结构化的数据,单元界线的确定,是一个从非结构化到结构化的过程,具有一定主观性。其次从视频流中划分视频单元,也是一件十分困难的工作,完全山人工操作,即耗时费力又有很大的主观成分,自动将视频数据划分为有意义的视频单元则是一项最近兴起的视频处理技术,已经成为视频数据库系统中需要研究的重要问题,在视频检索系统中这项技术称为“切变检测”( c h a n g cd e t e c t i o n ) 。二、视频特征的提取8基于内容的视频检索系统研究与设计在传统的文本数据库中,只要对每一个记录指定用某一个关键字来标示,就可以精确的用于数据库的管理和检索中。但是对于视频数据而言,即使已经分为明确的管理单元,从中提取可以描述自己的特征,却是一项困难的工作。首先这是与人的经验、知识、心理以及对视频信息的理解程度密切相关的,而且并不是所有特征都能用字符描述出来的:其次,还要求对视频内容的描述应给出一个标准化的术语集,以保证不同的操作者能选择统一的特征描述符。一般来说,操作人员应具备视频数据所表达领域的相关知识、有关摄影的知识( 如镜头分类、镜头位置、镜头操作等) 。借助于图像处理、图像理解及计算机视觉等技术,可自动或半自动的提取视频中某些较低级的语义特征( 如颜色分布、纹理等) ,但高级语义特征通常与人的感觉、知识、心理有关,这些特征的自动提取需要依赖知识处理、心理学等学科。以上问题也是视频数据库研究的问题。三、基于内容的检索基于内容的检索指的是根据视频的内部特征进行检索,以提取出与特征相符或相似的视频数据。这种特征可以是已经用字符描述化的,也可能是用一幅图像来描述,也可能是,用一段视频模板来描述。对于每一种查询,都需要结合图像处理、图像理解、知识处理、数据库技术,建立合适的视频数据模型,提取可靠的特征,采用有效的查询算法,使得用户能够在智能化查询接口辅助下完成视频检索工作。四、用户接口的支持传统数据库的接口比较简单,因为对字符型数值查询时,查询输入和输出结构都是明确的。但对于视频数据而言,无论时查询输入还是输出结果都需要描述视频的内容、时间、空间。而且视频数据库不能仅仅是简单的接收用户的描述,而是要协同用户描述查询的思路和内容,并在接口上表现出来,查询结果也不是简单的表格形式,而是直观的视频描述。因此要求智能化用户接口的支持。2 2 视频数据模型视频数据的结构化和视频数据模型的建立,是基于内容的视频分析与检索的基础。对于视频数据管理及视频数据库来说,数据模型的结构和性能将直接影响到后续检索和管理效率【1 2 1 。目前的视频数据模型主要两种:顺序单元模型i l o j ( s e q u e n c em o d a l ) 和层次模型【1 l j ( h i e 豫r c h i c a lm o d a l ,既树状模型) 。顺序单元模型是一种多级的抽象数据模型,将镜头作为视频段的基本单位。镜头是指摄像机从按下“记录”按钮到按下“停止”按钮之间所记录下的内容,是彼此独立的逻辑片段。把视频序列分割为镜头,然后对镜头序列进行顺序化管第二章基于内容的视频检索概述9理。这种基本的顺序单元模型方法比较符合人的一般认识,符合视频的生成过程,而且容易应用到现有的系统。但是这种模型将镜头作为独立的实体,导致了视频序列中重要的上下文信息和语义信息的丢失。后来,学者对这种模型进行了扩充和优化,如r u b i n 和d a v e n p o n 应用一个附加结构即场景( s c e n e ) 将具有相似属性的镜头聚合在一起,而且还加入了一些空间信息,如摄像机位置、运动等。层次化模型方法将视频序列分割为子块集合,这些予块可相互重叠,每个子块代表一个事件,形成一个语义信息,称为层( s t r a t a ) 。每一层在结构上是独立,而且是容易描述的。这种方法充分利用了上下文信息,但是在建模时视频内容分割的过程相当复杂,而且语义内容的确定受当前人工智能、图像理解技术的限制,具有很大的难度。基于上述视频结构模型,本文中应用了一种自底向上的视频结构化的数据模型,下面我们将分别讨论该模型:1 帧图像( f ,a m e ) 。帧图像就是直接从视频中抽取每一幅图像,是视频流的最小单位。普通视频的帧率1 5 2 5 帧秒,所以这一层的数据量是相当庞大的。视频浏览与检索如果建立在这一层,是用户无法接受的。2 镜头( s h o t ) :镜头是视频的重要组成单元,它记录了一段连续发生的相关事件,通常为摄像头一次开关之间拍摄的一段视频帧序列组成。镜头的变换由拍摄位置的改变而发生,表现在视频内容的改变。3 关键帧( k | e yf m m e ) :为了减小数据量,提高检索效率,需要从镜头中提取一定数量的视频图像帧来表达各镜头的内容,这种特殊的视频图像称之为镜头关键帧( k e yf h m e ) 。4 场景f s c e n e ) 。在镜头的基础上,为了抽取高一级的语义单元,需要聚类相似的镜头为场景。场景的表征,我们用场景质心等特征向量来表达。5 故事单元( v i d p r o g r a m m c ) 。相同的场景经过聚类后形成故事单元,由于其高级的语义特性,高级语义的提取往往依赖于具体的应用背景,缺乏统一的处理模式,很难从低层的视觉特征中抽取语义信息,我们采用人工协助的方法来实现。例如针对体育、新闻或者电影视频,人脸识别、语音识别或者字幕识别可以用来辅助实现自动的语义标注。2 3 基于内容的视频检索概念基于内容的视频检索( c o n t e n lb a s e dv i d e or e 蛹e v a l ,c b v r ) 是指根据媒体或媒体对象的内容语义以及上下文联系进行检索1 5 1 。基于内容的视频检索是多媒体研究中的新兴热点,它有如下特点:1 从视频数据中提取信息线索1 0基于内容的视频检索系统研究与设计基于内容的检索突破了传统的基于表达式检索的局限,它直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引,并进行检索。2 基于内容的视频检索是一种近似匹配由于对内容的表示不是一种精确描述,因此,c b t 采用相似性匹配的方法逐步求精,以获得查询结果,即不断减少查询结果的范围,直到定位于要求的目标,这是一个迭代过程。3 大型数据库( 集) 的快速检索实际的视频数据库( 集) 数据量巨大,因此要求c b v r 技术也像常规的信息检索技术一样,能快速实现对大型库的检索。基于内容的视频检索主要利用视频的视觉和听觉特征进行检索。在许多应用中,基于注释的检索也是行之有效的检索方法,因此,完整有效的信息查询和检索系统应该包括常规的基于客观属性f 注释关键词等) 的检索、基于视听特征的检索、对象关联检索及在这些检索之上的概念查询。一般来讲,人对于物体的内容特征比较敏感,能迅速分辨出对象的轮廓、音乐的旋律以及它们的含义等。但对于视频对象,一方面,人工从大量数据中标识对象非常费时,另一方面,人的判断易受主观性影响,且是一种重复性工作,而上述这些又正是计算机的长处。因此,在实现c b v r 系统时,可以充分发挥人和计算机各自的长处,把交互引入到视频数据查询过程中。2 3 1 系统框架完整的c b v r 系统( 如图2 。2 所示) 一般有两个子系统,即数据库生成子系统和查询子系统。每个子系统由相应的功能模块和部件组成。1 对象注释为用户提供一种工具,以全自动或半自动( 需用户部分干预) 的方式对静态图像、视频镜头的代表帧等媒体中用户感兴趣的区域( 静态对象) 及视频序列中的动态图像进行注释,以便针对对象来进行特征提取、描述和查询。如果进行整体内容的检索,则可利用全局特征,而不用对象注释功能。2 特征提取对视频、图像等多媒体数据自动或半自动的提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的,如针对整幅图像和视频镜头,也可以是针对某个对象的,如图像中的子区域、视频中的运动对象等。3 数据库数据库由媒体库、特征库和知识库组成。媒体库包含视频数据;特征库包含用户输入的注释内容和预处理自动提取的视听特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应不同领域的应用要求。第二章基于内容的视频检索概述图2 2c b v r 系统框架4 用户查询和浏览接口主要以示例查询和模糊描述等可视查询形式向用户提供查询接口。查询允许针对对象、整个图像、视频镜头以及任意特征的组合形式来进行。由于视频数据的视觉和听觉特征,不仅查询时需要通过浏览确定查询要求,而且查询后返回的结果也需要浏览,尤其是视频。5 检索( 匹配) 引擎检索是利用特征之间的距离函数来进行相似性匹配,模仿人类的认知过程,近似得到数据库的认知排序。对于不同媒体的数据类型,具有各自不同的相似性测度算法,在检索( 匹配) 引擎中包括一个较为有效、可靠的相似性测度函数集。6 索引过滤器检索引擎通过索引过滤机制来达到快速搜索的目的,从而可以应用于大型视频数据集中。过滤器作用于全部数据,过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征,可以利用r 树,以加快检索。2 3 2 系统没计的基本要求视频数据检索对视频数据建模、分段和索引都有要求。然而,仅从查询本身看,应该有以下几个基本要求:对于一个实际的视频检索系统,应该在满足常规和常见查询要求的基础上,根据其具体的应用领域,提供尽可能多的查询方式;视频数据检索系统应提供一种标准格式的查询语言;对于复杂的视频数据查询要求,可以首先根据时空关系将其分解成若干简单的查询,然后对各查询的结果通过基本的视频集合运算来得到最终的查询结果;基丁内容的视频检索系统研究与设计良好的入机设计界面对于视频检索系统的可用性起着至关重要的作用,通过人机界面,用户应能够方便的定义各种查询要求或进行浏览。2 4 本章小结本章中首先介绍了有关数字视频的基础知识,对数字视频的特征和视频管理中存在的问题进行了分析;然后对现有的视频数据模型进行了分析对比,并在文中介绍了一种通用的视频数据模型;最后论述了基于内容的视频检索系统的框架和系统设计的基本要求,为以后的工作打下了基础。第三章基于内容的视频检索关键技术第三章基于内容的视频检索关键技术在这一章中,研究了基于内容的视频检索中的几个关键技术,即镜头检测,关键帧提取等技术。这些技术涉及到该领域的基本概念,它们的方法也是本文研究的基础。3 1 镜头检测镜头是视频流在编辑制作及检索中的基本结构单元,因此镜头的自动分割是视频结构化的基础,也是视频分析和检索的过程中的首要任务。镜头分割的效果将直接影响到视频的结构化以及后续的浏览和检索,本节将讨论各种镜头检测方法。3 1 1 镜头变换的基本概念镜头一般指摄像机在特定参数下的生成的一组连续画面,而参数的改变则对应不同镜头下的画面。在视频编辑及制作过程中,往往在不同的镜头画面过渡过程采用各种各样特殊的效果,从而使得镜头切换更为引入入胜【1 2 j 【1 3 l 。镜头变换的类型大致可以分为切变和渐变两种。切变是从一个镜头直接切换到另一个镜头,中间没有任何编辑效果,所以有时也叫突变。而渐变则是在镜头变换中加入了一定的编辑手法。视频编辑方法多种多样,但最常用的编辑方法有三种:淡化( f a d e ) ,隐现( d i s s o l v e ) 和划入( w i p e ) ,表3 1 给出了这二种视频编辑方法的简单描述。表3 1 镜头变换类型编辑手法视频帧表现切变( c u t )前一镜头的尾帧被下一镜头的首帧快速取代淡入( f a d e i n )某一镜头的首帧缓慢而均匀地出现淡出( f a d e o u t )前一绪婆的尾帕缓愕而均匀撤蛮里盲到伞部消失隐现( d i s s o l v e )前一镜头的尾帧缓慢而均匀地变成下一镜头的首帧划入( w i p e )下一镜头首帧从一角边平稳地逐渐取代前一镜头的尾帧实际上,还有许多种情况的变异,比如翻转( f l i p ) 、拉进( s l i d e ) ,旋转( s p i n )等,这些情况都可以看作是以上基本类型的融合,在此不单独列出。镜头检测的基本任务就是将这一类经过编辑的视频分解为镜头。镜头检测的基本方法是比较视频帧问的差异,根据帧间差异得到一个判断,如果差异达到一定程度则判定为一个新的镜头。这种帧间差异,在本文定义为帧间距离d 。新镜头1 4基下内容的视频检索系统研究与设计篙lr 卜k 山山h 山川h3 1 2 现有的镜头检测算法现有的镜头检测的方法很多,总结一下大致如下i 件1 6 】:1 直接利用帧问灰度颜色差值的检测方法该方法先计算两帧图像间的灰度颜色差值,再判断是否大于一定的门限值,如果大于,就认为监测到一个镜头切换,该方法原理简单,也是以后很多算法的基础,但是这种方法对噪声敏感,所以有目标或相机运动的情况下容易出错。2 基于直方图的检测方法直方图描述了一幅图像的灰度和颜色的分布情况,所以通过直方图的相似度也可以判断图像之间的相似情况,并且以此来判断是否有场景切换。由于直方图不考虑像素的位置信息,它不能反映出图像的整体内容,两副完全无关的图像也可能有完全相同的直方图信息,基于直方图的方法隐患正在于此。3 基于边缘的检测方法边缘特性可用于镜头分割,首先计算出帧问的总体位移,以此进行匹配,然后计算边缘的数量和位置。帧差由边缘变化的百分比表示,即边缘从一帧到另一帧移进和移出的比例。该方法对于运动是稳健的,但帧差的计算比较复杂。4 ,基于块的检测方法这种方法针对非压缩视频。与前面提到的对相邻帧图像上每点像素进行比较的方法不同,基于块的方法利用了图像的局部特征来限制噪声以及相机运动的影响。它将每帧图像分为n n 个小块,然后将相邻帧的对应块进行比较。5 双值门限比较法上面提到的方法对于检测场景变化中镜头的突变是行之有效的,但对于像分第三章基于内容的视频检索戈键技术冒雾三藿。匝巫卜匦耍p 匕型巴尸口受 卜- 至堕 卜正鲴1 6基于内容的视频检索系统研究与设计定义来看,还是从视频内容来看,这样都是不合理的。因此有必要去掉闪光的影响,最有效的方法就是检测它的位置,从而在检测镜头时将其剔除。简单的说,本章的研究范围从图3 2 中看来即从闪光灯检测到镜头集这几个部分。为便于以后更好的比较算法效率,本文定义了两个衡量标准:( 1 ) 检全率= 正确检测数( 正确检测数+ 漏检数)( 2 ) 检准率= 正确检测数( 正确检测数+ 误检数)3 1 3 自动门限检测算法及改进自动门限检测算法是一种将直方图、帧间灰度差相结合的方法,算法原理是将帧问直方图的相异度与帧间绝对灰度差的归一化乘积作为帧问相异度的度量函数z n 。在计算取得一段视频相邻帧,相邻7 帧的帧问相异度后,采用门限比较的方法对镜头进行分类,过滤噪声,获得镜头分割的最终结果。自动门限检测的算法步骤描述如下:( 1 ) 先定义帧问相异度的度量函数磊。磊= 仇- 口黝式( 3 1 )其中d n 表示帧闯对应像素灰度差之和的归化运算结果。按下式计算:d 。= d h | ( 2 5 6 4 m n ) 式啼2 、d 。- h - ( f ,) 一,。川) l式( 3 - 3 )m ,n 表示帧的宽、高( 以象素点表示) 。厶( j j ) 表示第n 帧的( i j ) 点像素的灰度值。互k 表示的是第n 帧和第n + 1 帧的对应像素灰度差之和。k 表示第n 帧和第n + 1 帧颜色直方图的相似度。1 k 则表示前后两帧的颜色直方图的相异度。l 的计算方法如下:2 s 7k 一m i n ( 以u ) ,以+ 。o ) )式( 3 4 )而彩表示归一化后的第n 帧的颜色直方图,我们采用h s v 颜色空间,h 在整个空间内等分为1 8 份,s 和v 均等分为4 份。( 2 ) 设定步长凡,该算法取九= 7 。计算相邻帧相异度z l 及间隔九帧的帧问相异度z s 。( 3 ) 计算z l 的直方图( 横坐标是颜色级数,纵坐标是z 1 ) ,取得z 1 第一个趋近于0的值点t t 作为门限值,并统计z - 中过此门限的点集a 1 。对z 8 进行如上操作,得到门限值t 2 和过此门限的点集a 2 。得到镜头划分的初步结果。( 4 ) 噪声抑制。取噪声门限rf r = t 2 ) ,令o ( n ) 为镜头分割的二值化结果,定义如下:第三章基于内容的视频检索关键技术1 7。q ,一t :乏:乏式p - 5 ,其中n 表示视频中的第n 帧。则在有镜头变换的区域就会出现连续的l ,否则就为o ,同时也可能是由噪声造成的一些不连续的1 。如果o ( n ) 中连续1 的个数 t ,则认为是镜头切变,否则判断为噪声,t 的取值一般为5 或6 。该算法的流程大致如下:图3 3 臼动门限算法流程图我们选用视频一:l a s v e g a s 及视频二:极地之旅试验,这两段广告片中都含有电脑制作效果,不将其计入统计结果。以下是实验结果:表3 2 检测结栗视频段检测镜头数实际镜头数正确检测镜头数总帧数检全率检准率视频一1 71 91 61 8 0 28 9 5 8 4 2 视频二1 52 292 2 1 56 8 2 4 0 9 以上实验结果可以看到,视频一的检准率和检全率都比视频二要高很多,原因是视频二的背景很多是海,物体和背景在颜色上差别不大,所以计算的颜色直基了:内容的视频检索系统研究与设计方图和灰度差都很相似,所以会出现将以下几帧划分在一个镜头的情况:幽3 4该算法在差异度量上选择较好,采用帧问灰度差结合颜色直方图的差异度量,便于拉大相异两帧间的帧差。但实验中也发现,算法有其不足之处:( 1 ) 镜头灰度差和直方图依然考虑的是全局特征,全局进行直方图统计不可避免会丢失象素灰度空间分布信息。( 2 ) 在检测镜头缓变的时候,对缓变镜头的起始帧和结束帧并没有做很确切的定位。( 3 ) 噪声抑制方面所采用的方法,如果噪声门限口,d 选择不合适,在剔除误分点的同时,有可能将镜头突变点剔除掉。针对上述的情况,本文研究了进一步改进的步骤,改进主要体现在两方面:( 1 ) 在定义帧差时采用分块的方法,在帧差中结合特征的空间分布信息,也即是在一定程度上体现了运动信息。我们重新定义了帧间差异度量。先将每帧图像分为n + n 个小块,则帧f m 和f n 间的相似度可以定义为:s 。( 允一正) 一罗e s ,( 厶,f )式( 3 - 6 )面上式中i 表示第i 个分块,c f 是权重因子。品( ,五,f j 的计算可以直接使用自动门限算法的相似度度量定义:磊= 鼠t 口,。其中见表示帧间对应块对应像素灰度差之和的归一化运算结果。k 表示对应块颜色直方图的相似度。1 k 则表示前后两帧的颜色直方图的相异度。( 2 ) 对突变检测引入“滑动窗口”方法。所谓滑动窗口,首先定义一个大小为2 t m 1 的窗口,使待测帧位于窗口正中,然后在窗口中计算相邻帧帧差,该窗口中的最大帧差d 1 若满足d 1 b d k ( d k 是窗口的第二大帧差值,b 是系数) ,则判断d 1 是切变点。为对改进前后的算法进行比较,我们继续对前面己使用的两段视频进行了分割测试,结果如下表所示:表3 2 检测结果i 视频段检测镜头数实际镜头数正确检测镜头数总帧数检全率检准率ii 视频一1 71 91 61 8 0 28 9 5 8 4 2 l 视频二1 72 21 42 2 1 57 7 3 6 3 6 很明显,视频二的检测结果,不论是检全率还是检准率都有了很大的提高。本算法在具体操作中也存在待改进的地方,对于某一种类型的视频,可以选择固定一组参数,但这一组参数未必适用于其它类型的视频,同时本算法和目前的许多算法一样,对于频繁闪光的情况不适用。第三章基于内容的视频检索关键技术1 93 2 关键帧提取关键帧( 有时也称代表帧) ,是用于描述一个镜头的关键图像帧,它反映一个镜头的主要内容,用它作为视频流的索引,比用原始的视频数据要有效得多,同时也为检索和浏览视频提供了一个组织框架。借助对镜头的检测可以将输入的视频序列分割成其基本单元镜头的集合;在此基础上可以对每个镜头提取关键帧,并用关键帧简洁地表达镜头。这是因为每个镜头都是在同一个场景下拍摄的,同一个镜头中的各帧图像有相当的重复信息。一个镜头的关键帧就是反映该镜头中主要信息内容的一帧图像或若干帧图像。由于视频数据量巨大,在存储容量有限的情况下,通常仅存储镜头关键帧,这也可收到数据压缩的效果。由此可见关键帧的提取无论是在数据存储还是在镜头的表达方面都起着重要的作用。同样对关键帧的提取方法也可以分为在压缩域和非压缩域中的方法。下面介绍压缩域与和非压缩域中关键帧提取算法。3 2 1 非压缩域关键帧提取算法下面介绍几个主要的关键帧提取算法 1 6 j :1 基于镜头边界法在这种方法中,将切分得到的镜头中的第一幅图像和最后幅图像作为镜头关键帧。这种方法来自这样的观察和假设,既然在一组镜头中,相邻图像帧之间的特征变化很少,所以整个镜头中图像帧的特征变化也不大,因此选择镜头的第一帧和最后一帧可以将镜头可以将镜头的内容全部表达出来。这种方法很简单,也被目| j i 许多研究所采用。但是它不考虑当前镜头视觉内容的复杂性,并且限制了镜头关键帧数,使长短不同和内容不同的镜头都有相同的关键帧个数,这是很不合理的,事实上首帧和尾帧往往并非关键帧,不能精确的代表镜头信息。联系到前期的镜头分割,如果镜头的分割出现了误差,那么这样选择的关键帧就更为杂乱了。2 基于平均值法帧平均法和直方图平均法是关键帧抽取的经典方法,它们只是选取的衡量平均值的特征不同,其基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 5G园区网络基础设施的智能化与自动化建设方案
- 基于任务驱动的小学英语语篇教学核心素养培养模式
- 法医解剖考试题及答案解析
- 儿科科基础试题及答案
- 半导体基础试题及答案
- 教育与产业共建共享的融合发展模式
- 2025车辆抵押借款合同模板
- 120万千瓦光伏项目技术方案
- 合同到期后延迟服务期的补充协议10篇
- 终止婚姻关系共同财产分割协议范本
- 精神运动康复
- 2025年陕西省中考数学试题卷(含答案详解)
- 2025年中小学生国防知识竞赛题库及答案
- 机械制图选择题试题库及答案
- 湖南省科技创新惠企助企政策汇编 2025
- DB45∕T 2746-2023 国家储备林培育技术规程
- 医保基金监管培训课件
- 药厂变更管理培训
- 技术部工作汇报与未来规划
- 体育安全与急救知识培训
- 小区装修工具管理制度
评论
0/150
提交评论