




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)基于内容的视频片段检索的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着互联网和多媒体技术的迅速发展,人们可以访问到的多媒体数据急剧增长,视频作为多媒体信息中最复杂一种媒体形式,凭借其多样化的表现形式、丰富的语义内容,以及便捷的记录方式得到了广泛的应用和发展。与此同时,大容量存储技术的发展,使得数字化视频信息存储的代价越来越低,进而促进了数字视频信息的大量产生和堆积。面对越来越多的海量视频库,如何快速有效地进行视频内容分析和检索就成为当前视频信息领域研究的当务之急。针对视频信息检索的需要,本文研究了视频检索中的两个关键技术:视频镜头边晃检测及视频片段相似度的度量。在视频边界检测方面,本文主要研究了视频的镜头边界检测及分割。提出了一个多检测器协同工作的镜头边界检测框架,包括应用模糊逻辑理论设计切变边界检测和基于非邻帧差的双阈值渐变边界检测。实验结果表明该框架具有很好的检测效果。在视频片段相似度度量方面,提出了一种新的有效的视频片段的度量方法,方法采用滑动窗口分割相似片段,应用粗集论的等价关系定义了镜头相似类的概念,通过镜头的相似类计算出镜头一一对应关系,用来确定视频片段的相似程度。同时考虑了视频片段相似性的视觉因子、顺序因子和干扰因子的结合,来解决片段相似度的度量问题。实验表明该方法具有较好的效果与鲁棒性。本文最后对工作进行了总结,同时对基于内容的视频检索未来的发展方向提出了自己的见解。关键词视频片段,镜头边界检测,模糊逻辑,相似性度量a b s t r a c ta st h em o s tc o m p l e xm e d i af o r mo fm u l t i m e d i a ,v i d e oi sa p p l i e da n dd e v e l o p e dw i d e l yd u et oi t sd i v e r s i f o r mr e p r e s e n t a t i o n ,a b u n d a n ts e m a n t i cc o n t e n t ,a n dc o n v e n i e n tw a y so fr e c o r d i n g s e c o n d l y ,t h ed e v e l o p m e n ti nc o m p u t i n gt e c h n o l o g i e s ,b r o a d b a n dc o m m u n i c a t i o nn e t w o r k s ,m a s ss t o r a g ed e v i c e sh a v er e s u l t e di nl a r g ea m o u n to fv i d e od a t ab e i n gg e n e r a t e da n dm a d ea c c e s s i b l ei nd i g i t a lf o r mt h r o u g h o u tt h ew o r l d a sar e s u l t ,t h em a i nt a s k so fv i d e oi n f o r m a t i o np r o c e s s i n ga r ee f f e c t i v ev i d e oc o n t e n ta n a l y s i sa n de 佑c i e n tv i d e or e t r i e v a l c o m p a r e dt oc u r r e n tv i d e oi n f o r m a t i o nr e t r i e v a lt e c h n o l o g i e s ,t w ok e yp r o b l e m sa b o u tv i d e or e t r i e v a la r es t u d i e d :v i d e os h o tb o u n d a r yd e t e c t i o na n dv i d e oc l i ps i m i l a r i t ym e a s u r e i nt e r m so fv i d e ob o u n d a r yd e t e c t i o n ,v i d e os h o tb o u n d a r yd e t e c t i o na n ds e g m e n t a t i o nm a i n l ya r es t u d i e d t h i st h e s i sp r o p o s e sas h o tb o u n d a r yd e t e c t i o nf r a m e w o r kw i t hc o l l a b o r a t i o no fm u l t i p l ed e t e c t o r s t h ed e t e c t o rc o n s i s t so fa b r u p tb o u n d a r yd e t e c t i o nb a s e do nf u z z yl o g i ct h e o r ya n dg r a d u a lb o u n d a r yd e t e c t i o nb a s e do nn o n a d ja c e n tf r a m et h r e s h o l dm e t h o d e x p e r i m e n t a lr e s u l t sr e v e a lt h ee f f e c t i v e n e s so ft h i sf r a m e w o r k i nt e r m so fv i d e oe l i ps i m i l a r i t ym e a s u r e ,t h i st h e s i sp r e s e n t sa ne 伍c i e n tm e a s u r em e t h o di nw h i c he q u i v a l e n c er e l a t i o n st h e o r yi sa p p l i e dt ov i d e oc l i pr e t r i e v a l a f t e ras i m i l a r i t yc l a s si sd e f i n e d ,s h o tm a x i m a lm a t c hc a nb ec o m p u t e d i no r d e rt or a n kt h es i m i l a r i t yo ft h es e l e c t e dv i d e oc l i p s t h r e ed i f f e r e n tf a c t o r s :v i s u a ls i m i l a r i t y , i n t e r f e r e n c ea n dt e m p o r a lo r d e ro fs h o t sa r et a k e ni n t oc o n s i d e r a t i o n e x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h ep r o p o s e dm e t h o d sa r ee f f e c t i v ea n de 佑c i e n ti nr e t r i e v a l i n ga n dr a n k i n gs i m i l a rv i d e oc l i p s f i n a l l y t h ew o r ko fr e s e a r c ha n dd e s i g ni nt h i st h e s i si ss u m m a r i z e d ,a n dt h ef u t u r ew o r ki sa l s od i s c u s s e d k e yw o r d sv i d e oc l i p ,s h o tb o u n d a r yd e t e c t i o n ,f u z z yl o g i c ,s i m i l a r i t ym e a s u r el l原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。作者签名:鍪丝型日期:二生年月型目学位论文版权使用授权书本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公众提供信息服务。期:二生年三月竺日硕士学位论文第一章绪论1 1 研究背景及意义第一章绪论随着多媒体计算技术的迅猛发展,网络传输速度的不断提高,以及各种视频压缩技术和大容量存储技术的相继出现,使得视频信息的获取、存储和传播变得越来越方便,也使得视频作为一种信息记录方式得到了越来越广泛的应用,从地质探测、科学考察、监控系统到生活录像、电视节目,人们越来越倾向于采用视频的形式存储各种各样的信息。视频是多媒体信息中最复杂的一种,是集图像、声音、文本于一体的综合性媒体信息。视频作为信息媒体虽然具有表现力强、蕴涵信息量大、形象生动等优点,但同时其非结构化的数据格式、巨大的数据量以及表现内容的不透明等缺点,使得对视频数据的管理和分析( 如视频数据的浏览、检索) 相当困难。面对海量的视频信息,如何有效地组织和管理视频数据以实现快速准确地存取,尽可能满足人们的查询需求,己经成为多媒体研究领域一项重要的研究课题并且具有广泛的应用背景和深远的研究意义。随着数字化视频数据量的急剧增加,传统耗时的浏览方式显然已远远不能满足人们对视频信息的访问和查询需求。基于视频存储技术的快速发展以及人们对查询的需要,如何快速准确地从海量视频库中找到感兴趣的视频片段己经成为视频信息领域发展申的关键问题。尽管视频信息检索经过多年的研究和发展,取得了一定的成绩,但面对规模越来越大的视频信息、用户越来越复杂的查询需求,对于如何进行有效的视频检索具有挑战性的问题,需要进行进一步的研究和探索。1 2 基于内容的视频检索简介基于内容的视频检索i l 卅就是根据视频数据中的场景、镜头、帧和运动对象以及图像数据中的颜色、纹理、形状等特征在大规模视频数据库中找到满足特定的视觉特征描述的图像的过程。它的研究目标是提供在没有人参与的情况下能自动地理解或识别图像视觉特征的算法。可见,这是一门涉及面很广的交叉学科,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。基于内容的视频检索具有如下特点:硕士学位论文第一章绪论( 1 ) 突破了传统的基于表达式检索的局限,直接对视频信息进行分析,抽取特征,利用这些特征建立索引进行检索。( 2 ) 提取特征方法多种多样。图像特征如颜色、纹理、形状轮廓、位置、空间关系等。( 3 ) 基于内容的视频检索是一种近似匹配。在检索的过程中,它采用相似性匹配的方法逐步迭代求最优来获得查询的结果。即查询是一个迭代过程,不断减小查询结果的范围,直到定位到目标。这一点与常规数据库检索的精确匹配方法有明显不同。( 4 ) 大型数据库的快速检索。在实际的多媒体数据库中,数据量是非常庞大的并且种类繁多,因此要求c b v r 技术也能象常规的信息检索技术一样,快速地实现对视频信息的检索。1 3 国内外的发展动态目前,国内外的研究开发人员已经对基于内容的视频图像分析和检索作了一定的探讨和研究,并且都取得了一定的效果。国外方面,由于该领域的研究工作开展得早,因此,提出的新方法和开发出的实用检索系统较多。例如,提出用语义联想支撑c b v r 的方法;用估算对象质点的二次多项式系数法描述视频对象运动轨线( o m t ) ;研究开展了能自动进行视频对象的分割和运动轨线描述的新型交互式网上全自动视频检索系统等。此外,开发出的一些实用系统,例如:i b ma l m a d e n 的q b i c 系统( q u e r yb yi m a g ec o n t e n ts y s t e m ) 也非常具有代表性,从相关指标比较看,是一套颇为成功的检索系统,它主要是通过友好的图形界面为用户提供颜色、纹理、草图、形状等多种检索方法。另外,美国加州大学伯克利分校与加州水资源部合作进行的c h a b o t计划,对水资源部的大量图像和视频信息提供了基于内容检索的有效手段;圣迭戈研究开发的信息透视( i n f o s c o p e ) i 程中着重研究了基于视频图像等多媒体信息管理与检索问题;再有,美国哥伦比亚大学研究的v i s u a ls e e k 能够通过用户描述目标运动方向查找镜头;美国麻省理工学院媒体实验室研究的p h o t o b o o k 系统能够支持相似性图像的检索,可以利用人脸、形状、纹理、相片簿等分别对人脸图像、工具和纹理进行基于内容的检索,并随后在v i r a g e 系统中又进一步发展了将多种检索特征相融合的手段,意大利巴勒莫大学研究的j a c o b 能够基于视频的运动、颜色和纹理进行检索等。国内方面,由于在该领域的研究起步较晚,技术水平相对滞后,所以,大规模的、用于相关领域的应用系统还不多,难以满足视频点播、医疗、军事等领域对视频处理的要求,但这种情况已经引起了国内研究人员的广泛关注,研究氛围2硕士学位论文第一章绪论十分浓厚。目前,在镜头边界检测、关键帧选取方法的研究和改进、图像间相似匹配算法优化、基于交互式的反馈检索技术、基于运动轨迹信息捕捉特征检索和用高层语义联想支撑检索等方面,都取得了不错的研究成果,同时也实现了由理论研究向实际应用系统的转化。例如,国防科技大学多媒体研究中心和系统工程系研究开发出了新闻节目浏览检索系统m e wv i d e oc a r t ) 和多媒体信息查询和检索系统。1 4 论文结构及主要内容本论文从视频信息检索的总体框架出发,对视频信息检索领域的若干关键问题进行了深入细致的研究。论文组织结构如下:第一章简要阐述了视频信息检索的研究背景与意义。第二章详细介绍视频检索领域的研究现状以及论文的结构和主要内容。对视频信息检索领域的主要研究内容和已经取得的研究成果进行了详细的介绍,着重对视频信息检索的整体框架,并对与本论文研究内容相关的课题进行了介绍,最后。详细介绍模糊逻辑的一些基本理论知识;第三章介绍了视频的分割,主要研究了视频的镜头分割方法。本文提出了一个多检测器协同工作的镜头边界检测框架,包括应用模糊逻辑理论设计切变边界检测和基于非邻帧差的双阈值渐变边界检测。第四章介绍了视频片段相似度度量的方法,提取了一种新的有效的视频片段的度量方法,方法采用滑动窗口分割相似片段,应用粗集论的等价关系定义了相似类的概念,用于计算镜头最大匹配度。考虑了视频片段相似性的判断的视觉、顺序和干扰因子的结合,来解决片段相似度的度量问题。第五章是总结与展望。对本文的工作进行总结,介绍主要的创新之处以及下一步工作的研究方向。3硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础第二章基于内容的视频检索概述及模糊逻辑基础2 1 引言基于内容的视频检索是多媒体领域的重要研究课题,是跨越图像处理、模式识别、人工智能以及数据库等领域的交叉学科,是对文本、图像、声音等多种媒体形式的综合分析和查询,因而对其进行分析和检索需要涉及多种媒体分析方法。当前视频检索系统的研究大都试图从低层物理特征和高层语义特征两个方面综合分析得到符合查询要求的视频片段。本文只研究低层物理特征视频检索。基于内容的视频的检索的框架如图2 1 所示,主要包括:视频的分割,对视频中包含的低层物理特征提取,形成视频特征库 5 , 6 1 查询视频片段部分,同样进行视频分割,然后同视频特征库的特征匹配,得到相似程度高的视频片段,反馈给用户。图2 - 1 视频信息检索框架视频信息包含多种媒体形式及一定的时空特性,是一种非常复杂的媒体形式。从而使得视频检索是一项涉及面很广的交叉学科的研究课题,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需要从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠有效的检索算法、系统结构以及友好的人机界面。下面首先介绍基于内容视频检索在镜头边界检测和视频片段相似性度量方面的研究现状。4硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础2 2 镜头边界检测2 2 1 镜头边界检测简介视频按内容分为:节目,片段,镜头和帧,片段是语义上相关,时间上相邻的一组镜头,镜头是摄像机从打开到关闭记录下来的连续图像帧。镜头边界为在镜头转换处,帧的特征值发生明显的改变的地方,下图为具体层次图。视频片段镜头l镜头2镜头3键帧图2 2 视频按内容划分的层次图镜头边界检测是视频检索领域的重要技术。镜头边界检测就是利用镜头发生变换时表现出的特性找到发生边界的位置,从而把整个视频分割成一个个独立的镜头。镜头是视频流在编辑制作及检索中的基本结构单元,因此镜头的自动分割是视频结构化的基础,也是视频分析和检索过程中的首要任务。镜头分割的效果将直接影响到更高一级的视频结构化以及后续的浏览和检索。下面介绍镜头边界的类型以及一些常用的边界检测方法。2 2 2 镜头边界检测方法的研究进展及现状随着基于内容的视频检索技术的不断发展和深化,镜头边界检测算法的研究已经逐渐成为本领域研究的主流以及研究热点镜头是视频流在编辑制作及检索中的基本结构单元,因此镜头的自动分割是视频结构化的基础,也是视频分析和检索过程中的首要任务。镜头分割的效果将直接影响到更高一级的视频结构化以及后续的浏览和检索。镜头之间的转换方式主要有两大类,即切变( c u t c h a n g e ) 和渐变( g r a d u a l c h a n g e ) 1 7 4 1 。镜头检测的主要研究内容是镜头切变和渐变的检测方法。镜头切变是将两个镜头直接连接在一起得到的,中间没有任何视频编辑特效。镜头渐变是两个镜头之间通过视频编辑特效连接在一起。根据视频编辑特效的不同,镜头渐变可细分成淡入淡出( f a d e o u t i n ) 、溶解( d i s s o l v e ) 等。现有的镜头边界检测算法主要有两大类:基于象素域的方法和基于压缩域的方法。表2 1 给出两类方法的算法性能对比。5硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础表2 - 1 两类方法的性能比较2 2 3 象素域中镜头边界检测方法象素域中镜头切分的方法主要是利用时空域中的颜色、纹理、形状等特征进行镜头边界检测,常见的有以下算法。( 1 ) 象素差异法首先定义一个象素差异测度,然后计算连续两帧图像的帧间差异并用其与一个预先设定的阈值作比较,大于该阈值,则认为场景发生了改变【9 】。而对于渐变镜头,一般采用双阈值的方法【l o l ,用高阈值来滤除切变镜头,用低阈值确定渐变过渡。任何差值大于这个低阈值的帧都被认为是潜在的镜头切换处,并标记出起始帧,在累积差的基础上将起始帧与后续帧相比较,当这个值达到了较高的阈值水平时,就表明这一帧发生了镜头转换。该方法的缺点在于难以区分小区域中的大变化或者大区域中的小变化。因此,它对物体运动和摄像机运动很敏感,在有运动发生的情况下可能导致错误的检测。为此,人们采用3 3平滑滤波器来降低摄像机的运动和噪声的影响【l l 】,但这只对摄像机的低速运动有效。该方法的一个扩展就是区域比较法,它将一幅图像分成若干个小区域进行比较,而不是单一的将象素进行比较【1 2 】。从而有效地降低了算法的复杂度,提高了效率。该方法是基于内容的视频检索中的最基本的也是最直观的方法,是其它检测方法的基础。( 2 ) 统计量法该方法是利用象素的统计特征,通过阈值化检测镜头的边界【1 3 9 1 。当镜头中存在高速运动的物体时就容易产生误检。为此有些学者将相关系数法与块匹配法相结合,以减少运动造成的误检,对渐变镜头的检测率达到8 5 2 0 - 2 。由于该算法本身的复杂性,使其很少单独使用,一般都是与其它方法相结合来构成高性能的检测算法僻j 。( 3 ) 直方图的交方法在镜头边晃检测算法中,基于相邻两帧图像的灰度直方图或彩色直方图 2 3 - 2 9 方法是最常用的一类。此类方法又可分为两种:一种是计算两帧图像直方图之间的差异( d o h :d i f f e r e n c eo f h i s t o g r a m ) :另一种是计算两帧图像差值的直方i 羽( h o d :h i s t o g r a mo f d i f f e r e n c e ) 。前者对场景中的局部运动不敏感而对全局运动敏感,后者则恰好相反。但两者都对亮度变化敏感,当一个镜头内部的亮6硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础度发生变化时( 例如闪光灯造成的亮度突变) ,会使直方图发生突变,容易造成错检。为此,必须进行一些预处理操作,如去除闪光灯的影响等。在亮度直方图上采用双阈值的方法,可用于检测渐变镜头,具体方法类似于象素差异法。另外,由于直方图的方法丢掉了图像象素点的位置信息,所以它无法反映图像的整体内容,从而检测率不高。( 4 ) 块匹配法与前面提到的相邻图像上逐点象素比较法不同,基于块匹配的方法先将每一帧图像划分成k 个块,连续帧之间的相似性通过比较对应的块来进行估计1 3 0 1 ,该方法利用了图像的局部特征来抑制噪声以及摄像机及物体运动的影响。不过,对于象素值相似j 而场景表示函数不同的两帧,会出现漏判的情况。这种方法若能够较好地与其它方法融合使用,有望达到较高的检测率。将基于块匹配的方法与象素差异法结合使用是将图像分成若干个小区域( 一般为9 或1 2 个区域) ,在相邻的帧之间给每个区域都找到最好的对应区域( r p匹配块) 。连续帧之间的差异就可以通过比较对应的匹配块来估计。计算每个小区域的象素差异或直方图差异,其各个分类区域的象素差异的加权和提供了整个图像的差异。通过从每帧图像差异的连续值中产生的累积差异可以检测出渐变过程,即如果该差异( 或称相似性) 超过了预先给定的阈值,就认为镜头发生了切换【3 1 1 。将块匹配的技术与运动矢量结合在一起可以适应较大幅度的运动矢量,能更好地估计全局运动。同时,如果增大匹配块的尺寸,相应的由局部物体运动引起的计算偏差就会减小,从而为全局运动估计提供较为准确的数据【3 2 】。( 5 ) 边界变化率法此方法的主要思想是通过计算边界的变化程度来确定镜头的边界。计算边界改变是通过对全局运动信息的估计来确定出摄像机的运动参数,并用该全局运动向量来对齐相邻的两帧以消除摄像机运动参数对边缘比较的影响。而对于w i p e 的检测,由于w i p e 过渡的种类很多,就要联系具体空间分布特征才能做出较准确的判断。在该算法中参数的正确选择有利于提高检测率。该算法可以较好地区分渐变和切变,但是它并不能确定淡化和溶解的具体边界。在这种算法中利用了运动补偿和h a u s d o r f f 距离来提高该算法的准确度。该算法的局限性在于不能控制整个场景亮度的快速变化或场景非常亮和非常暗的情况。( 6 ) 距离差异法该算法是边界变化率算法的一个延伸和扩展。利用h a u s d o r f f 距离比较视频帧之间边缘特性差异,这种差异体现在各个小区域新出现和刚消失边缘点的数7硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础量之和。这种方法不但受光照条件变化影响不大,而且也能在某种程度上抵消物体和镜头的运动。另外,还可应用m a n h a t t a n 距离进行渐变镜头的检测,表2 2 给出了两种距离检测的性能比较。表2 - 2 两种距离检测的性能比距离定义对运动的敏感性受干扰影响计算复杂度h a u s d o r f f 距离h ( z ,b ) = m 。a xr a 6 b i n 。 口一训不太敏感不太敏感复杂m a n h a t t a 距离m = i 而一恐i + i m - y 2 l敏感敏感不太复杂注:彳,b 分别为视频中的前后两帧;口,b 分别为a ,b 中的两个点;点( 而,而)和点( m ,y 2 ) 分别为视频中,连续两帧图像中的点。表2 - 3 六种方法的综合比较2 2 4 压缩域中的镜头边界检测方法由于绝大多数视频序列是以压缩格式存贮的,对这些压缩形式的视频流直接进行镜头边界检测被认为是一种高效的检测方法。因此,近年来越来越多的研究者把关注的焦点集中到压缩域中边界检测方法的研究上。( 1 ) 基于d c t 系数的方法由于频域中的变换系数是与象素域紧密相关的。因此,d c t 系数可以用于压缩视频序列中的镜头边界检测【3 3 。3 6 l 。首先计算相邻帧间的d c t 系数的差值,然后将其与某一预先设定的阈值进行比较,从而做出场景切换的判决。若该差值大于某一预先设定的阈值,就认为发生了场景切换。对于m p e g 视频序列而言,只有川l 贞在压缩时才包含d c 系数,因此这种技术无法直接用于b 帧和尸帧。此外,这种技术也容易导致误判。为此,人们使用d c 系数来解决这一问题1 3 。艿帧和p 帧的d c 系数需要通过运动补偿来求得。计算d c 帧问的差值之和,并将其作为两帧之间的相似性度量。该方法虽然可以提高运算速度,但是在象素值类似而密度函数不同的两帧之间会造成误检。( 2 ) 基于小波变换的方法硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础该方法是在子带域上对镜头边界进行检测的一种检测方法,其基本思想是将图像进行小波分解后,分别对它的低频部分和高频部分进行分析和处理。在其低频部分利用彩色直方图( c o l o rh i s t o g r a m ) 的方法可以检测出切变;在其高频部分应用边界计数( e d g ec o u n t ) 、边界幅度平均( e d g es p e c t r u ma v e r a g e ) 以及双彩色差分等算法即可分辨出渐变镜头边界。该算法的优点是计算复杂度比较低。另外在该算法中加入适当的平滑滤波可以消除噪声的干扰,同时可以抑制低速的摄像机和物体的运动,从而提高检测效率。有研究者提出将直方图的方法应用于此【3 8 1 ,即计算连续两帧图像从低频到高频的低通子带的直方图,再利用二次比较的方法找出渐变过渡的镜头,取得了很好的效果f 3 9 1 。由于小波分析在各个领域中的广泛应用,因此,这一方法在今后会有更大的发展。( 3 ) 时空分析法该方法利用图像在空间上的特点以及其在时间上与前后帧图像问的相关性来检测渐变过渡m 。目前,有学者对m p e g 压缩视频流中宏块的空时分布进行分析,用曰帧中的前向宏块和前向后向宏块的空间分布比率来检测溶解过渡,取得了7 0 以上的检测率【4 1 1 。另外,有学者提出了基于联合概率图像j p i s ( j o i n tp r o b a b i l i t yi m a g e s ) 时空特性分析的方法【4 2 l ,该方法利用连续两幅图像间亮度的联合概率来检测溶解过渡取得了较好的检测效果。但由于该方法默认各种渐变过渡是线性的,而实际情况并非如此,因此也容易导致误检。目前,基于时空相关性的方法是研究渐变镜头检测的热门方向之一。( 4 ) 矢量量化法根据编译码理论,最好的接收形式是矢量而不是标量。因此,矢量量化的技术无论是在传输还是在检索中都非常重要。根据这一特点,很多学者将矢量量化的方法应用到视频渐变检测中 4 3 4 毋,其基本思想是构造相似性函数,通过帧间相似性来检测镜头的变化。如果当前帧与当前镜头的第一帧之间的差值大于预先给定的阈值,则表示检测出渐变过渡。但是这种检测方法受到视频压缩比的影响。通常情况下,压缩比越小,检测效果越好。因此,此类方法的未来工作就是要找到一种在各种压缩比下及各种不同的压缩视频下都能有良好的检测效果的综合方法。一一( 5 ) 运动矢量法一一,一在渐变检测中,运动分析是一个非常重要的手段,对于描述视频的内容具有非常重要的作用,因此,许多的专家、学者也在这方面做了很多的研究工作。从视频序列中估计出来的运动矢量在同一个镜头中是相对连续的,而在不同镜头之间则不存在这种连续性,利用这一点可以检测渐变镜头。由于带有摄像机9硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础运动的镜头可能被错误地认为是渐变,因此,可以用运动矢量去判断从块匹配中所检测出的渐变镜头是否是由摄像机运动( 例如z o o l l f 和脚) 引起的m , 4 7 1 ,从而提高检测的准确率。该方法可以很好地从切变镜头中识别出渐变镜头,但是它并不能确定出镜头的边界。因此,该技术在未来还有较大的发展空间。有研究者提出基于运动矢量数目m 的方法,在尸帧中,m 是运动矢量的数目,在b 帧中,m 是前向非零运动矢量数和后向非零运动矢量数中较小的一个。让肘与一个接近于零的数作比较,若m 小于该数,则认为在p 帧和b 帧的前面或者后面存在着镜头边界。该方法对于有运动存在时有较好的检测准确率。然而,在没有运动时会产生误检。这可以通过对b 帧旁边的两个,帧使用归一化的内积尺度得以改善。另外,一种基于误差信号和运动矢量数目相结合的方法也能较好地检测出渐变镜头。还有m p e g 方法效果也可以,这里就不介绍。运动信息是视频检索的一个重要辅助手段,需要结合其它的图像信息才有可能达到满意的检索效果。表2 - 4 压缩域中五种方法的综合比较表2 4 列出了上述五种压缩域中的渐变镜头检测方法的综合比较。总体看来,该类算法检测精度不太高,但是速度却是相当快的。近年来随着基于内容检索技术的发展,镜头检测技术也得到了很大的进展,并且应用在很多优秀的检索系统中。但是由于相关理论还不成熟,主要存在的问题有以下几个方面:( 1 ) 精度问题:镜头切变检测的查准率通常都能达到9 0 左右。但是镜头渐变的检测精度却比较低。这是因为在视频编辑中视频编辑特效层出不穷,而通常的镜头渐变检测方法都只适用于某一种情况下或者某一种特定的镜头渐变类型。( 2 ) 特征问题:视频数据是海量的,其代表图像内容的特征也是多种多样的,现有很多方法都未给出究竟何种特征对镜头边界检测更为有效。因此,在保持检测查准率的前提下,为提高检测效率,有必要对镜头边界的特征集进行特征约简。然后再根据选择的特征建立相异度函数。( 3 ) 运动问题:摄像机运动、视频序列中的物体运动运动都能造成视频帧1 0硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础图像的视觉内容剧烈变化,而镜头检测的基本原理是检测视频中帧与帧之间的视觉差异。因此运动通常会造成镜头检测算法的误检测。现有的方法采用了特征补偿以及运动检测来对视频序列中的物体运动进行消除。但是,仍然没有非常有效的方法。摄像机运动方面也有很多的研究,但对于摄像机较大的运动还是不能很好地检测。2 3 关键帧的提取2 3 1 关键帧基本概念所谓关键帧是指在图像序列中具有代表性,能够反映一个镜头序列内容梗概的图像帧,通过选取关键帧可以大大减少视频索引的数据量。在存储容量有限的情况下,通常仅存储镜头关键帧,可以达到数据压缩的效果。同时,用关键帧来代表镜头,然后提取关键帧的纹理、颜色等静态特征和动态特征,将这些特征存储到视频数据库中以便进行相似匹配,从而达到快速浏览的目的。因此,关键帧的选取在基于内容的视频检索研究中占据着重要地位。对视频信息进行镜头分割的处理之后,为了建立视频索引,提取视频摘要,需要选取镜头的关键帧。只有对分割后图像序列的关键帧进行准确的定位,才能为最终的检索奠定良好的基础。镜头分割是视频结构层次化的基础,要求能够正确检测出各复杂编辑的镜头边界,并能够有效地分辨镜头内的运动变化,排除它们对镜头边界识别的干扰。通过对镜头分割后,然后就是提取代表一个镜头的关键帧【4 n ,也是视频检索的重要依据,关键帧要能够反映镜头中的主要运动和变化。2 3 2 关键帧的选取原则当前一般采用的是保守原则来选取关键帧,即关键帧的选取“宁愿错,不能少 【5 茚3 1 。同时,在代表特征不具体的情况下,一般以去掉重复或冗余帧图像为原则。基于这一基本原则,不同的选取算法可以依据不同的原则,建立适合自身情况的判定标准。有时,针对不同的视频事件,还可以选择不同的判定标准。实际应用时。由于场景中目标的运动或拍摄时摄像机本身的操作,一个镜头仅用一幅关键帧不能很好的代表该镜头的内容,常需要用几幅关键帧。原则上讲,关键帧应能提供一个镜头的全面概要,或者说应能提供个内容尽量丰富的概要。从这个角度说,关键帧的选取可看作一个优化过程。按照信息论的观点1 5 4 - 5 5 】,不同( 或相关性较小) 的帧图像比类似的帧图像携带更多的信息。当一两幅关键帧不能达到完全代表镜头内容时,我们需要选取多幅关键帧,用于关键帧选取的准则主要是考虑它们之间的不相似性。由于镜头是由时间上连硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础续、内容上相关性很高的帧图像组成的,不相关的几帧作为镜头关键帧能包含最多的信息。2 4 视频相似度度量在基于内容的视频检索中,系统通过计算两段视频特征之间的距离来获得相似度,然后按照相似度值由大到小返回视频数据库中与待查视频片段最相似的视频片段。由于视频片段由若干时间上连续的帧组成,每一帧可提取的特征又有许多种,如颜色、纹理、形状、运动、语义等,因此不仅需要定义帧之间不同特征的相似度度量,还需要考虑视频各个层次( 关键帧、镜头、场景、视频段) 上的相似度度量。在当前视频检索的研究中,相似度度量主要包含两部分,帧之间的相似度度量和视频片段之间的相似度度量。2 4 1 图像特征相似度由于视频中的帧其实就是图片,所以帧之间的相似度度量也就是图片之间相似度度量,主要通过计算两幅图片特征间的距离获得相似度。当前较为常用的图像特征相似度计算方法主要包括:( 1 ) 点的几何距离将图像的特征矢量看作高维特征空间中的点。比较两个特征是否相似可以通过计算它们之间的距离得到。特征间距离越小,则图像越相似。常用的几何距离包括m i n k o w s k i 明氏距离( c i t y b l o e k 距离和e u e l i d e a n 距离为明氏距离的两个特例1 、m a h a l a n o b i s 马氏距离,切比雪夫距离和兰氏距离。其中最有效的为马氏距离,但由于计算量很大,实际中最为常用的是e u c l i d e a n 距离和c i t b l a c k距离。( 2 ) 角相似度特征矢量的角相似度是两个矢量的点积。相似度与矢量的方向有关,而与矢量的大小无关。跗m = 龋公式( 2 - 1 )( 3 ) 直方图交相似度直方图交相似度由两个特征矢量的各维元素中相似成分多少所决定。一般用于计算两个直方图间的相似度,是一种常用的相似度计算方法。s ( x ,x 3 :m i n ( r x ,)公式( 2 - 2 )& x i七= lk = l1 2硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础上式中x = ( 五,毛,x a ) ,x = ( 五,屯:x oi ) 维向量的每维表示直方图每个b i n 的像素个数。( 4 ) 点集间的距离d 维空间两个点集合之间的距离包括:最小距离( 两个集合中距离最近的两个点之间的距离) ;最大距离( 两个集合中距离最远的两个点之间的距离) ;平均距离( 两个集合中所有点平均值之间的距离) ;h a n s d o r f f 距离( 一个集合中的点到另外一个集合中点的最小距离中的最大值) 。在实际应用中,均值距离和h a u s d o r f f 距离是两种最常用且性能较好的相似度度量。2 4 2 视频片段的相似度视频片段是具有时间顺序的帧的集合,相似度定义通常比较复杂。在经过视频分割和特征矢量提取以后,视频就可以表示为一段连续的高维矢量序列,因此,视频片段之间的相似度定义就可以转化成高维矢量序列之间的相似度计算。根据是否考虑视频片段中关键帧之间的时序关系,可以把视频片段的相似度模型分为两类:考虑关键帧之间的时序关系的相似度度量和不考虑关键帧之间的时序关系的相似度度量。( 1 ) 考虑关键帧之间的时序关系的相似度度量采用该类相似度度量计算两段视频之间的相似度不仅需要计算关键帧之间的距离,同时需要考虑相匹配关键帧之间的时序关系对相似度的影响。由于这种相似度度量从视觉和运动的角度充分考虑两段视频的相似性,因而利用该方法计算得到的视频片段相似度值,较为符合人的主观判断。下面简单介绍几种典型的该类相似度度量。为了较为准确地反映两段视频之间的相似关系,文献【5 6 】中提出一种视频片段的相似度计算模型,该相似度度量不仅考虑了待比较视频的关键帧之间的相似度,还考虑了关键帧的时间序列、它们相互之间的位移以及待比较视频的长度等因素,定义如下:f 受d = d o ,五,磊一。) ,d = 孑t o ,孑t ,孑乙一。) 分别代表两段视频且 m ,其中s i m ( d , ,孑,) 表示关键帧之间的相似度值,则d 和d 之间的相似度定义为:s i m ( d ,d ) = m 专幸事i m公式( 2 3 一其中口【o ,l 】,( o ,l 】为控制参数,z 【o , n - 1 h _ 如果乏,则五左。z s in ( 孑, ,孑- )在该相似度公式中,m = 协( 型一m) 表示了两段视频内包含的所有帧硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础的相似度情况,n =则反映了相似的帧的不同时序关系对视l + a 木协一z 1 1 ii = l频片段相似度的影响,宰竺用于调节不同长度视频片段的相似度值。刀因此,该视频片段相似度公式不仅考虑了组成两段视频的帧之间的相似度,还考虑了相匹配帧之间的位移以及视频长度对相似度的影响,比较合理地从视觉上反映出两段视频之间的相似度。文献【57 】提出一种以人的视觉感受为基础的视频片段相似度度量,它首先将视频分割成镜头,并从中提取关键帧代表镜头,视频片段的相似度就转换成两个有序关键帧集合的相似度,其定义如下:s i m ( c 1 ,c 2 ) = 宰品+ d r + 幸最幺= 1 _ ic i ( d ) 一c 2 ( d ) | 溉( q ( d ) ,c 2 ( d ) ) 最= l 一口c l ( ,) 一c 2 ( 厂) l m m :( c z ( ,) ,c 2 ( 厂) ) 公式( 2 - 4 )公式( 2 - 5 )公式( 2 - 6 )其中品表示视频片段c l 和c 之间的视觉相似度,也就是相似关键帧的个数;环是视频片段持续时间的比率,c :i ( d ) 表示第f 段视频持续的时间;最是视频片段帧率比,e ( r ) 表示第i 段视频的帧率。彤,吸,职则为参数权重,可以调节这三个方面在视频片段相似度中的所占的比重。该相似度度量从人的视觉感知角度出发,分析了影响视频片段相似性的三个主要方面:视觉相似性、持续时间以及播放的帧率。通过将这三个方面对视频相似度的影响综合起来,产生一个较为符合人的主观判断的相似度度量。考虑关键帧之间的时序关系的相似度度量因为要考虑对应帧的时序关系,通常计算比较复杂,会耗费大量的查询时间,但是能较准确地反映视频片段之间的视觉相似度,较好地符合人的主观感受。文献【5 8 】中采用基于图论的中的最大匹配算法和最优匹配算法来作为视频片段相似度度量的模型,和文献【57 】提出的方法一样,它首先将视频分割成镜头,并从中提取关键帧代表镜头,视频片段的相似度就转换成两个有序关键帧集合的相似度。在运用图论的最大匹配算法来确定两个相比较的视频片段中有序关键帧的匹配度,然后使用最优匹配算法来对检索到的相似视频片段进行相似度的排列。( 2 ) 不考虑关键帧之间的时序关系的相似度度量该类相似度度量就是将视频片段简单看成关键帧的集合,两段视频之间的相似度由它们中相似帧的数量决定。定义如下:1 4硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础帧之间的相似度定义:设i ,夕为代表两帧的高维特征矢量,d ( j ,刃表示矢量之间的距离,函数f 为二值断言,那么i ,夕之间的相似度定义为:蚍力= 器篙裟淼洲2 棚j 砌( 孑,力= 1of ( :( ;,;菇:触p公式化- 7 其中函数,可以设为各种判定条件,例如用距离门限g 定义,如果d ( i ,夕) 公式( 2 1 5 )气f 朋= 至f 三三三刁公式( 2 - 1 6 )则由此三分法模糊统计试验所确定的三类隶属函数为:心( x ) = k ( x ) 出公式( 2 1 7 )上述定理将x 的模糊不确定性与;,刁的随机不确定性联系起来。这个联系是通过模糊统计试验建立起来的。在试验中,x 对彳f 的隶属关系的模糊不确定性转化为;与j 7 分界点的随机不确定性。对任一x 值,如它对某一彳f 的隶属度越大,则在做试验时它出现在该边界以内的概率就越大,反之亦然。显然,这是符合人的直观感觉的。当然,上述结果也可推广到划分为c 类时的问题。借助常见的隶属函数曲线:比较常用的有高斯型隶属度函数,z 型隶属度函数,s 型隶属度函数,三角形型隶属度函数等。如下图所示:图2 - 4 常见隶属函数曲线图2 5 2 模糊推理模糊推理是采用模糊逻辑由给定的输入到输出的映射过程。模糊推理包括五个方面:1 一一一。( 1 ) 输入变量模糊化,即把确定的输入转化为由隶属度描述的模糊集。输入变量是输入变量论域内的某一个确定的数,输入变量经模糊化后,变换为由隶属度表示的0 和l 之间的某个数。模糊化常由隶属度函数或查表求得。( 2 ) 在模糊规则的前件中应用模糊算子( 与、或、非) 。1 9硕士学位论文第二章基于内容的视频检索概述及模糊逻辑基础输入变量模糊化后,我们就知道每个规则前件中的每个命题被满足的程度。如果给定规则的前件中不止一个命题,则需要模糊算子获得该规则前件被满足的程度。模糊算子的输入是两个或多个输入变量经模糊化后得到的隶属度值,其输出是整个前件的隶属度,模糊逻辑算子可取t 算子和协t 算子中的任意一个,常用的与算子有m i n ( 模糊交) 和p r o d ( 代数积) ,常用的或算子有m a x ( 模糊并) 和p r o b o r ( 概率或) 。p r o b o r 定义为:p r o b o r ( - g ( x ) ,乒b ( x ) ) = t 月( x ) + 乒b (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 语文教师对思政课的感悟
- 教师幼儿园教育随笔短篇
- 研究内容论文
- 教师论文大全
- 法律翻译实践报告
- 初中数学教师论文
- 幼儿园中班教学反思50
- 高中生综合素质评价研究性课题
- 研究生预备党员思想报告
- 夏季职业健康课件
- 2023年贵州省粮食储备集团有限公司面向社会公开招聘工作人员15人笔试参考题库附带答案详解
- 食管癌食管气管瘘护理
- 痘痘专业知识课件图
- 超星尔雅学习通《国家安全教育(中国人民公安大学)》2025章节测试附答案
- 艾梅乙防治知识培训课件
- 胸腔穿刺术护理查房
- 全过程咨询项目管理
- 基于STM32迷宫机器人设计与实现
- 2024年广东省广州市白云山风景名胜区管理局分支机构第一次公开招聘考试真题及答案
- DB65T 8020-2024 房屋建筑与市政基础设施工程施工现场从业人员配备标准
- 2024年江西省水利投资集团有限公司招聘考试真题
评论
0/150
提交评论