(通信与信息系统专业论文)基于内容的视频检索的镜头分割方法研究.pdf_第1页
(通信与信息系统专业论文)基于内容的视频检索的镜头分割方法研究.pdf_第2页
(通信与信息系统专业论文)基于内容的视频检索的镜头分割方法研究.pdf_第3页
(通信与信息系统专业论文)基于内容的视频检索的镜头分割方法研究.pdf_第4页
(通信与信息系统专业论文)基于内容的视频检索的镜头分割方法研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(通信与信息系统专业论文)基于内容的视频检索的镜头分割方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于内容的视频检索的镜头分割方法研究 摘要 f 多媒体技术和计算机网络的发展使得我们容易地获得几乎无限 、 的视频信息。于是我们就不得不面临一个新的问题,如何有效的组织 和管理这些视频信息,以便更好的使用这些信息。在这个新形势下, 基于内容的视频检索技术( c o n t e n tb a s e dv i d e or e t r i e v a ) 就逐渐 成为了目前多媒体技术中的研究热点。 我们已经很熟悉的快进、快倒操作就是一种检索过程。我们在网 上经常用到的一些搜索引擎也是提供检索服务的。研究基于内容的视 频检索技术的目的,就是为了能够在较短的时间里准确的从视频数据 库中找到用户所需的视频片断。但是,目前为止的多数检索服务都是 基于关键字的检索。关键字的缺点在于因为一般需要人工方式编写, 带有了很强的主观性,造成用户的漏检和错检。同时,对于数据量巨 大的视频数据库,人工编写的工作量也是惊人的。 在实现视频检索过程中需要解决的关键技术很多,包括选择合适 的图象特征、建立良好的目标描述模型以及使用高效的高维检索方 法 视 内容的分析技术。它是实现基于内容的 基于内容的视频分析技术是指根据特定目的,从输入的视频中提 取关于内容的相关信息的过程,包括镜头分割、相机运动提取、场景 分割、镜头相似度的度量以及反馈技术等。其中,镜头分割技术是指 把视频自动地分割为一个个镜头,作为基本的索引单元。因此它是视 频分析的第一步,直接影响到视频检索的成败。 本文仅对其中的镜头边界检测的技术进行研究,并在研究过程中 提出了一个新的镜头分割算法。 本文的第一章主要介绍了当前的视频检索技术的发展状况,包括 多媒体内容接口描述标准一m p e g 一7 的介绍。 , 在第二章中,我们介绍了非压缩域的视频镜头分割技术。( 文中我 们首先介绍了一般的镜头分割算法,同时根据实验数据分析了它们存 在的一些局限性,指出使用单一特征和固定门限难以取得好的检测效 果,提出了一种基于白适应门限选取和运动估计的综合镜头分析方 法。该算法能够自适应的根据视频内容选择阈值,并采用运动估计方 法对视频内容作进一步判别。算法比较实验证明该算法具有较好的视 频分割效果。 第三章中我们主要研究了对m p e g - - 2 压缩域内的视频进行分割 的问题。包括如何从m p e g - - 2 码流中获得低分辨率图及在压缩视频中 作镜头边界检测时采用的两种算法。僻将前面提到的非压缩域的镜头 分割新算法推广到压缩域。 关键词:继 动估计 实验证明效果良好。、) 厂一 检索,视频镜头分割,自适应门限选取,运 s h o ts e g m e n t a t i o nt e c h n i q u e s o n c o n t e n t _ b a s e dv i d e or e t r i e v a l a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n i q u e sa n dc o m p u t e rn e t w o r k s ,w ec a n e a s i l yg e tt h en e a r l yi n d e f i n i t e l yv i d e oi n f o r m a t i o n t h e n an e w p r o b l e m t h a tw eh a v e t of a c ei s ,h o wt o o r g a n i z ea n dm a n a g et h e me f f e c t i v e l y s oa st ou s et h e mm o r e s u f f i c i e n t l y u n d e r t h i s s i t u a t i o n ,t h e c o n t e n tb a s e dv i d e o r e t r i e v a l ( c b v r ) t e c h n i q u eh a sg r a d u a l l yb e c o m eo n eo f t h em o s tu r g e n tt a s k s t h ef a s t - - f o r w a r da n df a s t - - b a c k w a r do p e r a t i o ni sak i n do fr e t r i e v a lm e t h o dw e a r ev e r yf a m i l i a rw i t h a n ds o m es e a r c he n g i n e st h a tw eo f t e nu s e di nt h en e ta l s o p r o v i d er e t r i e v a ls e r v i c e t h eo b j e c to fr e s e a r c h i n gt h ec b v rt e c h n i q u e si st og e tt h e s p e c i f i c v i d e os e g m e n t st h eu s e r sn e e df r o mt h ed a t a b a s ea sr a p i da n dc o r r e c ta s p o s s i b l e b u tt i l ln o w , m o s tr e t r i e v a ls e r v i c e sc a no n l yo f f e ri n d e x i n gf u n c t i o n sb a s e d o nk e y w o r d s t h e s ek e y w o r d sa r eu s u a l l yg e n e r a t e dm a n u a l l ya n dr e t a i nh u m a n s u b j e c t i v i t y t oa l a r g ee x t e n d t h i sc a nm a k em i s s i n gr e t r i e v a la n dw r o n gr e t r i e v a l a t t h es a m et i m e ,t h ew o r ki n t e n s i t yo fm a n u a lg e n e r a t i o ni sa l s om a s s i v et ot h ev i d e o d a t a b a s ew i t ha l a r g eq u a n t i t yo f v i d e o d a t a t h e r ea r eaf e wk e yt e c h n i q u e s n e e d i n gt o b es o l v e di nt h e p r o c e e d i n go f r e a l i z i n gt h ec b v r ,w h i c hi n c l u d et h es e l e c t i o na n de x t r a c t i o no fs u i t a b l ei m a g e f e a t u r e s ,c o n s t r u c t i n g an i c e d e s c r i p t i o n o fo b j e c tm o d e la n da d o p t i n ge f f e c t i v e h i g h - d i m e n s i o n a li n d e x i n gm o d u l e b u tt h ef i r s to n ew em e e ti st h ep a r s i n gt e c h n i q u e o f v i d e oc o n t e n t i ti st h eb a s i so f c b v r c o n t e n t b a s e dv i d e oa n a l y s i si n v o l v e sa l lt h ep r o c e s s i n gt e c h n i q u e st or e t r i e v a l c o n t e n t b a s e di n f o r m a t i o nf r o mv i d e od a t a b a s ef o r s p e c i f i cp u r p o s e t h e s et e c h n i q u e s i n c l u d es h o t s e g m e n t a t i o n ,c a m e r am o t i o ne x t r a c t i o n ,s c e n es e g m e n t a t i o n ,s h o t s i m i l a r i t y a s s e s s m e n ta n dr e l e v a n c ef e e d b a c k s h o ts e g m e n t a t i o nt e c h n i q u em e a n s a u t o m a t i c a l l ys e g m e n t i n g v i d e oc l i p si n t os h o t sa st h eb a s i cu n i tf o ri n d e x i n g i ti st h e f i r s ti m p o r t a n ts t e pi nv i d e op a r s i n ga n dw i l ld i r e c t l y a f f e c t st h ee f f e c t i v e n e s so f i n d e x i n g t h i sp a p e rf o c u s e so nt h es h o ts e g m e n t a t i o nt e c h n i q u e ,a n dp r o p o s e san e w a l g o r i t h m a d e s c r i p t i o no f t h e c u r r e n tv i d e oa n di m a g er e t r i e v a lt e c h n i q u e sa r ep r e s e n t e di n c h a p t e r1 ,i n c l u d i n gt h ei n t r o d u c t i o no f m p e g 一7s t a n d a r d s i nc h a p t e r2 ,w ei n t r o d u c es h o ts e g m e n t a t i o ni nn o n c o m p r e s s e dd o m a i n f i r s t l y w ed i s c u s ss o m ec o m m o ns h o t s e g m e n t a t i o n m e t h o d s t h e nw ep o i n to u tt h e l o c a l i z a t i o no ft h e s em e t h o d sa f t e rt h ep a r s i n go ft h ee x p e r i m e n td a t a ,a n dc o n c l u d e t h a ti ti sd i f f i c u l tt og e tag o o de f f e c tw i t has i n g l ef e a t u r ea n dac o n s t a n tt h r e s h o l d f i n a l l y , w ep r o p o s e a n i n t e g r a t e d s h o t s e g m e n t a t i o n m e t h o db a s e do n a d a p t i v e t h r e s h o l ds e l e c t i o na n dm o t i o ne s t i m a t i o n t h i sa l g o r i t h mc a na d a p t i v e l ys e l e c ts h o t s e g m e n t a t i o nt h r e s h o l d ,a n dg i v e ac l o s e r s e g m e n t a t i o nb yu s i n g t h em o t i o n e s t i m a t i o nm e t h o d t h er e s u l t so fc o n t r a s t i v ee x p e r i m e n tp r o v et h a tt h i sm e t h o dc a n w o r k e f f i c i e n t l y i nc h a p t e r3 ,w em a i n l ys t u d yt h et e c h n i q u eo fs h o ts e g m e n t a t i o ni nm p e g 一2 c o m p r e s s e d d o m a i n i ti n c l u d e sm e t h o d st oe x t r a c ts u b s a m p l e di m a g e s e q u e n c e sa n d t w oa l g o r i t h m so ns h o ts e g m e n t a t i o n w ea l s oa p p l yt h en e w a l g o r i t h mw em e n t i o n e d i nc h a p t e r2t oc o m p r e s s e dd o m a i n e x p e r i m e n tr e s u l t sp r o v et h a tt h em e t h o dc a l l w o r k e f f i c i e n t l y k e y w o r d s :c o n t e n t b a s e dv i d e or e t r i e v a l ,v i d e os h o t s e g m e n t a t i o n ,a d a p t i v e t h r e s h o l ds e l e c t i o n ,m o t i o ne s t i m a t i o n 上海交通大学硕,i 学位论文 第一章绪论 1 1 引言 第一章绪论 在信息高度膨胀的现代社会,传统的语音通信已远远满足不了人们对信息的 需求。人们不仅需要听到对方的声音,而且希望看到对方的形象,最好是逼真的 活动彩色视频。人类接受的信息约有7 0 来自视觉,视频所携带的信息量远远 大于语音和数据,它具有确切、直观、具体生动、高效等特点,这就决定了视频 通信将成为人类最重要的通信手段之一。但是正是由于视频的数据量很大,需要 巨大的存储空间和传输带宽。因此在十年前,基于内容的视频还没有很大的应用 需求。随着多媒体技术的发展和信息高速公路的出现,数字视频的存储和传输不 再是一件困难的事情i ”。一方面硬件技术的发展能以较低的成本提供大量的存储 空间和较宽的传输带宽;另一方面视频压缩技术的发展使视频数据所需的存储空 i b j 年d 传输带宽大为下降。 在解决了传输和存储的问题后,我们的下一个问题是,面对大量的视频节目, 如何进行有效的组织和管理以便于重复使用。目前已经出现了一些多媒体数据库 业务,如视频点播( v o d ) 、电子商务和多媒体图书馆等。虽然这类业务的规模 尚小,功能也较弱,但是它所具有的商业应用前景却是十分诱人的。 视频检索是视频数据库必须具备的基本功能。所谓视频检索就是从大量的视 频数据中找到所需要的视频片断。传统的视频检索主要通过快进和快退等顺序的 方法进行人工查找,是一件非常繁琐耗时的工作,显然无法满足多媒体数据库的 要求。 早期的大多数商用的多媒体数据库,如v o d 系统,只能提供基于关键字的 上海交通大学烦上学位论文 第一章绪论 检索或分类浏览功能,检索的单位往往局限于电影或整场比赛,而对于更小的视 频片断,如一个场景或镜头的检索,只能依靠传统的快进、快退等手段。这是因 为这些系统采用人工方式对视频进行分类和关键字的编写,再使用基于文本的索 引技术对关键字进行索引。这种方式不但无法满足用户多样灵活的检索要求,关 键字的编写在很大程度上带有主观性,而且大大增加了数据库的成本。并且,视 频的内容不是用几个关键字或一段简单的文字所能描述清楚的,用户往往希望只 要给出例子或特征描述,系统就能自动地找到所需的视频片断,即实现基于内容 的视频检索。从方法论来看,通过文字进行视频检索不是一种好的方法,视频检 索应该基于视频本身的内容。 到了九十年代,基于内容的视频图象检索成为了研究热点,并建成了多个 商用或研究性的检索系统。它们一般支持下面所列的功能中的几种:随机浏览; 根据样本视频图象检索( q b e ) ;用草i n ( s k e t c h ) 检索;用文本( 关键字或话音) 检索; 根据定制的视频图象进行导航等。其中比较著名的有q b i c 2 1 ;v i r a g e 【3 1 ; p h o t o b o o k 4 1 :v i s u a l s e e k 5j ;n e t r a 6 1 ;m a r s l 7 1 ;b l o b w o r l d 8 1 等 为了适应基于内容的多媒体处理技术发展的要求,m p e g 标准化组织在这个 方面进行了标准化工作,m p e g 一4 【9 1 和m p e g 一7 1 0 】【1 1 i 1 2 j 分别是第一个基于内容 的音频视频编码和多媒体检索标准,这两个国际标准希望能够建立一种多媒体传 输、多媒体存储、多媒体检索等应用领域的统一的多媒体数据格式。但是为了便 于新技术的发展和集成,这两个国际标准都不将图像视频的分析技术作为自己 的一部分。基于内容的视频分析技术正是这两个标准得以推广的基本前提。 基于内容的视频分析是指从视频中提取关于内容的相关信息的一切处理过 程。基于内容的视频分析技术的研究还处于起步阶段,近几年来,从文献上可以 看到国外不少研究机构和大学都在进行这方面的研究,取得了一些阶段性成果, 但仍需进一步的研究。它的突破必将有力地推动多媒体信息检索( c o n t e n t b a s e d m u l t i m e d i ai n f o r m a t i o nr e t r i e v a l ,简称c m i r ) 技术的发展,因而具有十分重要的 现实意义。 本章首先介绍m p e g 一7 的主要内容和现状,以及与基于内容的视频分析技 术之间的关系。然后讨论了视频数据的基本特点和视频分析过程中镜头转换检测 f :海交通人学硕上学位论文 第一章绪论 领域的研究和进展情况。最后,介绍本文的主要工作和成果。 1 2 国际标准m p e g 一7 以声音和视觉信息为主的多媒体信息有多种表示形式,如静态图片、3 d 、 图形、语音、视频等等。它们的信息本身是非常丰富的,但目前的描述方法却仅 仅限于基于采样的( 如p c m ) 、基于压缩的( 如m p e g 一1 、m p e g 一2 ) 和基于目 标的( m p e g 一4 ) 等,无法很好地表示多媒体内容。因此,在多媒体相关领域迫切 需要一种能够较好地表示信息意义的描述方式,并且这种描述方式可以通过设备 或计算机代码访问。例如,可以基于一个视频设备通过对视频流的某种描述,使 得和某一节目内容相关的视频或音频信息能够实现自动过滤、存储和检索等。 基于此,m p e g 在1 9 9 6 年1 0 月开始致力于建立一种满足各种多媒体内容描 述的标准一m p e g 一7 。它通过制定一组能充分有效描述各种多媒体信息的标准描 述器,并且包含相应的内联关系,最终形成一种描述定义语言,使基于多媒体内 容的高效定位、检索、过滤、查询等成为可能。它的规定范围如图1 一l 所示。 渤p 。淼, 图1 - 1m p e g - 7 的范围 f i g1 一ls c o p eo fm p e g 一7 像其它标准一样,m p e g 一7 也仅仅标准化了描述接口,用户可以有很大的应 用空阳j 。 海交通大学硕 学位论文 第一章绪论 121 基本描述语 0 数据( d a t a ) 数据是m p e g 一7 所要描述的对象。包括存储、编码、显示和传输等产生的 音频和视觉信息,并扩展到压缩的图形、静态图象、视频、电影、语音、文本等 任何相关的a v 媒介,如m p e g 一4 流、录影带、c d 等。 0 特征( f e a t u r e ) 特征是数据对象的明确的特征。它只有在确定的特征描述器和给定特征描述 器的对应值的情况下才有意义。如:一幅图象的色彩,语音分割的音节,视频的 镜头变化,视频的类型等等。 o 描述器( d e s c r i p t o r ) 描述器( d ) 定义了特征的语法和语义。它通过描述器值来体现相应特征。 根据需求不同,可以有几个描述器来表示一个特征。如色彩特征的可能的描述器 为色彩直方图、运动域、色彩矩等等。 o 描述器值( d e s c r i p t o r v a l u e ) 描述器值是一个给定数据集的实例。它通过描述器方案形成相应的描述。 o 描述器方案( d e s c r i p t o r s c h e m e ) 描述器方案( d s ) 规范其成员之间的结构和语义,它的成员可以是描述器 也可以是描述器方案。d s 和d 的区别是d 包括的仅仅是基本的数据类型,而 d s 主要是指方案。如电影中场景和镜头是不同层次,场景中可以包括一些文字 描述器,而镜头中包括色彩、运动音频描述器等。 o 描述( d e s c r i p t i o n ) 描述包括描述器方案和描述器值。通过描述器值来初始化描述器方案。 o 编码描述( c o d e d d e s c r i p t i o n ) 编码描述是压缩编码的描述方法,适于压缩的多媒体信息的应用。 o 描述定义语吉( d e s c r i p t i o n d e f i n i t i o nl a n g u a g e ) 4 海交通大学坝士学位论文 第一章绪论 描述定义语言( d d l ) 是一种允许创造新的描述器方案或描述器的语言。它 也可以修改和扩展已有的描述器方案。它的研究目前尚很不完善。 1 22 描述机制 m p e g 7 对多媒体的描述主要是通过d 、d s 、d d l 之间相生而成。d d l 提 供生成d s 的机制,d s 又生成d 或d s 本身。它们的关系可以用图1 2 表示。 图1 2d 、d s 和d d l 的关系 以“电影”这一高层次语义为例,它所对应的d 、d s 和d d l 分别是 0d d l : 描述一部电影信息的语言。 od s : 电影 电影名,导演,演员,场景,海报 场景 动作描述,场景长度,关键帧 关键帧 色彩,对应时刻) 0d : 5 上海交通人学坝+ 学位论文 第一章绪论 色彩 直方图 导演 文本 图象 j p e g 123 应用框架 多媒体内容通过m p e g 一7 描述,分为d ,d s ,d d l 三个层次。如果需要数 据压缩,可以再采用m p e g 7 的编码描述,然后结合用户对多媒体信息的处理 要求,可以实现对多媒体信息的过滤、检索和浏览等应用。图1 3 是一种应用 框架。 图卜3m p b g 一7 的应用1 f i g l 一3a p p l ic a t i o no fm p e g 一7 同其它标准一样,m p e g 一7 的也仅仅是给出一种应用框架,并没有对应用过 多约束。应用方案的具体设计和实现仍具有很大的灵活信。 m p e g 7 是基于内容的多媒体国际标准。但是,它不将视频的分析技术作为 j 二海交通大学硕十学位论文 第一章绪论 自己的一部分,必须研究大量的配套工具。基于内容的视频分析技术是它得以推 广的基本前提,如图1 4 所示。对于m p e g 一7 而言,必须首先使用视频分析技 术提取视频特征,供基于内容的检索使用。 臣习 lc 。d i 。g 图1 4 基于内容的视频分析与m p e g 一7 的关系 1 3 视频数据的特点 131 视频数据的层次性结果 正如一本书可以分为章节、段落和语句一样,视频数据也具有一定的结构。 一段视频流,自顶向下可分为视频( v i d e o ) 、故事单元( s e q u e n c e ) 、场景( s c e n e ) 、镜 头( s h o t ) 和帧( f r a m e ) ,如图1 5 所示。 h “m 5 1 1 1 1 l 图1 - 5 视频数据的层次结构 上海交通人学硕j 学位论文 第一章绪论 其中,帧是视频的最小组成单元,是一幅静止的图象。镜头是视频的基本单 元,它是摄像头的一次连续运动,只能拍摄相邻地点连续发生的事情。场景由内 容相近的镜头组成,从不同的角度叙述同一事件。片断( 故事单元) 由若干连续的 场景组成。而电影由几个片段组成。叙述一个完整的故事。 每个视频层次的数据都可以用一定的特征加以描述,如: 电影的特征:名称,类型,存储格式,导演,主要演员,个数和持续时间等。 故事单元的特征:标题,持续时间,场景的数目,场景1 ,场景2 场景n 等。 场景的属性:标题,持续时间,镜头数目,镜头l ,镜头2 镜头n 等。 镜头的特征:持续时间,开始帧号,结束帧号,代表帧集合等。 帧的特征:直方图,轮廓图,d c 及a c 分量图,运动向量等。 132 镜头转换的类型 由于一个镜头只能拍摄相邻地点连续发生的事情,它的描述能力有限,所以 大多数的视频都是由许多镜头通过编辑连接而成。有的视频切换频繁,镜头持续 时间短,如电视新闻节目、故事片等。这些视频通过镜头的切换来反应不同地点 或不同时间发生的事情。也有的视频切换较少,每个镜头的持续时间较长,如体 育节目的转播。还有些视频几乎没有镜头的切换,例如用于银行保安,交通监管 的监控视频。 镜头的转换分为两类:突变( a b r u p tc h a n g e ) 和渐变( g r a d u a lc h a n g e ) 。突变是一 个镜头直接转换为下一个镜头,中间没有时间上的延迟。渐变是加入了一些空间 和时间上的编辑效果,前一个镜头慢慢地转换为下一个镜头,以改善视觉效果。 由于编辑方式的不同,渐变的方式有很多种,而且不断有新的方式出现,常用的 可分为淡入淡出( f a d ei n o u t ) 、慢切换( d i s s o l v e ) 和扫换( w i p e ) 三类。淡入是使画面 逐渐加强,淡出是使画面逐渐减弱直至消失。慢转换是在上一个镜头画面逐渐减 弱的同时,下一个镜头的画面逐渐加强。扫换是不改变前后镜头的亮度,从画面 的某一部分开始逐渐地被下一个镜头所代替。镜头转换的不同类型如图i 一6 所 j :海交通人学顾j j 学位论文 第一章绪论 刀i 。 ( a ) ( c ) 图1 6 镜头转换的几种类型( a ) 突变( b ) 慢转换( c ) 扫换 f i g l 一6d i f f e r e n tt y p e so f s h o tc h a n g e ( a ) b r e a k ( b ) d iss o l y e ( c ) w i p e 133 镜头的运动 镜头内的运动包括由对象运动导致的局部运动和由摄像头运动导致的全局 运动。 对象运动:对象的运动根据实际情况的不同千变万化,但又是视频检索的一 个重要方面,特别是对于监控视频。例如用户可能需要检索某个物体被移动的视 频片断或汽车发动的视频片断。针对这种情况,c o u r t n e y ”j 9 3 纳t 以下几种对象 运动并进行了分析: 出现:一个对象在镜头中出现 消失:一个对象从镜头中消失 进入:一个运动的对象在镜头中出现 退出:一个运动的对象从镜头中离去 卜海交通人学顾上学位论义 第一章绪论 放置:一个本身不能动的对象加到镜头中 移动:一个本身不能动的对象从镜头中移开 运动:一个原本静止的对象开始运动 停止:一个原本运动的对象停了下来 通过以上对象运动分析可实现对监控视频的基于内容的检索。 摄像头的运动:在视频的拍摄过程中,摄像头可以按不同的方式运动以达 到特定的拍摄效果。摄像头的运动包括”j : 上下摇镜头( t i l t ) :摄像头的位置不变,上下转动改变拍摄方位。 左右摇镜头伊a n ) :摄像头的位置不变,左右移动改变拍摄方位。 转镜头f z r o t a t i o n ) :以对象为中心,摄像头从不同的位置角度拍摄。 移动镜头( t r a n s l a t i o n ) :摄像头的位置跟着拍摄对象移动,但不旋转角度。移 动又可分为水平移动( h o r i z o n t a lt r a n s l a t i o n ) 和垂直移动( v e r t i c a lt r a n s l a t i o n ) 。 推镜头( z o o mo u t ) :从远处开始,逐渐推近到拍摄对象。 拉镜头( z o o mi n ) :从近处开始,逐渐拍成全景。 有时一个镜头内有几种摄像头运动,此时一般只分析主要的运动。 1 4 基于内容检索的视频分析技术的研究现状 1 41 基于内容检索的视频分析的一般过程 基于内容的视频分析技术是指,根据特定的目的,从输入视频中提取关于内 容的相关信息的一切处理过程。为了实现基于镜头内容的视频检索,视频分析的 基本过程包括镜头边界的检测、视频数据的自动索引和视频聚类1 7 。镜头边界 的检测通过对视频帧的比较,把视频分割成基本的组成单元一镜头;视频数据的 卜海交通人学项上学位论文 第一章绪论 自动索引包括代表帧的选取和静止特征和运动特征的提取。根据这些特征可以进 行视频聚类。视频分析的基本过程如图1 7 所示。 图1 7 基于内容检索的视频处理过程 1 4 2 镜头边界的检测 镜头是视频数据的基本单元,大部分视频是通过编辑一个个镜头连接而成 的,所以基于内容检索的视频处理首先要把视频自动地分割为一个个镜头,作为 基本的索引单元,这个过程就称为镜头边界的检;冽( s h o tb o u n d a r yd e t e c t i o n ) 。它 是实现基于内容的视频检索的第一步,直接影响到视频检索的成败,因此基于内 容的视频检索离不开镜头转换检测算法的研究。 镜头转换的检测算法按处理对象可分为【1 8 | : 0 非压缩域镜头转换检测算法 0 压缩域镜头转换检测算法 非压缩域( 象素域) 镜头转换检测算法是针对未经压缩的数字视频的,它可 以利用视频帧的象素域信息,直接进行各种图象处理,提取视频帧的特征向量, 如颜色直方图、边缘改变率等。 压缩域镜头边界检测算法主要是针对m p e g 压缩视频的。由于越来越多的 1 l 海交通大学硕士学位论文 第一章绪论 视频数据是以m p e g 压缩形式进行捕捉、传输和存储的,因而有必要对m p e g 压缩域视频进行研究。先解压,再使用非压缩域的算法进行分析的方法,不但要 消耗大量的解压时间,而且需要额外的存储空问,因此近年来开始出现了直接对 压缩视频进行镜头检测的算法,主要有以下两种。 一种以f | 本的y a s u 【y u k i 1 9 1 和普林斯顿大学的b l y e o 2 0 1 为代表,他们都是利 用i 帧的d c 序列,考查前后两个i 帧d c 图的色度相似度,在镜头转换时,色 度变化一般较大。这种方法的缺点是检测精度不高,因为镜头转换可能发生在两 个i 帧之间,另外没有利用运动信息,难以区分镜头运动和渐变。 另一种方法以z h a n g ,m e n g 2 1 1 为代表,利用b 帧和p 帧的运动向量,在镜 头转换时,b 帧和p 帧中采用预测编码的宏块数较少。这种方法虽然比较简单, 但是i 帧中没有运动向量,且m p e g 中运动估计采用了块匹配方法,运动向量 不一定表示真实的运动,因而检测精度不高。 按出发点的不同,镜头边界检测算法可分为: o 基于帧问差的方法 。基于模型的方法 在发生镜头转换时视频数据将发生一系列的变换,这种变化表现在颜色差异 突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等各方面。一般 而言,同一个镜头内的各帧之间差异较小,不同镜头的帧间差异较大。基于帧间 差的方法就是利用某种特征,对视频帧进行比较,当帧问差大于某个闽值时就认 为是镜头的边界,这种方法属于自底向上的方式。 基于帧问差的方法必须选择合适的阈值,同时镜头渐变时帧间差增大不够明 显,而镜头内的运动也会引起帧问差的增大,造成渐变难以与镜头运动相区别。 基于模型的方法主要针对镜头转换中的渐变,如淡入淡出、慢转换和扫换 等。这种方法通过对视频制作过程的研究,得到对应某种渐变过程的视频编辑方 程,再找到某种参量,在出现这种渐变类型时,该参量会具有一些特殊的性质。 这种方法最早由h a m p a p u r 提出,他通过对色度编辑方程的研究,定义了一个常 量图c i ( c o n s t a n ti m a g e ) ,在淡入淡出过程中,c i 的所有象素值都与位置无关, 上海交通人学颁l 学位论文 第一章绪论 为一常量。根据这一特征可检测出淡入淡出。基于模型的方法属于自顶向下的 方式。 基于模型的方法必须为不同类型的渐变进行研究,找到各自的具有特殊规律 的参量,以便能够与镜头运动和其它渐变相区别。基于模型的方法也可以通过研 究镜头运动的特殊规律,把运动从可能的渐变中去除。 按计算帧问差使用特征的不同,镜头边界检测算法可分为: o 基于象素或块的方法 。基于直方图的方法 0 基于边缘特征的方法 。基于运动向量的方法 0 基于d c t 系数的方法 这些方法各有优缺点,基于象素或块的方法由n a g a s a k a 和t a n a k a 提出2 2 1 , 它计算前后两帧对应象素( 或块) 亮度差或颜色差的绝对值之和,它的一种改进是 计算亮度差或颜色差的绝对值超过某一阈值的象素总数,这类方法的缺点是对噪 声和运动比较敏感,因为它严格地局限于象素的位置,噪声和物体运动都会使帧 问差增大,从而导致错误的镜头边界检测。 基于直方图的方法2 3 1 不考虑象素的位置信息,而使用象素亮度和色度的统 计值,因而抗噪能力比象素匹配强。这种方法的缺点是在前后两个镜头的颜色分 布相近时,会发生漏捡。 基于边缘特征【2 4 1 的方法首先对视频帧提取边缘,然后根据边缘改变率进行 镜头转换检测的方法,它的基本思想是“在发生镜头转换时,新出现的边缘应远 离旧边缘的位置,同样旧边缘消失的位置应远离新边缘的位置”。这种方法的缺 点是计算量较大,除了提取边缘的开销外,在统计新出现和刚消失的边缘点之前 还必须做运动补偿,以抵消由运动带来的边缘错位。 基于运动向量和基于d c t 系数的方法主要用于m p e g 压缩域视频【2 5 】 2 6 】 2 7 1 。 海交通人学顺| + 学位论文 第一章绪论 目前镜头边界检测算法主要有以下问题: o 特征向量的选择 与图象分割问题一样,正确的特征选择对镜头边界的检测具有十分重要的意 义。象素差和边缘改变率对运动和噪声比较敏感,会造成误检测;而颜色直方图 又丢失了位置信息,两幅完全不同的图象可能具有相似的颜色分布,会造成漏检 测。找到更好的特征或特征组合将有利于镜头边界的检测 。闽值的选择 阂值选择是利用帧间差的镜头边界检测算法的一个重要问题。阂值过大会漏 掉镜头转换;阈值太小会引起误检测,即把镜头内镜头或物体的运动( 此时帧问 差值增大) 误检测为镜头转换。不同类型的视频应选择不同的阈值,如体育比赛 的镜头运动较多,应选择较大的阈值,而新闻节目主持人的镜头,运动较少,应 选择较小的阈值,因此难以定出统一的标准。阈值应根据视频的内容自适应地选 定。目前文献中大多数算法都采用依靠经验人工选择闽值的方法,不利于实现镜 头边界的自动检测。 o 渐变与镜头运动的区别 渐变与镜头运动都会造成帧间差连续的增大,从本质上说利用帧间差的方法 无法从根本上区别渐变和镜头运动。基于模型的方法是一种可能的途径,但是要 为各种渐变建立模型也非常困难。 0 渐变过程中的不连续与停顿 目前大多数渐变检测算法都假设渐变过程是均匀连续的,而我们在实际视频 中发现由于采样速度达不到所要求的帧率,有时会用上一帧代替本帧,从而造成 渐变过程的不连续甚至停顿,使得渐变的检测更加复杂困难。 o 光照条件的变化及闪光灯引起的误检测 光照条件的变化及闪光灯会造成视频帧亮度的变化,引起各种视频特征的变 化,从而容易误检测为镜头边界。 海交通大学硕l j 学位论文 第一章绪论 1 5 本文研究的重点,章节安排 现代技术已经能运用各种手段大量地采集和产生各种类型的信息数据,包括 数字视频,网络技术的发展又成为视频数据的共享提供了硬件条件。为了能够快 速准确地获取需要的视频片断,必须实现基于内容的视频检索,为此需要进行基 于内容的视频分析。同时基于内容的视频检索也是m p e g 一7 标准能够在各个领 域得到广泛应用的基础。基于内容的视频分析是指,根据特定的目的,从输入的 视频中提取关于内容的相关信息的一切处理过程。其中,视频镜头的分割是视频 分析的第一步,也是最重要的步骤之一。镜头分割的效果会直接影响视频的进一 步分析研究。因此,对视频镜头的分割的研究是一件非常有意义的工作。 本文在对视频镜头分割的几种典型算法进行研究后,提出一个较为有效的分 割新算法一种基于自适应门限选取和运动矢量计算的综合镜头分割方法,并 对几种算法作了比较性实验。 全文内容安排如下: 第一章首先概述基于内容的视频检索的市场需求,介绍了m p e g 一7 的主要内容和现状,以及与基于内容的视频分析技术之间的关 系。然后讨论了视频数据的基本特点和视频分析过程中镜头转 换检测领域的研究和进展。最后,介绍了本文的主要工作和研 究成果。 第二章介绍了几种常见的非压缩域视频分割算法,并通过一些实验, 对每种算法的特点给予评价。总结并提出一种新的视频分割算 法一基于自适应和运动估计的综合镜头分割算法。通过对象素 匹配算法、分区直方图算法和我们提出的算法的比较实验,对 结果给予分析。 第三章对压缩域的视频镜头分割算法进行介绍,并运用本文提出的算 法进行实验,并对结果给予分析。 本文的主要研究成果是提出了基于自适应门限选取和运动矢量计算的综合 镜头分割方法。实验结果证明,在分割效果和实用性上都有较好的表现。 j :海交通人学硕i 学位论文 第一章绪论 参考文献 余松煜,周源华,吴时光, “数字图象处理”,电子工业出版社,1 9 8 9 。 2 2 w i l l e q u i t z ,w a y n en i b l a c k ,“r e t r i e v i n gi m a g e s f r o mad a t a b a s eu s i n g t e x t u r e a l g o r i t h m s f r o mt h e q b i cs y s t e m ”,t e c h n i c a lr e p o r t r j 9 8 0 5 , c o m p u t e rs c i e n c e ,m m r e s e a r c hr e p o r t ,m a y19 9 4 3 3 a m a r n a t h g u p t a , r a m e s h j a i n , “v i s u a li n f o r m a t i o nr e t r i e v a l ” c o m m u n i c a t i o n so f t h ea c m ,v 0 1 4 0 ,n 0 5 ,1 9 9 7 4 a p e n t l a n d ,r wp i c a r d ,s s c l a r o f f , m a n i p u l a t i o no fi m a g ed a t a b a s e s ”,i n t e m a t i o n a l 1 9 9 6 p h o t o b o o k :c o i t e n t b a s e d j o u m a lo fc o m p u t e rv i s i o n , 5 j r s m i t h ,s f c h a n g e ,“i n t e l l i g e n tm u l t i m e d i ai n f o r m a t i o nr e t r i e v a l , e d i t e d b ym a r kt m a y b u r y , c h a p t e rq u e r y i n gb yc o l o rr e g i o n su s i n gt h e v i s u a l s e e kc o n t e n t - b a s e dv i s u a lq u e r y s y s t e m ”,1 9 9 6 6 y o n gr u i ,t h o m a ss h u a n g ,s h a r a dm e h r o t r a ,m i c h a e lo m e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论