




已阅读5页,还剩86页未读, 继续免费阅读
(计算机应用技术专业论文)视频内容的结构化分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着通信网络、数据压缩和海量存储技术的发展,越来越多的多媒体信息以 计算机可读的形式存在于互联网上。它们不仅包括常见的文字和语音数据,还有 图形、图像、动画和视频等媒体信息。它们一般没有结构,并缺乏语义信息,信 息检索系统很难对它们进行有效搜索,只有对媒体数据进行表示建模和有效组 织,才能帮助人们更快地找到感兴趣内容。 作为多媒体家族中一个十分特殊的成员,视频本质上融合了图像、语音、文 本、动画等多种类型的媒体数据,成为多媒体信息检索研究的难点。早期视频检 索技术预先对视频内容进行人工标注,即用关键词作为视频的索引项,再用传统 数据库对这些信息进行管理和检索。今天,人工标注方法遇到了无法克服的困难, 主要表现在:视频数据量急剧增加,人工标注的工作量急剧增大,不仅成本极高, 而且已是不可能完成的任务;对图像和视频等视觉信息很难用适当文字描述,不 同标注者主观理解也不同,势必造成不一致的标注等。这些困难促使人们寻找新 的视频索引和检索技术。 随着研究的不断深入,1 9 9 3 年张宏江在a c m 多媒体系统杂志传刊号上 发表了他在该领域的第一篇文章“a u t o m a t i cp a r t i t i o no f f u l l m o t i o nv i d e c ” 1 】, 、建立了现代视频检索和内容查询的一个基本框架。这是在现代多媒体研究方面的 一篇经典文章,也是在此领域中人们引用最为广泛的文章之一。框架的基本思想 是:不需要完全明白视频的内容,只需分析视频的结构,再把每一个镜头当作段 落,将关键帧当作关键字,从而形成一套全新的多媒体检索和查询的方法。 最近,m p e g 专家组制定并公布了m p e g 7 标准( 多媒体内容描述接口) , 它为文本、图像、语音、视频等多媒体信息提供标准化的描述方法,为用户提供 可用的接口。该标准的制定为多媒体信息的有效检索奠定了良好的基础。 基于内容的多媒体检索技术的日益成熟不仅将创造出巨大的社会价值,而且 将对人类生活的改善发挥重要作用。它与传统数据库技术相结合,可以方便地实 现海量多媒体数据的存储和管理;它与传统w e b 搜索引擎技术相结合,可以用 来检索h t m l 网页中丰富的多媒体信息。在可预见的将来,基于内容的多媒体 检索技术将会在军事、医学、生产、生活、娱乐等各个领域中得到广泛应用。 本文以基于内容的视频处理和检索技术为研究目标,以视频内容的结构化分 析为主线,结合自己的研究工作,重点介绍视频中镜头分割( 或称镜头边界检测) 、 场景分割( 或称场景边界检测) 、节目分割( 或称节目边界检测) 、以及关键帧提 取和相似度计算等关键技术。 论文第一章着重介绍视频检索研究的发展现状,同时简要介绍几个具有代表 复旦大学硕士论文 性的视频检索系统模型。随后从现代视频检索研究的一大核心课题视频结构 化分析角度出发,罗列视频结构化分析研究中的若干关键技术。第二章在总结前 人在镜头分割方面所作贡献的基础上,着重介绍我们在镜头分割方面所作的工 作。第三章介绍当前几种常用的关键帧抽取方法以及关键帧的特征提取和相似度 计算方法,并重点介绍m p e g 7 标准定义的图像视觉特征描述予。第四章首先针 对新闻、电影这两类特殊视频分别介绍了几种典型的场景分割算法,随后详细描 述了我所在研究小组提出的一种通过自动分类学习检测播音员镜头的算法,其检 测结果可用于新闻视频的场景分割中。第五章首先将传统的视频层次结构( 帧 f r 锄e 镜头s h o t _ 镜头组s h o tg r o l 】p _ _ 场景s c e n 旷_ 视频v i d e o ) 进行扩 充,针对电视视频流,在场景和视频层次间加入节目层( p r o g r a m ) ,并随后提出 一种针对特定电视频道的电视节目自动分割算法。第六章,总结全文并展望未来 的工作。 关键字:镜头分割、场景分割、节目分割、关键帧提取、视频检索、m p e g 一7 、 多媒体技术、视频结构化分析 中图分类号:t p 3 1 1 1 复旦大学硕士论文 a b s t r a c t w i t ht h er a p i da d v a n c e si nh i g h s p e e dt r a n s m i s s i o n ,d a t ac o m p r e s s i o na n d h i g h - c a p a c i t ys t o r a g e ,m o r ea n dm o r em u l t i m e d i ai n f o r m a t i o na r eb e c o m i n g a c c e s s i b l eo v e rc o m p u t e r s ,w h i c hi n c l u d en o to n l yt e x ta n da u d i oi n f o r m a t i o n ,b u t s o m ev i s u a li n f o r m a t i o ns u c ha sg r a p h ,i m a g e ,a n dv i d e o t h ep e r v a s i v e n e s so f c o m p u t e ra n dn e t w o r kh a sm a d em u l t i m e d i ad a t aa v a i l a b l ew o r l d w i d e g e n e r a l l y s p e a k i n g ,t h e s ed a t aa r es t o r e di nam e s s ,w h i c hm a k e si td i f f i c u l tt od oa ne f f e c t i v e s e a r c ho nt h e m t h u s ,e f f i c i e n tc o n t e n tm a n a g e m e n tf o ri n s t a n ta c c e s s ,s e a r c h i n ga n d b r o w s i n gb e c o m e sn e c e s s a r ya n di m p o r t a n t a so n es p e c i a lm e m b e ri nm u l t i m e d i af a m i l y , v i d e oc o m b i n e sa l lo t h e rm e d i a i n f o r m a t i o n ( s u c ha si m a g e ,a u d i oa n dt e x t ) i n t oas i n g l es t r e a m ,a n dv i d e or e t r i e v a l b e c o m e st h em o s tc h a l l e n g eo n ei nm u l t i m e d i ai n f o r m a t i o nr e t r i e v a lr e s e a r c ha r e a i n i t i a lw o r ko nv i d e or e t r i e v a li sb a s e do nt e x ta n n o t a t i o no f v i d e oc o n t e n t ,r e t r i e v i n g t h ew a n t e di n f o r m a t i o nb yk e y w o r d sa n dt r a d i t i o nd a t a b a s eq u e r yl a n g u a g e ,s u c ha s s q l h o w e v e r , a l lo ft h e s em e t h o d sh a v em a n yd i s a d v a n t a g e s f i r s t ,w i t ht h er a p i d i n c r e a s eo f m u l t i m e d i ai n f o r m a t i o n ,w en e e dm o r ea n dm o r es p a c et os t o r et h e s et e x t a n n o t a t i o n sa n dt h ew o r ko ft e x ta n n o t a t i o ni sa l s om o r ea n dm o r et i m ea n dc o s t c o n s u m i n g s e c o n d ,s i n c ed i f f e r e n ta n n o t a t o r sc o m m e n t so nas a n l ei m a g eu s u a l l y a l ed i f f e r e n t ,i ti sv e r yd i f f i c u l tt om a k ea p r o p e ra n n o t a t i o n t os o l v et h e s ep r o b l e m s ,h j z h a n gp u b l i s h e dh i sf i r s tp a p e r “a u t o m a t i c p a r t i t i o no ff u l l m o t i o nv i d e n ”i nt h i sa r e ai n19 9 3 sa c mj o u r n a lo fm u l t i m e d i a s y s t e m s 1 ,i nw h i c haf o u n d a t i o n a l s t r u c t u r ef o rm o d e r nv i d e or e t r i e v a la n d c o n t e n t - b a s e dq u e r yi sp r o p o s e d i ti sac l a s s i c a lp a p e ra n dh a sb e e nc i t e di nm a n y r e s e a r c hp a p e r s t h ec o r ei d e ao ft h i ss t r u c t u r ei st oa n a l y z et h ev i d e os t r u c t u r e i n s t e a do f u n d e r s t a n d i n gt h ev i d e oc o n t e n t v i d e oi sd e v i d e di n t os h o ts e q u e n c e sa n d k e yf r a m e so fe a c hs h o ta r et a k e na sk e yw o r d s ,t h u sab r a n dn e wm u l t i m e d i a r e t r i e v a lm e t h o di sp r e s e n t e d r e c e n t l y , m o v i n gp i c t u r ee x p e r t sg r o u ph a sp r o d u c e dm p e g - 7 ,t h es t a n d a r d f o r d e s c r i b i n g t h em u l t i m e d i ac o n t e n td a t at h a t s u p p o r t ss o m ed e g r e e o f i n t e r p r e t a t i o no ft h ei n f o r m a t i o n sm e a n i n g m p e g - 7s t a n d a r d i z e ss u p p o r ta sb r o a d ar a n g eo fa p p l i c a t i o n sa sp o s s i b l ea n dc o u l db u i l dab e r e rf o u n d a t i o nf o r m u l t i m e d i ar e t r i e v a l c o n t e n t - b a s em u l t i m e d i ar e t r i e v a lc o u l dm a k eag r e a tc o n t r i b u t i o nn o to n l yt o 复旦大学硕士论文 s o c i e t y , b u tt oh u m a n se v e r y d a yl i f e c o m p a n i e dw i t ht h et e c h n i q u e su s e di n t r a d i t i o n a ld a t a b a s e s ,t h i sk i n do fr e t r i e v a lc o u l de a s i l ya c h i e v et h es t o r a g ea n d m a n a g e m e n to fv a s tm u l t i m e d i ad a t a ;c o m p a n i e dw i t l lt h et e c h n i q u e su s e di n t r a d i t i o n a lw e bs e a r c he n g i n e ,t h i sk i n do fr e t r i e v a lc o u l da c h i e v et h er e t r i e v a lo f m u l t i m e d i ai n f o r m a t i o ni nh t m lp a g e i nt h ef u t u r e ,c o n t e n t - b a s e dm u l t i m e d i a r e t r i e v a lw i l lb ew i d e l yu s e di nm a n ya r e a s ,s u c ha sm i l i t a r ya r e a ,m e d i c a la r e a , i n d u s t r ya r e a , e n t e r t a i n m e n ta r e aa n ds oo n t h er e s e a r c ho b j e c t i v e so ft h i st h e s i sa r et h et e c h n i q u e su s e di nc o n t e n t - b a s e d r e t r i e v a l w et a k et h ev i d e os t r u c t u r ea n a l y s i sa st h em a s t e r s t r o k e ,a n dt h e nb a s e do n t h er e s e a r c hw o r kw eh a v ed o n e ,w ef o c u so nt h ei n t r o d u c t i o no fs e v e r a lk e y t e c h n i q u e s ,i e s h o ts e g m e n t a t i o n ( o rs h o tb o u n d a r yd c t e e t i o n ) ,s c e n es e g m e n t a t i o n ( o r s c e n eb o u n d a r y d e t e c t i o n ) ,p r o g r a ms e g m e n t a t i o n ( o rp r o g r a mb o u n d a r y d e t e c t i o n ) ,a sw e l la sk e yf r a m ee x t r a c t i o na n dt h es i m i l a r i t yc a l c u l a t i o nt e c h n i q u e s t h er e s to f t h i st h e s i si so r g a n i z e da sf o l l o w s c h a p t e r1g i v e sab r o a do v e r v i e w o fv i d e ob r o w s i n ga n dr e t r i e v a la r e aw h i c hi sf o l l o w e db yab r i e fi n t r o d u c t i o no f s e v e r a lc l a s s i c a lv i d e or e t r i e v a ls y s t e m sa n dav e r yi m p o r t a n tt o p i co ft h i sa r e a , v i d e os t r u c t u r a la n a l y s i s i nc h a p t e r2 ,a f t e ras h o r ts u m m a r yo ft h ee x i s t i n gw o r k a n do p e ni s s u e si ns h o ts e g m e n t a t i o na r e a , w ep r e s e n to u ra l g o r i t h mw h i c hc o u l d g r e a t l yi m p r o v et h ep e r f o r m a n c eo ft h ee d g e - b a s e ds h o ts e g m e n t a t i o n c h a p t e r3 p u t sf o c u so nt h ed i s c u s s i o n o ft h ek e yf r a m es e l e c t i o na n df e a t u r ee x t r a c t i o n t e c h n i q u e s i nc h a p t e r4 ,w ef i r s ti n t r o d u c es e v e r a ls c e n es e g m e n t a t i o na l g o r i t h m s u s e di nn e w sa n dm o v i e s ,t h e np r e s e n tan e wm e t h o dt od e t e c ta n c h o r p e r s o ns h o t s , w h i c hi sp r o p o s e db yas t u d e n ti no u rr e s e a r c hg r o u p i no r d e rt om e e tu s e r s n e w r e q u i r e m e n t s ,i nc h a p t e r5w ei n s e r tan e wl e v e ln a m e da sp r o g r a mb e t w e e nt h e v i d e oa n ds c e n e1 e v e lt oe n h a n c et h eh i e r a r c h i c a ls t r u c t u r e a na u t o m a t i cp r o g r a m s e g m e n t a t i o na l g o r i t h mi sa l s op r e s e n t e di nt h i sc h a p t e r c h a p t e r6c o n c l u d e st h e w o r kp r e s e n t e di nt h i st h e s i s a n di n c l u d e sd i s c u s s i o no f f u t u r ew o r k 。 k e y w o r d s :s h o ts e g m e n t a t i o n ,s c e n es e g m e n t a t i o n ,p r o g r a ms e g m e n t a t i o n ,k e y f r a m ee x t r a c t i o n ,v i d e or e t r i e v a l ,m p e g - 7 ,m u l t i m e d i at e c h n i q u e ,v i d e o s t r u c t u r a la n a l y s i s 复旦大学硕士论文 第一章研究背景和相关工作 在这一章中,我们将要从三个方面对视频结构化分析的研究背景和相关工 作作出一个较为详细的概述。这三个方面分别为视频检索和查询技术的研究现 状,视频内容结构化分析的基本概念,以及视频内容结构化分析中的关键技术。 1 1 视频检索与查询 随着多媒体计算技术的迅猛发展,网络传输速度的不断提高,以及各种视 频压缩技术的相继出现,人们通过网络实现全球多媒体信息的共享成为可能。 面对海量的多媒体信息,传统的“线性”浏览方式已远不能满足人们对视频内容 的访问和查询需求。用惯了文本搜索引擎的用户越来越希望能在海量视频库中 快速找到自己感兴趣的视频片段,例如:足球比赛中的射门镜头、含有日出景 色的片断等等。因此基于内容的视频检索技术应运而生。 基于内容的视频检索研究的基本思路,是在没有人工参与的情况下,自动 提取并描述视频的特征和内容;根据视频内容组织数据库中的视频数据,随后 在其组织结构上进行视频检索。图1 1 给出了一个基于内容的视频检索系统的 典型框架。从框架图中,我们可以看出,在系统中视频首先被分割成一个个在 时间上连续的视频单元。随后,针对每个视频单元,提取相关的特征用于描述 该视频单元的内容,并在所提取的特征上建立索引。最后可以在所建立起来的 框架上利用特征间的某种关系检索或浏览感兴趣的视频。 图1 1 基于内容的视频检索系统的典型 随着基于内容的视频检索技术的不断发展,国内外已研发出了多个商用或 复旦大学硕士学位论文 研究性的基于内容的检索系统。下面我们简单介绍一些著名的系统: 1 q b i c 由i b ma l m a d e n 研究中心研究开发的q b i c ( q u e r yb yi m a g ec o n t e n t ) 是 第一个商用多媒体检索系统【2 】,是“基于内容”检索系统的典型代表,它的系统 框架和技术对后来的基于内容的检索系统具有深远的影响。q b i c 系统允许使 用样本图像、用户描绘的草图或者用户从样本中选择的颜色或纹理模式、以及 镜头和目标运动等信息对大型图像和视频数据库进行查询。q b i c 采用2 5 6 维 r g b 颜色空间的直方图、改进的t a m u r a 纹理特征和偏心率、环度、主轴方面 等的形状特征表示图像和视频内容;采用加权的欧氏距离作为相似度的度量; 采用高维索引技术来组织数据库中的数据。 2 p h o t o b o o k p h o t o b o o k 是m i t 的媒体实验室在1 9 9 4 年开发研制的一套基于内容的图像 检索和浏览的工具【3 】。在系统中,用户不仅可以进行基于人脸、颜色和纹理的 图像查询,而且可以根据不同的应用选择相应的相似度度量查询( 欧氏距离、 马氏距离、向量空间交角、直方图的交和用户自定义的距离公式等) 。 3 v i s u a l s e e k v i s u a l s e e k 是由美国哥伦比亚大学电子工程系与电信研究中心图像和高级 电视实验室共同研究开发的一种在互联网上使用的“基于内容”的检索系统【4 】。 它提供了一套供人们在w e b 上搜索和检索图像及视频的工具。系统首先根据用 户提供的颜色分布和形状轮廓进行初步查询,查询结果返回后,用户再从结果 中选择图像作为样本进行精确查询。为- ;a n 速检索过程,系统采用了基于二叉 树的索引算法。 4 m a r s m a r s 是由u i u c 研制开发的 5 】。该系统的特点是数据库管理系统和信息 检索系统的结合,索引和检索的结合以及首次在图像检索中形式化地提出了相 关反馈结构。自此采用相关反馈技术进行检索的研究开始多起来。基于内容检 索中的相关反馈技术大致可分为4 种类型:参数调整方法、聚类分析方法、概 率学习方法和神经网络方法。 5 v i d e o q v i d e o q 是哥伦比亚大学研究的一个项目。它扩充了传统的关键字和主题导 航的查询方法,允许用户使用视觉特征和时空关系来检索视频 6 。它具有以下 几个特点:集成文本和视觉搜索方法;自动的视频对象分割和追踪;丰富的视 觉特征库,包括颜色、纹理、形状和运动;通过w w w 互联网交互查询和浏览。 复旦大学硕士学位论文 1 2 视频内容的结构化分析 视频是在时间上连续的一系列图像的集合,是一种非结构化的流媒质。如 果把视频看作一本没有目录和索引的书,那么一幅图像就相当于书中的一页。 由于视频这部书缺乏相应的目录和索引结构,人们就无法对它进行高效的浏览 和检索。为寻找感兴趣的视频片段,人们只能采取“快进”和“快倒”这种耗时的 线性浏览方式。 今年来随着存储成本的降低,高速传输和压缩技术的进步,数字视频的数量 和使用频度大大提高。传统的浏览方式已经远远不能满足人们对视频内容的访 问需求,因此需要为视频内容建立有效的目录结构。1 9 9 8 年,u i u c 的ts h u a n g 等人首次提出了将视频流按照内容层次迸行划分,从高层到低层分别为:视频 ( v i d e o ) ,场景( s c e n e ) ,镜头组( s h o tg r o u p ) ,镜头( s h o t ) 和关键帧( k e y f r a m e ) 。如图1 2 所示,从而推动了对视频内容结构化分析的研究。 视频 场景 镜头组 镜头 关键帧 图1 2 视频流的结构层次 从图1 2 可以看出,原始视频是非结构化的流,它由组连续的帧图像组成。 一般来说,一段视频由一些掐述独立故事单元的场景构成;一个场景由一些语 义相关的镜头组成;而每个镜头是由一些连续的帧构成,它可由一个或多个关 键帧表示。在介绍视频内容结构化分析中的关键技术之前,让我们先了解视频 领域里常用的几个基本概念。 帧:视频可以看作是一个在时间上连续的静态图像序列,其中每一幅静态 图像称为一帧。 复旦大学硕士学位 台文 镜头:指摄像机从打开倒关闭的过程中记录下来的一组连续的帧图像。镜 头边界是实际存在的,是视频物理层上的单元。镜头之间有多种类型的过 渡方式,最常见的是“切变”,表现为在相邻两帧间发生的突变性的镜头转 换。此外,还存在一些较复杂的过渡方式,如淡入、淡出、溶解、擦等。 在实际应用中,用户浏览镜头中的所有帧图像是非常耗时的,因此常用关 键帧技术实现快速浏览。 关键帧:指能够描述镜头主要内容的帧。依据镜头内容的复杂程度,可以 从一个镜头中提取一个或多个关键帧或者构造一个关键帧( 此时,关键帧 可能并不是镜头中的某一实际存在的帧) 。 场景:由一组语义上相关、时间上相邻的镜头组成,它能够描述了一个独 立的故事单元( 或者说是一个高层概念) ,是视频在语义层上的单元。通常 只有场景才能向观看者传递相对完整的语义信息。 镜头组:由一组在时间上相邻或在内容上相似的镜头组成。它是介于镜头 和场景之间的一组连续的物理实体,并且是联系= 者的桥梁。 节目:是由时间上有序的场景组成,例如新闻节目、娱乐节目、体育节目、 天气预报等。 目前,有关视频内容结构化分析方面的研究大都基于这一框架,其基本思 想是:从所有的帧中提取某些底层特征( 颜色、纹理等) ,根据帧间的相似程度 将视频分割成若干个连续的片段,并由下至上由细到粗地对视频内容进行结构 化描述。镜头分割和关键帧提取技术的研究是视频分析中的重要部分,也是场 景分割的基础。非压缩域上的镜头分割技术可分为四类 7 】,即:基于像素的、 基于统计的、基于特征的和基于直方图的。在镜头分割之后,就要提取相应的 关键帧。提取关键帧的方法有很多,最简单的方法是提取每个镜头的第一帧和 最后一帧作为关键帧。更好一些的方法是根据镜头的视觉内容和运动提取关键 帧,甚至可以用拼接的方法生成一个场景的全景图作为关键帧。 视频的基本单元镜头和关键帧提取出来以后,就可以用关键帧的顺序排列 来表示视频的内容。当视频长度较短且内容简单时,少量的关键帧就可以较好 地表示整段视频;然而当镜头和关键帧数量巨大时,这种方法对用户检索和浏 览来说仍是困难和繁琐的。例如,一部电影可能包含数千个镜头和关键帧,如 果仅用这些关键帧序列来表示原始视频是没有意义的,因为人们关心的是故事 情节而不是孤立的镜头和关键帧。为了使用户更好地访问视频数据库。人们提 出了视频概括技术( v i d e oa b s t r a c t i n gt e c h n i q u e ) 。顾名思义,视频概括是对视 频内容的高度总结。如何为视频构造良好的概括是视频处理和检索中的另一个 重要研究课题。目前,对视频概括的研究主要集中在场景分割上,人们试图通 复旦大学硕士学位论文 过对视频场景的分析来实现视频概括。 在视频流的层次结构建立好后,就可以对视频内容进行快速地浏览和检索 了。在图1 2 框架中,为了实现高效的视频浏览,往往用少量的关键帧代表场 景,用户可以直接定位到感兴趣的关键帧处播放该场景,从而免去了“陕进” 和“快倒”的麻烦。而实现高效检索的关键是对视频建立有效的索引,其中视 频片段、关键帧、关键词、目录结构、特定对象( 例如人脸、汽车等) 、叠加字 符、伴音和特定运动等都是建立索引的重要内容。建好索引的视频数据库相当 于一个层次式的语义网络,用户可以根据需要采用多种不同的方式提出查询请 求,实现多模态的人机查询界面。 基于内容的视频信息处理和检索技术的日益成熟不仅将创造出巨大的社会 价值,而且将对人类生活的改善发挥重要作用。它与传统数据库技术相结合, 可以方便地实现海量多媒体数据的存储和管理;它与传统w e b 搜索引擎技术相 结合,它可以用来检索h t m l 网页中丰富的多媒体信息。在可预见的将来,基 于内容的多媒体检索技术将会在军事、医学、生活、生产、娱乐等各个领域中 得到广泛应用。 1 3 视频内容结构化分析中关键技术 一般来说,基于内容的视频信息浏览和检索研究中的关键技术主要包括以 下几个方面: 1 用户界面的研制 现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性,用户 在系统中是主动的。因此,在视频信息浏览和检索系统中如何设计一个友好而 又方便的用户界面是十分重要的。在一个友好的用户界面下,用户的查询接口 应能够提供丰富的交互能力,使用户在主动的交互过程中表达出自己对媒体语 义的感知;在一个友好的用户界面下,用户能够便捷的浏览视频数据,能够方 便而又快速的检索到自己感兴趣的内容。目前已经有许多研究机构在心理学、 美学等多种学科的支持下研制各种合理的人机界面。 2 视频的结构分析 由于视频是无结构化的流,要对整段视频进行浏览和检索是非常耗时的。 但是摄像机拍摄中的不连贯性使得视频流在内容上出现断点,而且这种不连续 性体现在视频内容的物理特征上,这就使得视频内容的结构化分析成为可能。 视频内容结构化分析的过程就是把视频流分割成一系列内容上不连续的视频序 列的过程。视频流的分割从粒度上又分为镜头分割、场景分割和节目分割。镜 头分割可以完全根据视频物理特征的变化,如根据图像帧间的颜色变化或纹理 复旦大学硕士学位论文 变化进行分割;场景分割和节目分割则涉及到具体的语义,分割方法也更为复 杂多样。分割得到的视频片断往往用一个或几个关键帧表示。视频内容结构化 分析的目的,便是使视频数据形成结构化的层次,从而方便用户的浏览。 3 视频的概括 视频概括是视频分析中一个非常重要的技术,也越来越被人们所关注。它 的目的是对视频的内容进行概括和提炼,用更加直接更加简要的方式来表达, 从而缩短人们浏览视频的时间。 举例而言,我们可以用一幅画面来描述一部电影,观众可以通过这幅画来 了解电影的主要内容和风格,通过比较不同电影得到的画面,还可以选择看哪 一部电影。这样做看上去很难,但实际上却是可以实现的:电影海报就实现了 这样的功能。将上面的例子拓展开去,把一幅画面换成若干幅画面组成的小短 片,就可以更加详细地描述电影的内容了。 上面的这个例子,其实已经包括了视频概括中两个最重要的内容:关键帧 提取( k e yf r a m ee x t r a c t i o n ) 和视频预览( v i d e op r e v i e w ) 。 4 特征提取 特征提取是基于内容的信息检索研究中最重要的一部分。通过这一过程, 将图像、视频中的物理或语义信息提取出来。这些信息将作为视频内容的重要 描述信息并结合一定的相似度度量方法用于视频检索过程中。 通常所见的特征包括:颜色、纹理、形状、运动和对象等。前三种是图像 和视频共有的,属于数字图像处理中较为成熟的技术。对象提取和跟踪,是视 频分析中十分困难的技术之一,可利用运动信息进行处理:先将每帧图像分割 成具有相似视觉特征( 颜色、纹理等) 的区域,然后根据各个区域的运动特征, 按照一定的约束( 例如区域之间的连通性) ,将它们合并成对象。m p e g - 4 便是 以对象提取和合成作为焦点的,它提出了使用视频对象平面v o p ( v i d e oo b j e c t p l a n e ) 的概念,对视频对象进行索引。m p e g 7 更提出对各种视频对象信息进 行描述和查找。 5 数据库的组织和索引 良好的数据库组织可以合理的管理海量的高维视频特征,能够快速的索引 到相应的视频特征。目前国内外的众多研究机构已经提出了许多可供选择的高 维索引结构,如r - t r e e ,r * - t r e e ,v a - f i l e 等。 复旦大学硕士学位论文 6 视频的检索 该过程包括查询的提交、相似度匹配、相似度的排列以及相关反馈等。这 个过程通常在线执行,因此检索的速度和精度是需要重点考虑的问题。与图像 检索不同的是,视频相似度的计算还需要考虑片断在时间顺序上的相似度。 综上所述,基于内容的视频信息检索是当前多媒体数据库发展的一个重要 研究领域,它通过对非结构化的视频数据进行结构化分析和处理,采用视频分 割技术,将连续的视频流划分为具有特定语义的视频片段,在此基础上进行关 键帧( k e yf r a m e ) 的提取和动态特征的提取,形成描述视频内容的特征索引;依 据特征索引结构,逐步缩小检索范围,直至查询到所需的视频数据。该领域的 开发重点和技术优势主要包括以下两项:多媒体信息内容特征的识别和描述技 术,特征的相似性匹配技术。 可见,这种检索技术是一项涉及面很广的交叉学科的应用技术,需要利用 图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从 认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的 媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及 友好的人机界面。 1 4 本文的贡献 针对视频浏览和检索中的各类关键技术,本论文在总结前人相关算法的基 础上,详细介绍硕士期间所作的工作,侧重点放在在镜头分割和节目分割方面 所作的工作。以下是本文的基本组织架构。 第二章着重介绍镜头分割方面的发展状况。在总结现有镜头分割方法的基 础上,提出一种结合视频文字信息进行镜头分割的方法,并给出相应的实验来 证明这种新方法的有效性。 第三章介绍目前常用的关键帧抽取技术以及关键帧的特征提取和相似度计 算方法,并着重介绍m p e g - 7 标准中定义的图像视觉特征描述子。 第四章首先根据处理视频对象的类型不同,从新闻节目、电影节目两个角 度分析不同的场景分割的方法;随后详细描述了我所在研究小组提出的一种通 过自动分类学习检测播音员镜头的算法,其检测结果可用于新闻视频的场景分 割中。 第五章结合当前出现的新的检索需求,在传统的视频层次结构中插入一个 复旦大学硕士学位论文 第一章研究背景和相关工作 - j 2 - 新的处理单元节目( p r o g r a m ) ,并提出一个针对特定电视频道进行节目分 割的算法,实验证明该算法具有较好的分割效果。 第六章在总结全文的基础上,进一步展望未来的工作。 复旦大学硕士学位论文 第二章视频的镜头分割 镜头是视频的最小的逻辑单元。不同的两个镜头在地点、时间或拍摄方法 上都存在着许多差异。由于同一镜头描述的大多是同一事物,因此一个镜头可 以用一个或多个关键画面来表示。从某种意义上讲,这也是一种对视频进行分 析和压缩的过程。 2 1 视频镜头的类型 不同的镜头转换类型往往对应着不同的镜头分割方法。因此在讨论镜头分 割方法之前,有必要分析一下镜头间存在的各种转换类型。总体上束说,镜头 转换( s h o tt r a n s a c t i o n ) 可以被分成为两大类,分别是切变转换( a b r u p t t r a n s a c t i o n h a r dc u t ) 和渐变转换( o m d u a it r a n s a c t i o n ) 。其中,渐变转换主 要由淡入淡出( f a d ei n f a d eo u t ) 、溶解( d i s s o l v e ) 及擦( w i p e ) 三种转换组 成。各镜头转换类型之间的关系如图2 1 所示。 图2 1 镜头类型转换类型 研究发现,切换、淡入淡出及溶解这三种类型的转换几乎占据全部转换类 型的9 8 以上。因此,针对这三种转换类型的镜头分割方法成为该领域研究的 一个热点。下面详细介绍各种镜头转换类型。 切变转换是镜头各转换类型中最简单的一种,是指一个镜头的结束帧之后 直接跟着下一个镜头的起始帧。两镜头之间没有任何过渡阶段。图2 2 中给 出了一个切变转换的实例。从图中可以看到一个多人开会的广角镜头突然 切换成了个仅含两人的特写镜头。 复旦大学硬士学位论文 、,、,_ _ 一、- ,v _ 镜头1镜头2 图2 2 切变镜头转换的实例 渐变转换是指前后两个镜头在时间或空间上存在着某种形式的缓慢过 渡。 一 淡入淡出转换是指镜头逐渐进入黑帧( 淡出) ,然后再从黑帧逐渐 进入到新的镜头( 淡入) 。图2 _ 3 中给出了一个淡入淡出转换的实 例。从左向右看,可以看出月亮高悬空中的镜头逐渐从黑帧进入画 面( 淡入) ,从右向左看,可以看出月亮高悬空中的镜头逐渐从画 面中转成黑帧( 淡出) 。 淡出 图2 3 淡入淡出镜头转换的实例 溶解转换是指一个镜头的帧渐渐变淡退出,下一个镜头的帧渐渐变 深进入。图2 4 中给出了一个溶解转换的实例。从图中可以看出落 山前的太阳逐渐退出画面,落山后的太阳逐渐进入画面。溶解镜头 实际上可以看成当前镜头的淡出和下一个镜头的淡入两个转换同 步发生时的一种转换。 图2 4 溶解镜头转换的实例 擦转换是指两个镜头之间的转换就像擦玻璃一样,第一个镜头在水 平或垂直方向上渐渐退出,下一个镜头在水平或垂直方向上渐渐进 入,直至上一个镜头全部退出,下一个镜头全部进入。图2 5 给出 了一个擦转换的实例。从图中可以看出身穿深色球服的球员所在的 复旦大学硬士学位论文 镜头逐渐从左侧进入画面,而身穿浅色球服且正向左走的球员所在 的镜头逐渐从右侧退出画面。 图2 5 擦镜头转换的实例 不论是哪种镜头转换类型,转换前后的两个镜头在时间和空间上都存在着 某种交迭关系( 如表2 1 所示) 。从表2 1 中可以看出,切变转换和淡入淡出转 换前后两个镜头的内容在时间轴上是可以明确分割开来的,而溶解转换和擦转 换前后两个镜头在时间轴上是相互交融的,转换过程中任意时刻对应的帧图像 都包含了前后两个镜头的部分信息。在空间上,除溶解转换外,其他三个转换 都是前后镜头可分的。 镜头转换的类型前后两个镜头是 时间上分开的吗?空问上分开的吗? 切变转换是是 淡入淡出转换是是 溶解转换 否否 擦转换 否是 表2 1 转换前后的两个镜头在时间和空间上的关系 2 2 镜头分割的基本方法 一般来说,镜头边界可以通过判断前后视频帧的差异是否大于某个阈值来 检测,因此帧间差异的计算是镜头分割中十分重要的一步。整体上看,镜头分 割的方法可以被分成两大类:压缩域上的镜头分割方法和非压缩域上的镜头分 割方法。后者是本节讨论的重点。目前所提出的非压缩域上的镜头分割方法可 被划分为四类,分别是基于像素的、基于直方图的、基于统计的以及基于图像 特征的方法。 2 2 1 基于像素的方法 在基于像素的方法中,通过计算帧间对应象素点之间的灰度差异得到帧间 距。一个点的灰度值被定义为0 2 9 9 r + 0 5 8 7 9 + 0 1 1 4 b ,这里,g ,b 是三原色。 复旦大学硕士学位论文 2 2 2 基于直方图的方法 颜色直方图描述了一幅图像的灰度或颜色的分布情况。基于直方图的方法 以及由它而派生出的众多方法是目前使用最为广泛而且最为有效的一种方法 【8 - 1 2 】。它的基本思想是通过统计帧图像各个颜色值出现的频率得到该帧的颜色 直方图,随后比较前后帧的直方图差异来判定这两帧之间是否存在着镜头转换。 由于在统计直方图时丢掉了图像中像素点的位置信息,因此该方法对图像 中对象的位置并不敏感,可以容忍由于物体的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版临时劳务派遣及薪资福利支付合同书
- 二零二五年绿色能源板车租赁服务合同
- 二零二五版离婚协议书字体规范与律师见证服务合同
- 二零二五年度绿色建筑项目建设合同管理规范
- 2025版房屋拆迁补偿款挂靠分配协议
- 二零二五版离婚协议范本编写规范与范本对比
- 二零二五年度智能防雷系统安装与维护服务合同
- 二零二五年度单休企业员工劳动合同范本
- 护士长年终述职课件
- 焦作边坡绿化施工方案
- 新人教版八年级物理(下册)期末综合能力测试卷及答案
- 低压配电箱安装施工方案
- 中国儿童严重过敏反应诊断与治疗建议(2022年)解读
- 蓄水池检验批质量验收记录(海绵城市质检表格)
- 单梁起重机安全操作培训课件
- 电动力学-同济大学中国大学mooc课后章节答案期末考试题库2023年
- 脑出血诊治指南
- 2022年重庆市汽车运输(集团)有限责任公司招聘考试真题
- 结构方案论证会汇报模板参考83P
- 移植患者健康宣教 - 副本课件
- 魏家庄村道路实施方案
评论
0/150
提交评论