




已阅读5页,还剩51页未读, 继续免费阅读
(通信与信息系统专业论文)镜头检测切分的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i 盛童遘厶堂硬堂篷谂童l 一一一一 童塞撞譬 中文摘要 摘要:随着多媒体技术及i n t e r a c t 网络的发展,大量复杂的数字信息以惊人的 规模被产生、分孝厅、存绪、谤闻、转输,其中,绝大部分郝是多媒体数据,包括 文字、图像、视频、音频等。因此所获取的视频和其它多媒体数据越来越多,数 据库容量不断增大。始舞组织、描述、存糍、管理、查询和检索这些海量豹数据, 已经成为关键紧迫的问题。如果没有对视频数据的自动和有效的描述,大量信息 将淹没在信患豹海洋中,无法在需要对被检索出来。基于内容的多媒体检索具有 非常强的实用性和挑战性。建立通用的多媒体对象模型及其描述机制是极其关键 的。 本论文基于一个实验室与外面的合作项目开发基于内容的视频检索系 统。本文实现了镜头甥分的检测。通过分柝镜头的变佬特点,穆镜头分为两类, 切变镜头和渐变镜头。本文针对两类镜头采用了不同的方法:根据切变镜头的特 点采用驰是对 e 颜色鑫方图进行镜头检测;对于渐变镜头,本文建立一个激变镜 头的数学模型,将其渐变过程的近似为线性插值,据此进行渐变镜头的检测。本 文所有算法都在v c6 0 上实琨,通过实验证明,此方法有缀好的检测效果。 关键词:基予内容捡索:镜头检测;颜色悫方图;鞠变镜头;渐变镜头;视频分 割 分类号: i 匕塞銮垣太堂亟堂位论塞旦墨! 丛g ! a b s t r a c t : a bs t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g ya n di n t e m e t ,ag r e a td e a lo f c o m p l i c a t e dd i g i t a li n f o r m a t i o ni sg r o w n ,a n a l y z e d ,s t o r e d ,a c c e s s e da n d t r a n s f e r r e d t h e r e f o r e ,m o s ti sm u l t i m e d i ad a t a ,i n c l u d i n gt e x t ,i m a g e ,v i d e oa n da u d i oe t c s ot h e v i d e ot h a ta r eo b t a i n e da n do t h e rm u l t i m e d i ad a t aa r em o r ea n dm o r e ,t h ed a t a b a s e c a p a b i l i t yi si n c r e a s i n g h o wt oo r g a n i z e ,d e s c r i b e ,s t o r e ,m a n a g e ,q u e r ya n ds e a r c h t h e s ed a t ah a sb e e nak e yh o tp r o b l e m i fw i t h o u tt h ea u t o m a t i ca n de f f e c t i v e d e s c r i p t i o nt ov i d e od a t a ,m u c hi n f o r m a t i o nc a n n o tb e s e a r c h e do nd e m a n d c o n t e n t b a s e dr e t r i e v a lo fm u l t i m e d i ah a ss t r o n gp r a c t i c a b i l i t ya n dc h a l l e n g e t os e t u pa g e n e r a lm u l t i m e d i ao b j e c tm o d a la n di t sd e s c r i p t i o nm e c h a n i s mi sc r u c i a l t h i sp a p e ri sb a s e do nap r o j e c tt h a to u rl a bc o o p e r a t e sw i t ho n ec o m p a n y t h e p r o j e c t sf i n a ld e s t i n a t i o ni sb u i l d i n gu pas y s t e mw h i c hc a nr e a l i z ec b v r t h i sp a p e r r e a l i z e st h es h o ts e g m e n t a t i o n f i r s t ,t h i sp a p e ra n a l y z e st h ed i f f e r e n c eo fd i f f e r e n ts h o t c h a n g e ,t h e nb a s e do ft h ed i f f e r e n c ef e a t u r ew ec l a s st h es h o t si n t og r a d u a ls h o t sa n d c u ts h o t t od e t e c tt h ec u ts h o t ,t h ec o l o rh i s t o g r a mo ft h ef r a m e sd u r i n gt h ev i d e oi s c o m p a r e dw i t he a c h o t h e r t ot h eg r a d u a ls h o ts u c ha sf a d e - i n ,f a d e o u ta n dd i s s o l v e ,a m o d e li sf i r s t l yg i v e no fg r a d u a ls h o tc h a n g e ,t h e nw ef i n dt h eg r a d u a lf l a m ei sl i n e a r i n t e r p o l a t i o n ,b a s e do nt h i sf e a t u r e ,a na p p r o a c hi sg i v e n t or e c o g n i z et h eg r a d u a ls h o t a l lt h ea l g o r i t h m sh a v eb e e nr e a l i z e di nt h ep l a t f o r mv c 6 0 f i n a l l y , t h ee v a l u a t i o n s a n dt e s tr e s u l t sa r ep r e s e n t e d k e y w o r d s :c o n t e n tb a s e dv i d e o r e t r i e v a l ;s h o tr e o r g a n i z a t i o n ;c o l o r h i s t o g r a m ;c u ts h o t ;d i s s o l v es h o t ;v i d e os e g m e n t a t i o n c l a s s n o : l v 致谢 本论文的工作是在我的导师冯玉珉教授的悉心指导下完成的,冯玉珉教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来 冯老师对我的关心和指导。 卢燕飞老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向卢燕飞老师表示衷心的谢意 杨文考教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工作及撰写论文期间,张慧,霍炎等同学和付立师兄对我论文的研 究工作给予了热情帮助,给与了长期的帮助,在此向他们表达我的感激之情。 另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业。 序 本论文是基于实验室与外面的一个基于内容的视频检索的项目。项目要求开 发一套基于内容的视频检索系统。由于我们属于项目开始阶段,所以整个论文只 是做了一些比较有代表性的工作,目的是先把整个视频检索系统的框架搭建起来, 以便以后进行扩充。现在基本上已经搭建起了一个比较基本的框架。 基于内容的视频检索技术是一项很热的技术,很多科研机构和学者都在该领 域进行研究。在本文中,我在镜头切分检测的领域作了一些积极的探索,有很多 的收获。 第一章基于内容视频检索的研究概况 大量多媒体化信息的产生将使信息检索技术产生重大变革。目前,人们所面 临的问题不再是缺少多媒体内容,而是如何在浩如烟海的多媒体信息世界中找到 自己所需要的信息。因此,开发图像检索系统成为当今多媒体领域中一个很有发 展前景的研究课题。 传统的视频检索主要依靠人工注释关键字( 如视频格式、标题、制作人、出品 日期等) 来简单描述视频的有限特征,无法完整表现图像丰富多变的内容,手工生 成文本索引费时费力,且缺乏统一的描述标准。而近几年发展起来的基于内容的 视频检索( c o n t e n tb a s e d v i d e or e t r i e v a l ,c b r v ) 技术很好地解决了上述问题。 1 1 基于内容的视频检索 所谓基于内容的视频检索【l l 就是根据视频数据中的场景、镜头、帧和运动对象 以及图像数据中的颜色、纹理、形状等特征在大规模视频数据库中找到满足特定 的视觉特征描述的图像的过程。它的研究目标是提供在没有人参与的情况下能自 动地理解或识别图像视觉特征的算法。 基于内容的视频检索有着广阔的应用前景,目前主要应用在以下几个方面: 将基于内容的视频检索引擎嵌入到常规数据库管理系统中,以实现多媒体数据的 检索,对专用领域的视频库进行检索;对i n t e r n e t 上包含在w e b 信息网中h t m l 页面上的多媒体数据进行基于内容检索等。早期的全文信息检索、罪犯头像的识 别和管理、指纹的识别和管理都是基于内容检索的一些尝试,现在这种技术将扩 展到任何媒体和更广泛的领域。 目前,比较典型的基于内容的视频检索系统包括i b m 公司的q b i c 系统、哥 伦比亚大学的v i s u a ls e e k 系统和m r r 实验室的p h o t ob o o k 等。 1 1 1 基于内容的视频检索技术与传统检索技术的区别 基于内容的视频检索技术区别于传统的基于关键字的检索技术,融合了图像 理解、模式识别、计算机视觉等技术,具有如下特点: 1 从视频数据中提取信息线索。基于内容的视频检索突破了传统的基于表达 式检索的局限,它直接对图像、视频、音频内容进行分析,抽取特征和语义,利 8 用这些内容特征建立索引,并进行检索。 2 c b r v 是一种近似匹配。由于对内容的表示不是一种精确描述,因此,c b r v 采用相似性匹配的方法逐步求精,以获得查询结果,即不断减小查询结果的范围, 直到定位于要求的目标,这是一个迭代过程。这一点与常规数据库检索中的精确 匹配方法不同。 3 大型数据库( 集) 的快速检索。实际的视频数据库( 集) 数据量巨大,因此要求 c b r v 技术也像常规的信息检索技术一样,能快速实现对大型库的检索。 4 人机交互人对于物体的内容特征比较敏感,能迅速分辨对象的轮廓、音 乐旋律及它们的含义等,但对于视频对象,一方面人工从大量数据中标志对象非 常费时,另一方面人的判断易受主观性影响,且是一种重复性工作,而这些正是 计算机的长处。因此人与计算机间应相互合作进行检索。 1 1 2 基于内容的视频检索系统构成 基于内容的视频检索系统如图1 1 所示:图像检索过程大致可以描述为:首先, 将一段视频序列分割为若干个镜头序列,然后在各镜头序列中找到若干个关键帧 来代表该镜头的主要视觉内容;在视频序列被结构化以后,提取各关键帧的视觉 特征( 颜色、纹理、形状等) 以及运动参数,存入特征数据库中:系统相似性匹配模 块处理用户构造的查询,在视频数据库中寻找与之相符的图像,并将结果反馈给 用户,用户也可以通过特征参数调整,以进行逐步求精的查询,最终得到满意的 查询结果。 c b r v 系统主要包括镜头切分、关键帧提取、特征提取和相似度匹配等四个功 能模块和一个相关的反馈环路: 镜头切分模块:找到镜头之间的切分边界,把一段视频序列分割为若于个镜 头; 关键帧提取模块:提取出能够描述一个镜头主要内容的关键图像帧; 特征提取模块:从关键图像帧内容上提取视觉特征,以此建立检索索引; 相似性匹配模块:根据系统相似性度量的算法计算查询特征与特征数据库中 对应的每组特征的相似程度; 相关反馈环路:形成反馈检索,通过交互式的反馈来决定采用何种特征组合 和特种特征值的权值,不断缩小匹配集合范围,最终定位到所需目标。 9 用户交互界面 后台处理部分 图1 1 基于内容的视频系统系统构成 1 1 3 基于内容视频检索的关键技术 1 视频结构的分解 一段视频可以分为多个视频场景,每一个场景描述一个完整的事件,场景又 分为一个或多个镜头,镜头是指在拍摄过程中从开机到关机拍摄到的全部内容, 用于表示一个事件段或者一个地点连续的动作,它是视频数据的基本单位;镜头 是由视频数据的最小单位帧,帧就是一幅幅静止的图像。所以视频数据可以由上 到下的顺序划分为四个层次结构:视频片断、场景、镜头,图像帧。 2 镜头边界检测 镜头边界检测时实现基于内容视频检索的第一步,它的核心就是会识别镜头 的切换。镜头切换就是一个镜头到下一个镜头的转换。根据镜头的连接方式可以 将镜头切换进行分类,本文将在第三章进行详细介绍。 镜头切换时,视频数据将会发生一系列较为明显的变化,表现为对对象内容 的改变、颜色差别增大、运动轨迹不连续、图像纹理会发生较大的变化等等,在 使用各种特征进行检测时会出现一个峰值。因此镜头分割的基本原理就是寻找较 好的帧问差别比较方法来检测出峰值。典型的方法有模板匹配、直方图、边缘检 测、纹理检测、基于模型、压缩域等方法。 3 关键帧的提取 关键帧用于描述一个镜头的关键图像帧,它反映了一个镜头的主要内容。关 键帧的选取一方面必须能够反映镜头中的主要事件,因此描述尽量的准确完全, 另一方面为了便于管理,数据量尽量要小,且计算量要小,算法尽量简单。当前, 一般采用保守原则来提取关键帧,即采取“宁愿错,不能少”,同时在代表特征不 具体的情况下,一般以去掉重复( 或冗余) 画面为原则。一般提取关键帧数为视 频帧总数的。 选取关键帧的方法有很多种,典型的方法有基于镜头切分、基于内容分析、 基于运动分析、基于聚类的方法等等。 4 特征提取 特征提取是基于内容的图像检索成功与否的关键,主要是利用图像所包含的 多种特征:如颜色分布、纹理分布、形状轮廓、运动特征等等。检索时依据事例 图像的特征和数据库中图像特征比较,在设定的相似度中搜索出符合条件的图像。 特征提取是包括视觉特征和镜头的运动特征的提取。其中对关键帧的视觉特 征的提取主要是基于颜色特征、基于纹理特征、基于形状特征等提取方法。 运动特征是视频镜头的重要特征,它反映了视频的时域变化,也是基于内容 的视频检索进行检索的重要内容。运动分析的方法有基于光流方程的方法、基于 块的方法、像素递归方法、贝叶斯方法等等。 5 相似度匹配 得到描述视频特征以后,可以通过对特征进行全局和局部的匹配,进行相似 度的计算,以支持检索环节的查询请求。为此人们针对不同的类型的特征定义了 不同的度量方法:如直方图的边界检测的进入推出度等等。除此之外,还有一些 更为复杂的相似度度量方法,比如基于运动物体轨迹的匹配方法以及最近特征线 匹配 2 1 算法。 6 c b r v 系统是一个与用户交互的系统,一方面用户提交查询,另外一方面 系统返回检索结果,良好的人机接口不仅包括友好的界面查询系统,而且如何利 用用户提供的信息对查询进行优化,使之更好的满足用户查询需要也是一个很重 要的方面。为了弥补自动语义分析面临的困难,并考虑查询用户的个性化检索要 求。近年来,人们把用户模型嵌入到图形检索系统,引入了相关的反馈机制。 1 2 镜头切分检测的研究现状 目前,基于内容的视频检索是大势所趋,镜头切分又是其关键技术之一,国 内外的许多科研机构和学者在这方面进行了大量的研究工作。 为了实现基于镜头内容的视频检索,视频分析的基本过程包括镜头边界的检 侧、视频数据的自动索引和视频聚类 z h a n gh j a t a l 】镜头边界的检测通过对视频帧 的比较,把视频分割成基本的组成单元:镜头视频数据的自动索引包括代表帧 的选取和静止特征和运动特征的提取。根据这些特征可以进行视频聚类1 4 】。 镜头边界的检澳t ( s h o t a o u n a a r y d e t e c t i o n ) ,它是实现基于内容的视频检索的第 一步,直接形响到视频检索的成败,因此基于内容的视频检索离不开镜头转换检 测算法的研究。 镜头转换的检测的算法按处理对象可分为【5 1 ( b o r e c z k yj s & r o w e l a ) :非压 缩域镜头转换检测算法和压缩域镜头转换检测算法: 非压缩域( 像素域) 镜头转换检测算法是针对未经压缩的数字视频的,它可以利 用视频帧的像素域信息,直接进行各种图像处理,提取视频帧的特征向量,如颜 色直方图、边缘改变率嘲。 压缩域镜头边界检测算法主要是针对m p e g 压缩视频的。由于越来越多的视 频数据是以m p e g 压缩形式进行捕捉、传送和存储的,因而有必要对m p e g 压缩 视频域进行研究先解压,再使用非压缩城的算法进行分析的方法,不但要消耗 大量的解压时间,而且还需要额外的存储空间,因此近年来开始出现了直接对压 缩视频进行镜头检侧的算法,主要有以下两种: 一种以日本的y a s u y u l d 3 】为代表,该算法是利用l 帧的d c 序列,考查前后两 个i 帧d c 图的色度相似性,在镜头转换时,色度变化一般较大。这种方法的缺点 是检测精度不高,因为镜头转换可能发生在两个i 帧之间,另外没有利用运动信息, 难以区分镜头运动和渐变 另一种方法以z h a n gh j e t a l 【4 】为代表,利用b 帧和p 帧的运动向量,在镜头转 换时,b 帧和p 帧中采用预测编码的宏块数较少。这种方法虽然比较简单,但是i 帧中没有运动向量,且m p e g 中运动估计采用了块匹配方法,运动向量不一定表 示真实的运动,因而检测精度不高。 目前镜头切分检测算法主要有以下问题: 1 特征向量的选择 与图像分割问题一样,正确的特征选择对镜头边界的检测具有十分重要的意 义。像素差和边缘改变率对运动和噪声比较敏感,会造成误检测;而颜色直方图 又丢失了位置信息,两幅完全不同的图像可能具有相似的颜色分布,会造成漏检 1 2 测。找到更好的特征或特征组合将有利于镜头边界的检测。 2 阙值的选择 阈值的选择是利用帧问差的镜头边界检测算法的一个重要问题。阈值过大会 漏掉镜头切换:阚值太小会引起误检测,即把镜头内镜头或物体的运动( 此时帧间 差值增大) 误检测为镜头转换。不同类型的视频应选择不同的阚值,如体育比赛的 镜头运动较多,应选择较大的阈值,而新闻节目主持人的镜头,运动较少,应选 择较小的阈值,因此难以定出统一的标准,阈值应根据视频的内容自适应地选定。 目前文献中大多数算法都采用依靠经验人工选择阈值的方法,不利于实现镜头边 晃的自动检侧。 3 渐变与镜头运动的区别 渐变与镜头运动都会造成帧问差连续的增大,从本质上说利用帧间差的方法 无法从根本上区别渐变和镜头运动。基于模型的方法是一种可能的途径,但是要 为各种渐变建立模型也非常困难。 4 渐变过程中的不连续与停顿 目前大多数渐变检测算法都假设渐变过程是均匀连续的,而我们在实际视频 中发现由于采样速度达不到所要求的帧率,有时会用上一帧代替本帧,从而造成 渐变过程的不连续甚至停顿,使得渐变的检测更加复杂困难。 5 光照条件的变化及闪光灯引起的误检侧 光照条件的变化及闪光灯会造成视频帧亮度的变化,引起各种视频特征的变 化,从而容易误检测为镜头边界。 1 3 本文研究方向与m p e g 7 标准的关系 m p e g - 7 标准( 又名:多媒体内容描述接口) 与以往m p e g - x 的不同之处在于: 该标准主要致力于描述、管理、检索与浏览多媒体内容信息,不再将压缩作为主 要任务。因为随着多媒体数据的急剧增加,有关多媒体数据的查询、浏览、管理 等成为非常棘手的问题,m p e g - 7 标准则致力于为多媒体系统与不同领域应用之间 的协同工作提供种规范接口。它的研究范围如图1 2 。 1 3 图1 2m p e g - 7 标准在多媒体内容研究所处的位置 从上面框图中我们可以看出,m p e g - 7 标准主要研究多媒体内容的描述,它的 四个主要组成模块是: 一、描述子( d e s c r i p t o r ) t i p 特征的描述,它可以用来确定每一种特征描述的句法 与语义。常用的视觉描述子包括:颜色描述子、纹理描述子、形状描述子和运动 描述子等。 二、描述框架( d e s c r i p t i o ns c h e m e s ) ,这一部分主要负责确定描述子或描述框 架之间关系的结构与语义,即设计到如何组织描述子或描述框架的问题。 三、描述定义语言( d e s c r i p t i o nd e f i n i t i o nl a n g u a g e ) ,m p e g - 7 标准对它的定 义如下:d d l 是一种语言,它允许生成新的描述框架和描述子,同时也允许扩充 和修改现存描述框架与描述子。目前,x m l 模式语言己经被选作为d d l 语言的 基础。 四、系统( s y s t e m ) ,m p e g - 7 系统包括两类工具,第一类工具为高效的传输 与存储提供m p e g 7 描述,同时使内容与描述同步化:第二类工具是有关管理和 保护知识产权的工具。由此我们可以看出,m p e g - 7 标准并不研究特征的提取过程 和搜索引擎的建立,但是它将为所有的多媒体特征建立一个通用的描述接口,从 而方便于高层的广泛应用。 然而,我们也知道尽管m p e g - 7 标准框架早在2 0 0 1 年就已经发布,但是有关 多媒体内容描述的具体理论与方法仍然处在研究阶段。基于内容视频分割技术开 发正是这些理论与方法的研究,它主要涉及有关图像与视频的特征提取、描述、 索引以及检索与浏览等内容。因此,基于内容的图像与视频检索研究必将为 m p e g - 7 标准的实施增砖添瓦。但同时我们也应该明确,基于内容的视频研究的目 的并不是为m p e g 7 提供直接的支持,其它针对不同应用领域的标准,比如: s m p t e ,e b u , i n - a n y t i m e ,d i g 3 5 等等也将得益于此课题的研究。 1 4 总之,视频分析技术的研究己经取得了很大的进展,但距离真正走向实用, 还有很长的路要走。本文希望通过研究镜头检测分割的相关技术,为推动这项技 术的发展尽绵薄之力。 1 4 本文的研究工作以及论文结构 本文对镜头检测切分技术做了比较详细的分析和研究针对切变镜头和渐变 镜头两种不同类型的镜头切换使用了两种不同的算法,来实现了其高效的切分。 对于切变镜头的检测,在一个镜头内连续两帧图像的颜色内容没有明显变化。 所以突变镜头边界和某些渐变镜头边界在帧差图中将表现为一个孤立的峰值,那 么通过设置门限即可检测出镜头边界点。 对于渐变镜头的检测,本文先对渐变镜头建立数学模型,分析其特点,结果 表明在渐变镜头中的过渡帧可以近似认为是线性插值,这样可以根据这个特点的 对渐变镜头进行检索。采用的算法是将视频帧分割为小宏块,观察这些小宏块的 亮度变化来判断是否为渐变镜头。本文的所有算法都在v c 6 o 平台上实现了。 本文的结构: 第一章,概述基于内容的视频检索,简单介绍了一下基于内容的视频检索 与传统意义上的视频检索的本质区别;介绍了一下基于内容的视频检索的关键技 术; 第二章,介绍本文相关的一些理论和技术规范,如视频的层次结构,以及 a v i 文件结构的相关的知识; 第三章,详细介绍切变镜头检测的原理和实现; 第四章,详细介绍渐变镜头检测的原理和实现; 第五章,总结论文工作,并就继续研究的方向提出展望。 第一章参考文献 【l 】李国辉,曹莉华,柳伟,基于内容的多媒体数据查询与检索,小型计算机 系,1 9 9 8 1 9 ( 4 ) 【2 1 赵黎,祁卫,李子青等。基于关键帧的最近特征线( n f l ) 聚类算法的镜 头检测方法,计算机学报,2 0 0 0 2 3 ( 1 2 ) :1 2 9 2 1 2 9 6 【3 】v a s u y u k is k i y o n ou j i h a r a e t a l ( 1 9 9 7 ) ”u n i v e r s a ls c e n ec h a n g ed e t e c t i o no n m p e g - c o d e dd a t ad o m a i n ,s p i ev 0 1 3 0 2 4 ,1 9 9 7 ,p 9 9 2 - 1 0 0 3 【4 】z h a n gh j e t a i ( 1 9 9 5 ) ,”v i d e op a r s i n g , r e t r i e v a la n db r o w s i n g :a ni n t e g r a t e d a n dc o n t e n t b a s e ds o l u t i o n ”, p r o c o f a c mm u l t i m e d i a 9 5s a nf r a n c i s c o ,n o v 7 - 9 ,1 9 9 5 , p 1 5 - 2 4 【5 】b o r e c z k y j s & r o w el a ( 1 9 9 6 ) , ”c o m p a r i s o no f v i d e os h o tb o u n d a r y d e t e c t i o nt e c h n i q u e s ”,i np r o c s p i ec o n f o nv i s u a lc o m m u n i c a t i o na n di m a g e p r o c e s s i n g 【6 】z a b i hr , m i l e rj , & m a ik ( 1 9 9 5 ) ”af e a t u r e - b a s e da l g o r i t h m sf o rd e t e c t i n ga n d c l a s s i f y i n gs c e n eb r e a k s ”p r o c a c mi n t e r n a t i o n a lc o n f e r e n c eo nm u l t i m e d i a , p l8 9 - 2 0 0 ,n o v 1 9 9 5 1 6 第二章镜头检测的相关理论 本文主要介绍的是镜头切分检测的原理和实现,下面先来介绍一些相关的理 论知识:首先是视频数据的层次,主要介绍一些与镜头相关的理论,有助于分析 后面章节的镜头切分原理;还有就是a v i 的文件格式,本文在验证算法效果的实 验阶段所采用的视频流为a v i 格式,所以在这里有必要将a v i 的文件格式介绍一 下。下面就开始,先是视频数据的结构。 2 1 视频数据的层次 2 1 1 视频数据结构 正如一部著作可以分为章节、段落和语句一样,视频数据也其有一定的结构, 根据电影的制作过程,它自上向下可分为电影( m o v i e ) 、故事单元( s t o r yu n i t ) 、 场景( s c e n e ) 、镜头( s h o t ) 和帧( f l a m e ) 【i 】 如图2 1 所示: 图2 1 视频结构图 其中,帧是视频的最小组成单元,是一幅静止的图像。镜头是视频的基本单 位,指摄像机的一次操作所摄制的视频图像序列。在文献嘲中,镜头被定义为在摄 1 7 像机的“r e c o r d ”和“s t o p ”操作之间捕捉的现实世界中实时或动态的图像序列。 由于它是摄像头的一次连续动作,只能拍摄相邻地点连续发生的事情。场景由内 容相近的镜头组成,从不同的角度叙述同一个事件片段( 故事单元) 由若干连续的 场景形成。而电影由几个片段组成,叙述一个完整的故事。 每一个视频层次的数据都可以用一定的特征加以描述,如: 电影的特征:名称、类型、存储格式、导演、主要演员、个数和持续时间等; 故事单元的特征:标题、持续时间、场景的效目、各个场景等; 场景的属性:标题、持续时间、镜头数目、各个镜头等; 镜头特征:持续时间、开始帧号、结束帧号、关键帧等; 帧特征:直方图、轮廓图、d c 分量图、a c 分量图、运动向量等。 2 1 2 镜头的运动 镜头内的运动包括由对象运动导致的局部运动和由摄像头运动导致的全局运 动。 对象运动:对象的运动根据实际情况的不同千变万化,但又是视频检索的一 个重要方面,特别是对于监控视频。例如用户可能需要检索某个物体被移动的视 频片断或汽车移动的视频片断。针对这种情况,c o u r t n e yj d 【3 】归纳了以下几种对 象运动并进行了分析: 出现:一个对象在镜头中出现; 消失:一个对象从镜头中消失; 进入:一个运动的对象在镜头中出现; 退出:一个运动的对象从镜头中离去; 放置:一个本身不能动的对象加到镜头中; 移动:一个本身不能动的对象从镜头中移开; 运动:一个原本静止的对象开始运动; 停止:一个原本运动的对象停了下来; 通过以上对象运动分析可实现对监控视频的基于内容的检索。 摄像头的运动:在视频的拍摄过程中,摄像头可以按不同的方式运动以达到 特定的拍摄效果摄像头的运动包括【年】: 上下摇镜头( f l i t ) :摄像头的位置不变,上下转动改变拍摄方位; 左右摇镜头( p 姐) :摄像头的位置不变,左右转动改变拍摄方位; 转镜头( z - r o t a t i o n ) :以对象为中心,摄像头从不同的位i 角度拍摄; 移动镜头( t r a n s l a t i o n ) :摄像头的位置跟着拍摄对象移动,但不旋转角度。 1 8 移动又可分为水平移动( h o r i z o n t a lt r a n s l a t i o n ) 和垂直移动( v e r t i c a lt r a n s l a t i o n ) 推镜头( z o o mo u t ) :从远处开始,逐渐推近到拍到对象; 拉镜头( z o o mi n ) :从近处开始,逐渐拍成全景。 有时一个镜头内有几种摄像头运动,此时一般只分析主要的运动。 2 1 3 镜头转换的类型 由于镜头只能拍摄相邻地点连续发生的事情,它的表现能力有限,所以大多 数情况下,一段视频都是由许多镜头通过编辑软件连接而成。根据表现内容的不 同视频有不同的编辑方式:有的视频切换频繁,镜头持续时间短,如新闻节目, 故事片等,通过大量镜头的切换来表现不同时闻不同地点发生的事情;有的视频 切换较少,每个镜头持续时间比较长,如纪录片,足球等;还有一些视频几乎没 有镜头切边,如监控录像等。 镜头切换的方式有如下几种: 1 突变( c u t ) :前一个镜头的最后一帧与后一个镜头的第一帧之间没有过渡 帧。 2 淡入、淡 b ( f a d ei nf a d eo u t ) :淡入是一个镜头的前几帧在灰度上逐渐由暗 变亮,相反淡出是指一个镜头的后几帧在灰度上逐渐由亮变暗,通常淡入与淡出 是同时出现的,后一个镜头的淡入紧跟在前一个镜头的淡出后面。如图2 2 ,是从 一段视频中截取出来的一个淡出淡入的例子: 图2 2 淡入淡出( f a d e i n f a d e o u t ) 3 消隐( d i s s o l v e ) :是指前一个镜头的后几帧在灰度上逐渐变暗同时后一个 镜头的前几帧在灰度上逐渐变亮,类似于淡出、淡入,不过在消隐中的淡出与淡 入在时间上有一定的重叠。如图2 3 。由于淡入、淡出、和消隐的构造原理相同, 所以我们将其视为同一类型来处理。 1 9 图2 3 涪隐( d i s s o l v e ) 综上所述,尽管视频的种类多种多样,我们所需要检测的仅仅有两种,切变 镜头和渐变镜头。处理视频序列的前提是要取得视频序列的帧的数据,本文的实 验视频数据是a v i 格式,下面就介绍一下a v i 文件格式。 2 2a v i 视频格式简介 本文是以常用a v i 类型视频流作为实验视频流,来检测镜头变换,下面简单 介绍一下a v i 文件格式: 觚r i 一a u d i ov i d e oi n t e r l e a v e ,即音频视频交叉存取格式。1 9 9 2 年初m i c r o s o f t 公司推出了a v i 技术及其应用软件v f w ( v i d e of o rw i n d o w s ) 。在a v i 文件中, 运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。这种按交替方式 组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到 连续的信息。构成一个a v i 文件的主要参数包括视像参数、伴音参数和压缩参数 等。a v i 文件用的是a v ir i f f 形式,a v i 文件类型用一个四字符码a v i 来表示。 整个a v i 文件的结构为:一个r i f f 头+ 两个列表( 一个用于描述媒体流格式、一 个用于保存媒体流数据) + 一个可选的索引块。a v i 文件的展开结构大致如下: r i f f ( a v i u s t ( h d d a v i h ( 主a v i 信息头数据) l i s t ( s t r l s t r h ( 流的头信息数据) s t r f ( 流的格式信息数据) 【s t r d 】( 可选的额外的头信息数据) 【s l r n 】( 可选的流的名字) ) ) u s t ( m o v i s u b c h u n kll i s t ( f s l 】b c h u n k l s u b c h u n k 2 ) 【i d x l 】( 可选的a v i 索引块数据) ) 首先,i f ( a v i ) 表征了a v i 文件类型。然后就是a v i 文件必需的第一个 列表h d r l 列表,用于描述a v i 文件中各个流的格式信息( a v i 文件中的每一路媒 体数据都称为一个流) 。h d r l 列表嵌套了一系列块和子列表:首先是一个a v i h 块, 用于记录a v i 文件的全局信息,比如流的数量、视频图像的宽和高等,可以使用 一个a v i m a i n h e a d e r 数据结构来操作: t y p e d e f s t r u c t _ a v i m a i n h e a d e r f o u r c c 亿c :必须为a v i h d w o r dc b ;本数据结构的大小,不包括矗和c b 两个域 d w o r dd w m i c r o s e c p e r f r a m e ; 视频帧间隔时间 d w o r dd w m a x b y t e s p e r s e c ; a v i 文件的最大数据率 d w o r dd w p a d d i n g g r a n u l a r i t y ; 数据填充的粒度 d w o r dd w f l a g s ; a v i 文件的全局标记 d w o r dd w t o t a l f r a m c s ; 总帧数 d w o r dd w i n i t i a l f r a m e s ; 为交互格式指定初始帧数 d w o r dd w s 臼e a m s ;本文件包含的流的个数 d w o r dd w s u g g e s t e d b u f f e r s i z e ;建议读取本文件的缓存 大小 d w o r dd w w i d t h ; 视频图像的宽( 以像素为单位) d w o r dd w h e i g h t ;视频图像的高( 以像素为单位) d w o r dd w r e s e r v e d 4 ; 保留 ) a v i m a i n h e a d e r ; 其次,就是一个或多个s t r l 子列表( 文件中有多少个流,这里就对应有多少 个s m 子列表) :每个s t r l 子列表至少包含一个s t r h 块和一个s t r f 块,而s t r d 块( 保 2 1 存编解码器需要的一些配置信息) 和s t r n 块( 保存流的名字) 是可选的。首先是s t r h 块,用于说明这个流的头信息,可以使用一个a v i s t r e a m h e a d e r 数据结构来 操作: t 渺d a f s t r u c t , a v i s t r c a m h c a d e r f o u r c c f c c ;必须为s t r h d w o r dc b ;,本数据结构的大小 f o u r c c f c c t y l ; ,流的类型 f o u r c c f c c h a n d l e r ;, 指定流的处理者 d w o r dd w f l a g s ; 标记:调色板 d w o r dw p r i o r i t y ;流的优先级 d w o r dw l a n g u a g e ; d w o r dd w i n i t i a l f r a m e s ;为交互格式指定初始帧数 d w o r dd w s c a l e ; 这个流使用的时间尺度 d 、0 r d d w r a t e ; d w o r dd w s t a r t ;流的开始时间 d w o r dd w l _ n g t h ;,流的长度 d w o r dd w s u g g e s t e d b u f f 廿 s i z e ;读取这个流数据建议使用 的缓存大小 d w o r dd w q u a l i t y ;流数据的质量指标( o 1 0 0 0 0 ) d w o r dd w s a m p l e s i z e ; s a m p l e 的大小 s t r u c t s h o r ti n tl e t t ; s h o r ti n tt o p ; s h o r ti n tr i g h t ; s h o r ti n tb o t t o m ; ,r c f r a m e ;指定这个流在视频的显示位置 a v i s t r e a m h e a d e r ; 然后是s t r f 块,用于说明流的具体格式,a v i 文件中的所有流都使用一个 s t r l 子列表说明了以后,h d r l 列表的任务也就完成了。 紧随其后的就是a v i 文件必需的第二个列表:m o v i 列表,用于保存真正的媒 体流数据。下面就介绍一下a v i 如何组织这些数据:可以将数据块直接嵌在m o v i 列表里面,也可以将几个数据块分组成一个r c g 列表后再编排进m o v i 列表。当 a v i 文件中包含有多个流的时候,数据块使用了一个四字符码来表征它的类型,这 个四字符码由2 个字节的类型码和2 个字节的流编号组成。标准的类型码定义如 下:曲( 非压缩视频帧) 、d c ( 压缩视频帧) 、p c ( 改用新的调色板) 、w b ( 音 缩视频) 最后,紧跟在h d r l 列表和m o v i 列表之后的,就是a v i 文件可选的索引块。 这个索引块为a v i 文件中每一个媒体数据块进行索引,并且记录它们在文件中的 偏移( n - 7 能相对于m o v i 列表,也可能相对于a v i 文件开头) 。索引块使用一个四 字符码i d x l 来表征,索引信息使用一个数据结构来a v i o l d i n d e x 定义: t y p c d c f s t r u g ta v i o l d i n d e x f o u r c c f c c ;,必须为i d x l d w o r d c b ; ,本数据结构的大小 s t r u c t _ a v i o l d i n d e x _ e n t r y d w o r d d w c h u n k i d ;表征本数据块的四字符码 d w o r d d w f l a g s ;标记是否有r 列表等信息 d w o r d d w o f f s c t :本数据块在文件中的偏移量 d w o r d d w s i z e ; 本数据块的大小 ,a i n d c x ; 定义一个索引信息 ) a v i o l d i n d e x ; 只要遵循这个标准,任何视频编码方案都可以使用在a v i 文件中。这意味着a v i 有着非常好的扩充性。这个规范由于是由微软制定,因此微软全系列的软件包括 编程工具v b 、v c 都提供了最直接的支持,因此更加奠定了a v i 在p c 上的视频霸主 地位。由于a v i * 身的开放性,获得了众多编码技术开发商的支持,不同的编码使 得a v i 不断被完善,现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 清淤污水工程方案(3篇)
- 清风牧场拆除工程方案(3篇)
- 数字化转型背景下2025年开放银行生态构建与合作模式创新路径研究报告
- 广州地铁应聘题库及答案
- 2025年环境素养题库及答案
- 2025陕西省蔬菜买卖合同(陕西省版)
- 教师招聘之《幼儿教师招聘》及参考答案详解【夺分金卷】
- 教师招聘之《幼儿教师招聘》考前冲刺测试卷讲解附答案详解(研优卷)
- 精装工程优化方案(3篇)
- 2025年皮下注射考试试题及答案
- 机械加工质量控制计划
- DISC行为风格分析及沟通
- 《运动治疗技术》第二章 关节活动技术-基础理论课件
- 2024至2030年中国迷迭香精油行业投资前景及策略咨询研究报告
- 人教版小学数学四年级上册教案全集(表格式教案)
- 事业单位公开招聘报名表
- 医学教材 变态反应性疾病的诊疗进展标准版资料
- 跖骨骨折护理查房课件
- 癌症患者生活质量量表EORTC-QLQ-C30
- 《全媒体营销与运营》全套教学课件
- 学生心理问题的识别与干预+高中班主任工作培训
评论
0/150
提交评论