




已阅读5页,还剩53页未读, 继续免费阅读
(通信与信息系统专业论文)一种基于运动特征的自适应镜头边界检测算法及实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种基于运动特征的自适应镜头边界检测算法及实现 摘要 随着多媒体技术和w e b 技术的发展,基于内容的视频检索系统成 为近年来研究的热点。将计算机视觉技术、数字图像处理与传统的数 据库技术相结合,建立基于图像和视频内容的检索系统是一个很有实 际意义的研究课题。作为这样一个检索系统中最基础的步骤,视频镜 头边界检测的准确性对整个系统的性能有很大的影响。本文通过研究 体育视频的特点,在现有经典算法基础上提出一种新的镜头边界检测 算法。 本文首先介绍了镜头检测的概念、研究的背景和研究的理论以及 应用意义,研究了解压域镜头探测技术,总结了镜头突变检测和镜头 渐变检测的方法,并指出了现有方法中需要关注的问题。 本课题研究重点在于根据体育视频的基本特征,提出改进算法, 主要解决的问题有:( 1 ) 减小物体相机运动和光照的变化这两个因 素对镜头边界检测的影响,提高检测的查全率及查准率。( 2 ) 使算法 对不同视频都有较好的效果。 本论文主要工作如下: 1 提出使用多帧帧差作为特征值的方法。该方法可以有效地抑 制随机噪声和闪光灯对镜头边界检测的影响。提高镜头边界检测算法 的准确率。 2 提出自适应阈值算法。该算法有效解决了全局阈值只能对所 测试的视频序列或者其中的一部分连续的视频帧有比较好的检测效 果的缺点。算法灵活精确,鲁棒性强。 3 针对体育视频中运动因素对镜头边界检测的干扰,提出了加 入摄像机运动分析的方法。该方法可以有效分辨出摄像机运动。提高 了算法的准确率。 实验结果证明本文算法在查全率和查准率上相对于原算法有所 提高,取得较好效果。 关键词:镜头分割自动门限体育视频运动分析 aa d a p t i v es h o tb o u n d a r yd e t e c t i o n a l o g r i t h mb a s e do nm o v e m e n t c h a r a c t e r i s t i c sa n dr e a l i z e w i t ht h em u l t i - m e d i a t e c h n o l o g y a n dw e b t e c h n o l o g y , c o n t e n t - b a s e dv i d e or e t r i e v a ls y s t e mi nt h e s ey e a r sb e c o m eah o tr e s e a r c h t oc o m b i n et h ec o m p u t e rv i s i o nt e c h n o l o g y , d i g i t a li m a g ep r o c e s s i n ga n d t r a d i t i o n a ld a t a b a s e t e c h n o l o g y ,e s t a b l i s h m e n t c o n t e n t - b a s e dv i d e o r e t r i e v a ls y s t e mw i l lb eav e r ym e a n i n g f u lr e s e a r c h a st h em o s tb a s i c s t e p so ft h i ss y s t e m ,v i d e os h o tb o u n d a r yd e t e c t i o ni sv e r yi m p o r t a n tw i t h a c c u r a c y t h e r ea r ed i f f e r e n c ea l g o r i t h mf o rd i f f e r e n c et y p eo f v i d e o t h e i n t e r f e r e n c eo fm o v e m e n ti st h ed i f f i c u l tp r o b l e mf o rs h o tb o u n d a r y d e t e c t i o n n o n e a l g o r i t h m f o rs p o r t sv i d e ow h i c hc o n t e n t sal o to f m o v e m e n th a sag o o da c c u r a c y i nt h i sp a p e rw ed e v i s ean e ws h o tb o u n d a r yd e t e c t i o nf o rs p o r t s v i d e o b a s i cc o n c e p t s ,r e s e a r c hb a c k g r o u n da n dr e s e a r c hm e a n i n g sa r e i n t r o d u c e d v a r i o u ss h o td e t e c t i o nm e t h o d si nd e c o m p r e s s e dd o m a i na r e s t u d i e d t h et r a d i t i o n a la l g o r i t h m sa le s y s t e m i c a l l ya n a l y z e d ,a n dt h e i s s u e sw h i c ha r ef o c u s e da r ep r o p o s e d t h ef o c u so ft h i s p a p e r i sh a v ean e w a l g o r i t h m f o rt h e c h a r a c t e r i s t i c so fs p o r t sv i d e o t h en e wa l g o r i t h mc a ns o l u t ep r o b l e m s a s :( 1 ) r e d u c et h ei n t e r f e r e n c eo fm o v e m e n tf o rs h o tb o u n d a r yd e t e c t i o n ( 2 ) t h ea l g o r i t h m f o rd i f f e r e n tv i d e oh a sg o o dr e s u l t s t h em a i nj o bo ft h i st h e s i si sa sf o l l o w s : 1 t h eu s eo fm u l t i f r a m ef r a m ea sb a de i g e n v a l u em e t h o d t h i s m e t h o dc a ne f f e c t i v e l ys u p p r e s sr a n d o mn o i s ea n df l a s ho ft h ei m p a c to f s h o tb o u n d a r yd e t e c t i o n s h o tb o u n d a r yd e t e c t i o na l g o r i t h mt oi m p r o v e a c c u r a c y 2 p r o p o s e da d a p t i v et h r e s h o l d i n ga l g o r i t h m t h ea l g o r i t h m e f f e c t i v e l y s o l v et h eg l o b a lt h r e s h o l dc a no n l yb et e s t e do nv i d e o s e q u e n c e so rp a r to fo d eo ft h ev i d e of r a m ef o rar e l a t i v e l yg o o dd e t e c t i o n o ft h ee f f e c to fd i s a d v a n t a g e f l e x i b l ea l g o r i t h ma c c u r a c y ,r o b u s t n e s s 3 f o r s p o r t ss p o r t s v i d e os h o t b o u n d a r y d e t e c t i o no nt h e i n t e r f e r e n c e ,a d dc a m e r am o t i o np r o p o s e da n a l y s i sm e t h o d t h i sm e t h o d c a n e f f e c t i v e l yd i s t i n g u i s h c a m e r am o t i o n i m p r o v et h ea l g o r i t h m a c c u r a c y t h en e wa l g o r i t h mi sb e t t e rt h eo l d e ro n ew h i c hp r o o fb yt h er e s u l t s o fal o to fe x p e r i m e n t a t i o n k e yw o r d s :s h o t s e g m e n t a t i o n a u t o m a t i ct h r e s h o l d d e t e c t i o n s p o r t sv i d e om o t i o na n a l y s i s 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:4 基。 日期:2 竺驾乙2 旦二一 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位 论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本 学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 北京邮电大学硕士学位论文 1 1 研究背景及意义 第一章绪论 随着多媒体技术和w e b 技术的发展,越来越多的信息以视频形式存储、传 输和表现。然而,用户该如何在浩如烟海的视频信息中快速、方便地获得自己需 要或是感兴趣的内容( 例如找出一场足球比赛中的进球镜头,找出一段电视节目 中插播的广告等) 成为用户关注的问题。因此,视频检索系统成为近年来研究的 热点。传统的视频检索方法主要借用了基于文本数据库的检索方法。具体来说, 就是用手工的方法或者借助计算机等工具给视频添加一些文字描述或数字标签, 在需要检索时,通过查询标签或者关键词来寻找所需要的视频信息。目前大多数 商用多媒体视频数据库,如视频点播v o d 系统,就是基于关键词的检索。这种 检索方法虽然查询简单,但存在许多缺点:( 1 ) 由于视频所包含的内容十分丰富, 很难用简单的几个文字来全面描述。( 2 ) 关键词一般采用人工方式编写,带有很 大主观性,不同的人或同一个人在不同条件下对同一组视频可能会给出不同的描 述。而且,手工标注的工作量极大,不可能对所有视频数据都进行这样的手工标 注处理。( 3 ) 用传统的视频检索方法检索的视频单位往往局限于一场电影或一个 完整的视频片断,而对于更小视频单位的视频检索只能依靠人工的快进和快退等 手段才能确定所需信息的确切位置。因此,传统的检索方法已不能满足需要。用 户希望根据给出例子或特征描述,系统能自动检索到匹配的视频片断,即实现基 于内容的视频检索( c b v r ) 。 基于内容的视频检索是指根据视频的内容及上下文关系,对大规模视频数据 库中的视频数据进行检索。它提供这样一种算法:在没有人工参与的情况下,自 动提取并描述视频的特征和内容。它区别于传统的基于关键字的检索手段,融合 了图像理解、模式识别、计算机视觉等技术n 儿小。目前多媒体数据库中对视频 媒体信息检索的研究早已跳出了基于文本对视频媒体进行扩充和检索的信息管 理的阶段,而把更多的精力投入到了对视频媒体数据内容级的处理和操纵、基于 相关内容的检索、多种媒体的综合概念处理、信息间相互关联、符合多媒体特征 用户接口等方面,而这些恰恰是用户迫切想要得到的。基于内容的视频处理技术 正是朝着这个方向发展的,它充分利用视频内容的一些可计算特性,诸如颜色、 纹理、形状、运动等等,结合其它一些现有的成熟技术,来对视频信息进行存储、 北京邮电大学硕士学位论文 管理和建立索引结构。由于多媒体数据库的普遍适用特性,这些研究可以应用于 广泛的领域。这些技术的突破对信息系统的信息处理能力将是一个很大的推动, 将促进多媒体信息的有效利用,产生很好的社会效益和经济效益。 在基于内容的视频检索的众多技术中,视频数据的结构化就是其中一项关键 而基本的技术。视频数据结构化的目的是将视频序列分解为视频的基本组成单元 镜头,也就是进行镜头检测h 1 。镜头检测的任务是将视频序列按照时间和空间的 变化分割成一个个基本的镜头。镜头是由一系列在时间和空间上前后相续的帧组 成的有序集合,一个镜头是由同一台摄像机所拍摄的。在相邻的镜头之间有一个 镜头边界或者镜头转换,镜头检测就是要将这些边界或转换找出来,然后根据这 些对视频数据进行分割。由于同一个镜头中的帧在视觉特征和语义特征上具有很 大的相似性,这就使得后续的处理如视频抽象和高语义层次的视频分割成为可 能。 在本论文中,我们以体育视频的镜头检测技术作为研究目标,就是面向体育 视频领域,研究视频内容的计算机处理、分析和理解技术,以方便用户查询和浏 览。体育视频,即体育比赛的电视转播,作为一个重要的应用领域一直备受关注。 n b a 每年组织近2 0 0 0 场比赛,每场比赛长度约为4 8 分钟。2 0 0 8 年北京奥运会持 续了1 7 天,比赛项目总共为2 9 9 项,视频总长度达到上千个小时。面对如此海 量的数据,用户真正关心并有可能反复观看的却只是其中的一小部分,例如足球 比赛中的射门,篮球比赛中的扣篮,跳水比赛中的跳水等等。人们需要一种方便 快捷的手段来访问体育视频中的这些事件。在这方面,体育视频的内容分析技术 有着广泛的应用,它可以直接运用到网络传媒、数字电视、视频点播、视频资料 库等实际应用中,自动或半自动的建立体育视频的结构目录和语义标注,不仅为 普通观众观看体育比赛节目带来方便,也为教练员、运动员等专业人士进行资料 查询和辅助教学提供了有效的工具。 1 2 国内外相关课题的研究动态 基于多媒体技术的发展和信息高速公路的出现,数字视频已成为多媒体服务 中的一个不可或缺的部分,如电子购物、视频点播等。由于视频数据具有语义复 杂和数据量庞大的特点,要提供上述服务,首先必须对视频进行处理,实现自动 索引,这样才能实现海量数据的高效管理。镜头边界的检测是实现视频自动索的 第一步,它直接影响到视频检索的成败和精度。 镜头转换可分为突变和渐变两种。突变是从一个镜头直接切换到另一个镜 头,渐变是为了使镜头变换更加自然,通过编辑手段从上一个镜头逐渐地转换为 下一个镜头。 2 北京邮电大学硕士学位论文 关于镜头边界检测,目前已经提出了许多的算法。从面对的视频数据,可以 大略地把这些算法分为两类,第一类是在未压缩的视频数据中进行检测;第二类 是直接对压缩视频进行镜头检测。 从使用特征出发,算法也可以分为两类,第一类是利用视频数据的底层颜色 特征进行检测,使用的比较多的是直方图特征和像素点的颜色比较;第二类是使 用视频数据中比较高层的信息进行检测,有的利用视频压缩中的运动预测方法, 如据视频中的运动信息、视频中帧图像的边缘信息进行分析等等。 总的来说,在目前已经提出的算法中,对于突变边界的检测已经达到了相当 高的检中率和查准率,但是对于渐变边界,还没有一种算法能够取得非常好的效 果,而渐变边界比突变边界往往具有更深刻的语义信息。g l u p a t i n i 和 j s b o r e c z k y 对已经存在的算法进行了分析,发现,对突变边界的检测已经能够 达到9 0 的检中率和8 0 的查准率;但是对于渐变边界,只有7 6 的检中率和6 5 的查准率。而在z h o n g 最近提出的算法中,对于所有的边界,能够达到9 5 的检 中率和9 1 的查准率,其中对于突变边界有9 7 的检中率,对于渐变边界有8 3 的检中率,但是这种算法的计算量非常之大。因此,在镜头检测中,目前主要存 在的问题就是对渐变镜头的检测。前后相继镜头内容的差异大小和镜头变换时编 辑手段的复杂程度都能极大地影响渐变镜头检测结果。而这些要在算法中精确的 检测出来,是一件相当困难的事情,尤其是编辑手段的日趋复杂多样化,更加给 镜头检测增添了困难。 1 3 本文的工作 本文研究在非压缩域中的镜头边界检测算法。这类方法通过对视频流数据进 行解压,得到一系列的视频图像帧,再在图像帧的基础上,比较帧与帧之间的差 异,进而探测到镜头边界。 当不同视频内容差别很大时,视频特征会有很大差别。例如,体育视频需要 详细的运动分析,而对新闻视频作运动分析并不能达到很好的效果,且会花费大 量不必要的时间代价。因此本文提出的算法针对特定类型的视频,这里选择体育 视频。 体育视频分析的难点在于:( 1 ) 镜头内运动会造成镜头边界检测的错检。且 由于体育饰品中运动大量存在,一般算法查准率会非常低。( 2 ) 由于运动造成的 镜头内特征值差异较大,导致不同视频( 同为体育类) ,不能用单一阈值来判断 镜头边界。( 3 ) 闪光灯会对镜头边界检测造成影响。( 4 ) 现有一般的镜头渐变检 测方法查全率和查准率都不高。 本课题研究重点在于根据体育视频的基本特征,提出改进算法,解决上述存 3 北京邮电大学硕士学位论文 在的难点问题。目标在于:( 1 ) 减小物体相机运动和光照的变化这两个因素对 镜头边界检测的影响,提高检测的查全率及查准率。( 2 ) 使算法对不同视频都有 较好的效果。 1 4 本文结构 本文第一章为绪论,主要介绍选题的背景及意义:以及国内为相关课题的研 究动态。第二章介绍基于内容的视频检测系统,说明镜头边界检测在系统中的重 要作用。第三章阐述了视频编辑相关理论,深入探讨经典的镜头边界检测算法, 这是我们提出改进算法的重要基础。在第四章中,我们将详细讨论基于块匹配的 运动估计技术。因为对于体育视频,有效的运动分析是算法能否成功的关键。第 五章是本文重点,我们将详细阐述本文提出的改进算法。并在第六章中给出仿真 结果,进行具体分析。最后,第七章是总结与展望。 4 北京邮电大学硕士学位论文 2 1 引言 第二章基于内容的视频检测系统 镜头边界检测是视频检测系统的基础及重要环节。在这一章中,我们将先从 整体角度出发,介绍视频检测系统的概念,流程,及其各个环节的基本理论及基 础技术。同时指出镜头边界检测在其中的重要地位。 2 2 系统概述 基于内容的检索( c b r ,c o n t e n t - - b a s e dr e t r i e v a l ) ,是指直接根据描述媒体 对象内容的各种特征进行的检索,它能够从数据库中查找到具有指定特征或者含 有指定内容的图像( 包括视频片断) ,它区别于传统的基于关键字的检索手段, 融合了图像理解、模式识别等技术,并且具有以下的特点: ( 1 ) 它是一种近似匹配,这一点与常规数据库检索的精确匹配方法有明显不同。 ( 2 ) 直接从媒体内容中提取信息线索。 ( 3 ) 特征提取和索引的建立可以由计算机自动实现,于是大大减少了工作量。 在基于内容的视频检索系统中,首先要对视频流进行结构的分析,将视频序 列分割为视频镜头,并且在视频镜头内选择关键帧来代表这一个视频镜头的主要 内容,这是实现一个高效的基于内容视频检索系统的基础和关键。然后,提取每 一个视频镜头的运动特征和关键帧中的视觉特征,把它们作为一种检索机制存入 视频数据库中。最后根据用户提交的查询,按照一定的特征进行视频检索,将检 索的结果按照相似性程度提交给用户。当用户对查询的结果不满意时,可以优化 查询的结果,自动根据用户的意见灵活地优化检索的结果。 2 3 视频结构化 视频数据流的一个重要特点就是它有很强的时间结构性。在视频拍摄中常用 到“场景 、“镜头 之类的概念,导演或创作人员将这些拍摄得到的“镜头 或 “场景”单元组合起来,就是观众最后看到的视频录像。这时候,人们看到的只 是一帧帧连续图像,而“镜头 或“场景等结构层次消失了。如果通过某种手 5 北京邮电大学硕士学位论文 段能够自动分析出视频数据流中所蕴含的结构,也就是说对视频进行结构化,可 以帮助用户更好的欣赏尤其是管理视频内容。 视频结构化就是对视频流中的连续帧序列进行切分,把一个连续视频流按照 其内容展开的不同,分成若干语义段落单元。视频流的结构化方法能够从一部很 长的视频中抽取出隐含的情节发展结构,它为大数据量视频的浏览提供了一种非 常好的方式。正如一本书通常会有目录帮助人们迅速浏览和查询内容,一部视频 同样需要有效的目录。 下面给出在视频结构化的过程中对一些基本术语的定义【5 1 。 帧( f r a m e ) :帧是视频流的基本组成单元。每一帧就是一副图像。视频流就 是由连续图像帧构成的。在p a l 制式的视频中,每秒中有2 5 帧;在n t s c 制式 中,帧率一般为3 0 帧秒。 镜头( s h o t ) :镜头是指摄像机不间断拍摄的一组帧序列,它常被看成一部 视频的最小结构单元。一般来说,同一个镜头中的图像帧比较接近,特征基本保 持不变。因此,通过发现相邻帧之间较剧烈的特征变化,就可以认为发生了镜头 转换。 场景( s c e n e ) :语义上相关、时间上相邻的若干镜头组成一个场景。场景反 映了视频所蕴含的较高层语义内容,如“学校运动会力这个场景可以由“运动员 入场 、“运动员比赛和“观众呐喊”等多个镜头组成,形成一个比较完整和丰 富的语义表达。除了镜头和场景这种较一般的划分,在一些特定领域还有一些领 域语义相关的视频结构。例如,新闻视频通常有“主持人介绍 和“现场报道 交替进行的结构;体育视频则是由一个个比赛事件组成。这些特定结构的分析, 通常是和视频的语义分析结合在一起进行的,我们将在下一节对此作详细介绍。 下图描述了视频的结构化层次。 视频节目 暮) 强景 ll 镌失 川ll i川mi i | i | l |川l 馈 图2 - 1 视频结构化层次模型 6 北京邮电大学硕士学位论文 2 3 1 镜头边界检测 为了将镜头分割出来,需要进行镜头边界检测。镜头与镜头之间的边界有两 种类型:突变和渐变。突变时,镜头直接切换到下一个;渐变时,从一个镜头到 下一个镜头会有一个持续多帧的变化过程,常见的主要有淡出淡入( f a d eo u ta n d f a d ei n ) ,溶解( d i s s o l v e ) ,擦变( w i p e ) 等。淡出淡入是指视频帧逐渐隐去直到 完全黑屏,再逐渐显现后一镜头的帧图像。溶解是指在前一镜头帧图像逐渐模糊 的同时,后一镜头的帧逐渐增强,并且产生前后帧图像的重叠。擦变表现为后一 镜头帧图像的区域逐渐变大把前一镜头的图像擦掉。 镜头检测的关键问题是如何区分镜头之间的切换和因为摄像机或物体运动 造成的镜头内变化。由于这个原因,渐变比突变更难以检测。早期的工作主要在 突变检测,近来更多的研究集中到对渐变的分析。 镜头检测的方法可以分为两类:非压缩域的和压缩域的。这些方法的基本思 想都是根据相邻图像帧之间的特征变化,来判断是否存在镜头边界。与非压缩域 的方法相比,基于压缩域的方法不需要对视频编码流进行解码,而是直接使用如 d c r 系数、运动矢量、宏块( m a c r o b l o c k ) 信息等压缩域特征进行分析,从而提 高了处理速度。今天大量的视频数据是以压缩格式( 如m p e g 1 2 4 ) 存储的, 因此基于压缩域的方法往往具有更大的实用价值。 2 3 2 场景构造 一部视频中常常包含了成百上千个镜头。为了更好的访问视频内容,仅仅进 行镜头分割是不够的,还需要对镜头进行有效的组织,需要在镜头检测的基础上 建造更高层次的结构单元,也就是场景。 从一般的角度来看,场景构造也可看作一个镜头聚类的问题,即将内容相关 的一组镜头聚为一类属于同一个场景。基于这一思想,z h o n g 提出了基于聚类方 法的层次视频结构。镜头根据视觉特征上的相似性聚合在一起形成组,组之间可 以进一步聚类形成更高一层的结构单元。不过这种方法并不考虑镜头出现的时间 顺序。一些研究人员提出了通用的视频结构分析方法。他们用时间约束的聚类法 把视觉上相似和时间上相邻的镜头聚类在一起,再在聚类组的基础上构造场景转 换图( s c e n et r a n s i t i o n g r a p h ) 或高层场景。 上述一些方法虽然基本与视频的类型无关,具有一定的通用性,但都比较粗 糙。很多情况下,人们需要根据特定视频节目的特点,利用相关的领域知识来分 析视频内在的结构。 7 北京邮电大学硕士学位论文 2 4 视频镜头内容表示 视频镜头由多幅视频帧组成,构成了一个图像序列。目前,视频镜头内容的 表示方法主要有基于关键帧表示和拼接技术的背景、目标表示这两大类。 2 4 1 基于关键帧的表示 关键帧是指在构成视频镜头的图像序列中能够描述视频镜头内容的关键图 像,反应了镜头的主要内容。关键帧表示法是在视频帧序列中选择代表镜头内容 的图像的方法。关键帧的使用可以大大地减少视频索引的数据量,同时也可以为 视频的检索和视频的浏览提供一个组织框架。关于关键帧的选取有以下方法: ( 1 ) 基于运动分析的方法 w o l f 等人通过光流分析来计算视频镜头中的运动量,在运动量取得局部最 小值处来选取关键帧,它反映了视频数据中的静止。视频中通过摄像机在一个新 的位置上停留或者通过任务的某一个动作的短暂停留来强调其本身的重要性。 w o l f 的这种基于运动分析的方法可以根据视频镜头的结构选择相应数目的关键 帧。如果首先把图像中的运动对象从背景中提取出来,再计算对象所在的位置的 光流,则可以取得更好的效果。 ( 2 ) 基于镜头的方法 一段视频流被分割成为视频镜头之后,将每一个视频镜头的第一帧( 或者第 一帧和最后一帧) 作为这个视频镜头的关键帧。这种方法实现起来比较简单,无 论视频镜头的内容如何,关键帧的数量都是一定的,但是效果不是很稳定,因为 每一个视频镜头的第一帧和最后一帧不一定总能够反映视频镜头的主要内容。关 键帧的选取应与镜头的内容变化有关,变化剧烈的镜头应以较多的关键帧表示。 ( 3 ) 基于内容分析的方法 这种方法是基于每一帧的颜色、纹理等视觉信息的改变来提取关键帧的,当 这些信息有显著的变化时,当前的这一帧即可以作为关键帧。z h a n g l 6 l 等提出了 基于视频特征变化的方法,依据帧间的显著变化来选择多个关键帧。这种方法里, 首先把视频镜头的第一帧作为关键帧,然后计算前一个关键帧与剩余的帧之差, 如果这个差值大于某一个阈值,则再选取一个关键帧。这种方法可以根据视频镜 头内容的变化程度来选择相应数目的关键帧,但是所选取的帧不一定具有代表意 义,而且在镜头有运动时,容易选取过多的关键帧。 ( 4 ) 基于聚类的方法 聚类提取的方法首先要确定一个初始的类心,然后根据当前帧与类心的距离 8 北京邮电大学硕士学位论文 来判断是归为这个类还是作为新的类心,再将视频镜头中帧分类后,取各类中距 离类心晟近的帧作为关键帧。z h 锄g 【7 1 等采用聚类的方法,其基本的假设是,如 果某一内容比较重要,就会有较多的帧来表现它,因此每一个大的聚类应该有一 个关键帧。另外,还有人提出了一种基于最近特征线( n e a r e s tf e a t u r e l i n e ,m 兄) 的端点检测算法用于选取关键帧【剐。这个方法的主要原理是某些特征点的连线 ( 特征线) 近似并代表某个类的所有特征样本轨迹,而这些特征点就是关键帧。 2 4 2 基于图像拼接技术的背景表示 作为视频镜头的一种方便的表示,关键帧可以直接从原始视频数据中抽取出 来,但是它不可避免的出现数据冗余,如果选择不当,还有可能漏掉某些重要的 内容。而融合多幅图像的背景信息通过图像拼接技术而生成一幅全景图,是一种 紧凑且完全的镜头背景内容表示方法。通过这种方法,结合运动目标提取技术, 每个镜头片断都可以用一幅全景图和一些重要的运动目标来共同表示。这种方法 具有数据量小,包含信息多的特点,还可以获得摄像机运动参数及目标运动轨迹 等信息,这些是理解视频内容的重要线索。 对摄像机运动的估计是视频图像拼接技术的关键。摄像机运动参数除了可以 用于图像拼接,也可以直接用作描述镜头的特征和镜头的检索。目前有一些对场 景或者摄像机运动作了限制的算法。视频拼接技术的困难还在于:由于视频图像 数量很多,虽然相邻帧间的运动估计可能很准确,但是最终的累积误差却很大; 视频图像中常包含目标运动,它们会对摄像机运动的估计产生影响,导致拼接结 果不准确。 2 5目标分割 一个视频场景通常由背景和目标组成,而视频序列中的活动目标往往是视频 序列中的重要组成部分,常常是查询的事件主体。因此目标分割的结果对视频图 像分析具有重要的意义,它也是是计算机视觉最困难的问题之一,目前提出了很 多算法,主要有两大类。 一类是利用相邻帧间的时域差分来得到目标的运动信息,再用统计学的方法 消除噪声的干扰,这对于摄像机固定的情况时适宜的,对于摄像机运动的情况, 则需要再摄像机运动补偿后再进行时域差分。但是时域差分的可靠性严重依赖于 对摄像机运动估计的正确性,因此在难以正确估计摄像机运动参数的情况下,这 种方法不可行。 另一类方法是基于视频图像的运动估计和分割,目标是要把图像中存在的运 9 北京邮电大学硕士学位论文 动估计出来,并根据运动的一致性把序列图像分割成不同的区域。这类方法可以 分为两种:外在方法,即按一个全局方案估计多运动模型;隐式方法,即用一个 局部方案确定运动的不连续性。 2 6 视频检测与浏览 完成了对视频流中各视频镜头提取关键帧并进行特征提取后,还要建立基于 视频特征的索引。通过索引,就可利用基于关键帧特征,基于镜头动态特征,或 者将二者相结合进行对视频进行检索和浏览了。基于内容的检索是一个近似匹 配,逐步求精的循环过程,主要包括初始查询说明、相似性匹配、返回结果、特 征调整、人机交互,检索反馈等步骤,直至获得最佳的查询结果。 2 7 本章小结 在这一章中,简单介绍了基于内容的视频检索系统的概念,这一领域的研究 现状,如一些热门的研究方向及其应用的方法和技术。在静态图像方面,研究主 要集中在图像的颜色、纹理特征和一些简单的形状特征的提取技术上。在视频序 列图像中,则主要是镜头的切分和关键帧的选择等技术的研究。基于图像内容的 视频信号检索的研究涉及到多个领域,它综合利用了计算机图像处理与计算机视 觉研究各方面的技术,同时对这些技术的研究和发展也起到了推动作用,也是计 算机视觉,图像数据库与知识挖掘等领域的研究热点之一。 视频镜头的分割是视频分析也是基于内容视频检索系统的前提与基础,在这 个领域,前人已经开展了大量的工作,尤其是在视频镜头切变的检测方面已经取 得了一些非常积极的研究成果,存在的算法很多,并且在其选取的测试视频序列 上取得了很好的检测效果。但是这些算法并没有在足够的、不同性质的视频序列 上被测试,也没有从理论或者实际上证明它们是否对数据集的选取不敏感。因此, 构造这种“不敏感 的方法仍然是今后的一个研究的方向。 与视频镜头的切变检测相比较,已经有的视频镜头的渐变检测算法都只是取 得了有限的成功,这些算法的检测性能仍无法取得令人满意的结果,并且仍然没 有一种算法能够对不同的渐变类型都有比较好的检测性能。所以,视频镜头的渐 变检测仍然是一个开放的课题,这里的重点主要是在如何提高检测的精度和对不 同序列的不敏感性,即如何使其具有更强的鲁棒性 1 0 北京邮电大学硕士学位论文 3 1引言 第三章视频编辑理论及视频建模 我们前面已经介绍过镜头边界检测的重要作用,在这一章中,我们将详细介 绍镜头边界检测的原理。阐述经典的镜头边界检测算法。并分析比较各种算法的 优劣。从而总结出好的镜头边界检测算法的必要条件。这是我们提出改进算法的 重要基础。 3 2 数字视频编辑模型 视频是由一个个独立拍摄的镜头连接而成的。在对视频或电影进行后期处理 时,要考虑对每个镜头的处理方式、以及镜头之间的连接等问题。为了达到某种 效果,通常会加入一些编辑技术,如前文提到的渐入、渐出、划入、划出、溶解 等效果,甚至还会在镜头之间另外加入一些视频帧。图3 - 1 描述了视频的编辑过 程和视频的结构图。 镜头s 1 镜头s 2 e n 图3 - 1 视频编缉及结构图 镜头分割即镜头边界检测的过程。以图3 - 1 为例,即在视频v 中确定s 。,墨, s ,。,s ,的位置。镜头边界检测的算法有很多,但基本思想大体一致:即在视频 中寻找合适的特征,提取特征向量,然后比较这些特征向量之间的差异,若特征 差异超过了某一阈值,就视为存在镜头的转换,否则继续处理其它帧,这些后期 人为的视频编辑技术无疑增加了边界检测的难度【9 】1 1 m 。 首先介绍一个“编辑视频 的概念。编辑视频在本文是指后期视频处理的过程中, 为了达到某种效果而编辑的视频部分。镜头边界的检测需要对编辑视频的类型进 行分析和判断,而编辑视频的类型又取决于编辑方式,因此我们先简单了解一下 1 1 北京邮电大学硕士学位论文 视频主要的编辑方式以及编辑方式和编辑视频类型之间的关系。编辑效果模型是 指镜头转换时视频帧的变化方式,假设e ( x ,y t ) 代表两个镜头s ,s :之间的编辑视 频 e ( z ,y ,f ) - 墨( 手乏。) 瓦。 s :( 手瓦:) 互: ( 3 1 ) 其中手= ( x ,y ,t ,z ) 表示镜头中的象素空间,;= ( r ,g ,b ,z ) 表示镜头中象素颜色空 间。 利用齐次坐标手,弓分别来表征象素空间和颜色空间,目的是为了能利用二 维仿射变换来描述视频的编辑效果。互是对象素空间手的变换,互则是对颜色空 间:;的变换,o 表示在编辑过程中,两个镜头的连接方式,;表示一个恒等变换, 即无变换。给定两个镜头,表3 - 1 总结了可对其采用的所有编辑方式,不同的编 辑方式会导致不同的编辑分类,而不同的变换矩阵产生不同的编辑方式。如果将 所有的变换都统一看作沿时间轴的空间颜色变换,我们就可以利用统一的公式 ( 3 1 ) 对编辑方式进行描述和建模。 表3 - 1 镜头的主要编辑类型 编辑类型含义举例 互乙 无 1 直接连接切变 妒妒 空间编辑 对象素空间编翻页 互驴 辑 色度编辑 对色度空间编 淡入淡出,溶 ; 瓦 辑解 联合编辑 联合编辑 擦除 乏t 编辑视频的包含关系如公式( 3 2 ) 、公式( 3 3 ) 所示 仃cdc ccc 彳( 3 2 ) f oc d cc sccca ( 3 3 ) 其中f i 、f o 分别为淡入、淡出视频序列,d 为溶解视频序列,c s 为色度比例 缩放视频序列,c 为色度编辑视频序列,a 为所有的视频序列。 3 3 编辑视频的模型 镜头边界检测是建立视频结构的第一步,是视频结构分析的主要内容,直接 影响到视频检索的成败,因此成为基于内容视频检索的首要的也是最关键的一 步。基于内容检索的视频处理首先要把视频自动地分割成一个个镜头,只有在视 频分割的基础上,才可能组织更高层的视频结构。视频分割的过程被称为镜头边 北京邮电大学硕士学位论文 界检测,镜头分割等。 一个镜头是相机的一次连续拍摄,代表的是时间或空间上一组连续的动作, 是一系列相互关联的连续帧的组合。镜头边界分为突变( c u t ) 和渐变 ( g r a d u a l t r a n s i t i o n ) 边界,突变也叫切变,是最常见的边界类型,两个镜头的切换 发生在连续的两帧k 和k + l 上。而渐变是两个镜头之间的转变,是逐渐完成的, 通常可能延续从几帧到几十帧,渐变有许多种,包括溶解、淡入、淡出、划入等。 淡入( f a d ei n ) 是后镜头的开始几帧缓慢均匀地从全黑屏幕中逐渐出现。淡出 ( f a d eo u t ) 是前一镜头的结尾几帧缓慢均匀地变暗直至变为全黑屏幕。溶解 ( d i s s o l v e ) 是淡出和淡入进行叠加的结果。划a ( s l i d e ) 是上一个镜头的画面逐渐被 后一个镜头的画面所代替,直至全部变为后一个镜头的画面。 镜头边界的形成是两个镜头进行切换的结果,对于观察者来说,是视频镜头 的内容发生了某种意义上的变化,即边界是由于视频内容的不连续造成的。检测 边界的任务即在于此,好的算法检测出的边界应与这种视觉内容上的不连续一 致。图3 2 给出了镜头边界的检测过程。首先,某种特征被提取出来作为衡量帧 间内容的变化,例如:颜色、形状、纹理等特征 图3 2 镜头边界的检测过程 都可以用来作为对视频帧的描述,然后,根据某种标准来度量帧间内容的差别, 这种差别就是计算出来的帧间不连续值z ( k ,k + 1 ) ,其中l 1 ,然后经过阈值判 决,不连续值大于某一预先设定的阈值,则认为帧k 与k + l 形成了边界,否则两 帧在同一镜头内。图3 3 给出一组计算出来的不连续值,在突然有很大的值出现 的时候一般是镜头边界,好的特征和标准应使边界与非边界的差别更大一些,这 可以将边界与非边界划分得更准确一些。 1 3 北京邮电大学硕士学位论文 蔷 距 离 视顿帧 图3 - 3 不连续值曲线 在边界检测中,经常会出现两种情况:错检和漏检。漏检是镜头边界被漏掉, 这是因为所选取的特征对这两帧没有很好的区分能力。错检是把镜头内部的两帧 判作是镜头边界。错检基本上由于以下两个因素所引起:物体相机运动和光照的 变化,或者说镜头内部的视觉内容的变化是这两种变化所引起的,但是当变化过 于激烈时,就被当作镜头边界了。如果能消除这两种因素的影响,那么镜头内的 帧间差就不存在了,镜头边界的检测将变得很容易,但是实际上并不能完全消除 这两种影响,只能尽量使帧间的这种差别变得更小一些来减少它们被错检的机 会。总之,为了减少错检和漏检,特征和标准的选择应能很好的区分以下三种情 况: ( 1 ) 镜头的突变、缓变; ( 2 ) 相机或物体的运动; ( 3 ) 光照变化或噪音的干扰。 对于运动的影响,可借助于运动补偿来减少,但运动补偿并不能消除减少光 照的影响,并且对于剧烈的复杂的运动,运动补偿不一定能起到好的效果,相反 却带来了时间上的代价。虽然我们不能通过选择好的特征和标准来完全弥补这两 种因素带来的影响,但是我们可以在阂值检测时借助于附加的信息来做到这一 点。例如,一种由相邻的几个不连续值所形成的实时模式可以认为是附加的信息, 那么,第k 帧和第k + l 帧是否有边界出现不仅依赖于这两帧之间的不连续值z 和 选取的闽值t ,而且还要比较这一实时模式和己知的边界模式的匹配程度。己知 的边界模式是指某一类边界有它自己特有的特性,这种特性表现在不连续值曲线 上,就变成一种模式,例如,溶解类的缓变边界在选取某种特征和标准的条件下 可模型化为抛物线型。 1 4 北京邮电大学硕士学位论文 3 4 特征提取和测量准则的建立 3 4 1 基于像素比较的算法 该算法直接计算两帧灰度差,公式如( 3 4 ) 所示 厶- i i , ( x ,y ) - 1 2 ( x ,y ) i ( 3 - 4 ) 其中,五( 工,y ) , ( 工,y ) 分别代表第1 帧和第2 帧像素( x ,y ) 的灰度,则总的 帧差为 兄a 刍;无( 训) ( 3 - 5 ) 其中,m n 为图像的尺寸。如果总的帧差大于某一设定的阈值,则存在镜头 突变。基于像素的算法对于噪音、物体运动和摄像机运动较敏感。故常需一些预 处理,如运动估计和补偿等。 3 4 2 基于直方图的算法 基于直方图的算法是在基于像素算法基础上发展而来的,通常是将相邻的各 像素的灰度、亮度或颜色等分成n 个等级,再针对每个等级统计像素数做成直 方图比较,对每一帧计算直方图差值如下 d ( 七,k + ,) 一1 一m 善 ,噍+ ,( f ) ) ( 3 - 6 ) m 与n 的定义与公式( 3 5 ) 式相_ m 同i n ,( 它h k 计( i ) 算了两帧间有相同灰度或颜色值 的像素数,其本质与直方图差值法是相同的。 上述方法是计算整体的灰度或颜色的变化,而没有考虑镜头内部的运动。若 局部运动引起灰度或颜色产生较大的变化就会导致误检。为了减少运动,干扰等 引起的帧差值的变化,可以将各帧分块处理,将每个帧分成4x 4 个大小相同的 块,分别比较每个块的颜色直方图,差值最大的块被剔除,余下块的直方图差值 再做帧差值的计算。该方法1 1 1 】对检验包含摄像机镜头的推移和缩放是有改进效果 的,但是对检测诸如淡入淡出等特殊效果就会失败。同时在某些光线变化比较剧 烈的情况下,帧差值z 也会受到较大干扰。 以上算法在同一视频中都采用相同的阈值,这样对内容变化较大的视频可能 北京邮电大学硕士学位论文 会产生误检,而对内容变化较小的视频则可能产生漏检。 总的来说,基于直方图的方法比较简单,易于实现,计算复杂度较低,而且 在一般的镜头切变判断上可以得到较好的结果,除了使用图像的颜色值或亮度值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届北京市海淀区第二十中学数学九年级第一学期期末学业质量监测模拟试题含解析
- 中国数字气味城市发展机遇与市场机遇探讨
- 江苏省盐城市东台第一教育集团2026届数学八上期末质量检测模拟试题含解析
- 中国银行淄博市张店区2025秋招笔试会计学专练及答案
- 工商银行包头市九原区2025秋招英文群面案例角色分析
- 邮储银行鹤岗市萝北县2025秋招笔试英语选词填空题专练50题及答案
- 邮储银行贵港市桂平市2025秋招笔试英语阅读理解题专练30题及答案
- 中国银行焦作市中站区2025秋招笔试管理营销专练及答案
- 中国银行赣州市赣县区2025秋招笔试金融学专练及答案
- 中国银行商丘市民权县2025秋招笔试英语阅读理解题专练30题及答案
- 2024年陕西省学业水平考试地理试题分析 课件
- (高清版)DB12∕T 1437-2025智慧图书馆评估指南
- 北师大版九年级上册数学第一次月考试卷附答案
- 2024-2025学年河北省保定市定州市统编版四年级上册期中质量检测道德与法治试卷
- 沙钢杯第十一届全国钢铁行业职业技能竞赛(金属轧制工)理论试题及答案
- NB-T+33008.1-2018电动汽车充电设备检验试验规范 第1部分:非车载充电机
- 【新课标】高中生物新课程标准考试题三套
- 微量注射泵的使用操作评分标准
- 《无线通信基础及应用》课件第4章
- 高中历史必修一复习提纲
- 公关经理培训课程
评论
0/150
提交评论