（信号与信息处理专业论文）视频摘要中若干技术的研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：71 大小：2.61MB 积分：0 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

（信号与信息处理专业论文）视频摘要中若干技术的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布( 包括以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电子信息形式刊登) 授权东南大学研究生院办理。躲珥盈目录目录摘要目录 a b s t 从c t 第一章绪论 i 1 1 1 问题的提出1 1 2 视频摘要技术2 1 3 国内外研究现状6 1 4 论文的研究内容7 第二章视频结构模型9 2 1 基本定义9 2 2 镜头过渡方式1 0 2 3 帧间差分析11 2 4 j 、结1 3 第三章非压缩域镜头边界检测1 5 3 1 突变镜头检测( c u td e t e c t i o n ) 1 6 3 1 1 像素比较法：1 6 3 1 2 三帧比较法( t h r e ef r a m e sa p p r o a c h ) 1 7 3 1 3 似然比变化率法( 1 i k e l y h o o dr a t i oc h a n g er a t em e t h o d ) 1 8 3 1 4 网格比较法1 8 3 1 5 边缘变化率法2 0 3 1 6 全局直方图比较法2 l 3 1 7 局部直方图比较法2 2 3 1 8 阈值的确定2 3 3 2 颜色特征提取2 4 3 2 1r g b 颜色空间2 4 3 2 2 亮度空间2 5 3 2 3h s v 颜色空间2 6 3 2 4y i q 颜色空间2 9 3 2 5m u n s e l l 颜色空间2 9 3 2 6 参考颜色表( r e f e r e n c ec o l o rt a b l e ) 3 0 3 2 7 主颜色描述符3 2 3 2 8 颜色布局描述符3 3 3 3 渐变过程检测3 6 3 3 1 基于模型的渐变边界检测3 9 3 3 2 改进的渐变检测方法4 2 3 4 实验结果和分析4 5 第四章关键帧的选取4 9 4 1 弓i 言4 9 4 2 关键帧提取的基本算法4 9 4 2 1 特定帧法：。4 9 4 2 2 平均法5 0 4 2 3 基于内容变化的方法5 0 4 2 4 基于运动分析的提取方法5 l 4 2 5 基于无监督聚类5 l 4 3 实验结果和性能分析。5 2 第五章总结和展望 5 7 5 1 本文内容总结5 7 i 东南大学硕士学位论文：= = _ = ! 一一 5 2 对今后工作的展望。5 7 至定谢。5 9 参考文献。6 1 摘要摘要视频摘要中若干技术的研究研究生：李彬导师：郭学雷东南大学信息科学与工程学院随着计算机网络技术和数字视频技术的发展，视频资源越来越丰富，如何在视频的汪洋大海中选取需要的视频，这就要对视频摘要提出了要求。本文主要研究了视频摘要中的两个技术：镜头边界检测和关键帧提取。镜头边界检测和关键帧提取时视频摘要技术的基础和关键，完整的视频摘要第一步就要时域分割，即完成镜头边界的检测。其次，同一镜头组的视频帧有很大的冗余，不适合用于检索和存储，所以需要提取重点帧，既要消除镜头的冗余，又要很好地代表镜头的主要内容。本文分析目前存在的各种镜头边界检测算法之后，分析了各种视觉特征( 各种颜色空间的直方图，主颜色分量) 提取方法，同时分析了各种特征向量之间的不相似测度的计算方法。比较了全局阈值、滑动窗口法、聚类法等各种门限的选择方法，将m p e g 7 中的推荐使用的颜色布局描述子应用到镜头检测和关键帧提取中，经过对一些视频的测试，对突变检测效果很不错。在渐变过程中，分析了基于t w i n c o m p a r i s o n 和基于高原效应的检测方法，分析了渐变产生的模型。本文将渐变的模型条件放宽，并在此基础上提出了基于一致性测度的三帧检测法。在关键帧提取上，将颜色布局描述子和无监督聚类结合，产生了不错的效果。实验表明，将颜色布局描述子作为视觉特征用于关键帧提取，十分有效，不但取的关键帧很有代表性，而且有较高的压缩比。关键词：视频摘要颜色布局描述子镜头边界检测关键帧提取一致性测度东南大学硕士学位论文 a b s t r a c t r e s e a r c ho ns o m e t e c h n i q u e so fv i d e oa b s t r a c t i o n m s c a n d i d a t e ：l ib i n s u p e r v i s o r ：g n ox u e l e i s c h o o lo fi n f o r m a t i o ns c i e n c ea n de n g i n e e r i n g ，s o u t h e a s tu n i v e r s i t y , c h i n a t h ed e v e l o p m e n to f c o m p u t e rn e t w o r ka n dd i g i t a lv i d e ot e c h n o l o g yh a sr e s u l ti na ne x p l o s i o n o fv i d e or e s o u r c ei nt h el a s tf e wy e a r s h o wt of i n dt h en e e d e dv i d e oi nt h ev i d e oo c e a nc h a l l e n g e s t h et e c h n i q u eo fv i d e oa b s t r a c t i o n t w ob a s i ct e c h n i q u e si nv i d e oa b s t r a c t ：s h o tb o u n d a r yd e t e c t i o na n dk e yf r a m ee x t r a c t i o ni s r e s e a r c h e d t h e s et w ot e c h n i q u e si st h eb a s i sa n dc o r eo ft h ev i d e oa b s t r a c t i o n t h ef i r s ts t e pt o f i n i s haf u l lv i d e oa b s t r a c t i o ns y s t e mi st e m p o r a ls e g m e n t a t i o n ，w h i c he q u a l st os h o tb o u n d a r y d e t e c t i o n s e c o n d l y , a l m o s te a c hf r a m ei no n es h o ti ss i m i l a rt oo n ea n o t h e r t h i sm e a n st h a tt h e r ei s l a r g er e d u n d a n c yi nas h o t t h i sc o n d i t i o ni sd i s a d v a n t a g et ov i d e os t o r a g ea n di n d e x i n g s o t e c h n i q u eo fk e yf r a m ee x t r a c t i o ni sn e e d e d ，w h i c hc a nn o to n l ye l i m i n a t i n gm o s tr e d u n d a n c y , b u t a l s oe x p r e s s i n gt h em a i nm e a n i n go ft h es h o t a f t e rt h ea n a l y s i so ft h ee x i s t e da l g o r i t h m so ns h o tb o u n d a r yd e t e c t i o na n dt h ev i s u a lf e a t u r e ( s u c ha sh i s t o g r a mi nd i f f e r e n tc o l o rs p a c e ，d o m i n a n tc o l o r ) e x t r a c t i o nm e t h o d ，d i f f e r e n td i s s i m i l a r m e a s u r ei sd i s c u s s e d ， t h e nt h et h r e s h o l ds e l e c tm e t h o d sa r es t u d i e d ，s u c ha sm e t h o db a s e do ng l o b a ls t a t i s t i c s ， m e t h o db a s e do ns l i d i n gw i n d o w , m e t h o db a s e do nc l u s t e r i n g f i n a l l yt h ec o l o rl a y o u td e s c r i p t o ri s u s e da sv i s u a lf e a t u r ei ns h o td e t e c t i o n e x p e r i m e n ts h o wt h a tt h ed e t e c te f f e c ti sp r e t t yg o o d i n g r a d u a lt r a n s i t i o nr e s e a r c h , a f t e ra n a l y s i so ft h et w i n - c o m p a r i s o na l g o r i t h ma n dm e t h o db a s eo n p l a t e a ud e t e c t i o n ，t h ec l a s s i cm o d e lo fs p e c i a lt r a n s i t i o ns u c ha sf a d ei n ，f a d eo u t ，d i s s o l v ea r e e s t a b l i s h e d t h r o u g hl o o s et h er e s t r i c t i o no ft h el i n e a r i t y , am o r ee l a s t i cm o d e li su s e di ng r a d u a l t r a n s i t i o nd e t e c t i o n an e wm e t h o dc a l l e d t r i p l e - f r a m e sc o m p a r i s o na l g o r i t h m b a s e do nm e a s u r eo f c o n s i s t e n c yi sp r o v i d e d i nt h er e g i o no fk e yf r a m ee x t r a c t i o n ，t h r o u g hc o m b i n i n gc o l o rl a y o u t d e s c r i p t o ra n du n s u p e r v i s e dc l u s t e r i n g ，ap r e t t yg o o dr e s u l ti sg e n e r a t e d e x p e r i m e n tp r o v e st h a t u s i n gc o l o rl a y o u td e s c r i p t o ra sv i s u a lf e a t u r ei nk e yf r a m ee x t r a c t i o ni se f f e c t i v e ，t h es e l e c t e dk e y f r a m ei sv e r yr e p r e s e n t a t i v e ，a n dah i g hc o m p r e s s i n gr a t i oi sr e a c h e d k e y w o r d s ：v i d e oa b s t r a c t i o n ，s h o tb o u n d a r yd e t e c t i o n , c o l o rl a y o u td e s c r i p t o r , k e yf r a m e e x t r a c t i o n ，c o n s i s t e n c ym e a s u r e 第章绪论第一章绪论 1 1 问题的提出随着科学技术的发展，特别是计算机技术和网络技术的飞速发展，信息高速公路的发展，以及视频编解码技术的发展，人们正快速的进入信息化社会，以图像、音频、视频为代表的多媒体信息日益成为信息处理领域中主要的信息媒体形式。它们使互联网熠熠生辉，它们日益取代单调的文本成为主要的信息来源。尤其是视频信息，它能够记录、再现时间和空间上的各种信息，给人以直观的视听感受，使人们以更逼近自然的方式获得更多的细节信息。人们可以在家中通过网络方便地访问远程的多媒体数据库，观看电影，视频广告，远程教学等，给人们的生活带来了极大的便利。然而多媒体信息具有信息量大( ap i c t u r e si sw o r t hat h o u s a n dw o r d ) ，难以用语言描述的特点。随着互联网、电视、广告相关的视频信息越来越多，人们发现在视频的汪洋大海中寻找自己需要的视频信息绝非易事，往往耗费很大的精力。也就是说，人们面对的问题不再是筮。视频信息太少，相反，人们面对的问题是视频信息太多，以至于无法快速寻找到自己需要的视频信息。面对如此浩瀚的视频汪洋大海，如何有效的组织管理数据，如何高效的获得用户需要信息，这些问题向传统的信息检索、计算机视觉等研究领域带来了新的挑战。 j 视频数据是一种流式的非结构化数据：它是由一系列连续的视频帧组成，由于人眼的暂留效应，一般要大于1 0 f r a m e s e c o n d ( 邱s ) ，电影会在3 0 f p s 或2 5 f p s 。而每一个视频帧，是由一个由像素组成的矩阵。计算机可以高效的处理基于像素的操作，却很难提取出只有人类可以感受的信息。所以，一般计算机对视频的操作停留在存储、编辑、播放、快进、快退这个层次上，而且就视频文件本身的物理特来分析，它的最大粒度是视频文件，最小粒度是帧，中间没有过渡的层次概念，因此一般的数据管理技术在内容上无法对视频进行有效的组织和管理。传统的视频检索是基于文本的。通过对多媒体信息采用文本的方式描述，然后通过对文本进行准确匹配来检索信息。但是这种方法随着视频信息的大量涌现越来越不能满足要求。首先对视频信息用人工的方式进行文本描述所需要的工作量太大，而且十分的繁琐；其次人工的方式进行文本描述，有极大的主观性，不同的人对同一个视频，同一个人在不同的时间不同的心态下，对同一个视频都可能运用不同的文本描述，不能客观地描述视频信息。因此人们意识到基于文本的检索有很大的弊端，就提出了基于内容的视频检索( c o n t e n t b a s e d v i d e or e t r i e v a l ) 。基于内容的检索方法自动或者半自动地抽取视频的色彩，纹理、形状、运奎堕奎堂堡主堂垡丝茎行等内容特征，对象之间空间关系以及场景、行为、情感等语义特征建立视频的索引。正是由于视频数据本身的特点和人们对视频数据的广泛需求，近年来基于内容的视频处理和分析技术一直是人们关注的技术热点。其中，以快速有效的浏览视频为目的的基于内容的视频摘要技术尤为受人关注。1 9 9 4 年，c a r n e g i e m e l l o n 大学的i n f o r m e d i a 1 】【2 】【3 】系统开创了视频摘要技术的先河，多年来世界各地的研究者的研究成果，极大的推动了该项技术的发展。 1 2 视频摘要技术让我们考虑这么一个场景：你和你的几个同学在饭馆的包间里面吃饭，你们有说有笑，饭桌上摆满饭菜，服务员在一边上菜，这时候，你的妈妈打来电话，问你在哪呢，干什么呢? 你不假思索的回答：和同学在饭馆吃饭呢。你可能没有意识的你的思维将眼前感知的一切概括成了一句话，这对人来说毫不费劲，可是，如果是一段你和同学在饭馆吃饭的视频流原始数据，用一句话来表达出来这就是视频摘要要做的事情。这对计算机而言是非常难的。我们的计算机视觉技术还远没达到这种程度。所谓视频摘要，就是用自动或者半自动的方式，通过对视频结构和内容的分析，从原始视频中提取出有意义的部分，将它们以某种方式合并而成的紧凑的能充分表达视频语义内容的视频概要。对于一篇文章而言，摘要就是文章的简单概述，人们通过阅读文章的摘要，就可以判断，是否对该文章感兴趣，将这种思想对应到视频浏览上，就产生了视频摘要的技术。视频摘要【4 】【5 】【6 1 ( v i d e oa b s t r a c t i o n ) ，顾名思义，就是代表视频内容的静态或者动态的图片序列在对视频查询和浏览过程中，面临的一个基本问题是如何对视频信息加以表现，如果用户需要在查询结果中逐个视频的观看才能找到自己需要的视频，其工作量是用户无法忍受的。因此对视频查询和浏览中，特别是i n t e m e t 带宽受限的条件下，用较少的数据来代表视频流，是用户能快速的了解视频的信息时很重要的。视频摘要技术就是要自动的生成紧凑的、能充分表现视频语义内容的视频缩略形式。视频摘要可以有多种媒体形式和表现形式，它可以是一段文字、一幅图像或图像组合，也可以本身就是一段视频或者由多种媒体组合成的多媒体文档形式。根据视频摘要的表现形式不同，视频摘要可以分成静态的视频摘要和动态的视频摘要【4 】。静态的视频摘要，又称为视频摘要( v i d e os u m m a r y ) ，是以静态的方式来表现视频的内容，如标题、关键帧、故事板、幻灯片、场景转移图【5 】( s t g ) 等，它是从视频流中抽取或者生成的有代表性的图片。相对于动态的视频摘要，视频摘要通常只考虑视觉信息，不考虑音频和文本信息，以及时间和同步的问题，所以，视频摘要的构建和生成都比较简单。动态的视频摘要，又称为缩略视频( v i d e os k i m m i n g ) ，是图像序列和音频的集合，它本身也是一段视 2 塑二雯丝丝频，它通过播放而不是浏览来的方式来展现视频内容，只是比原视频要短很多。缩略视频是对原始音视频的剪辑，保留了原始视频的动态内容，因此它需要考虑的问题更多，包括时间信息，音视频同步，连贯问题。缩略视频又可以分成视频概述( s u m m a r ys e q u e n c e ) 和精彩镜头( h i g h l i g h t ) 。现在网络上电视上播放的电影预告片属于缩略视频( v i d e os k i m m i n g ) 中的精彩镜头( h i g h l i g h t ) 。缩略视频由于包括丰富的时间和音频信息，所以更符合用户的感知。静态的视频摘要包括以下几种形式： ( 1 ) 标题( t i t l e ) 。它是抽象程度比较高的一种视频摘要形式，人们通过视频标题迅速的理解视频的主要内容，同时也能利用标题进行有效的检索。然而由于视频内容以及人的理解多样性。往往难以用有限的文字代表所有视频的内容。一种直观的思路是从音频和视频中提取出标题。如新闻等视频中往往含有很丰富的文字，如果能够检测视频帧中的文本区域，并将字符分割出来，然后运用比较成熟的o c r 的软件得到文本标题。还可以通过语音识别软件得到文本，通过文本分析确定标题。 ( 2 ) 关键帧【5 】( k e yf r a m e ) 。又称为t h u m b n a i l ，m o s a i c 。共同特点是从视频中抽取或者生成单帧静态图像，部分地表达视频的语义。基于关键帧的视频摘要比基于标题的视频摘要更直观，更符合用户的需要。缺点是只能反映某一时刻的视频信息。不能展示视频时时间空间变化情况。 ( 3 ) 故事板( s t o r y b o a r d ) 。考虑的关键帧的缺点，故事板将多帧图像根据时间的先后顺序，排列起来，形成一个故事。简单的理解就是将视频中按照时间先后选取某些帧，组成一幅连环画，它可以提供视频的总体描述。在浏览中方便地定位到感兴趣的片段。如m a n g a 7 1 ， f i l m s t r i p s 8 1 ，c o m i cb o o k 9 1 。故事板类型的视频摘要主要需要解决一下几个问题：如何选取视频帧；应该选取多少视频帧；如何将选取的视频帧组合成。 ( 4 ) 场景转移图( s t g ) 。首先将视频分割成场景，然后生成一幅有向图：节点表示相似镜头的聚类，边表示两个节点的关系，表示镜头的先后顺序【1 2 】。 ( 5 ) 幻灯片( s l i d es h o w ) 。前面几种静态视频摘要的方法没有使用音频信息，音频信息对理解视频是很重要的。幻灯片是伴随音频的视频帧，它是关键帧集合的子集。经研究发现，这种方法的效果不及其他的视频摘要方法，但是在低带宽的网络环境下可能会比较适合。 3 东南大学硕十学位论文医隧麟瞄囵圜舅豳懑蜀图1 - ic o m i cb o o ks t y l ev i d e os u m m a r y 动态的视频摘要，一般要包括以下几种特征：1 包含重要的人物2 重要的事件3 故事的结局。一般来讲视频缩略视频要包括故事的结局，当然，电影预告片中一般又不能出现故事的结局。虽然最终的视频摘要的方式有所不同，摘要的算法也层出不穷，但是生成视频摘要一般包括以下几种基本步骤： ( 1 ) 视频分割视频摘要，一般遵循先分析后综合的处理方法，所谓先分析一般是先将视频分段处理。为了更好的管理组织视频，视频分割几乎是不可避免的阶段，并且为后续的处理带来的很大的便利。正如文章可以分成段落语句一样，视频也是可以分成场景( s c e n e ) 、镜头( s h o t ) 、帧( f r a m e ) 。视频分割技术中包括镜头检测，将一个个独立的镜头聚合成有意义的场景的场景聚类技术等。 ( 2 ) 关键帧提取1 0 】【1 1 】【1 2 】将视频分割以后，一般下一个步骤是重点帧提取。关键的问题就是何谓重点帧。这就存在一个重要程度判定的问题。当然，清晰的视频帧要比模糊的视频帧更适合用于最终的视频摘要。另一个常规而且比较好理解的准则是一般人脸出现的帧重要程度要大于没有人脸出现的帧，同样，人脸出现的越多的帧，我们认为该帧就越重要。这就存在一个人脸检测的问题。如果视频帧中有字符，还存在视频帧字符检测，识别等问题，其次闪光灯出现的帧，一般指示重要事件的发生，如新闻中国家元首的出现，一般是比较重要的帧。在某些视频摘要系统中还存在如爆炸镜头检测等重点帧提取。 ( 3 ) 合成摘要 4 第一章绪论出来的重点帧，根据重要程度的不同，并考虑人的观感和便于浏览的原则，形成某摘要。呈现在用户的面前。所谓各种形式可以是图片故事板，可以是一段精简的视 |、i d e a l s h o td e t e c t i o n a n dc l u s t e r i n g 1 1r k e yf r a m ee x t r a c t i o n 上 g e n e r a t ev i d e oa b s t r a c t i o n 图1 2 视频摘要生成视频摘要可以应用到很多的领域： ( 1 ) 电影市场宣传电影海报和电影预告片以及网上到处可见的片花作为电影宣传片来推广电影，从本质上讲都是视频摘要。以往这种广告片是人工编辑的，制造这种广告片即费时，有费力，同时还十分的繁琐无聊。视频摘要技术可以利用计算机，自动的生成满足需要的电影广告片。 ( 2 ) 多媒体文献检索随着视频编码技术的不断进步，出现了m p e g 2 ，m p e g 4 ，m p e g 7 ，m p e g 2 1 以及h 2 6 3 、 h 2 6 4 等视频编解码标准的出现，视频不在是庞然大物，同时计算机的硬盘容量和内存越来越大，处理速度越来越快，完全可以处理大量的视频数据。这种情况下，视频的检索和归档变得十分重要。而对于归档的影视资料而言，有效快速的检索十分重要。视频摘要可以用于对数字化存储的视频的索引和检索。 ( 3 ) 体育视频分析在体育界，选秀、分析对手、交易等都面临着分析数据，分析队员的表现的任务。以往都是通过派出球探，现场观看来分析球员的表现和价值。但是这种方法有某些缺点：首先是耗资巨大，需要专门的技术人员，四处出差，现场观看，就连财大气粗的n b a 有很多球队取垄堕奎堂堡主堂垡丝茎：消的球探，其实是主观性太强。现在越来越多的体育项目采用视频分析的方法来分析球员特点，为选秀、比赛、交易做好充分的准备。同时我们看到的精彩进球，十佳球等，也可以应用视频摘要技术解决。 ( 4 ) 移动增值业务随着3 g 网络的铺设和3 g 手机的推广，多媒体应用成为手机的重要功能，常见的手机报就是一种增值业务。可是由于彩信容量的限制( 1 0 0 k b ) ，以彩信形式视频较少见，然而相信以后彩信的容量会增大，视频形式的彩信会变得很普遍。可以做成视频广告、电影宣传片。据笔者所知，已经有公司能够将广告压缩成在手机上能够正常播放的视频彩信。 ( 5 ) 家庭娱乐可用于电视报，视频摘要可以取代文字形式的电视节目介绍，提供更直观的预告。同时播放电视剧视频摘要可以提供上一集的回顾和下一集的预告，让你快速的回忆起上一集的主要内容和提前预览下一集的精彩画面。正是由于视频摘要技术的巨大作用和市场价值，越来越多的研究机构投入了大量的精力，从事视频摘要技术的研究，并取得了一定的进展。 1 3 国内外研究现状目前国内很多研究机构在从事视频摘要方向的研究，微软亚洲研究院多媒体计算组主要从事视觉信息分析的研究。以张宏江、马宇飞为代表的一批研究人员做了大量的工作，取得的令人瞩目的成就。清华大学、武汉大学、浙江大学主要在视频镜头分割和视频检索方面做了大量的研究。国外对视频摘要开展研究比较早，1 9 9 4 年，c a r n e g i e m e l l o n 大学的i n f o r m e d i a 系统开创了视频摘要系统的先河。大量的研究机构在视频摘要领域取得了很大的进展。 ( 1 ) i n f o r m e d i a 系统系统是从视频中抽取重要的视频信息生成能表达原始视频内容的短剪辑。设计者首先从视频中抽取文字后提取与文本相关的音频片段生成音频缩略。在此基础上有开发了 i n f o r m e d i a - i i ，它的目标是生成自适应的可视化的视频摘要。如允许用户对视频片段进行标注，让用户来调整视频摘要的压缩比【1 2 】。 ( 2 ) m o c a 1 3 】( m o v i ec o n t e n ta n a l y s i s ) 1 9 9 5 年开始，德国曼海姆大学开发了m o c a 系统，其主要目的是从长视频中抽取出一段能保留原视频内容的动态视频序列。系统通过抽取电影中最有代表意义的场景来自动生成预告片。通过探测特殊事件：主要演员的特写镜头、爆炸、枪响等来确定重要的镜头，以摘要的形式提供给用户。m o c a 注意到，只剪辑电影的前8 0 的内容，以做到不透露故事结局的 6 然后选择合适的场景，最后剪系统【8 】。该系统首先也将视频度的概念。同时根据镜头的重先将连续的视频分割成“子镜头，对每个子镜头计算其运动强度，并量化，不同的量化区间采用不同的采样率，最后根据指定的采样率在每个子镜头中选取关键帧。 ( 5 ) v i d e o q t l 5 1 哥伦比亚大学开发了v i d e o q 系统。该系统设计目的是研究基于对象的视频内容检索的所有特征。主要成果有：视频内对象的分割和跟踪；多对象的视频检索；视频镜头的自动分割。由此可以看出，国际上对视频摘要技术做了比较深入的研究，并取得了很多的研究成果。但这些成果大多集中在底层结构和底层语义的方面，而对高层结构和高层语义特征研究还不成熟，这方面的研究项目也不多。 1 4 论文的研究内容本文研究了视频摘要生成中的视频分割和关键帧提取，包括视频的结构化表示模型，镜头检测，镜头聚类，还有关键帧提取中常用到的人脸检测技术。 ( 1 ) 在分析视频特点和视频管理特点的基础上建立了通用的视频数据模型。包括视频、场景、镜头、帧。为后面的分析建立了框架和基础。主要内容在第二章。 ( 2 ) 分析了镜头检测。镜头检测中包括突变镜头检测和渐变镜头检测。所谓渐变镜头，是很多的编辑效果，如淡入( f a d ei n )、淡出( f a d eo u t ) 、隐现( d i s s o l v e ) 。本文分析了各种镜头检测的算法，同时还分析新闻视频中常见的闪光灯f l a s h l i g h t 。镜头检测，关键在于两帧之间的不相似度，如果两帧之间不相似程度比较大，我们认为两帧属于不同的镜头，否则，认为属于同一个镜头。常用的方法有基于像素方法( p i x e l b a s e d ) ，基于统计方法 ( s t a t i s t i c - b a s e d ) 、基于边缘变化的( e d g ec h a n g er a t i om e t h o d ) 和基于直方图 ( h i s t o g r a m b a s e d ) 。在分析视觉特征提取的各种方法后，重点介绍了颜色布局描述子，并将该特征用于突变镜头检测。在渐变镜头检测方面，放宽了渐变模型对线性的要求，提出了基于一致性测度的三帧比较法，主要内容在第三章。 ( 3 ) 在关键帧提取中，比较了各种算法，将颜色布局描述子作为特征用于无监督聚类， 7 ( 4 ) 在第五章中，总结做的工作，并对进一步的研究做了展望。第二章视频结构模型第二章视频结构模型视频是一种交流信息和存储的载体。平常我们提到视频我们关心的是它的内容和它的类型。内容很简单，是视频表现的内容。而类型是指视频属于哪个分类，如新闻、体育比赛、电影，卡通，科幻还是爱情之类的分类。这一章，我们定义一些新的概念【1 6 1 如镜头( s h o t ) 、场景( s c e n e ) 、关键帧( k e yf r a m e ) ，同时我们展现几种常用的镜头转换的方式：切变，渐变( f a d ei n 、f a d eo u t 、d i s s o l v e ) 和镜头的移动方式。 2 1 基本定义 p c n 2 , p = o ，形一1 x o ，日一1 ) ，表示视频帧一行包括像素个数，即视频帧的宽度，日表示视频帧一列包含像素的个数即视频帧的高度。定义2 1 帧：帧是在t 时刻关于属于p 的w x h 个空间位置( 工，y ) 的函数z 。 z ( x ，y ) 表示在t 时刻，位置为( x ，力处的像素的值。f a x ，y ) 可以为一个标量，也可以为矢量。为灰度图像，则是一个标量表示该时刻该位置的灰度值。如果在r g b 颜色空间，该像素为一个矢量值( r ，g ，b ) 。y c b c r 颜色空间依次类推。定义2 2 视频：视频是指以帧序列，可以描述为： v = ( z ) t e l 0 , 妣锄- 1 1 其中d u r a t i o n 指的是视频中帧的个数，它取决与视频的帧率和视频的时长。为了方便视频的存储和传输，一般都采取了压缩，压缩算法有h 2 6 3 ，i - 1 2 6 4 ，m p e g 2 ， m p e g 一4 ，m p e g - 7 等，但是在本文中我们考虑的帧都是解压好的，r g b 颜色空间里的视频帧。即每个像素是有r 、g 、b 三分量组成的矢量限，g ，b ) 。视频的基本单元是镜头，所谓镜头是一个摄像机镜头连续拍摄得到的再时间上连续的一组画面，允许对象的移动和摄像机镜头的移动。一些镜头组成场景。镜头是物理意义上的视频单元，而场景是基于语义的视频单元。定义2 3 ：镜头：镜头是视频的基本单元，它记录了单个摄像机镜头拍摄的连续画面，代表了一组时空一致的视频帧序列。它一般是持续时间在几秒到几十秒的短视频。定义2 4 ：场景：一组时间上连续具有相似特征的镜头组成了场景。定义2 5 ：关键帧：代表一组视频逻辑单元( 如镜头、场景等) 的帧。选出来的帧要尽可能的具有代表性。镜头是有一组内容上没有重大变化的帧序列组成，所以从定义上看，连续的两帧，如果 o 东南大学硕士学位论文内容十分相似( 或者完全一样) ，我们就认为它们属于同一个镜头。 v i d e os e q u e n c e s c e n e s s h o t s f r a m e s a n ds e l e c t e d k e yf r a m e s 图2 l 视频的结构 2 2 镜头过渡方式从一个镜头向另一个镜头的转化方式有两种一种是切变和渐变。切变又称为直接切割 ( s t r a i g h tc u t ) ，是指两个镜头间的突然变化，常在连续两帧图像间完成。渐变，又称为o p t i c a l c u t ，所谓渐变是指从一个镜头缓慢地变化到另一个镜头，常连续十几帧到几十帧。渐变加入了一些时间和空间上的编辑效果。渐变可以通过光学处理或者影视编辑工具( 如a d o b e 公司的p r e m i e r 和万博软件公司的电影魔方。) 渐变的种类有很多种，a d o b ep r e m i e r e ，一个视频编辑的工具，能够提供7 5 种过渡渐变效果，但是淡入( f a d ei n ) ，淡出( f a d eo u t ) ，隐现( d i s s o l v e ) 是三种最常用的渐变效果。统计数字表明，视频镜头过渡方式中，切变远远要超过渐变的个数，而且，突变，淡入淡出，隐现这四种过渡效果占所有过渡方式的9 9 左右。因此我们主要分析以上四种过渡方式。图2 - 2 突变( 姚明回国谈c b a 新闻视频，帧4 6 1 - 4 6 4 ) 所谓淡入指的是目标视频帧的逐渐出现。淡入的第二帧是单色帧( 一般是纯黑或者纯白，也有可能是其他颜色) ，可以用公式来表示从单色帧到目标帧的过渡过程： t r a d e - i n = ( 1 - a ( 咖c + 口( ) 荆 ( 2 1 ) 口( f ) ：0 1 其中c 是单色帧，p 为最终的目标帧。 1 0 幽2 - 4f a d eo u t ( 选自韩幽动l 囚j 片倒霉熊帧2 3 5 4 4 - 2 3 5 5 3 ) 所谓f a d eo u t 指的是，从一个初始帧逐渐变化成单色帧( 一般是纯黑帧) f a d eo u t 最后会稳定在单色帧上。可以用公式来表示f a d eo u t k 喇= ( 1 - c r ( 蛳m + 口( ) 地 ( 2 2 ) 口( f ) ：0 _ 1 其中c 是单色帧，p 为初始帧。所谓隐现( d i s s o l v e ) 指的是从某一帧开始，经过缓慢的变化，最终变成了另一帧的渐变效果。可以用公式来表达隐现的过程。乃o ) = ( 1 一口o ) ) p o ) + 口o ) q o ) 口( f ) ：0 专1 ( 2 3 ) p o ) 是最初的帧，q ( t ) 是经过隐现以后的目标帧。如图2 5 所示 2 3 帧间差分析根据前面的定义，我们知道，如果两帧属于同一个镜头，那么两帧应该在视觉上是相似的甚至是相同的，然而，我们知道即使属于同一个镜头两帧，在视觉效果上也会不同，甚至不同也相当明显。下面我们分析帧间差的来源。 z h a n g h o n g j i a n g e l 7 1 提出，如果不考虑摄像机的移动、变焦等效应，同一个镜头组的帧间差( f r a m e t o f r a m ed i f f e r e n c e ) 有三个来源：1 模拟视频信号转化成数字信号是的量化误差：东南大学硕士学位论文 2 有摄影设备引起的误差；3 由于没有物体是绝对静止的拍摄目标的运动引起的误差。z h a n g h o n g j i a n g 认为，这三种噪声可以建模为服从正态分布。图2 - 5d i s s o l v e ( 姚明回国谈c b a 新闻帧1 8 8 1 9 3 ) 下面考虑摄像机的操作引起的帧间差。由于表现内容的需要，在拍摄镜头时，经常要采用不同的拍摄方式来表现拍摄内容，例如，采用推、拉、摇、升、降等。常用的摄像机操作有以下几种( 如图2 - 6 所示) ：p a n n i n g 和t i l t i n g 指的是跟踪移动的目标然而摄像机的位置不动；t r a c k i n g 和d o l l y i n g 是指视角的变化或者摄像机跟随目标移动。z o o m i n g 指的是变焦。图2 - 6 摄像机基本操作关于z o o m i n g 效应如图图2 7 所示：幽2 7z o o m ( 米自视频副部级官员贺铿谈房地产) 1 2 墨三垩塑塑堕塑堡型 2 4 小结本章中我们讨论了视频的基本结构：帧、镜头、场景、视频，并讨论了最常用的镜头过渡方式：突变，淡入，淡出，隐现。同时还简单分析了造成同一个镜头组内两帧变化的原因。我们接下来的一章，就要开始讨论镜头分割中比较基础也比较重要的镜头边界检测。东

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）视频摘要中若干技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）视频摘要中若干技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档