(信号与信息处理专业论文)视频摘要及一种空时域结合的方法.pdf_第1页
(信号与信息处理专业论文)视频摘要及一种空时域结合的方法.pdf_第2页
(信号与信息处理专业论文)视频摘要及一种空时域结合的方法.pdf_第3页
(信号与信息处理专业论文)视频摘要及一种空时域结合的方法.pdf_第4页
(信号与信息处理专业论文)视频摘要及一种空时域结合的方法.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(信号与信息处理专业论文)视频摘要及一种空时域结合的方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要在计算机和通信技术高速发展的今天,大容量的多媒体数据及大规模的多媒体数据库对数字视频技术的要求越来越强烈。作为快速浏览大容量视频数据的有效手段,数字视频摘要起着至关重要的作用。好的视频摘要一方面能够很好的介绍它所代表的视频内容,另一方面信息量高度集中的视频摘要能够帮助用户避免浏览整个视频,这在信息高速增长的今天是有着重要意义的。基于对这一问题的理解,本文在交互式视频摘要、基于机器学习的视频代表帧提取、空域时域相结合的视频摘要等方面进行了较全面而深入的研究工作。本文的主要研究工作和创新点如下:首先,本文设计并实现了基于人机交互的静态视频摘要系统。本文首先介绍了静态视频摘要系统的主要技术,对目前用得较多的关键帧抽取算法,关键帧聚类算法进行了分析。由于当前的图像理解技术水平难以对视频帧和整个视频的内容有较深的理解,为此本文提出了一个基于人机交互的静态视频摘要系统。该系统具有两种工作模式:1 ) 具有自动的视频镜头分割,关键帧提取,关键帧聚类和静态视频概要生成,2 ) 该系统还具有较强的用户交互功能,用户可以在系统自动的镜头分割和关键帧抽取后对关键帧聚类和静态视频摘要生成进行修改和约束。同时从系统设计的角度,本文分析了引入人机交互后对系统设计的要求,如系统响应时间等。在新的要求下对系统关键帧聚类模块的算法进行了针对性的优化。这样使得该系统在保持较好自动功能的同时具有优越的用户交互能力。这为用户方便而快捷的生成满意的静态视频摘要提供了强有力的工具。第二,本文分析了现有视频摘要算法中对代表帧( 关键帧) 代表性研究不足的问题,提出了基于机器学习的视频帧代表性度量。在己有的视频摘要系统中,常用的一些基于规则的代表帧提取算法很难满足用户的要求。通过观察发现用户在予镜头( s u b s h o t ) 层次上对关键帧的选择具有较强的一致性。因此,本文对用户在子镜头中的代表帧选择用机器学习的方法进行建模。通过产生型模型( g e n e r a t i v em o d e l ) 将视频帧的特征与其对子镜头视频片段的代表性用高斯混合函数模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 进行表达。客观和主观评测证明了该算法在对视频帧代表性的度量上明显优于已有的基于规则的代表帧提取算法。第三,本文提出了一个全新的空域一时域结合的视频摘要框架,称为空域时域视频蒙太奇( s p a c e t i m ev i d e om o n t a g e ) 。视频本身是一个由两维的空间和一维的时间组成的三维的流。在这个三维空间中,视频信息的分布是不均匀的。但是目前的视频摘要研究都只是针对视频信息在时间域上的不均匀性,却忽略了摘要视频在空间域上的非均匀性。研究人员关注最多的是如何在时间轴上选择视频帧,并将它们排列起来展现给用户。他们理所当然地将视频帧作为一个不可分割的最小视频单元。本文针对这一弊端提出了将空域和时域结合起来,首先分析视频信息在三维空间中的分布,然后用显著层( s a l i e n c yl a y e r ) 代表三维空间中相互独立的高显著体,通过顺序的f i r s t f i t 排列优化和g r a p h c u t 融合算法将这些高显著体重新排列成更加紧致的结构而去除初始分布在它们之间的低显著度区域。这样的处理之后就得到了一个空域一时域上都得到压缩的视频摘要。通过在不同视频上进行的空域压缩、时域压缩、空域时域压缩和多输入视频流压缩实验,证明了该系统能够很好的去除视频空间冗余。新的视频摘要结果能够达到大的压缩比从而在有限的空间和时间中提供给用户尽可能多的信息。关键词:视频摘要,交互式,代表性学习,高斯混合模型,g m m ,代表帧,空域一时域,f i r s t - f i t ,g r a p h c u ti ia b s t r a c ta b s t r a c tw i t ht h eh i 出d e v e l o p i n gc o m p u t e ra n dc o m m u n i c a t i o nt e c h n o l o g yn o w a d a y s ,d i g i t a lv i d e ot e c h n o l o g yi sb e c o m i n gm o r ea n dm o r ed e s i r a b l ef o rh i g hv o l u m ed a t aa n dl a r g es i z em u l t i m e d i ad a t a b a s e d i g i t a lv i d e os u m m a r i z a t i o np l a y sa ni m p o r t a n tr o l ea sa l le f f e c t i v em e t h o df o rf a s tv i d e ob r o w s i n g o nt h eo n eh a n d ,g o o dv i d e os u m m a r i z a t i o nm e t h o dc a ns t a n dw e l lf o rt h eo r i g i n a lv i d e o o nt h eo t h e rh a n d ,h i g h l yi n f o r m a t i v ev i d e os u m m a r i z a t i o nm e t h o dc a nh e l pu s e r sf r o mb r o w s i n gt h ew h o l ev i d e ob e f o r et h e yh a v ea l li d e ao f t h ev i d e oc o n t e n t ,w h i c hi sq u i t ei m p o r t a n ti nt h ei n f o r m a t i o ne x p l o s i v ee r a b a s e do nt h e s et h o u g h t s ,t h i sp a p e rd o e sac o m p r e h e n s i v ea n di n d e p t hr e s e a r c hw o r ki ni n t e r a c t i v ev i d e os u m m a r i z a t i o n ,v i d e or e p r e s e n t a t i v ef r a m ee x t r a c t i o nb a s e do nm a c h i n el e a r n i n ga n ds p a c e t i m ev i d e os u m m a r i z a t i o n t h em a j o rr e s e a r c hw o r k sa n dc o n t r i b u t i o n so ft h i sp a p e ra r ea sf o l l o w s :f i r s t ,t h i sp a p e rd e s i g n sa n da n a l y z e si n t e r a c t i v es t a t i cv i d e os u m m a r i z a t i o ns y s t e m i tb e g i n sw i t had e s c r i p t i o na n da n a l y s i so nt h em a j o rt e c h n o l o g i e si ns t a t i cv i d e os u m m a r i z a t i o ns y s t e m s ,s u c ha st h ek e yf r a m ee x t r a c t i o na l g o r i t h ma n dk e yf r a m ec l u s t e r i n ga l g o r i t h mt h a ta r ef r e q u e n t l yu s e dt o d a y a si ti sh a r dt oh a v ead e e pt m d e r s t a n d i n gi nt h ev i d e of r a m e sa n dt h ec o n t e n to ft h ev i d e ou s i n gc u r r e n ta v a i l a b l ei m a g eu n d e r s t a n d i n gt e c h n o l o g i e s ,w ep r o p o s eas t a t i cv i d e os u m m a r i z a t i o ns y s t e mb a s e do nh u m a nc o m p u t e ri n t e r a c t i o n t h es y s t e mw o r k si nt w om o d e s :1 ) i tc a nf o l l ya u t o m a t i c a l l yd ov i d e os h o td e t e c t i o n ,k e yf r a m ee x t r a c t i o n ,k e yf r a m ec l u s t e r i n ga n ds t a t i cv i d e os u m m a r yg e n e r a t i o na l g o r i t h m s ;2 ) i ta l s op r o v i d e su s e r sw i t hf u l li n t e r a c t i o nh m c t i o n s ,t h r o u g hw h i c h ,u s e r sc a nm a k em o d i f i c a t i o na n dc o n s t r a i n t so nt h ek e yf r a m ec l u s t e r i n ga n ds t a t i cv i d e os u m m a r yg e n e r a t i o na f t e rt h ea u t o m a t i cs h o td e t e c t i o na n dk e yf r a m ee x t r a c t i o ns t e p s a tt h es a m et i m e ,w ea n a l y z et h en e wr e q u i r e m e n tf o rt h es y s t e md e s i g na f t e rt h ei n t r o d u c t i o no fh u m a nc o m p u t e ri n t e r a c t i o n ,s u c ha st h er e q u i r e m e n to ns y s t e mr e s p o n s et i m e ,e t c w em a k es p e c i f i co p t i m i z a t i o no nt h ea l g o r i t h mo ft h ek e yf r a m ec l u s t e r i n gc o m p o n e n t t h es y s t e mp r o v i d e st h eu s e r sw i t hap o w e r f u lt o o lf o rf a s ts t a t i cv i d e os u m m a r i e sg e n e r a t i o nb yc o m b i n i n gg o o da u t o m a t i cf u n c t i o n sa n da d v a n c e du s e ri n t e r a c t i o n s e c o n d ,w ep r o p o s ean e wm e t h o df o rv i d e of r a m er e p r e s e n t a t i v e n e s sm e a s u r e m e n tb a s e do nm a c h i n el e a r n i n g ,a f t e ra n a l y z i n gt h ep r o b l e mo fi n s u f f i c i e n tw o r ki nt h er e p r e s e n t a t i v e n e s so fv i d e os u m m a r i z a t i o nf r a m e s i nt h ec u r r e n t l ya v a i l a b l ev i d e os u m m a r i z a t i o ns y s t e m s ,t h er u l e b a s e dr e p r e s e n t a t i v ef l a m ee x t r a c t i o n| 1 1a b s t r a c ta l g o r i t h m sc a nn o tf u l f i l lt h er e q u i r e m e n t so fu s e r s w ep r o p o s eu s i n gm a c h i n el e a r n i n gt os t u d yt h ev i d e or e p r e s e n t a t i v e n e s sm e a s u r e m e n t u p o no u ro b s e r v a t i o n ,w ef o u n dt h a tt h e r ei sau n i f o r mt e n d e n c yi nu s e r s s e l e c t i o n so fr e p r e s e n t a t i v ef r a m e so nt h es u b - s h o tl e v e l t h u s ,w em o d e lu s e r s s e l e c t i o no fr e p r e s e n t a t i v ef r a m e si ns u b s h o t sa n db u i l tt h eg e n e r a t i v em o d e lb e t w e e nv i d e of r a m ef e a t u r e sa n di t sp o w e ri nr e p r e s e n t i n gs u b s h o tv i d e os e g m e n t ,u s i n gg a u s s i a nm i x t u r em o d e l s ( g m m s ) o u rm e t h o di sp r o v e dt ob ea d v a n t a g e o u sa g a i n s tf o r m e rr u l e b a s e dr e p r e s e n t a t i v ef r a m ee x t r a c t i o na l g o r i t h m sb yb o t ho b j e c t i v ea n ds u b j e c t p c ee v a l u a t i o n s t h i r d ,w ep r o p o s ean e wf r a m e w o r ko fs p a c e t i m ev i d e os u m m a r i z a t i o n ,n a m e dw i t hs p a c e t i m ev i d e om o n t a g e v i d e oi sa3 dv o l u m ew i t ha2 ds p a c ea n d1 dt i m ed i m e n s i o n t h ev i d e oi n f o r m a t i o ni sh e t e r o g e n e o u s l yd i s t r i b u t e di n t h i s3 dv o l u m e h o w e v e r , t h i sh e t e r o g e n e o u s n e s si si g n o r e db ym o s to f t h ef o r m e rr e s e a r c hw o r k si nv i d e os u m m a r i z a t i o nw h i c hh a v e b e e ns p e c i a l l yd e s i g n e df o rt h eh e t e r o g e n e o u si nt i m ea x i s t h er e s e a r c h e r sp a i dm o s to ft h e i ra r e n t i o no nh o wt os e l e c tv i d e of r a m e si nt i m ea x i sa n dt or e p r e s e n tt h e mt ot h eu s e r si nd i f f e r e n ta r r a n g e m e n t s t h e yt o o kv i d e of r a m e sa san o n d e c o m p o s a b l eu n i tf o rg r a n t e d u n l i k et h e s ew o r k s ,w ec o m b i n es p a c ea n dt i m ed i m e n s i o n st o g e t h e ri nv i d e os u m m a r i z a t i o n w ef i r s ta n a l y z et h ev i d e oi n f o r m a t i o nd i s t r i b u t i o ni n3 ds p a c e ,t h e ng e n e r a t es a l i e n c yl a y e r st or e p r e s e n tt h ei n d e p e n d e n th i g hs a l i e n c yp o a i o n s ,a tl a s t ,t h e s eh i g hs a l i e n c yb l o b sa r er e a r r a n g e di n t od e n s e rs t r u c t u r e sa n dt h el o ws m i e n c yr e g i o n sb e t w e e nt h e ma y ee x c l u d e du s i n gs e q u e n t i a lf i r s t f i tc o m b i n a t o r i a lo p t i m i z a t i o na n dg r a p h c u tf u s i o na l g o r i t h m s a t i e ra l lt h e s ep r o c e s s e s ,w eg e n e r a t eav i d e os u m m a r i z a t i o nt h a th a sb e e nc o m p r e s s e di nb o t hs p a c ea n dt i m ed i m e n s i o n s as e r i e so fe x p e r i m e n t sa r ec a r r i e do u tw i t hd i f f e r e n ts c e n a r i os e t t i n g ss u c ha ss p a t i a ls c a l e d o w n ,t e m p o r a ls c a l e d o w n ,s p a c e - t i m es c a l e d o w n ,a n df u s i n gm u l t i p l ed i f f e r e n ti n p u tv i d e o s o u rs y s t e mi sp r o v e dt ob em o r ee f f e c t i v ei nr e m o v i n gs p a t i o t e m p o r a lr e d u n d a n c ya n dg e n e r a t i n gn e wv i d e os u m m a r i z a t i o nw i t l lh i g h e rc o m p r e s s i n gr a t ea n dp r o v i d i n ga sm u c hi n f o r m a t i o na sp o s s i b l et ou s e r si nr e s t r i c t e ds p a c ea n dt i m es i z e k e yw o r d s :v i d e os u m m a r i z a t i o n ,i n t e r a c t i v e ,r e p r e s e n t a t i v e n e s sl e a r n i n g ,g a u s s i a nm i x t u r em o d e l ,g m m ,r e p r e s e n t a t i v ef r a m e ,s p a c e t i m e ,f i r s t - f i t ,g r a p h c u t 绪论第一章绪论1 1 信息时代的视频摘要技术在计算机和通信技术高速发展的今天,随着宽带网络技术、音视频压缩技术以及计算机硬件技术的发展,使得电脑有足够的能力来传输和存储大容量的多媒体数据,并能建立大规模的多媒体数据库。视频媒体因为其信息容量大而在其中处于重要的地位,数字视频技术也得以迅速发展。在众多的视频信息技术研究领域当中,为了降低数字视频的存档、分类及索引的费用,并改善对己存储视频的存取及利用,就必需开发、研究许多包括视频存档、编目、索引以及有效存取等新技术。其中一个重要的问题即如何快速浏览大容量的视频数据,如何获取和表现视频的内容。如果用户需要从查询结果中一段段地观看视频之后,才能从中找到自己想要的视频,这在视频查询中将是不可想象的。因此,对于视频的查询和浏览来说,特别是在i n t e m e t 等带宽有限的条件下,如能用较少的数据量来代表视频流,以便使用户能够快速了解视频的内容,则显得尤为重要。为了解决这个问题,近年来出现了视频摘要技术,它吸引了越来越多的研究者的关注,它逐渐成为视频信息技术领域研究的一个重要课题。大家知道,一篇文章的摘要,就是对文章的简要总结,而视频摘要的概念则是从文本摘要延续而来的。顾名思义,视频摘要就是对一个较长的视频文件的内容所进行的一个简短的小结,即以自动或半自动的方式对视频的结构和内容进行分析,从原视频中提取出有意义的部分,并将它们以某种方式进行组合,形成简洁的能够充分表现视频语义内容的概要。文献 1 】把视频摘要定义为运动图像的序列,这种定义显然是不全面的,事实上可以根据需要来生成不同抽象层次和形式的视频摘要。应该说,视频摘要是文字、静止图像或者是运动图像的序列( 这些图像序列可以附带音频也可以不带) ,这个序列比原始视频要短很多,但是这个芋- y u 应保留原始视频的基本内容,以便能够实现对原始视频进行快速浏览和检索。理论上视频摘要可以通过手工或自动的方式来完成,但由于视频数据的庞大以及人力资源的短缺,开发一种有效的视频分析与处理工具来减轻人的工作量已成为必然。视频摘要的主要应用有:( 1 ) 视频数据的存档和检索随着多媒体个人电脑和工作站的普及,以及因特网和多媒体数据压缩技术的发展,越来越多的视频信息被数字化存档,由于数据量庞大,检索十分不便,因此需要利用视频摘要技术来改进视频数据的存档。视频摘要是视频数据库的重要索引,因为依靠视频摘要,用户可以快速找到自己感兴趣的视频内容。目前因特网上的视频数据库,在不断完善文本信息的索引的同时,正在积极构建视频摘要的索引。由此可见,视频摘要对于视频的快速浏览和检索是极有意义的。( 2 ) 影视广告行业的应用相信很多人有过这样的经历,在电影院里正片即将开播之前,总要播放另一部电影的精彩剪辑( 也称为片花) ,这样的剪辑一般由原始视频中的精彩画面组成,并且不包含故事的结局,这样做是为了吸引观众,为另一部电影作广告宣传。事实上,这是一类比较特殊的视频摘要,它在电影、电视和广告等传媒行业应用广泛。目前,这种视频摘要的制作不仅昂贵,而且耗时费力,但是如果采用较好的自动视频摘要生成系统,那么就可以根据观众的喜好,快速便捷地制作这种电影剪辑。( 3 ) 家庭娱乐业一个重要的应用就是视频点播业务,用户可以快速浏览视频摘要,并通过视频摘要来轻松选取自己中意的电影。如果你只记得电影中的一段感人的情节,而不知道片名,视频摘要就会告诉你这部电影的基本内容,并且满足你观看的欲望随着视频数据爆炸式地增长以及对视频资源需求的不断提高,视频摘要的应用也将越来越广泛,视频摘要技术也将越来越重要。图1 1视频摘要技术在计算机操作系统m i c r o s o f tw i n d o w sx p 中的应用绪论图1 2视频摘要技术在视频点播网站g o o g l ev i d e o ( v i d e o g o o g l e e o m ) e p 的应用1 2 视频摘要的主要类型如前所述,视频摘要就是通过对视频进行分析处理来自动生成紧凑的能够充分表现视频语义内容的静止或者运动的图像序列。根据表现形式的不同,视频摘要可分为静态的视频摘要和动态的视频摘要。静态的视频摘要,又称为视频概要( v i d e os u m m a r y ) ,是以静态的方式来表现视频的内容,如标题、缩略帧、故事板、幻灯片、s t g 图等,它是从视频流中抽取或生成的有代表性的图像。动态的视频摘要,又称为缩略视频( v i d e os k i m m i n g ) ,是图像序列及其伴音的集合,它本身也是一段视频,但比原视频要短得多。相比缩略视频,视频概要通常只考虑视觉信息,不考虑音频和文本信息,以及时间与同步问题,其优点在于它的构建与表现都相对简单,是目前应用较广泛的一种摘要方法。缩略视频由于含有丰富的时间以及音频信息,因而更加符合用户的感知,但是缩略视频的构建较复杂一般用户软件通常无法实现,同时由于其中信息的多元化使其更不容易达到高的用户满意度。因此目前该视频摘要方法通常只见于专业影视行业的片花制作中。1 2 1 静态的视频摘要( 1 ) 标题( t i t l e ) 。它是抽象程度较高的一种视频摘要形式,人们通过视频标题能够迅速理解视频的主要内容,同时也能够利用标题进行有效的检索。然而由于视频内容的丰富性以及人的理解的多样性,往往难以用有限的文字描述清楚视频的全部内容。对于周一内容,不同的人会根据自己的理解得出不同的标题,因此如何获得客观而准确的标题是需要解决的一个问题。一种直观的解决思路就是直接从视音频的内容中提取出标题。对于一些格式固定的视频,如新闻视频,通常都会在每则新闻开始的左下角给出新闻的标题,如果能够将该标题所在的帧以及标题的区域探测出来,则可以通过进一步的o c r软件识别得到文本类型的标题。另外,也可以通过语音识别软件得到文本,通过文本分析确定标题。c m u 大学的i n f o r m e d i a s e 程最初采用手工标注的方法生成视频故事单元的标题,后来通过对语音识别得到的文本进行t f i d f 分析,得出文本中的关键词,利用关键词来生成标题。最近,k e n n e d y 2 使用了e m 算法从语音文档中自动生成标题,从而脱离了原始的手工标注方法。这种方法对自动生成新闻视频的主题也很有帮助。德国曼海姆大学的m o c a 系统通过对视频进行文本探测寻找电影中的标题以及演员等字幕信息,从而生成摘要的标题。这些方法生成的标题基本上都源于原视音频内容,因此比传统的手工标注的方法更加客观,更能说明视频的内容。但是由于目前机器自动识别技术的不足该方法自动化处理能力不强。( 2 ) 缩略帧( t h u m b n a i lf r a m e ) 。很早就有人通过抽取视频中的静态图像来摘要视频的内容。这种基于缩略帧的摘要方法又称为t h u m b n a i l ,p o s t e r f r a m e ,s a l i e n ts t i l l s ,m o s a i c 等。它们都有个共同的特点,即都是从原视频中抽取或生成的单帧的静态图像,能够部分地表达视频的语义信息。如图1 1 和图1 2 所示。基于缩略帧的摘要比标题形式的摘要更能从视觉的角度表现视频的内容,带给用户的感觉也更加直观。但静态的缩略帧方式只能反映某一时刻的视频内容,不能展示视频的时间以及空间变化情况。尽管如此,基于缩略帧的摘要依然是其他静态视频摘要方法的基础,对动态的缩略视频的生成也有很大的参考价值,因此,多年来一直受到视频媒体内容分析领域的关注。( 3 ) 故事板( s t o r y b o a r d ) 。使用单帧的图像以及标题往往不能表达视频的时间信息,如果把多帧图像按照时间顺序排列起来,则形成了一个故事。所谓故事板,就是一组从视频片段中抽取出来的按照时间顺序组合而成的图像,它可以向用户提供视频的总体描述,在浏览过程中也可以方便地定位到视频中感兴趣的片段。类似故事板的摘要方式还包括f i l m s t r i p s 5 ,m a n g a 3 ,c o m i cb o o k 4 】等。故事板类型的视频摘要主要需要解决以下三个问题,即选取怎样的图像来代表视频内容;选取多少图像比较合理,既可以充分表达内容,又不至于让用户感到厌倦;如何组合这些候选图像。c m u 的i n f o r m e d i a 工程其早期工作就是形成f i l m s t r i p s 5 形式的摘要。他绪论们采用子采样、镜头探测、对象跟踪以及其他图像处理技术的综合来确定使用哪些图像代表视频内容。图像可取镜头的中间帧或运动结束帧,也可抽取人脸帧或字幕帧来提高关键帧的准确性。这样得到的图像集合数目依然非常庞大,因此需要采用一个合理的机制来消除冗余,减少图像帧的数目。i n f o r m e d i a 采用如下的方法:首先根据用户提交的查询关键词,在语音文档中进行搜索,满足匹配条件的语音文档所对应的视频帧将成为候选帧。用户通过标题以及海报相结合的摘要方式,基本上可决定是否进一步浏览该段视频。德国曼海姆大学的m o c a 系统使用了两条启发式规则来减少关键帧的数目:选择运动最多的镜头以及与电影主色调一致的镜头。他们认为短时间内的运动镜头将包含更多的信息,而选择与电影主色调一致的镜头是为了表达电影的某种情绪。根据视频的类型来选取。通过对大量视音频数据的计算判断出视频的类型,如新闻、体育、m t v 、卡通、故事片等。于是,与该类电影特征最近的剪辑将被选取。这种方法的优点在于可以生成具有指定类型风格的摘要。f xp a l o a l t o 实验室设计的v i d e o m a n g a 系统 3 提出了一个图像帧大小不同的漫画书式的视频摘要方法。他们认为视频片段的重要度可以根据片段的长度以及新颖度来计算。具有重要度量的帧将成为代表帧,其重要度将决定它在屏幕上的大小,最后将所有的代表帧组织成一个漫画书形式的摘要,其试验主要针对会议视频来进行。相比海报以及标题形式的视频摘要,故事板的方式前进了一大步,它不仅能够提供视频视觉上的信息,而且能够从一定程度上反映视频的时间信息。在实际的系统中,多半采用文本与故事板相结合的方式,这种综合的方式将更能表现视频丰富的内容。( 4 ) 场景转移图( s t g ) 。它最早由b l y e o 等人【6 提出,通过将视频分割成场景,用一种简洁可视的方式来表现视频数据。它是一个有向图,节点代表含有相似镜头的聚类,两个节点之间的关系用边来描述,表示镜头的先后顺序。节点与边共同构成了场景图,反映视频内容的场景转移。场景转移图提供了视频的一种简洁表示,可以对视频进行层次化的非线性的浏览。s t g 方法与故事板方法的共同点在于可以得到视频的时间动态。另外,通过分析s t g 的转移标志也可以探测一些视觉句法,如对话。该类方法的缺陷与故事板一样,仅仅只是提供了对整个视频内容的静态快照。虽然转移图的边能够表明聚类间的时间关系,但它们通常难以解释,假如用户对图所表达的语义不太熟悉的话,往往无法有效地理解整个视频的内容。f 5 ) 幻灯片( s l i d es h o w ) 。前面介绍的几种视频摘要方法都没有使用音频特征,而事实上,音频对于用户理解视频的内容有着非常重要的作用。幻灯片是伴随音频的时间序列帧,它们是关键帧集合的子集。幻灯片提供了一种相对动态的摘要机制,但与缩略视频不同,它不能充分地展示原视频的内容。经研究发现,这种方法的效果不及其他的视频摘要方法,但是在低带宽的网络环境下可能会比较适合。1 2 2 动态的视频摘要缩略视频( v i d e os m m m i n g )虽然故事板的摘要方式引入了时间的概念,但就故事板表现形式本身而言它依然是静态的。缩略视频则不同,它通过播放而不是浏览的方式来展现视频内容。缩略视频是对原始视音频的剪辑,它提供了种保留原视频动态内容的机制,相比静态的视频摘要,它需要考虑的问题更多,包括时间信息、视音频同步以及连贯性问题等。它的应用范围相当广泛,可用于电影预告片的制作、交互龟视的视频点播以及新闻节目的制作等。缩略视频一般具备以下一些特征:包含重要的人物。如新闻视频中国家领导人的出现。重要的事件。重要的事件是故事中的重要内容,是推动故事情节的重要手段。特别是有特色的激烈运动场景和感人的对话场景,往往会成为某部影片的标志性内容。而且,这类事件也是故事视频中最吸引观众的部分。故事的结局。一般情况下,视频摘要应当包含故事的结局内容,但是在制作电影预告片时,制作商为了吸引观众的注意力,往往会故意隐藏故事的结局。片头。片头部分通常包含影片的重要信息,如片名和演员的信息。而且,片头一般会交代故事的起因和背景,主要演员一般也会在片头中首先出现。对于新闻视频,含有字幕的帧也应当包含进摘要中。1 3 三个典型的视频摘要系统1 3 1m o c a 系统m o c a 2 】系统是德国曼海姆大学较早开发的一个视频摘要系统。该系统对视频摘要的定义是:一段从长视频中抽取出来的能够保留原视频主要内容的动态图像序列。系统抽取了电影片段中最有代表意义的场景来自动生成预告片,它通过探测特殊的事件,如主要演员的特写镜头、爆炸、枪响等来确定重要的场景,最终以h t m l 网页的摘要形式展现给用户。整个摘要过程分三步:视频的分割,将输入视频分为若于镜头和场景,同时探测重要事件( 如文本、特写镜头、爆炸、枪响等) 的帧序列;选择合适的剪辑作为摘要的内容;将剪辑组合到最终的表现形式中,包括确定剪辑的顺序、剪辑之间的视频编辑手段等。在视频分割阶段,该系统采用了边缘变化率参数的方法探测镜头边界,并在此基础上将颜色内容相似的镜头视为同一场景。同时,对文本、人物特写、爆炸、枪响等一系列特殊的事件进行了探测。采用神经网络的方法探测人脸,并在此基础上通过查找时间相近且演员交叉出现的人脸序列确定对话事件;通过图像处理的方法提取字幕区域;通过音频特征的提取与匹配来确定爆炸、枪响等特殊的事件。在生成视频摘要时,m o c a 系统将满足下列任一条件的视频剪辑作为摘要的候选素材:重要的对象和人物;重要的情节,如爆炸、枪响、汽车的追逐或暴力等;对话,因为一段短的对话可能包含很多的信息;扉页上的文字与主旋律;故事的前8 0 ,即将电影后面2 0 的剪辑删除,去除故事的结果,以保持观众的悬念。在选择剪辑时,通常选择运动最多的镜头以及与电影的主色调一致的镜头。因为短时间内的运动镜头将包含更多的信息,而选择与电影主色调一致的镜头是为了表达电影的某种情绪。有时也根据视频的类型来进行选取,生成具有指定类型风格的摘要。最后一个阶段即视频剪辑的组合,将各种类型的剪辑用硬切、溶解、扫换等视频编辑手段组合到一起。为便于观众的理解,通常事件类剪辑与其他剪辑之间的组合使用硬切,平缓的剪辑( 如对话) 组合采用溶解或扫换的方式。1 3 2i n f o r r n e d i a 工程c m u 大学的i n f o r m e d i a 1 i 程是最早从事媒体内容分析的系统之一,它在视频摘要方面有非常系统而深入的研究。与m o c a 系统静态的h t m l 页面的表示方式不同,i n f o r m e d i a 更注重缩略视频的生成,即如何从长视频中抽取重要的视音频信息生成一段简洁的表达原视频语义内容的短视频。特别地,它运用了熟知的t f i d f ( t e m af r e q u e n c y - i n v e r s ed o c u m e n tf r e q u e n c y ) 方法从脚本中抽取文字,然后通过抽取与文字相关的音频片段生成音频缩略;接下来,选择满足下列条件的视频帧生成图像的缩略,即包含人脸或字幕的帧、摄像机运动后的静止帧、包含摄像机运动以及人脸或文字的帧、场景的开始帧,这些帧的优先权从高到低呈递减趋势,最终综合分析生成完整的视频缩略。该系统的一个重要特色在于它的音频缩略。首先通过语音识别引擎获取视频的脚本,针对脚本进- j 亍t f i d f 分析,得到视频中的关键词。记:t f i d f = z z1 1其中是单词在场景中出现的频率,是单词在语料库中出现的频率。若某单词在场景中出现频率较高,而在语料库中出现频率低,则该单词将被赋予较大的t f i d f 权重,然后通过设置闽值来抽取关键词。但仅使用几个关键词来生成音频的缩略仍然难以让用户理解视频的内容,通过对音频信号的能量进行分析,探测出语音之间的停顿( 低能量意昧着语音之间的停顿) ,从而得到一串关键词组,将每个关键词组从音轨中抽取出来形成音频的摘要。l _ 3 3v i d e o m a n g a 系统美国f x p a l o a l t o 实验室研制 v i d e o m a n g a 3 1 系统,该系统提出了一种自动生成漫画书( c o m i cb o o k ) 的视频摘要方法。视频片段的重要度根据其长度及新颖度来计算,图像与音频的分析用来自动探测和强调有意义的事件。在此基础上选择相关的代表帧,代表帧的大小由重要度决定,然后包装成一个海报或漫画书形式的摘要。他们的试验主要针对会议视频来进行,用于捕获一些重要的语义事件。对于视频片段的重要度评判,v i d e o m a n g a 系统给出了形式化的描述:首先对视频数据进行自适应的聚类,将相似的关键帧聚集到一起。假设得到k 个聚类,每个聚类包含许多视频片段。计算每个聚类的权重:厂i、c o , = l c f | “川i1 - 2,= l其中c f 表明第i 个聚类,i i 表明每个聚类的持续时间( 如候选片段持续时间的总和) 。然后定义片段的重要度为:r = 工,l o g ( 1 q )1 3其中r 是位于聚类k 的片段,的重要程度,上是片段的持续时间。因此,片段重要的条件即该片段是长片段而且新颖。系统选取重要度值大于最大值1 8 的片段作为候选片段,然后根据片度的重要度设置关键帧的大小,重要度越大,则关键帧越大。v i d e o m a n g a 系统的这种重要度的度量方法可以捕获一些重要的语义事件,而且漫画书式的摘要方法可以让用户一眼就了解视频的整个内容,适合于网络环境以及低带宽的应用。1 3 4 视频摘要系统的对比下面从视频类型、视频摘要的表现形式、重要度规则以及视频摘要系统的特点等几个方面对上述视频摘要系统进行比较,如表1 1 所示。表1 1三个典型的视频摘要系统的对 t 1 1 系统名称针对类型摘要表现形式重要度规则特点m o c a影片h t m l 页面人脸帧、对话帧、适合于长影片摘要,文本、爆炸、枪响可用于网上传输等特殊事件i n f o r m e d i a新闻、科教片缩略视频人脸帧、字幕帧、引入语音识别的脚本运动镜头、场景开进行分析,生成动态始帧的视,音频缩略v i d e o m a n g a会议视频漫画书片段长而且新颖关键帧的大小取决于其重要程度,视觉上符合用户感知绪论从表1 1 的对比中可以看出,三个典型的视频摘要系统各有其特点,摘要所针对的视频类型也各不相同。德国曼海姆大学的m o c a 系统,主要是通过探测爆炸、枪晌、人脸、对话以及文本来寻找影片中的重要事件,用关键帧以h t m l页面的形式生成摘要。该方法可以捕获一些重要的语义事件,如海滩上的爆炸场景。它比较适合于长影片的视频摘要,而且其h t m l 页面的方式使得它可以用于网上的传输。美国c m u 大学的i n f o r m e d i ai 程则着重于缩略视频的研究。通过运用t f i d f 方法对脚本进行分析,得到关键词组,从而生成音频缩略,最后综合分析摄像机运动、人脸、文本、音频等信息来生成缩略。i n f o r m e d i a 的特色在于它生成了动态的缩略视频,相比于静态的h t m l 页面和漫画书,这种视频摘要形式更加符合用户的感知,也比较受欢迎。美国f x p a l o a l t o 实验室的v i d e o m a n g a 系统采用聚类的方法并根据他们定义的重要度来选择关键场景,从而生成漫画书式的缩略,其关键帧的大小取决于其重要程度。v i d e o m a n g a 系统虽然采用的仍是静态的视频摘要形式,但由于引入了漫画书的布局方式,使得它的摘要形式比较活泼,也便于用户迅速把握视频的主要内容。除v i d e o m a n g a系统之外,前两个系统均融合了视频、音频、图像、文本等多种模态特征进行分析,这也是视频摘要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论