(计算机软件与理论专业论文)面向家庭视频的视频摘要技术的研究.pdf_第1页
(计算机软件与理论专业论文)面向家庭视频的视频摘要技术的研究.pdf_第2页
(计算机软件与理论专业论文)面向家庭视频的视频摘要技术的研究.pdf_第3页
(计算机软件与理论专业论文)面向家庭视频的视频摘要技术的研究.pdf_第4页
(计算机软件与理论专业论文)面向家庭视频的视频摘要技术的研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机软件与理论专业论文)面向家庭视频的视频摘要技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 群2 3 3 3 1 、 数字视频是现代计算机和通讯产业新兴的力量。计算机硬件的发展使家用计算机具有处 l 理和存储视频资料的能力。家用摄像设备的发展使家庭用户可以很容易的摄制一段视频并把 它们以数字方式装入电脑,这些都极大的促进了计算机数字视频技术的发展。计算机视频处 理技术的一个重要研究课题就是对视频摘要技术的研究,视频摘要技术解决的问题是如何快 速浏览大量视频数据以及视频数据如何有效的表示和访问。视频摘要是对一长段视频内容的 简短的总结,更加明确一点,视频摘要就是一连串静止或运动的图像,分别称为静态视频摘 - 要和动态视频摘要,它们用精简的方式代表了原视频的内容,而保留了原内容的要点。厂 家庭用户拥有视频资料的数量在不断增加但是家庭视频多数是以原始的、未经编辑的 形式存放,这使i = i 户对视频的浏览极为不便。家庭用户迫切需要一种考虑到家庭视频特点、 针对家庭用户的视频摘要系统来满足他们的需要。本文的研究正是基于这样的背景。 本文探讨了面向家庭视频的视频摘要技术。首先,本文回顾了视频摘要相关技术。其次, 在分析了家庭视频特征的基础上,提出了家庭视频摘要系统的目标。接着给出了静态视频摘 要算法,包括快速子镜头检测算法、关键帧提取算法以及基于前背景分离的场景检测算1 法。 并提出了基于场景和时间的二维静态视频摘要表示方式。然后本文探讨了声音分析和分类算 法,同时给出了动态视频摘要生成算法。在本文晟后,给出了基于上述算法的面向家庭的视 频摘要系统的实现方案。 关键词:视频摘要:视频内容分析;音频内容分析 a b s t r a c t d i g i t a lv i d e oi s a ne m e r g i n gf o r c ei n t o d a y sc o m p u t e ra n dt e l e c o m m u n i c a t i o ni n d u s t r i e s c o n t i n u o u sh a r d w a r ed e v e l o p m e n t sh a v er e a c h e dt h ep o i n tw h e r ep e r s o n a l c o m p u t e r s a r e p o w e r f u le n o u g h t oh a n d l et h e h i g hs t o r a g e a n d c o m p u t a t i o n a l d e m a n d so f d i g i t a l v i d e o a p p l i c a t i o n s m o r e o v e r , t h ea d v a n c e si nd i g i t a lc a m e r a s a n dc a m c o r d e r sh a v em a d ei tq u i t ee a s yt o c a p t u r e av i d e oa n dt h e nl o a di ti n t oac o m p u t e ri n d i g i t a l f o r mt h e s ea l lc o n t r i b u t et ot h e d e v e l o p m e n t e f d i g i t a l v i d e o p r o c e s s i n gt e c h n o l o g i e s a m o n g t h e s e t e c h n o l o g i e s ,v i d e o a b s t r a c t i o ni sa ni m p o r to n ew h i c ha d d r e s st h ep r o b l e mo f h o wt oe n a b l eaq u i c kb r o w s eo f al a r g e c o l l e c t i o no fv i d e od a t aa n dh o w 协a c h i e v ee f f i c i e n tc o n t e n ta c c e s sa n dr e p r e s e n t a t i o n t h ed e v e l o p m e n to fc o m p u t e rm u l t i m e d i at e c h n i q u e sm a k e si te a s yf o rp e o p l et oc a p t u r e t h e i rl i v e sb yw a yo fv i d e o s a tt h es a m et i m e ,h o m ev i d e o su s u a l l ya d du pt om a n yh o u r so f m a t e r i a ,w h i c hm a k e si t i n c o n v e n i e n tf o rp e o p l et or e v i e wt h e m t h u s ,as y s t e mc a p a b l eo f a b s t r a c t i n gr a w v i d e o si n t os h o r t e ro n e sa u t o m a t i c a l l yc a nn o to n i yo f f e ra p p e a l i n gt h i n g sb u ta l s o t h ef l e x i b i i 可f o rd i f i e r e n tp u r p o s e i nt h i sp a p e r a f t e ras u r v e yo ft h er e s e a r c hw o r ki nt h el i t e r a t u r ea n da ni n t r o d u c t i o no f t h e u n i q u ef e a t u r e so f h o m ev i d e om a t e r i a l w ep r e s e n tn e wa l g o r i t h m sf o rg e n e r a t i n gv i d e oa b s t r a c t s o fh o m ev i d e om a t e r i a la u t o m a t i c a l l yf i r s t ,aq u i c ks u b s h o ts e g m e n t a t i o na l g o r i t h mi sd e v e l o p e d t op e r f o r mt h ev i d e os e g m e n t a t i o nt a s k a k e y f r a m ee x t r a c t i o na l g o r i t h me x p l o r e st h er e s u l t s - i t a l s om a k e su s eo ff a c ed e t e c t i o na l g o r i t h mt oi m p r o v ea c c u r a c y t h e nas c e n ed e t e c t i o na l g o r i t h m , w h i c hr e l i e so nf o r e g r o u n d b a c k g r o u n ds e p a r a t i n g ,i sp r o p o s e dt os u p p o r ts e l e c t i n go fk e y f r a m e s a n dab e t t e rr e p r e s e n t a t i o no ft h e m i ti sf o l l o w e db yt h ev i d e oa b s t r a c t i n ga l g o r i t h mt h a tt a k e s a d v a n t a g eo f a u d i oc o n t e n ta n a l y s i sa n dc l a s s i f i c a t i o n a tt h ee n do f t h i sp a p e r , w eg i v eas y s t e m i m p l e m e n t a t i o nf o r v i d e oa b s t r a c t i n go fh o m ev i d e o k e y w o r d s :v i d e oa b s t r a c t i n g ;v i d e o c o n t e n ta n a l y s i s ;a u d i oc o n t e n ta n a l y s i s 浙江大学硕士学位论文 1 1 研究背景 第一章绪论 数字视频是现代计算机和通讯产业的新兴力量。因特网在带宽和在用户数量上的快速发 展,推动了包括视频技术在内的一切多媒体技术的发展。计算机硬件的发展使家用计算机具 有处理和存储视频资料的能力,而家用数字摄像设备的发展使家庭用户可以很容易的摄制一 段视频并把它们以数字方式装入电脑,这些都为数字视频处理技术的发展提供了基础。 随着视频资源数量的不断增加,提取、表示和理解视频结构来为视频内容浏览和检索服 务变得十分重要。这正是基于内容的视频分析技术的主要任务。基于内容的视频分析是指使 用计算机对多媒体数据如包含图像和声音的视频数据进行语义上的分析和理解。随着进入数 字多媒体信息时代,基于内容的视频分析技术在多媒体信息的访问、分类和检索过程中显得 必不可少。在对多媒体信息的分析过程中,必须对所有的信息进行分析,包括图像、声音、 从图像中提取的文字、从声音中识别的单词等。这种分析过程通常包括把多媒体文档分割成 不同的语义单位,将这些语义单位归类到预定义的场景类别中,并且对多媒体文档做索引和 摘要,以便有效的检索和浏览。 基于内容的视频分析技术的快速发展产生了很多新的应用和对新技术的研究和发展。在 这些新兴的研究领域中,有一些应用和研究针对的问题是如何利用对视频内容的分析来碱小 视频存储、分类和索引的代价,以及如何提高视频的使用效率,可用性和可访问性。这就是 视频摘要技术。 视频摘要( v i d e oa b s t r a c t ) ,顾名思义即是对一长段视频内容的简短的总结。更加明确 一点,视频摘要就是一连串静止或运动的图像,它们用精简的方式代表了原视频的内容,而 保留了原内容的要点。理论上视频摘要既可以人工完成也可以自动完成,但由于视频的海量 特征和有限的人力资源,开发全自动的视频分析和处理工具来减少在视频摘要过程中的人 : 参与变得原来越重要。 视频摘要分为两种基本类型:静态视频摘要和动态视频摘要。 静态圈慷摘要又称静止图像摘要、静止故事板。它是从原始视频中剪取或生成的一小部 分静止图像的集合,这些代表了原始视频的图像称为关键帧( k e yf r a m e ) 。因此生成静态幽 像摘要的主要任务就是准确、高效的生成这些关键帧- 动态视频摘要又称为运动图像摘要、活动故事板。它是由一些图像序列以及对应的音频 组成,它本身就是一个视频片断,只不过要短的多。一般来说,生成动态视频摘要的任务包 括圈像、声音的分折过程。 浙旺大学硕士学位论文 静态视频摘要和动态视频摘要有一些重要的差别。静态视频摘要可以很快的生成,因为 它仅仅利用了可视信息而不需要处理音频信息。而且一旦生成它就可以很容易的显示,这里 并不涉及时序或同步问题。另外,不一定要从原视频中采样也可以生成如全景图等结果来 更加有力的表示原视频内容。还有,抽取的关键帧的时间特征可以用空闻序的方式表达以便 用户更快的把握视频的内容。最后,所有的关键帧可以在必要时打印出来。 动态视频摘要也有优势。相对于静止图像,它有效的利用了音频特征,而音频特征在一 些视频如教学视频中包含了非常重要的信息。另外虽然生成过程中计算代价较高+ 但在生 成结果的回放过程中用户往往觉得看一段短片比看幻灯片更加自然和有兴趣,而且在许多时 候运动本身包含了大量的信息,这些在很大程度上抵消了计算代价。 根据介绍内容的不同,动态视频摘要又分为两种:总结摘要和亮点摘要。总结摘要提供 给用户关于整个视频内容的介绍;而亮点摘要则介绍了最吸引人的部分比如电影的宣传片, 它呈现了许多电影中的精彩场面而并不揭示故事的结局。 视努摘要在很多应用领域得到应用,其中包括: ( 1 ) 多媒体库 随着多媒体个人电脑和工作站的发展,万维网和视频压缩技术的成熟,越来越多的视频 被数字化后存储起来。不管数字视频资料存储在哪里都可以利用视频摘要来做检索。例如 在线的摘要可以帮助新闻工作者检索旧视频资料或者制作纪录片。 ( 2 )电影宣传 电影预告片被j 。泛用在电影院和电视作为影片的宣传。目前,这种类型摘要的制作很昂 贵而且费时需要一种自动的摘要工具来减少人工制作的成本。另一个应用则是数字电视杂 志,人们可以) 霓看节目的摘要而不是文字的节目预告来获得节目信息。另外,对于视频点播 系统,内容提供商也可以提供类似的服务。 ( 3 ) 家庭娱乐 随着数字摄像设备的普及,人们也需要对拥有的视频内容生成视频摘要,以作为浏览、 娱乐、存贮以及索引和检索用。随着家庭数字摄像设备的普及和家庭中视频资料数量的增加, 目前这类需求正变得越来越多。 家庭用户拥有视频资料的数量在不断增加,但是家庭视频多数是以原始的、朱经编辑的 形式存放,这使家庭用户对视频的浏览和欣赏极为不便。家庭用户迫切需要一种考虑到家庭 视频特点、针对家庭用户的视频摘要系统来满足他们的需要。随着视频摘要技术的应用领域 的扩大,对视频摘要系统需求的增加,近年来视频摘要技术吸引了越来越多学者的注意,也 出现了一些视频摘要系统,但是目前针对家庭视频的视频摘要系统还不多,而且效果也不是 报理想。本人在研究生学习期间,参加了浙江大学虹软多媒体研究中心的“视频检索技术研 究,1 课题的研究_ t 作,对视频摘要技术作了广泛和深入的研究提出了面向家庭视频的视频 摘要算法。 2 浙江大学硕士学位论文 1 2 本论文的主要内容 本文在回顾现有视频摘要相关技术和分析家庭视频特征的基础上,提出了面向家庭视频 的视频摘要算法,并给出了相应的系统实现方案。第二章是与视频摘要有关的技术回顾, 其中有传统的镜头边界检测、关键帧提取、场景检测技术和动态摘要技术,以及人脸检测 i 声音分析技术。第三章分析了家庭视频的特征和作用,提出了家庭视频摘要系统的目标a 第 四章给出了静态视频摘要算法。第五章是动态视频摘要算法的介绍。第六章是面向家庭视频 的系统实现方案。最后在第七章是总结和展望。 塑坚查兰堡主兰堡丝兰 第二章视频摘要相关技术回顾 基于内容的视频分析是指使用计算机对多媒体数据如包含图像和声音的视频数据进行 语义上的分析和理解。视频摘要技术解决的问题就是如何快速的浏览大量的视频数据和如何 对视频内容进行有效的访问和表示,它是基于内容的视频分析技术的发展。因此,对现有的 视频分析技术和一些相关技术的回顾和研究对于视频摘要技术来说是至关重要的。 本章首先介绍了基于内容的视频分析算法的一般流程。随后分别介绍了基于内容的视频 分析以及视频摘要相关的技术:镜头检测,关键帧提取,场景检测。另外还给出了一些生成 动态视额摘要的算法。最后,对人脸检测和声音分析和归类技术作了回顾。 2 1 视频的典型结构 视频( v i d e o ) 故事( s t o f f ) 场景( s c e n e ) 镜头( s h o t ) 帧( f r a e ) 图2 - 1典型的视频结构 视频可以在不同的层次描述,这些层次由低到高可以分为:帧( f r a m e ) ,镜头( s h o t ) ,场 景( s c e n e ) 和故事( s t o r y ) 。它们的定义如下: f 蝻, ( f r a m e ) :视颧中鹌一幅静止强豫明傲视频钓一赖。 ( 定义2 1 ) 一 一塑坚查堂堡主兰堡堡苎 镜头l s h 0 1 1 ;一台摄像机一次操箨所记录的一系虢 连续帧昀集台, ( 定义2 2 ) , 皴( s c e n e j :鹂共两地点或对蒙豹一系殉连续镜头的集合, ( 定义2 3 ) 氧( s t o r y ) :记录7 同一个连续事搏的场景鹊集台, ( 定义2 4 ) 图2 l 显示了典型的视频结构。一般来说,视频由故事组成每个故事可以在不同的场 景内发生:每个场景由在周一个地点的一个或多个镜头组成;每个镜头则由连续和缓慢变化 的帧组成。而基于内容的视频分析的目的,就是用自底向上的方法来结构化视频的内容。 在所有基于内容的视频分析系统中,第步就是对视频内容的分割。对一个视频片断, 首先将视频内容分割成镜头再根据镜头之间事件发生的地点或其中用户所关心的对象把相 邻的镜头聚类为场景,多个场景对应着一个故事。 不同的应用在分割后的处理各有不同。其中有一种处理就是将这些场景或镜头归类,这 些预定义的类别可以是高层的( 在歌剧院中的一场歌剧演出) ,中层的( 一场音乐演出) ,或 是低层的( 一个音乐占主导的场景) 。在这种语义层上归类的基础上,一种可能的处理是生 成文字形式的索引。除了这种“标签”式索引,一些声音和图像数据也可以用作低层的索引, 比如一个用户可以用一段例子视频片断来检索声音或图像信息类似的视频。当然,也可以在 视频分割的基础上生成视频摘要,视频摘要可以使用户快速的铡览一个视频片断,相对于视 频内容的文字摘要,视频摘要还可以使用户更好的视频内容的特征和风格。 2 2 镜头检测 在基于内容的视频分析系统中,镜头检测有着重要地位。原因有多个方面:首先镜头 被认为是组成视频的基本单位。检测镜头的边界意味着重现这些基本视频单位,从而为几乎 所有现有的基于内容的视频分析算法提供基础第二在视频的制作过程中,每一个切换都 经过精心挑选以符台视频内容的需要。于是,自动检 受i 出所有切换的位置和类型,可以帮助 计算机推断高层语义。比如,在故事片中融合( d i s s o l v e ) 常用来表示时间的流逝。同样, 融合通常出现在故事片、纪录片、传记片和风景片中。而较少出现在新闻、体育、喜剧和谈 话节目,对于百叶窗切换( w i p e ) 却正好相反因此,自动检测镜头的i 盘界及其类型可以 用来自动识别视频的类型。另外,镜头检测对黑自电影的彩色化过程是非常有用的可以针 对不同的镜头选取不同的灰度,彩色对照表。 根据在制作过程中2 d 图像转化方式的不同,镜头切换可以分为4 类: ( ”特性不变:前后两个镜头都没有修改,也没添加附加的帧。符合这一类的只有硬切 换( h a r dc u t ) 。 新江大学硕士学位论文 ( 2 ) 空间变化:对前后两个镜头进行了某些空间域的变化。如百叶窗翻页,滑动,光 圈效果等。 ( 3 ) 色彩变化:在色彩空间作了某些转化。如渐变和融合效果。 ( 4 ) 空间色彩变化:在空间和色彩方面都作了改变。变形效果基本都属于这一类。需要 指出的是在实际应用中几乎所有的空间变化类型的切换都可以归入空间色彩变化 这一类,因为一些色彩操作总是要作用于前后镜头的边界,如反走样、光滑处理或 阴影操作等。 硬切换( h a r dc u t ) 是最常用的镜头切换方式。一个硬切换定义为两个镜头s l ( x ,y t ) 干 s 2 ( x ,y ,t ) 的直接连接t 中间没有插入过渡帧。因此得到的结果视频序列s ( x ,m t ) 可以规范化 的给出: + s ( x ,y ,f ) = ( 1 一“一,0 一, 。m 。) ) s ,仁,y ,f ) + u _ i o 一,) s 2x ,y ,)( 式2 - 1 ) 其中f ,m 。表示硬切换后第一帧的时间戳。“一。( f ) 代表单步函数( “一t ( f ) = 1 如果t = o ,否 则= o ) 硬切换产生了视频流在时间上的不连续性。现有各种硬切换算法的不同之处在于使用不 同的特征和归类方来检测这种不连续性。然而它们都定义硬切换为特征曲线在时间轴上的孤 立峰值。下面本文给出基于三类不同图像特征的一些硬切换检测算法,这三类特征分别是: 灰度彩色直方图、边缘线辟廓线和运动特征。 2 2 1 基于灰度,彩色直方图 几乎所有不同的比较相邻两帧间灰度或彩色直方图的算法都被提出刷来检测硬切换,如 用帧差( 不管有没有利用颜色相似矩阵) ,x 检验法或直方图交集结合不同的彩色空间如 r g b ,h s v ,y i q ,l a b ,l u v ,m u n s e l l 和o p p e n e n tc o l o r s 等方法。另外还有这些方法的组 合。这里提出简单的基于帧的r g b 或y u v 彩色直方图4 x 4 x 4 或8 x 8 x 8 位差在实践中证明 是检测硬切换简单而有效的方法 1 ,2 ,3 ,4 。在这里选取不同的不连续性归类算法要比选取彩 色空间和直方图差函数更能提高算法的性能。 2 2 2 基于边缘线,轮廓线 时间上的视觉不连续性通常伴随着图像结构上的不连续性。比如在硬切换前一帧中物 体的边缘线通常不会出现在在硬切换的后一帧中。同样的,在硬切换后一帧中的边缘线也不 会出现在前一帧中。z a h i b 等人提出的边缘线变化率就是利用了这个事实 5 ,6 1 a 边缘线变化率( e c r ) 定义如下:设盯。为帧n 中的边缘线的像素点数,x ? 和z = 分别为 6 浙江大学硕士学位论文 进入和离开帧n 的边缘像素点数。则 且强。= m a x ( x o - 。,x 一i )( 式2 - 2 ) 定义了帧m 1 和帧n 间的边缘线变化率,它的值为0 到1 之间。在文献【5 】中,边缘线是 用c a n n y 边缘算子计算的。为了避免物体运动的影响,对于一个图像中的边缘像素点,如 果在另一个图像中相同位置附近也存在边缘像素点,这个像素点就不算作进入或离开的边缘 像素点。另一种方法则更进一步,在计算e c r 之前首先对图像作基于h a u s d o f f 的全局运动 补偿。 对于硬切换来说,基于e c r 的方法并不比基于直方图的方法优越,而且它的计算量很 大。e c r 的长处在于它同时可以检测渐变、融台以及百叶密切换。 2 2 3 基于运动 硬切换同样伴随着运动上的不连续性。最简单的运动测量方法就是两帧像素差。在硬切 换的位置两帧的像素差通常很大。不幸的是这种简单的运动度量方法对物体和摄像机的运 动很敏感。即使幸 偿了摄像机的运动,物体的运动仍然是使用这个特征的障碍。 改进的方法计算光流,并利用运动矢量的数量和分布和块匹配算法的到的残留块作为特 征。但是正如g a r g i 等人在文献【1 】提到的,基于块匹配的方法并不比基于直方圈的方法优越。 所有基于运动特征镜头检测方法的核心问题在于可靠的运动估计方法远比检测视觉不连续 性要复杂在这里简单的问题被复杂化了。 2 2 4 不连续性的归类 在镜头检测算法中对帧的不连续性的归类方法有两种:全局阈值方法和自适应闽值方 法。 在全局闽值方法中,输入是检测不连续性的特征值的时间序列,在理想情况下硬切换出 现的地方会出现单一的波峰。特征值超过一个特定全局阈值的地方被定义为硬切换。 全局阚值方法普遍存在的问题是在实际中不可能找到一个对所有视频片断都适_ l j 的全 局闽值,因此应该避免使用全局闽值方法。 在白适应闽值方法中,输入也是检测不连续性的特征值的时间序列,在理想情况f 硬e j j 换出现的地方会出现单一的波峰。这里对硬切换的检测是基于当前特征值,( r ) 与它的邻域 特征值的差。通常定义一个中心为当前时间t ,大小为? w 十,的时间轴上的滑动窗口来代表 邻域。在所有如f 的条件满足的情况下则认为找到一个硬切换: ( 1 ) f ( t ) 在窗口中取最大值即f ( t ) 2 ,( x ) ,v x p w ,f + w j a , 塑坚查兰堡主兰垡兰皇 ( 2 ) ,( f ) 与次最大值厂( f 2 ) ( ,( ) 厂( x ) ,v x p 一2 ,f + w 】扫 ) 的差超过闽值t h 。 或者使用t r u o n g 等人提出了的如下测量标准 4 】: 删加毒赫 c +) ,( x ) ( 式2 - 3 如果r a t i o 超过给定的阈值,则发生了硬切换。常量c 是为了避免出现静态帧而加入计 算中的,在这种情况下不连续性的测量值几乎总是为零,这使确定一个好的自适应域值变的 困难。这个常量c 也可以加入到( 1 ) 中,也就是最大值f ( t ) 和次最大值,( f 2 ) 的差加上常 量c 的值超过阈值啦。 白适应域值方法与采用帧间彩色直方图差的镜头检测方法结合已被证实具有很高的性 能。 2 3 关键帧提取 静态视频摘要就是虽能表示视频内容的一些静止图像的集合。所有静态视频摘要工作的 重点就是如何生成这些静止图像( 在这里称为关键帧) 这也是关键帧提取算法的主要内容。 下面给出关键帧的定义: 关键帧:扶碾视频数据中提取出的一些静止臣像。这些图像以摘要的形式代表7 踉始视 额的内容, ( 定义2 - 4 ) 关键帧可以手工生成也可咀自动生成。自动关键帧提取算法的核心是如何从视频的所有 帧中选取最优的帧。视频中各帧图像的描述作用是不相同的,某些帧可能提供了物体和事件 的更多的信息。 自动生成关键帧算法的困难在于提取关键帧的工作必须是全自动和基于内容的,这样才 能在得到视频的重要内容的同时去除冗余信息。在理论上这需要理解视频的语义内容如 感兴趣的对象,活动和事件。然而,这些语义上的分析算法还不成熟。在实际应用中必须依 赖低层的图像、声音和其它可得到信息。 对自动生成的关键帧评价也是一个问题,因为涉及到语义内容的理解,而不同的人对语 义的理解不同,因而对关键帧的有效性有不同的评价。 基于关键帧生成的方式,可以简要的把所有关键帧提取方法分为4 类:基于采样基于镜头 基于分割,和其他方法。下面是对这些方法的逐一介绍a 塑垩查兰堡主兰垡鲨苎 2 3 1 基于采样 以前大部分提取关键帧的算法使用在一定的时间间隔内随机或均匀的采样视频帧来完 成关键帧提取a 如v i d e om a g n i f i e r 7 和m i n i v i d e o 系统【8 ,9 】。虽然这种方法可能是最简单 的方法,但是它的缺点在于可能会出现一段时间很短但是又比较重要的片断中没有关键帧, 而一些长片断却有很多重复的关键帧这样就不能很好的表示实际的视频内容。 2 3 2 基于镜头 好的关键帧提取算法应该能够动态的适应视频内容来提取关键帧。既然一个镜头被定义 为一段连续拍摄过程得到的视频片断。一个自然和直接的想法就是选取每个镜头的第一帧来 作为关键帧。这种方法对静止的镜头很有效,但对于动态的视觉内容,一个镜头一个关键帧 的方式就不能很好的表达。因此,根据视频内容的不同应该选取多个关键帧来表示个语 义内容。由于计算机视觉仍然是一个非常难的课题,大多数现有的算法还是采用底层的图像 特征如颜色、运动等来理解视觉内容,而不是进行严格的语义理解。在本文中,根据算法采 用的底层图像特征,把基于镜头的关键帧算法分为4 类:基于颜色的方法,基于运动的方法, 基于镶嵌图( m o s a i ci m a g e ) 的方法和其它方法。 ( 1 ) 基于颜色的方法 在文献【l o 押l 文献【11 】中z h a n g 等人提出了一个算法,在算法中关键帧在每个镜头内部 按顺序提取。详细的过程为:每个镜头的第一帧总是被选为第一个关键帧。然后计算每一帧 和当前关键帧的直方图差,一旦直方图差超过了某个闽值当前帧就被认为是新的关键帧。 y e u n g 和l i u 等人在文献 1 2 】中也介绍了类似的算法。这种算法有一个问题就是第一帧可能 是镜头边界切换效果的一部分这样就大大降低了取出的关键帧的质量。 在文献 1 3 1 中,h u a n g 等人提出了基于无监督聚类方案的关键帧提取算法。首先一个镜 头内部的所有帧根据直方图信息被聚类到一定数量的簇中,在这里用一个闽值来控制每个族 的密度。接着,所有足够大的簇被认为是关键簇虽接近簇的重心的帧被选做关键帧。f e r m a n 和t e k a l o 在文献 1 4 】中也提出了类似的方法。 由于直方图的方向无关性和背景噪声的健壮性,基于直方图的关键帧提取算法被广泛使 用。但是这类算法大部分严重依赖于闽值,对于摄像机和物体运动,这类算法并不能反映 这种动态特。性。 ( 2 ) 基于运动的方法 基于运动的方法能够根据场景的动态性来很好的控制关键帧的数量。这种方法通常使用 基于像素的图像差或帧间光流计算。w o i f 的算法【15 】( 普林斯顿大学) 首先计算每帧图像的 光流,然后算出一个简单的运动矩阵。最后分析这个矩阵在时间轴上的函数曲线,在局部最 q 浙江大学硕士学位论文 小值处的帧被选为关键帧。 西门子研究中心的t o k u 和l i o u 在文献 1 6 1 中的算法提出根据可用的机器资源,采用三 个不同的操作层次:在最底层,采用像素的帧间差来计算“时间活动曲线”,这需要最少的 资源:在第2 层,基于直方图的帧问差被用来计算“彩色活动曲线”:在第3 层,采用摄像 机运动分析来估计摄像机参数和检测“运动活动片断”。随后从每一个片断中选取关键帧并 且通过必须的削减过程得到最终的结果。 ( 3 ) 基于镶嵌图( m o s a i ci m a g e ) 的方法 前文介绍的方法有一个缺陷,不是所有的视频都能通过提取关键帧来代表整个视频。比 如摄像机移动、倾斜序列,即使选取了多个关键帧,但是原始的动态特征仍然没有表达出来。 在这种情况下,基于镶嵌图案的方法就可咀用来生成综合的全景图来直观的代表视频的内 容。镶嵌图案通常通过如下的2 个步骤生成:1 ) 在每组运动帧中匹配一个全局运动模型:2 ) 通过估计参数来重叠、拼接图像成全景图。m p e g - 7m d s 文档列出了一些常用的运动模型 包括平移运动模型,旋转模型,仿射模型平面透视模型和二次模型。图2 - 2 显示了使用仿 射模型生成的一个1 8 3 帧的全景图。在这里我们看到,这一个单一的静止图像比一个或多个 关键帧提供了更多的信息。 图2 - 21 8 3 帧的全景图 然而,尽管镶嵌图比关键帧有更好的表达特性它也有自已的限制:只有在特定的摄像 机运动如平移,倾斜等被检测到时它才有效。通常它们不能用在具有复杂摄像机效果和额繁 的背景,前景变化的场合。这里,一个解决方法就是在合适的情况下互换使用普通的关键帧 和镶嵌图。 ( 4 ) 其他方法 一些其他的方法采用了某些数学方法,基于底层的图像特征来生成关键帧在d o u l a m i s 等人发表的论文中【1 7 】,通过应用一个在颜色和运动域的分割算法来得到每一帧的几个描述 子,再组成一个特征矩阵。然后所有帧的特征矩阵形成了高维特征空间的曲线。最后t 在时 间轴上拐点处的帧被认为是关键帧,因为拐点代表了曲线的特征在文献【1 8 】中,$ l e f a n i d i s 等人提出了一种方法这种方法首先分析图像中物体的运动轨迹,轨迹中的关键点则披用来 提取关键帧,自组织图( s e l f d 唱i z i n gm a p ,s o m ) 技术被用来确定这些关键点a j 0 塑垩查兰堡主兰堡堕塞 2 3 3 基于分割 每个镜头使用一个或多个关键帧方法的一个主要缺点在于它并不适合长视频,园为处理 几百帧图像往往是非常低效的。因此,最近越来越多的学者开始作基于更高级的视频单位的 研究- 在这里称这些视频单位为视频段。一个视频段可以是个场景,个事件或者甚至 是整个视频序列。在这种情况下,基于视频段的关键帧集当然要比基于镜头的关键帧集更加 准确。 在文献【1 9 】中,f xp a l oa l t o 实验室的u c h i h a s h i 等人首先将所有的帧聚类到几个预定义 的簇中。然后根据连续视频片段属于某个簇分割整段视频。最后,对于每个片断根据它的长 度计算一个重要性度量,所有重要性小于阈值的片断被舍弃,在剩下的片断中靠近中心的帧 被选做关键帧,关键帧的图像大小与它的重要性成正比。 2 3 4 其它方法 其它关键帧提取算法利用了其它的一些技术如小波变换、a 脸检测等。d u f a u x 的文章 【2 0 结合了运动和空间行为分析以及人脸检测技术,因此得到的关键帧很可能包括人物, 这当然要比单纯的景物要好。但是文章对整个视频序列只提取一个关键帧,这使得评价最终 的结果非常困难。c a m p i s i 等人的文章 2 1 】则提出了一个基于小波分解的渐进的多分辨率关 键帧提取技术。 2 4 场景检测 在视频中比镜头更高的层次就称为场景( s c e n e ) 。一个场景包含一系列连续的镜头,这 些镜头或者是发生在同一个地方,或者它们有某些共同的对象。检测场景的过程类似于对文 档进行分段的工作需要高层的内容分析。目前的算法包括有基于影片制作方式的,基于先 验节目模型的,以及其它的方法。 a i g r a i n 等人使用了影片制作规则来检测全局变化的局部特征 2 2 】。这些规则是指切换效 果、镜头重复和镜头相似性视频声道中的音乐风格、节奏以及摄像机的参数等。然后通过 检测这些局部特征,并且分析它们时间上的组织特征来生成视频片断或者选择一到两个镜头 来代表每个场景。 y e u n g 和y e o 也提出了类似的方法来做场景检测,他们称之为事件约束的聚类 2 3 ,2 4 。 在这个方法里,视觉的相似性和时间的局部性被用来作为镜头聚类和事件检测的依据a 这种 做法的根据是视频中的节目内容有着时间上的局部性:两个视觉上类似的镜头同时义相邻, 那么它们很可能反应了连续的事件:如果它们的时间间隔很大它们则很可能反应了不同的 浙江大学硕士学位论文 事件,属于不同的场景。利用一些特殊的时间特征如对话镜头和快速运动的镜头是这个算法 的另一个特点。 先验的基于模型的算法采用了如新闻、体育等特定节目类型的某些结构模型【2 5 2 6 ,2 7 。 对于这些特殊的节目,它们的时间结构通常是很严格的。因此,如果能够检测到某些关键类 型的镜头,如新闻节目中的播音员,整个镜头就可以根据结构模型来归类。在这里不需要复 杂的有时候甚至是不可能的语义上的视频内容分析。例如,z h a n g 等人提出了一种算法来自 动分割和索引电视新闻【2 6 】:算法检测特定类型的镜头,如使用运动信息来检测播音员镜头 然后使用新闻节目模型来分析后续的镜头,从而得到新闻片断。然而,这种方法的问题在于 其它应用领域中通常很难获得先验模型。甚至对于新闻视频,这种方法也不能将得到的新闻 片断归类,原冈就在于它不能获得每个镜头的语义内容。 在普林斯顿可配置视频库( p r i n c e t o nd e p l o y a b l ev i s e ol i b r a r y , p d v q ) 2 8 ,2 9 】中提出的算 法是首先在每个镜头内确定关键帧,然后使用基于图像的聚类来构造场景转换图,从而可视 化的表矛镜头之间的关系。通过浏览这些转换图,用户可以获得感兴趣的场景。场景转换图 还可咀用来作为视频浏览工具。 2 5 动态视频摘要 动态视频摘要的目标举例来说,就是对比如一个小时的节目作摘要,最终生成五分钟的 亮点摘要或总结摘要,这些摘要很好的代表了原始视频的内容。这是一个相对来说较新的研 究领域,需要对视频进行更高层次的内容分析。较成功的方法往往使用了多种信息,包括声 音、语音、屏幕文字和图像分析的结果。对于动态视频摘要,有以下一些学者的研究成果承j 系统。 在德国曼海姆大学开发的v a b s t r a c t 系统中f 3 0 ,最精彩的电影片断被提取出来用于生 成电影宣传片。具体来说,他们首先用图像的高对比度来检测含有重要物体人物的帧;动 作场景用大的帧差来识别;与整个影片平均颜色组成相近的帧被包含到摘要中t 期望它们能 反映影片的基调。此外,对话场景的识别由检测语言中的a 字母来完成,这是由于在多 数语言中a 字母出现的较频繁。晟后,所有选中的场景( 除了影片的结尾部分) 以原米 的时间序排列组成宦传片的内容。这种算法有很多有趣的观点,但是算法的有些部分还太简 单有待于改进,作者也缺乏全面的用例验证来证明他们的结论。v a b s t r a c t 的一个改进版本 m o c a 3 1 1 则利用了一些特殊的事件比如主演的特写镜头、爆炸场面和枪声来帮助识别重要 的场景。 确定一段视频中的亮点是一个非常主观的过程。同时,将人的认识结合到自动摘要的生 成过程中也是非常困难的。因此,多数现存的视频摘要工作着眼于生成总结序列在这里一 个撮直观的方法就是用快速播放来压缩原视频。正如微软研究院的o m o i g u i 研究表明【3 2 , 2 浙江太学硬士学位论文 用时间压缩技术快速播放原视频能够不引起声音变形。i b ma l m a n d e n 研究中心的a m i r 等 人用音频时间域修改技术也得到了类似的结论 3 3 。然而这些技术允许最大的时间压缩比 仅为1 5 到2 5 且随说话速度不同而不同,超过这个范围语言将会变得不可理解。 卡内基梅隆大学的l n f o r m e d i a 项目 3 4 ,3 5 ,3 6 的目标是通过提取重要的音频和视频信息 来生成原视频简短的大纲。首先,文字形式的关键字从字幕中用t f i d f ( t e r m f r e q u e n c y 一| n v e m ed o c u m e n tf r e q u e n c ) r ) 技术提取出来,随后包含这些关键字的音频片 断和为了方便理解而选取与它们相邻的片段被提取出来生成音频摘要。接着,通过选取以下 帧来生成视频摘要:a ) 有人脸和文字的帧;b ) 摄像机运动后的静止帧;c ) 摄像机运动中具有 人脸或文字的帧;d ) 一个场景的开始帧。于是可能一些不能和音频同步,但在视觉方面更 加合适做为闰像摘要的帧被提取出来。最后,通过分析音频和图像摘要的对应关系生成视频 摘要。实验表明,这种方法对于具有很强的说话内容以及文字内容的特定类型的纪录片有报 好的效果。然而,这种文字驱动的方法对于其它包含复杂音频的视频片断并不能得到满意的 效果。 其它的一些工作则致力于利用特定的特征来解决针对特定领域的视频摘要问题。在 x e r o x p a r c 中开发的v i d s u m 项目3 7 1 采用了一种表达结构这种表达结构是为他们每周的 讨论会而特别设计的,通过映射对应的底层信号事件和高级语义事件来生成摘要。在文献 3 8 】 中,h e 等人发表了他们针对声音,视频演示的工作。一些特定的针对演示的先验知识被用在 算法中,包括暂停信息,幻灯片切换信息等。详细的使用研究表明虽然用这种算法生成的摘 要比人工生成的要不连续,但太部分需要的信息还是保留了下来。 i n t e 公司的l i e n h a r t 的工作着眼于家庭视频 3 9 】,这种算法与其说是基于内容还不如说 是基于模型的方法。首先,时间和日期信息首先用s - v h s 方法通过文字分割和识别或直接 从数字视频序列中取得。然后,基于视频被摄制的日期和时间,所有的镜头被聚类到五种不 同层次中:l ,单独的镜头;2 ) 一系列连续的动作:3 ) 镜头问的最小时间间隔为5 分钟;4 ) 镜头间的间隔在1 小时之内的一些列连续的行为:5 ) 单独的一天和多天的事件。在下一个步 骤中镜头缩减过程使长的镜头被均匀的分成2 分钟长的片断。为了选择需要的片断,首先 计算音频信号的声音强度并被用于选择过程中,这里基于的一个事实就是在重要的事件中, 声音通常比非重要事件更加长时间的清晰可见。最后,通过用事先设计好的视频切换方式连 接选中的片断从而得到摘要。另外这种方法还支持在线语音注解。这种方法有很多分析和处 理家庭视频报好的想法,但是对于任何摘要算法来说都很重要的图像内容却被忽略了。 2 6 人脸检测 随着信息技术和多媒体技术的发展出现了针对不依赖传统设备如键盘、鼠标和显示器 的新的更友好的人机交互技术的研究。另外越来越高的计算机及视频图像获取设备的性价 塑坚查兰堡圭兰垒堡兰 比使得计算机视觉系统可以在微机或嵌入式系统里运行。近来快速发展的人脸处理领域的研 究工作的前提是一个人的身份、状态和意图可以从图像中获取,从而计算机可以作相应的反 应,如观察一个人的面部表情等。过去的五年来人脸和人脸表情识别吸引了越来越多的注 意力,虽然这个课题已经被心理学家,神经学家和工程师们研究了超过2 0 年。这些研究产 生了一些演示系统和商用系统。所有人脸处理系统的首要步骤就是在一副图像中定位人脸的 位置。然而,在一副单一的图像中检测人脸是一项困难的任务,因为人脸大小、位置、方向 和姿势( 正面,侧面) 等条件的变化。另外,面部表情、遮挡和光照条件都可能改变人脸的 外观。 现在给出人脸检测的定义:给定任意一副图像,人脸检测的目标就是决定图像中是否有 人睑的存在,如果有,则返回每张人脸的位置和大小。人脸检测的困难可以归结到以下的因 素: ( 1 )姿势。人脸图像可能因为人脸的姿势( 正面4 5 度,侧面,颠倒) 而变化,并且一 些人脸的元素如眼睛和鼻子等可能部分或全部不可见。 ( 2 ) 人脸特征的有无。一些人脸特征如胡子和眼镜等在人脸图像中可能有也可能没有, 而且这些特征元素在形状、颜色和大小上也有很多变化。 ( 3 )脸部表情。很显然,脸部表情直接影响到人脸的外观。 ( 4 ) 遮挡。人脸可能被其它物体遮挡。如果一张图中有多人,一些人脸可能被其他人脸 遮挡。 ( 5 )图像方向。人脸图像的方向会沿着照相机的光轴旋转。 ( 6 )图像环境条件。在图像形成过程中的一些因素如光照( 光源分布和光照强度) 以及 照相机的参数( 镜头) 也会对人脸造成影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论