




已阅读5页,还剩95页未读, 继续免费阅读
(计算机软件与理论专业论文)视频场景检测的相关技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京交通大学硕士学位论文 摘要 随着多媒体制作、 存储、 传输等技术的迅速发展, 多媒体数据( 图 像、视频、音频和文本等) 在我们的生活中无处不在。因此,在多媒 体数据的描述、查询、浏览及管理中存在的问 题急须解决。在基于内 容的视频分析是新一代多媒体技术的核心课题,也是以后建立数字图 书馆,智能信息查询系统,广播电视快速浏览和 v o d的在线选择, 友好的人机交互系统的关键技术。目前, 在视频的低层特征提取、描 述和分析等方面做了大量基础性的研究,这些研究成果都是对视频结 构化的研究起到了推动作用。视频场景的检测是对视频的高层语义描 述,通过视频场景的构造,可以更好的帮助用户了 解视频内容,方便 浏览和检索。 本文对视频场景检测的研究主要集中在以下两个方面: 1 ) 利用视觉特征进行场景检测; 2 ) 通过音频信息辅助视频场景检测。 对 其中的关键问题进行了较深入的探讨,并取得了一些有价值的研究成 果。 一、 利用视觉特征进行场景检测,主要包含两方面内 容: ( 1 ) 在研究场景构造的关键技术过程中,我们提出了一种基于 数据驱动的消隐、淡入和淡出的镜头边界检测方法,通过实验证明, 此方法有很好的检测效果。 ( 2 ) 我们提出一种根据内容变化提取镜头内关键帧的方法, 并将 此方法应用到视频场景构造中。用该方法无须设置闻值,预先设定一 个总的关键帧数目,据内容变化抽取关键帧数目,能较好的反映原始 视频的内 容。在此基础上,用一种改进的时间自 适应算法实现镜头的 组合得到场景。 二、融合音频特征的视频场景构造 ( l ) 介绍了音频帧和音频例子在时域和频域的特征提取方法, 详 细介绍了基于音量、过零率、音调和频率能量的音频例子特征提取方 法。 一并介绍了 音频数据分割中常用的基于分层、 压缩域和模板的三种 分割算法,最后,我们对非压缩域的音频数据提取出音频的时域和频 域特征,求得这段音频特征的统计特征。对于音频分割而言,这些特 未 经作者、 导 p ip tai 愈 t 1 砚犷 公布 北京交通大学硕士学位论文 征值也具有参考意义。 ( 2 ) 利用多媒质融合的思想, 利用音频特征辅助视频场景的分割, 提出并实现了基于音视频融合的视频场景检测算法。 在上面的研究基础之上,我们建立了一个实验系统,以 验证我们 算法的有效性。并用相同的视频片断对只利用视觉信息检测视频场景 和融合音频特征进行场景检测两种算法的结果进行了比较。 关键词:基于内容的视频分析,视频结构化,关键帧,镜头检测,场 景检测,音频分割。 北京交通大学硕士学位论文 ab s t r a c t wi t h t h e r a p i d d e v e l o p m e n t o f m u lt i m e d i a p r o d u c t i o n , s t o r a g e a n d t r a n s m i s s i o n , o u r l i f e h a s b e e n f u l l o f o c e a n s o f mu l t i m e d i a d a t a s u c h a s i m a g e , v i d e o , a u d i o t e x t , a n d s o o n . s o w e m u s t re m o v e o f t h e o b s t a c l e b r o u g h t b y r e p r e s e n t a t io n , q u e ry , b r o w s i n g a n d m a n a g e m e n t o f t h e s e d a t a . c o n t e n t b a s e d v i d e o p a r s e i s t h e k e y t e c h n i q u e s o f t h e n e w g e n e r a t i o n o f t h e m u l t i m e d i a t e c h n o l o g y , a n d a l s o i s t h e b a s e o f d i g i t a l l i b r a r y , i n t e l l i g e n t i n f o r m a t i o n q u e ry s y s t e m , f r i e n d l y h u m a n - c o m p u t e r i n t e r a c t i o n , t v p r o g r a m s k i m m i n g b r o w s in g a n d v i d e o o n d e m a n d . a t p r e s e n t , t h e r e a r e a g r e a t d e a l o f r e s e a r c h e r s i n l o w - l e v e l f e a t u r e e x t r a c t i o n , d e s c r i p t i o n a n d p a r s e , t h e s e r e s u lt s h a v e a i m p u l s e o n r e s e a r c h o f v i d e o c o n s t r u c t e d . v i d e o s c e n e d e t e r m i n a t i o n i s a h i g h - l e v e l s e m a n t ic d e s c r i p t i o n . i t w i l l h e lp u s e r t o u n d e r s t a n d v i d e o c o n t e n t a n d c o n v e n i e n c e t o b r o w s i n g . t h i s t h e s i s m a i n l y f o c u s e o n t h e f o l l w i n g t w o a s p e c t : f i r s t l y , u s i n g v i s i o n f e a t u r e t o d e t e r m i n a t i o n s c e n e ; s e c o n d l y , v i d e o s c e n e p a r s e w i t h t h e ass i s t a n c e o f a u d i o c o n t e n t a n a l y s i s . w e r e s e a r c h e d o n s p e c i f i c p r o b l e m s d e e p l y a b o u t t h e s e . t h e v a lu a b l e r e s e a r c h f r u i t s a r e a s f o l l o w : f i r s t , i n u s i n g v i s i o n f e a t u r e t o d e t e r m i n a t i o n s c e n e , o u r w o r k i n c lu d e s t w o as p e c t s : 1 . i n t h i s p a p e r , a n d a t a - d r i v e m e t h o d o f r e c o g n i z a t i o n g r a d u a l s h o t c h a n g e , s u c h as f a d e - in , f a d e - o u t a n d d i s s o v l e , i s g i v e n . a m o d e l i s fi r s t l y g iv e n o f g r a d u a l s h o t c h a n g e , a n d t h e n f u l fi l l t h e r e a l - t i m e a l g o r i t h b y f r a m e - d i ff e r e n c e s t a t i s t i c a l c h a r a c t e r i s t i c s , f i n a l l y , t h e e v a l u a t i o n s a n d t e s t r e s u l t s a r e p r e s e n t e d . 2 . w e p r o p o s e a n o v e l a p p r o a c h o f g e n e r a t in g v i d e o s c e n e . f i r s t l y , t h e v i d e o s t r e a m i s s e g m e n t e d i n t o s h o t s . a n e w k e y f r a m e e x t r a c t i o n a l g o r i t h m , w h i c h d o e s n o t r e l y o n t h r e s h o l d , i s p u t u p t o e x t r a c t k e y f r a m e s f r o m s h o t s b a s e d o n t h e c o n t e n t v a r i a t i o n . a n u p d a t e d t i m e - a d a p t i v e a l g o r it h m i s u s e d t o g r o u p t h e s h o t s i n t o s c e n e . b a s e d o n t h e d e f i n e d s h o t s i m i l a r i t y f o r m u l a , t h e v i d e o s c e n e s t r u c t u r e i s c o n s t r u c t e d i l l 北京交通大学硕士学位论文 a ft e r s h o t c l u s t e r i n g a n d a d j u s t m e n t . s e c o n d , i n t e g r a t i o n o f a u d i o a n d v i a a l i n f o r m a t i o n f o r c o n t e n t - b a s e d v i d e o s c e n e d e t e r mi n a t i o n . 1 . we g i v e a r e s e a r c h t o f e a t u r e s e l e c t i o n o f a u d i o f r a m e a n d a u d i o c l i p , e s p e c i a l l y f o c u s o n b as e d o n v o l u m e , z e r o - c r o s s i n g r a t e , p i t c h a n d f r e q u e n c y e n e r g y . a n d t h e n , w e a r g u m e n t c o m m o n a l g o r i t h m s i n a u d i o s e g m e n t a t i o n , t h e s e i n c l u d e s b a s e d o n c la s s , c o m p r e s s e d d o m a i n a n d t e m p l a t e . f i n a l l y , n o c o m p r e s s e d d o m a i n s t a t i s t i c a l f e a t u r e w e r e a b s t r a c t e d i n t i m e - d o m a i n a n d f r e q u e n c y - d o m a i n f o r a s e t o f a u d i o d a t a . t h e s e r e s u l t s a l s o a r e u s e f u l f o r a u d i o s e g me n t a t i o n 2 . u s i n g m u l t i m e d i a f u s e m e t h o d , w e c o n s t r u c t v i d e o s c e n e b y t h e a i d o f a u d i o f e a t u r e . w e p r o v i d e a c o n t e n t - b as e d s c e n e s e g m e n t a t i o n a p p r o a c h , a n d i t c a n s i m p l y d e t e c t s c e n e c h a n g e . b a s e d o n t h e a b o v e w o r k , w e h a v e d e v e l o p e d a v i d e o s c e n e d e t e c t i o n p r o t o t y p e s y s t e m t o t e s t o u r a p p r o a c h . a t t h e s a m e t i m e , w e a n a l y s e d t e s t re s u l t s o f t w o k i n d s o f m e t h o d b e t w e e n u s i n g v i s i o n f e a t u r e t o d e t e r m i n a t i o n s c e n e a n d v i d e o s c e n e p a r s e w i t h t h e a s s i s t a n c e o f a u d i o c o n t e n t a n a l y s i s . k y e wo r d s : c o n t e n t s h o t d e t e r m i n a t i o n , b a s e d v i d e o p a r s e , v i d e o c o n s t r u c t e d , k e y f r a me , s c e n e d e t e r mi n a t i o n , a u d i o p a r s e . 北京交通大学硕士学位论文 绪论 论文的研究背景与意义 在当今信息社会,以多媒体为代表的信息技术和信息产业的发展 和应用对人类社会产生的影响和作用越来越显著。随着计算机技术的 飞速发展,计算机不仅能够进行文本处理和数值计算,而且能够处理 图像、图形、音频和视频等多媒体信息。在航空航天、医疗、保安监 控、广播电视和家庭娱乐等各行各业中,每天都会产生大量的图片、 录像、电影和音乐等多媒体数据。如何充分有效地利用这样大量的信 息,关键在于如何对这些信息进行有效的管理,使人们能够方便快捷 地检索所需要的信息。 目 前, 广告、 体育报道、 访谈和晚会等大量的视频数据不断增加, 这些视频数据的一个重要特点就是它有很强的情节发展性。在很多时 候,人们总是想先快速知道比赛和新闻是否精彩,然后决定是否看这 段新闻或比赛。在目 前情况下,人们不可能只看新闻或比赛中的几个 “ 精彩或代表性” 镜头,而是必须将这个新闻 或比 赛全部看完才行。 当然,可以手工地对视频流中的每一视频内容标注,然后按照手工标 注对视频内容进行管理,但是这在时间和效率上都很不实用,况且与 图像文本标注一样,对视频的人工标注同样存在着主观不一致性。如 果能够自 动分析出视频数据流中所蕴含的结构,也就是说对视频数据 流进行结构化,通过这些结构来对视频流建立索引,这样可以帮助用 户更好地了解视频内容。随着多媒体编码、计算机多媒体处理和网络 传输技术的飞速发展,利用计算机自动处理视频数据已成为现实。 当前,许多研究机构都在从事视频方面的研究工作,具有代表性 的数字视频系统有o l i v e t t i 公司的me d u s a 系统、 mi t e r公司的b n e 和b n n系统、c mu大学的i n f o r m e d i a 系统等。其次, 现代社会急 北京交通大学硕士学位论文 速向信息社会发展。从 1 9 9 3年美国率先提出信息基础工程 n i i ( n a t i o n a l i n f o r m a t i o n i n f r a s t r u c t u r e )建设以来,多媒体技术在世 界各国竞相发展起来。 论文的内容和结构 我们的研究工作 我们的研究工作主要集中在基于内容的视频流场景构造和基于 音频和视频特征的场景构造两个方面。 一、 视频场景构造 主要包含两方面内容: ( 1 )在研究场景构造的关键技术过程中, 我们提出了一种基于数 据驱动的消隐、淡入和淡出的镜头边界检测方法,通过实验证明,此 方法有很好的检测效果。 ( 2 ) 我们提出一种根据内容变化提取镜头内 关键帧的方法,并将 此方法应用到视频场景构造中。 用该方法无须设置闽值,预先设定一 个总的关键帧数目,据内容变化抽取关键帧数目,能较好的反映原始 视频的内容。在此基础上, 用一种改进的时间自 适应算法实现镜头的 组合得到场景。 二、 融合音频特征的 视频场景构造 主要包含两方面内容: ( 1 ) 介绍了音频帧和音频例子在时域和频域的特征提取方法, 详 细介绍了基于音量、过零率、音调和频率能量的音频例子特征提取方 法。并介绍了音频数据分割中常用的基于分层、压缩域和模板的三种 分割算法,最后,我们对非压缩域的音频数据提取出音频的时域和频 域特征,求得这段音频特征的统计特征。对于音频分割而言,这些特 征值也具有参考意义。 ( 2 ) 利用多媒质融合的思想, 利用音频特征辅助视频场景的分割, 提出并实现了基于音视频融合的视频场景检测算法。 2 北京交通大学硕士学位论文 在上面的研究基础之上,我们建立了一个实验系统,以验证我们算法 的有效性。并用相同的视频片断对只利用视觉信息检测视频场景和融 合音频特征进行场景检测两种算法的结果进行了比较。 论文安排 论文的各章节安排如下: 第一章,视频场景构造的简介,主要从视频场景构造的研究内 容 和国内外的研究现状入手,介绍了视频场景构造在基于内容的视频分 析中的研究意义和应用领域。 第二章,视频分割内 容的研究。本章我们简要介绍了视频分层分 割的研究内容;详细介绍有关镜头分类,镜头边界检测的基本概念, 方法, 同时重点研究了如何识别淡入/ 淡出和消隐镜头切换, 在此基础 上提出了 基于数据驱动的镜头渐变切换算法。实验结果表明,对渐变 镜头切换有较好的识别效果。 第三章,利用视觉特征进行场景检测。在本章我们简要介绍了视 频场景构造的相关研究和视频场景构造的基本方法;最后我们提出一 种根据内容变化提取镜头内关键帧的方法,用一种改进的时间自 适应 算法实现镜头的组合得到场景。 第四章,基于内容的音频分割及特征提取方法的研究。本章重点 介绍了音频帧和音频例子在时域和频域的特征提取方法。最后,根据 这些特征值对一组视频片断分析出这段音频流是语音,音乐,静音或 环境音。对于音频分割而言,这些特征值也具有参考意义。 第五章,利用听觉和视觉特征进行视频场景分割。利用音频特征 辅助视频场景的分割,提出并实现了基于音视频融合的视频场景检测 算法。 第六章,结束语。 最后是参考文献和致谢。 北京交通大学硕j j 学位论文 第一章视频场景构造简介 在当今数字化与网络化时代,多媒体己成为互联网信息高速路上 所传送数据的主要部分。例如:图像、音频和视频等多媒体内容目前 在w w w 中占据1 5 ,且数字还在飞速增长。数字化信息成为趋势, 因此快速从互联网获取有用信息成为网络数字化生存的必要条件,但 是,多媒体中视频和音频的数据因其数量巨大,却缺乏结构化的特点 而成为上述应用中所面临的挑战之一。 对于具有一定故事情节的视频数掘,它们是由存在时间上依赖的 图像帧序列流组成的。所谓时间依赖是指:要想欣赏某个情节,在现 有技术下,就必须先顺序地浏览这个情节前面的全部视频内容,或快 速越过前面的视频内容,才能开始欣赏某个故事情节,而不能通过检 索标注手段快速的达到这个情节所位于的特定的视频单元。 通常在文本检索中,用单词和短语作为语句、段落或者文献的索 引。类似地,在视频系统中,需要用视频流中的一些主要图像( 关键 帧) 或者图像序列( 帧序列) 来索引部分场景或者整个视频,使视频 用户可以使用这些索引结构快速浏览或检索视频内容。然而,寻找视 频流中的关键帧,对视频进行索引,实现视频流的表征与相似度衡量, 这种过程需要建立在切分有意义的视频段基础上,也即视频结构化。 如图1 1 ,视频结构化过程即是对视频流中的连续帧序列进行切 分,把一个连续视频流按其内容展开的不同,将它分成若干语义段落 单元。视频流的结构化方法能够从一部很长视频中抽象出视频内部隐 含的情节发展结构,它为大数据量视频的导航和浏览提供了一种非常 好的手段。 从上图中可以明确知道,镜头单元检测、关键帧提取是形成具有 语义内容的视频场景单元的主要任务。我们将在第三章详细介绍视频 场景的检测。 北京交通大学硕士学位论文 1 1 关键技术 图1 1 视频内容分析、表示和描述 1 1 1 视频镜头边缘检测 数字视频必须先进行索引和注释才能方便用户获取有用信息。通 常而言,在视频情节内容发生变化时,会出现镜头切换,从一个镜头 内容转移到另外一组镜头内容。人们不可能对长达几个小时或几十分 钟的视频内容进行整体分析,而是通过视频镜头边缘检测,将原始连 续视频流分割成不同的镜头单元,为后续视频分析处理提供基础,达 到视频整体分析的目的。 因此,对视频处理的首要步骤就是找到镜头的切分点,在切分点 处将连续视频数据流分割成长短不一的镜头单元。手工对视频流进行 北京交通大学硕士学位论文 镜头切分,相当耗费时间,不能实用化。因此,研究者们致力于自动 识别镜头边缘,对视频流进行初始切分。下面给出在镜头边缘检测中 常用的些检测方法。 、图像像素差法:当视频从一个镜头转换到另一个镜头时,相邻图 像帧中对应像素点发会发生变化。判断相邻图像帧中像素点发生变化 的多少,达到视频镜头边缘检测的目的。具体实现是先统计两幅图像 对应像素变化超过阈值的像素点个数。然后将变化的像素点个数与第 二个预定的阈值比较,如超过范围,则认为这两帧之间发生较大变化, 判断其为镜头边界。 二、图像数值差法:这是对上面像素差方法的扩展。图像像素法比较 的是相邻图像帧中所有对应像素点的特征差别,该方法是将图像分成 若干个子块区域,在这些区域中分别比较对应像素数值上的差别。 三、颜色直方图法:传统颜色直方图计算中,每个像素点的颜色值都 被离散化到某个值域区间( 比如0 ,1 ,2 ,2 5 5 ) ,然后把每个像素点 映射到某个区间,就形成了图像的颜色直方图,用( 厂k ) 表示帧厂颜 色直方图中对应颜色为k 的像素点总数。 ( 1 ) 简单的直方图差 相邻图像帧厂与厂。之间最简单的直方图差定义为: d ( f ,门= f h ( u ,) 一h ( f ,川 ( 1 1 ) d = o ( 2 ) 带权重的直方图差 在两个图像比较中,有可能某些颜色对于比较的结果更重要,因 此应该给这些颜色赋予更大的权重,于是带权重的直方图差表示为: 珂( - 厂,厂) = 三d ( 厂,夕t ) 刖) + 墨d ( f ,f t ) 衍呦) + 旦d ( 厂,厂1 ) m 叫 ( 1 2 ) ssj 其中,r ,g ,b 分别是属于红、绿和蓝颜色亮度,s 定义为p + g + b ) 3 。 ( 3 ) 均值化后的直方图差 北京交通大学硕士学位论文 直方图均值化的目的是产生一个均衡的直方图h 。( 厂,) 。 a ( f ,f ) = l h 。( 厂, ,) 一日。( 厂,川 ( 1 3 ) j = o ( 4 ) 直方图求交 两幅图像,与之间的直方图差s ( f ,f 1 ) 定义为: s ( f ,) = m i n ( h ( f ,) ,爿( ,助 ( 1 4 ) ,= 口 这样可以如下定义d ( f ,f ) : d ( ,门:挚厶尘 ( 1 5 ) h ( f ,)二一 j = 0 按照上述方法,对于不相似的两幅图像进行相似度匹配,其相似 值很小。如果对相同两幅图像进行直方图求交,然后计算其相似性, 这两幅图像的相似度为l 。 四、边界跟踪法:在镜头的转换中,在距离原来边缘很远的位置会出 现新的边缘,而原来的边缘会逐渐消失。 五、压缩域差法:一般来说,在对视频图像处理时,要对图像解压, 而基于压缩域的视频镜头检测可以省去解压步骤,直接从原始数据流 中提取特征,从而加快检测速度。 1 1 2 镜头边缘阈值确定 在进行镜头边缘检测,判断相邻帧间是否出现了镜头转换时,采 取的是下面方法:从相邻帧分别提取合适的特征,形成特征向量,然 后比较这些特征之间的差异,如果特征之间的差值超过了事先设定的 阈值,则认为镜头之间出现了镜头转换,应该进行镜头切分。否则, 继续处理其它图像帧。 由于镜头边缘检测是视频结构化的第一步,而阈值在镜头边缘检 测中十分重要,因此,选取合适的镜头切分闽值是实现结构化的关键 北京交通大学硕士学位论文 直方图均值化的目 的是产生一个均衡的 直方图h ( f , .1 ) d ( f , f ) 一 习h ( f , j ) 一 h ( f , j ) i ( 1 . 3 ) ( 4 )直方图求交 两幅图 像f 与厂之间的 直方图 差s ( f , f ) 定 义为: s ( f , f ) = 艺m in ( h ( f , j ) , h ( f , j ) ) ( 1 . 4 ) 这样可以 如下定义d ( f , f ) d (f ,f ) 一 s (f ,f )n 艺h ( f , j ) ( 1 . 5 ) j = o 按照上述方法,对于不相似的两幅图像进行相似度匹配,其相似 值很小。如果对相同两幅图像进行直方图求交,然后计算其相似性, 这两幅图像的相似度为i d 四、边界跟踪法:在镜头的转换中,在距离原来边缘很远的位置会出 现新的边缘,而原来的边缘会逐渐消失。 五、压缩域差法:一般来说,在对视频图像处理时,要对图像解压, 而基于 压缩域的 视频镜头检 测可以 省去解压步骤, 直接从原始数据流 中提取特征,从而加快检测速度。 6 1 . 1 . 2 镜头边缘闭值确定 在进行镜头边缘检测, 判断相邻帧间是否出 现了 镜头转换时,采 取的是下面方法:从相邻帧分别提取合适的特征,形成特征向量,然 后比较这些特征之间的差异,如果特征之间的差值超过了事先设定的 m 7 值,则认为镜头之间出现了 镜头转换, 应该进行镜头切分。否则, 继续处理其它图像帧。 由于镜头边缘检测是视频结构化的第一步,而闽值在镜头边缘检 测中十分重要,因此,选取合适的镜头切分闽值是实现结构化的关键 北 京 交 通 大 学 硕 士 学 位 论 文_ _ 步骤。闽值是否合适,没有一个客观评价方法,而是通过主观判断, 即如果人判断镜头发生了转换,这个转化也ta y 该由闽值判断出来。 但是,可以笼统去判断一个闻值是否合适,所谓闭值合适,是指 这个阂值既要能判断出个别帧之间的变化,又能确保整体切分性能保 持在一定水平。一个 “ 严格”的切分闭值如果对视频帧中的细微差别 都比较敏感,会使视频流被切分过细,在没有发生镜头转移时候,视 频帧仍旧被切分,使视频镜头的切分失去意义;一个 “ 宽松”的切分 阐值不能检测到视频帧所发生的强烈特征变化,那么这个闽值不能检 测到视频镜头发生转换, 使镜头发生转换时, 不能对视频帧进行切分, 整个视频流被切分过大,不利于后续视频处理。为了获得好的切分结 果,必须选择合适的ia值。 因此,选择不同种类的闰值对视频结构化顺利正确完成很重要, 下面介绍三类阐值选择方法: 一、镜头切分闽值: 对于不同的视频源,镜头突变的阐值变化范围很 大。比如,在卡通的镜头切分中,帧间的差别应该设得比生活片大一 点。阐值的选取应该基于视频流中帧间差大小的分布。 一般此类闽值的选取基于帧与帧间直方图的比较。常用的方法包 括单闭值,多闽值和可变阐值。单阐值法准确性依赖于是否直方图是 双峰的;多ia j 值法依赖于直方图有多个清晰的峰值;可变闽值的选取 基于图像中特定区域的局部直方图。虽然有很多方法,但是阖值的选 取仍然是图像处理领域的难题,必须针对不同应用背景考虑。尤其需 要了解在镜头切分点的帧间差分布。 a 值的自 动选取建立在对整个视频中帧间差的归一化。如果视频 流中没有镜头变化或者摄像机移动,造成帧间直方图差的原因可能有 三个:( 1 )原始视频模拟信号数字化后产生的噪声;( 2 )视频生成设 备噪声;( 3 )没有对象绝对静止。 可以把所产生的上面三种噪音都看成高斯分布噪音,因此帧间差 的分布可以分解成两个部分:(1)高斯噪声;( 2 ) 镜头分割、 渐变和 北京交通大学硕士学位论文 摄像机移动所造成的差。显然,噪声引起的帧差和镜头分割是没有关 系的. 实际中,可以将整个镜头中相邻之间的特征差求取出来,得到一 个差值序列。当然,在计算相邻帧之间的特征差时候,这个特征差可 以是直方图差、像素差和运动差值等。 令6为帧与帧间差序列的标准方差,a 为差序列的均值。如果是 高斯噪声造成的帧差,可以使用下面的高斯概率来模拟这个特征差序 列: p (x, 一 f e27 a c x - 川2 z a = d ) c( 1 . 1 ) 换句话说, 非 镜头 切分点的帧间差落在 0 u + a q 的 范围内 , “ 是 一个小的常量,而属于镜头转换帧间差的阐值则不在 0 , p 十 a 司这个 范围内。 二、像素点变化阂值:相邻图像对应象素点之间进行比较,判断这些 象素点是否发生了变化。像素点变化的阐值可以很容易地从实验中总 结得到,因此对于不同视频,这个值的变化不大。 三、 镜头渐变闽 值:在视频数据流中,淡入淡出 ( f a d e ) , d i s s o l v e 和 w i p e 这些镜头 渐变是一种特殊的 镜头 转换, 也要设置一 些阐 值去识别 和切分这些渐变镜头转换。在实验中发现,用来进行判断视频渐变的 闭值的选取应该比整个视频的帧间差平均值要大。 9 1 . 1 . 3 镜头关键帧提取 视频由成千上万的帧组成的,视频数据流中的图像帧之间存在时 间和空间冗余度: t 时刻的图像帧和t 十 1 时刻的图像帧在视觉特征和内 容上差别不是很大。所以在表示一段视频帧的时候,如果把每个时刻 的图像帧都用上,那么要使用太多存在冗余的图像帧。因此,人们想 从由成千上万存在冗余的图像帧提取出“ 关键图像帧”, 这些关键图 像帧之间的冗余度被消除了,而且使用这些关键图像帧来表示视频, 北京交通大学硕士学位论文 会更加简洁。这是在视频内容分析中提取视频关键帧的原因之一。 另外,对于只想了解大致视频内容的用户而言,他们并不愿意花 很长时间观看每一帧。 如足球比赛, 很多用户只对进球等场景感兴趣, 如果能提取出这些进球镜头,可以极大节约用户的欣赏时间。对于这 样的应用,系统要做的就是从视频中找一些代表性的帧 ( 即关键帧) , 用这些少量的帧来代表冗长的视频数据流,使用户看过关键帧后,就 能知道了解整个视频数据流所蕴涵的内容,再通过提取这些帧的底层 信息来建立索引,方便用户对视频内容查询。关键帧提取可以检索视 频数据流在内容上的冗余度,其提取原则既要在数量上精简,又能够 反映视频内容。 1 . 2 研究内 容 视频结构分析与内容描述方法的研究是国内外研究的热点。 目 前, 分级视频结构框架已经得到了广泛认可,在此框架之下,视频分析与 视频语义模型等概念与方法的研究取得了长足发展。就目 前基于内容 的视频分析研究的内容来看,主要包括以下几个主要方面: 一、 建立有效的内容特征描述 特征描述是基于内容的视频分析的核心问题,描述的好坏对视频 分割有直接的影响,它涉及到的问题有: ( 1 ) 确定描述对象和层次。 视频一般包括: 段落、 故事单元、 场 景、镜头、关键帧和帧,另外,视频也可以将内容描述为不同的动态 对象 ( 这在mp e g 4 中己经有所体现) 。 ( 2 ) 特征的选择与提取。当确定了要描述的对象之后, 我们面临 的问题是选择什么特征及如何提取特征。目前常用的特征包括颜色, 纹理等。音频常用特征包括时域和频域特征,一般通过提取统计特征 参数来表示一个音频例子内容。 ( 3 )特征的组织与表达。 ( 4 )特征描述间的相似性度量。 北京交通大学硕士学位论文 二、利用各种媒质信息进行视频分析, 包括镜头检测和场景检测 ( 1 ) 根据视觉上的相似性, 将镜头组合成场景。 这种方法一般先分 割视频得到镜头单元, 最后通过每个镜头内的关键帧, 形成语义场景。 ( 2 ) 利用听觉特征辅助视频场景检测, 这是一种比 较新颖的场景检 测方法。 三、基于内容的浏览1 检索系统的设计,这方面主要涉及: ( 1 ) 建立友好的人机界面。 ( 2 ) 人与系统之间的交互性。 ( 3 ) 基于we b 的浏览/ 检索系统的设计。 引. 2 . 1研究现状 纵观大量文献,我们可以将国内外的研究进展概括为以下几个方 面: ( 1 )目 前, 镜头的边缘检测是对视频流进行后续分析的基础,国 内在这方面进行了大量的工作。早期的工作主要集中在镜头骤变的检 测上,近年来更多的分析镜头渐变的情况,并且将每个不同的特殊变 换也看成是不同的镜头,并且专门研究如何检测这些存在特殊效果镜 头的发生。镜头边缘检测的方法很多,主要有绝对帧间差方法、象素 差法、数值差法、颜色直方图法、边缘差法、压缩差法和运动矢量法 等,这些算法的基本思想是对比相邻图像帧之间的特征是是否发生了 较大变化,如果发生了较大变化,则意味着视频镜头发生转变,发生 较大特征突变的地方就是镜头边缘发生之处。对于渐变镜头识别多采 用数学模型来分析,在第三章将详细介绍。 ( 2 ) 在视频内 容结构化过程中,目 前比较有价值的研究成果主要 是对新闻视频内容的分析。新闻视频的时域模式通常是很直观的。通 常一个新闻节目先是一段主持人镜头,然后是新闻报道,最后是主持 人镜头,接着进行下一个新闻节目。因此,新闻视频分析就是根据这 些相对粗糙的类别,将所有镜头进行归类,从而组合场景。c mu的 1 1 北京交通大学硕士学位论文 i n f o r m e d i a d i g it a l l i b r a r y p r o j e c t 以新闻 广播作为结构化的m试样 本,得到了很好的结果。浙江大学计算机系多媒体计算组设计并实现 了一个新闻视频分析系统, 该系统是在wi n d o w 2 0 0 0 环境下用v i s u a l c + 十 开发的。该系统包括镜头切分、主持人镜头识别和视频内容分析 三大部分。其中 视频内容分析出的结果是一个一个内容独立的新闻故 事。 ( 3 )计算机听觉场景分析,在音频信息分析中还是一个新兴的领 域。这方面的研究主要集中在对连续的混合声音进行分离和解释。尽 管听觉感知的心理学研究己 经进行了好多年,但是对人类听力的计算 机抽象概念模型的建立没有实质性的研究成果。 b r e g m a n , 一个试验心 理学家, 在1 9 9 0 年出 版了 一本“ a u d i t o r y s c e n e a n a l y s i s , 推动了 这 方面工作的研究。由于机器视觉和计算机听觉场景分析之间的紧密联 系,这一领域的许多基本概念和方法都来自 机器视觉理论或得到这一 理论的启示。目 前在融合音频和视频特征进行场景检测研究中,只是 对音频例子进行粗略识别,如何利用音频处理技术,对音频例子进行 更细致的识别,可以更精确的标识语义场景。 引. 2 . 2应用领域 基于内容的多媒体检索技术在许多领域中有着广泛的应用: ( 1 )多媒体数据库:包括多媒体内容的描述,索引及管理。 ( 2 ) 网络多媒体搜索: 实现w e b 上自 动的语义或半语义多媒体内 容查询。 ( 3 )地球资源管理:每天由卫星和侦察飞机传回的图像与视频数 据数以 t ( 1 0 2 ) 计,如果完全靠人工去处理这些海量数据,不仅带 有很强的主观性,而且容易导致各种错误。若将视频分析技术应用于 此,将显著地改善这些资源的管理与应用。 ( 4 ) 视频点播系统( v o d ) : 用户在选择视频节目 时, 希望通过一种 北京交通大学硕士学位论文 简单且有效的浏览或检索技术能够方便快速的找到想要的节目。基于 内容的视频描述与管理将会为这些用户提供有效的支持。 其他应用方面:诸如,医疗图像库管理,公安侦破,天气预报 电视台广告节目 监控,军事指挥系统等。 1 . 2 . 3 与m p e g - 7 标准的关系 mp e g - 7标准 ( 又名:多媒体内容描述接口)与以往 mp e g - x 的不同之处在于:该标准主要致力于描述、管理、检索与浏览多媒体 内容信息,不再将压缩作为主要任务。因为随着多媒体数据的急剧增 加,有关多媒体数据的查询、浏览、管理等成为非常棘手的问题, mp e g - 7 标准则致力于为多媒体系统与不同领域应用之间的协同工作 提供一种规范接口。它的研究范围如图。 图1 . 2 mp e g - 7 标准在多媒体内 容研究中所处的位置 从框图中我们可以看出,mp e g - 7标准主要研究多媒体内容的 描述,它的四个主要组成模块是: 一、 描述子 ( d e s c r i p t o r )即 特征的 描述, 它可以 用来确定每一种特 征描述的句法与语义。常用的视觉描述子包括:颜色描述子、纹理描 述子、形状描述子和运动描述子等。 二、 描述框架 ( d e s c r i p t i o n s c h e m e s ) , 这一部分主要负责 确定 描述子 或描述框架之间关系的结构与语义,即设计到如何组织描述子或描述 框架的问题。 北京交通大学硕十学位论文 三、 描述定义语言 ( d e s c r i p t i o n d e f i n i t i o n l a n g u a g e ) , mp e g - 7 标准 对它的定义如下: d d l是一种语言, 它允许生成新的描述框架和描述 子,同时也允许扩充和修改现存描述框架与描述子。目前,x ml模 式语言己经被选作为d d l语言的基础。 四、系统 ( s y s t e m ) , m p e g - 7系统包括两类工具, 第一类工具为高 效的传输与存储提供mp e g - 7 描述, 同时使内容与描述同步化; 第二 类工具是有关管理和保护知识产权的工具。 由此我们可以看出, mp e g - 7 标准并不研究特征的提取过程和搜 索引擎的建立, 但是它 将为所有的多媒体特征建立一个通用的描述接 口,从而方便于高层的广泛应用。 然而, 我们也知道尽管mp e g - 7 标 准框架早在2 0 0 1 年就已 经发布, 但是有关多媒体内容描述的具体理论 与方法仍然处在研究阶段。基于内容视频分割技术开发正是这些理论 与方法的研究,它主要涉及有关图像与视频的特征提取、描述、索引 以及检索与浏览等内容。因此,基于内容的图像与视频检索研究必将 为mp e g - 7 标准的实施增砖添瓦。 但同时我们也应该明 确, 基于内容 的视频研究的目的并不是为mp e g - 7 提供直接的支持, 其它针对不同 应用领域的 标准, 比 如: s m p t e / e b u , t v - a n y t i m e , d i g - 3 5 等等也 将得益于此课题的研究。 总之, 视频分析技术的研究己经取得了很大的进展,但距离真正 走向实用,还有很长的路要走。本文希望通过研究视频场景检测的相 关技术,为推动这项技术的发展尽绵薄之力。 北京交通大学硕士学位论文 第二章 视频分割的研究内容 2 . 1 概述 在过去的十几年中,有关视频数据获取、传输、存储等方面的理 论与技术研究得到了长足的进展,然而有关视频数据的查询与描述方 法仍然处于发展的初期。近几年来,这方面的研究逐渐成了国内外多 家科研机构的研究热点,与此同时传统的基于文本标注的多媒体信息 检索技术受到了严峻的挑战。 目 前,由于存在大量的视频数据源,所以 有关视频特征提取,描 述及视频结构与内容的理解成为目前巫需解决的课题。一方面我们需 要一种机制能够自 动的分析与总结视频内 容,比如,在应用中我们希 望在快速浏览某视频段的主要内容时,不再需要从头至尾经过一个多 小时的浏览,而是经过短短的几分钟就可以了解视频的主要内容而没 有忽略任何重要的部分。在传统的方法中,视频分析与总结是由电影 制作人经过繁琐的人工操作来完成的,即使在目 前机器学习及人工智 能的技术的协助下,这一过程也是一个很困难的问 题,因此视频内容 分析的初期任务并不是建立一个完全自 动的系统,使它能够模仿电影 制作者的工作,而是想办法建立一个半自 动化的系统,使它能够在人 的协助下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论