(计算机应用技术专业论文)面向足球比赛的视频摘要生成技术研究.pdf_第1页
(计算机应用技术专业论文)面向足球比赛的视频摘要生成技术研究.pdf_第2页
(计算机应用技术专业论文)面向足球比赛的视频摘要生成技术研究.pdf_第3页
(计算机应用技术专业论文)面向足球比赛的视频摘要生成技术研究.pdf_第4页
(计算机应用技术专业论文)面向足球比赛的视频摘要生成技术研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 随着网络以及多媒体技术的迅速发展,涌现出了大量的数字视频,如新闻、 广告、娱乐节目、个人自制视频等。在快节奏的现代社会里,数字视频的大量涌 现引发了一个重要的问题,即如何快速浏览大容量的视频数据,如何简洁地表现 视频的内容。这就需要用到视频摘要技术。 在回顾视频摘要的一些关键技术之后,本文提出了两种特别针对足球比赛视 频的摘要生成算法,也可以称为足球比赛精彩场景的提取算法。第一个是基于镜 头切换模式的足球比赛精彩场景提取算法。它首先把镜头分为两类:全局镜头和 特写镜头,然后根据这两类镜头的切换模式来提取精彩场景。第二个是基于文本 变化的足球比赛精彩场景提取算法。它通过跟踪视频中文本的变换来定位足球比 赛的精彩场景。 本文还实现了一个新型的数字视频服务平台,是对当前一些流行的视频分析 处理技术的实际应用的一次尝试,也是对上述两种足球比赛精彩场景算法的一个 验证。 关键词视频摘要,足球比赛视频,精彩场景,数字视频服务平台 浙江大学硕i 学位论文a b s t r a c t a b s t r a c t a st h eg r o w i n go f i n t e r a c ta n dm u l t i - m e d i a t e c h n o l o g y , d i g i t a lv i d e ob o o m s ,s u c h a sn e w s ,a d v e r t i s e m e n t , h o m ev i d e oa n de t c i naf a s tp a c es o c i e t y , t h er u s h i n go f d i g i t a lv i d e ob r i n g so u tab i gq u e s t i o n ,h o wt ob r o w s el a r g ea m o u n to f v i d e od a t av e r y q u i c k l y , a n dh o w t or e p r e s e n th u g ev i d e ov e r yc o n c i s e l y 7t h e s ea r et h et a s k so f v i d e o s u m m a r yt e c h n o l o g y i nt h i sp a p e r , w ef i r s tr e v i e ws o m ek e yt e c h n o l o g i e so fv i d e oa b s t r a c la n dt h e n w eb r i n gf o r w a r dt w os p e c i a l - p u r p o s ev i d e oa b s t r a c tm e t h o d s ,w h i c hc a nb eu s e dt o e x t r a c th i g l l l i g h t e n e sf r o mf o o t b a l lm a t c hv i d e o mf i r s tm e t h o di sb a s e do nv i d e o s h o ts w i t c h i n gp a t t e r n i td i v i d e sa l lt h ev i d e os h o t si n t ot w oc a t e g o r i e s ,a n de x t r a c t s h i g h l i g h ts c e n e sb a s e do l lt h es w i t c h i n gp a t t e r no ft h e s et w os h o tc a t e g o r i e s n 峙 s e c o n dm e t h o di sb a s e do nt h ec h a n g i n go fv i d e ot e x t i tl o c a t e st h eh i g h l i g h ts e e n e s b yd e t e c t i n gt h ec h a n g i n go f t e x ti nv i d e os t r e a m an e x tg e n e r a t i o ni n t e a a c t i v ev i d e os e r v i c ep l a t f o r mi si m p l e m e n t e di nt h el a s t p a r to ft h i sp a p e r i ti sa ne x p e r i m e n tt op u ts o m eo ft h ep o p u l a rv i d e oa n a l y s i s t e c h n o l o g yi n t op r a c t i c e ,a n di ti sa l s oav a l i d a t i o no f t h et w of o o tm a t c hv i d e oa b s t r a c t m e t h o d s 。 k e y w o r d sv i d e oa b s t r a c t , f o o t b a l lm a t c hv i d e o 。h i g h l i g h t 鲇e n e ,d i g i t a lv i d e o s e r v i c ep l a t f o r m 浙江大学硕士学位论文圈目录 图目录 图3 - 1h s v 色彩空间模型1 5 图3 - 2 草坪颜色在h s v 空间的分布1 6 图3 - 3 一个典型的足球比赛镜头1 7 图3 4 色度直方图1 8 图3 - 5 亮度和饱和度直方图1 9 图3 - 6 草坪颜色检测结果2 0 图3 7 两个典型的足球比赛镜头2 l 图3 - 8 利用水平取景框扫描镜头2 1 图3 - 9 利用竖直取景框扫描镜头2 2 图3 1 0 一段连续的足球比赛镜头2 4 图4 1 几个典型的视频文本检测结果。3 2 图5 1 数字视频服务平台架构3 7 图5 - 2 前台服务子系统架构3 9 图5 - 3 后台管理子系统架构4 0 浙江大学硕士学位论文 第1 章绪论 第1 章绪论 1 1 背景 互联网用户数和带宽不断扩展刺激了视频技术的发展。计算机硬件的发展使 家用计算机具有处理和存储视频资料的能力,而家用数字摄像设备的发展使家庭 用户可以很容易地摄制一段视频并把它们以数字方式装入电脑,这些都为数字视 频处理技术的发展提供了基础。 基于内容的视频分析技术是现有的视频处理技术中,发展最快,也是相对比 较成熟的。它在当前的多媒体信息的浏览和检索过程中显得必不可少。基于内容 的视频分析是指使用计算机对多媒体数据,如包含图像和声音的视频数据,进行 语义上的分析和理解。如何快速浏览大容量的视频数据,以及如何获取和表现视 频的内容,是基于内容的视频分析技术的主要任务。 基于内容的视频分析技术的快速发展产生了很多新的应用和对新技术的研 究和发展。在这些新兴的研究领域中,有一些应用和研究针对的问题是如何利用 对视频内容的分析来减小视频存储、分类和索引的代价,以及如何提高视频的使 用效率,可用性和可访问性。这就是视频摘要技术。 视频摘要“i d e oa b s t r a c t ) ,顾名思义即是对一长段视频内容的简短的总结。 更加明确一点,视频摘要就是一连串静止或运动的图像,它们用精简的方式代表 了原内容的要点。理论上视频摘要可以通过手工或自动的方式来完成,但由于视 频数据的庞大以及人力资源的短缺,开发一种有效的视频分析与处理工具来减轻 人的工作量己成为必然。 视频摘要按表现形式可以分为:静态视频摘要( 叉称视频概要) 和动态视频 摘要( 又称缩略视频) 。 静态视频摘要是从原始视频中剪取或生成的一小部分静止图像的集合,这 些代表了原始视频的图像称为关键帧( k e y f r a m e ) 。因此生成静态视频摘要的主要 任务就是准确、高效的生成这些关键帧。 动态视频摘要是由一些图像序列以及对应的音频组成,它本身就是一个视频 片断,同时比原始视频短的多。一般来说,生成动态视频摘要的任务包括图像、 声音的分析过程。 浙江大学硕士学位论文第1 章绪论 随着基于内容的视频摘要技术的发展,一些用于特定领域的视频摘要技术也 被提了出来。例如,自动提取和检测体育视频中事件的研究就引起了很多关注, 其中足球比赛视频中精彩场景的提取是这个研究领域的一个热门主题。对于足球 比赛来说,比赛时间很长,然而在整个比赛过程中令人感兴趣的事件( 例如射门) 却很少。如果能够检测出其中的射门镜头,并自动生成射门集锦再提供给用户, 那么就会使用户在浏览时更加有针对性,同时也为足球视频的自动编辑和分类存 储带来便利。 1 2 本文的主要内容 本文的第二章回顾了视频摘要的一些关键技术,如镜头边界检测技术,关键 帧提取技术,以及缩略视频生成技术等。 第三章提出了基于镜头切换模式的足球比赛精彩场景提取算法。这个算法把 镜头分为两类:全局比赛镜头和特殊镜头,然后根据这两类镜头的切换模式来定 位足球比赛的精彩场景。 第四章提出了基于文本变化的足球比赛精彩场景提取算法。这个算法根据视 频帧中文本图像的变化情况来确定足球比赛的精彩场景。它解决了在文本提取算 法的准确度比较低的情况下的文本变化的检测。 第五章实现了一个新型的数字视频服务平台,它是对当前一些流行的视频分 析处理技术的实际应用的一次尝试,也是对第三、四章中足球比赛精彩场景提取 算法的一个验证。 最后一章对本文作了总结,同时,也对视频摘要技术未来的研究方向作了展 望。 2 浙江大学硕士学位论文 第2 章视频摘要的相关技术 第2 章视频摘要的相关技术 视频作为一种重要的多媒体信息,它比文本、图像包含更丰富的信息,但是 却无法像文本那样直接地给出它的内容或者直接地进行内容的比较。因为视频数 据属于一种非字符数值数据,它与传统数据库系统中的字符数值数据有很大的不 同。 从另外一方面讲,视频是可以进行结构化描述的,但是视频数据本质上仍是 一个二维图像流序列,是非结构化的。要实现对视频进行更高层次的处理( 如摘 要的生成,精彩场景的提取等) ,首先必须对原始的视频数据进行处理。在所有 基于内容的视频分析系统中,首先必须对非结构化的视频流进行分割,使之成为 一系列镜头的集合。然后,在根据镜头之间事件发生的地点或用户所关心的对象 把相邻的镜头聚类为场景,使之成为结构化的数据。 视频分割后的处理包括视频结构的分析和视频单元的自动索引。视频结构的 分析是指通过镜头边界的检测,把视频分割成基本的组成单元镜头;视频数据 的自动索引包括代表帧的选取和静止特征与运动特征的提取;视频聚类就是根据 这些特征进行的。不同的应用在分割后的处理过程各有不同。例如,可以把这些 镜头或者场景归类,这些预定义的类别可以是高层的( 比如音乐会) ,也可以是 相对底层的( 某首歌) 。在这种语义层上归类的基础上,一种可能的处理是生成 文字形式的索引。除了这种传统的标签索引外,一些声音或者图像特征也可以作 为索引。当然,也可以在视频分割的技术上生成摘要,视频摘要可以提供一个可 以快速浏览的片段。 2 1 视频数据的典型结构 视频可以在不同的层次描述,这些层次由低到高可以分为:视频帧( f r a m e ) , 镜头( s h o t ) ,场景( s c e n e ) ,故事( s t o r y ) 以及原始视频流( v i d e os t r e a m ) 。 般来说,一段视频可能包含一个或多个故事单元,每个故事单元可以划分为几 个场景,每个场景包含一个或多个镜头,每个镜头又由一系列连续记录的帧组成。 帧( f r a m e ) :视频中的一幅静态的图像叫做帧。帧是组成视频的最小视觉单 位,时序上的帧序列可以产生动态的效果。 镜头( s h o t ) :一台摄像机在一次操作过程中记录下来的一组连续的视频帧。 浙汀大学硕士学位论文第2 章视频摘要的相关技术 它通常表示一个简单的事件或连续的动作。镜头是视频数据的基本单位,任何一 段视频数据流都是由许多镜头组成的。 场景( s c e n e ) :场景一般由多个有相同的空间或时间的连续的镜头组成。它 通常描述了一段具体的语义内容。例如,记者招待会可以视为一个场景,不同的 提问和回答则是镜头。 故事( s t o r y ) :故事由一系列在时间上连续的相关场景组成,它包含一个完 整的故事或者事件。例如,一个故事可能包含发生在不同时间和地点的多个场景。 显然,故事是一种比镜头或者场景具有更高抽象层次的结构。但是现有的文献对 它并没有统一的定义,不同的研究人员给出的名称也不尽相同。 视频流( v i d e os t r e a m ) :视频流代表了原始的视频数据。它可能包含一个 或者多个故事,但是,通常在研究中,我们认为一个视频流只包含个故事。例 如,我们认为一段足球比赛的视频只是包含了一场足球比赛。 2 2 镜头边界检测 2 2 1 镜头的切换 由于一个镜头只能拍摄相邻地点连续发生的事情,它的描述能力有限。所以 大多数的视频都是由许多镜头通过编辑连接而成的。镜头是视频数据的基本单 元。大多数视频是通过编辑,由一个个镜头连接而成的,所以要对视频进行处理, 首先要把视频自动地分割为镜头。以作为基本的索引单元,这个过程就称为镜头 边界的检测,也叫场景转换检测( s c e n e c h a n g e d e t e c t i o n ,s c d ) 。 另外一个方面,镜头切换主要是人为的,在视频的制作过程中,镜头切换是 制作者精选挑选以符合视频内容的需要的。因此,它能够帮助观察者理解视频的 高层语义,也能够帮助计算机推断高层的语义。比如,在故事片中隐现( d i s s o l v e ) 常用来表示时间的流逝。同样,融合通常出现在故事片、纪录片、传记片中,而 较少出现在新闻、体育等节目中;而滑入( w i p e ) 转换则正好相反。因此,在这 种情况下,自动检测镜头的边界及其类型可以用来自动识别视频的类型。 根据镜头之间的衔接方式的不同,镜头切换分为突变和渐变两种。 ( 1 ) 突变:突变是指两个镜头之间没有过度,一个镜头直接转换为下一个 镜头。 ( 2 ) 渐变:渐变是指从一个镜头到另一个镜头的缓慢过度过程,没有明显 的镜头跳跃。渐变的方式有很多种,而且不断有新的方式出现。常用的有淡入、 4 浙江大学硕士学位论文第2 章视频摘要的相关技术 淡出( f a d ei n f a d eo u t ) 、隐现( d i s s o l v e ) 、滑入( w i p e ) 等。从编辑的角度看, 渐变是因为加入了一些空间或色彩上的编辑效果。淡入是渐渐把画面现实出来, 淡出是使画面慢慢变弱直至消失;隐现是上一个镜头的淡出与下一个镜头淡入的 效果的融合;滑入则是在空间上一个镜头逐渐地被下一个镜头代替。 渐变方式通常可以分为三类:空间变换,如滑入( w i p e ) ;色彩变换,如隐 现( d i s s o l v e ) ;以及空间一色彩变换。空间一色彩变换在空间和色彩方面都做 了改变。变形效果基本都属于这一类。实际上,在实际应用中几乎所有的空间变 换类型的切换都可以归入空间一色彩变换这一类,因为一些色彩操作总是要用于 前后镜头的边界。 2 2 2 镜头边界检测算法 一般而言,同一个镜头内的各帧之间差异较小,而不同镜头的帧间差异较大。 因此,在视频分析与处理中,镜头边界检测有着非常重要的地位。镜头切换时, 镜头中的内容将发生一系列的变化,例如,对象颜色的变化,对象形状的变化, 甚至对象的替换。由于镜头切换方式的多种多样,因而镜头边界检测的算法也很 多。尽管如此,镜头边界检测的技术还不是很成熟,尤其是对于渐变镜头来说。 本节将介绍一些流行的的镜头边界检测算法。 基于灰度的方法 该方法 3 的基本思想是计算两帧之间所有对应像素点的灰度差绝对值的 和,即总的帧灰度差。 f d 5 去军莓( 五y ) 其中m ,为图像的高度和宽度,力是在( x , y ) 点上两帧之间的灰度差。 如果总的帧灰度差大于某一设定的阈值,则存在镜头的突变。 这种方法的主要缺点是对噪声和镜头或物体运动非常敏感,因为它严格地局 限于像素的位置。噪声和物体运动都会使帧间差增大,从而导致错误的场景转换 检测。因此文 4 提出了一个改进的方法,先进行平滑滤波,然后再计算帧间差。 基于边缘的方法 边缘特性可用于镜头边界检测 6 ,7 。它的基本思想是“在发生镜头转换时, 新出现的边缘应远离旧边缘的位置。同样,旧边缘消失的位置应远离新边缘的位 浙汀大学硕士学位论文 第2 章视颁摘要的相关技术 置”。它首先提取前后两帧视频图像的边缘图,计算两帧视频图像之间的差异。 如果差异值大于某个预先设定的阈值则认为出现了镜头的切换。帧差由边缘变 化的百分比表示,即边缘从一帧到另一帧移进和移出的比例。 由于该方法是先进行配准,然后才进行边缘比较,因此该方法对于运动是稳 健的。但是帧差的计算比较复杂。在实际应用中,不同类型的视频应选择不同的 阈值。如体育比赛的镜头运动较多,应选择较大的阈值:而新闻节目主持人的镜 头运动较少应选择较小的阈值。为了使检测算法具有更强的适应性。阈值应根 据视频的内容自适应地选定。 基于直方图的方法 几乎所有不同的比较相邻两帧间灰色或者彩色直方图的算法都可以被用来 检测突变( 7 ,8 ,9 3 。基于直方图的方法有直方图帧差法( b 2 b ) ,z 2 检验直方图差 法( c h i ) ,直方图最小针差法( i n t ) ,以及平均彩色法( a v g ) 等。上述直方图 差值度量方法除 v g 方法只适用于1 - d 直方图外,其它方法都适用于1 - d ,2 _ d 或3 一d 直方图。帧彩色图像的直方图可以表示成三个独立的卜d 分布。或者亮 度轴以外另两个坐标轴的2 - d 分布或者一个3 一d 分布。 直方图法是使用得最多的计算帧间差的方法,它不考虑像素的位置信息,而 使用像素亮度和色彩的统计值,因而抗噪声能力比较强。其缺点是两幅图像可能 内容完全不同但直方图相似,也容易造成误识剐。在实际使用中,上述的帧问差 计算方法在镜头突变识别中往往并不是单独采用,而是两种甚至多种方法混合使 用。 基于块匹配的方法 对于非压缩视频可以采用块匹配镜头的镜头边界检测算法。块匹配算法的基 本思想是把视频帧分为相同大小的子块,然后对连续视频帧间的对应子块进行匹 配,从而得出帧间的相似性。 最基本的基于块匹配的方法采用运动平滑性度量来检测镜头变化。首先把所 选的接续帧分成8 x 8 的予块,每个子块都在下一接续帧的3 0 x3 0 像素临域内进 行块匹配,然后计算所有子块最佳匹配的相关系数的均值,该均值即代表帧间相 似性,从而可用于镜头突变的检测。 基于块匹配的方法还有一些改进算法。例如,其中的一种改进方法在计算所 有子块最佳匹配的相关系数的均值以后,把所有这些值从大n , b 排列,然后只取 浙江大学硕士学位论文第2 章视频摘要的相关技术 这个队列的前面几个值,计算它们的均值。如果该均值小于某一预先设定的阙值, 可以认为存在镜头的切换。 基于聚类的方法 在不同的场景中,镜头的变化的程度是不一样的。例如,镜头从球员甲切换 到球员乙的变化程度比从篮球场切换到足球场的变化程度要小。文章 1 0 ,1 1 用k 平均聚类算法把镜头的变化分为两类:明显的变化和不明显的变化。在实际情况 中,这两种变化程度之间的区别是模糊的,因此可以用模糊c 平均聚类算法 1 2 进行镜头边界的检测。 把一段视频进行模糊聚类后便得到各个切换属于明显变化和非明显变化两 种变化程度的隶属度。利用这两个隶属度,不仅可以把模糊聚类算法用于检测镜 头的突变,同时也可以把它用于检测镜头的渐变。如果某个镜头的切换属于明显 变化的隶属度大于属于非明显变化的隶属度,则该切换属于明显变化类,并用二 进制1 表示;反之用0 表示。这样便把这段视频表示成二进制序列,例如 1 0 0 0 0 l 0 0 0 0 0 0 1 0 0 0 0 1 1 1 1 1 。经过大量的观察发现,视频序列中镜头突变和渐变具 有一定的模式。因此,通过对视频的二进制序列进行模式判别,便可检测镜头突 变和渐变。 基于模型的方法 对于突变类型的镜头切换来说,利用帧闯差自下而上来进行镜头边界的检测 可以取得较好的效果。上述的一些方法都可以归为这一类。但是这类方法有一个 重大的缺陷,它基本上完全忽略了渐变切换中帧之间结构上的相关性,因此,对 于检测渐变类型的镜头切换来说,存在一定的困难。 基于模型的方法 1 3 可以在一定程度上解决这个问题。它利用了渐变切换中 帧之间结构上的相关性,首先对镜头编辑的先验知识对各种镜头切换建立一定的 数学模型,然后利用模型自顶向下地进行镜头切换的检测。对镜头渐变的检测来 说,基于模型的方法通常能取得良好的效果它的缺点是建模过程比较复杂,而 且对与不同的切换类型需要建立不同模型。这种方法只适用于专业领域,因为切 换类型往往和领域相关,比如,足球比赛和新闻视频的镜头切换模式就不一样。 基于压缩域的方法 目前,绝大多数的视频数据都是以m p e g ,r m v b 等压缩形式存在,对于压缩 浙江大学硕上学位论文 第2 章视额摘要的相关技术 视频进行镜头边界的检测对于实际应用来说非常重要。 首先,一种非常直接的方法是先对压缩形式的视频数据进行解压,然后再利 用一些针对未压缩视频的镜头边界检测技术。这个方法明显的缺点是完全解压比 较耗时,对于大规模的应用来说是不可接受的。 还有些方法可以针对不完全解压的视频帧图像进行镜头边界的检测 1 4 1 。 这些方法在不同程度上都节省了检测的时间,提高了算法的效率。对于以m p e 6 形式压缩的视频来说,有好几种方法可以在压缩域上进行镜头边界的检测。例如, 可以利用p 帧和b 帧编码中的预测矢量的数量和类型的统计特性 1 5 ;可以利用 d c 帧差 1 6 ,即直接利用每个帧的j p e g 压缩格式的d c 图像的差;可以利用压缩 视频中的运动向量进行运动特征的提取来检测镜头边界 1 8 ,还有其他的一些改 进的算法 1 7 ,i s 。这类算法的共同之处是利用了m p e g 压缩格式中i 帧、b 帧、 p 帧之间的关系,或者是程用了每个帧的j p e g 压缩格式中的d c 图像。这类方法 的缺陷是,船e g 算法是面向数据压缩的,丽不是面向视频内容表示的。 2 3 视频摘要概述 数字视频的大量涌现引发了许多新的技术,包括视频存档、编目、索引以及 有效存取等。在众多的研究领域中,有一些应用和研究针对的问题是如何利用对 视频内容的分析来减小视频存储、分类和索引的代价,以及如何提高视频的使用 效率,可用性和可访问性。这就是视频摘要技术。 视频摘要“i d e oa b s t r a c t ) ,顾名思义即是对一长段视频内容的简短的总结。 更加明确一点,视频摘要就是一连串静止或运动的图像,它们用精简的方式代表 了原内容的要点 1 9 。理论上视频摘要可以通过手工或自动的方式来完成,但由 于视频数据的庞大以及人力资源的短缺。开发一种有效的视频分析与处理工具来 减轻人的工作量己成为必然。 2 3 1 视频摘要的表现形式 视频摘要按表现形式可以分为:静态视频摘要( v i d e os u m m a r y ) 和动态视 频摘要( v i d e os k i m ) 。静态视频摘要是从原始视频中剪取或生成的- - d , 部分静 止图像的集合,这些代表了原始视频的图像称为关键帧( k e y f r a m e ) 。动态视频摘 要是由一些图像序列以及对应的音频组成,它本身就是一个视频片断,同时比原 浙江大学硕士学位论文第2 章视频摘要的相关技术 始视频短的多。缩略视频由于含有丰富的时间以及音频信息,因而更加符合用户 的感知。 静态摘要主要有如下几种形式。 ( 1 ) 标题( t i t l e ) 。标题是对视频内容的一段简短的文字描述。它是最紧 凑的视频摘要形式,同时也是抽象程度较高的一种视频摘要形式,非常便于用户 理解和建立索引。然而由于视频内容的丰富性以及人的理解的多样性,往往难以 用有限的文字描述清楚视频的全部内容。因此,如何获得客观而准确的标题是需 要解决的一个问题。 另外一方面,标题一般由人工输入的方式生成,计算机很难自动生成能准确 概括视频内容的文字描述。一种直观的解决思路就是直接从视音频的内容中提 取出标题。例如,对于影片来说,可以通过识别影片名称或影片中的其它注释文 字获得标题;另外,也可以通过语音识别软件分析影片对白,得到文本,通过文本 分析确定标题。 ( 2 ) 海报( p o s t e r ) 。海报又称视频代表帧,关键帧。它是从原视频中抽取或 生成一幅或几幅静态图像,能够部分地表达视频的语义信息。海报又称为视频代 表帧,缩略图等。 基于关键帧的摘要比标题形式的摘要更能从视觉的角度提供更加直观的可 视信息。但这种方式只能反映某一时刻的视频的静态内容,不能展示视频的时间 和动态特性。因此,它一般适合于表现景物内容相似的镜头和场景的视觉特征。 另外,海报形式的摘要对其他形式的静态视频摘要以及动态的缩略视频的生成也 有很大盼参考价值,因此,多年来一直受到研究人员的关注。 ( 3 ) 故事板( s t o r y b o a r d ) 。故事板 2 0 是由一组从视频片段中抽取的图像按 照时间顺序组合而成的摘要形式。故事板可以向用户提供视频的总体描述,在浏 览过程中也可以方便地定位到视频中感兴趣的部分。 故事板类型的视频摘要是一种比较主观的摘要形式,需要选取合适的图像来 代表视频的内容使得多数用户能够理解。另外一个方面,这种视频摘要形式需要 与高层的语义相结合,需要恰当地组合选取出来的图像,以表达一个完整的故事 内容。 故事板是一神普通的视频总结方法,它在提供视频视觉上的信息的同时,一 定程度上解决了使用单帧的图像以及标题不能表达视频的时间信息的问题。在实 9 浙江大学硕士学位论文第2 章视频摘要的相关技术 际的应用中,可以把故事板与文本相结合,这种综合的方式将更能表现视频丰富 的内容,而且也利于浏览和检索。类似故事板的摘要方式还有连环画,幻灯片 2 l 。2 2 等。 ( 4 ) 场景转移图( s t g ) 。场景转移图反映了视频内容的场景转移,它用一种 简洁可视的方式来表现视频数据。可以对视频进行层次化的非线性的浏览 2 3 。 场景转移图是一个有向图,节点代表含有相似镜头的聚类,两个镜头之间的关系 用边来描述,表示镜头的先后顺序。节点与边共同构成了场景图。 场景转移图的方法除了可以提供静态视觉信息和动态时间特性之外,它的镜 头转移关系也可以用来探测一些视觉句法,如对话等。 大多数的静态的视频摘要形式忽略了视频的时间上的特性,虽然故事板和场 景图的摘要方式引入了时间的概念,但就它们的表现形式本身而言,这两种摘要 方式依然是静态的。动态视频摘要则不同,它完全地利用了视频中时间的概念, 而且与视频本身一样,动态视频摘要通常通过播放的方式来展现视频内容。 缩略视频( v i d e os k i m ) 是动态视频摘要的主要形式。它本身也是一段视频, 由视频中的一些片段拼凑而成,或者是由视频中的图像序列和声音片段合成得 到。缩略视频保留了原视频的基本风格,一般包含了原视频中的重要的人物、重 要的时间,片头片尾等。缩略视频的应用范围相当广泛,电影预告片、宣传片就 属于缩略视频。 多媒体影片摘要( m u l t i m e d i af i l ms u m m a r y ) 是动态视频摘要的另外一种形 式,它在缩略视频摘要的基础上加入了文字,镜头图像等其他信息,是一种由多 种媒体形式组成的影片内容表现方式。例如,在一个电影的主题网页中,可能包 含文字形式的简介、声音形式的精彩对白、视频形式的精彩片段等。这种形式提 供了更加丰富的影片内容表现,同时也为用户提供了多种浏览和检索影片的方 式。 2 3 2 视频摘要生成技术 静态视频摘要技术大体可以分为两种:关键帧选择和关键帧构造。关键帧选 择是指直接从视频中选取关键帧的过程:而关键帧构造是指用选择出来的关键帧 序列来进一步构造新的图像。选择的关键帧和构造的关键帧可进一步组织成特定 i o 浙江大学硕士学位论文第2 章视频摘要的相关技术 结构的视频概要,如故事版和场景转移图等。 在多数情况下,静态视频摘要直接采用了关键帧选择的方式,或者仅仅把关 键帧构造的方式作为辅助手段。因此,实现静态视频摘要的关键在于关键帧的提 取,根据关键帧提取方式的不同,关键帧提取方法可分为三种:即基于采样的关 键帧提取、基于镜头的关键帧提取和基于场景的关键帧提取。 从具体的方法来看,关键帧的选择可用的方法有图论、曲线分割、聚类以及 奇异值分解等方法。这些方法的共同过程可以抽象为:将视频的每一帧表示成为 高维特征空间的一个点,计算这些点之间的特征距离,然后选取具有代表性的点 的集合来表示视频内容,或者是用镜头内有明显变化的部分来表示镜头的内容。 聚类是其中最通用的一种方法 2 4 。其原理为对当前帧计算其与已知的聚类中心 的距离若大于预设的阈值则为新类中心否则加入距离最近的类并重新计算该类 中心。 从另外一方面看,完整的视频摘要信息不仅需要从原始视频中选取视频帧, 而且需要构造其他的关键帧信息。例如,镜头的推拉、倾斜应该被总结,重新构 造成为全景图,而不仅仅是用几个关键帧来描述这种场景。n g o 等提出了一种基 于镜头时空片断分析的运动关键帧表示,这种方法能通过运动特征有效的表示镜 头。在这种方法中,对静态镜头选取一个帧作为关键帧,对有相机推拉或倾斜的镜 头构造其全景图。对于有多种运动的镜头。在构造其背景的同时将定期的跟踪前 景对象。 动态视频摘要的生成涉及到对视频、音频的内容分析,因此要比静态视频概 要的生成复杂得多。动态视频摘要的生成涉及到对视频内容高层语义的理解。因 此,在现有的研究水平下。很难提出一种普遍适用的动态视频摘要生成技术。大 多数的缩略视频生成技术都是针对特定领域的。 另外,视频的“重要”部分的确定是一个主观的过程,因此很难将这一过程 与计算机的认知结合起来。目前的动态视频摘要生成技术的研究主要集中在对特 殊视频类别精彩镜头的识别上,如体育节日、新闻节目、记录片、电影等等。在 2 6 j 中,通过对视频的分析,使用足球专业领域的知识,使用边缘检测和特征线 识别紧缺的场景。总的来说,目前的各种精彩场景识别算法都是基于特定规则的, 还没有一种较好的通用识别算法。 尽管没有一种普遍适用的动态视频摘要技术,但是在动态视频摘要的生成过 浙江大学硕士学位论文 第2 章视频摘要的相关技术 程中还是有一些共同的因素需要考虑。例如,视频摘要的持续时间和重要度阈值 的选取,缩略视频片段粒度的选取,以及缩略视频中视音频同步的问题等。这 些问题都关系到用户的体验,需要仔细调整:对于一些比较主观的值,如持续时 间,最后能够让用户自己选择。 2 3 3 体育比赛视频摘要生成技术 目前,体育视频摘要技术一般都基于基于视频结构的分析,它们利用精彩动 作事件的探测等对视频进行结构分析,同时结合多模式技术识别视频中精彩片 段,最后形成摘要进行浏览。由于体育视频的特殊性,同一种类型的体育视频通 常也非常相似,因此有许多种特定的方法可以特别地应用于体育视频的摘要生 成。 ( 1 ) 体育视频通常都有一个定义良好的内容结构。这种结构表现为一些基 本场景的重复出现( 如网球比赛中的发球镜头,篮球比赛的进球镜头) 。这是因 为体育比赛过程本身就存在特定的结构( 例如,篮球比赛总是在进球以后进行底 线发球) ,这些结构是由比赛的规则决定的。另外一个方面,体育比赛的转播通 常也具有一定的模式( 例如,足球比赛进球以后总是会对球员迸行特写) 。检测 并且区分这些基本场景就可以在一定程度上分析出视频的时序结构。 ( 2 ) 体育视频的精彩镜头具有特定的模式。在体育视频中,精彩动作是用 户关注和感兴趣的,特别是在生活节奏加快的今天。特定的体育比赛类型通常具 有同样模式的精彩镜头,例如,足球比赛中的射门镜头、篮球比赛中的广角镜头 和特写镜头等。因此,我们可以通过检测这些镜头来获得体育视频的精彩场景。 但是,从另外一个角度来看,不同类型的体育视频,其精彩场景也不同,精 彩场景的定位需要领域知识进行建模。目前的体育视频注释算法基本上基于某项 体育运动的先验知识,通用性不强,因此将基于领域和通用性有效结合将是以后 体育视频精彩镜头标注研究的方向。 ( 3 ) 体育视频的精彩片段会重放。虽然体育视频中的精彩片段和领域有关, 但是在体育比赛转播中,为了欣赏的方便,比赛中的精彩片段一般会重放重放。 因此,基于重放镜头检测进行精彩动作提取往往不需要先验知识,基于重放镜头 1 2 浙江大学硕士学位论文第2 章视频摘要的相关技术 的精彩动作检测的研究有很大的应用前景。而且这种方式定位的精彩场景通常比 较准确,因为重复都是人工干预完成的,只有转播员认为是精彩的才会进行重放。 重放镜头的检测,一般有两种方式。第一种方式通过对标志变换的探测来确 定重放片段 2 7 。体育节目中重放片段的起始和结束通常伴有特殊台标的镜头变 换过程,因此,在重放片段的起始或结束标志变换中,其中帧的特定空间区域都 有一个相同的标志图形。另外一种方式是基于帧间变化率来确定重放片段。重放 的片段很多时候是以慢镜头来进行的,因此可以通过检测帧间的变化程度,或者 检测镜头中物体的运动速度来确定重放镜头。 体育视频的摘要生成和精彩场景检测还可以结合音频等其他信息 2 8 。体育 比赛共性与特性的建模,以及视频高层语义和底层特征之问的鸿沟,是今后体育 领域视频摘要的主要两个研究方向。 2 4 本章小结 本章对视频摘要的相关技术进行了概述。第一节对视频的基本结构进行了分 析。第二节则对一些流行的镜头边界检测方法进行了回顾,镜头的边界检测是摘 要生成的基础。第三节首先描述了视频摘要的一些基本概念,然后回顾了视频摘 要的一些关键技术。第三节的最后特别地对体育比赛视频的摘要生成技术进行了 回顾,为我们足球比赛精彩场景提取算法提供一个更加具体的背景。 浙江大学硕士学位论文第3 章基于镜头切换模式的足球比赛精彩场景检测 第3 章基于镜头切换模式的足球比赛精彩场景检测 在足球比赛视频中,精彩场景( 如射门等) 是用户所关注和感兴趣的,特别 是在生活节奏加快的今天。足球比赛视频中,精彩场景发生后的镜头通常具有一 定的规律。例如,足球比赛中进球之后,会对进球球员进行特写,还可能会对进 球场景进行重放。因此,我们可以通过检测这些镜头来获得足球比赛视频的精彩 场景。 3 1 镜头的分类 足球比赛视频中的镜头可以分为两类:全局的比赛镜头、特写镜头。从语义 上说,前者表示比赛在正常进行当中,而后者则表示由于球场上突发事件( 如进 球,犯规等) 引起的暂停。从镜头的底层特征上来看,这两类镜头也有明显的却 别。在这节中,本文将用统计的方法和h s v 颜色模型把镜头分为两类。 3 1 1 草坪颜色的静态h s v 模型 考虑到足球比赛草坪的颜色分布与场上其它物体的颜色分布一般不同,而且 不同物体的颜色除了受光照影响较大外,与物体的大小、伸缩及姿态基本上无关, 因此,采用草坪颜色模型作为足球场地的粗略定位是可行的。从比赛规则的角度 讲,为了利于比赛的转播,利于现场观众能够很容易地识别双方队员以及裁判员, 各个足球比赛协会也规定球衣或者裁判服的颜色必须要能与场地容易地区分开 来。 颜色模型作为物体的识别方法已经得到了广泛地研究,特别是在人脸检测领 域,基于人的皮肤颜色模型的人脸检测算法已经被实践证明能够得到良好的效 果。同时,已经有很多种色彩空间被利用来进行人体皮肤颜色的建模,除了基本 的r g b 色彩空间之外,还有h s v ,y l o ,以及y c b c r 色彩空间等等。在通过对足球 比赛草坪的颜色特征进行研究之后,采用了h s v 颜色空间来对草坪颜色进行建模。 要检测不同生长状况,不同天气条件下草坪的颜色,选择一种适应面较广的 颜色模型是很重要的。经过对一些足球比赛视频的研究发现,草坪颜色在r g b 颜 色空问中分布在一个很小的一个范围内。事实上,在日常生活中,人们也通常认 1 4 浙扛大学硕士学位论文第3 章基于镜头切换模式的足球比赛精彩场景检测 为,。足球比赛的草坪是绿色的”。但是,由于亮度的影响,不同光照条件下的草 坪颜色是不一样的虽然归一化r g b 模型能够减小亮度的影响,但由于同样受亮 度影响的色彩饱和度没有从该模型中分离出来,因此该模型仍然对亮度的变化较 敏感。 为此,根据一些实验,以及其他研究者在肤色建模领域的经验,我们发现h s v 颜色模型更加接近于人对颜色的感知,因此,本文将使用h s v 颜色空间作为草坪 颜色分类的特征空间。下面,先简要介绍以下h s v 色彩空间,以及它与r g b 色彩 空间的转换关系。 h s v 是h u e ( 色度) ,s a t u r a t i o n ( 饱和度) ,以及v a l u e ( 亮度值) 三个单词 的缩写,有时也写作h s b 。其中h s b 用b ( b r i g h t n e s s ,亮度) 代替了b s v 中的v , 但它们的涵义都是一样的。其中h u e 代表了颜色的类型,例如红、绿,蓝等等; s a t u r a t i o n 代表了颜色的纯度,饱和度越小,灰度越大;而v a l u e 则很显然代表 了亮度。下图是h s v 空间的一个圆锥模型,它很清楚地表达了一个完整的h s v 空 间。很显然,我们人眼所感受到的颜色类型与h 值关系比较大,及颜色类型随着 h 这个圆周变化比较大,而与v 这个高,或者s 这个半径关系不大。因此,我们 把h u e ( 色度) 值作为区分草坪颜色的主要依据。 圈3 - i h s v 色彩空间模型 实际的数据也证明了把色度值作为区分草坪颜色的主要依据的观点是可行 的。下图是从不同的足球比赛视频中采集的草坪颜色在h s v 色彩空间的分布。为 了能够更加直观地反映各个值之间的关系,根据w i n d o w s 标准调色板,本文把h , s 和v 都映射到0 2 4 0 的区间内。 浙江大学硕士学位论文第3 章基于镜头切换模式的足球比赛糟彩场景检测 图3 2 草坪颜色在h s v 空间的分布 l5 0 s h 1 2 0 4 0 矿2 0 0 1 2 0 s s 2 4 0 从实验的效果来看,上述的模型虽然简单,但确实是行之有效的。这是因为, 在足球比赛的视频中,草坪的颜色是“显眼”的,也就是说很少会有其它相近的 颜色干扰这个模型。另外个方面,这个模型的最终目标是得出草坪颜色在某个 区块中占所有像素的百分比,这样一个目标也允许算法存在一定的误差。 1 6 浙江大学硕士学位论文第3 章基于镜头切换模式的足球比赛精彩场景检测 3 1 2 草坪颜色模型的动态调整 上一节给出了h s v 空问中的一个简单的草坪颜色模型,它是简单有效的。由 于光照的不同,草坪自身存在的差别或者其他等原因,上述的模型中的阈值只是 定义了一个很宽泛的区间。这个宽泛的区间可能会导致一些错误的信息,例如, 上一节定义的草坪颜色模型会把绿色的球衣判定为草坪。为了使模型更加准确, 本节将提出一种方法,根据特定的足球比赛视频来动态地调整草坪颜色模型。它 的基本思想是,统计在“绿色区域”中各种颜色所出现的次数,出现最多的颜色 就是足球场地的颜色。 算法分为三个步骤。首先,利用色度直方图来确定色度区间;然后,在第一 步计算得到的区间中,进步分别计算亮度和饱和度直方图,以此确定亮度和饱 和度的区间;最后,根据前两部计算得到的区间,调整模型的阈值。 下图是2 0 0 6 年世界杯小组赛沙特对突尼斯的比赛的一个镜头。下面,将用 这个镜头来详细说明算法的整个流程。 图3 3 一个典型的足球比赛镜头 首先,可以得到颜色色度颜色直方图如图3 q 。其中,色度值被映射到0 3 6 0 的区间上,在这一步的计算过程中,只需要统计在原始模型定义的色度范围中的 像素点。这样做有两个好处:首先,显然,可以减少计算量;第二,可以尽量减 少其他的非草坪颜色的干扰。例如,在整个色彩空间范围内,观众席的颜色可能 也会占很大的比例。 进一步地观察色度直方图可以发现,色度主要集中在( 8 7 ,9 7 ) 和( 1 5 0 , 1 6 0 ) 之间。其中,第一区间代表了草坪的颜色,第二个区间则代表了球衣的颜 色。事实上,仅凭这个色度直方图是很难判断哪个区域代表了草坪,哪个区域代 表了球农。因此,这里就涉及到一个草坪颜色代表区域的选取问题。首先,可以 选取一些持续时间比较长的镜头来进行统计。因为时间较长的镜头般是正常比 1 7 浙江大学硕士学位论文第3 章基于镜头切换模式的足球比赛精彩场景检测 赛的镜头,即全局镜头。在全局镜头里,球场通常占了镜头的大部分。另外,还 可以通过累加同一个视频中不同镜头的直方图,抵消少数镜头中的“不安定因 素”。 在得到镜头的色度直方图之后,就可以缩小代表草坪颜色的色度区间。首先, 找出5 个包含像素点最多的色度值,在这个例子中这5 个色度值就是9 2 ,9 l ,9 3 , 1 6 0 ,1 5 2 。然后,对于其中每一个色度值x ,计算( x 一5 ,x + 5 ) 色度值区间 内像素点的个数。其中,包含像素点最多的区间就是草坪颜色的色度值区间。在 这个例子里,( 8 7 ,9 7 ) 就是目标区间。 图3 4 色度直方图 为了进一步对草坪颜色模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论