




已阅读5页,还剩59页未读, 继续免费阅读
(信号与信息处理专业论文)篮球比赛视频分析关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着多媒体技术的发展和信息高速公路的出现,数字视频的存储和传输不再是一件困难的事情,不同体育赛事的举办直接导致了体育视频数据的爆炸式增长,因此,高效的体育视频分析很有必要。本文针对篮球视频分析中的关键技术进行研究,主要包括镜头分割,镜头粗分类及记分牌检测和定位。具体内容为:1 在镜头分割中,首先将视频帧数据在h s v 颜色空间下进行量化降维,随后依据直方图的统计特性,计算连续帧差值,累加帧差值及窗口帧差比,并以此确定自适应窗口均值、多个动态阂值及滑动窗口进行突变镜头和渐变境头分割。2 在镜头粗分类中,首先在每个镜头内等间隔地提取关键帧,随后得出主颜色序列,并对主颜色序列进行方差统计和聚类颜色比率的计算,最后依据比赛帧比率来进行镜头分类。3 记分牌检测和定位,首先对含有记分牌的帧图像进行多维相关性分析,随后对记分牌进行定位,同时得出位置参数和检测参数来创建记分牌模板,最后利用模板匹配的方法进行记分牌检测和定位。关键词体育视频分析;镜头分割;镜头粗分类:记分牌定位a b s t r a c tw i mt h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g ya 1 1 dt h ca p p e a r a i l c eo fi n f b r n l a t i o nh i 曲、v a y ,t h es t o m g ea 工l d 仃a 1 1 s m i s s i o no fd i g i t a lv i d e oh a sb e c o m eal e s sd i 街c u l ti s s u e v 撕o u ss p o r tg a m e sb r i r 培t h ee x p l o s i v ee x p a n d i l l go fs p o r tv i d e o ,t 1 1 e r e f o r e ,e 茄c j e n ta 1 1 a l y s i so f s p o n “d e oi sn e c e s s a 阱i nt h i sp 印e r ,衄e ek e yi s s u e sa r es t u d i e di nn l ea n a l y s i so f b a s k e t b a l lv i d e o :s h o ts e g m e n t a t i o n ,s h o tc o a r s ec l a s s i n c a t i o na n dd e t e c t i o na i l dl o c 砒i o no fs c o r e b o 莉t h ef o n o 沌ga l g o r i sa r ep r o p o s e d :1 a na l g o r i 也mo fs h o ts e g m e n t a t i o ni sp r o p o s e d f i r s t l y t h ed a t a 沁e a c hf 锄ei sq u a m i z e di 1 1h s vm o d e l ;t l l e nb a s e do nl l i s t o g m m0 fe a c hf h m e ,也ed i f r e r e n c eo fa d j a c e n t e s ,m ed i f i b r e n c eo fc 啪u l a t e 疳锄e sa n dt h ep e r c e m a g eo ft h e 丹蛐ed i c ei nad 萌n e d 州n d o wa r ec o m p u t c d ;f i l r h e n l l o r e ,t l l ea d 印t i v ea v e r a g ei na“n d o w 也ea d a p t i v et h r e s h 0 1 d sa n ds l i d i n g 谢n d o w sa r eo b t a i n e d f i n a l ly ,s h o ts e g m e n t a t i o ni si m p l e m e n t e du s i n gt h ea b o v ep e t e r s 2 aa l g o r i m mo fs h o tc o a r s ec i a s s i f i c a t i o ni sp m p o s e d ,f i r s t l y ,k e yf h u n e sa r ee x 仃a c t e di 1 1e q u a li m e r v a li nas h o t ;t h e nf o raf 锄e ,d o m i n a n tc o l o r sa r eo b t a i n e db yh u e ,f i 矧【l l e m l o r e ,也ev 撕a i l c eo fd o m i n a mc o l o r sa r l dr a t i oo fc l u s t e r e dc o l o i sa r cc o m p u t e d ,b yw h i c ht h ec o r r c s p o f l d i n g 丘锄ec o u i db ec l a s s 弧e di n t op l a y i n go rn o n - p l a y i l l gf 函e ,f j n a l ly as h o tc o u l db ec l 嬲s i 蠡e db yt h ep e r c e n t a g eo fp l a y i n gf 姗e s 3 a 1 1a l g o r i t h mo fd e t e c t i o n 甜l dl o c 砒i o nf o rs c o r e b o a r di sp m p o s e d f i r s t l y t l l et e m p l a t eo fs c o r e b o a r di s b l l i l tu s i n gm u l t i d i m e n s i o n a lc o r r e l a t i o n ,i ti n v o l v e st 1 1 el o c a t i o na n d 协ed e t e c t i o np 猢e t e lt h e nt h es c o r e b o a r di s1 0 c a t e db yt l l et e m p l a t em a t c h i n g k e y r d ss p o r tv i d e oa n a i y s i s ;s h o ts e g m e n t a t i o n ;s h o tc o a r s ec i a s s i n c a t i o n ;l o c a t i o no fs c o r e b o a r di j独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:弦型聋日期:趔12 里2关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。( 保密的论文在解密后应遵守此规定)签名:_ = 蜂导师签名:毒旺日期:出7第】章鳍论1 1 研究背景及意义第1 章绪论2 l 世纪是信息时代,随着因特网技术和宽带多媒体业务的发胀,人们对视频数据的存储、检索、加工等应用提出了更新更高的要求【l j 。为了充分利用视频信息,人们希望以一种自适应方式来使用视频媒体,也就是在任何时问任何地方以任意的方式消费视频媒体。人们可以坐在家里访问远端的多媒体数据库一进行视频点播、电子购物和访问多媒体图书馆等,同时也可以快速的浏览所需的视频片断。因此,如何自我判定外界情况,交互式地进行信息处理,理解信息内容;如何按照要求获取散布于全球互联网的视频信息;如何通过自动学习整理知识,构成丰富多彩的交互式视频内容服务,成为数字化时代人们追求的目标。这使得视频的智能处理、有效组织、检索和管理等相关技术的发展更为迫切。2 0 0 8 年奥运会在中国北京举行,届时北京要将各种体育视频传播到世界各个角落,为此对体育视频的分析检索显得极为重要。与其他视频相比,体育视频有其独自特点,具体阐述如下:( 1 ) 体育视频结构性强结合体育比赛的领域规则就不难发现,体育比赛视频的结构性很强。以篮球比赛为例,一场篮球比赛分为四节,每节又由若干次比赛双方球员的防守和进攻回合组成,每个回合通常都包括运球、传球、投篮和进球等事件,如此有规律的视频内容组织结构给体育视频分析带来了极大的便利。( 2 ) 体育视频的拍摄与编辑有着较强的规律性一般来说,体育运动的视频中摄像机的数目是有限的,各个摄像机拍摄的角度也是相对固定的。在不同位置和不同角度所拍摄的视频帧为用户提供了重要的语义信息,也为视频内容分析提供了重要的内容线索。( 3 ) 体育比赛视频具有较强的背景知识体育运动视频具有较强的背景知识,这些领域规则往往定义了体育视频感兴趣的行为事件,例如篮球比赛中什么叫盖帽,网球比赛中什么叫截击球等等。研究者可以在领域规则的辅助下,进行体育比赛视频的语义内容分析。究者可以在领域规则的辅助下,进行体育比赛视频的语义内容分析。北京工业大学工学硕士学位论文基于上述特点,体育视频分析变得有据可依,因而受到很多国内外学者的广泛关注。1 2 体育视频分析研究现状目前的视频分析技术主要是基于语义内容的分析方法,通过抽取视频底层特征,运用一些规则描述和聚类方法得出高层语义内容描述,以此来进行视频分析【2 ,孤。按照研究方法侧重点的不同,具体可分为三类方法。( 1 ) 基于视频底层特征的方法视频基本特征包括颜色、纹理和一些低层的、简单的形状特征,这些特征具有计算简单,性能稳定的特点,因而成为体育视频分析中运用最为广泛的特征。大阪大学根据足球场地与球员队服和足球颜色对比鲜明的特点跟踪双方球员和足球运动轨迹判断比赛进程【4 ,5 】。a e k i n 等人利用统计篮球比赛视频图像中球场主要颜色分布率,将比赛视频分割为比赛和暂停的视频片段【6 】。文献【7 是通过抽取视频帧的三个底层特征观众的喝彩声、记分牌和运动员运动方向的改变来组成一系列时间模型,进而来检测出投篮得分这一语义片断。国防科技大学提出基于语义单元( b s u ) 的视频分割方法碍】,通过视频主要颜色检测足球比赛广告将上下半场比赛分开;进步利用颜色特征进行场景检测,将比赛视频分割为比赛和暂停的视频片段。北京大学、香港科技大学和微软亚洲研究院联合提出,结合视频颜色特征,利用视频自相似聚类将视频内容明显变化的镜头分割成内容相似的子镜头9 1 。文军等人利用颜色特征得到球场区域,提取球场特征、运动对象( 球员和球) 特征及音频特征,以此来进行精彩镜头的判断【1 0 】。( 2 ) 视频基本特征和辅助信息相结合的方法赛场语音和视频图像的标题文本也是体育视频分析的重要信息。文献 1 1 】通过声音描述符表征声音强度,并结合摄像机的运动信息检测足球比赛中的进球事件;结合视频运动特征,利用喝彩和裁判哨音u 羽、解说员的激情演讲【1 列和建立语音分类平台提取鼓掌、喝彩、说话和音乐声音【】,分割视频片段。k y u n g s u 等人提出了基于篮球比赛中的音视频特征来抽取语义信息【1 5 l 。文献中首先分析了音频信号数据,以此得出重要的比赛事件作为候选视频序列( 作为2第l 章绪论视频分析的输入源i n p u ts o u r c e s ) ;通过视频信息分辨对象的运动,对篮球进行运动跟踪;利用颜色特征和边缘特征来自动定位篮板,利用h o u 曲变换来探测到篮板和篮筐;考虑篮球的位置与篮板和篮筐之间的关系以此来判断是灌篮还是远距离投篮这一语义特性。文献 1 6 】是通过标题文本和视频图像基本特征对足球比赛进行视频分割的方法。( 3 ) 基于语义推理的事件检测方法基于语义推理的事件检测方法,是目前视频分析的一大热点。针对底层视频特征与高层语义概念之间存在隔阂的问题,x i n 鹊u a n z h u 等人提出了一种利用数据挖掘的方法来进行有效的视频分析1 7 】。文献中提出了一个语义视频分类器,将视频序列分成视频帧、视频镜头、视频组、视频场景和聚类场景五部分,对每一部分进行处理,并利用数据挖掘的推理技术来获取所需要的视频事件。文献【1 8 提出了创建一个中间表述层来进行视频的语义描述,首先抽取视频底层特征,通过非参数聚类技巧和一些指导学习算法来形成中间层,最后利用产生式规则( p r o d u c t i o nr u l e s ) 和针比赛的专用的规则( g a m e s p e c i a lr u l e s )得出晟高层语义( 例如,犯规、点球、破门得分等) 。有些学者利用时空逻辑找出体育比赛中对象的时空关系9 2 1 】,以此来描述出比赛中的一些语义概念,例如犯规、罚球、投篮得分等。文献【1 9 】是利用时空( s p a t i o _ t e m p o r a i ) 结构分析的语义方法建立一个模型语义视频分析系统。在文献【2 0 中,首先利用关键帧将视频数据分为一些重要比赛片断,然后利用r j ”( r e i a t i o nd e s c r i p t i o nf a c t o r ) 描述子对具有时空( s p a t i o t e m p o m l ) 关系的视频片断进行语义的描述并推理出时空关系的语义内容。文献 2 2 中定义了运动概念分类决策树,对运动进行分类,并定义了有限状态机模型来推断发生的可能事件。在文献【2 3 】中,利用归纳的决策树学习方法得出一套i f _ t h e n 规则来训练知识,得出一个分类器,它的一个很大的优点就是在线语义分类索引和过滤。由上述分析可以看出,由于体育视频内容复杂性和多样性,目前的体育视频分析结果还不很理想,整个体育视频分析仍处于初步研究阶段。本课题正是以篮球比赛视频分析为切入点,对体育视频分析的关键技术进行研究。北京工业大学工学硕士学位论文1 3 篮球比赛视频分析相对于其他体育比赛,篮球比赛场景比较复杂,球员和篮球等相关对象运动剧烈,这给篮球比赛视频分析带来很大的困难。对篮球进行视频分析的研究相对较少,也很不成熟。目前,代表性的篮球视频分析方法有:利用视频镜头中的主要颜色将镜头分类,结合镜头持续时间将视频镜头分为比赛镜头和非比赛镜头j :通过抽取视频帧的三个底层特征观众的喝彩声、记分牌和运动员运动方向的改变来组成一系列时间模型,进而来检测出投篮得分这一语义片断fj ;通过视频颜色和运动特征分割视频子镜头,进一步利用音频中的喝彩和裁判哨音提取比赛中的重要事件如得分镜头和扣篮镜头i i “;建立一个基于规则的视频分类系统,提取视频图像的颜色、运动,音频等特征用于视频检索1 2 4 j 。篮球比赛中的预处理的好坏对于后续的基于高层语义内容的视频分析有着重要的影响,本文主要针对篮球视频预处理部分进行研究。1 4 主要内容及章节安排1 4 1 研究内容本文面向篮球比赛视频分析,主要研究篮球比赛中的镜头分割,镜头粗分类,记分牌检测和定位,具体如下:1 镜头分割:利用直方图统计的方法进行镜头分割。2 镜头粗分类:利用主颜色方差统计及聚类分析来进行镜头粗分类,把镜头分为比赛镜头和非比赛镜头。3 记分牌检测和定位:利用多维相关性及双向滑动窗口来进行记分牌定位,同时利用模板匹配的方法来进行记分牌检测。1 4 2 论文安排本文内容安排如下:第1 章绪论。主要介绍本文研究背景,视频分析研究现状以及章节安排。第2 章视频分析综述。主要介绍视频分析的基本概念以及目前镜头分割的第1 章绪论研究现状。第3 章镜头分割。通过对篮球视频中突变和渐变镜头的特性分析,得出连续帧差值,累加帧差值及窗口帧差比,以此设定多个动态闽值及滑动窗口进行镜头分割。第4 章镜头粗分类。利用主颜色方差统计及聚类分析来实现比赛镜头和非比赛镜头的粗分类。第5 章记分牌检测和定位。首先对含有记分牌的帧图像进行多维相关性分析,随后利用双向滑动窗口进行记分牌的定位。利用定位时得到的位置参数和检测参数建立记分牌检测和定位模板,利用模板匹配的方法完成视频帧序列中的记分牌检测和定位。总结和展望。包括论文小结、刨新点及对今后工作的展望。最后,给出了参考文献、攻读硕士学位期间发表的论文及致谢。第2 章视频分析综述本章主要讲述一下视频分析中的基础知识,以及镜头分割的研究现状。2 1 视频内容结构化视频内容结构化的过程就是对视频流中的连续帧序列进行切分,在一个连续视频流中按内容展开的不同,将它分为若干语义段落单元。视频内容结构化能够从一部很长的视频中抽象出视频内部隐含的情节发展结构,为大量视频数据的导航和浏览提供了一种有效的手段。由于视频数据是由成千上万的图像帧组成,要为每一帧图像建立关于图像底层特征的索引,在时间和空间上而言效率都比较低,也没有这个必要。而且,用户对视频数据进行浏览和检索时,往往也不需要看整段视频流。所以,在视频内容结构化过程中,我们将为整个视频数据划分成若干等级的层次结构,然后分别对不同层次的视频信息建立索引。一般说来在视频内容结构化过程中,可以把连续视频流分割成包括镜头、组和场景等视频单元,本文在此先引入一些基本定义【2 5 】:( 1 ) 帧( f r 锄e ) :帧是视频数据流中的基本组成单元,每一帧均可以看成一个独立的图像。视频数据流就是由这些连续的图像帧构成的,在p a l 视频格式中,视频采样率为2 5 帧秒,在n t s c 视频格式中,视频采样率为3 0 帧秒。( 2 ) 镜头( s h o t ) :镜头是摄像机拍下的不间断的帧序列,是视频数据流进一步结构化的基础结构层。一般而言在同一组镜头中,视频帧的图像特征基本保持稳定。镜头是对视频数据流进行处理的最小物理单元,而视频帧则是视频数据流中的基本单元,它蕴涵了少许的语义信息。因为属于同一组镜头的视频帧的图像特征基本保持稳性,所以,如果相邻视频帧之间的特征发生了明显的变化,我们就认为发生了镜头切换,需要对视频数据流进行切分。对视频数据流进行结构化时,首先要找出每个独立的镜头单元,多组独立的镜头单元就构成了视频数据流。( 3 ) 关键帧( k - e yf r 锄e ) :关键帧是可以用来代表镜头内容的图像。在切分出6第2 章视频分析综述镜头结构以后,关键帧就被用来表示各个镜头的底层特征,从而进行进一步的视频结构化。在一个视频镜头中,一般关键帧的数目要远远小于镜头所包含的图像帧数目。( 4 ) 场景( s c e n e ) :语义上相关和时间上相邻的若干组镜头组成了一个场景,场景是视频所蕴涵的高层抽象概念和语义表达。虽然每个镜头所表达的语义不多,但是若干镜头所组合成的场景就传达了一个符合人们思维习惯的比较丰富的语义。由于镜头可以用关键帧表示,所以场景也可以使用属于这个场景的若干镜头所对应的关键帧来表示。这里没有使用文字信息来标注场景,而是使用关键帧( 本质上是视觉信息) 来标注镜头和场景,因为不同的人对同一个场景的文字标注可能是不一样的。( 5 ) 组( g r o u p ) :组是介于视频镜头和语义场景之间的结构。例如,在一段篮球比赛视频中,包括一些投篮和快攻镜头,这段篮球视频属于一个场景,投篮镜头属于一组,而快攻镜头属于另一组。 豫l 塥景一一一秘自维税额镜头锟频帧最斟录图2 1 视频数据结构化流程【2 5 】图2 1 显示了按照上述定义对视频数据流进行结构化的过程:连续的视频图像帧通过视频镜头边缘检测被分割成长短不一的镜头单元:然后在每个镜头单元关键帧分析北京工业大学工学硕士学位论文中提取关键帧,得到可以表征每个镜头单元的关键帧。接着分析视频关键帧,得到视频组;最后在视频组的基础上,得到视频场景。视频内容结构化以后,我们就得到了视频目录,它可以用作原始的无结构视频数据流的索引。用户可以通过浏览视频目录,快速了解整段视频数据所表达的内容,而不用顺序浏览视频数据流中所有的图像帧序列。在不同的应用中,视频内容结构化并不一定严格要求采用以上的层次结构,例如,有的视频结构中没有“组”这个概念。2 2 视频基本特征特征提取对视频结构的构造和视频检索都有重要的意义,主要包括颜色纹理,形状及运动特征。2 2 1 颜色颜色是一种重要的视觉信息属性,相对于其它特征,颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种变形都不敏感,而且颜色特征计算简单。目前常用颜色空间分为两类【2 6 】,一类面向诸如彩色显示器或打印机等硬件设备的r g b 颜色空间,另一类面向以彩色处理为目的,其中最常用的有h s v 颜色空间。下面将分别讨论r g b 和h s v 颜色空间。( 1 ) r g b 颜色空间三基色原理即几乎所有颜色都可看作是3 个基本颜色一红( r e d ) ,绿( g r e e n ) 和蓝( b l u e ) 一的不同组合:f = o :r + 0 g + y b由此,r g b 颜色空间成为最容易得到的颜色空间。r g b 颜色模型是三维直角坐标颜色系统的一个单位的正方体口7 1 ,如图2 2 所示。在r g b 颜色空间的原点上,任基色均没有亮度,即原点为黑色。三基色都达到最高亮度时表现为白色。亮度较低的等量的三种基色产生灰色的影调。所有这些点均落在彩色立方体的对角线上,该对角线被称为灰色线。彩色立方体中有三个角对应于三基色,红色、绿色和蓝色。剩下的三个角对应于二次色,黄色、青色( 蓝绿色) 和品红( 紫色) 【2 9 】。第2 章视频分析综述r g b 颜色空间用在大多数视频捕捉设备、c r t 监视设备和其他光栅图形设备中,但其色差分布不均匀,无法用欧氏距离来测量色度图中两种彩色的色差,即r g b 颜色空间上的距离并不代表人眼视觉上的颜色相似性,而且r g b 三个颜色分量存在相关性,所以,在面向彩色处理时通常不直接使用r g b 颜色空间。图2 2r g b 颜色空间模型t m l ( 女n “口图2 3h s v 颜色空间( 2 ) h s v 颜色空间及颜色转换f 2 8 】h s v 颜色空间将彩色信号表示为色调( h u e ) 、饱和度( s a t l l r a t i o n ) 和亮度( u e )三个分量。色调就是我们平时所说的颜色,由混合光谱中主要光波长决定;饱和度指颜色中的色调纯度:亮度是颜色明暗程度,从颜色的光谱角度来说,亮度表示光的强度。h s v 颜色空间呈倒锥形,纵向轴表示亮度v ,横向轴表示饱和度s ,色调h是绕v 轴的旋转角度,如图2 3 所示。显然,h 的取值范围是0 。一3 6 0 。,红色对应于o 。,绿色对应于1 2 0 。,蓝色对应于2 4 0 。;s 和v 取值范围都是从o 到1 。其中,圆锥顶点( v = 0 ,h 和s 无定义) 对应黑色,圆锥顶面中心( v = 1 ,s = 0 ,h 无定义) 对应白色。设r g b 颜色空间三个分量为r 、g 和b ,h s v 颜色空间三个分量为h 、s 和v 。具体转换公式如下【3 0 】:9北京工业大学工学硕士学位论文矿= m a x ( r ,g ,b )s = 珊埘矿聊,托= m a x ( 兄,g ,口) 一m i n ( 兄,g ,b ),:坐肛坐,6 :坐,2 ,9 2 ,d 2 所,行肌 lm ,胛 =5 + 6若r = m a x ( 胄,g ,b ) 和g = m i n ( r ,g ,b )1 一g若尺= m a x ( r ,g ,b ) 和g m i n ( 只,g ,丑)1 + r若g = m a x ( r ,g ,b ) 和b = m i n ( r ,g ,b ),11 、3 6若g = m a x ( 月,g ,b ) 和曰m i n ( 足,g ,b )、5 一r若b = m a x ( r ,g ,艿) 和g = m i n ( r ,g ,b )3 + go l k r w i s e= 厅6 0 。h s v 颜色空间具有以下的优点:( 1 )h s v 颜色空间直接对应于人眼色彩视觉特征的三要素,且分量间各自独立。( 2 )h s v 颜色空间是一个均匀的颜色空间,可感知的颜色差与h s v 颜色空间坐标上点的欧几里得距离成正比。尽管h s v 颜色空间符合人眼视觉特性,各分量相互独立,但其各个分量并非都非常稳定。通常,h 分量最不稳定,s 分量次之,但h 不随光线变化,s 随光线变化,但变化很小:v 分量最稳定,通常情况下接近正态分布,而且方差很小,但随光照变化明显。2 1 2 纹理纹理是与物体表面材质有关的图像特征。其方法主要分为两类:结构方法和统计方法。结构方法假定图像由较小的纹理基元排列而成,它采用句法分析方法。只适用于规则的结构纹理。统计方法又可进一步分为传统的统计方法、基于模型的方法,以及基于频谱分析的方法。2 1 3 形状形状也是视频图像分析中的一个很重要的特征,基于图像内物体形状的检索是基于内容检索当中一个最具挑战性的问题之一,因为寻找符合人眼感知特性的形状特征不是一件简单的工作。形状分析首先需要进行图像分割,把对象提取0第2 章视频分析综述出来,再用各种方法进行匹配测量。形状的表达应对位移、旋转、比例变化具有不变性。2 1 4 运动特征运动特征是视频镜头的重要特征,反映了视频的时域变化,也是基于例子视频的视频检索的重要内容。在视频运动分析中,常把运动信息分为全局运动信息和局部运动信息。由于物体各点的运动是由全局和局部运动叠加而成的,为了正确地提取局部运动信息,必须首先估计出全局运动信息,然后再依据相应的算法进行局部运动信息的提取p ”。2 3 镜头分割的研究现状镜头分割是视频处理的第一步,是随后的高层内容分析、分类、索引和查询的基础。镜头分割的准确性将直接影响到后续处理的效果。因此,视频镜头的分割算法,从一开始就得到广泛的重视,它在基于内容的视频分析和检索中有着最长的研究历史和最丰富的研究成果。然而直到今天,仍然没有在各种情况下都能表现出良好性能的算法,该文试图通过对几种典型方法的比较,为进一步的研究和算法设计提供参考。镜头是指由一个摄像机镜头连续拍摄的一组内在相关的连续帧,它用来表现时空上连续的一组运动。镜头转换的过程伴随着语义的转换,理想的视频镜头的分割是一个语义分析的过程,但现有的算法尚不能很好地分析语义,所以大部分算法是根据镜头转换处视频底层特征( 如颜色、轮廓、纹理、粗糙度等) 的变化来分割镜头。一般而言,镜头的转换会导致视频内容的底层特征发生明显变化,如颜色分布的突然变化,但在某些特殊情况下,例如渐变的视频转换过程( 淡入、淡出、渐隐、渐出和叠化等) ,底层特征的变化较缓慢而不明显。另外在同一个镜头中,视频内容的变化以及噪声的存在也会造成底层特征发生较大变化。因此,对于不同的视频,甚至是同一视频的不同部分,其镜头内和镜头间的帧差异值的分布都可能相差很多。因此,视频镜头的分割虽然在某些简单的情况下较易分析处理,但在视频中有快速运动,光线剧烈变化等极端情况和视频的渐变过程中,很多算法仍不能达到令人满意的效果。视频镜头分割有着较长的研究历史,并有一些代表性的研究成果3 3 地4 ”,这些方法对于突变镜头的检测效果还不错,但对于渐变镜头检测效果不太理想。常用的镜头检测的方法主要有三种:模版匹配法、直方图法及基于边缘的方法。( 1 ) 基于模版匹的配方法模版匹配法以两帧对应像素差的绝对值之和作为帧阃差,其计算公式为: m v r ( 特定的闽值) ,则认为出现了镜头的转换。r za _ b h i 等人 3 明提出的镜头分割方法是基于边缘方法的代表性算法。为了减少对镜头运动的敏感性,算法先用图像配准( i m a g er c g i s t r a t i o n ) 技术来进行总体的运动补偿,然后对图像进行高斯平滑处理,以去掉一些额外的过于细节的轮廓,再用c a r l n y 算法提取轮廓,最后进行基于边缘的镜头分割。北京工业大学工学硕士学位论文对画面简单的视频进行分割时,基于边缘的方法效果很好,在渐变镜头分割上尤为突出。但是,大多数的视频中主要对象或背景可能都有很多复杂的、细微或不断变化的轮廓,这样就会造成误检:而在光线比较暗和轮廓不是很明显的情况下,由于难以检测到轮廓又会造成漏检。另外,视频中对象的快速运动也会使前后帧的轮廓位置相差较多,从而造成误检。其他镜头分割的方法有:麻省理工( m i d 多媒体实验室的v 粥c o n c e l o s n 和l i p p m a i l - a 提出了用b a y e s i a n 的统计方法自动确定阈值来检测镜头【3 9 l ,但是其算法复杂度高,效率相对比较低。对于压缩的视频序列,传统方法是采用宏块类型信息进行探测矧,对m p e g 视频流进行两次分析,第一次( 粗略分析) 只分析p 帧中宏块统计信息,检测出可能存在的镜头边界,第二次( 精确分析) 再对粗略分析找出的边界邻近的b 帧和p 帧的宏块类型进行分析,从而对场景变换进行精确分析和定位。文献 4 1 】提出利用音频特性来进行视频镜头分割。2 4 小结本章首先论述了视频分析中的一些基本概念,即视频内容结构化和视频特征:随后对镜头分割的研究现状作了详细的论述。在视频内容结构化中,给出了常用术语的定义以及它们之间在内容结构上的分层关系。由于本文主要利用了颜色特性,因此在视频特征论述部分着重对颜色作了详细的论述。对镜头分割目前存在的常用方法以及最近的研究成果作了详细的介绍,为下一章的展开奠定了很好的基础。43 1 引言第3 章镜头分割镜头分割是视频分析的开始步骤,是语义内容分析、视频分类、索引和查询的基础,其准确性将直接影响后续视频分析的效果【4 2 l 。在篮球比赛视频中,经常会产生一些与比赛无关的特技效果,这些特技通常是以叠化和扫换模式出现的渐变镜头,与通常的突变镜头有着很大的不同,目前的镜头分割方法对渐变镜头的检测效果不太理想。针对这类情况,本文提出了一种基于直方图的镜头分割方法,该方法在精确判断突变镜头的同时,能够准确地找到叠化和扫换这两类篮球比赛中经常出现的渐变镜头的起始结束帧。目前,镜头分割的基本思想是通过对比相邻帧之间的特征变化来实现,因此,不同的镜头分割方法对应于不同的相邻帧相似度测量法。基于直方图的算法是一种晟普遍的镜头分割算法,它不考虑像素的位置信息,抗噪能力强,计算复杂度较低,易于实现。考虑到h s v 颜色空间中h s v 三分量直接与颜色概念中的色调、饱和度和亮度有关,因此本文选用h s v 颜色空间下利用直方图的方法进行镜头分割算法的研究。一幅2 4 位真彩色图像,包含颜色的颜色数为2 ”,直接在h s v 空间下进行直方图统计计算量太大,有必要对其进行量化降维。3 2h s v 颜色空间的量化与降维本文参考文献【4 3 】的方法进行量化降维。首先,将h ,s ,v 三个分量按照人类的颜色感知进行非等间隔的量化:( 1 ) 按照人的视觉分辨能力,将色调h 空间分成8 份( 如式( 3 1 ) 所示) ,饱和度s 和亮度v 空间分别分成3 份( 如式( 3 - 2 ) ,( 3 - 3 ) 所示) 。=s =矗 3 1 6 ,2 0 】矗【2 1 ,4 0 】矗 4 1 ,7 5 】 “7 6 ,1 5 5 】而【1 5 6 ,1 9 0 】 【1 9 1 ,2 7 0 】矗【2 7 1 ,2 9 5 】矗【2 9 6 ,3 1 5 】j o ,o 2 】s 【o 2 ,0 7 s 【o 7 ,1 o 】( 3 - 1 )( 3 2 )f o 矿v o ,o 2 】矿= 1矿v o 2 ,o 7 】( 3 3 )1 2 矿1 , o 7 ,1 】( 2 ) 按照以上的量化级,把3 个颜色分量按公式( 3 - 4 ) 合成一维特征矢量:g = 目幺9 + s 9 + 矿( 3 4 )其中,g 和岛分别是分量s 和v 的量化级数,这里取酝2 3 ,岛2 3 因此公式( 3 4 ) 实际为:g = 9 日+ 3 s + y( 3 - 5 )这样,h ,s ,v 三个分量在一维矢量g 上分布开来,g 的取值范围为【o ,l ,7 1 。本文后续算法基于量化降维后的一维矢量g 展开。为了后面叙述方便,在此先给出几个概念。3 3 镜头分割中的基本概念设n ,:,。是一组视频帧序列,其相应的g 分量分布直方图分别为6矿扩扩扩扩扩扩扩扩扩扩第3 章镜头分割啊( g ) , :( g ) , 3 ( g ) ,吃( g ) 。( 1 ) 连续帧差值连续帧差值是指相邻连续两帧g 的直方图的差值和,其计算公式为:肋。( g ) = g ) 一向h ( g ) i( 3 6 )式中月硪g ) 为f 一1 帧与f 帧直方图差值,在此称为第f 帧的连续帧差值( 2 ) 累加帧差值累加帧差值是指以视频序列中第i 帧为参考帧,计算其后各帧与参考帧的直方图差值,称为第f 财的累加帧差值。其计算公式为:坳叫u ( g ) = i _ ( g ) 一 ,( g ) l( 3 7 )式中删u ( g ) 帧与五帧所做的直方图差异值,= f + 忌( 老= 1 ,2 ,3 )( 3 ) 窗口帧差比这里及以后的窗口特指时间域窗口。窗口帧差比是指在一个指定窗口内,依次求得各帧连续帧差值与窗口中第一帧的连续帧差值的比值,取其中的最大值作为该窗口的帧差比。计算公式为:f 吸:毒 淠( 3 8 )f 吸= 砰擎 谜岩( 3 8 )式中f 窗口帧差比:n 窗口大小;f 窗口起始帧( 4 ) 自适应窗口均值自适应窗口均值是指在假定的渐变起始帧位置,自适应地开一个n 帧大小的窗口,取此窗口内的各连续帧差值的均值。其计算公式为:丽。:( 莹肋,( g ) ) n( 3 9 )1 0式中砌。n 帧大小窗口的自适应窗口均值( 5 ) 超均值比率玎。= ( a ) n( 3 1 0 )r1i f 蚂( g ) 丽一乃2t 即一。( 3 - 1 1 )式中巩窗口超均值比率3 4 突变镜头和渐变镜头特性分析3 4 1 突变镜头突变镜头是指一个镜头与另一个镜头之间没有过渡的切换,即一个镜头猛然切换到另一个镜头,也叫直接切换,图3 1 给出了两个镜头突变的例子。图3 1 突变镜头示例显然,发生镜头突变时相邻帧之间变化较大。3 4 2 两种渐变镜头渐变是指一个镜头到另一个镜头的渐渐的过渡过程,没有明显的镜头跳跃。渐变包括淡入( f a d ei 1 1 ) 、淡出( f a d eo u t ) 、叠化( d i s s o l v e ) 、扫换( w i p e ) 等【州。在篮球比赛中,常见的渐变为叠化和扫换两种,本文也是主要针对这两种渐变进行镜头分割。叠化是指一个画面消失的同时,另一个画面逐渐加强的过程,图( 3 2 ) 给出了一个叠化视频序列的例子。从图中可以看出,叠化序列的特点是在前一视频镜头中融入下一镜头的内容,且前一镜头内容逐渐减弱,同时下一镜头逐渐增强,直到前一镜头完全消失,则完成镜头切换。显然,这一镜头切换方式中相邻帧间变化较小。扫换是指图像画面的从局部开始逐渐被另一画面取代的过程,图( 3 3 ) 给出了一个扫换视频序列的例子。从图中可以看出,因为从局部开始替换画面内容,因此在扫换开始的前几帧,相邻帧间内容变化较小。图3 2 叠化镜头示例1 93 4 3 镜头特性对比分析图3 3 扫换镜头示例图3 - 4 ( a ) 为一段同时包含突变和两种渐变的视频序列的连续帧差值,从图中可以看出,突变镜头的连续帧差值比相邻视频帧的连续帧差值要大许多;叠化镜头的连续帧差值比相邻视频帧的连续帧差值大一些,但并不是很明显;扫换镜头序列的连续帧值总体是呈上升趋势,在扫换过程结束位置其连续帧差值与发生突变镜头时的连续帧差值相近。从以上分析可以看出,直接采用突变镜头分割方法很可能漏掉叠化镜头,而用突变镜头分割方法仅仅能检测出扫换镜头的结束帧,无法检测出全部的扫换镜头。进一步对两类镜头特性分析如下:叠化镜头特性( 1 ) 在篮球比赛中,叠化镜头包含的视频帧约为十几帧。( 2 ) 一般情况下,叠化镜头的连续帧差值大于非镜头转换时的值,但小于突变镜头转换时的值。进一步分析发现,叠化渐变过程中,有的连续帧差值较小,甚至接近于非镜头转换的连续帧差值,如图3 - 4 ( b ) 所示。( 3 ) 以叠化起始帧作为参考帧,其累加帧差值如图3 4 ( c ) 所示,可以看出,叠化渐变过程的累加帧差值持续增加,其结束位置的累加帧差值与发生突变镜头转换时的连续帧差值接近。扫换镜头特性( 1 ) 在篮球比赛中,扫换镜头中所包含的视频帧约为4 0 帧。第3 章镜头分割( 2 ) 一般情况下,扫换过程中结束帧的连续帧差值比其后的帧差值要大许多,但与其前一个帧差值很接近。( 3 ) 以扫换起始帧作为参考帧,计算其累加帧差值,结果如图3 - 4 ( d ) 所示。可以看出扫换过程的累加帧差直方图很有规律可循,其前一部分的帧差值均值m o和样本标准差艿。要比后一部分对应的均值m ,及样本标准差6 - 要小许多。( a ) 视频序列的连续帧差值( b ) 叠化序列连续帧差值( c ) 叠化序列的累加帧差值( d ) 扫换序列累加帧差值图3 4 两种渐变序列的连续累加帧差值北京工业大学工学硕士学位论文3 5 基于h s v 降维直方图的镜头分割算法通过对篮球体育视频中突变和渐变特性的分析,设计一种新的对突变和渐变镜头同时有效的镜头分割算法。具体思路为:对于一段篮球视频帧序列,首先判断当前帧是否为突变镜头转换帧;如果不是,则计算此时的窗口帧差比,并以此判断可能出现的渐变镜头的类型;最后进行渐变镜头判定。算法整体框架如图( 3 - 5 ) 所示:图3 5 镜头分割算法总体框图第3 章镜头分割3 5 1 突变镜头分割算法我们设计的突变镜头分割算法如下:( 1 ) 计算连续帧差值根据公式( 3 6 ) ,可以依次得出视频序列的连续帧差值尬( g ) 。( 2 ) 利用动态阈值来判定突变镜头转换帧设两个动态阈值正和疋,其中互= 6 + 加。,疋= 6 ,彻。,6 为系数( 本文取4 ) 。若魍 五& & 魍 疋( 互和己不能为零) ,则判定为发生了镜头突变,f帧为镜头转换帧。3 5 2 叠化镜头分割算法依据叠化特性的分析,本文通过设定窗口帧差比( f ) 大于一经验常量d 来假定叠化序列的起始位置,然后利用自适应窗口均值( 丽。) 和超均值比率( 巩) 来判定起始位置的正确性。同时,利用结束位置累加帧差值的特性来判断叠化过程的结束帧位置。其算法流程图如图3 6 所示:北京工业大学工学硕士学位论文图3 - 6 叠化镜头检测算法流程图在本文中,取图中的动态阈值为弼,= 6 卑蚂一经验常量值依次取值为珂i = 5 0 ,村2 = 1 5 ,d = 2 2 ,7 1 = o 6 。3 5 1 3 扫换镜头的分割算法依据扫换序列特性的分析,本文利用扫换过程中连续帧差值的特性来判断其结束帧的位置。利用累加帧差值这一规律设定多滑动窗口来判定其渐变的起始第3 章镜头分割帧。其算法流程图如图3 7 所示图3 7 扫换镜头检测算法流程图( 1 ) 在本文中,动态阈值丁g l ,z b :,z g ,及z | g 4 分别取硒= 扛+ m 。,粥:= 6 2t 磊,玛= 屯皿+ 粥。= 6 4 + 魍经验常量值依次取z 瓯= 1 0 0 0 0 ,6 l = 1 ,6 2 = 1 6 ,6 3 = 4 ,6 4 = 1 4 ,n = 1 5 。( 2 ) 如果当前帧被判断为渐变的起始帧,则在第二个或第三个滑动窗口中进行结束帧的查找。具体方法为,如果连续帧差值哆同时满足皿 粥a 和北京工业大学工学硕士学位论文码 粥,则判定j 帧为渐变结束帧。3 6 实验结果实验选取了两场比赛中的视频片段作为测试数据,本文算法和文献【4 5 和 4 6 】中算法进行了对比实验。为方便表示,设本文算法为算法a ,文献 4 5 的双阈值比较算法为算法b ,文献 4 6 中的奇异值分解算法为算法c ,实验结果如表1 所示。三种算法的查全率和查准率对比如图3 8 所示。实验中的查全率( r e c a l l ) 和查准率( p r e c i s i o n ) 定义如下【47 i 查全率:正确检测镜头占总镜头数目的百分比。查准率:正确检测镜头占检测到的全部镜头数的百分比。第3 章镜头分割表3 1 :实验结果对比正确分割突变镜头误检的突变视频算的突变镜查全率查准率( 渐变)镜头( 渐变片段法头( 渐变镜镜头)头)a2 4 ( 9 )2 ( 1 )9 4 3 9 1 7 视频片段l2 5b2 2 ( 6 )4 ( 3 )8 0 8 0 ( 5 0 0 0 )( 1 0 )c2 5 ( 9 )4 ( 2 )9 7 8 5 a1 0 ( 5 )1 ( 0 )1 0 0 9 3 4 视频片段21 0b8 ( 5 )2 ( 1 )8 6 7 8 1 3 ( 1 7 8 4 )( 5 )c1 0 ( 5 )1 ( 1 )1 0 0 8 8 2 a4 7 ( 1 3 )5 ( 2 )9 3 8 8 9 ,6 视频片段35 0b4 3 ( 1 0 )8 ( 5 )8 2 ,8 8 0 3 ( 1 2 0 0 0 )( 1 4 )c4 8 ( 1 1 )7 ( 2 )9 2 2 8 6 7 a6 ( 4 )1 ( 0 )1 0 0 9 0 。9 视频片段46b6 ( 3 )2 ( 1 )9 0 7 5 ( 1 0 9 2 )( 4 )c6 ( 3 )l ( o )9 0 9 0 a8 ( 7 )0 ( 1 )9 3 7 9 3 ,7 视频片段58( 1 4 1 4 )( 8 )b7 ( 7 )2 ( 0 )8 7 5 8 7 5 c8 ( 8 )l ( 1 )1 0 0 8 8 9 a9 5 ( 3 8 )9 ( 4 )9 5 9 1 9 9平均值( 4 1 )b8 6 ( 3 1 )1 8 ( 1 0 )8 3 6 8 0 7 c9 7 ( 3 6 )1 4 ( 6 )9 5 8 6 9 图3 - 8 三种算法查全率与查准率的比较可以看出,本文算法的查全率和查准率明显要优于文献【4 5 】中的双阈值比较算法。本文算法的查全率与文献 4 6 】中的奇异值分解的算法差不多,但查准率要优于文献【4 6 】中的算法。另外,本文算法对于叠化和扫换渐变的起始帧和结束帧检测的准确性也优于文献中的两种算法。3 7 结论本章针对篮球体育视频镜头转换的特点提出了一种篮球
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025甘肃张掖市肃南县居家养老服务中心招聘2人考前自测高频考点模拟试题附答案详解(考试直接用)
- 2025福建生态工程职业技术学校招聘4人考前自测高频考点模拟试题及答案详解(新)
- 2025年青岛市体育局所属事业单位公开招聘工作人员考前自测高频考点模拟试题附答案详解(典型题)
- 2025年安徽演艺集团有限责任公司招聘20人模拟试卷完整答案详解
- 2025湖北恩施州巴东县清太坪镇人民政府公益性岗位招聘5人考前自测高频考点模拟试题参考答案详解
- 2025江西中小学教师招聘考试南昌考区考前自测高频考点模拟试题参考答案详解
- 2025年四川天府银行社会招聘模拟试卷完整参考答案详解
- 2025湖南中医药大学第二附属医院第一批公开招聘21人模拟试卷及参考答案详解1套
- 2025江西吉安市白鹭洲中学招聘文印室工作人员2人考前自测高频考点模拟试题附答案详解(突破训练)
- 2025广东依顿电子科技股份有限公司招聘成本会计岗等人员考前自测高频考点模拟试题(含答案详解)
- 2025年甘肃省武威市天祝县天堂镇选聘大学生村文书考试参考试题及答案解析
- 八上数学预习每日一练小纸条 30天【答案】
- 技术专家管理制度
- 2025年云南交投集团校园招聘管理人员86人笔试参考题库附带答案详解
- 黑龙江省哈尔滨市第九中学校2024-2025学年高二上学期11月期中考试生物试卷(有答案)
- 2025年小学语文一年级第一学期期中测试试卷
- 2025年6月上海市高考语文试题卷(含答案)
- 小学生消防安全知识竞赛题库及答案
- 2025年航空航天用特种电缆研发生产合同
- 侵袭性肺真菌病诊断路径专家共识(2024版)解读
- (2025年标准)篮球免责协议书
评论
0/150
提交评论