




已阅读5页,还剩62页未读, 继续免费阅读
(通信与信息系统专业论文)足球视频检索关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 论文题目:足球视频检索关键技术研究 专业:通信与信息系统 硕士生:姚晓波 指导教师:沈伟教授 摘要 观看体育节目已经成为现代人生活娱乐的一种主要方式,随着体育视频节日 的飞速膨胀,如何帮助用户找到他们感兴趣的比赛或比赛的精彩片断,成为一个 急需解决的问题。本文面向体育视频领域,以足球视频为研究对象,对基于内容 的视频检索关键技术进行了讨论,包括镜头边界检测、镜头分类、慢镜头检测及 视频概要提取等技术。 镜头边界检测是进行视频处理的第一步,本文在充分理解各种现有镜头边界 检测算法的基础上,提出了一种适合于足球视频的基于主颜色像素比例及直方图 相似度的自适应阈值算法,对镜头切变和渐变均能进行检测。 在镜头分类技术的研究中,本文对基于子窗口区域的足球视频镜头分类算法 进行了改进,在镜头关键帧中选取合理的子窗口,以主颜色像素比例以及边缘像 素比例为分类依据,实现了远镜头、中镜头、特写镜头和场外镜头的分类。 在慢镜头检测技术研究中,本文在应用较为广泛的零点穿越法的基础上,根 据帧差值的大小来自适应地设置阈值,并且将基于重复帧的数目的方法与零点穿 越法结合,从而提高了零点穿越法的检测精度。 在视频概要提取研究中,通过分析足球视频的结构特点,总结了精彩事件满 足的通用规则。本文以镜头的关联规则为依据,对足球视频的精彩事件进行检测, 形成足球视频概要。 本文以m a t l a b 为实验平台,实现了上述算法。实验表明,本文各项技术的研 究均具有了令人满意的效果。 关键词:足球视频检索,镜头边界检测,镜头分类,慢镜头检测,视频概要提取 a b s 臼- a c t t i t l e :r e s e a r c ho nk e y1 k h n o l o 西c so fs o c c e rv i d c o 凡= t r i e v a l m a j o r :c o m m u m c a t i o na r l di n 佑r m a t i o ns y s t e m n a m e :y a ox i a o b o s u p e n r i s o r :p r o 触s o rs h e nw r e i a b s t r a c t s p o r t s 、r i d e 0i sg e t t i i 培p o p u l a rd a yb yd a yw i t ht h e 孕0 wa i n o 眦o fs p i o r t sv i d c o , i t1 l a sb e c o m e 柚e 删码e n c yt oh e l pl l s e r s 丘i l d 蛔go u tt h e i r 伍v o 血eg a n 把sa n d k 础i g h t s 1 1 l i sp a p e rt a l ( 骼s o c c 盯v i d e 0 南rr e s e a r c ha 1 1 dd i s c i l s s e ss e v e 豫lk e y t e c h l 0 1 0 舀e si i lc o n t e n t - b a s e dv i d e 0r e t :由v 她i 1 1 c l u d i i l gs h o tb 0 1 1 i l d a r yd e t e c t i o i l ,s _ h o t c l a s s i j e i c a t i o i l 8 1 0 w - n l o t i o ns h o td e t e c t i o n 姐d 啊d e os u m m a r ye x t r a c t i o 也 s h o tb o u n d a d rd e t e c t i i 坞i s 圮缸s ts t 印o fv i d e 0p r o c e 鼹堍w i t ha 如l l u n d e r s t 锄d i i l go ft h ee 虹s t i l l gm e t h o d s ,n l i sp a p e rp r o p o s 髓锄a d a p t i v et 1 1 】旧s h o l d a l j ,0 m l l ms u i t a b l e 白r c c e rv i d e 0b 弱e do nt h ed i 妇衙e i l c eo fd 0 蚴i nc o l o rp 议e l r a t i 0 a i l dl l i s t o 黟锄s i m i l a r i t mw 1 1 i c hd e t e c t sb o t ha :b m p t 趾d 掣洳ls h o t 仃a n s i t i o n i n r e s e a r c ho fs h o td a s s i 6 c a t i o n 恤sp a p e ro 丘醯sa n 岫) r 0 v e da l g o m l l l i l b a s e do ns i 】1 1 ) - w i n d o w 咄i l u s i i l gd o m a mc o l o rp i x e lr a t i o 融l de d g ! ep 呔e lr a t i of o r c l a s s i f i c a t i o n t h em e m o dc l a s s i f i 销h o t si 1 1 _ t of o u rt y p e s :l o n gt y p e ,m e d i u mt y p 岛 c l o s e - u pt y p e 锄do u t o f i e l dt y p e b a u s e do ng 铋e r a lz e r o c f o s s 证gm e t h o d ,t l l i sp a p e rp r e s e n t s 孤a d a p t i v et l l i 幽l d a l g o r i t l 髓w l l i c hr e a l i z e sa d a p t i v et h r c s h o l da c c o r d i i 培t ot h c 丘铷d i f 五。r e i l c c n l i s a l g o 订t 1 1 n lc o l l l _ b i i l e st h em e t h o db 鹄e do nt h em m l b e r so fr 印e a t i n g 缶r a m e s 觚dt h e m e t h o do fz e 一c s s 近舀t h u si i i l l 即v e st h ed e t e c t m gp r e c i s i o no fz e r o - c r o s s i n g m e t h o d i nt h er e s e a r c ho fv i d e os u 姗瑚r ye x t r a c t i o i l ,t h i sp a p e r 鼬d so u tt h eg e i l e r a ln l l e s 南rh i 曲l i g h t sa c c o r d i n g 幻熨r u c 啮a lc h a r a c t e r i s t i c so fs o c c e rv i d e o w i t ht h e s er u l e s t h i sp 印e rd e t e c t sh i g h l i g h t s ,w i l i c h 南肌ss o c c e rv i d e os u m m a r y a b s t r a c t t l l i sp 印e rh p l e m e n t st h ed b o v ea l g o m h n l sb ym a t l a b ,a n dt h ce x p e r i m e n t sh a v e d e n l o n s t r a t e dt h a ta l lt h e s el n e t h o d sa r ee 9 鼬i v e k e yw o r d s :s o c c c rv 试e or e t r i c v a l ,s h o tb o u i l d a r yd e t e c t i o 玛s h o tc 1 a s s i f i c a t i o i l , s l o w m o t i o nr e p l a yd e t e c t i 0 玛v i d e os 猢a r ye x t r a c t i o n i 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导 下,独立进行研究工作所取得的成果。除文中已经注明引用 的内容外,本论文不包含任何其他个人或集体已经发表或撰 写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的 法律结果由本人承担。 学位论文作者签名:列b 晓:淡 日期:姗7 年亨月2 牛日 学位论文使用授权声明。 本人完全了解中山大学有关保留、使用学位论文的规定, 即:学校有权保留学位论文并向国家主管部门或其指定机构 送交论文的电子版和纸质版,有权将学位论文用于非赢利目 的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以 采用复印、缩印或其他方法保存学位论文。 学位论文作者签名:姚晚波 目期:2 d 0 7 午j c l 月碑日 导师签名:治律 日期:夕秒厍夕月2 日 第一章绪论 第一章绪论 1 1 研究背景及意义 随着计算机技术和互联网的高速发展,网络已经成为一个巨大的信息集聚 地,每天新增加的信息量都数以万计,这些信息的种类除传统的文本类型外,还 包括图像、视频、声音等多媒体信息。其中,视频信息由于其娱乐性强、直观性 高,信息量大,受到广大网络用户的青睐。然而,面对如此庞大的信息量,人们 要快速地查找到感兴趣的视频信息并非易事。因此,人们对视频的检索需求与日 俱增。基于内容的视频检索技术是借助对视频数据从低层到高层进行处理、分析 和理解的过程获取其内容并根据内容进行检索。它涉及到对视觉信息进行有效的 查询、索引、浏览、搜索和提取。 传统的基于关键字的数据库检索手段对于视频数据是无效的,因为这些文字 不能表达视频数据丰富的内在含义与特征,因此,查询结果往往是一长串无关的 数据。这样,在数据库中查找一个视频片段时,人们只能从每个视频数据的开头 顺序查找或者使用快进或快退的方法浏览。显然,这种搜索方法费时费力不实用。 为了克服上述传统检索方法产生的弊端,基于内容的视频检索技术【c o n t 朗t b 鹤e d d e 0r e t r i e v a j ,c b v l u 应运而生。基于内容的视频检索【1 】是指系统自动地 从用户提供的视频数据中提取对象的特征、语义等线索,然后根据这些线索在视 频数据库中检索出具有相似特征的视频片断,或者是用户通过浏览可视化目录找 到自己感兴趣的视频片断。它充分利用视频中的各种信息( 包括颜色、纹理、形 状、运动矢量、亮度等等) ,实现自动或半自动的视频检索。这是一门涉及面很 广的交叉学科,不仅需要图像处理、模式识别、计算机视觉、图像理解、图像编 码等基础知识,同时还融合了认知心理学、人工智能、数据库管理系统、信息检 索等技术。 基于内容的视频检索技术具有客观、节省人力、可建立复杂描述、应用前景 广阔等许多优点,正受到越来越广泛的重视,并在各种工业、科研领域得到迅速 的发展,如远程监控、多媒体会议、虚拟现实、电视新闻、卫星云图、信息娱乐、 中山大学硕士学位论文 交互购物,以及电影和电视的后期制作等。 在众多视频类别中,体育视频,即体育比赛的电视转播,作为一个重要的应 用领域一直备受关注。体育运动受众广泛,有很好的群众基础,观看各类体育比 赛节目已经成为人们最重要的休闲方式之一。欧洲五大足球联赛每年组织超过 1 0 0 0 场比赛,每场比赛至少9 0 分钟时间。2 0 0 8 年北京奥运会持续了1 5 天,总 共有2 8 个大项,3 0 2 个小项,视频总长度超过一千个小时。面对如此海量的视 频数据,用户感兴趣并有可能反复观看的却只是其中的一小部分,例如足球比赛 中的射门,篮球比赛中的扣篮,跳水比赛中的跳水等等,所以人们需要一种方便 快捷的手段来访问体育视频中的这些事件。对于如此庞大的体育视频,想要采用 人工标注关键字的方式来完成对它们的分类,是一件效率极低且浪费人力资源的 事情。因此,研究基于内容的体育视频检索成为目前的一个研究热点。 1 2 基于内容的视频检索 1 2 1 基于内容的体育视频检索 体育比赛一般要持续较长时间,但是令观众感兴趣的精彩部分通常只是整场 比赛的很小一部分,因此有必要通过对体育比赛视频的处理和分析,去除视频中 不重要的部分,提取精彩事件,并创建视频摘要,以方便观众检索和浏览,从而 节省观看时间,使观众能快速高效地找到自己感兴趣的内容。 对体育视频进行索引和建立视频摘要等工作,主要是指结合画面,声音,文 本多方面信息,提取事件和物体特征等有价值的语义信息。其中画面等视觉信息 是体育视频处理中最常用,最为有效的特征。体育视频的视觉特征分析是指对低 层视觉特征,节目制作特征和视频对象特征等的提取。低层视觉特征包括颜色, 纹理,形状和运动特征。节目制作特征是指在节目制作过程中,工作人员为了更 好的表达和展现比赛过程,根据一般制作规则和自身长期积累的丰富经验,在视 频中加入的一些特殊效果。镜头转换,镜头类型,镜头长度,慢镜头回放等,都 是体育视频节目中常见的制作特征。视频对象特征属于高级语义特征,主要是指 球员、裁判、禁区线和球等具有语义信息的物体对象的特征。 2 第一章绪论 1 2 2 基于内容的足球视频检索 足球是世界上开展最为广泛的体育运动之一。多年来,足球视频吸引了众多 科学工作者对其进行研究,已经成为基于内容的体育视频检索领域最热门的研究 方向之一。每年世界上都有成千上万场足球比赛,仅是欧洲各大联赛的比赛每年 都有上千场,每场比赛至少持续9 0 分钟,如果将所有比赛存储下来,那么这个 视频库将会十分的庞大。若要从如此海量的视频数据中寻找自己感兴趣的片段是 一件烦人和单调的事情。某些情况人们下只是希望欣赏所关注的球队或球星的相 关比赛的精彩片段,因此如果能挑选足球比赛中的精彩片段及相关语义信息进行 存储,可以在满足人们需求的同时,极大的节省存储成本。为了能够根据用户提 交的简单查询要求,就快速提供相应比赛精彩片段的剪辑,必须建立一个高效的 视频摘要生成和索引机制。目前对足球比赛视频的剪辑,主要通过专业的电视制 作部门投入大量的人力物力,由人工剪辑制作完成,效率低下并且极度浪费人力 资源。因此有必要研究和开发足球视频语义内容自动分析的相关技术,主要包括 视频结构化分析,特征提取和精彩事件检测等部分,并为用户提供友好查询界面, 方便用户在数据库中找到并可以浏览相应视频片段。 通过一系列视频结构化和特征提取后,如果能够从足球比赛视频中自动地探 测出射门事件等精彩事件,并得到精彩镜头,由此开发出相应的足球比赛视频分 析和管理系统,实现对大量足球比赛视频数据进行有效的浏览、检索和管理,不 仅节约了大量的存储成本,方便了用户根据自己的需求检索视频信息,而且将对 电视新闻的制作、视频数据的管理、交互式电视转播等实际应用的多个领域产生 深远影响。所以,进行足球比赛视频的分析与研究,具有较高的经济价值和广阔 的应用前景。 本文将以足球比赛视频为研究对象,对足球比赛视频检索的关键技术进行研 究,下面首先介绍体育视频检索国内外研究现状。 1 3 国内外研究现状 1 3 1 体育视频检索研究现状 体育视频由于具有较强的结构性和规律性,作为一种重要的视频类型,在过 3 中山大学硕士学位论文 去的十年中,受到了大量学者的关注,国内外许多著名大学和研究机构都对体育 视频分类检索技术进行了深入的研究。目前,研究方向主要包括:视频低层特征 的运用、运动特征的运用以及基本特征与辅助特征结合的方法等。 对体育视频的分析,使用最广泛的还是视频中的一些基本特征,包括颜色、 纹理和一些低层的形状特征,这些特征具有计算简单。性能稳定等特点。l e w 等 人讨论了一种斯诺克比赛中进球事件的检测方法【2 】:利用颜色信息分割出球和球 袋,并对球袋附近的球进行跟踪,从而来检测进球事件的发生;北京大学、香港 科技大学和微软亚洲研究院联合提出,结合视频颜色特征,利用视频自相似聚类 将视频内容明显变化的镜头分割成内容相似的子镜头【3 】。 体育比赛视频中的全局运动特征或者摄像机运动参数也是体育视频分析中 常用的特征。吴j l l 【4 l 等入提取了视频中的运动特征,用有限状态自动机实现跳水 比赛中的事件识别;) 【i e 【5 】使用运动和颜色特征分别实现了美式足球中“暂停”和 “比赛”两种状态的检测。 除了低层特征和运动特征,赛场上的语音和视频图像的标题文本等辅助信息 对体育视频分析也有一定的帮助。文献 6 】提出,在棒球比赛分析中,利用检测 和提取观众喝彩和球棒击球声音来实现镜头的分割,检测出击球得分事件的发 生;b a b a g u c h i 等入赐结合字幕和视觉特征,并和用它们之间的语义相关性来进 行事件检测。 1 。3 ,2 足球视频检索研究现状 近年来,国内外研究人员在足球视频语义分析方面做了大量的研究工作,主 要集中在低层视觉特征的提取、运动对象的探测与跟踪、多特征融合的视频内容 分析、精彩事件的检测以及比赛剪辑的生成制作等方面。所采用的研究方法也多 种多样,但本质上来说主要有三种:多特征融合的方法、基于运动特征的方法和 基于镜头的方法。 y o w 【8 】和g o n g 【9 】采用对象颜色和纹理特征来检测足球比赛中的精彩事件。 i n t i l l e 和t o v i l l l ( e r e 【l l 】通过分析对象运动轨迹实现对事件的检测。l e o n 砌i 【1 2 】通 过声音描述符表征声音强度,并结合摄像机的运动信息检测足球比赛中的进球事 件。z h o n g 等人【1 3 蛆过识别视频中出现的字幕,实现对体育视频中语义信息的提 4 第一章绪论 取。 在足球视频分析框架方面,许多研究人员都提出了自己的见解。e k i l l 【1 4 】等人 提出了一个框架用来对足球视频进行语义分析,通过镜头分类以及慢镜头检测实 现射门事件、裁判员和禁区的检测。l i 【1 5 】等提出了一个体育视频语义分析的两步 处理框架,针对足球,通过融合慢镜头检测结果、球员特写镜头检测结果和主色 比例、切变镜头检测结果等实现对足球事件的检测,然后通过检测比分字幕,并 将文字识别结果与事件对应起来,形成对足球比赛视频内容的分析和描述。x u 【1 6 】 通过分析镜头切换时的关联性,统计出一些判断足球比赛进行和暂停的规则,有 利于对进球等事件特征进行更好的判断和提取。慢镜头是寻找关键镜头的关键线 索,p 柚【1 7 1 提供了检测慢动作回放镜头的方法,k o b l a 【1 8 】也介绍了在视频分析中 如何检测和使用慢动作回放镜头。 1 4 本文研究内容及论文组织 1 4 1 本文研究的难点 由于计算机和人脑对数据存储处理方式的不同,视频的高层语义与低层视觉 特征之间存在着天然的巨大语义鸿沟。限于当前科技水平,这种鸿沟短期内仍会 存在,足球视频也不例外。足球比赛本身并没有一个很好的结构,如何对足球视 频建立科学并实用的语义模型,更好地对其进行描述和检索是一个需要解决的问 题。足球比赛在时间轴上没有明显的周期性,足球比赛中只有在半场结束、射门 或犯规等发生后,才会出现暂停比赛,重新开球的情况,其余时间一直处在比赛 状态中,因此不能使用比赛回合的周期性对其进行研究,采用事件为语义单位则 具有一定的难度。本文研究的难点有: ( 1 ) 镜头分割是视频分析处理的基础,由于足球视频中含有大量运动镜头, 如何突破图像帧间差固定阈值的局限性,是本文面临的首要难点。 ( 2 ) 镜头分类方面,传统的镜头分类算法对镜头分类不够全面,在保证镜 头分类全面性的前提下,如何兼顾算法的计算效率和分类的精确度是本文的第二 个难点。 ( 3 ) 慢镜头检测是另一个难点,目前的算法要么过于复杂,要么效果不尽 中山大学硕士学位论文 如人意。由于慢镜头对于精彩事件的检测至关重要,如何实现较高查全率的慢镜 头检测是本文的第三个难点。 1 4 2 本文研究的主要内容 本文以足球视频为研究对象,探讨了视频的语义分析方法,在充分理解和分 析视频流结构化的基础上,主要基于足球比赛本身的特点和节目制作手段,通过 镜头边界检测,镜头分类,慢镜头检测,实现对足球比赛视频概要的提取。本文 具体的工作如下: ( 1 ) 镜头边界检测。在充分理解各种典型镜头边界检测算法的基础上,针 对足球视频大多数镜头的主颜色为场地的颜色,提出了一种适合于足球视频的自 适应阈值镜头边界检测方法。 ( 2 ) 镜头分类。提出一种改进的基于子窗口区域的镜头分类方法,将镜头 分为远镜头、中镜头、特写镜头和其他镜头四种类型。 ( 3 ) 慢镜头检测。通过对国内外己有研究成果的分析比较,本文采用了一 种基于零点穿越法的慢镜头检测算法,将基于重复帧数量的方法与零点穿越法结 合,实现了慢镜头在视频流中的定位。 ( 4 ) 生成视频概要。通过分析体育视频的结构特点,总结了精彩事件满足 的通用规则,对足球视频的精彩事件进行检测,形成足球视频概要。 ( 5 ) 以m a t l a b 为主要的实验工具,实现了上述算法。 1 4 3 论文的组织和结构 本文内容共分六章,具体的安排如下: 第一章是“绪论”。本章介绍了体育视频检索的研究背景和意义、国内外研 究现状以及本文的研究内容和文章结构。 第二章是“镜头边界检测技术”。本章首先介绍了镜头边界检测技术的一般 算法,接着重点介绍了适合于足球视频特点的一种自适应阈值镜头边界检测算 法,该算法对镜头切变和渐变均取得了较好的检测效果。 第三章是“镜头类型分类技术”。本章对现有的一些镜头分类算法进行了分 析研究,在此基础上提出了一种改进的基于子窗口的分类算法,将镜头分为远镜 6 第一章绪论 头、中镜头、特写镜头及其他镜头等四类镜头,取得了较好的分类效果。 第四章是“慢镜头检测技术 。本章在应用较为广泛的零点穿越法的基础上, 提出了一种改进的慢镜头检测算法,将基于重复帧数量的方法与零点穿越法结 合,对慢镜头进行了较好的检测。 第五章是“足球视频概要”。本章总结了体育视频中精彩事件满足的通用规 则,以足球视频为例,对比赛中的精彩事件进行检测,形成足球视频概要。 第六章是“总结与展望 。本章对全文的工作进行总结,并指出进一步的研 究方向。 7 中山大学硕士学位论文 第二章镜头边界检测技术 2 1 视频镜头相关知识 2 1 1 视频的结构 进行基于内容的视频检索首先要建立一个合理的视频数据模型,从视频信息 的结构看,视频本质上是不同于文本的非结构化的流。为了便于用户的浏览和检 索,可以将视频流自顶而下分为视频( d e 0 ) 、场景( s c e i l e ) 、镜头( s h o t ) 和 帧( f r a n l c ) 。 帧( f r 锄e ) :帧是视频流的基本组成单元。每一帧就是一副图像。视频流就 是由连续图像帧构成的。在p a l 制式的视频中,每秒中有2 5 帧;在n t s c 制式 中,帧率一般为3 0 帧秒。 镜头( s h o t ) :镜头是指摄像机不间断拍摄的一组帧序列,它常被看成一部视 频的最小结构单元。一般来说,同一个镜头中的图像帧比较接近,特征基本保持 不变。因此,通过发现相邻帧之间较剧烈的特征变化,就可以认为发生了镜头转 换。 场景( s c e n c ) :语义上相关、时间上相邻的若干镜头组成一个场景。场景反 映了视频所蕴含的较高层语义内容,如“学校运动会”这个场景可以由“运动员入 场”、“运动员比赛”和“观众呐喊”等多个镜头组成,形成一个比较完整和丰富的 语义表达。 除了镜头和场景这种较一般的划分,在一些特定领域还有一些领域语义相关 的视频结构。例如,新闻视频通常有“主持人介绍”和“现场报道”交替进行的结构; 体育视频则是由一个个比赛事件组成。这些特定结构的分析,通常是和视频的语 义分析结合在一起进行的【19 1 。 第二章镜头边界检测技术 2 1 2 镜头转换类型 图2 1 视频的结构示意图 一个镜头是摄像机的一次连续拍摄,代表的是时间或空间上一组连续的动 作,是一系列相关联的连续帧的组合。镜头边界是指一段连续视频序列与另一段 连续视频序列之间的过渡转换。镜头边界检测就是对镜头转换进行检测。 镜头转换分为如下两种类型:突变( a b m p tt r a n s i t i o n ) 和渐变( 咖l t r a 璐i t i o n ) 。突变是指上一个镜头直接转换到下一个镜头,中间没有任何的过渡。 渐变则是指加入了一些空间和时间上的编辑效果,上一个镜头逐步转换到下一个 镜头,以改善视觉效果,通常渐变可以持续几帧或几十帧。由于编辑方式很多, 因此渐变的类型多种多样,常见的有淡入( 觚ei 1 1 ) 、淡出( 伽eo u t ) 、溶解 ( d i s s o l v e ) 和扫换( w i p e ) 等。淡入是指画面不断增强,淡出是画面的不断减 弱直至消失。溶解是指上一个镜头的画面逐渐减弱的同时,下一个镜头逐渐增强。 扫换是指上一个镜头的画面从某一部分开始逐渐被下一个镜头的画面所代替。在 足球视频中,渐变的类型通常有溶解和扫换两种,其中扫换一般是带有徽标 ( 1 0 9 0 ) 的变换,这些徽标通常是转播比赛的电视台的台标或者某个体育组织的 标志。足球视频的镜头转换类型如图2 2 所示: 9 中m 大学顽学位论女 a ) 突变 r h ) 溶解 ( c ) 扫换 图2 2 足球视频镜头转换的几种常见类型 图2 2 ( a ) 所示为镜头突变,从图中可以看出下一个镜头的首帧紧接在上一 个镜头的术帧,中间没有任何的过渡。图2 - 2 ( a ) 所示为溶解效果,上一个镜头 的画面慢馒减弱的同时,下一个镜头的厕面逐渐增强,中间过渡表现为两个镜头 画面的重叠。图2 2 ( c ) 所示为带有徽标( b 9 0 ) 的扫换,下个镜头的画面从 一角或者一边逐渐取代当前镜头的画而。 2 1 3 镜头运动及其类型 镜头的运动是视频检索一个重要方面,它可以作为检索时的手段,但同时它 也是镜头分割时容易导致突变和渐变混淆的重要原因之一。它包括对象运动导 致的局部运动,和由摄像机运动导致的全局运动刚。 对象的运动:对象运动根据实际情况的不同干变万化,c o u t 彻一2 1 1 归纳的以 f 种对象的运动,包括出现消失,进入,退出,放置,移动,运动和停止。 摄像机的运动:在视频拍摄的过程中,摄像头可以按不同的方式运动以达到特定 的拍摄效果。 摄像头的运动包括【2 :上下摇镜头( t i l t ) ,左右摇镜头( p 粕) ,转镜头 l o 第二章镜头边界检测技术 ( z r o t a t i o n ) ,移动镜头( t 删临l a t i o n ) ,推镜头( z 0 0 mo u t ) ,拉镜头( z o o mi 1 1 ) 。 2 2 现有镜头边界检测算法 2 2 1 突变检测算法 镜头切换时,视频数据将发生一系列的变化,表现在颜色差异突然增大、新 旧边缘的远离、对象形状的改变和运动的不连续性等各个方面。镜头边界检测的 目的就是寻找这些变化的规律,一般而言,同一个镜头内的各帧之间差异很小, 而不同镜头的帧间差异较大。近几年有关镜头变换检测的研究十分活跃,也提出 了不少算法,基本的方法是数据驱动的方法,它们根据像素值变化、运动子块比 较、直方图比较等的统计分布来检测镜头。 ( 1 ) 模板匹配法 模板匹配法通过直接计算两帧图像所有对应点之间各颜色分量的差值的总 和来检测镜头边界。 d ( 厶,z ,f ,_ ,) = l p ( 厶,q ,f ,) 一p ( z ,q f ,驯 ( 2 1 ) 其中d ( 无,z ,f ,) 表示厶,z 两帧图像在像素( f ,j ) 处的差值。p ( 厶,q f ,j ) 是帧厶中像素o ,_ ,) 处的颜色分量,如r ,g ,b 三基色等,然后再在整幅图像上 求和。 r, s ( 厶,z ) = d ( 厶,六,f ,歹) ( 2 2 ) 括l ,= l 当s ( 厶,z ) 大于某一个预先设定的阈值时,就认为检测到一个镜头切换,否 则就认为没有发生镜头切换。 由于模板匹配算法的基础是点与点之间的对应,因此,当视频中的物体或摄 像镜头出现较大的运动时,该算法将发生误检。该算法对镜头的运动和视频内物 体的运动非常敏感。 ( 2 ) 直方图比较法 直方图比较法是较为常用的算法,它不考虑像素的位置信息,仅仅利用了像 素亮度和色彩的统计值,因为抗噪能力比模板匹配法强。其基本原理是将颜色空 间分为一个个离散的颜色小区间,然后计算落入每个小区间的像素数目,得到其 中山大学硕士学位论文 颜色直方图,然后计算两帧图像直方图的差值得到其帧间差。设颜色空间分为力 个区间,e 。是第f 帧落到第七个颜色区间的像素数目,帧间差用以下公式表示: d ( f ,_ ,) = 恢。一q 。一 ( 2 3 ) 直方图法的优点是它对镜头的运动和图像内物体的运动不敏感,因而它可以 大大降低由此而引起的误检。但这种方法的缺点是,有时会漏掉镜头切换,因为 总可能存在这样的情况:两帧图像有完全不同的结构,但其直方图却很接近,也 就是说,在直方图法中发生漏检总是可能的。 为了避免发生上述漏检的情况,h j z l l a n g 【2 3 1 提出了一种改进算法,称为z 2 直 方图法,帧间差定义为: 删,= 喜鞴 协4 , z 2 直方图法能够放大帧差并且其算法比较稳定,因而得到了广泛的认同。 ( 3 ) 基于块匹配的方法 基于块匹配的方法是把每一帧分成后个块,连续帧之间的相似性通过单独比 较对应的块来估计。如果两帧之间的不相似性超过了阈值,就认为是镜头发生了 变换。基于块匹配的方法强调的是局部属性,可以有效降低噪声影响。由于这种 方法能够忍受摄影机和对象的低速运动,因此可以降低过度检测。然而,对于像 素值类似但是密度函数不同的两帧,会出现漏判的情况t 2 4 1 。 基于块匹配的方法把图像分成一系列的块,计算第f 帧和第f + 1 帧对应第露块 的相似比例五2 5 】: ( 2 5 ) 其中以j 是第f 帧中第七块的像素平均值,吼。是第f 帧中第七块的像素标准 差。 当 大于预先设定的阈值巧时,将其记录下来,由此可以记录下所有相似比 例 大于石的块的数目舢? 垅。当删f 朋大于另一个预先设定的阈值五时,说明发 生变换的块的数目足够多,就认定两帧之间发生了切换【2 6 1 。 1 2 第二章镜头边界检测技术 ( 4 ) 基于边缘的方法 当镜头发生变换时,整个画面的内容都改变了,场景上各对象的边缘也就改 变了,一些新的边缘出现的同时,原来的一些边缘消失。因此可以通过跟踪边缘 变化的改变情况来判断镜头的转换。r z a b h i 例等人提出了基于边缘的方法。基 于边缘的方法的基本思想是“在发生镜头转换时,新出现的边缘应远离旧边缘的 位置,同样旧边缘消失的位置应远离新边缘的位置”。基于边缘的方法通过比较 两帧图像的边缘图来进行镜头切换的检测。 首先提取两帧视频图像和的边缘图局和弓,两帧视频图像之间的差异 由下式计算: d ( f ,歹) = m a ) 【( 吃珊,如) ( 2 6 ) 其中叱是进入像素( 新出现的远离己有边缘的像素点) 所占的比例,吃w 是退 出像素( 新消失的远离新边缘的像素点) 所占的比例。元,吃埘分别由下式计算: 吨= 盟( 2 7 ) p j 屯= 监 ( 2 8 ) p l 其中写,e 分别为边缘图骂和弓中边缘像素点的总数,最为弓中离骂最近 边缘像素点的距离大于,( ,为一预先设定的判别阈值) 的边缘像素点的总数, 这些像素点被认为是e ,中新出现的像素点。叫为磊中离e ,最近边缘像素点的 距离大于,的边缘像素点的总数,这些像素点被认为是在互中存在,而在e ,已 消失的像素点。 若d ( f ,) 明显增大,意味着可能发生了镜头的转换。 对画面简单的视频进行分割时,基于边缘的算法效果很好。但是,大多数的 视频中主要对象或背景可能都有很多复杂、细微或不断变化的轮廓,如飘逸的长 发、波光粼粼的水面等。虽然在提取边缘前可以通过高斯滤波或小波变换滤波以 减少细微边缘的干扰,但是大量的边缘还是会干扰对镜头边界的判断,造成误检; 而在光线比较暗和轮廓不是很明显的情况下( 如晚上和雾中) ,由于难以检测到 边缘又会造成漏检。另外,视频中对象的快速运动也会使前后帧的边缘位置相差 较多,从而造成漏检,并且较大的计算量也限制了这种算法的应用。 中山大学硕士学位论文 2 2 2 渐变检测算法 突变是最简单的镜头边界,容易通过以上方法计算检测出来。但是,诸如淡 入淡出、溶解、扫换等镜头边界,就难以检测出来,因为这些边界转换是相继帧 之间的渐变过程,而不是突变。另外,摄像机操作引起的变化可能与渐变转换引 起的变化程度相似,这使得镜头边界的检测更复杂。也就是说,简单的帧差计算 和单一阈值方法是难以对渐变镜头的边界进行检测的,需要多重检测的过程,以 增强检测能力。主要有如下几种方法: ( 1 ) 双阈值比较法 对于渐变切换,由于两个镜头之间的切换是缓慢进行的,帧间差虽然有所增 大,但没有一个明显的峰值,而是会出现一个“高原”区。为此,文献【2 8 】提出一 种双阈值比较技术,它使用两个阈值z 和乃( z 瓦) 。如果第f 帧的帧间差2 满 足z 口 1 说明发生了渐变。 2 3 2 颜色空间的选择 一般的颜色空间如r g b 颜色空间等,都不能模仿人眼的特点对颜色进行比 较准确的描述。人们通常不会用象素各个颜色分量的值来描述一个物体的颜色, 都倾向于通过其色调,饱和度和亮度加以描述。色调描述颜色所在的波段,如黄、 橙、红;饱和度描述纯颜色被白色稀释的程度;亮度是一个主观描述子,实际很 难度量,具体为亮度的无色感知,是描述颜色感觉的关键描述子,在描述单色图 象时亮度( 灰度级) 非常有效。h s i 颜色空间( 色调h u e ,饱和度s a t u r a t i o n 和亮度 i n t 咄i t y ) 将亮度分量和颜色信息( 色调和饱和度) 从彩色图像中分离出来,用 亮度、色调和饱和度三个分量对物体颜色的进行描述,这种描述比较符合人们的 习惯,对于人眼来说,h s i 颜色模型很自然,很直观。因此,h s i 模型是开发彩 色图象处理算法的很理想的模型,基于h s i 模型开发的算法,能够很好的模拟人 眼处理彩色图像的效梨3 4 1 。因此,本文选用h s i 颜色空间,在此颜色空间下进 行视频帧的主色提取。 在r g b 空间的彩色图像可以方便的转换到h s i 空间。对任何3 个归一化到 【0 ,l 】范围内的r ,g ,b 值,其对应的h s i 模型中的h ,s ,1 分量可由下面的公 式来计算【3 5 】: 日= k 口黧等 像 口= 扣c c 0 s c r g ,2 + c 尺一曰,c g 一召,: 1 7 ( 2 1 1 ) 中m 大学顿学位论文 5 = 1 一i i 。南 m m ( r ,g ,口) 】 ( 2 - 1 2 ) “;( 8 + 6 + 8 ) 乜。 注意由式( 2 1 1 ) 得出的片在 o ,3 6 旷 之间,为使h 布 o ,l 】之间,可令 h :3 6 0 6 。另外当5 = o 时,对应的无色像素,此时没有意义,定义= 0 。 另外当,= 0 或,= 1 时,讨论占也没有意义。 2 3 3 主色的提取 主色提取是镜头边界检测的第一个步骤。主色是指在一幅图像中占主要地位 的颜色。足球场地以绿色为主,因此以场地的颜色作为足球视频的主色。 本文算法在h s i 颜色空问中进行,因此首先计算视频帧图像在h s i 空间中三个 分量的直方图,如图2 _ 3 所示: 藤 ( a ) 视频帧图像( b ) h 分量直方图 议l ( c ) s 分量直方图( 由1 分量直方图 田2 3 视频帻及其h s i 直方图 第= 章镜头边* 检测技术 通过计算各个分量的直方图找出各直方图的峰值o 。,由于场地颜色会随 着场馆、天气、灯光等因素的不同而有所改变,直接用峰值耐柬表示主色不是 报准确,为此提出用包含峰值颜色的一定区间的颜色的均值柬表示图像帧土色 以保证u r 靠性和准确性。主色提取的计算公式如下: h 。】k + 日 ! 。 ( 2 - 1 4 ) h k ,。一1 世+ _ l = k “】 ( 2 - 1 5 ) h k 】k + 片 k 】 ( 2 - 1 6 ) h f 阱+ 如 置+ h 【i ( 2 - 1 7 ) k 。s k “ ( 2 1 8 ) l 眦 ( 2 - 1 9 ) 耶】f m = ! b l 一+ 6 ( 2 2 0 ) 羔日 司 f 2 l _ h 为颜色直方图,胃 o 为峰值o 。的像素数目,颜色区间【t m ,k 的上下 界可以由式( 2 1 4 ) 至( 2 1 9 ) 确定,经过多次试验。足取o2 较为合适。得到。 和f 蝌后,就可由式( 2 2 0 ) 计算得到主色值,其中j 为量化参数,将得到的主 色值归一化。对于取值范围为【o ,2 5 5 】的颜色分量来说,j = l 2 5 6 。由此可以分 别求出三个颜色分量的主色值。图2 4 所示为色调( h u e ) 分量直方图主色的求 取过程。 “n i 山。 图2 4 色调( h u e ) 分量直方图主色的求取过程 中山大学硕士学位论文 2 3 4 特征值的计算 ( 1 ) 当前图像帧的主色像素比例g :f 确定了足球视频的主色以后,就可以对当前图像帧中的像素进行是否属于主 色像素的判断。本文采用圆柱距离准则【3 6 1 ,按照下式计算每个像素值与主色的圆 柱距离: 比。呻( 歹) = k k i ( 2 2 1 ) 如一( 歹) = ( 勺) 2 + ( 。) 2 2 蝴c o s ( 伊( 歹) ) ( 2 2 2 ) 屯;删( 歹) = ( 咖( _ ,) ) 2 + ( 如蝴口( ) ) 2 ( 2 2 3 ) 鼬,= 馏糍= e 协2 4 ) ( j f ) = 一胁巳i ( 2 2 5 ) 矗。枷删 露螂”或者( f ,七) 露动 时,说明发生了镜头的变换。此时根据式( 2 2 7 ) 和式( 2 2 8 ) 中尼值的不同来 第二章镜头边界检测技术 区分镜头突变和渐变。若此时七= 1 ,说明发生了镜头突变,因为突变都是发生 在相邻帧之间的。若七 l ,说明发生了镜头渐变,因为渐变都是持续几帧的。 本文设定七的上限为5 ,即最多计算相邻5 帧的差值。 2 3 7 镜头边界检测算法流程图 本文镜头边界检测算法的流程图如图2 5 所示。 输入:足球视频 输出:对镜头边界进行标记的文件,包括镜头序号,镜头边界帧,变换类型 ( 突变或者渐变) 等信息。 具体步骤如下: ( 1 ) 载入足球视频,选取其中一个以比赛场地为主要内容的帧,在h s i 颜 色空间中提取视频的主色值。 ( 2 ) 对足球视频逐帧处理,计算当前帧的主色像素比例q 。若g f 死胱, 则转到第( 3 ) 步。否则转到第( 5 ) 步。 ( 3 ) 计算当前帧第f 帧与第f j i 帧的主色像素比例差
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论