




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)面向用户的足球视频摘要提取方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r e s e a r c ho nu s e r - o r i e n t e ds u m m a r y 一 一n ” e x t r a c t i o nf o rs o c c e rv i c l e o at h e s i s s u b m i t t e di np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t f o rt h em s d e g r e e 讯c o m p u t e r a p p l i c a t i o n b v j i a n gs h a n s h a n p o s t g r a d u a t ep r o g r a m c o m p u t e rs c i e n c ed e p a r t m e n t c e n t r a lc h i n an o r m a lu n i v e r s i t y s u p e r v i s o r :l i uh u a y o n g a c a d e m i ct i t l e :a s s o c i a t ep r o f e s s o rs i g n a t u r e a p p r o v e d m a y , 2 0 1 1 硕士擘位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名: 薯埘础 日期:钞l 年月y 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中 师范大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 - , 作者签名:象姆砸对 日期:,刀l1 年( 月 日 导师张籼扣导师签名:咖跏旷 日期:2 卅i # - 舌月y 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程 ,同意将本人 的学位论文提交“c a l i s 高校学位论文全文数据库中全文发布,并可按“章程 中的规定享受相关权益。回重途塞逞銮蜃溢卮! 旦坐生;旦二生;旦三生筮查! 作者签名:篓喇删 日期:训1 年6 月7 日 导师签名:机p导师签名:机场夕可y 日期:w f 年月日 随着网络以及多媒体技术的迅速发展,涌现出了大量的数字视频,并呈现出一 种急剧增加的趋势。与此同时,也引发了许多新的技术,包括视频存档、编目、索 引以及有效存取等。更多的人们开始研究如何对这些数据进行有效的管理、组织, 才能很好地进行分析、利用和再利用。 由于视频数据结构的特殊性,以及人们对视频数据的广大需求,这些年来人们 一直在研究基于内容的视频处理技术和分析技术。其中,视频摘要技术更是研究的 热点,它可以帮助人们快速有效地浏览视频,在实际中有着广泛的应用。近来世界 各地的研究者都对其进行了大量的研究,也使视频摘要技术有了一定的发展,最初 的视频摘要方法只是简单地按比例抽取,后来发展为按视觉特征抽取,目前方法越 来越多,比较先进的有融合多特征的视频摘要方法以及多模态视频摘要生成模型 等,视频摘要技术和算法也越来越先进。 目前很多关于视频摘要的研究都是围绕着体育视频这种类型展开的,他们研究 的核心问题是检测体育视频中精彩内容的位置。对于体育视频进行摘要,不仅可以 满足人们浏览精彩片段的需求,还可以用于实现对视频内容的检索。 本文选取足球视频来进行研究,首先回顾一些视频摘要的关键技术,总结近来 比较热门的视频摘要方法,之后提出了一种面向用户的足球比赛视频的摘要生成算 法,或者说是足球比赛视频精彩片段的提取算法。选用观众普遍关注的对象来定义 和建立精彩视频模型。将一整段足球视频分割为一系列的单个镜头,通过球场区域 对镜头进行分类,提取球场特征和运动对象特征,以及音频特征和文本特征等信息, 并对这些特征分别进行分析,推理得到足球视频的视频语义,建立视频精彩度模型。 根据精彩视频模型对精彩视频镜头进行定位、提取,生成摘要。这种方法面向用户, 基于用户的理解对视频进行摘要提取,能够做到从用户的角度出发,它提取的摘要 内容更容易使用户得到满足。 关键词:视频摘要;足球视频;面向用户;精彩模型 i n d e x i n g ,a n de f f e c t i v ea c c e s sa n ds oo n m o r ea n dm o r ep e o p l eb e g a nt os t u d yh o wt o o r g a n i z ea n dm a n a g et h e s ed a t ae f f e c t i v e l y , a n dt h e na n a l y s i s ,u s ea n dr e u s ei te f f i c i e n t l y b e c a u s eo ft h es p e c i a lc h a r a c t e r i s t i c so ft h ev i d e od a t a , a n dt h ew i d er a n g e r e q u i r e m e n t so ft h ev i d e od a t a , i nr e c e n ty e a r s ,c o n t e n t - b a s e dv i d e op r o c e s s i n ga n d a n a l y s i st e c h n o l o g yh a sb e e nt h ef o c u so fp e o p l e sa t t e n t i o n e s p e c i a l l y , t h et e c h n o l o g y o fv i d e os u m m a r yi sm o r ea n dm o r ep a r t i c u l a r l y , b e c a u s ei tc a nh e l pp e o p l eb r o w s i n g v i d e o sq u i c k l ya n de f f i c i e n t l y i nr e a ll i f e ,i ta l s oh a sav e r yw i d er a n g eo fa p p l i c a t i o n s o v e rt h e y e a r s ,r e s e a r c h e r s a r o u n dt h ew o r l dm a k i n gm a n yi n v e s t m e n ti nt h e d e v e l o p m e n to ft h et e c h n o l o g y , a n dm a k ei t ac e r t a i nd e v e l o p m e n t ,f r o mt h ei n i t i a l d e v e l o p m e n to fa c c o r d i n gt ot h ep r o p o r t i o ne x t r a c t i o nt ot h el a t e rm e t h o d sb yt h ev i s u a l f e a t u r ee x t r a c t i o n , a n dn o wt h e r ea r em o r ea n dm o r ea d v a n c e dm e t h o d sa n da l g o r i t h m s , l i k em u l t i f e a t u r ei n t e g r a t i o n ,m u l t i m o d a lv i d e os u m m a r yg e n e r m i o nm o d e l ,a n dt h e ya r e m o r ea n dm o r ea d v a n c e d a tp r e s e n t ,m a n yr e s e a r c h e sv i d e os u m m a r ya r ea r o u n dt h et y p eo fs p o r t sv i d e o ,t h e c o r eo ft h i sr e s e a r c hi st of i n dt h eh i g h l i g h t sp o s i t i o no ft h es p o r t sv i d e oc o n t e n t t h i sc a n n o to n l yh e l pp e o p l et om e e tt h en e e d so fb r o w s i n gt h ew o n d e r f u lv i d e o ,b u ta l s oc a l lb e u s e dt oi m p l e m e n tt h er e t r i e v a lo fv i d e oc o n t e n t t 1 1 i sp a p e rw i l ls t u d yt h ev i d e os u m m a r ym e t h o do fs o c c e rv i d e o ;f i r s tw ew i l l r e v i e wt h ek e yt e c h n o l o g i e sa n dt h eh o t t e s tm e t h o do fv i d e os u m m a r y , a n dt h e np u t f o r w a r daa l g o r i t h mo fu s e r - o r i e n t e ds u m m a r ye x t r a c t i o nf o rs o c c e rv i d e o o rc a ns a yi t h i g h l i g h t se x t r a c t i o na l g o r i t h mf o rs o c c e rv i d e o w ew i l lu s et h ec o m m o no b j e c tm o s t p e o p l el i k et od e f i n ea n db u i l dt h eh i g h l i g h tm o d eo fs o c c e rv i d e o ,n l ew h o l es o c c e r v i d e ow i l lb ed i v i d e di n t oas e r i e so fs i n g l es h o t ,a n dt h e na c c o r d i n gt ot h es t a d i u mt od o l e n sc l a s s i f i c a t i o n ,t h e ne x t r a c ta n da n a l y s i st h es t a d i u mf e a t u r e s ,m o v i n go b j e c tf e a t u r e s , a u d i of e a t u r e sa n dt e x tf e a t u r e s b yt h e s ef e a t u r e sg e tt h es e m a n t i co ft h es o c c e rv i d e o , a n db u i l dt h eh i g h l i g h tm o d e t h e nw ec a nf i n dt h eh i g h l i g h tp o s i t i o na n dg e tt h e m ,a n d h 硕士学位论文 m a s t e r st h e s i s p u tt h e mt o g e t h e rb yh i g h l i g h td e g r e e st og e tt h ev i d e os u m m a r y t h i sv i d e os u m m a r y e x t r a c t i o nm e t h o di sg o i n go nt h eb a s eo fp e o p l e su n d e r s t a n d i n g ,s o ,i ti sf r o mt h eu s e r s p e r s p e c t i v e a n dt h ep e o p l ew i l lb em o t es a t i s f i e dw i t l lt h es u m m a r y k e yw o r d s :v i d e os u m m a r y ;s o c c e rv i d e o ;u s e r - o r i e n t e d ;h i g h l i g h tm o d e i i i 摘 a b s t r a c t 第1 章绪论 目录 - i l 1 1 研究背景和意义1 1 2 国内外研究现状2 1 3 本文的研究内容及组织4 第2 章视频摘要技术综述 6 2 1 视频摘要方法概述”6 2 1 1 视频的结构化分析6 2 1 2 视频摘要生成的一般步骤7 2 1 3 视频摘要的提取技术8 2 2 镜头分割方法1 0 2 3 镜头分类1 4 2 4 足球视频精彩镜头分类l6 第3 章面向用户的足球视频精彩度模型 1 8 3 1 语义分析l8 3 1 1 球场特征1 8 3 1 2 运动对象特征一2 0 3 1 3 音频特征2 0 3 1 4 文本特征2 2 3 2 建立模型2 5 3 3 本章小结2 6 第4 章面向用户的足球视频摘要提取方法一2 7 4 1 精彩镜头定位”2 7 4 2 精彩片段提取2 8 4 3 按精彩度排序生成摘要3 0 4 4 实验结果与分析3 1 4 5 本章小结3 7 第5 章总结与展望 硕士学位论文 m a s t e r st h e s i s 5 1 总结3 8 5 2 展望3 8 参考文献4 0 致谢 1 1 研究背景和意义 第1 章绪论 近些年,多媒体技术一直处于迅速发展的势态,同时网络传输速度也在不断提 高,这就加快了人们通过网络来实现全球多媒体信息共享的步伐。数字视频也越来 越多地应用在教育、娱乐、体育和其他方面,并且还发挥着举足轻重的作用。数字 视频越来越多,而人们浏览视频的时间又是有限的,这就产生了矛盾。于是,视频 摘要技术就成为了当今的一个研究热点,把一段时间比较长的视频提取压缩成简短 的视频或者画面,但同时又不会丢失原视频的主要内容。建立视频摘要可以实现用 简短的视频表达原来整个视频的主要内容,这不仅解决了上面的矛盾,同时也是解 决多媒体检索技术的一个有效方法。 视频摘要技术是以自动或者半自动的方式对视频的结构、内容进行分析,从原 视频中提取出最有意义的部分,将它们以某种方式组合在一起,形成简洁的概要, 并能充分表达原视频的内容,它是对长视频内容的简短总结【l j 。目前,根据表现形 式的不同,视频摘要可分为两种模式,分别是静态的视频摘要和动态的视频摘要 2 1 。 其中,静态的视频摘要又称为视频概要( v i d e os u m m a r y ) ,它是从视频流中提取具 有一定代表性的静态图像。通过得到的一系列关键帧组成相对应的语义单元,概括 出可以表示视频内容的关键镜头,并以静态的方式呈现,达到可以快速方便浏览的 效果;而动态视频摘要又称为缩略视频( v i d e os k i m m i n g ) ,它本身也是一段视频, 但比原视频要短得多,保持了视频中内容随时间动态变化的固有特征,是视频内容 的精华和浓缩。 目前,随着体育视频的不断普及,从大量视频数据中手动寻找关键片段肯定是 一件令人厌烦和乏味的工作,对关键片段自动检测和提取系统的需求也越来越强 烈。对于体育视频进行摘要提取,不仅仅能够满足人们浏览精彩片段的需求,以后 还可以用于实现对视频内容的检索。 在体育视频中,足球视频更是视频摘要领域研究的一个热门主题。对于足球比 赛来说,一场比赛至少有9 0 分钟,比赛时间很长,但在整个比赛过程中精彩镜头, 或者说是令人感兴趣的事件却相对较少,例如射门,犯规等。如果能够根据这些精 彩镜头自动提取并生成足球视频摘要,会使用户在浏览时更有针对性,同时也可以 为下一步进行足球视频的自动编辑以及视频的分类存储带来便利。然而,在实际中, 不同的用户,关注的对象不同,对足球视频的兴趣也不同,这些因素都将对足球视 法,基于用户的理解对足球视频进行摘要提取。这种方法能够做到从用户的角度出 发,它提取的摘要内容也更容易使用户满意。 1 2 国内外研究现状 目前,国内很多研究机构都在进行视频摘要技术方面的研究。例如微软亚洲研 究院,他们主要对视频视觉信息进行分析研究,他们的研究人员,以张宏江为代表, 做了很多这方面的工作,并取得了可喜的成果。清华大学、浙江大学和武汉大学等 所做的研究主要是在关于视频镜头分割方法以及视频检索等方面。另外,国防科技 大学的多媒体实验室在比较早的时候就开展了相应的研究,在关键帧提取、镜头探 测和场景聚类方面已经有了相对比较成熟的研究,同时也开发了多个视频分析与检 索系统,这些系统都具有比较实用的价值,并且具有了相当深厚的技术积累。 国外的视频摘要技术相对国内的研究而言,开始得要更早,当然技术也更先进。 早在1 9 9 4 年开始,c a r n e g i em e l l o n 大学就已经开发了i n f o r m e d i a 视频数据库系统p 】, 致力于视频摘要技术的研究,因此也成为了该领域的先驱。随后,c o l u m b i a 大学、 a t & t 实验室、微软研究院以及加州大学b e r k e l e y 分校等机构都进行了视频摘要技 术的研究,开发了多种不同形式的摘要以及各式各样的提取生成算法。基于内容的 视频处理和检索技术也同时获得了飞速的发展,甚至已经产生了实际可用的系统。 而对于基于内容的体育视频摘要的研究者来说,那些已经成熟的系统就可以提供它 们丰富的经验,并激发出崭新的开发思路。 近些年来,在足球视频语义分析方面,国内和国外的研究人员都做了大量的研 究工作,他们的研究主要针对低层的视觉特征的提取、多融合特征的视频内容的分 析以及运动对象的跟踪与探测、精彩镜头和事件的检测和制作生成精彩比赛剪辑等 方面。当然,他们的研究方法也是各不相同,但本质上,这些研究方法可以分为以 下三种:基于镜头的方法、基于运动特征的方法和融合多特征的方法。 对于足球比赛视频摘要,目前主要有两种精彩镜头的检测和提取方法:第一种 是基于镜头切换的方法来检测和提取足球视频精彩场景。这种方法先对镜头进行分 类,将其分成全局镜头和特写镜头两类,因为这两类镜头的切换有着不同的模式, 然后就可以据此来进行精彩场景的提取。第二种是基于文本变化的提取方法。这种 方法根据检测视频中文本的位置,判断文本的变换,从而定位和提取足球视频中的 2 精彩场景 4 1 。 ( 1 ) 国内研究现状 在国内,9 0 年代末才有人开始对体育视频摘要进行分析和研究,在这方面,中 国科学院计算技术研究所是比较有代表性的研究机构之一,以黄庆明教授为代表的 先进人机通信技术联合实验室【5 】在体育视频中的精彩镜头的研究方面取得了一定的 成果。但在对体育视频进行处理和分析的领域,该方面的研究也只是实验室研究的 阶段,并没有形成真正能够投入实际应用的系统。因此体育视频处理和分析必须先 借鉴基于内容的视频检索和处理方面的研究,才足以给体育视频摘要技术给予指 导,指引方向。 先进人机通信技术联合实验室一直致力于这方面的研究,他们研发的足球视频 处理和检索系统【5 】取得了比较大的突破,实现球场上许多对象的检测、定位和跟踪, 这些对象有球场、球员、足球、球衣号码、字幕等。同时还有对音频、场景进行分 类的功能,以及通过球场三维重建实现精彩镜头和片段的检测与精彩事件排序的功 能。 卜庆凯和胡爱群【6 】曾经提出一种面向用户的体育视频精彩内容检测与提取方 法,先通过分析视觉信息和音频信息,对视频底层特征进行提取,建立这些特征与 用户兴奋之间的时间映射关系,然后计算得到整个视频的兴奋时间曲线,最后,根 据得到的曲线,找到极小值和极大值,并据此来确定每个精彩片断的位置和长度, 同时还提出了一个新的概念“精彩片断重要性 ,根据这个重要度来衡量每个精彩 片段内容的精彩度,并用精彩度来对精彩片段进行排序。 ( 2 ) 国外研究现状 在体育视频的分析、处理以及检索方面,国外的研究比较引入关注。其中 v i p l a b 实验室、哥伦比亚大学的新媒体技术中心等实验机构,他们都对这方面进 行了长时间的研究,同时也取得了令人瞩目的成果。 哥伦比亚大学的新媒体技术中心对足球视频进行了分析研究,开发了足球视频 分析系统,该系统是基于语义的,它实现了对足球视频语义进行多种处理,主要有 比赛进行和暂停的区分和确定,特定领域场景的分类,基于静止帧的慢镜头检测, 模版匹配的声音事件检测和定位,另外,还能跟踪特定物体,实现用户交互方式的 浏览。 v i p l a b 实验室开发了体育视频自动分割与语义注释的系统,通过镜头分割和 语义识别,确定体育视频各镜头的类型、并对体育比赛类型进行分类,实现体育比 赛视频中精彩镜头的检测与识别。 3 硕士学位论文 m a s t e r st h e s i s g o a l g l e 足球视频搜索引擎【_ ,该系统是a m s t e r d a m 大学开发的,它是基于 w e b 的足球视频分析系统,采用树型结构框架。本搜索引擎可以方便用户找到自己 感兴趣的镜头和事件,如进球,射门,换人,警告等精彩事件,同时也能够实现对 特殊球员的搜索。 h a w k - e y e 系统的对象是网球比赛,它是专门用于处理网球视频的系统,该系统 曾经在2 0 0 3 年的w i m b l e d o n 网球比赛中用过,并得到了不错的反响,它实现的网 球识别和跟踪技术是比较先进的,被很多国家的电视台和网络电视的直播上使用。 r o c h e s t e r 大学开发了体育视频分析系统,它能够很好的对体育视频进行检测, 通过定位物体目标,检测精彩事件,最终提取精彩镜头,生成视频摘要。它不仅能 够分析和处理足球比赛视频,还能够把处理结果发送到手机上,方便用户。 瑞士s t o c k h o l m 大学的研究人员,在2 0 0 3 年也开始进行对足球视频的分析和研 究,他们设计的系统可以提供比赛视频的动画模拟,分析事件发生的前因后果,并 分析提供场上正在比赛的运动员的体能表现信息。 1 3 本文的研究内容及组织 近年来,足球视频摘要提取技术是视频摘要中比较热门的研究课题,很多学者 关于这方面做了大量的研究,而面向用户的足球视频摘要提取技术是足球视频摘要 中更具有现实意义的内容,当然也有学者开始做这方面的研究,并取得了一定的成 果。 卜庆凯和胡爱群提出的面向用户的体育视频精彩内容检测与提取方法,通过分 析视觉信息和音频信息,提取视频底层特征,建立计算整个视频的兴奋时间曲线, 根据得到的曲线,找到极小值和极大值,并确定精彩片断的位置和长度,根据精彩 度来对精彩片段进行衡量和排序。实现了面向用户的摘要提取方法,他的方法是面 向所有体育视频的,并且提取的特征也只是视觉信息和音频信息这些底层特征。 通过总结足球视频摘要提取的方法,本文引入用户的语义理解,面向用户对足 球视频进行分析,建模,设计了一种面向用户的足球视频摘要提取方法。论文的研 究目标是实现面向用户的足球视频摘要提取的方法。 本文拟建立一个面向用户的视频摘要模型,由于不同的用户对足球视频将有不 同的理解,在这里选用观众普遍关注的对象来定义和建立精彩视频模型。即选用用 户关注的四个方面来进行建模,分别为:球场特征,音频特征,运动对象特征和文 本特征,该模型将比卜庆凯等建立的模型更加合理,更加全面。首先采用镜头探测 技术将视频进行分割,分为一个个单个的镜头,再对这些镜头进行分类,分别球场、 4 运动对象、音频、和文本等信息对分析和提取,融合这些特征,并根据这些特征与 足球视频语义的相关性,建立视频精彩模型。根据该模型计算视频精彩度,并生成 提取规则,提取精彩视频,最后对提取出来的精彩视频进行排序整合,生成视频摘 要。 本文的大致安排如下: 第一章为绪论,大致介绍本文的研究背景,研究意义,以及关于足球视频摘要 提取方法的国内外研究现状,给出了课题研究的目的和本文的主要工作。 第二章,目前视频摘要相关技术的综述。首先介绍了视频摘要的主要目标,通 过分析视频的基本结构和特点,介绍视频摘要的操作对象,并分析了视频摘要生成 的一般步骤,进一步阐述了提取视频摘要的主要方法,并分析了各种方法的特色。 另外,对于视频摘要中所用到的相关技术进行了介绍,包括镜头分割方法,镜头分 类技术。在本章的最后,还针对足球视频的精彩镜头进行了相应的分析,阐述了足 球视频精彩镜头的基本分类方法。 第三章建立面向用户的足球视频精彩度模型,首先分析用户关注的足球视频的 语义特征,最后选用用户关注的四个方面:球场特征,音频特征,运动对象特征和 文本特征来进行分析、提取、建模,建立面向用户的视频精彩度模型。 第四章将具体介绍面向用户的足球视频摘要提取方法,根据之前建立的精彩度 模型来计算视频的精彩度,对精彩镜头进行定位,并根据一定规则进行提取,提取 出精彩片段,再根据精彩度对这些片段进行排序整合,生成摘要。最后,在本章中 还对该方法进行实验,并对实验结果进行分析、总结,论证了该方法的可行性,同 时指出有待改进的地方。 第五章为全文的总结和对未来工作的展望。对本文研究的主要内容进行总结, 并讨论了可以进一步研究的问题和方向。 硕士擘位论文 m a s t e r st h e s i s 第2 章视频摘要技术综述 2 1 视频摘要方法概述 目前,文章摘要技术已经比较成熟,而视频摘要是对文章摘要技术的进一步应 用,文章的摘要就是对其主要内容的概括,相对原文比较简单,但它已经足以表达 对应文章的基本内容。而且对文章的检索也起着很重要的作用,这种技术已被广泛 应用于文章的检索中,通常,人们可以只阅读摘要,就能判断该文章的主要内容, 并知道这篇文章是否符合自己的需求。那么,对于视频来说,视频摘要技术就是对 这一思想在视频浏览和检索当中的应用。 对视频的结构以及内容进行分析与研究,目前的研究方法都是基于自动或者半 自动技术的,通过研究原视频,进而从中提取出比较重要的部分,或者说是最能表 达该视频语义的内容。然后把这些内容以某种方式进行组合,即可形成视频摘型。 视频摘要是对比较长的视频内容的一个简短总结,通常表示为一段静态或动态的图 像序列,当然还要最大程度地保留视频的原始信息。由于视频数据日益庞大,手工 实现视频摘要将不再可能,那么就需要开发一种自动的工具,能够有效的进行视频 分析与处理,并能快速生成合理的视频摘要。 2 1 1 视频的结构化分析 视频结构具有明显的层次性,所以视频就可以用不同的层次进行描述,视频层 次由低到高,从具体到抽象,可以分为以下五种【8 】:视频帧、镜头、场景、事件( 故 事) 、视频流。在一般的视频数据中,这些层次之间都存在对应的包含关系。 ( 1 ) 帧( f r a m e ) :帧是组成视频数据的最小单位,是一段视频中的一幅静态 图像。帧序列之间的差异构成了对应视频中数据随时间动态变化的效果。 ( 2 ) 镜头( s h o t ) :镜头是一组连续的视频帧,它是摄像机在一次操作过程中 拍摄记录下来的,通常表达一个事件或者一串连续的动作。一段视频数据流是由多 个镜头组成的,镜头是视频数据的基本单元。 ( 3 ) 场景( s c e n e ) :每个不同的场景由一系列( 一个或者多个) 不同的镜头 组成。场景在视频中对应着一段具体的语义内容的描述。比如说,足球视频中的一 次射门就可以认为是一个场景,由多个镜头组成的,所以,对进球球员的特写就可 以认为是一个镜头。 ( 4 ) 故事( s t o r y ) :故事表示视频中的一个完整事件,一般由几个场景构成。 6 硕士学位论文 m a s t e r st h e s i s 它是一种比较高层次的结构,当然也比镜头和场景更抽象。目前,因为对故事的定 义并不是特别统一,不同的人对其也会有不同的定义和叫法。 ( 5 ) 视频流( v i d e os t r e a m ) :可以理解为原始视频数据,是对原始视频数据 的代表和呈现。视频流包含一个或者多个故事。为了研究的方便,通常认为一个视 频流只包含一个故事,多个故事就可以分为多个视频流。所以在理论研究中,视频 流有时和故事表达的是一个概念。而对于足球视频来说,它所描述的内容比较单一, 也并不存在多个故事,所以,在本文把一段足球视频就当成一个故事来进行分析和 研究,那么,它的结构就可以认为只有视频流、场景、镜头和帧这四个层次,如图 2 1 所示。 拘象 其体 足球视频流 兰三:,卜竺:n 镜头l镜头2镜头3镜头4 ” 镜头n i 棍频帧 圈圜国 图2 1 足球视频的层次结构 2 1 2 视频摘要生成的一般步骤 随着视频摘要技术的不断发展,出现了各种各样的摘要形式和算法。但从本质 上来讲,视频摘要的生成过程基本上可以分为以下几个步骤: ( 1 ) 视频分割 “先分后合 原则是视频摘要算法必须遵守的一个原则,任何视频摘要算法都 要先进行视频分割,分割是视频处理的第一步。只有将视频先进行分割,切分成合 7 硕士学位论文 m a s t e r st h e s i s 理的基本单位( 场景、镜头、帧等) 以后,才能对视频内容进行理解和分析。 ( 2 ) 视频内容提取 为了能够被计算机直接处理,将通过不同的方法,对视频内容进行提取,并且 提取出的内容信息还要能被人们所直接感知。 ( 3 ) 重要度评判 对提取出来的视频内容进行重要度评判,评定该片段在视频中是否重要,是否 可以用来表达原视频的主要内容,目前也有多种不同的评定方法和准则。 ( 4 ) 摘要合成 进行过评判之后,把认为重要的视频内容片段组合起来,结合人类感观,以可 行的方式合成某种形式的摘要,当然合成的摘要一定要便于浏览。 ( 5 ) 摘要表现 视频摘要最终是要给用户的,当摘要合成以后,就要以可视化的形式表现出来, 供用户浏览。 这就是视频摘要生成的一个基本步骤,一般情况下,那些关于研究视频摘要生 成技术的工作都离不开这五个步骤 9 1 。后面的三个步骤( 重要度评判、摘要合成、 摘要表现) 是视频摘要技术的重点,并且这几个步骤也相对复杂一些,因为对它们 的研究涉及了其他一些相关领域的知识。 2 1 3 视频摘要的提取技术 换句话说,视频摘要的提取也就是视频摘要的生成。由于视频处理对象不同, 可以据此对视频摘要的提取技术进行分类,基本上可以分为四种不同的方法【l o 】,以 下将分别对其进行阐述。 ( 1 ) 基于关键帧的方法 关键帧( 代表帧) 是一个镜头的关键图像帧,通常用于描述或者反映一个镜头 的主要内容。由于镜头内容的复杂程度不同,一个镜头中可以提取出一个或者多个 关键帧。但一般可以通过关键帧的使用大大减少视频的数据量,同时通过关键帧建 立视频索引,为视频的查询和检索提供一个框架,因为关键帧反映视频流中的主要 内容,所以就可以通过关键帧来给一段视频建立摘要,用户通过浏览几个有限的关 键帧就可以快速浏览整段视频的主要内掣1 1 j 。 目前,有几种关键帧提取方法是比较典型的,包括:基于图像信息的关键帧提 取方法、基于运动分析的关键帧提取方法、基于镜头边界的关键帧提取方法和基于 视频聚类的关键帧提取方法【l2 1 。另外,还有针对某些特定的视频类型的关键帧提取 算法,例如,在新闻视频中,基于图像和文字信息对关键帧进行提取。 在利用关键帧的时候,首先要分割出视频流中的镜头,然后再针对不同的镜头 进行关键帧提取。以帧之间的非相似性为准则来选取关键帧,比如用颜色、运动等 视觉特性为衡量标准来提取关键帧。对于分割出来的镜头,计算每一帧的颜色直方 图,并比较其相似度,由此来判断关键帧。这种方法存在一个明显的缺点:关键帧 进行选取时计算量太大,并且对阈值的依赖性比较大。另外,仅用颜色特征不能很 完整地表达整个视频的语义信息和内容相关性。 ( 2 ) 基于聚类的方法 一般来说,视频是用各种方法把大量镜头剪辑结合起来的。由于照相机的连续 运动组成一组镜头,所以一给镜头中应该具有比较相似的内容。仅仅靠提取出的关 键帧并不一定能保证它们之间的相关性。基于聚类的方法在生成关键帧的同时,也 考虑了场景的重要性,这种方法从视频中场景的活动性、长度以及场景中物体的数 量等多个方面进行考虑,且不用选取阈值,更加方便地控制关键帧的数量,而且采 用分层显示的方法,使视频摘要表现地更加简单明了。这种方法不依赖于视频的起 始分割,而且也不需要进行镜头变换探测,因此就避免了镜头误识别的问题,从而 提高了视频摘要的性能【1 3 ,1 4 】。 ( 3 ) 视频摘要模型 近年来,关于视频摘要技术的研究,出现了一系列不同的视频摘要模型【1 5 1 。其 中,比较典型的有e d u 模型、c p r 模型、时空运动模型以及基于注意力的模型等 几种。 “实体一描述一效用”( e d u ) 模型【1 6 1 ,由实体生成描述,再由描述得到效用 函数,进而提取摘要。该模型定义为: e ,d ,u ,巾 ;其中,e 、d 、u 、由分别 表示实体集、描述集、效用集、以及三种集合之间的关系。 实体是指视频中的客观存在,是概念的或者是物理的,视频的帧、镜头、场景、 故事等都可以看作是视频的实体。 描述是相对于实体而言的。实体代表视频的原始信息,描述是对实体的抽象和 概括,从而满足计算机处理的需要,并更加符合人类的理解。那么,不同的实体就 对应着不同的描述。 效用是度量实体对用户需求的贡献的一个值,一个实体本身的特性决定了它在 整个视频的内容中表现出多大的作用,而这个作用就该实体的效用来评估。利用每 个实体的效用值,生成视频摘要。效用值的大小将决定这个实体在视频中是否重要, 是否应该将其保留在摘要中。 9 c p r 模型旧。一个好的视频摘要,应该是先选择重要的物体或者事件,再考虑 事件的连续性,保证事件是不中断的;最后还要考虑这些物体和事件在视频摘要结 果中是否重复出现,保证他们是不重复的。该模型就是参照这样的原则,主要考虑 三个方面的因素:优先权、连续性和不重复性。 时空运动模型。在一段完整的视频中,连续帧具有一定的运动特性。如果一组 镜头中只出现单一的物体,或者是只有单一的物体在运动,那么就可以通过运动模 型得到视频摘要。然而,实际的视频中大多包含多个物体的运动,可以选用占主导 地位的物体,忽略其他物体,用运动模型提取摘要。 此外还有基于注意力的模型【1 8 】,根据用户的注意力,定义用户关注空间,建立 用户注意力模型,从而提取摘要。这种方法创建的注意力模型对视频内容进行类人 理解,更加符合人类的认知规律。 ( 4 ) 语义的视频摘要 基于关键帧的方法和基于聚类的方法都没有考虑视频的深层理解,以及视频给 予人的感知特性。视频分析应该加入人类的理解,不仅要进行客观内容的分析,还 要对视频进行主观理解,要考虑到视频的语义信息。分析语义的视频摘要方法,首 次将情感单元的概念运用到了视频摘要中来。它可以表示某个场景或者某一时刻对 应的人物的情感状态。 基于语义的视频摘要,也就是根据视频的高层语义概念特征,对视频提取摘要 提取【1 9 1 ,首先利用特定的方法对镜头和关键帧进行分类,分析得到语义概念。再根 据这些语义概念对镜头进行聚类,把具有同样语义概念的镜头聚为一类。在不同的 语义类中,根据镜头的重要性,选取关键帧,最后再将所有的语义类放在一起,将 不同语义类中选取出来的关键帧排序,构成视频摘要。 2 2 镜头分割方法 镜头是一组连续的视频帧,通常表达一个事件或者一串连续的动作。一段视频 数据流是由多个镜头组成的,它是视频数据的基本单元,并且通过变换镜头来表示 不同的内容。因此,要想对视频进行处理,首先就要把视频分割成为一系列的镜头, 以作为基本的视频处理单元,来进行视频处理。这种把视频中的镜头进行分割的技 术,也被称为镜头边界检测技术。 镜头分割是对视频内容进行分析、分类、索引及查询等各种处理的基础,是视 频处理的第一步。因此,对于视频镜头分割算法的研究,一开始就受到广大研究者 的重视,在视频处理研究的过程中,它的研究历史最长,而且研究成果也是最丰富 l o 的。 不同的镜头之间存在不同的衔接方式,据此,可以将镜头切换模式两种,即突 变和渐变 2 0 l 。 ( 1 ) 突变,也称切变,这种变换模式下,镜头之间是突然发生变化的,从一 个镜头到下一个镜头的变化是突然发生的,中间不存在过渡。 ( 2 ) 渐变,渐变是一个缓慢过渡的过程,它是从一个镜头慢慢过渡到另一个 镜头的,不存在明显的镜头跳跃,与切变完全相反。渐变有多种不同的方式,常见 的主要有淡入、淡出、隐现和滑入等。淡入是慢慢显示出画面;淡出是画面逐渐消 失;隐现是融合了一个镜头的淡出和一个镜头的淡入;滑入是下一个镜头在空间逐 渐代替上一个镜头。 视频的镜头分割要同时检测出这两种变换,镜头在切换时,对应的视频数据会 反映出相应的变化,目前的视频镜头分割方法,主要根据这个变化来实现。一个镜 头中的相邻视频帧之间的差异比较小,所以这些帧之间的特征差值就会落在某个阈 值以内。当镜头发生突变时,前后两个相邻帧的内容通常都会发生比较大的变化, 一旦这个差值超过了阈值,就意味着发生了突变。而对于渐变,因为它是慢慢变化 的,所以就不能用这个方法检测,它的检测方法将更加复杂。 通常在镜头切换时,视频数据将发生相应的变化,寻找其中的规律,就可以实 现镜头边界检测。基本上,镜头变换检测的方法有两大类,基于数据驱动和基于模 型驱动。 ( 1 ) 像素点比较法 这种方法主要用来检测切变,它用帧间的变化量进行检测,帧间的变化量直接 通过对应两帧图像之间颜色的差值来确定。 d ( 无,六,f ,j f ) - - i p ( e ,g ,f ,歹) 一p ( l ,c f ,f ,刊 ( 2 1 ) 其中d ( 厶,z ,f ,歹) 表示像素差值,即厶,z 两帧图像在像素( f ,) 处的差值。 尸( 厶,c i , jf ,j f ) 是帧厶中像素a ( i ,歹) 处的颜色分量,然后用在整幅图像上求和。 ry s ( 厶,无) = j d ( 厶,f ,) ( 2 2 ) f 司j - - - ! 当s ( 厶,正) 大于某一个给定的阈值时,就认为这里发生了一个镜头切换。但是 这种方法对镜头运动太过敏感,容易造成误判。 ( 2 ) 直方图比较法 直接从图像中得到的是r g b 值,而直方图的数据是h s v 值,这就需要先把 r g b 值转换为h s v 值。给定r g b 颜色空间的值( ,g ,6 ) ,g ,b e o ,1 9 * o0 2 5 5 】,转换 到h s v 空间的( h , s ,) 值,计算如下: 设,= m a x ( r ,g ,b ) ,旦i i j 矿 2 5 5 ,- m i n ( r ,g ,6 ) 弘了一 h 2 ( 2 3 ) ( 2 4 ) ( 5 + 6 ) ,矿,= m a x ( r ,g ,6 ) a n dg = m i n ( r ,g ,6 ) ( 1 - g ) ,矿r = m a x ( r ,g ,6 ) a n dg m i n ( r ,g ,6 ) ( 1 ”) ,fg = m a x ( r ,g ,6 ) a n db = n l i n ( ,g ,6 ) r ,n ( 3 - b ) ,fg = m a x ( r ,g ,6 ) a n db m i n ( r ,g ,6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 购销协议(样式二)
- 节能服务合同
- 建设工程廉洁合同(一)
- 热射病即题目答案解析,热射病即题目答案解析
- 围墙工程施工方案(完整版)
- 中心静脉导管维护相关知识试题及答案
- 输血知识考试试题及答案
- 电气管内穿线工程施工方案及工艺方法
- 健身爱好者2025年运动习惯调研报告:健身运动与心理健康干预策略
- 美容运营培训课件图片
- 老乡贷贷款管理办法
- 老师新学期个人工作计划表怎么写(5篇)
- 2025年高考全国二卷数学真题(原卷版)
- 统编版九年级上册道德与法治1.2 走向共同富裕 课件
- 汽车销售日常知识培训课件
- (正式版)DB15∕T 2351-2021 《燕麦米加工技术规程》
- 2024德州市庆云县渤海路街道社区工作者招聘考试试题
- 标准预防与隔离技术课件
- 脊柱外科医生进修汇报
- 口腔正畸进修总结汇报
- 2025年学宪法、讲宪法题库(含答案)
评论
0/150
提交评论