




已阅读5页,还剩66页未读, 继续免费阅读
(控制科学与工程专业论文)体育视频分析及个性化定制.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近年来,体育视频分析因其巨大的商业价值及广大的应用前景而受到国内 外科研工作者的广泛关注,并成为多媒体领域内的一个热点研究课题。当前体 育视频分析的主要研究内容包括:视频底层特征分析、中级语义信息提取( 即语 义事件检测) 、高级事件推理、精彩事件检测、自动摘要生成、视频浏览、视频 检索、个性化定制、视频内容编辑等。 本文工作主要关注于体育视频中级特征的提取( 如,体育节目的语义镜头分 类、重放镜头检测等) 以及以多模态特征融合为基础的精彩片段检测与提取,并 在此基础上进行了个性化定制方面的探索。具体表现在以下几个方面: ( 1 ) 为了对镜头进行有效的分类,提出了一种基于决策树的体育视频镜头分类方 法。首先,定义了几种重要的镜头类型,然后在视频图像序列上联合颜色、 纹理、边缘、形状等特征并利用决策树对图像进行分类。最后利用镜头中所 包含的所有帧的分类投票结果来决定镜头的类型; ( 2 ) 为了准确的检测重放慢镜头,提出了一种基于重放l o g o 和镜头上下文的重 放镜头检测方法。该方法不仅能够准确定位重放镜头边界,而且还可以鲁棒 的识别重放镜头。 ( 3 ) 在镜头分类和重放慢镜头检测的基础上,利用多模态特征融合的方法( 融合 视觉、文本等信息) 对体育视频中的精彩片段进行检测和提取,同时利用提 取的高层语义概念( 球员名、球队名、事件类型等) ,对所提取的精彩片段进 行语义标注,并建立视频文件数据库。 ( 4 ) 在视频语义分析及标注的基础上,进行一些个性化定制方面的探索性研究, 开发出一套基于移动平台的体育视频个性化定制系统,为广大移动设备用户 提供方便、快捷的体育视频个性化定制服务。 关键词:体育视频分析,镜头分类,精彩片断检测, 视频标注, 个性化定制 a b s t r a c t r e c e n ty e a r s ,w i t ht h eg r e a tc o m m e r c i a lv a l u ea n de n o r m o u sa p p l i c a t i o n p o t e n t i a l ,s p o r t sv i d e oa n a l y s i sh a sa t t r a c t i n gm o r ea n dm o r er e s e a r c h e r s a t t e n t i o n , a n dh a sb e i n gah o tr e s e a r c ht o p i ci nm u l t i m e d i ar e s e a r c hr e g i o n c u r r e n t l y , t h e o b je c t i v e sa n da p p l i c a t i o n so fs p o r t sv i d e op r o c e s s i n ga n da n a l y s i si n c l u d e :l o w l e v e l f e a t u r ea n a l y s i s m i d 1 e v e ls e m a n t i ci n f o r m a t i o ne x t r a c t i o n ,h i g h 1 e v e ls e m a n t i ce v e n t r e a s o n i n g ,h i g h l i g h td e t e c t i o na n de x t r a c t i o n ,v i d e os u m m a r i z a t i o n ,b r o w s i n g ,v i d e o r e t r i e v a l 。p e r s o n a l i z e dc u s t o m i z a t i o n , v i d e oc o n t e n te d i t i n g , e n h a n c e m e n ta n d e n r i c h m e n t ,e t c t h i st h e s i sf o c u s e so nm i d 1 e v e lf e a t u r ee x t r a c t i o n ( s u c ha ss h o tc l a s s i f i c a t i o n r e p l a yd e t e c t i o n ) ,a n dm u l t i m o d a li n t e g r a t i o nm e t h o db a s e dh i # l i g h td e t e c t i o na n d e x t r a c t i o ni ns p o r t sv i d e o t h ed e t a i l sa r ea sf o l l o w s : ( 11i no r d e rt oc l a s s i f yt h ev i d e os h o tt y p ee f f i c i e n t l y , ad e c i s i o nt r e eb a s e ds e m a n t i c s h o tc l a s s i f i c a t i o ni sp r o p o s e d f i r s t l y , s e v e r a li m p o r t a n ts h o tt y p e sa r ep r i o r d e f i n e d t h e n , c o l o r , t e x t u r ea n ds h a p ef e a t u r e sa r ec o m b i n e dt op e r f o r mv i e w c l a s s i f i c a t i o ni nt h ev i d e os e q u e n c e s a n df i n a l l y , t h ef i n a ls h o tt y p ei sv o t e db y v i e w sc o n t a i n e di nt h es h o t ( 2 ) i no r d e rt oa u t o m a t i cd e t e c tt h er e p l a ys c e n ea c c u r a t e l y , ar e p l a y - l o g oa n ds h o t c o n t e x tb a s e da p p r o a c hi sp r o p o s e d t h i sm e t h o dc a nn o to n l ya c c u r a t el o c a t et h e r e p l a yb o u n d a r i e s ,b u ta l s or o b u s tr e c o g n i z er e p l a ys c e n e s ( 3 ) b a s e do ns h o tt y p ec l a s s i f i c a t i o na n dr e p l a ys c e n ed e t e c t i o n ,am u l t i m o d a l i n t e g r a t i o nm e t h o di se m p l o y e dt od e t e c ta n de x t r a c tt h eh i g h l i g h to fs p o r t sv i d e o a f t e rt h ed e t e c t i o n ,t h eh i g h l i g mc a nb ea n n o t a t e db yt h eh i g h 1 e v e ls e m a n t i c i n f o r m a t i o n w h i c hi se x t r a c t e df r o mw e b c a s t i n gt e x ta n di n c l u d ep l a y sn a m e , p l a y e r st e a mn a m e ,e v e n tt y p e ,e t c b a s e do nt h o s ea n n o t a t i o nr e s u l t s ,av i d e o d a t a b a s ei se s t a b l i s h e d ( 4 1b a s e do nv i d e os e m a n t i ca n a l y s i sa n da n n o t a t i o n ,s o m ee x p l o r a t o r yr e s e a r c ho n s p o r tv i d e op e r s o n a l i z e dc u s t o m i z a t i o nh a sb e i n gc a r r i e do n ,a n dam o b i l eb a s e d s p o r tv i d e oc u s t o m i z a t i o ns y s t e mi sd e s i g n e da n di m p l e m e n t e d ,w h i c hc a n p r o v i d em o b i l eu s e r sw i t hi n t e r e s t i n gv i d e oc l i p sa c c o r d i n gt ot h e i rp e r s o n a l i z e d p r e f e r e n c e s k e yw o r d s :s p o r t sv i d e oa n a l y s i s ,s h o tc l a s s i f i c a t i o n ,h i g h l i g h td e t e c t i o n ,v i d e o a n n o t a t i o n ,p e r s o n a l i z e dc u s t o m i z a t i o n i i 插图目录 图1 - 1 视频的层次结构3 图3 1 分层次镜头结构1 8 图3 2 足球视频中的镜头类型。1 9 图3 3 镜头分类框架2 0 图3 4 镜头边界类型示例:( a ) 切变( c u t , 连续4 帧) :( b ) 溶解( d i s s o l v e ,包含1 9 帧) ;i c ) 划变( w i p e ,包含1 4 帧) ;( d ) 淡化( f a d eo u t , 包含1 s 帧) 2 1 图3 s 画面分类的决策树2 4 图3 - 6 从颜色直方图中提取主颜色值2 6 图3 7 足球比赛巾场地提取示例。2 7 图3 - 8 人脸检测例子:i a ) 原始图像,( b ) 肤色检测图像,( c ) 人脸检测结果。2 9 图3 - 9 场地内目标提取及大小估计3 0 图3 1 0 一个l o g o 转换过程( 显示了序列中2 4 幅图像中的8 幅) 3 2 图3 1 1l o g o 过程的帧问差序列3 2 图3 1 2 提取的l o g o 模板,( a ) 足球比赛视频;i b ) 篮球比赛视频3 6 图4 _ 1 网络直播文字页面4 2 图4 2 视频中的时钟数字辨识。4 3 图4 3 数字模板4 3 图4 4 事件边缘模式4 s 图4 5 有限状态机4 6 图s 1 基于移动设备的体育视频个性化定制系统框图4 9 图s 一2 服务器端和客户端各自的分工及二者之间的交互流程5 0 图5 3 视频分析流程示意图5 1 图5 - 4 视频标注数据库表单5 2 图5 5 系统信令流图5 4 v 图5 6 视频自助餐首页s 4 图5 7 篮球定制系统首页图5 - 8 选择优先级图图5 - 9 球员列表5 s 图5 1 0 事件列表图5 1 1 等待界面图5 1 2p l a y 界面5 5 v i 表格目录 表3 1 画面分类结果3 0 表3 2l o g o 检测结果3 7 表3 3 “c a m e r o o nv s g e r m a n y ”的重放检测结果3 8 表3 4 “e n g l a n d v s s w e d e n ”的重放检测结果3 8 表3 5 “u s a v s p o r t u g a l 的重放检测结果3 8 表3 - 6 镜头分类结果3 9 表4 - 1 事件类型及其所对应的关键字( 足球) 4 3 表4 - 2 事件边缘检测结果。4 7 v i i 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中明确的说明并表示了谢意。 研究生签名:星! 二整日期:型! :鱼:! 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即;学校有权保留送交 论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部内容,可以采用影印、 缩印或其他复制手段保存论文。 ( 保密的论文在解密后遵守此规定) 研究生签名: 受1 3 :生 一导师签名: 日期:垄丝! ! 生:! 武汉理丁大学硕十学位论文 1 1 研究背景和意义 第1 章绪论 随着信息技术日新月异的发展,人类社会步入了一个高度信息化的时代。 先进的数字化设备和层出不穷的媒体手段每天都会生成大量的多媒体信息( 文 字、图像、声音和视频等) ,而广播通信和互联网技术的推广和普及又使得这些 信息得以在全球范围内传输、分享和应用。信息的快速增长一方面促进了社会 的进步,另一方面也使人们淹没在信息的海洋之中,难以从众多纷繁芜杂的信 息中筛选并获取自己真正想要的信息,这就是信息膨胀问题。为解决这个问题, 我们不仅需要有海量存储和高速传输的技术,还要具有能对多媒体信息进行快 速分析、检索的技术,这样才能使人们有效的获取和利用这些信息。 在多媒体信息中,信息量最大的一类是视频信息,其因数据量庞大,抽象 程度低等特点,在管理和使用上都会耗费大量的人力、时间和空间。很多领域 由于对海量的视频信息无法做到有效的利用,致使采集的信息被闲置,造成数 据的冗余和浪费。随着数字化图书馆、视频分享网站的产生,以及大规模视频 信息数据库的建立,对如何自动的进行视频信息的分析、整理和索引提出了客 观要求。此外,对于品类繁多的新闻、电影、电视及体育转播等广播视频,人 们早已不再满足于那种传统的“你播我看 的单一收看模式,开始追求一种个 性化的随心所欲的观赏体验。随着数字电视的普及和网络视频播放技术的成熟, 如何向用户提供个性化定制服务,来满足千姿百态的用户需求也成为了新的发 展方向。因此,与视频内容分析以及个性化定制服务相关的技术问题也成为了 当今信息技术领域的研究热点。 众所周知,视频信息数据量庞大,结构性弱,内容又大量冗余,属于一类 二进制巨型对象,通常被当作一种不透明的线性比特流进行处理。对其进行基 于内容的分析和检索具有相当的难度。然而在种类繁多的视频信息中,体育视 频因其两点特殊性成为了其中一类重要的数据类型。首先从技术上,体育比赛 都有相对固定的结构与规则,而体育比赛在视频广播中特定场景下所采用的视 频转播手段也有一定的规律。这些与具体领域相关的知识大大有助于对视频内 武汉理工人学硕士学位论文 容的分析与理解。体育视频中的事件( 我们称之为语义性概念) 基本上有一个公众 皆能接受和理解的定义,比如足球比赛中的进球、犯规等事件。即使是对一些 更高层或更模糊的事件,比如“精彩镜头 ,虽然没有明确的定义,但大多数人 理解的偏差并不大,从而在一定程度上降低了视频语义分析的难度。其次从需 求上,体育视频拥有着庞大的受众群,除了传统的电视用户,还有大量的移动 用户和网络用户,以及一些专业人士( 如教练员、运动员、体育分析者等) 等,他 们各自对体育视频都有着不同需求和偏好:1 ) 对于移动用户,他们最关心的问 题往往是网络带宽的限制。随着3 g 无线标准的产生和应用,移动用户将会有快 速的连接。但是,对于一场完整的比赛而言,实时的数据流传输仍然是不切实 际的。而实际上,移动用户可能对于比赛摘要和精华更感兴趣。因此,移动用 户更关心实时的精彩片断提取与传送;2 1 对于网络用户,他们可能与移动用户 一样关心网络带宽问题。虽然他们可以通过网络从服务器端收到经过处理后的 比赛摘要,但他们更希望可以通过网络在远程数据库中查找整个比赛节目或者 实施带有详细描述的高级查找。因此,为网络用户提供视频摘要和语义事件检 测服务已成当务之急;3 ) 对于专业用户,他们往往希望能够提取球队和运动员 的统计信息以制定比赛计划、评估队员的表现、或者分析比赛策略。这些用户 感兴趣的是对以前的比赛视频进行基于低层运动特征的搜索,比如目标检测、 跟踪,运动轨迹提取以及相关的语义推断。这类处理对于时间限制的要求并不 严格,但是对于所需求的信息的精度要求很高。所有这些需求的实现都是建立 在对海量体育视频的快速高效的分析和检索基础上的。因此体育视频的分析和 检索是当今视频分析领域的重要课题,其在数据处理方面的挑战性和深刻的意 义以及广阔的研究、应用、商业价值,使其受到了学术界和工业界的广泛认同 和重视。 本文研究体育视频的目的就在于希望通过对体育视频的分析来为体育节目 的语义事件检测、高级事件推理、精彩事件检测等寻找有效的解决方案,并以 此为基础,借助于音视频信息及网络直播文字等高级语义信息的辅助,开发出 能够为广大移动设备用户提供方便、快捷的体育视频个性化定制服务的系统。 1 2 课题的研究现状 由于体育视频分析所具有重要的理论价值、广泛的应用前景以及巨大的商 2 武汉理工火学硕十学位论文 图1 - 1 视频的层次结构 业价值,因此吸引了国内外大量学者、研究机构以及商业组织的强烈兴趣和关 注,并投入大量的人力物力进行了大量的研究工作。在十多年的研究发展过程 中,随着科学技术的不断发展与进步,研究者们所关注的研究领域和研究方法 也在不断向前发展,经历了从关注视频底层特征的提取到进行视频高层语义分 析的演变,并逐渐形成了一套完整的研究体系。回顾体育视频分析的发展,其 研究领域可分为一下几个方面: 1 2 1 基于结构化的视频分析 早期的视频语义分析主要集中在视频的结构化分析方面。在视频结构化分 析过程中,可以把连续视频流分割成镜头、组和场景等视频单元。它们是视频 在不同层次上的结构表达。帧( f r a m e ) 是视频流中的基本组成单元。视频流数据 就是由连续图像帧构成的。镜头( s h o t ) 是摄像机在不改变或较小改变其内外参数 的条件下拍摄的帧序列,该序列内部帧与帧之间保持较高的相似性和连续性。 通常可以用关键帧( k e yf r a m e ) 来代表一个镜头的内容。场景( s c e n e ) 是语义上相关 武汉理1 :大学硕十学位论文 和时间上相邻的若干组镜头集合,它是视频所蕴涵的高层抽象概念和语义的表 达。组( g r o u p ) 是介于物理镜头和语义场景之间的结构。例如:一段采访录像, 镜头在主持人与被采访者之间频繁切换,整个采访属于一个场景,而那些关于 主持人的所有镜头属于一组,关于被采访者的所有镜头属于另一组。图1 1 显示 了按照上面的定义对视频数据流进行结构化分层的过程。在此基础上,可以按 照以下步骤对视频进行结构化分析:首先通过视频镜头边缘检测将连续的视频 图像序列分割成单个的镜头单元;然后通过各种关键帧提取技术对每个镜头单 元提取关键帧;接着对所提取的关键帧进行分析,对镜头单元进行分组,从而 得到视频组;最后对视频组进行分析得到视频场景,进而构建视频目录,并为 原始的无结构视频数据流建立索引。 这些结构化分析在各种内容的视频中都有所应用和发展。如镜头检测以及 镜头突变和渐变形式的研究【1 翻,电影中的场景分析【3 1 ,新闻中时空结构的分析【4 】, 还有体育视频中的镜头分类【5 】,p l a y - b r e a k ( 1 :l 赛进行中断) 检测【5 】等等。这些结 构的定义基本上还属于比较低的语义层次,对于视频内容的理解帮助还很有限。 当然,也因为结构化分析更贴近数据层,因此某些技术如镜头分割已发展的比 较成熟,在一些商业软件中已有所应用。 1 2 2 基于事件的视频分析 基于事件的视频分析是随后发展起来的一类方法。事件是相比较于镜头、 场景等结构来说更为高级的语义单元,它与视频的内容密切相关,可以更好的 揭示、表达和概括视频的内容。比如电影中的打斗、枪战、对话,体育视频中 的射门、得分、犯规等。人们在视频分析时定义的事件通常是一些平淡过程之 后的突发动作或行为,具有变化性和不可预知性。因此基于事件的分析方法在 体育视频和电影中应用较多,而新闻视频由于具有很强的结构性,新闻片段之 间都有严格的分界,所以较少采用这种方法。体育比赛中的精彩事件提取睁7 1 , 电影中的对话检测【8 】等都是依赖此类方法。然而由于事件需要结合领域知识事 先进行明确的定义,因此无法建立一个通用的语义分析框架,缺乏一定的推广 能力。 1 2 3 基于语义的视频分析 4 武汉理- 丁大学硕+ 学位论文 随着计算机视觉,图像处理等相关技术的发展,一些更高层次的语义分析 方法开始出现。人们开始追求识别一些更为抽象的概念,比如体育比赛里面的 战术分析【9 。1 2 】,电影中人物分类、识别【1 3 。1 5 】,动作识别【16 1 ,自动生成演员表【1 7 】等 等,此外,伴随着语义分析的深入,一些面向个性化浏览定制要求的视频分析 处理方法也相继出现,如体育视频的个性化摘要【l8 1 ,电视节目的个性化录制和播 放【1 9 - 2 l 】等等。当然,这些研究尚处在起步阶段,大量问题还远未有解决。 1 3 本文的工作 本文的研究工作主要集中于体育视频中场地球类运动的中级特征的提取、 多模态信息的融合以及它们在体育视频个性化定制中的应用。本文的工作与贡 献可以归纳为以下几个方面: 镜头作为视频流的重要组成单位,通常蕴含着十分重要的信息,其镜头类型 是人们进行视频语义分析的基础,通常特定的语义事件往往是由一系列特定 的镜头类型组成的。因此,为了充分、有效的利用这些信息,本文提出了一 种基于决策树的体育视频镜头类型分类方法。该方法首先定义了几种重要的 镜头类型,然后在视频图像序列上联合颜色、纹理、边缘、形状等特征并利 用决策树对图像进行分类。最后利用镜头中所包含的所有帧的分类投票结果 来决定镜头的类型; 提出了一种基于重放l o g o 和镜头上下文的重放慢镜头检测方法。该方法首 先自动提取重放l o g o 模板,然后利用此模板检测视频中的所有l o g o ,以所 检测到的l o g o 为标志,将视频序列分割成一系列视频片段,最后通过检测 各个视频片段内的运动信息和镜头类型来确定该视频片段是否为重放慢镜 头。该方法不仅能够准确定位重放镜头边界,而且还可以鲁棒的识别重放慢 镜头。 以镜头分类和重放慢镜头检测为基础,结合多模态分析的方法对体育视频中 的精彩片段进行检测,同时利用文本分析中得到的高层语义概念( 球员名、 球队名、事件类型等) 对视频内容进行语义标注,建立视频文件数据库。 在完成视频语义分析及标注的基础上,进行一些个性化定制方面的探索性研 究,开发出一套基于移动平台的体育视频个性化定制系统,为广大移动设 备用户提供方便、快捷的体育视频个性化定制服务。 武汉理工大学硕十学位论文 1 4 本文的结构安排 论文的各章内容安排如下: 第一章,介绍了体育视频分析的研究背景和意义、目前的研究现状、本文 的主要工作内容以及文章的结构安排。 第二章,回顾当前体育视频分析领域的相关技术组成和分类、主要研究方 法以及主要的研究成果。 第三章,介绍了体育视频节目中的镜头分类、基于重放l o g o 和镜头上下文 的重放慢镜头检测等方法,并介绍这些方法在精彩事件检测中的应用。 第四章,介绍如何利用多模态特征融合方法对体育视频精彩事件进行有效 检测,并介绍网络直播文本信息在视频标注中的应用。 第五章,在精彩事件检测及视频标注的基础上进行了体育视频个性化定制 方面的探索,并设计、实现了一套基于移动平台的体育视频个性化系统。本章 将对该系统予以介绍。 第六章,对本文的工作进行了总结,并对未来的研究工作进行了展望。 6 武汉理工大学硕士学位论文 第2 章体育视频分析的技术组成和分类 2 1 引言 体育视频分析经过全世界范围内的广大学者和研究机构十多年的努力,取 得了非常大的发展,并已经开发出一些应用系统原型。对体育视频进行分析和 处理主要希望达到以下两个主要目的:1 ) 在海量视频数据中能自动检索出包含 用户感兴趣类别的视频数据;2 ) 对用户感兴趣的视频进行自动编辑,提取出用 户感兴趣的片段。也可以将研究体育视频分析的最终目标概括为设计出一套能 基于对体育视频语意的理解自动进行视频摘要、浏览、检索的智能系统。这样, 体育视频节目内容的编辑和增强,体育节目服务的定制等都能自动地完成。 为了高效的对体育视频中的信息进行有效提取已达到上述目的,学者们开 展了大量的工作,该研究领域融合了模式识别、机器学习、机器视觉、数理统 计、视频编码与传输等相关领域的大量的理论和技术。本章将以这些理论、技 术为基础从各特征层次的不同应用角度来简要回顾体育视频分析的技术组成和 分类。 2 2 体育视频的索引 进行体育视频的索引前首先必须澄清两个问题:1 ) 对什么进行索引,是对 整个视频还是对关键帧或是其它元素;2 ) 索引条件是什么,如:是精彩射门还 是红黄牌等。 在明确以上两个基本问题之后,需要解决的问题是如何根据上面问题的回 答寻找合适的特征来实现索引,这也是研究体育视频索引的中心问题。 视频是信息的载体。一般地,在体育视频中至少包含三方面的信息:视觉、 听觉、文本。这三方面的信息相互融合,构成了视频所表达的完整信息。 2 2 1 视觉信息 7 武汉理工大学硕+ 学位论文 视觉信息是视频信息中最重要的组成部分。视频的各帧图像及其序列包含 了大量的有效信息,表达了该视频的特征。因此,利用视觉信息对体育视频进 行索引是最普遍,同时也是最有效的一种方式。视觉信息主要包括颜色、形状、 纹理等。 颜色是一种重要的视觉信息属性,在视频的索引中是一种很有用的特征。 相对于其他特征,颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种 形变都不敏感,表现出相当强的鲁棒性,而且颜色特征计算简单,因此成为现 有索引系统中应用最广泛的特征。颜色索引的基本思想是将图像间的相似度归 结为图像颜色直方图之间的距离。这方面奠基性的工作是s w a i n 和b a l l a d 提出 的直方图交集算法【2 2 1 。它计算两幅图像的三维颜色直方图的每一个颜色单位, 并进行细致的比较。m e h t r e 等提出距离算法和参考颜色表方法【2 3 】,实验表明, 每幅图像只需保留很少几种主要颜色就能得到很好的结果。h a r f n c r 在进行直方 图匹配时引入了二次型距离【2 4 1 。 图像中反复出现的局部模式和它们的规则排列形成了纹理。纹理分析也是 视觉信息分析的一个重要方面。其方法主要分为两类:结构方法和统计方法。 结构方法假定图像由较小的纹理基元排列而成,它采用句法分析方法,只适用 于规则的结构纹理。统计方法又可进一步分为传统的统计方法、基于模型的方 法以及基于频谱分析的方法。 图像中物体和区域的形状是另一个重要的视觉特征。但不同于颜色或纹理 等特征,形状特征的表达必须以图像中物体或区域的分割为基础。由于人们对 物体形状的变换、旋转和缩放主观上不太敏感,合适的形状特征必须满足对变 换、旋转和缩放无关。因此,对形状特征的利用是具有一定难度的。如何将不 同的物体从视频中分割出来是计算机视觉还未能很好解决的问题。如何描述物 体的形状,遮挡问题的处理等是利用形状特征时必须处理的几个基本问题。 在视频中,镜头是对视频流进行处理的基本单元。镜头定义为一个摄像机 拍下的不间断的帧序列,是视频进一步结构化处理的基础结构层。在视频处理 中,首要的步骤是找到镜头的切分点。镜头边缘检测的方法有很多种,早期的 方法集中于镜头突变的检测,后来很多方法则注重于渐变的检测。目前的主要 方法有绝对帧间差法,像素差法,数值差法,颜色直方图法,边缘差法,压缩 差法和运动矢量法等【2 卯,这些方法的名字来源于每种方法所提取的特征。针对 渐变特点,也有一些方法专门采取了一些措施,比如双阈值,模型法等。基本 武汉理:f 大学硕士学位论文 上来讲,对于突变的检测,通常可以达到9 0 以上的检测率,而渐变检测的效 率仍然较低。 2 2 2 听觉信息 体育视频中的声音信息主要分为语音、观众欢呼声、击球声等。这些声音 各自代表着不同的语意。对体育视频中听觉信息的处理首先要解决的问题是将 不同种类的声音区分出来,然后根据不同种类声音出现的时间推理视频所表达 的内容。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷 过程,目的是使模式划分器能更好地划分,以下是声音特征提取的常用方法: m e l 倒频谱系数法0 v l f c c ) - 该方法是语音识别中非常有效的方法之一。它 用来对声音信号的频率特性进行建模。m e l 倒频谱系数由f f t 的功率谱系数 通过一个三角带通滤波器组滤波得到。 过零率( z c r ) :此方法也是声音信息的一个重要特征。声音信号过零点的出 现意味着连续采样值中出现了不同代数符号的数值。过零点发生的频率是对 信号频率特征的一种简单衡量,平均过零率是对信号频率的合理估计。过零 率这一方法适用于频率带宽较窄的信号。 线型预测系数( l p c ) :线性预测分析从人的发声机理入手,通过对声道的短 管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从 而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语 音的采样值和线性预测采样值之间达到均方差最小l m s ,即可得到线性预 测系数l p c 。对l p c 的计算方法有自相关法( 德宾d u r b i n 法) 、协方差法、 格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与l p c 这种预测参数模型类似的声学特征还有线谱对l s p 、反射系数等等。 倒谱系数( c e p ) :利用同态处理方法,对语音信号求离散傅立叶变换d f t 后 取对数,再求反变换i d f t 就可得到倒谱系数。对l p c 倒谱( l p c c e p ) ,在 获得滤波器的线性预测系数后,可以用一个递推公式计算得出。使用倒谱可 以提高特征参数的稳定性。 2 2 3 文本信息 视频中的文本信息是某些场景或人物出现的重要标志。如足球视频中的红 9 武汉理工火学硕士学位论文 黄牌、进球等事件发生时,通常都有相应的字幕文本信息,这些信息中通常都 包含有当事球员的姓名,这些信息都是观众所关心的信息。视频文本的识别意 在通过对文本信息的分析,获取视频文本中所暗含的有用信息,为视频的分类、 索引、摘要等提供依据。例如,h s c h n e i d e r m a n 利用字典和分割器的自然语言 处理技术,来对文本信息中包含的人名信息进行识别和定位【26 。系统给文本中 的每一个单词的语法、词意、出现的位置、语境等分别打分,通过综合各项得 分,来判断该词是否是人名。 传统的文字数据有画面字幕( c a p t i o n ) 和转录字幕( c l o s e c a p t i o n ) 。最近,出现 了一种新的扩展的文字信息,网上直播文字( w e bb r o a d c a s tt e x t ,w b v ) ,它不是 严格定义的视频文字信息,而是从网上摘录下的与比赛相关的文字信息。网上 直播文字( w b t ) 也可以作为一种文本信息用于体育视频的分析。虽然它并不包含 在原始视频流中,但是由于其特殊性而被采用。w b t 是用于网络上体育比赛节 目直播的文字信息,大约每一分钟有一条信息,每条信息描述了当时比赛相关 的信息,一般包含事件的主体( 运动员等) ,动作,以及相应的结果等。每条消息 还标定了时间,因此w b t 可以方便地用于比赛场景的分析。 2 3 体育视频中的目标检测 目标检测利用以上提到的视觉、听觉、文本等信息对特定的目标进行识别 和定位。 利用视觉信息,既可以检测具体的某一个事物,也可以检测某一类具有相 同特征的事物。s s a t o h 利用一组直方图来检测车辆在视频图像中的出现【27 1 。每 一个直方图代表小波系数的一个子集和它们在目标中所处的位置。作者使用的 统计模型使得车辆在大范围的视角中都能被可靠的检测出来。e k i na 利用主颜 色区域的方法检测足球比赛中裁判出现的镜头【5 】。它将图像的彩色直方图在水平 和垂直方向上投影,确定包含裁判主颜色的区域,然后计算该区域内主颜色点 占所有点的比率,如果这一比率超过实现设定的阈值,就认为裁判在该区域中 出现。e k i n a 还给出了利用形状信息检测目标的实例【5 】。文中利用禁区线、球门 区线和球门线这三条平行直线来检测和定位足球场上的禁区。计算过程中运用 拉普拉斯模板和h o u g h 变换,并且利用三条平行线的长短和距离关系,确定识 别的结果。b e n j a m a sn 利用h s i 颜色模型对运动员的皮肤进行检测,确定拳击 1 0 武汉理r 大学硕十学位论文 项目中两名运动员的相对位割2 8 】。 在事先不知道要检测对象所属类别的时候,需要对对象进行聚类。在缺乏 先验知识的情况下,用运动信息来进行分析是较为有效的方法。为了避免物体 外形改变带来的影响,通常选择刚性物体的运动来分析。对物体进行分析时, 首先要对图像帧进行分割,然后将具有相近运动特性的区域合并,最终得到基 于运动特性的图像分割。h t n g u y e n 给出了一个自底向上地将视频帧分割为不 相关的运动物体的方法【2 9 1 。分割后的各区域根据运动参数的统计特性的不同再 进行合并,实验表明,该方法的性能要优于其它方法。 听觉信息也可以用于特定目标的检测。一般地,先要对声音进行分类,将 各种环境声音分离开,然后对各种环境声音进行进一步地分析,通过各种声音 特有的特征,实现模式匹配。 利用文本信息来检测目标是相对较难的方法。由于对文本识别和理解本身 具有一定的难度,因此该方法在视频目标检测中尚未能有效地应用。但从原理 上分析,视频中的文本中通常包含某些特定对象出现的信息,具有可利用的价 值。如何利用文本信息配合其它信息来检测目标是今后有待研究的一个重要方 向。 2 4 体育视频的镜头分类 视频中不同类别的镜头具有不同的语意内涵。a h r n e te k i n 将体育视频中的 镜头划分为三类:远镜头、中镜头和近镜头或场外镜头【5 】。远镜头展示了场上的 整体情况,可以用来精确地定位场上发生的事件。中镜头通常是对场上某一区 域或球员全身的描绘,是慢动作重放中最常见的镜头种类。近镜头一般用于展 现某个球员的局部动作。场外镜头展现场外观众、教练、替补队员等的情况。 通常在出现近镜头或场外镜头时,预示着此时场上比赛的中断。 镜头分类中最常用的方法通常都基于主颜色空间算法。由于一场体育比赛 的场地具有固定颜色,将与这种颜色类似的颜色空间设为主颜色空间。因为三 类镜头中,场地所占画面的比例是不相同的,根据属于主颜色空间的点在画面 中所占的比例就能将该画面划归为相应类型的镜头。 2 5 体育视频中的r e p l a y 的检测 武汉理。r 大学硕七学位论文 r e p l a y 通常是体育节目编辑在编辑节目的过程中人为插入的回放镜头。通 常这些回放镜头都是体育比赛中观众关注的精彩镜头,通过多视角的回放,全 面立体地记录下精彩瞬间。基于以上情况,r e p l a y 的出现通常标志着精彩镜头 的出现。由于想直接检测精彩镜头存在很大的难度,所以,r e p l a y 的检测成为 精彩镜头检测的重要途径。 r e p l a y 的检测方法可以分为两类:l o g o 标志的检测和慢镜头的检测。l i n g y u d u a n 利用一组带有l o g o 标志的视频训练得到l o g o 的主颜色特征,然后利用滑 动窗e 1 进行匹配【3 0 1 。h a op a n 利用s l o m o 算法检测先检测出属于r e p l a y 部分 的某一视频分段,然后在该视频段前后数百帧的范围内查找l 0 9 0 帧,并且获取 l o g o 的模板,接着用h 、s 空间的直方图概率分布的方法对视频和l o g o 模板进 行匹配【3 l 】。 文献 3 2 】采用帧间差分过零点检测的方法来衡量相邻帧间的变化情况,并 以此作为判断是否是慢动作重放的依据。同样是利用帧间差分过零点特性的检 测,文献 3 3 建立以慢动作静止、回放、编辑效果、正常播放为状态的h m m 。 文献【3 4 】从m p e g 压缩域的视频出发,利用m p e g 压缩标准本身包含的帧间差 分信息,判断是否存在慢动作重放镜头。文献 3 5 】综合利用网络直播中的文字信 息、镜头内容信息和l o g o 模板进行r e p l a y 检测。 2 6 体育视频中的p l a y b r e a k 的检测 体育视频中的场面可以分为比赛进行期和比赛间歇期。一般来说,体育比 赛中的精彩镜头都出现在比赛进行过程之中。实际数据表明,体育视频中平均 只有6 0 的时间是比赛的进行期,而剩余的4 0 时间都是比赛的间歇期。 p l a y - b r e a k 的检测意义在于将大量观众兴趣不大的比赛间歇时间与可能存在观 众关注的精彩镜头的比赛进行时间区分开,为视频的剪辑和进一步的分析提供 条件和依据。 p l a y - b r e a k 的检测中最为常见的方法是利用镜头类型的变化。一个长时间的 全局镜头和偶尔插入的持续时间较短的近镜头通常意味着是在比赛进行期内, 而长时间的近镜头或场外镜头的出现则表示此时场上比赛的暂时中断。至于镜 头类型的检测,则可以采用本文前面提到的镜头分类的方法。文献 3 6 i j i 入了两 个阈值砀和n ,分别表示远镜头的最长间隔和最小持续时间。当远镜头的持 武汉理丁大学硕十学位论文 续时间大于l i l l ,同时其间隔小于殇时,则认为这一段视频为比赛进行期。文 献 3 7 等利用裁判的哨声对某些特定的体育比赛项目如足球、橄榄球、游泳、篮 球等进行了p l a y - b r e a k 的检测。使用哨声来检测的优点在于哨声是比赛中断或 进行的直接标志,同时,哨声的声音特性与人的声音和环境中其它背景声音有 本质不同,相对容易检测。 2 7 体育视频中的运动模式 在视频分析中,运动是对序列图像进行分析的一种基本元素,它直接与空 间实体的相对位置变化或摄像机的运动相联系。运动信息表示了视频图像内容 在时间轴上的发展变化,它对于描述理解视频内容具有相当重要的作用。运动 信息可用于视频分类,视频检索和视频内容语义理解。 视频分类可看作是视频检索的初期阶段,它根据视频的语义内容将其分为 不同的类别。不同类型的视频会有不同的运动内容,利用视频中的运动信息, 有可能将这些不同类别的视频区别开来。比如,文献 3 8 1 禾u 用主元分析法( p c a ) 对视频的运动向量进行分析,可以将不同类的体育比赛( o n 棒球、冰球、排球) 等片断进行分类。文献【3 9 】通过检测视频中重放慢镜头和摄像机的运动可对体育 运动视频和非体育运动视频的混合数据库进行分类。 基于运动特征的检索可以分为基于全局运动检索和基于局部运动特征的检 索。全局运动由摄像机产生,从视频理解的角度看,它可能不是用户最主要的 或最关心的内容,但是在视频特别是体育视频拍摄中,摄像机总是跟随着视频 的主要人物或事件,与视频内容有比较密切的联系。局部运动信息对应视频里 的目标在实际场景中的运动,这些运动通常是人们观看视频时比较关心的内容。 在体育比赛中,运动员的移动、姿势以及运动器件( 足球、篮球等) 的运动情况都 是节目的重点。 在体育节目中,运动信息除了直接应用于视频检索之外,还可以对视频内 容进行理解和语义分析。摄像机的运动和转换跟比赛场景密切相关,所以通过 摄像机运动对视频内容进行理解和分析也是自然的思路。目前在体育节目的分 析中,一般将运动信息和其他特征( 比如颜色、纹理、区域等) 结合起来进行推理 分析。文献 4 0 幂l j 用运动信息作为中级描述子之一对视频的高级语义理解进行推 理和分析。文献 4 1 】利用运动活度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南快消品策划营销方案
- 咸宁团建活动策划方案公司
- 说明文知识总结
- 赣州税务筹划咨询方案
- 2025年营养师鉴定考试冲刺指南:实操技能强化与理论巩固试卷
- 城市智慧化发展案例分析
- 2025年度深基坑专项方案测试卷及答案
- 2024年水利设施管养人员练习题及参考答案详解(完整版)
- 2025年医师定期考核模考模拟试题及参考答案详解(突破训练)
- 2024年安全员考试通关考试题库含完整答案详解(各地真题)
- 2024年中国中信金融资产江西分公司招聘2人笔试模拟试题附答案详解(研优卷)
- 体育模拟上课培训课件
- 标准件供货协议合同范本
- 纳税申报流程课件
- 2025年秋期新教科版四年级上册小学科学教学计划+进度表
- 2025新疆维吾尔自治区人民检察院招聘聘用制书记员(14人)笔试参考题库附答案解析
- 循环水泵设备安装方案详细指导
- 2024年喀什经济开发区兵团分区招聘真题
- 作风建设永远在路上教学课件
- (2025)中小学爱国知识竞赛试题附答案
- 新媒体文案写作教程(第二版)课件 项目五 微博文案写作 课件
评论
0/150
提交评论