(管理科学与工程专业论文)基于语义镜头的足球比赛视频分析方法的研究与实现.pdf_第1页
(管理科学与工程专业论文)基于语义镜头的足球比赛视频分析方法的研究与实现.pdf_第2页
(管理科学与工程专业论文)基于语义镜头的足球比赛视频分析方法的研究与实现.pdf_第3页
(管理科学与工程专业论文)基于语义镜头的足球比赛视频分析方法的研究与实现.pdf_第4页
(管理科学与工程专业论文)基于语义镜头的足球比赛视频分析方法的研究与实现.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防利 .学技术大学研究生院学位论文 摘要 随着视频数据存储技术的发展、 用户需求的迅速增长以及网络技术的日 益进 步, 使得自 动探测足球比赛视频中的重要语义事件, 并据此生成视频摘要来辅助 检索、浏览和描述视频变得越来越重要。 足球比赛视频存在对象运动复杂、时间结构松散的特点, 使得当前针对足球 比赛视频分析开展的各种研究, 大部分属于基本方法的探索阶段, 缺乏有效的系 统分析方法。 本文围绕足球比赛视频中的射门事件探测和分析的系统方法开展研 究, 提供了一种完全新型和更具一般性的精彩镜头研究方法。 重点研究了 足球比 赛视频的语义镜头模型、 语义镜头探测、 语义镜头辅助的事件探测方法以及对运 动焦点的深入分析。本文的主要工作和成果如下; 1 ,研究了足球比赛视频的结构特点和摄制手法,在此基础土提出和实现了 足球比赛视频的语义镜头分类模型,从而在低层物理特征和高层语义内 容之间建立起有效的联系。 2 .对视频中的镜头探测方法进行了有效的探索,对基于背景跟踪技术的镜 头探测方法进行了简化和改进, 建立了有效的镜头探测方法。 3 .在语义镜头分类的基础上,通过不同类型镜头间的时序关系分析建立场 景转移图,提出和实现了一种新型的事件分析方法,实现了基于语义镜 头的射门事件探测。 4 研究和实现了基于运动焦点分析的进攻路线分析方法,解决了当前在视 频中分析进攻路线时必须对足球进行连续探测和跟踪的难题。 5 通过对上述研究成果的有效整合,形成系统的分析方法,并结合人机交 互的语义注解和个性化的检索功能,开发出足球比赛视频精彩镜头分析 和管理系统。通过大量实验,取得了满意的效果。 关键词:语义镜头镜头探测射门事件运动焦点精彩镜头 第 1 j , 国防科学技术大学研究生院学位论文 a b s t r a c t wi t h t h e d e v e l o p m e n t o f v i d e o s t o r a g e t e c h n i q u e , s p e e d y i n c r e a s e o f u s e r s d e m a n d a n d a d v a n c e m e n t o f n e t w o r k , a u t o m a t i c a l ly d e t e c t i n g i m p o rt a n t s e m a n t i c e v e n t s o f t h e s o c c e r v i d e o a n d f u rt h e r s u m m a r i z a t i o n o f t h e v i d e o t o h e l p i n d e x i n g , b r o w s i n g a n d p r e s e n t in g it h a s b e c o m e i n c r e a s i n g l y i m p o rt a n t b u t , t h e r e a r e l o t s o f p r o b l e m s i n s o c c e r v id e o a n a l y s i s b e c a u s e o f t h e c o m p l ic a c y o f o b j e c t m o t i o n a n d t h e l o o s e t e m p o r a l s t r u c t u r e . mo s t o f r e s e a r c h e s a b o u t s o c c e r v i d e o a n a ly s i s a r e i n t h e p h a s e o f e x p l o r i n g m e t h o d s f o r a n a l y z i n g b a s i c c h a r a c t e r s , l a c k o f a v a i l a b l e m e t h o d s f o r s y s t e m a t i c a n a l y s i s . t h i s p a p e r i s m a i n l y c o n c e rn e d w i t h t h e s y s t e m a t i c m e t h o d f o r d e t e c t i n g a n d a n a ly z i n g s h o t e v e n t s o f s o c c e r v i d e o p r o v i d e s a e n t i r e l y n o v e l a n d m o r e g e n e r i c m e t h o d f o r i n v e s t i g a t i n g h i g h l i g h t s . t h e m a j o r d o m a i n s o f t h e r e s e a r c h a r e s e m a n t i c s h o t s m o d e l , s e m a n t i c s h o t s d e t e c t i o n , d e t e c t i o n me t h o d s a b o u t t h e e v e n t b a s e d o n s e ma n t i c s h o t s a n d a n a l y z i n g m o t i o n f o c u s . t h e m a j o r c o n t e n t a n d c o n t r i b u t i o n o f t h e d i s s e rt a t i o n i n c l u d e a s f o l l o w i n g : 1 . s t u d i e s t h e s t r u c t u r e f o r wa r d a n d r e a l i z e s e f f e c t i v e r e l a t io n s h i p s e ma n t i c c o n t e n t s . a n d p r o d u c t i o n t e c h n i q u e o f s o c c e r v i d e o , t h e n p u t s a m o d e l a b o u t h i g h - l e v e l s e m a n t i c s h o t , a n d b u i l d s a n b e t w e e n l o w - le v e l p h y s ic a l f e a t u r e s a n d h i g h - l e v e l 2 . i t d i s c u s s e s s o m e m e t h o d s o f s h o t d e t e c t i o n . s i m p l i f i e s a n d i m p r o v e s a c o n t e n t - b a s e d s c e n e c h a n g e d e t e c t i o n a n d c l a s s i f i c a t i o n t e c h n i q u e u s i n g b a c k g r o u n d t r a c k i n g a n d d e v e l o p a v a l i d m e t h o d f o r s h o t d e t e c t i o n . 3 . b a s e d o n t h e c l a s s i f i c a t i o n o f s e m a n t i c s h o t , a f t e r a n a ly z i n g t h e s e q u e n c e i n t im e a m o n g v a r i o u s t y p e s o f s h o t , b u i l d i n g s c e n e t r a n s f e r c h a rt , i t g i v e s a n d a c h i e v e s a n o v e l 4 . i t wo r k s o n a n d mq u e r e a l i z e s a f o r s h o t e v e n t d e t e c t i o n . w a y t o a n a l y z e a t t a c k r o u t e b a s e d o n a n a l y z i n g m o t i o n f o c u s , a n d r e s o l v e s t h e p r o b l e m o n c o n t i n u o u s b a l l d e t e c t i o n a n d t r a c k i n g . 5 . b y i n t e g r a t i n g t h e s e a b o v e - m e n t i o n e d r e s e a r c h e s , t h i s p a p e r f o r m s a s y s t e m a t i c t e c h n i q u e . l i n k i n g w i t h t h e a n n o t a t i o n o f s e m a n t ic s a n d i n d i v i d u a l r e t r i e v a l f u n c t i o n , w e h a v e d e v e l o p e d a s y s t e m o f a n a l y z i n g a n d m a n a g i n g h i g h l ig h t s o f s o c c e r v i d e o . b y e x p e r i m e n t , ig t h e s e s y s t e m s , w e h a v e g a i n e d s a t i s f i e d e f f e c t s . k e y wo r d s : s e m a n t i c s h o t , s h o t d e t e c t i o n , s h o t e v e n t , m o t i o n f o c u s , h i g h l i g h t s 第 1 1 i 独创性声明 本人声明 所呈交的学 位论文 是我 本人在导师 指导下进行的 研究工作及取得 的研究成果。 尽我 所知, 除了 文中 特别加以 标注和致谢的 地方外, 论文中不 包含 其他人已 经发表和撰写过的 研究成果, 也不包含为 获得国防 科学技术大学 或其它 教育 机构的学 位或证书而 使用过的 材料。 与我一同 工作的同志 对本研究 所 做的 任 何贡献均已 在论文中作了明确的说明并表示谢意. 学 位论文题目 : 参于 语义 镜头的 足球比 赛视频 分析方法的 研究与实现 学位论文作者签名: o k 日 期: s 0 0 3 年 , z月 , , 日 学位论文版权使用授权书 本人完全了 解国防 科学技术大学有关保留、 使用学 位论文的规定。 本人授权 国防 科学技术大学可以 保留 并向国 家有关部门 或机构送交论文的复印 件和电 子 文档, 允许论文被查阅 和借阅; 可以 将学 位论文的 全部或部分内 容编入有关教据 库进行检索,可以 采用影印、 缩印 或扫描等复制手段保存、汇 编学 位论文。 ( 保密学位论文在解密 后适用本授权书。 学位论文题目: 学位论文作者签名: 作者指导教师签名: - a 聋止一 - 赫 日 期: 1 0 “ 年 , 二 月 , f 日 日 期: , , 乡 年 ; z 月 , 1 日 国防利 .学技术大学研究生院学位论文 图 表 清 单 图1 . 1 镜 头 分 类 示 意 图 . ,.,. . ,. 一 , , , 3 图2 . 1本文的理论体系结构示意图 , , , . . . , 卜 ,. . . “ , 二 , . , , , . , . 卜 二 9 图2 . 2 系 统 体 系 结 构 图 . , . ,. . . ,. 1 1 图3 . 1镜头分类模型中包含的语义镜头代表帧., . , , . “, , . , , “ 二 _ . . . . . l 4 图3 . 2语义镜头分类的系统方法流程. . . , , . . . , 二 , . , ,. . . . . . . . , . 1 5 图3 . 3 膨 胀 算 法 示 意 图 . . . , . , .一 ,. , , 一 1 7 图3 . 4 腐 蚀 算 法 示 意 图 ,二 ,. ,、 一卜. , , . . , ,. “ , 。 一 1 7 图3 . 5 本 文 去 噪 算 法 示 意 图 . . . .,二 ,. . , , , ,一 1 8 图3 . 6看台区域空间分布示意图. . , . . . . . . . . . . . . . 二 , ,. . 二 , . . . . , , 1 8 图3 . 7选定区域特征分析示意图, , , . , , . 卜. . . . , . . ,. . . . . . . . . . . 1 9 图3 . 8背景区域示意图 _ , . . . , . . , . , . . . . . . . . , . . . . . . . . . . . . . . 2 0 图3 . 9简化的背景跟踪算法示意图., , , 一., , ,一 “二 , , 一 甲 , _ 一 、 , 二 _ 二 . . . . . . . . 2 0 图3 . 1 0 球门区域镜头两种可能的模式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3 图3 . 1 1 两种以球场为背景的特写, . , . . . 一 , . , . . . . . . . . . . . . . . . . . . . . 2 4 表3 . 1语义镜头和语义内容关联表 二 , , , - , . , . . . . . . . . , . . , 二 2 5 图4 . 1 现有射门得分事件判断体系示意图. . , ., , . 卜 二 , . . , , . ,. . 2 6 图4 . 2本文研究的射门事件判断体系图 . . . . , . . 二 , , , , _ , , , 二 2 7 图4 . 3线检测样板. , 二 , . , . . . , “ , . , , 二 二 , , , . , , , , . . . 2 8 图4 . 4球门探测区域示意图. , . . . . . . , . , , . ,. , , . . . . . . . . . . . . . . . . . . . . . . . . . . 2 9 图4 . 5 “ 中场区域镜头一出现球门的球门区域镜头” 场景转移图, . , 二 _ 、, , 一2 9 图4 . 6“ 中场区域镜头一球门区域镜头一特写镜头” 场景转移图. . . . . . . . . . . . . . 3 0 图4 . 7事件发生的球场位置分析示意图. . . . ,. , . . . . . , , , . . . , , , . 3 1 图4 . 8运动焦点分析示意图 . , , , , . . . . . . . . . . . . . . . “ . . , . . “ . . ,. . 3 2 图4 . 9实验所用视频示例. , ,. . . , . , . . . . . . . . . . . . . . , ., , . , . . 3 3 表4 . 1 射门事件探测实验数据. . . . . . . , . , , , , . . , 二 ,. , , . , , . . . . ,. 3 3 图 5 . 1视频编辑界面 . . . r 卜 二 , ., . ,. 卜 一 , , , , . . . , , . . . 卜 ,二, . , . 3 6 图5 . 2用户检索界面 . . . . , . . . . . . . . . . , ,. . , 二 , . . . . . . . . . . . . . . . 3 7 第 川 贝 国防利 .学技术大学研究生院学位论文 第一章 绪论 1 . 1 研究背景 足球比赛是世界上开展最广泛的体育运动之一,深受广大球迷的喜爱。一 场 典型的足球比赛的时间超过一个半小时; 在世界杯之类的锦标赛中, 有数十场比 赛:在一个完整的联赛赛季中,会有数百场比赛;在一个足球比 赛的视频库中, 可能会有数百甚至_ 仁 干小时的比赛记 录。 这样, 即使是最忠诚的球迷和最专业的 电视制作人员也会发现观看这么长时间的视频来找到自己感兴趣的很短的一些 片段是一件烦人和单调的事情。 同时,随着网络宽带技术的发展和存储技术的进步,视频数据的需求数量和 类型也迅速发展, 用户对视频数据的要求己不只是简单的播放视频文件, 而是能 针对自己的 特殊需求, 对特定的片段进行浏览、 检索和播放。 例如: 对于长达上 千小时的足球比赛视频库, 用户当前最为关心的不是如何通过网络来传输和播放 所有比赛, 而是在其中快速的找到包含有自己感兴趣的明星球员或者球队的精彩 片段. 也就是通过简单的条件设定能够实现按照特定的需求来点播足球比赛或比 赛剪辑。 在足球比赛视频内容分析技术出现之前, 要完成上述任务对于普通用户 来说 是无法实现的, 只能够由专业的电视制作部门 投入大量人力和物力进行人工 剪辑。 这样, 对于大量存在的足球比赛视频数据, 针对各个方面的实际需求( 例如: 球迷个人对收藏的视频数据的管理,电 视台制作体育新闻和比赛剪辑等) ,要对 其进行有效的管理, 必须建立高效的视频摘要生成和索引机制, 这就要求能够对 比赛视频中的重要事件进行有效的探测和识别, 进行结构分析, 并能够按照用户 需求来提取和表达感兴趣的比赛片段,由 此达到进行视频内容分析的目的, 与其他当前得到广泛研究的体育比赛视频相比, 足球比赛视频在结构上有其 特殊性,当前的研究普遍认为这种特殊性主要表现在: ( 飞 , 缺乏典型的规范场景。 例如网球比赛视频中发球的场景或者棒球比赛 视频中投掷的场景; c 2 ) 松散的时间结构,即:比 赛 / 暂停的转换、比 赛中的精彩场景 ( 进球、 角 球、 射门等) 与其他可以理解的事件之间没有确定 性的关系, 与之相反的是在 网球中,发球之前总有击发动作。 下是由于足球比赛及足球比赛视频结构上的复杂性, 使得对足球比赛视频的 内 容进行分析比目 前广泛研究的棒球比赛、 网球比 赛之类的视频分 析更加复杂和 困难。 近年来国内外都对足球比赛视频开展了一定的研究, i.9 基本处于处理方法 的摸索和系统研究的起步阶段, 没有形成有效的系统理论和方法, 其结构分析也 只是针对最直观特征的研究,这样就为我们开展相关的研究留下了 广阔的空间。 我们在研究中发现, 虽然足球比赛视频的时间结构在整体上是处于一种比较松散 的状态, 也缺乏典型的场景, 但可以通过关键事件的探测来将视频结构化。 例如: 可以 通过射门事件来将视频中一次完整的 进攻过程结构化成 “ 进攻组织一射门” 这么一种规则的场景转移, 从而将完整的视频结构按照进攻回合进行结构化 通 过进一步分析得到用户需要的视频片段。 我们得到的这种结构分析结果在结构单 极 i 班 国防利 .学技术大学研究生院学位论文 元_仁 要比当前研究的结构分析更细,在结构内容上也具有更丰富的语义。 得到关键事件的探测结果和完成视频结构分析之后, 用户通常依据这些结果 来进行自己感兴趣的精彩镜头分析。人们对于体育比赛中的精彩镜头 ( 如:“ 最 激动人心的时刻” 、 “ 激动人心的射门”等)的定义比较主观,但在足球比赛中, 精彩镜头往往具有这样一些共性, 即:可能射门得分、足球擦门而过或者球员在 球门 柱附近出现剧烈的动作等等。 基于这种考虑, 在本文研究中, 我们将要研究 的足球比赛视频中的“ 精彩镜头” 候选对象定义为: 持续时间较短、出现射门事 件的视频片 段, 用户将在 此基础上选择自 己 需要的精彩镜头。 这样如何从大量足 球比赛视频中分析出所占比例很小的射门事件和提取包含射门事件的片段, 就成 为足球比赛视频分析的一项关键任务,成为本课题研究的重点。 因此进行足球比赛视频研究在理论上具有很高的学术价值, 在实际应用中具 有广泛的应用前景。 如果能够从足球比赛视频中自 动地探测出射门事件, 在此基 础上提取出射门片段, 得到精彩镜头, 并由此开发出相应的足球比赛视频分析和 管理系统, 实现对大量足球比赛视频数据进行有效的浏览、 检索和管理, 不仅能 够改变当前对足球比赛视频研究缺乏系统理论的局面,而且将对电视新闻的制 作、 视频数据的管理、 交互式电视转播和实现用户的个性化需求等实际应用的各 个领域产生深远影响。 ; 1 . 2 国内外研究现状 国外对体育视频中精彩场景进行分析的相关研究开展得比较早。山于文化背 景和需求的不同,大部分体育视频内容分析系统集中于网球、棒球和篮球领域。 其主要研究工作是对运动员的一些特定动作进行探测与识别, 譬如: 网球和棒球 比 赛中的击发动作。 而对足球比赛视频的分析,由于其特殊性,目 前的 研究主要 集中在基本特征的提取、 运动对象的探测与跟踪、 结合多特征进行视频内容分析 以 及生成比赛剪辑等方面, 进行研究的理论体系也是直接的“ 结构一结构” 体系, 即通过直接的视频结构分析来得到包含用户需要内容的视频结构。 目 前国内对体 育视频中精彩镜头的探测所开展的研究不多, 存在的一些系统也主要是对一些运 动特征比较明显、 运动对象相对较少的体育视频内容进行一定程度的分析。 而在 足球比赛视频的研究方面, 还只是研究运动对象的探测和跟踪方法, 缺乏系统的 理论研究。 1 . 2 . 1 “ 结构一结构” 的理论体系 足球比赛视频分析虽然是对比赛内容的分析, 但是在其本质上和方法上是一 种结构分析。 而当前进行视频结构分析的理论体系是一种“ 结构一结构” 的分析 方法。 在这种分析的理论体系中, 对足球比赛设定两种类型的语义状态: 比赛和 暂停 f 1 2 1 1 3 1 1 4 )f 1 5 11 6 1 。 其中当 球在球场的 范围之内 且裁判员 没 有停止比 赛的时 候就 是比赛状态:而暂停则是当球完全出界或者裁判员停止了比赛。 在这种方法中, 虽然认为足球比赛视频没有规范的场景一 并且时间结构松散, 但是可以 研究能 够表现比 赛结构的比 赛/ 暂停转换和精彩镜头( 例如: 进球得分、 角球、射门等) ,并且存在体育视频制作者要遵守的一些规则。制作者通常的目 标是: 第 z1 1 国防科学技术人学研究生院学位论文 元上要比当前研究的结构分析更细,在结构内容上也具有更丰富的语义。 得到关键事件的探测结果和完成视频结构分析之后,用户通常依据这些结果 柬进行自己感兴趣的精彩镜头分析。人们对于体育比赛中的精彩镜头( 如:“最 激动人心的时刻”、“激动人心的射门”等) 的定义比较主观,但在足球比赛中, 精彩镜头往往具有这样一贱共性,即:可能射门得分、足球擦门而过或者球员在 球门柱附近出现剧烈的动作等等。基于这种考虑,在本文研究中,我们将要研究 的足球比赛视频中的“精彩镜头”候选对象定义为:持续时制较短、出现射门事 件的视频片段,用户将在此基础上选择自己需要的精彩镜头。这样如何从大量足 球比赛视频中分析出所占比例很小的射门事件和提取包含射门事件的片段,就成 为足球比赛视频分析的一项关键任务,成为本课题研究的重点。 因此进行足球比赛视频研究在理论上具有很高的学术价值,在实际应用中具 有广泛的应用前景。如果能够从足球比赛视频中自动地探测出射门事件,在此基 础上提取出射门片段,得到精彩镜头,并由此丌发出相应的足球比赛视频分析和 管理系统,实现对大量足球比赛视频数据进行有效的浏览、检索和管理,不仅能 够改变当前对足球比赛视频研究缺乏系统理论的局面,而且将对电视新闻的制 作、视频数据的管理、交互式电视转播和实现用户的个性化需求等实际应用的各 个领域产生深远影响。 1 2 国内外研究现状 国外对体育视频中精彩场景进行分析的相关研究开展得比较早。由于文化背 景和需求的不同,大部分体育视频内容分机系统集中于网球、棒球和篮球领域。 其主要研究工作是对运动员的一些特定动作进行探测与识别,譬如:网球和棒球 比赛中的击发动作。而对足球比赛视频的分析,由于其特殊性,目f i f 的研究主要 集中在基本特征的提驳、运动对象的探测与跟踪、结合多特征进行视频内容分析 以及生成比赛剪辑等方面,进行研究的理论体系也是直接的“结构一结构”体系, 即通过直接的视频结构分析来得到包含用户需要内容的视频结构。目前国内对体 育视频中精彩镜头的探测所丌展的研究不多,存在的一些系统也主要是对一些运 动特征比较明显、运动对象相对较少的体育视频内容进行一定程度的分析。而在 足球比赛视频的研究方面,还只是研究运动对象的探测祁跟踪方法,缺乏系统的 理论研究。 l ,2 1 “结构一结构”的理论体系 足球比赛视频分析虽然是对比赛内容的分析,但是在其本质上和方法上是一 种结构分析。而当前进行视频结构分析的理论体系是一种“结构一结构”的分析 方法。在这种分析的理论体系中,对足球比赛设定两种类型的语义状态:比赛和 暂停”引”封i l ”。其中当球在球场的范围之内且裁判员没有停止比赛的时候就 是比赛状态;而暂停则是当球完全出界或者裁判员停止了比赛。 在这种方法中,虽然认为足球比赛视频没有规范的场景并且时l - 白j 结构松敬, 但是可以研究能够表现比赛结构的比赛暂停转换和精彩镜头( 例如:进球得分、 角球、射门等) ,并且存在体育视频制作者要遵守的一些规则。制作者通常的目 ,r 是: 销2 负 国防科学技术夫学研究生院学何论文 ( 1 ) 传送比赛的全局状况; ( 2 ) 近距离追随场上的动作。 为达到j :述目的,在具体的处理中,直接利用特定的领域特征:“草地区域 比率”,将足球比赛视频摄制中的三种典型视图:全景视图,放大视图和特写视 图对应成足球比赛视频中的三种镜头:长镜头、中镜头和特写镜头的简单结构, 如图l _ l 。对足球比赛中的镜头类型进行分析可以得到: ( 1 ) 当比赛币常进行的时候,大部分时间是处于使用全景视图柬传送比赛的 全局状态;当然也会插入短的放大或特写镜头来追随具体某位球员的精彩动作: ( 2 ) 在比赛暂停的状态,主要使用放大视图和特写视图来进行表现。因为它 们能够有效的表现暂停的原因和结果( 例如:为什么一个犯规会发生,它的结果 等) : ( 3 ) 足球比赛视频的比赛状态和暂停状态之间的转换通常是在一个时恻范圉 内,有确定的场景转移图。 幽l1 镜头分类示意幽 ( 从左至也依次为全景视幽、放人视幽、特写视幽) 这样就可以把长的连续的全景视图序列归类为比赛状态,把连续的特写视图 归类为暂停状态。通过三种镜头类型问的场景转移图,得到比赛暂停这种结构 分析结果,为下一步的分析提供基本素材信息。 这种方法最明显的不足是这种结构分析提供的语义信息非常有限,只是得到 了比赛暂停两种简单的状念,如果要得到更多的视频信息和进行语义内容分析, 必须采用其他的方法,例如运动对象探测和跟踪的方法,对得到的处于比赛状态 的片段做进一步的处理。 1 2 2 当前足球比赛视频研究的方法 当前对于足球比赛视频进行研究的方法多种多样,但是在本质上来说有以下 三种:多特征融合的方法、基于运动特征的方法和基于镜头的方法。每种方法在 具体的研究中都各有独特的优势,但是也存在突出的局限性。正是因为如此,爿 使得当前对于足球比赛视频的研究面临各种困难。具体来说: 1 2 2 1 综合使用多种特征进行内容分析 这种方法是综合利用视频、音频和文本等各个方面的信愚束进行视频内容分 析【l l 创,目的是得到用户感兴趣的视频片段,例如:射门得分。 k p n 研究组和t e l e m a t i c s 协会萨在进行的关于多媒体信息的一个合作项目。 该项目的中心内容在于通过对音频、视频信息( 包括文本信息) 的建模,即综合 使用视频和音频信息来建立一个主要在足球视频剪辑这个特定领域的应用框架: 方法包括:特征提取和语义解释( 又称为概念提取) 。关于特征提取的工作是 国防科学技术人学研究生院学何论文 建立在现有的特征提取算法基础之上。概念推断引入了一种新的方法来把特征的 征集赋予语义学的内容以支持基于概念的检索,而不是基于特征的检索。最终要 得到一个语义内容的检索系统。其重点是通过多特征的融合来得到对视频内容的 理解并直接对视频内容进行操作,从而达到生成一一个基于语义内容的视频检索系 统的目的。在视频特征提取中使用了运动对象探测和跟踪的方法,使用连续帧中 对象的比较方法束提取运动特征和检测场景突变,并建立了相应的进球事件判断 模型。 这种方法的一个突出优点是犀广泛的利用了能够从视频中得到的各种信息, 但是这出正是其局限性所在: ( 1 ) 各种信息的提取存在较大的困难。这种方法最大量的利用了视频、音 频和文本信息,但在每种信息的有效提取方面存在很多的困难。在视频信息方面, 主要是对象的探测和跟踪以及运动特征提取,这是当前足球比赛视频研究中面临 的一个主要困难;在音频方面,出于比赛视频中自始至终都存在嘈杂的背景声音 ( 观众的欢呼等) ,要从中提取出辅助分析的音频信息比较困难;而足球比赛视 频的文本信息提取相对其它体育比赛来说更加困难,囡为在比赛中大量的文本信 息不仅字体很小,而且在很多情况下是使用半透明的模式来显示,因此要从复杂 背景中提取出文本信息也是非常困难的。 ( 2 )多种信息的有效融合和建模比较困难。即使能够提取出各种信息,在 使用信息建模分析视频内容方面也存在大量的问题。当前的研究在很多时候都是 单独对视频或者是结合视频和音频建模,很少有能够有效融合各种信息的模型来 辅助分析,这主要是因为和视频信息相比,音频和文本信息存在一定的延时,即 只有在用户感兴趣的事件发生之后一段不确定的时阻j 内才会有相应的音频或文 本信怠,这种不同步也就造成信息融合中面临一些难以预见的困难。 因此这种方法虽然在理论上能够利用各种信息,但是在实际研究中存在很多 困难,其分析效果并不是很好。 1 2 2 2 通过对象探测的方法来进行视频内容描述 这是目前足球比赛视频处理的研究工作中比较普遍的一种方法,其优点是充 分利用了比赛中大量存在的各种运动信息。基于对比赛内容不同的理解,对象的 探测与跟踪的研究重点也集中于两个方面:球员与球1 2 】【3 】1 4 】1 3 1 】1 3 2 1 1 3 3 】1 3 + 1 1 3 5 1 1 3 7 1 。 这种方法认为简单的利用基本的物理特征和音频特征只是利用了表面的线 索,没有完全理解视频中真正发生的内容。丽运动特征,包括摄像桃运动和球员 运动没有得到充分利用。这种方法认为视频和体育比赛的真正本性,是运动特征 在体育视频语义注解中扮演最重要的角色。在这种方法中,对足球比赛视频内容 的理解可以被看成是对比赛进程和策略的理解。为实现这种对比赛视频的理解, 要求探测和跟踪运动对象( 球员、球和线) 。这种探测和跟踪展现了球员和球在 运动场上的运动,可以用于检索确定的比赛动作( 传球、射门等) 或者理解比赛 的全局倾向和策略。 虽然对象探测和跟踪在计算机视觉和图像处理领域是一个很流行的话题,但 在足球比赛的视频分析中,进行运动对象探测和跟踪的方法大部分假设有特定的 条件,如:摄像机是固定的或者只有单独的运动对象。这样在足球比赛视频中探 测和跟踪对象就很困难,因为摄像机不固定且大量的对象向不同的方向运动。在 当莳对足球比赛视频的研究中,进行对象探测时,往往使用基于亮度、颜色或者 旃4 贝 国防科学技术人学研究生院学位论文 边缘特征的方法。在进行对象跟踪时,强调应该对每个对象进行识别和跟踪 1 2 1 1 3 1 1 4 。在进行对象识别时,使用基于边界或基于区域的方法,而对象的跟踪策 略是当前研究的重点,因为在足球比赛视频中不得不面对各种特殊的情况进行处 理。 这种方法的优点是充分利用了比赛中大量存在的各种运动信息。基于对比赛 内容不同的理解,对象的探测与跟踪的研究重点也集中于两个方面:球员与球。 但是球和球员在外形特征和运动特征上都有显著的区别,所以在视频分析中使用 不同的探测方法。对于球员探测往往使用基于亮度、颜色的方法,这样可以充分 利用颜色信息进行球队识别以及辅助对象识别【2 0 】【2 l 】f 2 3 】:而对于足球的探测, 基本是使用轮廓特征,使用圆形对象探测方法c h t 【伸】,但是这种方法也只是 在足球面积比较大时才能够有效使用,对大部分情况无法处理。 综合目静国内外的研究,绝大部分都使用运动对象探测和跟踪的方法,这种 方法虽然能够最直接的使用视频中的运动特征,但是由于足球比赛的特殊住,该 方法也存在一些局限性: ( 1 ) 这种方法的处理时问难以满足实际需求。根据国内外的研究报告和我 们的实验显示,要完成对运动对象的探测和跟踪所耗费的时自j 是正常播放视频时 间的l o 倍左右,对于大量的视频数据,这种方法显然难以满足用户在处理时问 上的需求。 ( 2 ) 运动对象在运动上的复杂性使得要实现对运动对象进行有效的探测和 跟踪比较困难。因为足球比赛中的运动对象( 球员和球) 移动很快,雨且因为每 个对象不是刚体,即使是同一个对象在不同的时间在轮廓上也有很大的差异和变 化,同时在比赛过程中频繁的出现对象问的遮蔽,使得要有效的探测和跟踪对象 很困难,当豁的研究有很多的先决条件,例如:摄像机是固定的,视频中只有单 独或者少数的几个运动对象,运动路径比较规则等。这就使得这种方法的实用性 和鲁棒性不是很好。 ( 3 ) 难以建立有效的事件判断模型。虽然当前国外的研究已经通过多种特 征的融合来建立进球和射门事件的判断模型,但是出于提取的基本物理特征和高 层语义之间缺乏有效的联系,因而所建立的事件判颤模型比较复杂,效率不是很 高。 ( 4 ) 摄像机的运动和切换对系统影响明显。在比赛转播中存在几个甚至是 十几个摄像机的机位,即使是一个连续的语义事件也可能要通过多个摄像机来表 现。而摄像机的运动和切换对于视频特征的影响比较明显,因而在当日口研究的系 统中。大多限定摄像机不运动或者是对相同摄像机摄制的一段视频进行处理。 ( 5 ) 提驳的特征比较有限,难以满足深层次分析的需要。例如在进攻路线 分析方面,当前的研究必须对足球进行跟踪,但是在多数情况下要得到足球运动 的充足信息是非常困难的,尤其是在进攻过程中,足球始终处于高速运动状态, 更增加了处理的难度。 ( 6 ) 对球员的探测方法和对足球的探测方法适用环境相矛盾,不能够很好 的兼容处理。对球员的探铡方法适用的环境是全景视图,在这种情况下,单个的 运动球员区域相对于视频帧都比较小,当处于放大视图和特写视图的情况下就很 难对球员进行有效的探测和跟踪;而圆形对象探测方法之类的足球探测方法,一 般要求足球区域比较大,这样就要处于放大视图或者特写视图,而在全景视图中 则很难对足球进行探测和跟踪,到目前为止还没有一种能够有效兼容球员探测和 足球探测的方法。 第5 虹 国防科学技术人学研究生院学位论文 从上述分析可以看出,这种方法更加适合于对已经得到的时阳j 较短的精彩镜 头进行深入分析来得到更多的语义信息,而不是作为一种对大量视频进行精彩镜 头分析的主要方法。 1 2 2 3 基于二镜头的分析方法 这种方法认为足球比赛语法能够通过比赛视频制作者的“拇指规则”来表现: ( 1 ) 传送比赛的全局状念: ( 2 ) 精密的跟踪动作和捕捉精彩场景。 因此可以通过视频镜头的方法来分析比赛视频f 2 4 i 【2 6 f 2 i 肼】 3 8 】f 3 9 1 。目前主要有 两种不同的观点。一种是慢镜头探测,一种是将足球比赛定义成相互排斥和语义 的状态集:比赛和暂停,通过摄制手法的不同将镜头分割成长镜头、中距镜头和 特写镜头束进行比赛视频的结构分析。 在慢镜头探测方法中认为在转播的体育比赛中,重播给观众提供了对感兴 趣的事件的再次观看,也提供了对精彩场景进行探测和剪辑的一种可行的方法, 因此只要探测出比赛视频中的慢镜头就能够得到绝大部分观众感兴趣的镜头。在 慢镜头探测中使用的方法有两种:探测场景转换符【5 l 和编辑效果探测【6 l 【7 f 引。 探测场景转换符的方法首先是提取处于慢镜头重播之前,在正常播放视频和 慢镜头之间插入的场景转换符,然后利用标志符模板使用模板匹配的方法在视频 中定点所有的相似帧。最后算法通过对标志帧和慢镜头分组束识别重播的慢镜头 片段。而编辑效果探测的方法试图建立一种对所有的体育比赛视频通用的慢动作 重播的探测和识别机制。通过对体育节目中慢镜头重播片段制作原理的理解和利 用,使用基于像素点的方法在视频中探测和定位慢镜头重播片段的边界,并对得 到的结果进行过滤( 因为体育视频中存在类似于慢镜头重播的广告片) ,因而更 具有一般性。这穆方法认为重要事件的镜头之后往往在慢镜头重播片段丌始之前 跟随有其他的镜头,而慢镜头重播片段的开头和结尾通常包含有编辑的效果。因 此将一个完整的慢镜头分成效果场和慢镜头场,使用隐m a r k o v 模型构建侵镜头 ( 编辑效果) 探测器,常规的h m m 不能够定位视频中最适合h m m 的部分,也 就是不能够定位慢镜头的边界,必须使用进一步的推理方法才能够实现边界定 位。最后对探测得到的慢镜头还要进行广告和宣传片过滤。与探测场景转换稽的 方法相比,编辑效果探测的方法有更广泛的应用范围。 通过摄制手法来分类镜头的方法主要应用于视频结构分析,其分析结果是比 赛暂停两种状态,而不是具体的事件和镜头探测结果。 目前有将上述两种方法结合来提高效果和增强性能的趋势,即首先通过摄制 手法将视频分类成长镜头、中距镜头和特写镜头,然后进行慢镜头探测,因为精 彩镜头在重播的表现方式上会出现大量使用中距镜头和特写镜头的特点,所以可 以将得到的慢镜头和先前得到的镜头类型进行综合分析,进一步的精炼通过慢镜 头探测得到的精彩镜头。 上述基于镜头的方法主要是为满足快速分析视频的需求但是也有比较突出 的缺陷: ( 1 ) 最大的缺陷是通过这种镜头分析的方法不能够得到探铡到的精彩镜头 的内容分析,这对于用户的具体需求来说是难以接受的。通过这种镜头分析方法 得到的或者是慢镜头或者是与表现手法有关的镜头类型,所具有的语义内容也 只是比赛,暂停,对于镜头所包含的比赛内容不能进行任何的描述和分析。 蒴6 负 国防科学技术人学研究生院学位论文 ( 2 ) 这种方法得到的精彩镜头分析结果具有大量的数据冗余。即使是通过 慢镜头探测的结果也会有大量与比赛无关的广告和宣传,必须迸行过滤处理。即 使是得到比赛相关的慢镜头,也可能只是一次犯规和抢断,而不是观众感兴趣的 箱彩镜头。 ( 3 ) 这种方法得到的视频分析结果不能够在全局上体现比赛进程。比赛 暂停这种非常局限的语义无法满足用户需求,而慢镜头通常是使用特殊的视角和 镜头柬体现一次事件的某个特定方面,因此也难以在全局上反映视频内容a 针对上述缺陷,近年束,固外在体育视频的研究方面出现了语义镜头分类方 面的研究f 9 ) i ”川1 。如果能够将视频实现语义镜头分类,将能够大大弥补镜头分析 方法不能够描述比赛内容的缺陷并发挥其快速处理的优势。在语义镜头分类中, 使用特定的体育领域知识,预定义一定数量的镜头类型,每种类型都具有清晰的 语义含义。以前的方法集中于有相似的低层特征的镜头聚类,而这种的方法使用 特定的体育领域弼识柬执行自顶向下筋视频镜头分类,包托,识剐每种体育比赛 视频镜头的类型,通过从体育视频中提取低层和中层特征对给定视频来进行受监 督的学习和分类。在对体育视频镜头进行萨确分类的基础上,下一步的结构和事 件分析将可能更加方便。但是相关的研究处于起步阶段,还没有出现基于体育视 频语义镜头方面系统研究方法的具体应用。 1 3 本文研究的主要内容 针对足球比赛视频究套和结构分板的现状和发展趋势,尽管存在各种特征分 析的方法和射门事件分析的模型,但是缺乏有效的系统研究方法。现有的特征提 取和分析方法,尤其是运动对象探测和跟踪的方法,又难以满足用户快速和高效 的需求。要对大量存在的足球比赛视频进行快速分析,必须建立新型的系统分析 方法。而且当前研究中设定的种种先决条件也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论