(信号与信息处理专业论文)鲁棒的视频广告检测技术研究.pdf_第1页
(信号与信息处理专业论文)鲁棒的视频广告检测技术研究.pdf_第2页
(信号与信息处理专业论文)鲁棒的视频广告检测技术研究.pdf_第3页
(信号与信息处理专业论文)鲁棒的视频广告检测技术研究.pdf_第4页
(信号与信息处理专业论文)鲁棒的视频广告检测技术研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(信号与信息处理专业论文)鲁棒的视频广告检测技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 作为一种把多种媒体信息综合在一起进行处理的技术,多媒体技术现在正迅 猛的发展,随之而来的多媒体数据在日常的信息传递中无处不在。 面对如此海量的数据,如何快速的检索出所需要信息的问题亟需解决。因此, 基于内容的视频、图像和音频检索等多媒体检索技术发展已经成为一个涉及和包 含多门学科理论的新的综合性的应用领域。其中视频广告作为商业信息的主要载 体在数字化的今天扮演着日益重要的角色,然而对于广告检测的研究还相对比较 落后。原因在于一方面广告的制作技巧和表现方式复杂多变,没有统一的规则可 言;另一方面作为视频信息的一部分,广告的持续时间很短,因此特征周期不够 明显i 检测起来相对困难。本论文在参阅大量文献的基础上,系统地分析了视频 广告播放中的视觉与音频信息的结构和特征,提出了鲁棒的视频广告检测框架。 本文的成果性工作包括: 在广告镜头检测方面,首先从镜头边缘检测出发,提出了基于区域特征重 要性的切变镜头检测算法和消隐镜头的检测算法,从而将视频段分割成镜头集合。 同时在切变镜头的检测过程中,采用了自适应的阀值算法,从而提高了切变镜头 检测算法的鲁棒性。 在广告音频融合方面,利用音频切变特征,对广告内部的音频进行切变检 测,然后根据音频切变位置,对每一个已经分割完毕的镜头进行边界的精确定位, 从而为得到准确的视频广告段做准备。 在视频广告后期处理方面,考虑到视频广告段在时间和内容上的连续性和 一致性,我们采用了滑动窗口值累计算法,对已经分类的镜头进行重新分类,从 而消除错分类的镜头最后利用广告时间连续性的原则对广告镜头进行合并,从 而得到视频广告序列。 基于前述工作,搭建了一个视频广告检测原型系统演示平台。 关键词:广告检测;镜头分割;镜头分类;支持向量机 a b s t r a c t n o w a d a y s , m u l t i m e d i ad a t ah a sp e r m e a t e di n t oo u rd a i l y - l i f e i nt h ef a c eo fs u c h e n o r m o u sm u l t i m e d i ai n f o r m a t i o n , h o wt o g e tt h er i g h ti n f o r m a t i o nw ew a n t e x p e d i t i o u s l ya n dp r e c i s e l ys t i l lk e e p sac h a l l e n g i n gt a s k i no r d e rt oa c h i e v et h i s o b j e c t i v e , c o n t e n t b a s e dm u l t i m e d i ai n f o r m a t i o nr e t r i e v a l ( c m i r ) h a sb e e ns t u d i e da s an e wi n t e g r a t e da p p l i c a t i o nr e f e r r i n gt om a n ys u b j e c t sa n dt h e o r i e s b e s i d e s ,a st h e m a i nm e d i u mo fc o m m e r c i a li n f o r m a t i o nd u r i n gd i g i t a lw o r l d ,n o wc o m m e r c i a lv i d e o i n f o r m a t i o np l a y sam o r ea n dm o r ei m p o r t a n tr o l ei nt r a n s f e r so fc o l l l l u e r c ei n f o r m a t i o n h o w e v e r ,t h er e s e a r c ho na d v e r t i s e m e n td e t e c t i o ns t i l lh a n g sb e h i n dc o m p a r e dw i t h o t h e rd e t e c t i o n s i ti sb e c a u s et h a ti ti s c o m p l e xf o rc o m p u t e r st ou n d e r s t a n dt h e a d v e r t i s e m e n t s o nt h eo n eh a n d ,t h ep r o d u c i n ga n de x p r e s s i n gs k i l l sa r ec o m p l i c a t e d a n dd i v e r s ew i t h o u tu n i f o r mm l e s o nt h eo t h e rh a n d ,a st h ec o m p o n e n to ft v p r o g r a m s , i th a st oc o m p l e t ei n f o r m a t i o nd u r i n gs h o tt i m ew i t hs h o tp e r i o d so fc h a r a c t e r i s t i c s s o i t sd i f f i c u l tt od e t e c t c o n s i d e r i n gt h ec h a r a c t e r i s t i c sa n ds t r u c t u r e so fv i d e oa n da u d i o i n f o r m a t i o n d u r i n g c o m m e r c i a lp r o g r a m s ,t h i s p a p e rp r o p o s e s t h er o b u s tv i d e o c o m m e r c i a ld e t e c t i o ns y s t e mt od e t e c tc o m m e r c i a lv i d e o s a n dt h er e s e a r c hc a nb e s u m m a r i z e da sf o l l o w s , i nt h es t a g eo fc o m m e r c i a ls h o ts e g m e n t a t i o n ,i no r d e rt os e g m e n tt vp r o g r a m s i n t os h o t sa c c u r a t e l y , t w oi m p o r t a n tr e g i 伽f e a t u r e - b a s e ds c h e m e sa r ep r o p o s e dt og e t h a r dc u ta n dd i s s o l v ec u ts h o t sr e s p e c t i v e l y a n dd u r i n gt h ed e t e c t i o no fc u ts h o t s ,w e a p p l yt h es e l f - a d a p t i v et h r e s h o l dt oi m p r o v et h e r o b u s t n e s so fo u rs y s t e m i nt h es t a g eo fm e r g i n gc o m m e r c i a lv i s u a la n da u d i oi n f o r m a t i o n ,w ed e t e c tt h e a u d i oc h a n g e si np r o g r a m s w i t ht h ec h a r a c t e r i s t i c so fa u d i oc o t s ,w er e f i n et h e b o u n d a r i e so fa l ld e t e c t e ds h o t sf o rg e t t i n gt h ea c c u r a t ec o m m e r c i a ls h o t s d u r i n gt h ep o s t - p r o c e s s i n g , c o n s i d e r i n go ft h ef u s i o n a lc o n t i n u a n c eo ft i m ea n d c o n t e n to fc o m m e r c i a ls h o t s ,w eu s eas l i d i n gw i n d o wt or e f i n et h ec l a s s i f i c a t i o no f s h o t si no r d e rt oe l i m i n a t et h ew r o n g - c l a s s i f i e ds h o t s a tl a s t ,c o m m e r c i a ls h o t sa l e m e r g e dt og e tc o m m e r c i a ls e q u e n c e sb yc o n t i n u a n c eo f c o m m e r c i a lt i m e b a s e do rt h er e s e a r c ha b o v e , w eh a v es e tu par o b u s tc o m m e r c i a ld e t e c t i o n p r o t o t y p es y s t e m k e y w o r d s :c o m m e r c i a ld e t e c t i o n ;s h o ts e g m e n t a t i o n ;s h o tc l a s s i f i c a t i o n ;s v m 致谢 本论文的研究工作是我在北京交通大学信息科学研究所两年半的工作成果。 在硕士学习生活完成之际,我衷心的感谢在过去两年多的时间中帮助过我的老师, 朋友和同学。 首先,我要衷心感谢我的导师赵耀教授。在硕士学习生涯中,赵老师对我的 科研工作自始至终进行了悉心的指导,从科研的选题、论文研究到每一项研究成 果的发表都倾注了他大量的心血。同时赵老师为我提供了良好的研究氛围,使我 有机会参与国际前沿课题的研究,有机会了解并掌握相关研究领域的最新研究动 向。除此之外,赵老师以其渊博的知识,严谨的治学,谦虚的品格,敏锐的洞察 力以及对科学事业孜孜以求的献身精神时时影响着我。并将永远激励我在今后的 科学研究与工作中不断地探索和前进。 其次,我要感谢朱振峰老师两年来对我的科研工作的悉心指导,每一篇论文 的成文与发表,都离不开朱老师不厌其烦的修改与帮助。朱老师严谨求实的作风 和宽以待人的品格将作为我学习的楷模。 再次,我要感谢研究生学习期间的朋友和同学。感谢我的课题组博士师兄韦 世奎,博士师姐赵玉风。感谢博士师姐白慧慧,翁绍伟,还要感谢实验室内同级 的各位同学,以及下级的师弟师妹对我的关心与帮助感谢他们陪我度过难忘的 硕士学习生涯。 最后,特别感谢我的父母与弟弟在我读硕士期问的全力支持,感谢他们的关 怀与无私的爱,希望这篇论文能带给他们欣慰与欢笑。 i i 序 序 随着多媒体和网络技术的发展,海量的多媒体数据在日常生活中传递着信息。 作为多媒体的一部分,数字视频广告数据在广告信息的传输占有臼益重要的角色, 然而对于广告检测的研究还相对比较落后。针对这种情况,本文提出了鲁棒性的 视频广告检测框架。 本文在参阅大量文献的基础上,在仔细研究了数字视频广告的视觉信息和音 频特点的基础上提出了综合音频特征和视频特征的广告镜头的检测算法,首先把 视频分割成镜头集合,然后引入s v m 分类器对镜头集合分类,并且对分类后的广 告镜头采用重定界的后期处理过程。最后按照广告内容和时间连续性的合并规则 对广告镜头合并,从而得到视频广告段。 本论文得到了国家自然科学基金( n o 9 0 6 0 4 0 3 2 ,n o 6 0 3 7 3 0 2 8 ) ,高等学校博 士点基金,新世纪优秀人才支持计划和北京交大十五重大专项基金的资助。 引言 1 1 论文的研究背景与意义 1 引言 随着科学技术的进步和信息技术的发展,特别是计算机技术、网络技术和大 容量存储等技术的不断发展,现代技术已经运用各种手段大量的采集和生产各种 类型的多媒体信息数据。多媒体已成为信息高速公路上传送数据的主要组成部分。 在这些多媒体信息中,数字化媒体结合了视觉和听觉,有效地向人们提供了大量 的信息,具有重要的应用和研究价值。 多媒体数据流中既包括结构化的数据也含有非结构化数据。在多媒体数据中 除了包含传统的文本和数字外,其它主要包含的数据类型还有:图形、图像、动 画、视频、音频以及上述各种媒体的组合,因此多媒体数据是将结构化的数据和 非结构化的数据有机的结合起来。也就是说多媒体由上述的基本媒体以逻辑或物 理的方式按照一定的规则组合而成。物理方式的组合意味着产生一种新的存储格 式,这种方式不会改变数据存储的类型,但是要记录数据彼此之间的事件或者空 间关系等,即这种新格式中必须包含了各种媒体间的同步信息和控制信息。而逻 辑方式的组合则意味着定义了一种新的数据格式类型,而原来媒体的数据类型和 存储格式不变,相应的同步和控制信息则单独存储 因此,多媒体数据大体上包含以下几个特点: 数据量大。多媒体信息因为包含的数据类型十分的广泛,因此数据量很大 是可想而知的,尤其是当包含很多的视频和音频数据时,多媒体的数据量会迅速 的增加。 数据格式复杂多变。如视频数据的编解码标准有m p e g 系列、h 2 6 1 和h 2 6 3 等。音频格式由w m a 、w a v 和m p 3 等。而且不同格式之问的数据在一般来说可 以相互转换,但转换过程中可能会伴随着信息量的丢失。比如将w a v 各式的音频 信息压缩成w m a 格式的,虽然存储量变小了,但是它是以牺牲了某些频率的能量 为代价的。 信息长度不周定。多媒体数据因为包含很多不同类型的数据,因此彼此之 间信息长度的差异很大,没有固定的长度可言。 多媒体数据信息的各物理组成部分可以分离存放。对于多媒体数据不同的 组成部分,我们在一定程度上可以进行分割保存比如对于一段视频数据,我们 可以只保存它的图像信息,也可以只保存它的音频信息。 北京交通大学硕士论文 多媒体数据里面的视频和音频等连续媒体信息具有时间敏感性,对于时间 信息的依赖性很强,因为视频和音频实际上是一段时间内的信号的数据。在时间 坐标的每一点处,都会对应着相应的数据。时间坐标不同,包含的数据也是不相 同的。 媒体对象内和媒体对象问关系复杂。由于多媒体信息可以包含很多不同结 构的媒体数据,这使得多媒体数据对象内部和多媒体对象之间都存在着十分复杂 的关系,因此处理过程也是非常复杂的。比如视频数据若采用帧间编码,会造成 了数据空间和时间内的相关性。音频如果包含了预测编码,使得数据内部彼此之 问都存在相互依赖性。 为了能够在数据量巨大和结构复杂的多媒体数据快速的定位感兴趣的信息, 人们提出了比较有效的检索算法一基于内容的多媒体信息检索( c o n t e n t - b a s e d m u l t i m e d i ai n f o r m a t i o nr e t r i e v a l 。c m i r ) “1 。所谓基于内容的多媒体检索是指对多 媒体数据( 如视频、音频流等) 所蕴藏的物理的和语义的内容迸行计算机分析理 解,以方便用户查询,其本质是对无序的多媒体数据流结构化,提取语义信息, 保证多媒体内容能被快速检索。多媒体检索与文本信息检索相比要复杂的多。多 媒体检索一般包括四个主要步骤( 如图1 1 所示) :特征提取、数掘流分割、数据分 类和数据索引结构的构造和检索。 图1 1 多媒体信息检索流程图 f i g u r e1 1s k e t c ho f m u l t i m e d i ai n f o r m a t i o nr e t r i e v a l 在流程图1 1 中,特征提取是指寻找分类特征的表达形式,提取出能用以区分 待检索信息和其他多媒体数据信息的不同的特征矢量。多媒体数据中的特征可以 是从图像和视频中提取的视觉特征,也可以是从音频中提取的听觉等特征。多媒 体信息是时间序列数据流,必须对它分割( 依据特征变化) 才能进行后续的处理 工作。多媒体数据分割基本是根据所提取的多媒体底层物理特征完成。连续的多 媒体数据通过特征突变切分成不同的物理单元后,需要分别对这些物理单元进行 识别分类再归属成事先定义好的不同语义类。 多媒体信息中最主要的两种信息是视觉信息和听觉信息。视觉信息包括一般 2 引言 的所说的静止图像信息,也包括视频及序列图像信息,以及计算机图形和动画信 息。听觉信息包括一般的自然语音和合成语音。 目前基于内容的多媒体信息检索主要包括视觉的信息检索( c o n t e n t - b a s e d v i s u a li n f o r m a t i o nr e t r i e v a lc v i r ) “和听觉的信息检索。1 。基于内容的视觉信息 检索是视觉信息检索的新热点,它借助对视觉媒体从低层到高层进行处理、分析 和理解过程来获取其内容并根据内容进行检索。它涉及到对图像和视频中的视觉 信息进行有效的查询、索引、浏览、搜索和提取,而且这种工作是直接根据图像 和视频的内容含义而进行的。因此对于视觉信息的访问不仅在概念层利用关键字 进行,而且也在感知层利用对视觉内容的客观测量和合适的相似模型进行。基于 内容的视觉信息检索通常不需要对每个具体的目标进行严格的描述,它更看重的 是对场景的整体描述。其工作流程框架如图1 2 所示 r - 殛壅至蝣多 _ 文字查询h _ 1 一一j 用户一- 视觉浏览一搜索0 i 擎 一。一。 l 一一j 1 概饭 一一j 级反馈1 厂 圃 :堡维检索j :i 数据库k 一一! 誊一j 注释员 翻1 2 视觉信息检索系统框架流程 w k l 四 e1 2s k e t c h o f v i s u a li n f o r m a t i o nl e t r i e v a l 由上可知,对视觉信息的检索需要根据图像,视频所表述的内容来进行,这样 才能有效的获取所需的信息。而对视频检索系统的用户来说,视频浏览和检索目 的是为了找到自己的感兴趣的视频片断,所以相应的视频检索系统应该考虑视频 中包含的内容和语义信息。因此对于视频信息流中的广告检测来说,就是要根据 广告的内容特征的进行定位。 由于视觉信息的飞速膨胀,视觉信息检索( v i s u a li n f o r m a t i o nr e t r l e v a l ) i e 在成 为信息技术的一个新的重要研究内容。视觉信息检索实际上是传统信息检索的扩 展,它将视觉媒体也包含到信息检索中。随着越来越多的视频数据库的建立,对 视频的检索的需求扩大了。因此如何对视频进行有效地浏览和检索己成为近年来 多媒体处理、信息捡索及数据管理领域的研究热点之一。对用户来说,视频浏览 和检索最好能够考虑视频中包含的内容和语义信息但是人们通常所接触到的视 频是由视频的制作者事先加工完成的,在此基础上的视频信息的检索是复杂的, 这是因为: 视频是由完整和连续的信息流组成的,相关的信息类别很多,使得这个信 3 北京交通大学硕士论文 息流本身没有明确和统一的结构信息。 视频信息对应的数据量非常巨大,抽象程度较低,如果没有一个有效的处 理方式,很难对这些海量数据进行管理和检索。 对于视频数据的检索来说,我们可以建立两种索引,一种是基于视觉基元所 携带含义的索引,另一种是基于目标或者运动这样一些语义基元的索引。前者可 以从关键帧中提取嘲,而后者一般相对复杂,提取之后需要进一步的注释。 传统的视频表示方式是将视频表示为一个比特序列一视频流,所以利用视频 的内容进行索引、浏览、查询、检索等就需要对视频进行有效合理的组织。为了 能够对数据视频进行有效的浏览和检索,我们需要对视频数据进行分析从而更好 的组织数据并建立索引。组织后的数据具有合适的结构可用于非线性浏览,而建 立索引后进行给予内容的检索就很方便了。 视频组织的目的是将视频结合成需要的结构从而支持特定的应用,如快速洌 览和检测。视频组织的方法取决于组织的目的、可用的技术和应用的特点。比较 通用的视频组织框架如下图1 3 所示。 一觎频浆维 图1 3 视频数据组织框架 f i g u r e1 3s k e t c ho f v i s u a li n f o r m a t i o ns t r u c t u r e 在视频组织框架中,视频数据库的管理系统( 图1 3 的虚线框内) 建立的用户 与数据库之间的联系,其中主要包括3 个模块:交互接口、特征分析、视频描述。 用户可以通过交互接口向数据库进行查询,查询要求借助特征分析模块转换成对 视频内容的描述,描述的同时也建立了对数据库内视频的索引,这样满足了用户 要求的视频将被提取出来。交互接口模块为用户以不同的形式使用数据库提供了 方便。特征分析模块根据数据库内的物理内容进行特征分析,把用户的查询要求 转换成系统内部的模式,从而建立两者之间的联系。对视频的特征分析也为数据 库的编辑提供了手段。特征分析的结果也可以用来建立视频索引,这相当于建立 系统中数据的逻辑描述和数据库中物理内容地址之间的联系。 视频广告检测m 作为视频检索的一个方面,现在正引起人们越来越多的注 意。这是因为视频广告在日常的信息传递中占据着越来越重要的角色。广告作为 4 引言 传统媒体中商业信息的主要载体在数字化的今天依然扮演着不可或缺的角色。随 着网络技术及多媒体技术的日益普及,视频广告在商业信息的传递中占据着越来 越重要的地位因此对于视频广告检测的研究也正在引起重视。 经过近些年的研究,视频广告检测从最初的简单的基于b l a c k s i l e n t 帧0 3 1 发展到 现今的基于镜头特征的检测“,从最初的仅仅考虑视觉方面的特征检测发展到如 今的音频和视频特征相结合的检测“”。这是因为音频流中所包含的语义信息往往 比较丰富,提取广告的语义信息也相对直观方便“”。从这个意义上讲,结合音频 和视频信息的广告检测算法的研究是很有意义的。 1 2 研究的内容与现状 针对视频广告和普通节目视频之间的特征区别,人们提出了很多的广告检测 算法。根据检测算法基于的特征不同,现在的比较实用的视频广告系统的检测算 法大体上可以分成以下三类: 基于标识的方法“”( 1o g o b a s e dm e t h o d s ) 此方法是最早提出来用于视频广告定位的方法。它主要是利用电视台自己的 台标来进行检测的。电视台在播放一般的节目时会将自己的台标显示出来,而当 播放广告时一般就会隐去台标,这使得我们可以通过检测台标的存在与否来区分 视频广告和一般视频。台标一般分为三种:静态台标、半透明台标和动态台标。 针对不同形态的台标,都有相应的检测算法,从而实现对视频广告的定位其中 对于静态台标的研究是比较深入的,而且应用得很广泛。但是对于后两种台标, 因为其自身的制作手法和演示特点,检测起来比较困难,所以还没有比较成熟的检 测算法。 基于规则的方法“町“”( r u l e - b a s e dm e t h o d s ) 基于规贝j j 的方法大多是利用广告镜头信息来进行检测的,它是通过一组特征 和规则来区分视频广告和一般电视节目视频。由于视频广告和普通的电视节目在 某些特征方面存在着比较明显的差异,因此利用这些区分性比较强的特征,就可 以实现对视频广告的检测。比如在视频方面可以通过提取一段视频帧的平均边缘 变化率a - e c r ( a v e r a g e o fe d g ec h a n g er a t i o ) 和边缘变化方差v - e c r ( v a r i a n c eo f c h a n g er a t i o ) 以及平均帧差a - f d ( a v e r a g eo ff r a m ed i 侬黯n c c ) 和帧方差v - f d ( v a r i a n c eo f f r a m ed i f f e r e n c e ) 来实现检测。在音频方面,视频广告部分的音频内容 和普通的节目部分的音频信息也存在一些明显的特征,比如可以利用音频多维频 率普系数( m e l f r e q u e n c yc e p s t r a lc o e f f i e i e n o 和音频信息熵来实现对视频广告的分 割检测。不过音频方面的特征一般都用于辅助视频特征检测方面,通过两者的结 5 北京交通大学硕士论文 合能实现对广告段更加精确的分割检测。在近期的研究中,很多基于规则的检测 方法中引入了分类器算法,通过训练样本的训练,可以获得分类性比较好的分类 器,然后对广告镜头和普通节目镜头进行分类,从而得到比较精确的检测结果。 基于识别的方法嘲( r e c o g n i t i o n - b a s e dm c t i l o d s l 此方法利用视频数据库预先储存大量的已知的视频广告的特征信息,然后采 用相应的匹配算法计算待确定镜头和广告样本镜头之间的相似度,从而确定其是 否为视频广告。在实际的检测系统中首先检测出一些潜在的、可能是广告的视频 段,然后将其特征和已经存在的广告数据库里面的视频广告段的特征逐一进行比 较,然后可以判断出此视频部分是否为数据库里面的视频广告。 但是由于视频数据是一种非格式化、时空并存、数据量大的信息,对于它的 检测就会涉及到很多的问题。此外由于不同的视频广告在制作方式和表现手法上 的多种多样,使得上述三大类广告检测算法都存在着很多问题。 对于基于标识的检测算法来说,它只是简单的依靠台标的存在来检测视频 广告,因此首先必须能正确的检测出台标。但是现在很多电台在电视节目里面插 播视频广告的时候也往往会将台标显示出来,这样基于标识的检测算法就会失效; 另外,现在电视台的台标越来越复杂,从早期的静念台标演变成现在的动态的、 半透明的、时隐时现的等,这使得台标的检测越来越团难。 对于基于规则的方法来说,此方法需要定义一组合适的用来区分视频广告 和普通节目视频的特征和阈值,用来区别和判断视频广告和普通的视频,因此区 分特征和阈值的选择是十分重要的。但是由于视频是一种多格式化的,视频之间 的区别也十分明显,因此很难找到一组通用的区分特征。另外检测系统可能对于 某些阈值比较敏感,所以对于所有类型的视频很难找到一组统一的阈值。 对于基于识别的方法来说。此方法只能检测事先已经知道的而且已经存在 于数据库里面的广告镜头,对于不存在数据库里面的视频广告时无法进行检测的。 因此这样就要求广告镜头数据库存储尽可能全面的视频广告特征。但是这显然不 是检测算法的初衷,而且这样也学要大量的人工的前期工作。 另外,一些算法选取的用来识别广告的特征值有时候并不是很稳定的,可 能会因为不同的国家电视台或节目而发生变化。因此很难找到一个统一的检测系 统。而且现在的大部分视频广告检测系统没有综合多种特征里识别,比如结合视 频、音频和文本特征等。在考虑视频广告分类的时候也没有考虑到视频广告在内 容和时间上的连续性,使得检测系统的准确性很难提高。 6 引言 1 3 视频广告检测的应用 随着信息时代的发展,作为商业信息的主要载体和传播媒介,视频广告在人 们的日常生活的信息交互中占据着越来越重要的作用。但是面对如此浩瀚的视频 数据,如何快速的检测和过滤相关的视频广告段的问题亟需解决。因此人们提出 了视频广告检测系统,利用它可以自动的快速定位视频广告段。根据使用视频广 告检测系统的人员的目的不同,视频广告检测系统的应用可以大体分为两个方面。 对于普通的视频浏览人员来说,他们对视频广告没有兴趣。因此他们可以 借助广告检测系统,可以迅速的定位到视频广告部分,从而可以进行相关的操作, 比如删除一段视频节目中对于他们毫无意义的视频广告部分,从而保留电视节目 内容。这样一方面可以节省他们观看视频的时间,另一方面也可以节省存储视频 数据的空间。 对广告感兴趣的人员,可以通过广告检测系统,快速的定位视频广告段, 在此基础上可以节省处理视频广告的时间。尤其对于广告公司来说,他们可以利 用广告检测系统定位他们自己的广告,以及快速的浏览对手公司的视频广告部分。 从而可以对各种各样的广告进行研究,或者建立自己的视频广告数据库,从而对 以后的广告制作工作起到很大的帮助。 另外还有一些非主流的应用,比如国家相关机构可以利用广告检测系统快速 的浏览电台的视频广告部分,确定电视台的视频广告播放的合法性和合理性。 1 4 本文的研究工作 针对视频广告的特点,本文提出了视频广告检测分析系统的基本框架,如下 图1 4 所示。我们现在研究的视频广告检测系统应该结合视频广告的各种特征信息 来进行检测,这些特征信息包括视频方面、音频方面、文本方面的信息。然后还 要对已经检测出来的视频广告段进行广告分割,即根据广告内容的不同进行分割 成多个广告片断。 本文的工作主要集中在三个方面: 首先在镜头分割阶段,镜头是视频的基本组成部分,因此镜头分割的准确 性在很大程度会决定检测系统的效果。考虑到广告视频拍摄手法的特性,本文提出 了基于区域重要性特征的镜头检测算法,对切变镜头和消隐镜头都得到了很好的 检测效果。 其次,在视频广告镜头精确定位阶段,在仔细的研究了视频广告特性的基 础上,结合基于镜头的特征和音频切变的特征,对视频广告段的边界进行精确的 7 北京交通大学硕士论文 定位,从而使视频广告的检测更加精确。此处,我们融合了音频段的切变点检测 ( a u d i o s h o tc u td e t e c t i o n ) 来对已检测出来的镜头进行重新确定边界,从而提高视 频广告分割的准确性。 在镜头表述方面,本文充分利用了音频和视频方面的比较鲁棒性的特征, 包括镜头切换率( s h o tf r e q u e n c y ) 、帧差的平均值和方差( a v e r a g ea n dv a r i a n c eo f f r a m ed i f f e r e n c e ) 、帧的主颜色占有率( t h ep e r c e n to fd o m a i nc o l o ro ff r a m e s ) 等视 频特征以及短时平均能量( s h o t t i m ea v e r a g ee n e r g yf u n c l i o n ) 、平均过零率 ( a v e r a g ez e r oc r o s s i n g ) 和能量分布( e n e r g yd i s t r i b u t i o n ) 等音频的特征。进一步通 过引入支持向量机( s 田“”来实现普通节目镜头和广告视频镜头的有效分类。 最后在视频广告的后期处理方面,本文仔细地研究了视频广告的制作方式 和表现手法,综合考虑了视频广告在时间和内容上面的连续性,提出了基于滑动 窗口的累积算法,对分类完毕的镜头进行精确分类,从而有助于消除分类错误。 最后根据本文提出基于时间和内容连续性的合并规则对广告镜头进行合并,从而 得到相应的视频广告片断。 1 5 论文安排 图1 4 视频广告检测基本框架 f i g u r e1 4s k e t c ho f c o m m e r c i a lv i d e or e t r i e v a l 本文共分六章,遵循视频广告系统的研究框架的层次展开。 8 引言 第一章,介绍了基于内容的视频检测的知识,提出了视频广告检测的框架, 同时回顾了相关领域的研究状况,并分析现在的视频广告检测系统面临的急需解 决的问题,最后概括叙述了本文的工作重点。 第二章,研究视频广告内容制作和结构特性,并剖柝和总结视频广告在视觉 特征和音频特征上的基本规律。同时提出了本文的视频广告检测系统的流程,并 对其进行了详细地说明。 第三章,重点介绍了本文的视频广告的检测算法。首先详细地介绍了本文提 出的基于区域特征的切变镜头和消隐镜头检测算法,在此基础上将视频段分割成 镜头集合,同时提取一些基于镜头的鲁棒的分类特征。接着,本文引入支持向量 机对镜头集合进行分类。然后采用了滑动窗口的累计处理机制,从而消除了部分 错误镜头的影响,最后把广告镜头合并从而得到完整的视频广告片断。 第四章,研究视频广告中音频技术特点,提出了音频融合技术。即首先讨论 了广告内的音频特征结构及其提取方法;其次研究如何将音频特征融合到基于视 觉的广告的检测算法里面,提出了本文的音频融合技术。 第五章,介绍了基于本文算法开发的视频广告检测原型系统及一些系统参数 的设定。 第六章,总结了视频广告检测的框架和实现算法,指出本文在理论上和实践 上的贡献,并讨论未来研究的方向。 9 广告的信息特征分折 2 1 视频结构特征 2 广告的信息特征分析 视频数据是一个二维图像流序列,它是由一系列图像帧组成,图像帧是组成 视频的最小单位2 1 。视频数据是一类重要的视觉信息源,它不仅包含静止图像所 包含的内容,还包含场景中目标运动的信息和客观世界随时问变化的信息。由于 视频数据与其它数据在形式、结构、内涵等方面都不同。所以视频数据有许多特 点。与静止图像相比,视频的结构更为复杂,数据量也更大。视频数据的组成结 构如下图2 1 。 象索点 e x 翩 图2 1 视频数据不意图 f i g u r e2 1s k e t c ho f v i s u a li n f o r m a t i o n 如图2 1 所示,视频由一系列图像序列构成,其中每幅图像称为视频数据的一 帧,因此。视频也可看作是一个帧序列。对于一幅图像中的像素点我们常用一个2 维数组e ,y ) 来表示。而视频数据是由这样一组图像序列组成,与静态图像有着 非常大的区别,即视频数据既有空问属性又有时间特性,因此,一段视频要用一 个包含着时间和空间坐标的3 维数组e ( 毛y ,i ) 表示,这样每一像素点的颜色或亮度 可表示为x y 平面上的函数互伍y ,0 。其中二轴及y 轴表示水平及垂直方向的空闯 维,而r 轴表示时间维其中r 的采样时间与许多因素有关。例如在n 地制式中r 的采样间隔为( 1 2 5 ) 秒,而在n r s c 制中r 的采样间隔为( 1 3 0 ) 秒。对于图像 序列中的每一帧,如果每帧交换速度足够快( 一般为每秒2 5 - 3 0 帧) ,人眼就感觉 图像的内容是连续。 北京交通大学硕士论文 和传统的文本或者图像数据不同,视频数据主要有以下几个特点: 视频数据包含的数据量巨大。视频数据通常是由某种自动化手段产生的, 如用扫描仪、摄像机或者图像采集设备等获得。此时数据不是以结构化记录形式 表示,而是以数字图像或数字视频的非格式化形式表示。比如对于c i f 格式的视频 数据来说,它其中每一帧分辨率为( 3 5 2 x 2 8 8 ) ,如果颜色采用2 4 b i t p i x e l ,那么每 一帧的数据量大约是0 3 m b ,如播放速度每秒2 4 帧, l j l 秒的数据量约为7 2 m b , 一个6 0 g b 的硬盘也只能存放2 4 h 的视频数据,当视频数据的帧分辨率和播放速度 增加的话,其包含的数据量会急剧的增加。因此我们可以看出视频数据的数据量 是非常巨大的。所以一般都会采用些压缩编码,使得视频数据量得到一定程度 的减少。目前常用的压缩编码包括m p e g 系列、d v i 、h 2 6 1 以及q u i c k r i m e 等。 视频数据的内容非常丰富,可以包含各种数据信息。视频数据作为信息传 输的主要载体,其中包含内容可以大致分为两类:一类是视觉的信息( v i s u a l i n f o r m a t i o n ) ,指视频中包含可视内容,例如一个户外场景里面的各种景物的颜色、 运动、纹理、形状等信息;另一类是听觉内容( a u d i oc o n t e n t ) ,指视频中含有的声 音表示,如视频中所含的音乐、嗓音或者是人们之自j 的谈话等等。 视频数据解释的模糊性。视频数据是连续播放的图像信息,在图像帧中所 含的信息十分丰富。不同的人对一幅图像或段视频可能有不同的解释,这使得 视频数据常常有主观的因素,如情绪、心理等。由于视频数据的模糊性,对视频 数据的查询,就无法像相对客观的字符数值型数据那样,用一个指定的字段作为 关键字确切遣查询一个特定的记录。在视频数据库中,常常只能用相似性进行查 询,即只能用近似匹配或者多重标注对视频数据进行查询。 视频数据的结构复杂。由于视频数据既有空间属性又有时间属性,因此视 频数据和文本数据以及图像数据的结构有很大的不同。文本数据是一种纯字符数 值型数据,不含空间和时间属性,可以看作是一维数据;图像数据是一种具有空 闻属性的数据,但没有时间属性,可看作是二维数据。对于视频数据而言,则不 但具有空间属性还具有时间属性,应该看作是三维数据,空间维是每一帧图像具 有空间结构,时间维是指视频是一系列的图像沿时间轴顺序分布而形成的一种流 结构。因此视频数据具有时空特性,这使得视频数据的表达和模型的建立变的困 难。 针对视频数据的特点,人们提出了基于内容的视频检索。同时国际标准 m p e g - 7 陶1 的提出,对于基于内容的视频检索有很大的帮助。m p e g - 7 是国际标准 化组织i s o i e c 下的m p e g 委员会制定的一个和基于内容的视频检索密切相关的一 个国际标准。其正式名称为多媒体内容描述界面接1 2 1 ( m u l t i m e d i ac o n t e n t d e s c r i p t i o ni n t e r f a c e ) , 目的是建立对不同的多媒体信息的标准描述,并且这些描 广告的信息特征分析 述主要与信息内容相关以便能用来快速和有效的查询和访问各种多媒体信息。由 于m p e g - 7 的引入,基于内容的视频检索的流程如下图2 - 2 所示。 (结束j 幽2 2 基于内容的视频检索系统的流穰 f i g u r e2 2s c h e m ao fc o n t e n t b a s e dv i s u a li n f o r m a t i o nr e t r i e v a l 从中我们可以看出基于内容的视频检索的特点如下: 首先需要对于非符号型、非结构化的视频数据进行建模,得到结构化的视 频数据,以进行后续的检索。 对视频数据进行底层特征和高层语义的分析,提取视频内在的特征。基于 内容的检索技术突破了传统的基于关键词检索的局限性,直接对视频本身的内容 进行描述,提取其固有特征,使得检索的主观程度降低,更接近视频对象的实质。 同时采用了m p e g 7 的标准,使得特征的提取和描述上都更加客观和通用 多次反馈的人机交互模式。视频检索系统应该协助用户方便地描述它的查 询需求,并形象的得到查询结果。基于内容的视频查询需要提供一种友好的人机 界面。一方面用户不但可以自己提供特征,而且可以直接利用特征库提供的特征, 并在不满意的情况下进行修改,以达到查询需求。同时还可以辅助用户设计自己 的合理的查询要求;另一方面当用户对自己的查询结果不满意时,应该能够帮助 用户进行多次更有效的查询。 基于内容的视频检索是一种近似匹配陶即使对非结构化的视频数据进行 一定的建模,但由于非字符型数据之问的相似性度量的模糊性,使得视频检索只 是一种用户可按受的匹配程度的检索,不可能是精确无误的检索。所以在检索过 程中,可以根据每次检索的结果,进行逐步求精,不断减小检索范围,直到用户 北京交通大学硕士论文 找到理想的查询结果。 为了能够方面的对视频数据进行相应的操作,我们要首先分析视频的组织流 程然后再对视频进行结构化处理。一种比较通用的视频组织结构,是将视频用一 种分层树结构来表达嘲,如图2 3 所示。 视频层 情节层 场景层 镜头层 视频图象层 帧i1 帧 图2 3 视频组织的分层树结构示意幽 f i g u r e2 3s k e t c ho f v i d e o t r e es t r u c t u r e 一个视频节目讲述了一个完整的故事,由一系列的事件情节来组成。情节描 述了一个具体的事件,其中每一个情节又是由数个场景组成的。每一个场景包含 了一个子事件或者行动,它包含了多个内容上相关的镜头。一个镜头对应一个空 间场景拍摄的连续动作,用一组连续的画面来表示,镜头又是由很多视频帧组成 的。 视频组织的实现需要从最低层即视频图像层开始,这层对应着原始的视频帧 时间序列。借助镜头检测可以得到上一层镜头层,这层对应视频数据的基本组成 单元镜头。在镜头层的基础上,借助对视频内容的分析可以得到场景层,即有 数个镜头组成用来叙述一个子事件的高层语义单元。然后将数个场景有机地融合 就可以得到了情节层。视频组织是一个对视频流不断进行抽象,逐步获得高层表 示的全过程。在这个过程里面我们通过对不同层次的操作,可以对视频的组织结 构有一个清晰地了解,然后我们就可以对视频进行结构处理。 视频结构化过程就是对视频流中的连续帧序列进行切分,把一个连续视频流 按其内容展开不同,将其分成若干语义段落单元。视频流的结构化方法能够从一 部很长的视频中抽象出视频内部隐含的情节发展结构,为大数据量视频的管理提 供了便捷的方法。由于视频数据流由成千上万个图像帧组成,要一个不漏的为所 1 4 广告的信息特征分析 有图像帧建立索引,无论从效率还是可行性上来说都不可能或者说没有必要。而 为了管理的方便,在结构化过程中我们针对不同层次的视频信息将视频流划分成 若干级的层次结构,以便可以进行非线性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论