(信号与信息处理专业论文)基于内容的新闻镜头分类技术研究.pdf_第1页
(信号与信息处理专业论文)基于内容的新闻镜头分类技术研究.pdf_第2页
(信号与信息处理专业论文)基于内容的新闻镜头分类技术研究.pdf_第3页
(信号与信息处理专业论文)基于内容的新闻镜头分类技术研究.pdf_第4页
(信号与信息处理专业论文)基于内容的新闻镜头分类技术研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(信号与信息处理专业论文)基于内容的新闻镜头分类技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络和计算机技术的高速发展,多媒体信息,特别是数字视频越来越多 的进入人们的生活。如何对视频信息有效管理和利用,是摆在人们面前的重要课 题。因此,在理解视频内容的基础上,建立视频的索引、浏览和检索等应用系统, 提供给用户方便的视频内容获取方式就成为研究人员努力的方向。 镜头作为视频中的结构单元,既可分割成为图像帧,也可组合构造成故事单 元,因此在视频内容分析技术中,对镜头进行分析具有十分重要的作用。对视频 中的镜头进行有效的分类,一方面,可以极大地缩短低层视觉特征与高层语义特 征之间的“语义鸿沟”;另一方面,镜头分类还是视频摘要、索引、检索等视频 管理和应用技术重要的支持和保证,具有十分重要的现实意义。 新闻视频是内容结构性比较强的视频类型,本文针对新闻视频,设计了一种 基于内容的镜头分类方法。该方法将新闻视频中的镜头分为主持人、记者、独白、 广告、静态图像以及“其他 六个类型。其中,“其他”指新闻视频中除去另五 类镜头后剩余的镜头。主持人、广告、静态图像和“其他”这四类镜头,根据其 自身特点逐一检测。记者和独白镜头在新闻视频中是最难以区分的,为此,本文 利用一种机器学习方法一条件随机场,将记者和独白镜头的分类转化为序列标 注问题,并进行了实验,得到了不错的效果。 关键词:新闻视频镜头边界检测镜头分类广告检测条件随机场 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n dc o m p u t e rt e c h n o l o g y , m o r ea n dm o r e m u l t i m e d i ai n f o r m a t i o n ,e s p e c i a l l yd i g i t a lv i d e oc o m et op e o p l e sl i v e i ti sa ni m p o r t a n t t a s kf o ru st ou t i l i z et h ei n f o r m a t i o ne f f e c t i v e l y t of a c i l i t a t ep e o p l eg e t t i n gt h ei n f o r m a t i o n t h e yw a n t ,b u i l d i n gas y s t e mf o rv i d e oi n d e x i n g ,b r o w s i n ga n ds e a r c hh a sb e e nt h e w o r ko fr e s e a r c h e r s a sab a s i cu n i to fv i d e o ,s h o tc a nn o to n l yb ed i v i d e di n t of r a m e sb u ta l s o c o m p o s es t o r y ,w h i c hi sv e r yi m p o r t a n tf o rv i d e oa n a l y s i s v i d e os h o tc l a s s i f i c a t i o n t e c h n o l o g yb r i d g e st h es e m a n t i cg a pb e t w e e nl o w - - l e v e l f e a t u r e sa n dh i g h - - l e v e l c o n c e p t s ,a n dp r o v i d e ss u p p o r tf o rt h ev i d e oi n d e xa n dr e t r i e v a l n e w sv i d e oh a sac l e a rs t r u c t u r ew h i c hm a k e si tp l a ya ni m p o r t a n tr o l ei nv i d e o c o n t e n ta n a l y s i s i nt h i sd i s s e r t a t i o n ,n e w ss h o t sa r ec a t e g o r i z e dt os i xs e m a n t i ct y p e s : c o m m e r c i a l ,s t i l li m a g e ,a n c h o r p e r s o n ,r e p o r t e r , m o n o l o g u ea n do t h e r s t h e “o t h e r s ”a r et h er e s ts h o t se x c e p tt h ef i r s tf i v et y p e si nt h en e w sv i d e o t h et y p e so f c o m m e r c i a l ,s t i l li m a g e ,a n c h o r p e r s o na n do t h e r sa r ei d e n t i f i e dr e s p e c t i v e l yw i t h f e a t u r e so ft h e m s e l v e s a n dt h er e p o r t e ra n dm o n o l o g u es h o t sa r ed i s t i n g u i s h e db y c o n d i t i o n a lr a n d o mf i e l d s ( c r f s ) m o d e l ,i nw h i c ht h ed e t e c t i o ni st r a n s f o r m e di n t o s e q u e n c el a b e l i n gp r o b l e m t h ee x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h ee f f e c t i v e n e s s a n dh i g hp e r f o r m a n c eo ft h em e t h o d k e yw o r d s :n e w sv i d e o ,s h o tb o u n d a r yd e t e c t i o n ,s h o tc l a s s i f i c a t i o n , a d v e r t i s e m e n td e t e c t i o n ,c o n d i t i o n a lr a n d o mf i e l d s ( c r f s ) 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特另t i d l :i 以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤盗盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位敝储繇并勿烤签字慨如彦年6 月6 同 学位论文版权使用授权书 本学位论文作者完全了解鑫鲞查鲎有关保留、使用学位论文的规定。 特授权苤鲞盘堂可以将学位论文的全部或部分内容编入有关数折 库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:导师签名:蝻技 签字同期:瑚年月占日物u同 y 垒 多 匆 月 0 0 6 第一章绪论 1 1 课题介绍与研究背景 1 1 1 课题的意义 第一章绪论 随着科学技术的日新月异,互联网络的推广普及,人们正在迅速地步入一个 数字化、信息化的时代。内容丰富、格式不一的数字图像、音频、视频构成了人 们熟知的“多媒体”。网络技术的发展,以及计算机性能的不断提高,人们每天 都能够获取大量的多媒体信息。如何在这信息海洋中准确而快速地抽取某特定的 多媒体信息,成为人们迫切需要解决的问题,这也促成了多媒体信息检索技术的 飞速发展。 在上述几种多媒体信息中,数字视频作为一种重要的媒体类型在人们的工作 和生活中成为不可或缺的信息载体。它具有信息量大,表现力强,内容丰富、生 动、直观等特点,从而受到人们的高度重视。然而,数字视频日益庞大的数据量、 非结构化的数据形式,并且内容上具有多意性,极大地限制了人们从中获得信息 的能力。因此,对这些数字视频中的信息进行有效地存储、管理、查询和检索成 为人们迫切需要解决的问题,这也促使人们投入大量的精力对视频内容进行分析 与研究。 基于内容的视频分析( c o n t e n t b a s e dv i d e oa n a l y s i s ,c b v a ) ,也称为视频 内容分析( v i d e oc o n t e n t a n a l y s i s ,v c a ) ,旨在通过对视频结构和语义内容的分 析,将非结构化的视频数据结构化,并提取其中的语义内容单元,最终在此基础 上建立视频的索引、浏览和检索等应用系统,提供给用户方便的视频内容获取方 式。 1 1 2 视频内容分析研究的发展 在视频内容研究的早期阶段,研究者主要侧重于视频数据结构的分析,其中 涉及的关键技术主要包括镜头边界检测1 1j 和关键帧提取【2 j 等。 第二阶段的研究主要对象是相似性检索技术,该技术核心问题是特征的提取 和特征空间距离的量度,在这一阶段,陆续出现了一些图像和视频的检索和查询 的原型系统。 第三阶段的工作提出了面向语义的信息提取问题,这也是目前阶段基于内容 第一章绪论 视频分析研究的热点。此阶段工作的根本目标是构建从低层特征到高层语义之间 的桥梁,也就是跨越“语义鸿沟 ,最终形成符合人类思维形式的信息索引和检 索方式。 目前研究者比较关注是基于视频视觉信息处理的自动视频内容分析。视频数 据是一种包含声音、文字、图像和运动的多源信息,并且它们相互关联。因此, 在对视频数据进行基于图像序列分析的同时,如果能综合应用音频和文字等相关 信息的分析结果,将有助于提高对视频数据分析与理解的准确性。所以,要达到 有效管理和利用视频信息资源的目的,必须深入研究视频内容分析的各种技术, 综合音频、视觉、文字等多模态信息( m u l t i m o d a l i t yi n f o r m a t i o n ) ,从容量巨大 的视频数据中尽可能多地获取有意义的内容描述和分析,并表达为计算机可以处 理的形式,以实现视频信息的有效索引和检索。这比仅从单一的模态来分析视频 内容具有更高的语义性,更符合人类的认知过程,而且可以较大幅度地提高准确 度。因此,融合多模态信息进行处理是实现视频内容分析的有效方法。 经过国内外科研人员的大量研究工作,针对多媒体信息的基于内容的检索 ( c o n t e n t b a s e dr e t r i e v a l ) 技术也取得了一定的成果,目前已经存在或者正处在 研究阶段的多媒体检索系统有: q b i c ( q u e r yb yi m a g ec o n t e n t ) ,i b ma l m a d e n 研究中心开发的第一 个商用基于内容的图像及视频检索系统。其系统结构及所用技术对后来 的视频检索具有深远影响。 i n f o r m e d i a ,卡内基梅隆大学研发的数字视频图书馆系统,结合语音 识别、视频分析和文本检索技术,支持2 0 0 0 小时的视频广播检索,实 现全内容基于知识的查询和检索。 b n e ( b r o a d c a s tn e w se d i t o r ) 和b n n ( b r o a d c a s tn e w sn a v i g a t o r ) , m i t r e 公司开发了一个广播新闻编辑与浏览系统。b n e 用于捕获、分 析、注释、分割、摘要以及存储新闻的视音频和文本数据,b n n 则在 b n e 处理的基础上提供一个基于w e b 的浏览系统。 v i d e o q 系统,美国哥伦比亚大学数字视频多媒体实验室的研究成果,扩 充了传统的关键字和主题导航的查询方法,允许用户使用视觉特征和时 空关系来检索视频。它有以下几个特征:集成文本和视觉搜索方法,自 动的视频对象分割和追踪,丰富的视觉特征库,以及可以通过互联网交 互查询和浏览等。目前的研究方向主要集中在新闻故事单元分割、大规 模语义概念检测和视频搜索、新闻视频的主题跟踪以及基于感知的视频 摘要等。 m e d i a m i i l ,荷兰阿姆斯特丹大学智能系统实验室开发的语义视频搜索系 2 第一章绪论 统,。该系统综合应用了视频处理、计算机视觉、语言处理、机器学习 以及信息可视化等技术,目前可以对1 0 1 个新闻视频中的语义概念进行 检索。 1 2 新闻视频的结构化特征 数字视频具有一定的结构化特征,主要体现在: 1 ) 数字视频是由一系列连续的数字图像序列在时间轴上顺次排列组成的, 这里的每幅图像被称作“帧”( f r a m e ) ,是视频流中最基本的组成单元。 因此,数字视频不但拥有空间属性,还具有时间属性。 2 ) 由于一段视频含有多帧图像,所以较之静止图像,数字视频的内容更加 丰富,对其进行描述与解释更加困难。 数字视频内容具有明显的层次性。最小的结构单元是帧,由若干个帧组成一 个镜头( s h o t ) ,若干个镜头组成一个场景( s c e n e ) ,若干个场景组成整个视频。 数字视频的这种层次性描述如图1 1 所示,图中,x 和y 分别表示一帧图像的的 水平和竖直方向,t 表示时间轴方向。 x 图1 1 数字视频结构特点 第一章绪论 新闻视频是数字视频中的一种,相比于其他一般性的从视频节目,它的结构 性更强。无论从拍摄方式还是情节的组织来看,新闻视频结构层次性较一般的数 字视频更为明确。对于播报类综合新闻节目,它通常由片花、新闻片段、广告片 段和片尾四部分组成。新闻节目往往由片花开始片花是新闻节目的台标之类。 之后进入新闻,开始是主持人镜头,主持人致问候语并进入新闻报道的主体部分。 新闻主体部分由多个新闻片段组成,每个新闻片段由一个或多个新闻故事单元组 成。每个故事单元通常以主持人镜头开始,后面跟着多个新闻报道镜头。新闻报 道可能被分成若干类型,如将国内和国外的新闻分开,将政治、经济、娱乐等分 开,不同类型新闻片段之间可往往会插播广告片段或片花。在片尾部分,通常主 持人镜头再次出现致结束语,然后是一段含有工作人员姓名列表的字幕滚屏片 段。般地,国内新闻如c c t v - i 的“新闻联播”通常不舍有广告片段,而且结 构比较固定:而c n n 、m s n b c 等国外新闻广告片段较多,结构相对比较灵活。 新闻典型的结构如图】之所示: 藤匹匿蜀啜阿至蜀臣蜀 。 f - - - 。二 回匝匝圆圈匝蟹 图l 一2 新闻视频节目的时序结构 对于新闻视频,人们更倾向于把“场景”称为“故事单元”( s t o r yu n i t ) 简称“故事”( s t o r y ) 。新闻的故事单元是表达一个完整语义信息的连续镜头序 列,即一条完整的新闻,其基本结构包括主持人报道和现场报道。 新闻视频结构性强,层次清晰,因此对其内容进行分析时可以建立一个框架 将其分成若干个相对独立的分析和处理技术,其中主要技术包括进行镜头边界检 测、关键帧提取,故事单元分割以及视频语义分析等。 1 镜头边界检测 镜头是视频的物理层,由视频结构图可知,镜头是一个中间单元,向上可以 合并为场景( 故事单元) ,向下可以细分为视频帧”j 。因此,镜头边界检测( s h o t b o u n d a r yd e t e c t i o n ) ,也可称为镜头变换检测( s h o tc h a n g ed e t e c t i o n ) 是视频 结构分割中最重要的一个环节,同时也是最热门的研究方向之一。 第一章绪论 由于本文所提出的基于内容的镜头分类方法要以镜头边界检测为基础,所以 镜头边界检测技术将在第二章加以详细阐述。 2 关键帧的提取 关键帧( k e yf r a m e ) ,也称代表帧( r e p r e s e n t a t i v ef r a m e ) ,是用于描述一 个镜头的关键图像帧,可以用它来代表这个镜头的内容。由于同一个镜头中的各 帧图像之间的内容有相当程度的冗余,因此可以选取反映镜头中主要信息内容的 帧图像作为关键帧。在切分出镜头结构后,根据镜头内容变化情况,对每个镜头 可提取一个或者多个关键帧。关键帧既可以支持对整个视频内容的快速浏览,又 可以作为视频内容的索引,因而关键帧提取技术受到了较为广泛的关注。 关键帧提取( k e yf r a m ee x t r a c t i o n ) 一般是建立在镜头边界检测的基础之上, 提取的原则是关键帧的数量要远远小于镜头所包含的图像帧数目,又能够反映镜 头的重要内容。最简单的方法就是将每个镜头的首、尾或者中间部分的帧作为关 键帧。这种方法一般适用于内容变化少的镜头,如新闻视频中的主持人镜头1 4 j 。 而对于内容变化比较大的镜头,可以采用基于运动信息、基于图像信息、基于镜 头活动性、以及基于压缩域d c 系数的提取方法等1 5 j 。 3 故事单元分割 镜头只是记录对象一个连续的运动,内容相对单一,往往不能表达完整的语 义信息,因此需要在镜头之上再划分一个较大的单元一一故事单元。每个故事单 元能够表达同一主题,更方便人们的理解。故事单元反映的是视频流的高层语义, 更符合人类的思维模式,是建立视频摘要和索引的最佳层次。故事单元分割 ( n e w ss t o r ys e g m e n t a t i o n ) 技术的研究需要建立在视频语义分析的基础上,基 于内容的故事单元层的正确分割,对建立视频数据库系统,实现基于内容检索具 有重要的意义。 新闻故事单元( n e w ss t o r y ) 的定义为:一个在新闻内容上相关的,至少带 有两个独立声明性语句的片段。在新闻视频中,新闻故事单元是一个在新闻内容 上相关的描述一个完整事件的视频片段,包括一些政治事件、财经报道、体育报 道等。而非新闻故事单元就是除了新闻单元之外的部分,如广告、新闻片头等。 一个故事单元可能有多个镜头组成,如:主持人先对某段新闻做大概介绍,然后 镜头转移到现场做详细报道,最后镜头又转回直播间由主持人做某些评论。另一 方面,一个镜头也可能包含多个故事单元,如:在一个主持人镜头中连续播报几 条新闻。 近年来对新闻视频故事单元分割技术的研究产生了大量的方法,根据利用信 息的角度可以将之分为三大类:单模态的分割方法、多模态融合的分割方法以及 基于上下文( c o n t e x t ) 信息的分割方法。 第一章绪论 单模态的方法是分别利用听觉、视觉和文本三类信息从不同角度提供了分割 新闻视频的方法,但由于使用的特征单一而且信息不充分,所以分割效果相对不 理想。 多模态融合的分割方法首先提取尽可能多的有效特征;然后建立一个框架, 利用新闻视频的一些先验规则,有效地进行多模态特征的数据融合;最后通过一 些决策机制判断故事单元的边界点位置。这种方法又可以细分为基于规则的和基 于统计的方法。基于规则的方法包括利用主持人镜头、静音区以及文本中的线索 性短语这些先验知识中的一种或几种作为分割的主要依据1 6 一j 。一般来说,这类 方法相对简单,也比较容易实现,但是性能差一些。而基于统计的方法大多使用 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 、隐马尔可夫模型( h i d d e nm a r k o v m o d e l s ,h m m s ) 、最大熵( m a x i m u me n t r o p y , m e ) 等机器学习的方法对多模态 信息进行融合以确定故事边界。 j a n v i e r 等人将上下文的概念用于新闻视频故事单元分割1 8 】,他们建立了一个 分割新闻故事的上下文模型,并用提升随机场( b o o s t e dr a n d o mf i e l d s ,b r f s ) 技 术估计其参数。该方法使用了统计的方法有效地对多模态特征进行了融合,并且 强调了各模态之间的以及候选边界点前后的上下文关系,对有限的特征信息利用 得更充分。 4 视频语义分析 视频语义分析指对视频中的概念、事件等语义内容进行检测并自动标注,目 的是建立视频的低层特征和高层语义描述之间的映射,克服所谓的“语义鸿沟”, 有效地进行视频检索等应用。 就视频语义分析技术的方法而言,大致可以分为四类:基于视频文本的方法、 基于分类器的方法、基于多模态融合的方法和基于上下文的方法。 视频内容分析技术有着广泛的应用前景。例如:新闻节目制作者需要详尽和 准确地查询到对某一个专题的所有视频报道,而这些报道可能是一整段视频,也 可能只是视频中的一小部分,这时就需要建立完备的视频数据库,并按内容进行 快速搜索。又如:电视用户有时并不清楚自己想要看什么节目,他们希望对所提 供的数字节目先进行快速浏览,然后再决定要看哪个节目。这时,如果有便捷和 准确的视频内容摘要系统,用户观看节目会方便得多。 一般来说,视频内容分析技术的应用主要包括三个方面:视频检索( v i d e o r e t r i e v a l ) 、视频摘要( v i d e oa b s t r a c t i o n ) 和视频挖掘( v i d e od a t am i n i n g ) 。 6 第一章绪论 1 3 作者工作及论文安排 视频内容分析系统是一个高度模块化的系统,其内部将根据具体应用需求, 配备不同的功能性模块。而对视频内容进行分析的最终目的,是跨越“语义鸿沟”, 建立完备的视频摘要和检索系统。而对已有的镜头进行分类,不但可以极大地缩 短低层视觉特征与高层语义特征之间的“语义鸿沟”,同时还为视频摘要、索引、 检索等视频管理和应用技术提供了支持和保证。 本文提出工一种基于内容的新闻镜头分类算法,将新闻镜头分为主持人、记 者、独白、广告、静态图像以及“其他”六个类型,并逐一加以检测区分,特别 地,针对记者和独白这两类最难区分的两类镜头,利用条件随机场理论,将镜头 的分类转化为序列标注问题,得到了不错的效果。 论文内容安排如下: 第一章:简要介绍课题研究背景,介绍新闻视频内容分析的主要技术。 第二章:介绍数字视频的镜头边界检测算法,并在实验中加以实现。 第三章:简要介绍条件随机场理论。 第四章:设计并实现一种新闻视频的镜头分类算法,对新闻视频中的不同类 镜头逐一进行检测,重点论述了利用条件随机场理论对记者和独自镜头的分类。 第五章:全文总结。 第二章镜头边界检测 第二章镜头边界检测 视频分割是视频内容分析和摘要的重要组成部分,而镜头边界检测( 或称为 镜头分割) 是视频分割的最主要和基本的内容,也是对视频结构和内容进一步分 析的必要前提。同时,本文所设计的新闻镜头分类算法也是要以镜头边界检测为 基础,因此本章将较详细的介绍镜头边界检测技术。 2 1 镜头的相关概念 镜头是指由一个摄像机镜头连续拍摄的一组内在相关的连续帧,它用来表现 时空上连续的一组运动f 9 】。镜头是由一系列连续变化的图像帧组成的,通常被认 为是视频的最基本的语意单元。因此,对镜头的分析和处理是对视频内容进行高 层语意上的分析、检索和分类的基础。 镜头边界根据镜头变换的方式不同大致可分为两种:镜头切变( 突变) ( a b r u p tt r a n s i t i o n ) 和镜头渐变( g r a d u a lt r a n s i t i o n ) 。 切变是两个镜头直接连接在一起,中间没有使用任何剪辑效果,一个镜头的 尾帧紧跟着是下一个镜头的首帧。 渐变则相对复杂,是从一个镜头缓慢变化到另一个镜头,是一种平滑过渡, 其特点是整个变换过程是逐渐完成的,通常延续几帧或十几帧。两个镜头间的边 界是跨越若干个帧的过渡序列。渐变又主要分为以下四种类型: 1 淡入( f a d ei n ) :从单色帧或近似单色帧( 一般是黑色的帧) 开始,将一个 镜头不断变亮,直到最后一帧到达正常显示的过程。 2 淡出( f a d eo u t ) :一个与淡入相反的过程。 3 叠化( d i s s o l v e ) :可看作是一个淡入和淡出过程的叠加,前一个镜头的 内容逐渐消失,同时后一个镜头的内容逐渐显现。 4 划变( w i p e ) :是指下一个镜头的首帧逐渐穿过并覆盖前一个镜头的尾帧。 2 2 镜头边界检测算法综述 无论何种类型的镜头切换方式,对其边界的检测都是基于这样一个事实:属 于同一个镜头的图像帧具有相对一致或相似的内容,而处于镜头边界两侧( 即不 第二章镜头边界检测 同镜头) 的帧则通常内容变化较大。假设我们己经提取了适当的特征来表示帧的 内容,那么,同一镜头内相邻或相近帧的特征变化不大;但在镜头转换处,帧的 特征会发生较为明显的改变,这也就成为设计镜头边界检测算法的依据。镜头变 换往往伴随着视觉内容的变化,这种变化通常表现为颜色差异增大、新旧边缘的 远离、对象形状的改变和运动的不连续性等。因此,镜头边界检测的首要问题是 提取适当的特征并设计帧间内容差异的度量方法,之后便可根据这个差异采用一 定的策略来判断是否发生了镜头变换。其经典的思路是:首先,提取出描述视频 内容的视觉上变化的特征;之后,确定视频序列的第k 个图像帧和第斛z 个图像 帧( ,是第k 帧和第k + l 帧的位置上的距离,且1 1 1 ) 的关于这个特征的差异z 陇 斛d 作为输入数据;最后,将z ( 屯斛d 和设定好的阈值丁进行比较,如果这个距 离z 超出了阈值l 我们就判断在k 帧和,帧之间存在着镜头边界,即有镜头变 换产生,反之则认为不存在镜头变换。 镜头边界检测是视频处理的第一步,是随后高层内容分析、分类和检索的基 础。镜头分割的准确性将直接影响到后续处理的效果。因此,关于镜头边界检测 的算法,一开始就得到了广泛的重视,在基于内容的视频检索的研究中,有着最 长的研究历史以及最为丰富的研究成果。这些学者和研究人员提出的各自方案, 对视频镜头的分割技术做了有益的研究和探讨,并有一些研究者对这些方法进行 了分类、综述与比较。有人将现有工作分为基于像素域的和基于压缩域的l1 0 j 。 c o s t a s 等人从特征选择、特征间相似性计算、阈值选择以及性能评估等七个方面 对镜头边界检测方法展开了论述l l 。u l l a s 等人分析比较了颜色直方图法、压缩 域检测法以及块匹配法等三种方法,指出块匹配法检测性能不如另外两种方法, 而且计算量较大;压缩域检测法与颜色直方图方法二者精度相近,但是颜色直方 图法具有较好的检全率;颜色空间的选择不如颜色直方图分割方法的选择重要 【1 2 1 o 总的来说,视频的镜头边界检测的方法可以分为压缩域和像素域两类。像素 域的方法一般利用图像的像素值或者颜色直方图等特征,而压缩域的方法一般利 用d c 系数、运动矢量等特征。下面详细地分析和比较这几种典型的视频镜头边 界检测方法。 , 2 2 1 基于像素的方法 基于像素的算法需要计算视频前后两帧中每个对应像素的亮度的平均绝对 变化值,第k 帧和第抖,帧的帧间的差异值定义为: 9 第二章镜头边界检测 ( 2 - 1 ) z h 萨击善m 弘n 吨, 其中,m 和分别是图像帧的水平和垂直方向上的像素数,i k ( x , y ) 和厶+ 舡 分别是第枷贞和第七+ 刀陨在o ) 处的亮度值。 该算法计算相对简单,但它对局部运动非常敏感,视频内对象和摄像机镜头 的运动都会引起很多像素亮度的改变,从而使z 值变大,很容易导致视频镜头边 界的误判。 2 2 2 基于直方图的方法 基于直方图的算法是在基于像素比较的方法上发展而来的,它也是最为普遍 的镜头边界的检测方法。该方法通常是将相邻图像帧的各个像素的灰度、亮度或 颜色分成个等级,再针对每个等级统计象素个数做成图像帧的直方图,对相 邻帧各自的直方图进行比较,计算直方图差值如公式( 2 2 ) : z g n ,) = 击扣。( i ) - h k + l o ) | ( 2 2 ) 其中,m 黾灰度级数或颜色数等,枷u 是一帧图像总的像素数。矗“f ) 和矗斛,( f ) 分别是第k 帧和第k + l 帧图像的直方图。该方法统计了总体的灰度或颜色分布数 量,它对镜头内的运动和摄像机的慢速运动有着良好的容忍能力,计算复杂度也 比较低。其不足在于在光照条件变化和镜头快速运动时,直方图会变形,使得帧 间差异增大而导致误检,而出现镜头渐变时,有时也会因为差异过小而造成漏检。 总的来说,基于直方图的方法比较方便简单,计算复杂程度较低,易于实现, 在一般的镜头切变的判断上能够得到较好的结果。例如对于新闻这类视频,绝大 多数镜头变换的方式都是属于切变,采用直方图方法,就能得到相对理想的镜头 边界检测结果。对于一般的切变和渐变镜头,如果阈值设置得当,采用直方图算 法都可以得到较好的结果。 2 2 3 基于块匹配的方法 为了使镜头内各帧间的帧差值保持在较小的水平以使镜头转换处更易判断, 就需要充分考虑镜头内的对象及摄像机的运动,尽量将它们的影响消除。基于块 匹配的算法充分考虑了同一镜头内对象及摄像机的运动情况和特征,通过运动补 1 0 第二章镜头边界检测 偿等方法来减小对象和摄像机运动造成的镜头内帧间差异值的变化。首先将各图 像帧分块处理计算两帧图像的对应块间的差异,然后对各个块经过运动补偿后再 计算帧差值,可以避免由于快速的帧内运动引起的误判。 基于块匹配的方法强调的是局部属性,总体来说在性能上不如基于直方图的 算法。 2 2 4 基于边缘的方法 通常伴随着镜头的转换,整个画面的内容都会改变,图像画面内各个对象的 边缘轮廓也就改变了,因此,可以通过跟踪图像帧内的边缘的改变来判断镜头的 转换。 对画面简单的视频进行分割时,基于边缘的算法的效果很好,尤其对镜头间 的渐变的检测更为突出。但是,对于大多数的视频,无论是主要对象还是背景, 都有可能有很多细微、复杂或不断变化的边缘。虽然在进行边缘提取前可以通过 高斯滤波或小波变换滤波以减少细微边缘的干扰,但是大量的边缘还是会干扰最 终对镜头边界的判断,造成误检测;而在光线比较暗和边缘不是很明显的条件下 ( 如夜晚) ,由于难以检测到视频图像帧中的边缘,又会造成漏检测。此外,在 视频中,往往存在着对象或镜头的快速运动,这同样会造成前后帧中的边缘位置 相差较多,从而造成误检。 2 2 5 针对压缩视频的算法 针对压缩视频的算法主要是对m p e g 格式的视频数据不解码或部分解码,然 后对得到的d c t 系数、宏块类型等数据进行分析,从而判断视频中的镜头边界的 算法。 a r m a n 等人首先提出利用i 帧的d c t 系数来检测镜头变换,用每一帧中块的 d c t 系数的子集来构建一个矢量作为特征变量,用它来检测相邻两个i 帧之间的 帧差【l3 1 。同样是与预先设定好的阈值相比较,如果该帧差大于阈值乃,则发生突 变;如果该帧差小于阈值z 而大于阈值t 2 ( 0 乃 t 2 1 ) ,则解压这两帧,通过它 们的颜色直方图来判断是否真的存在镜头边界。这种算发计算两帧的差别比较粗 略,用来判断镜头间的切变效果比较好,但是对于镜头间的渐变,检测效果就相 对较差。 l i u 等人提出了在m p e g 视频中利用运动补偿信号和运动矢量的个数来进行 镜头边界的检测i l4 1 。如果当前图像帧与其参考图像帧的误差能量有所增加,也就 是说运动补偿进行了加强,则判断此处存在镜头边界。 第二章镜头边界检测 文献 15 1 通过分析镜头突变点附近各帧的宏块类型特征,提出了一种基于宏 块类型匹配的镜头突变检测算法。他们使用一种新的特征“宏块类型匹配符 , 用来描述子图像组内部相邻帧之间对应位置上宏块类型的匹配情况,以此来构造 出切换的检测算子,并结合一种自适应阈值的方案,以达到精确定位突变镜头的 效果。 有研究表明,直接在压缩视频上计算的图像帧差值的分布与解压缩后的帧差 值的分布是有对应关系的,因此是一种比较好的算法。针对压缩视频的算法不需 要进行解码,大大降低了计算复杂度,因此效率相对较高。但是这种方法仅限于 m e p g 格式的视频,增加了这种算法的局限性。 2 2 6 其它方法 以上介绍的算法几乎都用到了阈值,而阈值的选定是很困难的,通常只有靠 经验与实验来确定,如果用聚类或决策树的方法进行视频分割,则可以避免阈值 的设定,从而克服了设定的阈值对输入的视频内容变化过于敏感等缺点。 k 均值算法是无监督的聚类算法,该方法根据相邻帧的颜色直方图自动将帧 差值分为场景变化和无场景变化两类。单独出现的场景变化处判断为镜头切变, 连续出现的场景变化处判断为渐变。其实质是根据均方误差和最小的准则,将帧 间差异值分为两类,其结果是与分别对每段视频设置合理的全局整体阈值相同。 该算法的最大优点在于去掉了阈值的设定并且利用多个特征( 通过计算特征向量 的欧氏距离) 来改善检测的可靠性,对视频序列都有自适应能力,但对噪声的干 扰比较敏感。 还有人提出一种基于模糊粗糙集的镜头边界检测方法1 16 | 。首先提取了颜色以 及直方图等5 类共1 2 种特征,通过计算粗糙集条件属性之间的相关性,分析这 些特征的重要性程度。根据各个特征所占的重要性程度,获得最终的比例特征, 将这些特征根据其所占比例进行加权从而构造出相异性检测函数,再利用这个函 数进行镜头边界的检测。 2 3 改进的双阈值镜头边界检测方法 在镜头边界检测的众多方法中,双阈值法是比较经典的一种算法。该方法设 置两个阈值死和瓦( 珍p 0 ) 。当图像帧间差大于死时,认为此处存在着镜头突 变;当图像帧差小于死而大于正时,则认为此处存在着镜头渐变。当连续帧的帧 间差开始超过疋时,这一帧被认为是镜头渐变的起始帧。之后,继续计算相邻帧 的帧差d f ,同时计算累计帧差d 口,即从相隔一帧开始,一直到相隔若干帧之间的 1 2 第二章镜头边界检测 帧差,当眈超过乃,而连续帧的帧间差d ,仍低于正时,这一帧便被认定为渐变的 终止帧。在这个过程中,d 应该是始终大于乃的,如果出现协小于疋的情况,则 废除该起始帧,重新寻找起始帧。典型双阈值算法如图2 1 。 图2 1 典型双阈值法 典型的双阈值法现实应用中也存在着一些不足,特别是针对我们所处理的新 闻视频,会有一些局限性。 一个问题是,在新闻视频中,存在着大量的闪光灯现象,而典型双阈值法缺 少这方面的考虑,对于闪光灯影响,鲁棒性较差。由于闪光灯使同一个镜头内的 图像帧在极短的时间内出现高亮度,经常会使相邻帧间差异值过大,导致镜头边 界检测的误检测。 另一个问题是,在对比较两图像帧的差异值时,如之前的大多数方法一样, 典型的双阈值算法也没有很有效地解决阈值的选取问题,该方法采取的仍然是预 先人为地设定或简单的局部窗函数等方法。如果变换实验用视频,或视频内容的 场景发生明显变化,往往这种预先设定的全局性阈值就不是很有效了。而一旦在 视频中,存在镜头剧烈运动等情况,简单的窗函数也会体现出很大的局限性。 基于以上原因,在本课题的实验中,采取一种改进的算法1 1 7 1 。该算法的流 第二章镜头边界检测 程如图2 2 所示。 图2 2 改进双阈值算法 该算法对于图像帧的差异值是通过直方图得到的,并且采用的是灰度直方 图。前文已经提到过,直方图得到的是一帧图像的各个亮度值的像素的个数,是 一个统计值。在我们的实验中,将像素分为2 5 6 灰度级,即像素的灰度值的范围 是0 - - - - , 2 5 5 。我们得到一帧图像中各个灰度值像素的个数,也就得到了该帧的直方 图岛。在算法图中,d f 表示是第i 帧与它的前一帧之间的直方图差, 在实验中,直方图帧差由公式( 2 - 3 ) 得到,并进行归一化处理。 ( 2 - 3 ) 口= 示1 丢2 5 5 1 日,o ) 一日h u ) i 其中,是一帧图像中像素的总个数。 真正的镜头变换和闪光灯都会引起图像直方图的明显变化。所以,在新闻视 频的镜头边界检测中,闪光灯的出现会造成许多误检测。而如图2 2 所示,该算 法和经典的双阈值算法相比,最大的改进就是加入了闪光灯的检测。如果相邻帧 1 4 第二章镜头边界检测 之间的直方图差大于设定的阈值死,就进行闪光灯检测,判断这个帧间的变化是 由镜头切换引起的还是由于闪光灯造成的。 闪光灯检测所用的图像帧特征是像素的平均亮度。平均亮度定义如下: 2 5 5 幸皿d ) ,= 笔万一 h ,o ) j 皇0 ( 2 - 4 ) 镜头变换所引起的图像帧的理想的平均亮度变化曲线如图2 - 3 中( a ) 所示。而 闪光灯引起的图像帧平均亮度的理想变化曲线如图( b ) 所示,在现实中可由图( c ) 代替,因为闪光灯持续几帧或是存在多个闪光灯的情况也是经常发生。由图可见, 由镜头变换引起的图像亮度变化都会持续一定的时间,往往会持续整个镜头;而 闪光灯的发生,图像亮度会迅速提高之后马上回落到原有水平,这一变化是在极 短的时间内完成的,往往只有一帧或几帧。 j 广 一 图2 - 3 闪光灯帧和普通图像帧 根据这一特点,闪光灯的检测方法如下: 首先,定义两个变量凰和飓如下: h 1 :当前帧和前一帧的像素平均亮度差。 - 2 对每一帧图像,将其前几帧构成一个滑动窗,后几帧构成一个滑动窗, 日,表示这两个滑动窗之间像素的平均亮度差。 对于理想的闪光灯模型,闪光灯所在帧的前后几帧都在同一镜头内,它们的 亮度应该在同一水平,所以飓的值应该为0 。对于理想的镜头切变模型,飓和局 的应当相等。可定义它们之间的口疗d 如式( 2 - 5 ) : 令冬 第二章镜头边界检测 r a t i d :堡 ( 2 5 ) 日1 于是可建立判断规则:如果r a t i o 的值为l ,则认为此处确实存在镜头变换; 如果r a t i o 值为0 ,则认为是闪光灯引起的变化。 在现实的实验中,是设定阈值乃( 0 乃 1 ) 来进行判断:如果r a t i o 的值大于 乃,则判断为镜头变换;反之,若r a t i o 的值小于乃,则判断为闪光灯。在实验过 程中,我们将乃的值设定为0 5 。其算法流程如下图2 - 4 所示。 2 4 实验结果及分析 图2 4 闪光灯检测方法 在实验中,阈值的选取是一个十分关键的问题。在利用直方图检测镜头边界 时,由于镜头的不同,镜头问的差异值也会有较大的变化,所以事先设定好一个 固定的全局阈值并不十分合适,而采用一种自适应的阈值产生方法则更加合理。 首先,建立一个当前帧所在的滑动窗,该窗口包括当前图像帧与其前后各两 个图像帧共5 帧,原因是在我们的实验中我们认为一个镜头所包含的帧数不可能 少于5 帧。计算得到窗口内图像帧像素的平均亮度肛。由崃确定判断镜头边界的 高、低阈值死和乃。根据相关的参考文献以及多次实验得到数据,经过统计和分 析,我们将高阈值死设定为3 5 p ,而低阈值z 则设定为2 p 。 实验对4 段国外新闻进行镜头检测,其中包括2 段m s n b c 新闻和2 段c n n 新 1 6 第二章镜头边界检测 闻,镜头边界检测结果用检全率( r e c a l l ) 和检准率( p r e c i s i o n ) 来评价,定义如下: 检全率= 而 ( 2 - 6 ) 一 正确检测+ 漏检测 。 检准率= 孟 ( 2 - 7 ) 表2 i 新闻视频镜头边界检测结果 表2 - i 是镜头边界检测的结果。从表中可以看到,该算法对于镜头切变的检 测效果还是比较理想的。但对于渐变却比较一般,较多的错误是把一个渐变过程 错误地检测成几个切变,特别是从一帧有内容的图像渐变到黑帧的过程,造成镜 头渐变检测的成功率不是很高。 此外,若两个相邻镜头的内容比较一致,图像的颜色、亮度比较接近,也容 易造成两个镜头的边界的漏检测。若同一个镜头内有物体剧烈运动或存在内容强 烈变化等情况,有时会错误地判断为出现镜头边界。 2 5 本章小结 镜头边界检测是视频内容分析领域中重要的技术,是对视频进行场景分割以 及形成视频摘要和检索的必要准备工作。本章对镜头边界检测技术做了详细的讨 第二章镜头边界检测 论,并且最终选择了一种改进的双阈值镜头边界检测算法进行实现,实验达到了 比较不错的效果,为后面的新闻视频中的镜头分类任务做好了准备。 第三章条件随机场 第三章条件随机场 条件随机场是近几年提出一种新的理论,该理论可用于序列的标注,同时有 克服了传统的隐马尔可夫模型和最大熵马尔可夫模型等模型的一些缺点。本文所 论述的新闻镜头分类方法,就是以该理论为基础所建立的,因此,本章将具体论 述条件随机场理论。 3 1 序列标记问题 在许多科学领域,我们都经常面临对序列进行标记的问题。如d n a 序列分 析( d n as e q u e n c ea l i g n m e n t ) ,蛋白质序列分析( p r o t e i ns e q u e n c ea l i g n m e n t ) , 词性标记( p a r t o f - s p e e c ht a g g i n g ,p o st a g g i n g ) ,组块识别( c h u n k i n g ) 以及图 像分割( i m a g es e g m e n t a t i o n ) 等。 序列标记( s e q u e n t i a ll a b e l i n g ) 是指对于某一观测序肛函,弼,x n , 为其标出隐藏变量序列】,= 乃,y 2 ,踟的技术的总称【l 引。如在自然语言处 理领域中的应用,可以对应为单个字符或单词,舰u 可对应一个单词串的序列。 采用序列标记对自然语言进行处理的任务有很多,例如在词性标记任务中,删 应为单词序列,】,贝0 对应为词性标签。又如在组块识别任务中,壤示单词序列, y 为包含四种标签的序列,其中b 表示组块开始位置,i 表示组块内部,o 表示组 块外部,s 表示单独组块,使用这种序列标记的方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论