




已阅读5页,还剩55页未读, 继续免费阅读
(计算机软件与理论专业论文)基于内容的视频检索中的视频分析技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 基于内容的视频检索中的视频分析技术 摘要 f f 多媒体技术和计算机网络的发展使得我们容易的获得几乎无限的视 l 频信息,于是我们就不得不面l 临一个新的问题:如何有效的组织和管理这 些视频信息,以便更好的使用这些信息。在这个新形势下,基于内容的视 频检索技术( c o n t e n t b a s e dv i d e or e t r i e v a l ) 就逐渐成为了目前多媒 体技术中的研究热点。在实现视频检索过程中需要解决的关键技术很多, 包括选择合适的图像特征,建立良好的目标描述模型以及使用高效的高维 检索方法。但我们首先碰到的是视频内容的分析技术,它是基于内容的视 频检索中的第一个步骤。视频分析是指根据特定目的,从输入的视频中提 取关于内容的评苷关信息的过程,包括镜头分割,关键帧提取,镜头相似度 、 度量等。y 本文主要讨论了这一领域的相关问题。 第一、二章介绍了基于内容的视频检索技术产生的背景及该项课题的 研究意义,并讨论了视频数据的特点及当前的视频分析技术的发展状况。 第三章在介绍多种镜头相似度的度量之后,我们着重讨论了视频基 调,并引入了权值的概念,提出了一种基于赋权的镜头基调的镜头相似度 度量,同时解决了镜头粒度上基调帧对乱序的问题。 第四章则提出了一种将f u z z yc - m e a n s 聚类算法用于镜头分割的方 法,克服了目前镜头分割的两种主要方法的缺陷:镜头改变检测算法难以 上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 准确预设阈值,聚类算法无法预先知道分类的具体个数。 第五章讨论了远程教育领域p p t 视频课件s l i d e 的分割。我们针对第一 类p p t 视频课件提出了对应像素差的统计的分割方法,针对第二类p p t 视频 课件可能存在光照变化干扰,提出了对应像素差的统计与边缘像素数目差 相结合的双测度的方法,较好地在速度和精度间进行了平衡。 第六章则将注意力集中在m p e g 视频的镜头分割。我们从m p e g 一2 码流中 获得d c 图,并将像素域中的像素亮度直方图的镜头分割方法运用到压缩域 中,提出了双阈值的m p e g 压缩视频镜头检测算法。 第七章总结了全文,并对以后的研究工作进行了展望,提出了一种融 合多种技术的视频镜头分割方法的框架。 。v ,7 关键字基于内容的视频检索,镜头分割,镜头相似度度量,光照不变测 - ,_ _ 。_ _ _ 。- 。_ 。_ - 度,直方图,d c 图 。, i i 圭生窒垩奎堂堡主垒苎茎主查查堕塑塑丝鲞! 堕塑塑坌堑垫查一 v i d e oa n a l y s i st e c h n o l o g y i nc o n t e n t - b a s e d v i d e or e t r i e v a l a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g ya n dc o m p u t e rn e t w o r k , w ec a n g e ta l m o s t u n l i m i t e di n f o r m a t i o ne a s i l y , c o n s e q u e n t l y , w eh a v e t of a c e an e w p r o b l e mw h i c h i st oo r g a n i z ea n dt om a n a g ee f f i c i e n t l yt h i si n f o r m a t i o n s oa st ou s et h i si n f o r m a t i o n c o n t e n t - b a s e dv i d e o r e t r i e v a lt h u sb e c o m e st h e h o ty e s e a r c ht o p i co fm u l t i m e d i at e c h n o l o g y i m p l e m e n t a t i o n o fc o n t e n t - b a s e d v i d e or e t r i e v a ln e e dm u c hk e yt e c h n o l o g y , i n c l u d i n gt h ec h o i c eo fp r o p e r t y i m a g e c h a r a c t e r i s t i c s ,e s t a b l i s h m e n t o fw e l l o b j e c td e s c r i p t i o n m o d e l , u t i l i z a t i o no fe f f i c i e n th i 豇d i m e n s i o nr e t r i e v a la p p r o a c h ,a n ds oo n ,i nw h i c h v i d e oa n a l y s i si st h ef o u n d a t i o na n dt h e 血s ts t e p v i d e oa n a l y s i si st h ep r o c e s s o f e x t r a c t i n gi n f o r m a t i o n b a s e dc o n t e n tf r o mi n p u tv i d e oa c c o r d i n gt os p e c i f i c p u r p o s e ,i n c l u d i n g s h o ts e g m e n t a t i o n ,k e yf r a m ee x t r a c t i o n ,m e a s u r e m e n to f s h o ts i m i l a r i t ya n ds oo n t h i st h e s i sm a i n l yd i s c u s s e ss o m e r e l a t e dq u e s t i o n s i nt h i sf i e l d m 圭塑奎望查兰塑主笙壅 墨王堕查堕塑塑堡墨! 盟塑鉴坌堑茎查一 t h ef i r s ta n ds e c o n dc h a p t e r si n t r o d u c e t h eb a c k g r o u n da n dr e s e a r c h s i g n i f i c a n c eo f t h et e c h n o l o g yo fc o n t e n t - b a s e dv i d e or e t r i e v a l f u r t h e r m o r e , w ep r e s e n tt h ec h a r a c t e r i s t i co fv i d e od a t a a n dt h e d e v e l o p m e n to fv i d e o a n a l y s i sa tt h ep r e s e n t t i m e i n c h a p t e r3 ,a f t e ri n t r o d u c i n g s e v e r a lk i n d so fs h o t s i m i l a r i t y , w e e m p h a s i z et h ec o n c e p to f v i d e os i g n a t u r e w ei m p o r tt h es i g n a t u r ef r a m e w e i g h ta n dp r o p o s e t h es h o ts i m i l a r i t yb a s e ds h o ts i g n a t u r ew i t hw e i g h tw h i l e g i v i n g as o l u t i o no fd i s o r d e ro f s i g n a t u r ef l a m ep a i r s i nc h a p t e r4 ,w ea p p l yt h ef u z z yc m e a n sc l u s t e r i n ga l g o r i t h m st os h o t s e g m e n t a t i o n ,o v e r c o m i n gt h e l i m i t a t i o no ft w on o w a d a y sm a i nm e t h o d s : d i f f i c u l t y t o p r i o r s e tt h et h r e s h o l d p r e c i s e l y f o rs h o t c h a n g ed e t e c t i o n a p p r o a c ha n dd i f f i c u l t yt ok n o w t h en u m b e ro fc l u s t e r sp r i o rf o rc l u s t e r i n g a p p r o a c h i n c h a p t e r5 ,w e d i s c u s st h es l i d e s e g m e n t a t i o n o ft h ep p tv i d e o c o u r s e w a r e f o rt h ec o u r s e w a r eb yd i r e c t l yr e c o r d e dt h es c r e e no fc o m p u t e r , w et a k et h em e t h o do fs t l n lo fd i f f e r e n c eo fp i x e lp a i r w h i l e f o rt h e c o u r s e w a r e b y r e c o r d e d p r o j e c t i o n w h i c h m a y b e c o n t a i n si n f l u e n c eo f i l l u m i n a t i o nv a r i a n c e ,w ea d o p tt h ed o u b l em e a s u r e m e mm e t h o d o u rm e t h o d s e e k sab a l a n c eb e t w e e ns p e e da n da c c u r a c y :t h es p e e di si m p r o v e dw h i l et h e a c c u r a c yi sg u a r a n t e e d i nc h a p t e r6 ,w ep a ya t t e n t i o nt os h o ts e g m e n t a t i o no fm p e gv i d e oi n 圭塑奎望查堂堡主丝塞 苎三堕窒堕望塑垒窒生堕塑塑坌堑垫l c o m p r e s s i n gd o m a i n a f t e re x t r a c t i n gd cs e q u e n c ef r o mm p e g v i d e o ,w e a p p l yt h eh i s t o g r a m o fp i x e ll u m i n a n c et ot h ed cs e q u e n c e ,c o n s e q u e n t l y p r o p o s e t h es h o t s e g m e n t a t i o n m e t h o do fd o u b l et h r e s h o l d sb a s e dd c s e q u e n c e i nc o m p r e s s i n gd o m m n i nc h a p t e r7 ,w es u m m a r i z eo u rs t u d yi nt h i sf i e l da n dg i v es u g g e s t i o n s f o rf u r t h e rw o r k o n eo ft h es u g g e s t i o n si saf r a m et oc o m b i n et h ea d v a n t a g e s o ft h ea l g o r i t h m sw h i l et r y i n gt oa v o i dt h ed i s a d v a n t a g e s k e yw o r d sc o n t e n t - b a s e dv i d e or e t r i e v a l ,s h o t s e g m e n t a t i o n ,d c s e q u e n c e ,i l l u m i n a t i o n i n v a r i a n tm e a s u r e m e m ,h i s t o g r a m ,m e 删e m e mo f s h o ts i m i l a r i t y v 附件四 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 t 、 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:影癣碍 日期:即哆年,月夕日 附件五 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上方框内打“4 ”) 学位论文作者签名:旁 癣宰 日期:2 口哆年7 月日 瞥咽 中似 名 年 雠 户 磁 哆 i y i 刻 。 斟 期 上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 第一章绪论 1 1 基于内容的视频检索技术研究的背景 1 1 1 多媒体数据量的急居4 膨胀 随着多媒体技术及i n t e m e t 的迅速发展,人们对多媒体信息的需求日益增加, 人们越来越多接触到大量的图像和视频信息。随之i n t e m e t 上的信息发布方式也 由单一的文本方式逐步变为以图形、图像、动画及视频等多媒体信息为主的表现 方式。目前整个l m t e m e t 环境就像一个大型的分布式数据库,而这个数据库是无 人管理的。如何组织、表达、存储、管理、查询和检索这些海量的数据,是对传 统数据库技术的一个重大挑战。如果没有对图像及视频数据的自动和有效的描 述,大量信息将淹没在信息的海洋之中,无法在需要时被检索出来。因此,如何 将数字图像处理、模式识别技术、计算机视觉技术与传统数据库技术结合起来, 建立基于内容的描述和检索机制,成为目前迫切需要解决的问题。 1 12 数孛视频的兴起 人类接触视频信息的最初形式是无声黑白电影,后来发展到有声彩色电影, 它是人们的一种娱乐方式,人们要观看它就需要到电影院。视频对人们生活开始 产生重大影响来源于电视的发明、广播电视网的建立及电视的普及,在中国这大 约发生在2 0 世纪8 0 年代中期,那时电视成为最受人们欢迎的一种获取信息、接 受教育以及娱乐的方式,人们可以在家中选择收看自己喜爱的节目。可以说,电 视使视频首先成为大部分人生活中不可或缺的信息媒体类型。 模拟电视开创了个视频主宰人们生活的时代。8 0 年代末期计算机虽然早 圭生窒望查兰堡主堡苎 苎主堕窒幽鲎墨主堕塑塑坌! ! 苎苎 已存在,但多种因素使得计算机与视频还是两个分离的概念。首先,那时台式微 机还处于婴儿期,它的c p u 运算能力、总路线带宽、存储系统的容量及i o 吞 吐能力与今天的台式计算机系统是无法相比的。其次,那时数字视频标准尚未制 定出来,无法吸引诸多的厂商投入到视频产品的开发支持上。最后,i n t e m e t 还 未达到像今天这样的空前发展,数字信息网络化传递的规模还处于待发展阶段。 9 0 年代中期以来视频逐渐成为微型计算机处理的一种重要的媒体类型,一 些迄今仍具有广泛影响力的视频标准被制定出来,如1 9 9 2 年i s o 的运动图像专 家组发布的m p e g 一1 运动图像及其伴音标准,于1 9 9 4 年1 1 月发布的m p e g 2 标准。9 0 年代中期,c d r o m 存储设备出现了,大容量的c d - r o m 盘使得视频 数据可以有效的存储并分发,这就是v c d 视频盘。同时在摩尔定律的支配下微 机的c p u 处理能力已经可以对v c d 盘进行完全的软件解压平滑播放了,那时已 经有了奔腾1 6 6 - m m x 。i n t e m e t 在这一时期也得到了空前的发展,有线电视网在 中国趋于普及。各种因素有效地推动了视频数据量的快速增长。 今天,视频媒体类型在丰富人们的生活、教育、娱乐方面起到越来越突出的 作用。人们天天都在接触大量的视频信息,如收看电视广播( 有线、无线) ,观 看新发行的影片以及观看录像带和视频光碟。i n t e m e t 的飞速发展,尤其是宽带 网的建造使得人们交互式访问视频信息的机会越来越多,一些新型的视频服务正 悄然奔向人们的生活,如视频点播、新闻点播、远程教育、数字图书馆等。每一 天世界上的视频信息制作者,如电视台、电影制片商、广告制作商等,都在源源 不断的生产制作出崭新的视频材料。数字影像捕捉设备已走入一些家庭,如数码 相机、数码摄像机等。伴随着计算机性能的不断提高,数字电视的普及,数字广 播电视台的建设与发展,高速宽带网在i n t e r n e t 上所占比重提高,相信不远的将 来数字视频媒体将会大量充斥于人们的生活空间中,数字电视、数字电影、 i n t e m e t 上的丰富多彩的视频服务终将变为现实。 t 2 基于内容的视频检索技术研究的意义 由于目前越来越多的视频出现在各互联网的站点,同时每天都有大量的图像 和视频信息在不断的产生,因此互联网正在成为一个巨大的视频仓库。如何有效 圭塑銮望盔兰堡圭堡苎 兰塑查竺塑塑丝塞生堕堡塑坌i 堕苎 的组织和检索视频信息则成为数据库领域以及信息检索领域中研究的热点问题。 视频检索要求在大量的视频数据中找到所需要的视频片断,但由于视频内容 繁多且复杂,对视频的检索十分困难。视频是目前包含信息量最丰富的数据,对 视频的检索已是实际生活中的一个突出的问题,它的用途非常广泛,包括新闻视 频信息的检索,各类比赛节目的检索,卫星云图变化情况的检索等等。 目前w w w 站点上对视频库中视频信息片断进行寻找时,一般的检索接口 是采用基于关键字的查询方式,或者类似于门户站点的层次类别式的浏览查找。 对于最终查询结果的表达方式,一般为在一个播放窗口中进行线性的播放浏览, 并提供一定程度的类似v c r 的快进、快退功能。这种基于关键字的查询方式是 人们最为熟悉的i n t e m e t 上的信息查询方式。它的优点是对查询请求描述简洁, 查询速度快,可以表达复杂的高级语义等。但它也有一些重要缺陷,首先人们为 视频数据添加文本型的内容描述数据将是一项非常耗时的劳动,因为他将对大量 的待标注的视频内容进行细致地观看和理解,并抽取出合适的供检索用的关键 字,其次产生的描述文字往往带有很强的主观性、不准确性、不完整性,这使得 当一位用户键入一个查找内容a 的关键字b 时,非常可能关键字提取者采用的 对内容a 的描述关键字为b 的近义词c ,或没有使用关键字来刻画关键字b 描 述的有关方面的属性,导致内容的漏检、错检等。 为了解决基于关键字检索存在的问题,必须引入基于内容的视频检索技术。 所谓基于内容的视频检索是指根据视频的语义特征进行检索,以提取出与特征相 符或相似的视频数据。视频数据的外观表现及特点常常难以用符号化方法加以描 述,人们虽然通过视觉理解其特点及含义,但要根据这些特征及语义线索建立视 频数据库并从中检索出某些特定的视频信息,则需要在建立数据库时能够自动或 半自动的完成对视频数据特征及其语义的描述。这需要综合运用图像处理、图像 理解、知识处理、数据库等技术,建立新的视频数据模型,把原始视频信息以独 立的结构化的单元有机的存储起来,采用可靠有效的查询算法,使用户在智能化 查询接口的辅助下完成视频检索工作。 要实现基于内容的视频检索,首先必须进行视频镜头分割、关键帧提取、镜 头聚类,经过这些处理,然后才能通过对视频段之间特征空间的比较来进行视频 段内容的比较。因此视频分析割技术的研究是进行基于内容的视频检索的基础, 圭塑奎望查堂堡主堡壅 茎王堕查竺塑塑丝塑盟塑塑坌堑i ! 查 视频分析结果的好坏将直接关系到检索的准确性,高效性,充分性。另外也关系 到视频数据模型的构建结构,关系到视频数据的可编辑性,可重用性,开放性与 可扩展性。 1 3 国内外相关课题的研究动态 作为多媒体技术中研究的热点之一,国际上还有不少研究机构和个人在从事 基于内容的视频检索的研究,并有大量的有关基于内容的视频检索的文献发表。 其中比较有代表性的有下面几个小组: hj z h a l l 戤e t c 【1 】【2 】【3 】= 提出用多遍策略检测镜头切换,用两个阈值来检测镜 头渐变,实现了一个可用于视频数据分析、检索和浏览的集成系统,其中包括镜 头检测,镜头代表帧选取,镜头间相似性计算等。较早的提出了对镜头进行聚类 的算法,从而得到视频数据的分层结构,方便浏览等操作。 i b m 的q b i c t 4 】:这是在它的静态图像检索系统基础上发展的,把基于统计 直方图和基于灰度差的方法结合起来做镜头检测。对镜头内容的表示,采用基于 图像拼接技术的方法,它用2 * 2 的简化仿射矩阵变换来表示摄像机运动对图像的 影响,并据此完成整个背景图的无缝拼接。 b l y e o 。e r e 1 5 】f 6 】:较早研究了直接对m p e g 压缩视频流进行处理的方法。 引入d c 图的概念,用m p e g 压缩数据流中离散余弦变换的直流分量( d c 系数) 组成微缩图( 称为d c 图) 来代表原图。提出了视频时域中的场景等高层结构的 概念,并用s t g ( s c e n e t r a n s i t i o n g r a p h ) 图建立这些高层结构。 s f c h a n g ,e t c 【7 】 8 】:提出基于运动向量来检测突变,基于渐变的数学模型 来检测渐变,提出面向目标的视频表示方法,通过视频的时空域分割及跟踪,获 得有一定语义含义的目标,从而可以以目标来作为查询和检索的单元。 c m u 的i n f o r m e d i a 9 1 :这个工程的目的是建立数字视频图书馆,它提出了通 过v i d e os k i m m i n g 技术得到视频摘要( s u m m a r y ) 的方法。主要特点是结合了语 音和文字识别技术。 m a r cd a v i s 的m e d i as t r e a m 系统:它的技术思路是采用符号化可视化的语言 来表示视频的内容。在此基础上进行浏览、检索以及再利用。m e d i as t r e a m 使用 圭塑奎垄茎兰堡主堡塞 苎三塑查塑塑竖! 塑望堑坌堑堇苎 户可以借助图标可视化语言来对视频和音频进行预处理,浏览,查询以及再利用。 在处理过程中,m e d i as t r e a m 利用了现有的可靠的信号处理技术来自动分割视频 和音频,当电影被加载到系统后,系统就会检测到镜头的切换( 对视频而言) 和 停顿( 对音频而言) 。系统也可以自动的在不同的时空分辨率下建造视频和音频 的多层次表示。 另外还有美国哥伦比亚大学s h i h f uc h a n g 领导的数字视频和多媒体研究小 组【l o l ,加州大学圣巴巴拉分校的图像处理和视觉研究实验室i i l 】以及华盛顿大 学信息处理实验室的c h u a n gg u 1 2 1 等,还有澳大利亚e d i t hc o w a n 大学的视觉信 息处理研究所【1 3 】以及希腊克利特大学的o e o r g i o st z i r i m s h 】等。这一技术领域也 已经引起了国内的一些研究机构的重视,并且开展了一些研究工作,如微软亚洲 研究院1 1 5 】的网络多媒体组。 1 4 本文的项目背景 目前,针对教学多媒体内容的w e b 应用已成为远程教育的新的研究热点。面 对海量的多媒体教学资源信息,学习者如何通过简单的表达形式,精确快速地定 位到相应的教学内容,如具体的教学多媒体片段,w e b 课件的某一章节、某一知 识点等,成为目前远程教育中教学资源信息查找的一个重要问题。同时,师生们 在访问教学网站进行信息查询和答疑时,日益感到文本输入的繁琐,希望能更多 地通过语音来表达自己的要求,同时也希望能够直接得到语音信息的反馈。随着 移动通讯技术的迅猛发展,接入i n t e r n e t 方式的日趋多样化,这些需求就显得 十分地突出。基于目前的应用需求,我们拟定构建一个基于视频检索、语音自动 答疑的e - l e a r n i n g 学习系统。其项目框架如图卜1 。 羔堂壅羹查兰鍪主鎏苎 鲎蜜塞釜篓整墼塞皇整娄嫠叁i ! ! 堕 爨i - i 基于撼藏瓣索、语音鑫磅罄凝娉e - l e a r n l n g 学习系统糕篆霉 f i g u r e1 - 1 f r a m e w o r ko f e - l e a m i n gs y s t e mb a s e dv i d e or e t r i e v a la n da u d i oa u t o m a t e d a n s w e r i n g 援频搜索一般寄鼹耪方法,基于文本的鄹基予感客的检索。基予文本的检索 方法中文本售塞寒自予图像的橼题、图像周围的文本内容以及整个文档的内容、 视频文孛的元数据以及人为加入的图像关键字等。燃于内容的检索,就是从媒体 数据申抽取出特定的视频特征( 颜色、结构、方向、形状等) ,检索出其有相似 特征的媒体数撅来,它可以在翼深鼷次和更有效逸潮用各种多媒体信惠。前者跑 较简肇,查询方式使糯文本关键字,缺点是w e b 上盼信意阮较多蠢穰象氘,簧我 涤信惑线索磁较难,解决鹃办法是焉元数据来袭示橇颓蠛热入美键字懿方法。爱 赣能够嚣深层次遗避稽检索,不饺萄澈两文本,还霹致用样本銎僚遴行套诲。获 患是鬻缳耨经熬逡较建搂壤对复杂一些。i n t e l 窝徽较等公磷在该矮蠛部进簿了 深久骢繇究窥器发。i n t e l 赞黠摅p e g 搐式静视频流歼发了视频处毽接麟瘁 酣踅( 赫p 鹚p r o g r e s s i n gl i b r a r y ) ,宅对予好聪捺斌豹多媒体提供了缡婿张、 犊臻捷处理,璐景鼗测、媒体数据流撼簧等功能强大龅接翻,使应用技术开发 骜能缀方便地在此基础上进行= 次开发。微软中国研究院对基于内容的多媒体检 索进行了深入的研究,提出了利用网站挖掘( w e bm i n i n g ) 、智能群效分析 ( u n s u p e r v i s e dc l u s t e r v a l i d i t ya n a l y s i s ) 、最短特征线( n e a r e s tf e a t u r e i ,i n e ) 等进行建模的方法,大犬提高了检索的速度和精度。弼外静e g 家族又增 添了个新躯标准:多媒体内容描述接弱m p e g - 7 ,它酶出现在穰大程度上方霞 了多媒薄梭索。静鹳一7 与其宅静繇标准兼容显可戳终魏其它m p e g 文律豹辩箨 6 上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 以增加媒体描述的功能。 在语音识别合成方面,很多公司也都提出了他们的解决方案,包括i b m 的 v i av o i c es d k 、m i c r o s o f ts p e e c hs d k 等,中科大讯飞科技信息有限公司在中 文语音识别合成方面也推出了他们的畅言系列产品。同时业界在x m l 基础 之上,创建了v o i c e x m l 标记语言,拓展了音频信息在w e b 交互中的功能。在这 些重要的研究成果基础上,我们可以研究开发一套功能强大的基于视频检索、语 音自动答疑的e - l e a r n i n g 学习系统,使得我们的远程教学系统能够使任何人都 可以随时随地进行个性化学习。 1 5 本文研究工作及内容组织 本文主要讨论了基于内容的视频检索中视频分析技术,在讲述该领域的发展 动态及基本技术后,针对目前视频分析中存在的几个问题进行了研究,并给出了 改进或新的算法,主要包括镜头基调的镜头相似度度量、利用双测度解决光照变 化问题、基于色彩直方图的f u z z yc m e a n s 算法,p p t 视频课件的分割及m p e g 压缩视频的镜头分割。全文组织如下: 第一章是绪论,介绍了基于内容的视频检索技术研究的背景、意义、国内外 研究动态及本文的项目背景。 第二章是基于内容的视频检索中的视频分析技术,简要介绍了视频数据本身 的特点及目前该领域基本理论与技术,并同时提出了目前存在的几个主要问题。 第三章是基于视频基调的镜头相似度度量,提出了一种赋权的基于视频基调 的镜头相似度度量。 第四章则提出了一种将f u z z yc - m e a n s 聚类算法用于镜头分割的方法。 第五章讨论了远程教育领域p p t 视频课件s 1 i d e 的分割,将对应像素差的统计 与边缘像素数目差相结合的双测度的方法应用在分割中,较好地在速度和精度间 进行了平衡。 第六章则将注意力集中在m p e g 视频的镜头分割,提出了双阈值的m p e g 压缩视 频镜头检测算法。 第七章是总结与展望。 占查奎望奎兰堡主堡茎兰要! 壁型塑竖塑塑坠型盟型型! :! i ! 堑生 第二章基于内容的视频检索中的视频分析技术 2 1 视频数据的特点 2 11 视频数据的层次性结构 正如一本书可以分为章节、段落和语句一样,视频数据也具有一定的结构。 一段视频流自顶向下可分为视频( v i d e o ) 、场景( s c e n e ) 、镜头( s h o t ) 和帧 ( f r a m e ) ,如图2 一l 所示 图2 - i 视频数据层次性结构 f i g u r e2 - 1 h i e r a r c h ys t r u c t u r eo f v i d e od a t a 其中,帧是视频数据的最小单元,是一幅静止的画面,而关键帧是最能代表 镜头的特殊的帧,对镜头的分析主要是对关键帧的分析,所以应尽量选取最有代 表意义的帧作为关键帧,关键帧可以是一个,也可以是多个帧的集合。镜头是视 频数据的基本单位,它是摄像头的一次连续的动作,只能拍摄相邻地点连续发生 的事情。场景由内容相近的镜头组成,从不同的角度描述同一个事件。 结构层中每一个视频层次的数据都可以用一定的属性加以描述。如:场景的 上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 属性,标题,持续时间,镜头数目,镜头1 ,镜头2 ,镜头n 等。镜头的 属性,如持续时间、开始帧号、结束帧号、代表帧集合、特征空间等。帧的属性, 如直方图、轮廓图、d c 及a c 分量图、运动向量等。 2 12 镜头的切换 由于一个镜头只能拍摄相邻地点连续发生的事情,它的描述能力有限,所以 大多数的视频都是由许多镜头通过编辑连接而成的。有的视频切换频繁,镜头的 持续时间短,如电视新闻节目、故事片等。这些视频通过镜头的切换来反映不同 地点或不同时间发生的事情。也有的视频切换较少,每个镜头的持续较长,例如 体育节目的转播。而用于银行保安、交通监管的监控视频几乎没有镜头的切换, 对于这些视频人们关心的主要是镜头内物体的运动。 镜头的切换分为突变和渐变( a b r u p tc h a n g ea n dg r a d u a lc h a n g e ) 两类。 突变是一个镜头直接转换为下个镜头,中间没有时间上的延迟;渐变则是加入 了一些空间或时间上的编辑效果,由前一个镜头慢慢地转换为下一个镜头。渐变 的方式有很多种,而且不断有新的方式出现,常用的有淡入淡出( f a d ei n o u t ) 、 溶解( d i s s o l v e ) 和扫转换( w i p e ) 等几类。淡入是把画面逐渐加强,淡出是把 画面慢慢减弱直至消失;溶解是在上一个镜头画面逐渐减弱的同时,下一个镜头 的画面逐渐加强;扫转换则是从画面的某一部分开始,上一个镜头逐渐地被下一 个镜头代替。 2 1 3 镜头肉的运动 镜头内的运动包括由对象运动导致的局部运动和由摄像头运动导致的全局 运动。 ( 1 ) 对象运动,对象的运动根据实际情况的不同千变万化,但又是视频检 索的一个重要方面,特别是对于监控视频。例如用户可能需要检索某个物体被移 动的视频片段或汽车发动的视频片段,针对这种情况,c o u r t n e y 1 6 j 归纳了以下 几种对象运动,并进行了分析: 上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 出现:一个对象出现于镜头 消失:一个对象从镜头中消失 进入:一个运动的对象出现于镜头 退出:一个运动的对象从镜头中离去 运动:一个原本静止的对象开始运动 停止:一个原本运动的对象停了下来 通过对以上对象运动的分析,可实现对监控视频的基于内容的检索。 ( 2 ) 摄像头的运动,在视频的拍摄过程中,摄像头可以按不同的方式运动, 以达到特定的拍摄效果。摄像头的运动包括: 摇镜头( t i l ta n dp a n ) :摄像头的位置不变,而是以云台为轴心,上下或 左右转动拍摄方位。 转镜头( z - r o t a t i o n ) :以对象为中心,摄像头从不同的位置角度拍摄。 移动镜头( t r a n s l a t i o n ) :摄像头的位置跟着拍摄对象移动,但不旋转角度。 移动又可分为水平移动( h o r i z o n t a lt r a n s l a t i o n ) 和垂直移动( v e r t i c a l t r a n s f a t i o n ) 。 推拉镜头( z o o mi na n do u t ) :推镜头,即从远处开始逐渐推近到拍摄对 象。拉镜头,即从近处开始逐渐拍成全景。 有时一个镜头内有几种摄像头运动,此时一般只分析主要的运动。 2 2 视频特征 特征提取对视频结构的构造和视频的检索都有重要的意义,主要有以下几种 视频特征。 颜色 它是直方图在等许多系统中都广泛使用的特征。在用直方图特征时,一般用 符合人类视觉感知特征的颜色空间,如h s v 颜色空间。另外还有关键帧的主要颜 色和平均亮度特征。颜色矩特征的数学依据是任何颜色的分布均可由它的矩来刻 画,且大部分信息集中在低阶矩上。s m i t h 和c h a n g 1 还提出了颜色集的概念, 首先将r g b 色彩空间转化为视觉上的致空间,如h s v 空间,然后量化为色彩条。 l o 上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 爨化爝的色彩空闻中的颜色黪选择矮定义先颜色繁。藏篷集特,薤肉量楚二叉鼹, 可构造二叉树以进行快速检索。 纹理 共生矩阵表示是2 0 世纪7 0 年代由h a r a i c k t l 8 1 提出的,用来探讨灰度级的 纹理的空间依赖关系。矩阵由像素之间的方向和距离构造,并从矩阵中提取有意 义的统计作为纹理特征表达。翳外f o u r i e r 频谱特性、m a r k o v 随机场模型等表 示方法氇楚在统计意义上的籀述。纹理特征表达是t a m u r a 等人在对入熊对纹理 静视凳感知熬心淫学研究豹基磷上掇裔静,在视觉上和心理上都是有意义的。共 窍6 个援觉纹理特援:c o a r s e n e s s ,c o n t r a s t ,d i r e o t i o n a i i ty ,l i n el i k e n e s s , r e g u l a r i t y ,r o u g h n e s s 。照羲小波理论戆建立,c r o s s 赫i t e 蜉l 簿入提出了基 于小波的纹理表达。 形状 形状分析首先需鼹进行图像分割,把对象提取出来,再用备种方法进行题配 测量。形状的表达应对位移、旋转、比例变化具有不变性。 基于边界的形状特征,如傅里叶描述,用较少的参数可以包含复杂的边界。 免在边界上任塞选定一个初始点,并沿边界移动,得到一个复函数 甜g ) = x g ) + 抄0 ) 一由它便可以求得傅里叶描述子,且与初始德的选取无关。基 予区域的形状特征有矩不变羹溯等。最近的表达方法还有c h a m f e r 嫂配f 2 ”, r o r g e r f o s 擒出的层次c h a m f e r 匹配算法,以及w a l l a c e 和m i t c h e l l 提出的局 部彤状分析簿法的3 d 形状袭达。 运动特镊 运动特镊是褪叛镜头豹霍要特 蒌,反浚了褫频静辩城变纯,遣怒用视频铡子 进行检索的鬟要杰容。 运动分柝的方法中基予光溅志程,基予块、像素递归法、爨时蘩法等计算璧 非常大,t o n o m u r e b 2 1 提出了x 线一断层分板法,姆整令视频序列没懿阕辕避霉切 片,从切片图像中分析镜头的运动。p a t e l 和s e t h i 【2 3 l 提出利用m p e g 中的b 黢p 帧的运动向量,而避免光流计算和块甄配。首先幂用宏块的运动向量得到一有9 个分量的运动特征向量,再用这个特征向纛判断镜头的运动。z h a n g s l 用镜头每 个桢的平均亮度和主要颜色的均值及方差作为镜头的运动向量度量,在新闻视频 上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 数据中取得了较好的效果。 其它 其它的特征主要有物体间的方位关系,特征点( 即满足一定要求的像点,如 曲线交点) ,基于目标的特征等,目前研究得较少。 2 3 基于内容的视频检索中的视频分析技术 23 1 视频分析的一般过程 基于内容的视频分析技术是指,根据特定的目的,从输入视频中提取关于内 容的相关信息的一切处理过程。由于视频数据的以上特点,只有将视频数据转换 成某种结构化的数据,对它的检索才有可能。为了实现基于镜头内容的视频检索, 视频分析的基本过程般包括三个步骤。第一过程是镜头分割,通过对视频帧的 比较,把视频分割成基本的组成单元镜头;第二个过程中,每一个分割得到 的镜头片断抽象为一个或多个代表帧;最后,用颜色、纹理、形状等视觉特性来 表示代表帧的内容,用于衡量视频片断得相似性,这时可借用静止图像检索中的 现有方法。视频分析的基本过程如图2 2 所示。 图2 - 2 视频分析的基本过程 f i g u r e2 - 2 b a s i c p r o c e s s e $ o f v i d e oa n a l y s i s 上海交通大学硕士论文 基于内容的视频检索中的视频分析技术 23 2 像素域中的镜头边界检测 所谓像素域,是相对于变换域而言的,就是指空间- 时间域。在像素域中, 视频数据以人们日常所见的形式存在,具有人们习惯的特征,例如:颜色、纹理、 形状、运动矢量、亮度等。在像素域中进行检测实际上就是利用这些特征来获取 一段视频序列的剪辑。下面列举了些用于像素域镜头边界检测的技术和方案。 ( 1 ) 直方图法 最先提出的镜头边界检测方法是基于颜色直方图差的方法。它的基本思想是 同镜头内的帧在颜色特征上没有显著变化,因此,h a r dc u t 和其他一些持续时 间较短的转换可以用连续帧的颜色直方图差是否出现超过阈值0 的单一峰值进 行检测。直方图法又可分为两种,种是计算两帧直方图的差值( d o h ) ,另一 种则是计算两帧差值的直方图( h o d ) 。d o h 法在l k 尺度上测量两帧直方图的 差值,而h o d 法则是先获得两帧之差的直方图,然后再度量两帧之间的变换。 如果有很多像素改变了位置,那么两帧之间变化的程度就会很大。d o h 技术对 局部对象运动不敏感,但是对全局的摄像机运动很敏感。而h o d 技术对局部对 象运动的敏感程度要高于对全局摄像机运动的敏感程度。直方图技术会在两种情 况下无效:在不同镜头间的直方图类似;一个镜头内部的直方图因为光照条件的 改变而有所不同,例如火焰的突然出现。 利用一个阅值,难以检测出突变和渐变这两种类型的场景检测。如果阈值过 小,就会出现过检测,而如果阂值过大,就无法检测出渐变的场景切换。因此 s t e p h e nw s m o l i a m d 和h o n gj i a n gz h a n g 提出了两通道双阈值法剐。在第一个 通道中使用高阈值( t h ) 来检测突变切换。在第二个通道中使用较低的闽值( t j ) , 任何差值大于这个阈值的帧都被认为是潜在的镜头转换处。一旦标示出起始帧, 就在累积差的基础上将起始帧与后续帧相比较。当这个值达到了较高的阈值( t h ) 水平时,就说在这一帧发生了镜头转换。如果这个值落在连续的帧之间,那么潜 在的转换帧就被剔除,搜索重新开始。但这种方法依然可能错过实际的渐变转换, 曹莉华等又提出y - - 次比较的改进方法( 2 5 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/IEC 20059:2025 EN Information technology - Methodologies to evaluate the resistance of biometric systems to morphing attacks
- 内蒙古大学数学试卷
- 奶粉品尝活动方案策划(3篇)
- 米字支撑施工方案(3篇)
- 鹤壁路面开槽施工方案(3篇)
- 感恩业主品牌活动策划方案(3篇)
- 挖碴装车施工方案(3篇)
- 药械知识考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期期中考试道德与法制考题及答案
- 新材料作文题目及答案
- 《风光摄影技巧》课件
- 《Gitlab使用流程》课件
- 与供应商的合作与谈判
- IT技术支持与服务响应机制建设指南
- 智慧城市行业智慧安防方案
- 二氧化碳捕集、运输和地质封存 - 词汇 - 共性术语 征求意见稿
- 2024年房县人民医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 有机合成实验室技安规程(3篇)
- 系统思维与系统决策:系统动力学(中央财经大学)知到智慧树章节答案
- GB/T 5534-2024动植物油脂皂化值的测定
- DBJ52T 096-2019 城市轨道交通土建工程施工质量验收标准
评论
0/150
提交评论