已阅读5页,还剩48页未读, 继续免费阅读
(计算机软件与理论专业论文)基于内容的视频检索技术研究及原型实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京理工大学硕士学位论文 基于内容的视频检索技术研究及原型实现 摘要 基于内容的视频检索系统是将视频结构化并依赖视频数据中的视觉特征以及时 空特征进行相似度衡量的系统。 本文对视频检索系统的实现技术,从视频结构化到镜头的边界提取,还有关键帧 的选择以及特征抽取和匹配算法,进行了研究。为了规范视频特征的抽取,本文研究 了m p e g 7 规范的内容,特别是其中的视觉描述子。并进一步对相机运动和运动轨迹 进行了研究和探讨。 对于静态视觉特征的抽取,本文结合使用了m p e g 7 中的可扩展颜色描述子、 相似纹理描述子和轮廓形状描述子对图像进行描述,给出了抽取以及匹配算法。实验 表明这种方法具有很好的稳健性。在时空特征方面本文选用了运动活动性描述子与静 态视觉特征结合。 本文实现了一种基于内容的视频检索系统原型,依据m p e g 7 标准抽取视频的 视觉和时空特征,具有镜头库及特征库的支持。实现了特征的抽取、入库以及基于查 询实例的相似性查询,将视频按相似度返回给用户,同时还可以按照运动活动性强度 实现的视频分类浏览。 关键字:m p e g 7 ,视频检索,描述子,特征抽取 摘登碗士论文 a b s t r a c t c o m e m b a s e dv i d e or e t r i e v a ls y s t e mi sas y s t e mw h i c hs t r u c t u r e st h ev i d e od a t aa n d u s e st h es t i l lf e a t u r e sa n dm o t i o nf e a t u r e st or e t r i e v a lw a n t e dv i d e o sb ys i m i l a r i t yd e g r e e t h i sp a p e rd o e sr e s e a r c ho nt e c h n i q u eo fv i d e or e t r i e v a ls y s t e m ,i n c l u d i n gs t r u c t u r i n g v i d e o ,s h o tb o u n d a r yd e t e c t i o n ,k e y f r a m es e l e c t i o na n df e a t u r ee x t r a c t i o na n dm a t c l l i n g a l g o r i t h m s i no r d e rt om a k ef e a t u r ee x t r a c t i o ns t a n d a r d ,t h i sp a p e rd o e sr e s e a r c ho n m p e g 一7s t a n d a r d ss c o p e ,a p p l i c a t i o na r e a sa n da l lv i s u a lc o m p o n e n t s a n df x l r t h e r e x p l o r e st h ec a m e r am o t i o na n dm o t i o nt r a j e c t o r y i n t h i sp a p e r , t h es c a l a b l e c o l o r , h o m o g e n e o u st e x t u r e a n dc o n t o u r - b a s e ds h a p e d e s c r i p t o r sa r eu n i t e dt od e s c r i b et h ep i c t u r e s n l ee x t r a c t i n ga n dm a t c h i n ga l g o r i t h m sa r e g i v e ni ni t t h ee x p e r i m e n t ss h o wt h a tt h i sm e t h o di sr o b u s t m o t i o na c t 沁i t yd e s c r i p t o r w a sc h o s e na st h em o t i o nf e a t u r et oc o m b i n ew i t ht h et h r e es t i l lf e a t u r e st od e s c r i b et h e v i d e o ac o n t e n t e d b a s e dv i d e or e t r i e v a ls y s t e mm o d e lw a si m p l e m e n t e di nt h i sp a p e r i t s e x t r a c t i o no fs t i l la n dm o t i o nf e a t u r e sa l eb a s e do nt h em p e g 一7s t a n d a r d a n dt h es y s t e m m o d e lh a ss u p p o r t so fs h o td a t a b a s ea n df e a t u r ed a t a b a s e i ti m p l e m e n t e df e a t u r e s e x t r a c t i o n ,p u t t i n gt h e mi n t od a t a b a s e s ,q u e r y b y e x a m p l ea n dr e t u r no fv i d e o sb y s i m i l a r i t yd e g r e e a l s oi tc a nb r o w s ev i d e o sb ym o t i o na c t i v i t yi n t e n s i t y k e y w o r d s :m p e g 一7 ,c o n t e n t - b a s e dv i d e or e t r i e v a l ,d e s c r i p t o r s ,f e a t u r ee x t r a c t i o n u 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获褥任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名t瑚世年占月;日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:兰星力旺年占月三日 南京理工大学硕士学位论文 基于内容的视频检索技术研究及原型实现 1 绪论 1 1 研究背景 由于数字视音频编码技术的发展、网络带宽的增大和存储费用的减少,人们接触 到大量的多媒体信息。多媒体信息包括视频、音频、图像、动画等多种形式。其中, 视音频是最复杂、庞大的数字媒体形式,也是最常用的媒体形式。多媒体信息处理和 检索技术是海量多媒体组织管理、编辑使用和交互服务所需的关键技术。在多媒体资 料的管理方面,媒体信息的自动检索能力是非常重要的。传统的基于关键字或者文件 名检索的方法显然不适合数据量庞大、结构复杂的视频数据。基于内容的视频检索技 术就是为了满足这方面的需求而迅速发展起来的,它通过对视频数据中所包含的视觉 内容进行分析和特征提取,使人们可以直接利用计算机搜索符合主观感受的相似内容 片段。 基于内容的多媒体检索技术具有广阔的应用前景,例如:广播电视快速浏览、多 媒体电视制作、v o d ( v i d e oo nd e m a n d ,视频点播) 的在线选择、电子商务以及相册管 理等等。于是近年来基于内容的多媒体检索技术有了长足的发展。 现有的视频检索系统可以归纳成以下三类口o j : 1 、基于目录型文本数据。在这种类型中,使用文本对视频内容( 如题目、摘要 和主题) 和视频产品中涉及的人物( 导演、出品日期和主要演员等) 进行标注。对这 种视频内容的检索是通过文本匹配完成。 2 、基于视频结构数据。原始的视频数据是非结构的数据流,一次在这种检索系 统中,为原始数据流建立了一个在语义上和结构上均合理的可行层次结构。用户可以 通过这个层次结构对视频数据进行查询。应该讲,这种方法更适合进行视频浏览,而 不是视频查询。 3 、基于特征数据。这是本文讨论的重点。在这种方法中,所谓的特征数据分为 静态和动态两种,静态特征数据是存在于一系列关键帧中,通过抽取这些特征数据再 比较相似度,找到相应的视频;而动态的特征数据则是存在予镜头中的,需要将整个 镜头作为一个整体进行分析和特征抽取,匹配时也是以镜头为单位进行。 就目前而言,基于目录型文本数据的视频检索需要人手动对视频进行标注,工作 量极大,严格来说并不适合大范围的检索;基于视频结构数据的视频检索,前面已经 提到更适合进行视频浏览。 本文所讨论的是基于特征提取的视频检索。在之前的研究中,基于这种检索方式 最多的就是对视频进行分割,提取每个镜头的关键帧,然后对关键帧进行分析、提取 视觉信息。但是这样的视频检索并不完善,因为视频想对予图像的最大区别就是运动, l 绪论硕士论文 因而来对视频运动特征的抽取就显得非常重要,本文就结合了静态和动态特征的抽 取,配合一定的相似性查询算法,实现基于内容的视频检索。 1 2 研究现状 目前国外已有不少视频检索的系统,下面列举一些比较有名的系统: q b i c 系统q b i cq u e r yb yi m a g ec o n t e n t 是由i b ma l m a d e n 研究中心开发 的,是“基于内容”检索系统的典型代表。q b i c 系统允许使用例子图像、用户构建的 草图和图画及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息,对大型图 像和视频数据库进行查询。视频方面主要利用了颜色、纹理、形状、摄像机和对象运 动来描述内容。 v i s u a l s e e k 系统v i s u a ls e e k 是美国哥伦比亚大学电子工程系与电信研究中心图 像和高级电视实验室共同研究的、一种在互联网上使用的“基于内容”的检索系统。它 实现了互联网上的“基于内容”的图像,视频检索系统,提供了一套供人们在w e b 上搜 索和检索图像及视频的工具。 v i d e o q 系统v i d e o q ( h t t p :w w w c t r c o l u m b i a e d u l v i d e o q ) 是哥伦比亚大学研究 的一个项目,它扩充了传统的关键字和主题导航的查询方法,允许用户使用静态视觉 特征和时空关系来检索视频。它有以下几个特征:集成文本和视觉搜索方法;自动的 视频对象分割和追踪:丰富的视觉特征库,包括颜色、纹理、形状和运动;通过w w w 互联网交互查询和浏览。 w e b s e e k 系统 w e b s e e k ( h t t p :w w w c t r c o l u m b i a e d u w e b s e e k ) 是一个面向 w w w 基于内容的图像视频检索和分类。w e b s e e k 通过一个w e b 自动引擎收取网 络中的图像和视频。该引擎能够对视频或图像自动分析和建立索引,并可以使它们归 入一定的主题类别中。该系统的创新之处在于它能够有机地结合文本和视觉特征来提 供对图像视频地查询和分类。整套系统包括了某些功能强大的模块,主要有基于内 容的图像检索功能,根据用户相似度反馈的查询优化,视觉信息的自动提取,查询结 果视频图像的缩略表示,图像,视频的主题浏览功能,基于文本查找功能以及对查询 结果的操作( 如插入、删减、合并等) 。目前该系统中有来自予w e b 的超过6 5 0 0 0 0 幅 图像和超过1 0 0 0 0 段视频。 这些系统都能较好地实现基于内容的视频检索。但是这些系统中的视频数据的表 示格式并不相同,使得对应的描述信息也不一致。这就使得多个系统之间的元数据之 间的交互相当的困难。而且,系统的检索效果往往与数据表示和具体应用相关,这种 各个系统之间的互操作性的缺乏,是一很大的缺陷。 我们看到国外在视频检索方面已经做出了不少成效,但在国内还没有完整的此类 系统的开发,均为对各个技术点的研究。 2 南京理工大学硕士学位论文基于内容的视频检索技术研究及原型实现 1 3 本文主要工作 本文的主要工作包括:对当前的基于内容的视频检索系统的实现技术,从视频结 构化到镜头的边界提取,还有关键帧的选择以及特征抽取和匹配算法,进行了研究。 为了规范视频特征的抽取,本文还研究了m p e g 7 规范的内容,特别是其中的视觉描 述工具,包括颜色、纹理和形状以及运动轨迹描述子和相机运动描述予。 对于视觉特征的抽取,本文选用了m p e g 7 中的可扩展颜色描述子、相似纹理描 述子和轮廓形状描述子,给出了抽取以及匹配算法。将这三个视觉特征相结合对关键 帧图像进行描述,实验表明这种方法具有很好的稳健性。在时空特征方面本文选用了 运动活动性描述子,这是对视频段总体运动情况的描述,视觉特征与之结合使用具有 更好的效果。 本文实现了一种基于内容的视频检索系统原型,依据m p e g 7 标准抽取视频的视 觉和时空特征,具有镜头库及特征库的支持。实现了特征的抽取、入库以及基于查询 实例的相似性查询,将视频按相似度返回给用户,同时还可以按照运动活动性强度实 现的视频分类浏览。 1 4 本文的结构与组织 本文主要是根据m p e g 7 标准,由其提供的描述子机制来抽取视频特征,包括静 态特征与动态特征。 第一章介绍了本文的研究背景,现有视频检索系统的分类。第二章将着重介绍 m p e g - 7 标准视觉部分的各个插述子,另外还研究了抽取相机运动描述子的相关工作 以及运动轨迹描述子的抽取及应用。而第三章将总体介绍视频检索系统的框架,并简 单介绍各部分的实现机制。第四章着重描述三个静态特征描述予的抽取,分别为可扩 展颜色描述子、相似纹理描述子以及基于轮廓的形状描述子,通过抽取这三个静态特 征可以基本描述一个图像。第五章将介绍几种动态特征的抽取,主要介绍了运动活动 性描述子的相关工作、本系统中使用的抽取方法以及此描述子的应用,并给列出了实 验结果。本文的第六章则给出了整个系统原型的实现。 m p e g - 7 的视频描述硕士论文 2m p e g 7 的视频描述 m p e g 一7 是由m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p 移动图像专家组) 制定的一 个i s o ,i e c 标准。m p e g - 7 正式名称是 m u l t i m e d i a c o n t e n td e s c r i p t i o ni n t e r f a c e ,目 的在于为描述多媒体内容提供一个标准。本章将介绍m p e g 7 的一些基本情况,并详 细介绍视觉部分的描述子。除了m p e g 7 范围内的描述子描述,本章还将深入研究摄 像机运动和对象运动轨迹两个运动描述子。 2 1m p e g 7 概述 m p e g 是动态图象专家组的英文缩写,这个专家组始建于1 9 8 8 年,专门负责为 c d 建立视频和音频标准,其成员均为视频、音频及系统领域的技术专家。由于 i s o i e c l l 7 2 压缩编码标准是由此小组提出并制定m p e g 由此扬名世界。对于今天我 们所范指的m p e g - x 版本,是指一组由i t u 和i s o 制定发布的视频、音频和数据的 压缩标准。 继m p e g 一1 、2 、4 之后,要解决的矛盾就是对日渐庞大的视频、声音信息的管理 和迅速搜索。针对这个矛盾,m p e g 提出了解决方案m p e g - 7 。m p e g 7 力求能够快 速且有效地搜索出用户所需的不同类型的多媒体资料。该工作提议于1 9 9 8 年l o 月提 出,于2 0 0 1 年最终完成并公布。m p e g - 7 对各种不同类型的多媒体信息进行标准化 的描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。该标准不包括 对描述特征的自动提取,它也没有规定利用描述进行搜索的工具或任何程序。m p e g 7 可独立于其它m p e g 标准使用,但m p e g - 4 中所定义的对音、视频对象的描述适用 于m p e g 一7 ,这种描述是分类的基础。另外我们可以利用m p e g 7 的描述来增强其 它m p e g 标准的功能。 m p e g - 7 的应用范围很广泛。既可应用于存储( 在线或离线) ,也可用于流式应 用( 如广播、将模型加入i n t e m e t 等) 。它可以在实时或非实时环境下应用。如:数 字图书馆( 图像目录,音乐字典等) ;多媒体名录服务( 如黄页) :广播媒体选择( 无 线电信道,t v 信道等) :多媒体编辑( 个人电子新闻业务,媒体写作) 等。 m p e g - 7 标准包括了下面几个部分:系统( s y s t e m ) 、描述定义语言( d d l ) 、音频 ( a u d i o ) 、视觉( v i s u a l ) 、多媒体描述模式( m d s ,m u l t i m e d i a d e s c r i p t i o ns c h e m e s ) 、参 考软件( r e f e r e n c es o f t w a r e ) 、一致性原则( c o n f o r m a n c e ) 、抽取和使用八个部分。由于 本文只涉及到视觉特征的抽取及应用,在此只介绍视觉部分。 2 2 视觉描述概况 4 南京理工大学硕士学位论文基于内容的视频检索技术研究及原型实现 m p e g 7 视觉描述( 如图2 1 ) 包含有以下几种基本的视觉特征:颜色,纹理,形 状,运动,定位以及人脸检测。对每一种视觉特征都有多个基本的和高级的描述子。 本章的剩余部分将详细介绍视觉特征部分 2 6 1 。 图2 1m p e g 7 视觉描述 m p e g 7 的视频描述硕士论文 2 3 颜色描述 2 3 1 颜色空间 这种描述方法定义了某种应用中所使用的颜色空间,通常与其他描述方法相结 合,如主颜色分量或颜色直方图。目前所采用的颜色空间主要包括:r g b 、j v 、 h s v 、h m m d 、灰度和r g b 空间的任意线性变换。目前大部分可视数据以r g b 和 h u v 格式存在,因此,在缺省情况下,这两种颜色空间都被支持。另外,由于s h v 和h m m d 更加接近于人的视觉观念,所以在许多搜索的应用中,它们能够获得更好 的效果。当颜色空间包括r g b 的任意线性变换空间时,它同时也支持许多其他的颜 色空间。灰度空间是颜色空间的重要补充部分,这在使用如直方图和单色图像时更显 得重要。 2 3 2 颜色量化 颜色量化描述子用来描述可视数据的颜色特征,它可以用来实现对大型数据库的 搜索以及检索应用。颜色直方图是颜色空间、颜色量化和直方图的结合,对这些基本 元素灵活、普遍的定义使颜色直方图本身变得非常灵活,因此,它的应用范围十分广 泛。试验结果表明:采用2 5 6 级的颜色直方图可以非常精确的表示图像的全局颜色特 征,但在通常情况下,6 4 级已经能够获得足够的表示精度。 2 3 3 主颜色 这个颜色描述符最适合表示局部( 物体或是图像区域) 特征,此处,几种颜色就 足以表现感兴趣区域的颜色信息。对整幅图像也适用,比如,旗帜图像或者彩色商标 图像。颜色量化是在每个区域或图像中抽取小数目的代表颜色。区域中的每个量化了 的颜色都计算相应的百分比。完整描述符的空间一致也定义了,被用在相似检索中。 2 3 4 可扩展的颜色 可扩展的颜色描述符是h s v 颜色空间( 由h a a r 变换编码而成) 中的一个颜色直 方图。它可以根据位数量的不同或不同的数据速率而采用不同的二进制位表示精度进 行扩展。可扩展的颜色描述符对图一图匹配和基于颜色特征的检索都是有用的。检索 精度随着表示中使用的位的数目而增加。在本文的4 1 节将有详细描述。 2 3 5 颜色的布局 6 南京理工大学硕士学位论文基于内容的视频检索技术研究及原型实现 这个描述符有效表示了视觉信号的一个紧凑的颜色空间分布。这种紧凑使得视觉 信号高检索匹配功能能够用很少的计算度来有效实现。它提供图图匹配以及快速的 序列序列匹配,序列匹配需要很多重复性的类似计算。它也提供非常友好的用户界 面:可以使用手写草图查询,因为这个描述符不依赖颜色特征的布局信息。草图查询 在其他描述符中是不支持的。 2 3 6 颜色结构 颜色结构描述符是一个颜色特征描述符,同时捕捉颜色内容( 和一个颜色直方图 相似) 和关于这个内容的结构信息。它的主要功能是图图匹配,主要用于静态图的 检索,图中可能包含单个的矩形帧或是任意形状的,也许不连续的区域。抽取方案将 颜色结构信息嵌入到描述符中,具体方法是考虑在图像中滑过的一个结构单元( 8 8 象素) 中的所有颜色,而不是考虑单个象素。与颜色直方图不同的是,这个描述符可 以区分两个图像,这两幅图中指定的颜色有着相同的量但是这个颜色的象素组成的结 构不同。颜色值是在d o u b l e c o n e dh m m d 颜色空中表示的,此颜色空间被非均匀的 量化成3 2 、6 4 、1 2 8 或2 5 6 二进制文件。每一个b i na m p l i t u d ev a l u e 是由一个8 - b i t 代 码表示的。颜色结构描述符提供额外功能,相对于普通的颜色直方图它改进了对自然 图片的基于相似度检索的操作。 2 3 7g o f g o p 颜色 帧组和图片组颜色描述符扩展了为一个静态图定义的可扩展颜色描述符,成为一 个视频片断或一组静态图的颜色描述。额外的两个位定义了颜色直方图在没有进行 h a a r 转换之前是如何计算的:平均、中值或相交。均值直方图就是将直方图的每项 在所有帧或每个图片上累加后求平均。中值直方图是计算所有帧或每个图片的中值。 这个方法与均值直方图相比,对于舍入误差和图像亮度值中轮廓的存在有着更好的健 壮性。相交直方图是计算所有帧或每个图片的最小值,以捕捉一组图片中“共有”的 颜色特征。注意,直方图交集是一个标薰测量,所以从中得到比较困难。用来比较可 扩展颜色描述相似度的方法或距离测量法可以运用于比较g o f g o p 颜色描述子上。 2 4 纹理描述 有三种纹理描述符:相似纹理( h o m o g e n e o u st e x t u r e ) 、边缘直方图( e d g e h i s t o g r a m ) 和纹理浏览( t e x t u r eb r o w s i n g ) 。 2 4 1 相似纹理 m p e g 7 的视频描述硕士论文 相似纹理显现为一个对于查找和浏览大量相似模式的一个重要视觉参数。在本文 的4 2 节中将有详细说明其抽取算法和匹配方法。 2 , 4 2 纹理浏览 纹理浏览描述子对于表现纹理特征的类型浏览很有用,并且它最多仅需1 2 比特 信息。类似于人的特征区分,这个描述子从结构性、分布粒度和方向性等方面表现纹 理的感知特征。 2 , 4 3 边缘直方图 边缘直方图描述符表示边缘的五种类型的空间分布,即四个方向边缘和一个非方 向边缘。由于边缘在图像理解中起重要的作用,它可以用相似语义来检索图像。因此 它主要用于图一图匹配( 使用例子或是轮廓) ,特别是没有统一边缘分布的自然图像。 在此,如果边缘直方图描述符和其他描述符,例如颜色直方图描述符结合的话那么图 像检索性能能够被大大的提高。另外,仅对于这个描述符的最佳检索性能可以通过使 用直接从边缘直方图描述符中产生的半全局和全局直方图来达到,也可以使用用于匹 配过程的局部的直方图来达到。 2 5 形状描述 2 , 5 1 区域形状 一个对象的形状可以包含单个或者是一组区域。对象的每个区域内部可咀包含一 些孔,或者是这些孔恰好与区域的边界相接壤。 2 , 5 2 轮廓形状 基于轮廓的形状描述所描述的对象或区域的形状特征是以它的轮廓线为基础,它 常常被称为曲率尺度空间表示,重在描述对象的具有感知意义的形状特征。在本文的 4 3 节中将详细介绍轮廓形状的抽取算法和匹配方法。 2 5 3 三维形状 三维内容已经成为信息系统的重要特征之一,三维信息主要表示为多边形网格。 三维形状描述符用三维表面的一些局部属性对三维网格模型进行形状描述。 在m p e g - 7 中利用形状谱提取三维形状描述符。首先,计算三维网格模型中每一 南京理工大学硕士学位论文 基于内容的视频检索技术研究及原型实现 个网格顶点的形状系数,然后对整个三维表面的形状系数进行直方图统计得到形状 谱。 m p e g 4 已经讨论了三维形状描述符并提出了三维网格模型编码技术。在 m p e g 7 标准的框架中,要求有基于内容访问三维信息的工具,用以查找、检索和浏 览三维模型库。 2 6 运动描述符 2 6 1 摄像机运动 对于一个给定的视频序列,此描述子用来描述由于摄像机运动所产生的全局运 动。以三维相机模型为基础,支持熟知的摄像机的八种基本运动以及它们的任意结合 模式。 相机运动有不同的类型:绕三个轴的转动,沿x 轴、y 轴的平移等。还有可以 看作沿z 轴的平动的放大和缩小。具体有以下几种:固定不动( f i x ) 、水平摇动( p a n ) 、 水平平动( t r a c k ) 、上下摇动( t i h ) 、垂直平动( b o o m ) 、焦距缩放( z o o m ) 、前后 进退( d o l l y ) 、镜头旋转( r o l l ) ,如图2 2 所示。 估计相机运动对于视频分析算法、索引和检索、科学电影分析来说都很重要。从 艺术角度来说,摄像机运动常在电影工业中作为一种表达元素。最近一些研究人员【1 0 l 还提出了“计算媒体美学”这一术语,旨在消除低层特征抽取算法和用户的高层查询 之间的语义差异。 日,n 呻t 潼 密谗 舯渺 图2 2( a ) c a m e r at r a c k ,b o o m ,a n dd o l l ym o t i o nm o d e s ,( b ) c a m e r ap a n ,t i l ta n dr o l m o t i o nm o d e s 2 6 1 1 描述符 每个子镜头中的所有帧都只有一种特定的相机运动类型,这种相机运动类型可以 是单个的也可以是混合的,这种子镜头就是相机运动描述子的基石。每一块基石都由 以下几个因素描述:其开始时间、持续时间、通过将持续时间的片断和”一个给定的时 m p e g 7 的视频描述硕士论文 间窗口的尺度相比较得到的图像运动速度、扩张中心( f o c u s ,o f - e x p a n s i o n f o e ) 以及收缩中心( f o c u s o f - c o n t r a c t i o i i f o c ) 。这个描述子描绘了这些基石的集合,并 且可以选择不同相机运动类型的混合模式或是非混合模式。 在混舍模式中,基础操作在一个绘定的时间窗臼内( 例如一个视频镜头或是场景) 通过确定他们的重要性( 它们的持续时间和速度) 来联合描述,使这些运动类型同时 发生,捕捉了相机运动参数的全局信息,而不考虑细节的时间信息。 另一方面,在非混合模式中,基础的操作是不关联的,通过确定他们某时刻的准 确位置和速度,描述为独立的纯运动事件。也就是说非混合模式捕捉纯运动类型以及 它们在一段时间间隔内的联合。我们将多神运动类型同时发生的情况描述为纯运动类 型的一个联合。在这种描述模式下,一个特定的基本段的时间窗口可以和另一个基本 段的时间窗口重叠。有了这两种模型就可以描述在不同粒度下随时间变化的相机运动 信息。 每个相机运动段( 不管是混合或非混合模式) 都由它的运动类型( m o t i o nt y p e ) 以 及三个参数表示【2 l 】:存在的时间比( f r a c t i o n a lp r e s e n c e ) 、运动量( m o u n to fm o t i o n ) 和 扩张收缩中心( f o c u so f e x p a n s i o n c o n t r a c t i o n ) 。 存在的时间比就是在一个给定描述的时间间隔中,某一个运动类型的持续时间和 总时间之比。 运动量描述了一个特定的运动类型( 如:变焦) 在有其存在的一个时间间隔内有“多 少”。这是对由相机引起的全局运动的一个原始而且数值性的测量方法。对任何一个 运动类型,我们将运动量定义为图像的平均部分,图像是两个连续帧之间由给定运动 类型导致的覆盖或非覆盖型,用百分比表示。 存在的时间比和运动量都是独立于视频编码格式、帧率( 例如2 5 ,3 0 h z ) 和空间 定义( 如q c i f ,c f ) 而定义的,完成了m p e g 7 的一个重要要求。 扩张收缩中心( f o e 和f o c ) 是前两个参数的一个补充。我们将f o e 和f o c 作为 一幅图中一个想象的点,图中所有的速度方向都汇聚于这一点,或是都从这一点发散 出去的。f o e f o c 参数可以用于( 相关时,如在一个变焦序列中) 定位场景中感兴趣 的点( 比如一个电影明星或是一个运动员) 。 2 6 1 2 相机运动模型 相机运动参数由三个相机平移参数t ,l ,t 和三个相机转动参数墨,b ,r ; 以及一个相机变焦参数8 。组成。 根据这7 个参数,相机运动将一幅图的运动情况描绘如下【2 1 1 【2 9 】: 1 0 南京理工大学硕士学位论文基于内容的视频检索技术研究及原型实现 虬一伍一x 互) + 7 x y 疋一,( + 乒) b + y 足+ ,t 酊1 b ) ( + 乒) 墨 旷阮一y r d 7 x y 弓+ 厂( 1 + 爿母媸+ ,耐晰+ 封 ( 2 1 ) ( 2 2 ) 这些等式是将三维中的一个刚性物体上的一个物体点e ( x ,y ,z ) 经过透视转换变 为视网膜平面上的一点( x ,y ) 。“,和b 是一个给定图像位置( x ,力的图像速度的x 和 y 分量。z 是三维深度,是相机的焦距。 图2 3 相机运动参数和透视图【6 】 图2 3 所示的三维相机模型是m p e g - 7 采用的相机模型,文献 2 1 q 口虽p 使用这一模 型抽取了m p e g 7 的相机运动描述子。在m p e g 7 标准建立之前此模型已经大量使用, 如文献 3 2 】中使用这一模型计算得出主相机运动。 2 6 1 3 相关抽取工作 k i m 建议处理m p e g 视频的运动向量【1 2 1 。他们提出了一个二维仿射相机模型并 用于检测六种运动:变焦、旋转、左右平动、上下平动、目标运动以及静止状态。因 此。沿着x 轴( y 糠6 ) 的平动和绕着y 轴( x 轴) 的转动被合在了一起。这种方法 要预先使用一种简单的滤波过滤器过滤运动向量的o u t l i e r 。这个模型的参数向量是用 最小二乘法计算的。 t a n i i 叫假设只有转动和变焦,并且使用一种相应的三维相机模型。通过解决给定 三维模型的最小限度问题来获取适当的相机参数。他们的方法旨在检测相机运动以及 m p e g 7 的视频描述硬士论文 相关事件,比如m f e g 体育视频中的特写镜头。他们使用几种启发方法从运动向量 域中消除不可信的向量,例如,当镜头不是固定不动的时候去除零向量。在某些阈值 下,他们可以将篮球视频很好的分类。 p a r k 1 4 】比较了两种运用于m p e g 视频的最小二乘方法;t h ei t e r a t e de x t e n d e d k a l m a nf i l t e r 和t h el e v e n b e r g m a r q u a r d t 方法。他们假设一个相机系统有转动和变焦 但是没有平动。这些运动向量被当作o u t l i e r s 从那些与估计模型参数最不匹配的运动 向量域中去除了。他们通过调查生成的拼接圈来经验性地检查这种方法的效率。 s r i n i v a s a n 1 1 】提出的方法可以区分相机的平动和转动。他们的方法是基于一个合适 的三维模型,包括转动、平动( 除了沿z 轴的) 和变大( z o o mi n ) 、变d x ( z o o mo u t ) 。 他们计算两个相连非压缩帧的光流域并且使用n e l d e r - m e a d e 算法解决最小限度问题。 为了检测出乎动,从估计转动的相机参数中得到光流和原始的光流域设置在一起。如 果残留向量明显比零大,并且是平行的,那么得出存在平移运动。 n g o 1 8 l 也提出了一种方法。他们计算时空切片,就是在一个视频序列中,帧用二 维表示,在时刻f 处的空间坐标为( x ,力,将这样的视频序列用( x ,f ) 空间和( ) ,) 空间 表示。使用张量柱状图( t e n s o rh i s t o g r a m s ) 来分析由相机和物体运动产生的切片模 式。他们的方法可以区分固定、左右平移、上下移动和变焦。 j o l y 和k i m t 2 0 ) 选择了一个相似的方法,但是对时空图应用了h o u g h 变换,来估计 相机运动。他们的方法可以区分相机的固定、左右平移、上下移动和变焦。 r a l p h 等人在最近提出了一个方法可以区分平动和转动,并且是直接对从压缩 视频流中得到的运动数据进行操作。在这种方法中首先抽取运动向量,然后计算可信 的运动向量场,最后估计相机运动参数。 2 6 1 4 相似性查询 相机运动描述子可用于相似性查询,这儿有一个使用混合型时的匹配函数。这里 用了查询参数的两个向量( 和屈) 来指明在比较描述中的哪个方面必须考虑进匹 配结果中。另外,w e ,w a 和盯d 是在o 和1 之间的的权值,用来指明下面三部分在相 似结果中的相对霞要性: 存在的时间比( e r p ) ,运动量( 吼) 以及片断的持续时间 ( ) a f a f = 1 ,0 蔓is1 4 ,如果必须考虑运动类型珀勺f r a n c t i o n a lp r e s e n c e h = 0 , 否则 f 尼= l ,o f s l 4 ,如果必须考虑运动类型艚a m o u n to fm o t i o n 【屈= 0 , 否则 c 。和c :是与两个时间视频分段相关的相机运动描述。只g ,印( 相应的有只g , 1 2 南京理工大学硕士学位论文 基于内容的视频检索技术研究及原型实现 妒) 是每个运动类型f 的存在的时间比和运动量的大小。d q ( 相应的d q ) 是整个 时间片断的持续时间。两个描述子之间的相似性m ( c 1 ,c 2 ) 可以计算如下: m ( c ,c 2 ) = 型缝业号笨警幽 ( 2 ,) 其中有: 虬( c i ,c 2 ) = m 。( c i ,c :) = ( 2 4 ) ( 2 5 ) m 。( c 1 ,c 2 ) = l d l - d “2 i ( d “+ d t m 2 ) ( 2 6 ) 注意,这样定义的匹配函数在0 ( 完全不匹配) 和1 ( 完全匹配) 之间。它能提供基 于相似度的检索以及查询结果的等级排列。通过那些对相似给出不同意义的查询参数 ( 例如,寻找一个视频片断,包含很强的水平和垂直摇动,可以是任何长度,有无变 焦都可) ,可以进行许多类型的查询。 2 6 2 对象运动轨迹 运动轨迹描述了物体随时间变化的位移,对给定的应用来说被定义为时空区域的 物体的轨迹是很重要的。 这是一个相当高层的描述,物体在每一时刻的位置都是由一个代表点给出的。这 种简单是相对的,因为人观察物体运动是在一个高层次上的【1 。”。通过核心试验( c o r e e x p e r i m e n t s ) 已经证实在这样高层次的数据足以应对大多数相关的应用( 视频链接, 基于运动的查询口3 j 等等) 。 这个描述还可以用来确定相机是否跟踪着物体( 用一个布尔值标识) 。如果相机 跟着被描述物体,那轨迹数据就不重要了,因为存在于相机的空间参数中了。因此, 在处理轨迹数据之前很有必要通过一些简单的方法检查相机是否跟着物体。 2 6 2 1 描述符 轨迹模型是在每个空间维度上对时间的一阶或二阶分段近似【2 5 1 。 这个描述的核心就是一组关键点( 而y ,毛t ) ,用来代表被描述物体的连续的时空位 胃( 物体的一个代表点的位爨,例如质心) 。描述符还包含组描述对象在关键点之 问路径的可选的加速度内插函数。速度可以通过关键点的规范隐式给出。关键点出瞬 间时刻点和相应应用的二维或三维笛卡儿坐标组成,内插函数对每一个分量x ( t ) ,y ( i ) , 1 3 型竖 型酗 铲一 出 m p e g 7 的视频描述硕士论文 和z ( t ) 单独定义。 对于关键点的选取一直都是一个难点,不少研究人员都在这方面做出了努力。姚 领m 1 9 提出使用对象的最小外接矩形( m i n i m u mb o u n d i n gr e c t a n g l e ,m b r ) 的中心来代 表这个对象,则m b r 的中心链近似表示运动轨迹。s y l v i e 2 1 】贝0 认为使用质心更精确也 更具扩展性。 用于表示轨迹的模式是时间的一阶或二阶分段近似,在每段中对每个空间维度使 用以下两种插值函数中的一种:插值参数可用,( r ) ;,( r 2 ) + v ( 2 ) 口( h 2 ) 来指定关键点之 间的非线性插补,即时间的二阶函数,见式( 2 9 ) 和式( 2 1 0 ) ;默认情况下,没有插值 数据时,使用线性插补,即时间的一阶函数,见式( 2 7 ) 和式( 2 8 ) 。 一阶近似( 默认插补) : ,( f ) = + k 0 一f 。) ( 2 7 ) v 口对应物体的速度,在时间段k ,】之间视为恒定值。,以是时刻和气时的位置。 且有 。:五二五( 2 8 ) o l b t , 二阶近似: ,( f ) :五+ 1 。( | 一) + :1 ( f t o ) 2 ( 2 9 ) 注释和上面相同,口。是物体的加速度,同时也是插值参数,在整个 f 口,屯】时间段内认 为是恒定的。 且有 ”;= f 气6 一- 乞f 一吉( 一t o ) ( 2 1 。) 图2 4 显示了用这个获取的一个轨迹,由黑体的( ,t i ,口) 参数实例化得到的。 使用插值参数:不使用插值函数: 1 4 图2 4 代表轨迹示意图( 一维) 描述性质:这个描述很容易使用,是可扩展的,灵活并且简洁,是典型的m p e g 一7 南京理工大学硕士学位论文基于内容的视频检索技术研究及原型实现 描述子。 使用简单:基于这个描述,可以很简单的实现指定的功能。可以直接、独立的 对每一维中的位置、速度和加速度进行操作。 可扩展性:可以使用关键点数据本身;将插值参数看作是一个精练的层次。 灵活性:这个描述可以适应不同的内容或者应用:对关键点的数目和时间实例 没有限制。这样系统就可以根据需要选取关键点的数目,提供所要求的全局视觉和简 洁性,选取被不同时间间隔分开的关键点,使局部轨迹平滑。 可见大小简洁性:这个描述可以非常简洁,并且大小和近似精确度之间的折衷可 以根据上下文选取。描述大小大致与关键点的数目n 成正比,并且是依据图像的大 小以及所用坐标( g i f 图像的每个关键点大约是1 5 0 * n 比特,这样就能获得很好的精 确度) 。对于典型的内容和应用,两个关键点的相似度就很好了。 关于运动轨迹除了m p e g 7 描述子描述的部分还有一下两个问题需要考虑: l 、坐标和单位 需要指定坐标系,因为要用来说明位置信息:我们需要知道空间和时间参数。空 间和时间单位也同样重要。这些信息在m p e g 7 中都是在高层属性中给出的它们不 是特别描述某个物体,而是应用到物体或者特征的集合上。 2 、可见性 物体沿着其轨迹上的可见性对显示以及查询都是有用的,因此系统可以优先考虑 物体可见的时刻。这个注释应该独立于轨迹指定,这样物体的位置和场景构成就可以 相互独立了。 图2 5 显示了描述轨迹所需的各个部分,其中虚线框中是可选项。 2 6 2 2 抽取 图2 5 物体轨迹规范成分 铆体 i 汀她祧j 当我们意在描绘一个给定物体( 目标) 或区域的运动,我们假设已经知道是要描 m p e g - 7 的视频描述 硕士论文 述哪个物体,并且这个物体的位置,使用可视的数据描述其位置,空间和时间上的。 典型地,就是物体使用m p e g 一4 独立编码的情况,a l p h a - 通道提供了关于物体的时空位 景的所有信息【2 2 1 。在此我们假设这样的输入数据是存在的,用于抽取的输入数据就是 这样一个a l p h a - 通道。 注意,在某些没有这种信息的情况中有这样几种解决方法,一个是分割,或者是 图片内的或者是在运动向量区域内的,或许可以实现。在图片域中使用分割去抽取, 比如基于用户在某一帧中选中的一个物体,这样可以在整个序列中自动追踪。另外, 一些非主要的运动轨迹提取可以通过复杂处理m p e g - 1 ,2 ,4 运动向量得到【引。但是分割 过程是很复杂的。而且,一个不确定的分割过程质量是未知的,用它来定义物体是不 严谨的。不同的技术可以导致不同的分割结果,就导致不同的轨迹。 l 、关键点数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消防组织面试题及答案
- 宿迁护士面试题目及答案
- 权益基金面试题及答案
- 2026届吉林省辉煌联盟九校高二化学第一学期期末质量跟踪监视模拟试题含答案
- 青岛工程面试题及答案
- 山东省阳谷县第二中学2026届化学高二第一学期期末复习检测试题含答案
- 沏茶问题面试题及答案
- 福建省厦门市2026届化学高一第一学期期末联考模拟试题含解析
- 农村生态面试题及答案
- 甘肃省镇原县第二中学2026届高二化学第一学期期中达标检测试题含解析
- 儿童功能性便秘(FC)诊断与治疗
- 2025广西玉林市自来水有限公司下半年公开招聘21人笔试参考题库附带答案详解
- 2025年70周岁以上老年人换长久驾照三力测试题库(含答案)
- GB/T 14619-2013厚膜集成电路用氧化铝陶瓷基片
- GB 16869-2005鲜、冻禽产品
- 电子皮肤上课讲义课件
- 三年级上册美术课件-第十一课 留住秋天 ︳湘美版
- 260吨转炉扭力杆更换方案
- 中学生必备古诗文经典名句500句
- 心电图 (史上最完美)课件
- 生产调度会工作安排及督办事项管理办法
评论
0/150
提交评论