




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)基于内容的视频分析与检索方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着多媒体技术和网络技术的迅猛发展,巨量的图像和视频信息以各种编码形式 不斯灞现,使得有效的图像和视频检索变得口益重要。为此,在信息学科形成了一个 、。登薪的研究领域,即基于内容的视频分析与检索技术( c o n t e n t - b a s e dv i d e o a n a l y s i s a n d r e t r i e v a l ,c b v a r ) a c b v a r 是指在视频分析的基础上,提取能够反映视频内容的各种特征,进而通过 模式匹配从海量视频数据库中检索出相关的视频流。视频中的内容包括视频的结构信 息、低层次的视觉和听觉信息以及高级语义信息,所有这些是后续编辑和理解的基础。 怎样将这三种信息有机的综合起来,形成通用的视频分析与检索模型,目前仍然是该 领域一个极富挑战性的课题。本文正是在结合m p e g 7 标准的基础上,针对通用视频 分析检索模型研究的有益尝试。其主要研究内容和工作包括: a )在分析视频数据管理的特点及难点的基础上,建立一种和m p e g 一7 标准兼容 的通用视频数据模型。该模型描绘了从帧、镜头、场景到故事单元的结构化层 次,并引入关键帧等概念分别描述每个层次的视频特征。相应的结构,构成了 后续处理的框架; b ) 介绍了几种典型的镜头变换的原理及对应的检测方法,然后着重分析并比较了 多种不同的镜头检测算法及其性能。提出了一种改进的自适应镜头检测算法, 阁来同时检测突变和渐变,进而还给出了一种简单有效的从镜头中提取关键帧 的方法。最后,详细分析了基于d c 图像和运动参数的压缩域镜头检测方法; c 1 提出了一种时一空融合的镜头相似性判断规则,用于将镜头聚类为场景;同时。 还给出了通过模糊聚类实现场景中关键帧自动提取的方法。进而,讨论了由场 景中一组镜头的关键帧的质心表示场景关键帧,即场景质心的方法,从而为抽 取高层的视频数据单元做出了大胆的尝试: d ) 从给定样本视频出发,分别讨论了基于镜头和场景的视频检索方法,并分析了 检索性能评价的准则。进而,设计并实现了m p e g 压缩视频裁剪与拼接功能, 大大拓宽了视频检索在网络化方面的应用。 关键词:基于内容的视频分析与检索视频数据模型m p e g 一7 镜头 镜头检测关键帧d c 图像压缩域镜头聚类场景场景生成 场景质心视频段检索时空相似性裁剪与拼接 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fm u l t i m e d i aa n dn e t w o r kt e c h n i q u e s ,e f f i c i e n ta n de f f e c t i v e i m a g ea n dv i d e or e t r i e v a lb e c o m e sm o r ea n dm o r ei m p o r t a n td u et ot e e m i n go fv a s ti m a g ea n d v i d e om e d i ai nm a n yc o d i n gf o r m a t s h e n c e ,i tc o m e sf o r t han e wr e s e a r c hf i e l di nt h e i n f o r m a t i o nt e c h n o l o g y , i e c o n t e n t b a s e dl q d e oa n a l y s i sa n dr e t r i e v a l ( c b v a r ) c b 、,a rm e a n sv i d e or e 州e v a lf r o me n o r m o u sv i d e od a t a b a s et h r o u g hm a t e h i n go fp a t t e r n s d e r i v e df r o mv i d e oa n a l y s i sa n df e a t u r ee x t r a c t i o nt or e p r e s e n ti 括c o n t e n t i nav i d e o t h e c o n t e n t si n c l u d ei t ss t r u c t u r e 1 0 w - l e v e lv i s u a la n da u r a lf e a t b l e s ,a n d h i g h - l e v e ls e m a n t i c i n f o r i l l a t i o n ,w h i c hf o r mt h eb a s ef o rf l i r t e rr e t r i e v a la n dv i s u a lp r o d u c t i o n i ti ss t i l ia g r e a t c h a l l e n g et oi n t e g r a t ea 1 1t h ei n f o r m a t i o na b o v et oe s t a b l i s hag e n e r a lm o d e lf o rc o n t e n t b a s e d v i d e oa r i a l y s i sa n dr e t r i e v a l b a s e do nm p e g 一7 w eh a v ed e v e l o p e ds u c hak i n do fm o d e li n p r o t o t y p e t h em a i nw o r ka n dc o n t e n t si nt h i st h e s i si n c l u d e : 1 ) b a s e do na n a l y s i so f t h ec h a r a c t e r i s t i c sa n dd i f f i c u l t i e so f v i d e oa n dv i d e om a n a g e m e n t , a g e n e r a lv i d e od a t am o d e l ,c o m p a t i b l ew i t hm p e g 一7s t a n d a r d ,i se s t a b l i s h e d i no u r m o d e l ,v i d e o sa r cr e p r e s e n t e di nah i e r a r c h i c a ls t r u c t u r ew i t h f o u rl a y e r sf r o mf r a m e , s h o t ,s c e n et os t o r yu n i t ,a n dk e yf r a m e s ,e t c a r ei n t r o d u c e dt od e s c r i b et h ef e a t u r e sa n d c o n t e n t so fl a y e rt h ew h o l es t r u c t u r em o d e lm a k e s u paf r a m ef o rf u r t h e rp r o c e s s i n g ; 2 ) p r i n c i p l e sa n dm e t h o d so f s e v e r a lt y p i c a ls h o tc h a n g e sa r ei n t r o d u c e d ,a n dd i f f e r e n ts h o t d e t e c t i o na l g o r i t h m sa r ea n a l y z e da n de v a l u a t e d a ni m p r o v e ds e l f - a d a p t i v es h o t d e t e c t i o na l g o r i t h mi st h e np r o p o s e d ,w h i c hc a ni d e n t i f yb o t hs a l t a t i o na n dg r a d u a ls h o t c h a n g e s f u r t h e r m o r e as i m p l ea n de f f e c t i v em e t h o df o rk e y - f r a m ee x t r a c t o nf r o m v i d e os h o ti sg i v e n f i n a l l y , s h o td e t e c t i o nf r o mc o m p r e s s e dv i d e o ,b a s e do nd ci m a g e a n dm o t i o np a r a m e t e r s ,i sa n a l y z e di nd e t a i l ; 3 ) as p a t i o - t e m p o r a ls h o ts i m i l a r i t yr u l ei sp r o p o s e dt oc l u s t e rv i d e os h o t si n t ov i d e o s c e n e s ,a n df u z z y - c l u s t e r i n gm e t h o df o rk e yf r a m ee x t r a c t i o nf r o mv i d e os c e n e si sa l s o g i v e n i na d d i t i o n ,t h ec o n c e p to fs c e o ec e n t d o di si n t r o d u c e dt or e p r e s e n tv i d e os c e n e b ya v e r a g i n go fa l lk e yf r a m e si n s i d eag r o u po fs h o t si nt h eg i v e nv i d e os c e n e ,w h i c h m a k e sa na u d a c i o u sa t t e m p tf o rh i g h l e v e lv i d e ou n i te x t r a c t i o na n dr e p r e s e n t a t i o n ; 4 ) a c c o r d i n gt ot h eg i v e ns a m p l ev i d e o ,s h o ta n ds c e n e b a s e dv i d e or e t r i e v a lm e t h o d sa r e d i s c u s s e dr e s p e c t i v e l y , a n dt h ee v a l u a t i o np r i c i n p l e sa l ea l s od i s c u s s e d m o r e o v e r ,v i d e o c l i p p i n ga n dm e r g i n gi nm p e gc o m p r e s s e dd o m a i ni si m p l e m e n t e d ,w h i c hw i l ll a r g e l y e x p l o i tn e t w o r k - b a s e da p p l i c a t i o n so f c b v a r k e y w o r d s : c o n t e n t - b a s e dv i d e oa n a l y s i sa n dr e t r i e v a l ,v i d e od a t am o d e l ,m p e g 7 v i d e os h o t ,s h o td e t e c t i o n ,k e yf l a m e ,d ci n m g e ,c o m p r e s s e dd o m a i n , s h o tc l u s t e r i n g ,v i d e os c e n e ,s c e n ee x t r a c t i o n ,s c e n ec e n t r o i d , v i d e oc l i pr e t r i e v a l ,s p a t i o - t e m p o r a ls i m i l a r i t y , c l i p p i n ga n dm e r g i n g 第一章绪论 1 1 c b v a r 的概念和系统构成 随着多媒体技术的普及和网络技术的飞速发展,视频已经逐渐成为人类信息传播 的主流载体之一。当用户希望从浩瀚的视频数据库中检索感兴趣的资源时,却发现传 统的基于关键词的数据库检索方法难以实用。其主要原因在于:一方面,在许多情况 下很难用一个或多个关键词来充分描述视频中的丰富信息,而且这种描述也存在很大 的主观性;另一方面,用户很难将其需求清晰的表达出来,而且这种表达和媒体自身 的描述也存在很大差异。为了实现对视频等多媒体信息的有效检索,人们开始研究视 频中包涵的“内容”,并因此形成了基于内容的视频分析与检索( c o n t e n t - b a s e dv i d e o a n a l y s i sa n dr e t r i e v a l ,c b v a r ) 这一个新的研究领域 2 1 。目前,c b v a r 技术已经成为国 内外研究的热点问题。c b v a r 技术的日益成熟不仅将创造出巨大的社会价值,而且将 改变人们的生活方式。c b v a r 和传统数据库技术的结合,可方便地实现海量多媒体数 据的存储管理,与w e b 搜索引擎技术的结合,可以用来检索h t m l 网页中丰富的多媒 体信息1 1j 。在列预见的将来,c b v a r 技术和多媒体的结合将会在以下领域中得到广泛 应用:多媒体数据库、知识产权保护、数字图书馆、网络多媒体搜索引擎、交互电视、 艺术收藏和博物馆管理、遥感和地球资源管理、远程医疗、天气预报以及军事指挥系 统等等瓯 为了达到从海量媒体数据库中有效检索相关视频的目的,首先需要分析媒体中的 内容和信息,并通过特征提取及索引建立相关的特征库。进而,用户可以通过设定的 界面交互式的浏览或检索媒体库中的内容。一般来说,用户对媒体内容的描述和理解 与系统的设计并不是完全能够吻合的,因此在检索系统和用户之间存在着一个沟通的 鸿沟,从而造成检索的结果并不能完全满足用户的需要。为此,人们从两方面试图进 一步解决该问题。一方面从检索系统出发,由低层次的视觉和听觉特征向高层次的事 件和语义过渡,希望通过高层次的交互减少用户和低层次系统描述之间的不确定性。 另一方面,人们开始强调在用户反馈基础上的机器学习。也就是在每次检索之后,由 用户给检索结果打分,然后交由机器自动学习并给出进一步优化的检索结果。 一个典型的c b v a r 系统至少包括媒体库( m e d i ab a s e ) 、特征库( f e a t u r eb a s e ) 、方 法库( a l g o r i t h mb a s e ) 以及榆索界面( r e t r i e v a l ) i l 部分。其中媒体库是视频等媒体本身, 而特征库则是对媒体库内容和结构的描述,其中往往还有一个索引库( i n d e xb a s e ) ,用 来对特征库中的各种特征进行快速匹配。方法库则是各种特征提取以及特征匹配的方 法集合,可咀被用来组成大的实用的检索系统。对于一个实用的检索系统来说,用户 是通过检索界面和系统进行交互的。因此,还可以引入一个外围的用户库( u s e rb a s e ) , 第一章绪论 用来记录各种用户的信息。由于不同用户对系统的理解存在差异,因此用户库的建立 将有助于最终解决检索的有效性问题。此外,在高层次特征提取和内容分析的过程中, 还需要一个辅助的知识库( k n o w l e d g eb a s e ) ,用来进行语义关联和理解等。图1 1 给 出了系统的基本框架。 图1 - 1 一个典型的c b v a r 系统的框架构成图 在图1 - l 中,a 1 - a 5 为相应的方法调用,即将算法库中特定算法用于相应的处理 过程中,且每次算法的运用均是双向的( 我们将从左到右的箭头称为芷向,否则为反 向箭头) 。在a 1 中,正向箭头为特征提取的过程,即从媒体中提取相应的各种特征, 并存储在特征库中;而反向箭头则是在特征匹配的过程中,检索相应视频的过程。a 2 的正向箭头是特征索引的过程,也就是对复杂的高维特种进行重新组织,以便于匹配 的过程;而其反向箭头就是由索引的结果查找相应的特征的过程。a 3 是检索系统和用 户交互的过程:其正向箭头是对系统特征的可视化过程,而反向则是用户的反馈通道。 从a l - a 3 到算法库的箭头,则表明了存在反馈基础上的算法更新。在a 4 中,相应的 知识库和算法库相交互,以获取更为灵活有效的特征及描述,同时也可以对知识库本 身不断更新。而a 5 则表明由算法库和用户库之间的交互,从而可以使得用户库和算法 库得到不断更新。 在机器自动学习的基础上,将为每个用户建立相应的从特征提取到匹配的方法对 应,即为每个用户产生经过学习的可配置的系统映象,从而反映其在信息检索过程中 的偏好和选择性。可以实现之,并用于一般的数据挖掘和信息管理等。 1 。2 国内外研究现状及存在的主要问题 1 2 。1 。研究现状 在过去的几十年里,计算机视觉领域在视频数据的获取、操作、存储和传输方面 都取得了很多蕈大理论突破和技术进步,而在视觉信息的查询和表征方面尚处于起步 阶段。近十多年来,基于内容的图像和视频检索问题在许多领域逐渐活跃起来、并被 酉扯工些厶堂亟土堂盈j 盘毫基王由查曲越题筮圭匠与控塞友迭 广泛研究和讨论【6 j 。当前的研究热点主要有: 视频分析,作为视频检索的前提,多数研究集中在视频分割上,在此需要抽取显 著的特征,例如颜色【”i 、纹理【”1 、形状”j 【”i 、运动特征描述子o ”,来描述视频内容的 视觉信息。常采用的方法有直方图、边缘5 ”、运动特征1 2 9 】和统计示意图1 5 7 1 等。在视 频分析的基础上建立的数据模型提供了一种非线性的视频浏览框架,典型内容包括关 键帧抽耿1 2 3 - 3 0 1 ( 即用少数代表帧来表达镜头) 、视频日标表征( 运动目标在视频中的 一次出现到消失) 和场景表征 5 2 - 6 0 ) ( 相似的镜头聚类到一起表达一个叙事内容) 等。 视频检索方面,目前主要的检索方法有榆索相似视频 6 h 、定位相似视频段” 和检 索相似镜头1 7 “。在此基础上进一步研究热点就是语义分析。尽管绝大多数的检索系统 都是建立在低级特征提取上,用户往往希望在高层语义上来检索和浏览视频。迄今, 关于视频内容的语义分析或者针对于特定领域的应用研究1 4 ”,或者是通过人机交互来 提高性能的1 。这些研究工作主要集中在视频分类【4 3 i 、亮点检测7 0 l 和视频语义分析【“1 等。使用的低级特征往往是多种信息的融合,包括视觉特征、音频信息、文字信息、 摄像机运动等。为了语义概念建模,常常用到隐马尔町犬模型( h m m ) 7 0 1 、支撑矢量机 ( s v m ) v “、b a y e s i a n 网络等数学工具。 关于基于内容的视频分析与检索,前人已经取得了很多研究成果。目前,国内外 己研发出多个基于内容的视频检索系统,主要有: q b l c 系统m ,是由i b m 公司推出的第一个商用的基于内容的图像查询系统,也是“基 于内容”检索系统的典型代表。该系统支持示例图像查询和用户草图查询,抽取颜色、 纹理、形状特征、镜头和目标运动等信息,并采用r * - t r e e 作为高维索引结构,进而结合 关键字对大型图像和视频数据库进行查询。q b l c 在网上的在线演示系统的地址是: h t t p :w w w q b l c a l m a d e n i b m c o m 。 v i d e o q 系统,由美国哥伦比亚大学研究实现【4 1 。它扩充了传统的关键字和主题导 航的查询方法,允许用户使用视觉特征和时空关系来检索视频。其主要特征有:文本 和视觉搜索综合:自动视频对象分割和跟踪:丰富的视觉特征库,包括颜色、纹理、 形状和运动;通过w w w 互联网交互查询和浏览。 m a r s ,由u i u c ( u n i v e r s i t yo f i l l i n o i sa tu r b a n ac h a m p a i g n ) 开发的多媒体分析 和检索系统【8 l 。从特征提取到建立适当的存储和榆索结构,集成了从计算机视觉、数据 库管理到信息检索三个学科,力图做到合理和高效。 t v f i 系统,t s i n g h u av i d e of i n di t 是清华大学j t 发的视频节目管理系统。该系 统可以提供视频数据入库、基于内容的浏览、检索等功能,并提供多种数据访问模式, 包括基于关键字查询、示例查询、按视频结构浏览及按用户自定义类剐进行浏览。 值得一提的是m p e g 7 ,即“多媒体内容描述接口”( m u l t i m e d i a c o n t e n t d e s c r i p t i o n i n t e r f a c e ) ,作为m p e g 组织提出的新标准,制定日标就是定义一种标准化描述接口, 第一章绪论 为多媒体信息提供快速有效的检索州,这也注定了其在未来通用的视频检索中将扮演 主要角色、发挥蘑要的桥梁作用。 1 2 2 技术难点及存在的主要河题 由于视频具有非结构化的特点,这就要求在c b v a r 系统的设计过程中首先解决 视频的结构化问题。合理的结构化表示将有助于后续的特征和内容分析及用户检索, 但是怎样划分具体的结构仍然是值得探讨的问题。传统的视频是时间顺序的媒体流, 要实现基于内容的检索,有效地抽取视频结构是必需的。在这方面前人己作了大量的 工作,其中较为成功的是镜头分割。在镜头检测的基础上,就可以实现基于镜头的浏 览。由于镜头的单位太小,对于一段较长的视频,镜头数量倍增,有必要抽取更高层 的视频单元。目前研究热点集中在结合多类特征( 音频、视频、文本等) 抽取视频的语义 和叙事结构上,在多个层次上组织视频内容。 此外,为了更为有效的描述视频中的内容,需要从低层次的视觉听觉特征中提取 高层次的语义信息,这也是目前研究的难点所在。人们在实际的视频查询中习惯于使 用简便的概念,例如用“汽车、海滩、日出”等词语来表达具体的含义,它们属于高 层语义的拙蒙概念。而基于低层特征的检索与这些抽象语义的匹配是一个不可忽视的 鸿沟。如果能够建立这些底层的特征与高层语义概念的关联,就能够使计算机自动抽 取视频语义。在特定应用领域中,例如面部识别和指纹识别中,已经可以做到这一点。 对于一般性的特征,建立起这种关联是非常困难的。 最后,怎样综合运用各种知识指导及用户反馈,不断提高视频检索的有效性,也 是c b v a r 系统设计和实现过程中的难点所在。这里,我们可以在用户交互的基础上, 采用语义模板、机器学习、神经网络等方法,建立从底层特征到高级语义的映射,进 而实现有效的视频检索。考虑到视频的内容千差万别,不同应用领域下对视频内容和 信息的要求也存在很大差异,冈此这种按照不同用户学习的方法将有可能解决视频检 索中重要的领域相关问题。 1 3 本文的课题来源及研究目标 1 3 1 课题来源 本文的研究内容,来源于两个课题支持,分别是国家航空基金项目( 编号:0 2 1 5 3 0 7 3 题目:图像序列分析及其在航空测试技术中的应用研究) 和西北工业大学的科研基金 项目( 编号:g 1 4 1 】7 ,项目名称:通用视频分析检索模型研究) 。同时,也部分受益于 本人在微软亚洲研究院的合作项目( f o o t b a l lv i d e os e g m e n t a t i o n c l a s s i f i c a t i o na n d e v e n td e t e c t i o n - - d i r e c t e db yh o n g - j i a n gz h a n g ) 。 1 3 2 。主要研究目标 建立和m p e g 7 标准兼容的通用视频结构化模型; 给出自动有效的非压缩域及压缩域镜头分割: 给出从镜头到场景的自动合成及描述方法; 给出从镜头及场景中提取关键帧的方法; 通过实验验证相应的检索模型: 实现压缩域视频裁减和拼接的方法,以利于网络化传输与检索。 1 4 。本文的主要工作及章节安排 t 4 1 本文的主要工作和研究内容 本文研究了面向通用模型的视频分析和检索技术,主要内容包括视频的结构化模 型表示、镜头的自动提取、场景合成、视频检索以及后续的视频裁减与拼接等。其主 要工作可以总结如下: 1 ) 在分析视频及视频管理特点的基础上,建立了一种和m p e g 7 标准兼容的通用 的视频数据模型。该模型可以从帧、镜头、场景、故事单元等不同层次对视频 的结构进行描述,并且支持不同层次上基于关键帧( 聚类) 的内容表示,从而 为后续的分析检索奠定了框架: 2 ) 分析了常见的备种镜头切换形式及相应的镜头检测方法,进而提出了一种自适 应镜头检测算法。该算法能够同时检测镜头切变和渐变过程,并且很好地解决 了渐变镜头起点的定位问题。在镜头检测的基础上,本文还给出了种简单有 效的镜头关键帧提取方法。最后,还详细讨论了基于d c 图像的压缩域镜头检 测方法: 3 ) 讨论了场景提取的基本概念,提出了一种基于时空融合的相似性度量方法,用 于镜头聚类并合成相应的场景。迸_ 而,给出了一种基于模糊聚类从场景中提取 关键帧的方法。通过提取场景中各镜头关键帧的质心,作为场景质心( 虚拟的 关键帧) 来表示场景内容,不但可以压缩场景描述的数据量,而且简洁高效地 实现了更高层次上的视频描述; 4 ) 以例予视频检索为重点,系统分析了基于镜头和场景的视频段检索模式,并提 出了一种视频段整体评估算法,来衡量视频段的匹配程度,取得了较好的检索 效果: 5 ) 考虑到视频检索在网络化应用方面的需要,实现了种面向网络化传输与检索 的压缩域视频裁剪与拼接方法,从而为检索系统的实州化及推广奠定了基础。 第一章绪论 1 4 2 章节安排 本文共分六章,各章的主要内容如下: 第一章是绪论,介绍了基于内容的视频分析和检索的基本概念和系统构成,并分 析了其研究现状及存在的难点和主要问题,指出了本文研究的课题来源及研究目标, 并概括了本文的主要工作和研究内容以及章节安排。 第二章首先分析了视频及视频管理的特点,然后讨论了现有视频模型的特点和不 足。进而建立了一种和m p e g - 7 标准兼容的通用视频数据模型,为此后进一步视频检 索的研究和实现提供了框架和理论基础。 第三章首先总结分析了多种镜头变换的形式及相应的检测方法,进而提出了一种 自适应镜头检测算法,用于同时检测镜头切变和渐变。最后,还讨论了关键帧自动提 取以及压缩域镜头检测方法。 第四章在镜头检测的基础上,讨论从镜头自动合成场景的方法,给出了一种基于 时空融合的相似性度量方法,用于镜头的聚类。进而介绍了一种新的特征向量场 景质心,来表征场景的方法。 第五章主要讨论了在镜头和场景的基础上,采用例子视频进行检索的方法。综台 分析了基于镜头和场景的视频段检索模式,并提出了一种视频段整体评估算法。最后, 还实现了可以用于网络化视频传输和编辑的压缩域视频裁减与拼接的方法。 第六章是总结与展望,总结了本文所做的主要 _ = 作和成果,并指出了其中的不足, 进而对今后的发展方向和前景做了展望。 6 - 第二章通用视频数据模型 视频数据的结构化和视频数据模型的建立,是基于内容的视频分析与检索的基础。 对于视频数据管理及视频数据库来说,数据模型的结构和性能将直接影响到后续检索 和管理效率。本章首先分析视频数据及视频处理的特点,然后讨论视频数据管理中的 技术关键和要求。进而在分析现有视频数据模型的基础上,建立一种和m p e g 7 标准 兼容的通用层次化视频数据模型。 2 1 。视频数据的主要特点 2 1 1 海量的数据 数字视频的一个很明显的特点就是数据量庞大。视频数据通常是由某种自动化手 段产生的,如用摄像机或者图像采集设备多个图像帧自动输入计算机中,此时数据不 是以结构化记录形式表示,而是以数字目像或数字视频的非格式化形式表示。 h a m p a p u r t g l ,e f i ,视频数据的数据量大约比结构记录数据大七个数量级。一幅中等分 别率的图像( 6 4 0 4 8 0 ) ,颜色为2 4 b i t p i x e l ,数字视频图像的数据量大约为1 m b ,如 播放速度每秒3 0 帧,则1 秒的数据量约为3 0 m b ,一个6 0 0 m b 的硬盘也只能存放2 0 s 的动态图象。显然,要实现视频数据管理首先必须解决的关键问题就是动态图象的数 据压缩编码和解码。目前m p e g ,d v i ,h 2 6 1 以及q u i c k t i m e 等压缩标准的压缩比可 以达到5 0 :1 - 2 0 0 :1 。但即使压缩后的视频数据量仍然足相当大的,例如一部普通长度的 影片( 2 小时) ,以m p e g - 2 标准压缩后数据量仍有1 2 0 0 1 4 0 0 m 左右。 2 1 2 复杂的多维结构 表2 1文本、图像和视频数据的比较 和文本数据以及图像数据相比,视频数据既有空间属性又有时间属性。文本数据 是一种纯字符数值型数据,不含空间和时间属性,可以看作是维数据;图像数据是 第二章通用视频数据模型 种具有空间属性的数据,但没有时间属性,可看作是二维数据。对于视频数据而言, 则不但具有空间属性还具有时间属性,可以看作是三维数据,空间维是每一帧图像具 有空间结构,时间维是指视频是一系列的图像沿时间轴顺序分布而形成的一种流结构。 因此视频数据具有时空特性,这使得视频结构的表达和模型的建立变得困难,如表2 - i 所示。 正是因为视频数据的时间空问特性,使得数据单元之间的关系更为复杂。除了图 像中的空间关系外,还要考虑刚问上的前后关系。因此,为了简化问题,往往需要在 时间序列上对视频进行分割描述。此外,为了衡量不同视频段的相关性或者相似性, 也需要重新定义相应的衡量标准。这和简单的文字及图像有很大的区别。 2 1 3 丰富多样的内容 视频数据作为一种表达信息的综合媒体,包含有及其丰富的内容和信息。这些内 容一般可以划分为两大类,即低层次的音频、视频内容( a u d i ov i s u a lc o r t t e n t ) l l 高层次 的语义内容( s e m a n t i cc o n t e n t ) ,前者主要指视频中含有的声音和图像的特征,包括语音、 音乐、背景声音等听觉信息以及颜色、纹理、形状、运动轨迹、空问关系、摄像机动 作等视觉信息。而后者则指视频中包含的高级语义,包括某个事件对应的人物、地点、 过程描述等。人脸识别、文字识别、语音识别等是沟通这两个层次内容的可能途径。 此外,由于存在个体经验和背景知识等差异,使得不同的人对相同的视频可能得 出不同的描述,从而造成视频数据解释的多样性和模糊性。为此,需要针对不同的应 用领域及不同的用户分别建立相应的模型,这样才能切实的解决视频内容的自动分析 及后续的检索问题。 2 。2 通用视频数据模型建立的基本要求和几个问题 2 。2 1 视频数据模型的基本要求 考虑到视频数据及视频管理的特点,在设计视频数据数据模型时应该符台如下的 几个要求: 一支持多级视频结构抽象 对于视频数据,至少有两个基本的层次结构:整个视频序列和单个的视频帧。但 对于视频数据库的管理和检索来说,仅仅基于整个序列的结构,就不能深入到视频内 部,也就无法体现基于内容的视频分析和检索;另一方面,由于视频数据具有庞大的 数据量,基于帧的处理量相当大,而且用户也很少对视频中的单个帧感兴趣。因此有 必要构造中间层次的结构,并在每层加入视频特征,以支持基于内容的视频浏览和 检索。 酉拙王些盔堂亟主堂焦监童蒸士臼在艘趣筮岔数量监盔左蓝 二支持时空关系 视频数据的一个重要特征就是包含时空特征,因此视频数据模型应该能识别不同 的对象以及它们在时间和空间上的关系,对刖户而青,应能支持包含时空维度的查询。 空间关系主要反映了各个对象的位置关系,对于视频数据中各对象关系的分析也是一 个复杂的问题。一些关键技术,如对象的识别、跟踪技术等是目前的热点研究课题。 三支持视频各层的解释 目前完全自动的基于内容的视频检索技术还很不成熟,必须结合其他的检索方式。 比如传统的基于文本的检索,和基于语音的检索,因此视频模型应该能够支持各层视 频数据的注释加入,即支持文本注释、语音注释,以求更高的查询效率。 四视频数据的独立性 数据的独立性是数据库管理系统中的一个基本的功能,即数据对用户的透明性。 其优点之一是共享和重用数据以及对数据的保护。这在视频数据库管理系统中是一个 重要问题,因为视频数据的共享性高( 如视频点播v o d ,视频图书馆等) ,对数据安 仝性要求较高。数据独立性实际上是一个将数据从物理存储映射到逻辑存储的问题, 从而保证逻辑数据的改变不会影响到物理数据的存储。目前关于视频数据独立性的问 题还没得到完全解决,这也是数据模型建立中需要进一步研究的问题。 五支持m p e g 一7 所提出的模式描述 m p e g 7 作为m p e g 家族的新成员,被定义为“多媒体内容描述接u ”( m u l t i m e d i a c o n t e n t d e s c r i p t i o n i n t e r f a c e ) ,其目标就是定义种标准化描述,为多媒体信息提供快速 有效的检索【8 4 】。m p e g 7 标准包括针对多媒体内容的结构描述和概念描述两大部分: 前者相当于我们建立的结构化视频数据模型,而后者则是针对不同结构层次上的语义 描述。对于普通用户来说,他们所感兴趣只是相应的语义信息,而不是视频分割及描 述的过程。所以有关的高层次的语义信息,比如文字描述的事件、目标、概念及地点 等是其最为关心的内容,也是最终视频检索能否成功的关键所在。考虑到不同领域视 频信息及不同用户需求的差异,m p e g 7 提供了一种开放式的灵活的结构,从而使得系 统具有很强的可扩展性,从而为最终建立通用的多媒体信息模型奠定了基础。正因为 如此,m p e g 7 已经成为视频等多媒体信息存储检索系统设计中的一个通用标准;而在 我们设计的通用模型中,也将以和该标准兼容为基本要求。 2 2 2 视频数据模型建立中应注意的问题 在建立合理的视频数据模型过程中,有以下几个问题需要注意: 1 1 管理单元的确定 传统的数据库中的数据管理是以记录作为基本的管理单元,这是简单而明确的概 第二章通用视频数据模型 念。但对于视频数据而言,就不是一个容易解决的问题。首先由于视频数据是非结构 化的数据,单元边界的确定,是一个从非结构化到结构化的过程,具有一定主观性。 其次从视频流中划分视频单元,也非易事:完全由人工操作,既耗时又有很大的主观 成分,不可取:将视频数据自动划分为有意义的视频单元则是一项最近兴起的视频处 理技术,是视频数据库系统中需要解决的基本问题,在视频检索系统中称为“镜头检 测”( s h o td e t e c t i o n ) 。由于镜头单元颗粒度太小,为了方便检索与浏览,需要在此基础 上提取高一级的视频数据单元,这些都是视频数据结构化的研究内容。 2 ) 不同层次上视频内容的提取及对应 在建立了相应的视频结构以后,怎样提取、表示不同层次单元上视频的内容并 建立从低层次到高层次的内容映射,将直接影响到后续检索的结果和效率。为此,较 高层次视频结构的内容描述应该建立在较低层次的内容基础上,从而建立从低层特征 到高层次语义的对应。对于视频甚至数据单元而言,怎样从中提取可以描述其内容的 特征,本身就是一项十分困难的工作。首先现有的低层特征( 颜色、纹理、运动矢量 等) 不具备很强的鲁棒性;其次高层的语义特征是与人的经验、知识、心理以及对视 频信息的理解程度密切相关的,并不能用低层特征简单地描述;再次,高层语义还要 求对视频内容的描述给出个标准化的术语集,以保证不同的操作者能选择统一的特 征描述符。这样就使得不同层次上视频内容的提取及对应变得更为困难。 3 ) 领域知识及用户要求的不确定性 对于建立的视频结构而言,由于不同视频所处的应用领域不同,因此怎样兼容不 同领域或不同用户的特殊要求将是非常重要的问题。对于新闻或体育视频来说,人们 所关心的内容及对应的视频结构存在很大差异。前者可以分为视频段,后者则是连续 视频序列上的若干精彩片断。因此,怎样在通_ l = f j 数据模型中兼容这些差异,将是其最 终成败的关键。为此,我们希望通过建立兼容m p e g 7 标准的通用模型,有效解决系 统的扩展性问题。 2 。3 现有视频数据模型分析 目前的视频数据模型主要有两种:顺序单元模型( s e q u e n t i a lm o d e l ) 1 和层次模 型( h i e r a r c h i c a lm o d e l ,即树状模型) 1 1 2 。 顺序单元模型是一种多级的抽象数据模型,将镜头作为视频段的基本单位。镜头 是指摄像机从按下“记录”按钮到按下“停止”按钮之间所记录下的内容,是彼此独 立的逻辑片段。把视频序列分割为镜头,然后对镜头序列进行顺序化管理。这种基本 的顺序单元模型方法比较符合人的一般认识,符合视频的生成过程,而且容易应用到 现有的系统。但是这种模型将镜头作为独立的实体,导致了视频序列中重要的上下文 信息和语义信息的丢失。后来,学者对这种模型进行了扩充和优化,如r u b i na n d d a v e n p o a 应用一个附加结构场景( s c e n e ) 将具有相似属性的镜头聚合在一起,而 且还加入了些空间信息,如摄像机位置、运动等。 层次化模型方法将视频序列分割为子块集合,这些子块可相互重叠,每个子块代 表一个事件,形成一个语义信息,称为层( s t r a t a ) 。每一层在结构上是独立,而且是容 易描述的。这种方法充分利用了上下文信息,但是在建模时视频内容分割的过程相当 复杂,而且语义内容的确定受当前人工智能、图像理解技术的限制,具有很大的难度。 从上面的分析可以看出,顺序单元模型和层次化模型各有优缺点:前者基于视频 编辑单元镜头,符合人们的常规理解,在实际中应用中最为广泛,但是模型中的 镜头组织,包括改进后的场景层都是基于时间顺序的,这种时序性虽然符合视频的生 成过程,但不能体现视频的语义特性,害4 裂了视频的时空关系以及更深层的语义关系: 而后者则充分地考虑到用户理解的语义层次,很好地满足人们对视频进行基于内容的 理解模式,易于深层次地抽象视频的语义内容,缺点是操作时相当困难,不易实现。 为了更好的检索,我们将扬长避短,结合两者的优点建立一种混和模型。该模型 将综合现有模型的优点,既能反映视频描述和检索的语义层次,也能和传统的流式结 构对应。关于该模型的详细讨论见2 4 节。 2 4 一种和m p e g - 7 标准兼容的通用视频数据模型 基于上面的讨沧,本文结合目前两种主要视频模型的优点,并考虑m p e g 一7 中对 模式的描述,提出了一种通用的可扩展的层次化数据模型。相应的模型将是一种广义 的层次结构,而每个节点则是不同语义下的顺序视频单元。从本质上讲它属于层次化 数据模型,符合人们的理解模式,同时又可加入不同层次的顺序视频单元,便于检索 和随机访问。 2 4 1 通用视频模型的基本思想 本文提出的视频模型主要基于如下基本思想: 一采用广义的层次化的数据模型,在不同层次上的视频单元可以是帧、镜头、场 景等,从而便于顺序检索和快速浏览: 二将视频镜头( s h o t ) 作为主要的视频信息单元,并在此基础上,合成相应的场 景及故事单元。采用关键帧及场景质心分别描述相应的镜头和场景,从而建立了由低 层描述到高层描述的对应; 三兼容m p e g - 7 标准。在我们设计的通用模型中,将采用和m p e g 一7 一致的结 构。首先,模型包含结构描述和内容描述两个部分,而且内容描述依附于不同的结构 单元。其次,结构具有很强的可扩展性,表现在不同层次之间可以通过一定的相似性 第二毒通用视频数据模型 准则进行聚类或合并,进而形成新的层次:而且,对于不同层次的内容描述可以采用 逐步深入的方式进行。 图2 - 1 给出了相应的通用视频数据模型的结构。该模型既与常用的层次及顺序单 元模型兼容,又符台m p e g 7 标准;既适应人对于视频内容的理解方式又自入了 m p e g 7 中关于特征的描述,有利于高效地进行基于内容的视频分析与检索。 图2 - 1通用视频数据模型的结构图 2 4 2 通用数据模型的框架和描述 基于上述视频结构模型,利用概念模型的表示方法我们设计了自底向上的视频结 构化的数据模型( 见图2 - 2 ) ,下面我们将分别讨论模型中涉及的有关的概念: 1 帧图像( f r a m e ) 。帧图像就是直接从视频中抽取每幅图像,是视频流的最 小单位。普通视频的帧率1 5 2 5 帧秒,所以这一层的数据量是相当庞大的。 视频测览与检索如果建立在这一层,是用户无法接受的。 2 镜头( s h o t ) 。镜头是视频序列经过时序分割( s e g m e n t e db y ) 后的结果。它 是基于内容的视频检索中最小的语义单元。镜头的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设备系统变更管理制度
- 设施农业台账管理制度
- 设计研发团队管理制度
- 诊室发热患者管理制度
- 诊所感染监测管理制度
- 诊疗服务收费管理制度
- 财务经费开支管理制度
- 财政评审稽核管理制度
- 货品安全存放管理制度
- 货物储存仓库管理制度
- 2024年吉林省国资委监管企业招聘真题
- 2025年霍州煤电招聘笔试冲刺题(带答案解析)
- 2025年 汾西矿业井下岗位高校毕业生招聘考试笔试试题(山西省)含答案
- 浙江省杭州市(2024年-2025年小学五年级语文)人教版期末考试(下学期)试卷及答案
- 法社会学教程(第三版)教学
- 四川省成都市2024年七年级下学期期末数学试题附答案
- 2023版押品考试题库必考点含答案
- 股静脉采血学习教案
- TOM全面品质管理PPT课件
- 生产过程检验记录表
- 哈工大桥梁基础与墩台复习总结盛洪飞
评论
0/150
提交评论