(信息与通信工程专业论文)基于运动特征的数字视频检索方法研究.pdf_第1页
(信息与通信工程专业论文)基于运动特征的数字视频检索方法研究.pdf_第2页
(信息与通信工程专业论文)基于运动特征的数字视频检索方法研究.pdf_第3页
(信息与通信工程专业论文)基于运动特征的数字视频检索方法研究.pdf_第4页
(信息与通信工程专业论文)基于运动特征的数字视频检索方法研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(信息与通信工程专业论文)基于运动特征的数字视频检索方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

叫防利学技术人。学研究生院学位论文 摘要 随着多媒体计算技术的迅猛发展,现有的基于关键字和描述文本的传统检索模式已不 能胜任i 二| 益丰富的多媒体资源n 勺矗;篮,有效管理海量多媒体数据的需求变得i = l 益迫切。基 于内容的检索技术应运h 它,j 以根批媒体和;【! l ! 体对象的内容及上下文联系在大舰模多 媒体数据库中进行检索,址当n u 多媒体领域研究的热点,也是解决上述问题的方法。论文 围绕这一领域作了以下研究:i = 作: 1 数字视频结构复杂不删于传统的字符型数据,对视频检索而言,建立一个合理 的视频数掘结构模型是必需的。沦文在分析现有视频数据模型的基础上,结合m p e g - 7 标 准钏对通刚视频提出了种较为通川的数圳模型,并利刚x m l 实现其语义描述。 2 镜头切变检测是分析视频l :作的第一步沧文分析了现有像素域和压缩域中镜头 检测算法的优劣,并针对视频时空功片划镜头切变所表现出来的不连续特征进行深入研 究,提出了一利一基于时空切片的快逃鲁棒的镜头切变检测方法。 3 视频中的运动特征通常_ 】j 以分为全局运动利局部运动两种,分别表示摄像机运动 和视频对象运动的特征。沦文迎过对啦镜义时空叫片的研究,提出了种基于时空切片检 测摄像机运动的方法。在搬像机运动糯止时,聚j i i j i l , j f f h j 差分法并结合当1 ) 1 | | l i i f | 一边缘信息精 确检测运动物体,扶取刘象运动特征。 4 利用上文提出的钟:法没汁一个通过视频片段进行榆索的实时系统。 【关键词】:基于内容的视频检索,视频数据模型,可扩展式标记语言,时空切片,镜头 分割,摄像机运动,运动分割 第l 贝 防科1 学技术人。学研究生院学付论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fm u l t i m e d i ac o m p u t i n gt e c h n i q u e ,t h et r a d i t i o n a lr e t r i e v a l m e t h o d sb a s e do nk e y w o r d s & d e s c l 。i p t i o nt e x t sa r en o tc o m p e t e n tf o rp e o p l e t h ed e m a n df o r e f f e c t i v e l ym a n a g i n ga b u n d a n ! m u l t i n l e d i ar e s o u r c eb e c o m e su r g e n td a yb yd a y c o n t e n tb a s e d v i d e or e t r i e v a lt e c h n i q u ea r i s e sa tt i l eh i s t o r i cn l o n l c n t i tl n e a n st os e a r c ha n dr e t r i e v a li nt h e e x t e n s i v em u l t i m e d i ad a t a b a s ea c c o r d i n gt om e d i ac o n t e n ta n dt h ec o n t e x to ft a r g e t c b v rh a s b e e np a i dm o r ea n d m o r ea t t e n t i o n sa n ds h a l lb et h em e t h o dt os o l v et h ep r o b l e m sa sm e n t i o n e d - a b o v e t h i sp a p e rh a sd o n et h ef o l l o w i n gw o r ka r o u n dt h i sf i e l d : 1 t h es t r u c t u r eo fd i g i t a lv i d e oi sc o m p l i c a t e da n dd i f f e r e n tf r o mt r a d i t i o n a ld a t ab a s e do n c h a r a c t e r s i ti se s s e n t i a lf o rv i d e or e t l 。i e v a lt os e tu par a t i o n a lv i d e od a t as t r u c t u r em o d e l o nt h e b a s i so fa n a l y z i n gt h ee x i s t i n gv i d e od a t am o d e l ,w ep u tf o r w a r dak i n do fc o m p a r a t i v e l y s u i t a b l ed a t am o d e lf o rv i d e ow i t ht h eh e l po fm p e g 一7s t a n d a r d ,a n dd e s c r i b ei t ss e m a n t i c f e a t u r e sb yx m l , 2 s h o tc h a n g ed e t e c t i o ni sal b a n d a t i o nw o r ki nv i d e oa n a l y s i s i nt h i sp a p e r , w es t u d ym o s t e x i s t i n ga l g o r i t h m s ,a n dp o i n to u tt h e i rm e r i t sa n ds h o r t c o m i n g s a c c o r d i n gt ot i l es t u d yo fv i d e o s p a t i o t e m p o r a ls l i c e s ,w ep r o p o s ean o v e la n df a s ta l g o r i t h mf o rv i d e os h o ta b r u p tc h a n g e d e t e c t i o n 3 m o t i o nf e a t u r e si nv i d e oc a l lu s u a l l yb ed i v i d e di n t ot w ot y p e s t h e ya r eg l o b a lm o t i o n , w h i c hi sc a u s e db yc a m e l l al n o t i o n ,a n dl o c a lm o t i o n ,w l f i c hi sc a u s e db yv i d e oo b j e c tm o t i o n a c c o r d i n gt ot h es t u d yo fs i n g l e - s h o ts p a t i o - t e m p o r a ls l i c e s ,w ep r o p o s ea na l g o r i t h m f o rc a m e r a m o t i o nd e t e c t i o ni nt h i sp a p e r w h e nc a m e r ai ss t a t i c ,w ef i r s tg e tm o v i n gc h a n g er e g i o nb y d i f f e r e n c ea n a l y s i s ,t h e nd e t e c tm o v m go b j e c tt h r o u g hc o m b i n i n gm o v i n gc h a n g er e g i o na n d e d g ei n f o r m a t i o ni nt h ec u r r e n tf r a m e t h e ng e ti t sm o t i o ni n f o r m a t i o n 4 a tl a s t , w ed e s i g na1 e a l t i m ec b v rs y s t e mt h r o u g hv i d e oc l i pw i t ht i l ea l g o r i t h m sw h i c h a r ep r o p o s e db e f o r e 【k e yw o r d s1 :c b v r ,v i d e od a t am o d e l ,x m l ,s p a t i o - t e m p o r a ls l i c e s ,s h o tc h a n g e d e t e c t i o n ,c a m e r am o t i o n ,m o t i o ns e g m e n t 讹i j 贝 ! ! :! 堕型:兰丝查垒兰丛塑= 生堕:兰生丝兰 一一 图目录 剀2 1m p e g 7 + s i g n - :_ f t j 范 矧2 2m p e g 7 柏i n - :f ( jt 篮i 索 图2 3 视频结构化,j j 意矧 图2 4m p e g 4 系统构成示意巨h 图2 5 视频数据结构模型 图2 6m p e g 7 描述结构模型图 图2 7 图像描述一汽1 i 2 f 8 事件描述一撼r i 矧3 1视频时空切片示意蚓 幽3 2时空切片的镜头切变纹删 图3 3 最近邻像素匹配法,j :意图 图3 4 基于时空切片的算法分割结果 图4 1摄像机运动模 图4 2 全局运动矢艟j :| ! l t 像机运动火系图 图4 3时空切片的摄像帆运动纹耻 图4 4 摄像机运动刈应的切片纹理 图4 5h o u g h 变换f | q 刈。秘5 。e 1 :艏i 刊! 图4 6h o u g h 点、线变换效果削 图4 7 镜头运动时剀”l 刳像、边缘斟及h o u g h 变换图像 图4 8 摄像机作复杂运动的模拟切片h 图4 9 寸空切片h o u g h 变换图像 图5 1视频运动对象捡测流删图 图5 2 扫描线填充示意图 图5 | 3 运动对象检测实验结粜 图6 1视频检索总体结构i 划 圈6 2视频预处理模块流利一h 划 一m :2 m墙墙侉拍拍”孔强勉弘”弘”舶钉跎 ! :i 堕盟:i :丝查查:| :竺! 垄! ;些: :生笙三兰 表目录 袭3 1 镜头切变类j 性 表3 2 时空切片法分析视频结粜 表3 3 计算量比较 农3 4 计算量比较: 表4 1摄像机镜头静i i :l l , j 水、卜切片示意例 农4 2 摄像机镜头j 2 i & t t , j 水卜功”_ 感到 表4 3摄像机镜头摊对t | 卜j 水i t 圳”求意l 到 表4 4 摄像机运动捉墩算法结粜 讹v 灭 挖船船勰弘弛 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果,尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:蕴要鲤蛰! 垂盟盘连趣避壅主蕉雄 学位论文作善签名:乳 日期:砷吁年, _ :可旷日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部f 或机构送交论文的复印件和电子 学位论文题目: 出趔盟丝硷越渔熟垄逸包盘璧垄隆 学位论文作者签名:z 弱 日期: 硼严年r ,月旷日 作者指导教师签名 日期:砂中f 月咖 国防科学技术人学研究生院学位论文 第一章绪论 科学研究证明,在人类可以接受的信息中,听觉信息占2 0 左右,视觉信息占6 0 以上,其它如味觉、触觉、嗅觉等加起来不过占2 0 ,可见视觉在人们日常生活中的重要 性。俗话说“百闻不如一见”、“一目了然”,都反映了视觉信息在人类传递信息中的独到 之处。因此,利用计算机进行图像和视频处理,在信息处理中就显得尤为重要。 随着多媒体技术和w e b 技术的发展,包括图像、视频等多媒体信息大量涌现,对这些 海量且包含大量非结构化信息的数据如何组织、表达、管理、查询和检索就成为迫切的需 求。传统数据库中的检索是基于关键字和描述文本的,这种检索技术强调的是字符、数字 形式的标识。而图像和视频作为多媒体资源的主要构成,具有连续性、多维性及不规则性 等等特征,没有一致的取值范围、相同的数量等级,也没有相似的属性集,如果找不到能 对多媒体数据进行有效管理的方法,则大量的信息将被淹没在数据库中,无法在需要时被 检索出来。要解决这个问题就要以基于内容的检索来代替传统的检索方式。近年来,基于 内容的多媒体信息检索披术1 2 | i3 j 已成为一个研究的热点,也成为未来信息高速公路、数字 图书馆等项目中的关键技术。 1 1基于内容的视频检索技术的提出 基于内容的视频检索”“”( c b v r c o n t e n t - b a s e dv i d e or e t r i e v a l ) 是多媒体数据库信 息检索中的一门新兴技术。它是指根据视频数据的底层特征,如视频帧图像的颜色、纹理、 形状、视频中镜头、场景、镜头的运动特征以及音频的音色、音调、响度等,提取出能在 一定程度上表示视频内容的语义特征,然后根据这些特征从存储在数据库的大量视频流中 进行查找,检索出具有棚似特性的视频数据束。c b v r 肫以用户可以接受的响应时问从大 型分f i 数据库中快速查询到所需求的信息。 基于内容的视频检索区别于传统的基1 二关键词的检索手段,它是一门涉及面很广的综 合性交叉学科,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为 基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新 的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人 机界面。 基于内容的视频检索儿有咀下特点: 1 首先需要对非符号型、二膨i ;构化的视频数据进行建模,得到结构化的视频数据,以 便进彳j 二后续的分析工作: 2 突破了传统的基二r 关键碣检索的局限性,直接对视频内容进行分析,提取高层语义 特征,同时,特征提取和索引的建立由计算机自动实现,使得检索的主观程度降低,更接 近视频对象的实质,更大大减少了检索的工作量: 3 视频检索系统需要为用户提供一种友好的人机界面,协助用户方便的描述查询需求, 第1 页 i 朝防科学技术人学研究生院学位论文 并形象的得到查询结果; 4 基于内容的检索实质l 是一种近似匹配的技术,即使对非结构化的视频数掘进行建 模,但由于非字符型数据之间的相似性度量的模糊性,使得视频检索只是一种用户可接受 的匹配程度的检索,而可:可能是精确尤淡的检索这一点与传统数据库检索的精确匹配方 法有明显的不同。 基于内容的视频检索技术有着广阔的应用前最,目阿主要应用于以下几个方面:将基 于内容视频检索引擎嵌入到常规数堋庳管理系统中,以实现多媒体数据的检索:在信息检 索系统中,对专用领域的视频厍进行检索:划i n t e r n e t 上包含在w e b 信息网中h t m l 页面 上的多媒体数据进行基于内容检索等。早期的全文信息检索、罪犯头像的识别和管理、指 纹的识别和管理都是基于内容检索的一些尝试,现在这种技术将扩展到任何媒体和更广泛 的领域。例如,艺术画廊和博物馆管理、建筑与工程设计、地理资源遥感与管理、地理信 息系统、商标及版权数据库管删、数字视频图二持馆、w w w 信息浏览、多媒体c a i 应用、 多媒体出版、电子会议、远程教学、远程i 短疗、天气预报、服装没计以及军事指挥系统等 方面。 1 2本课题国内外研究现状 基于内容的视频检索技术存军事上和k 用上都有非常好的应用前景,虽然内容检索技 术的研究现在已经耿得了 l ;i 大的进展但是距离真正走向实用,还有很长的路要走。本文 期望通过研究视频检索技术的几个问题,为推动这项技术的发展尽绵薄之力。 1 2 1c b v r 的主要研究内容 纵观大量关于介绍螗1 jc b v r 的算法乖l 系统,我们认为c b v r 的研究内容应当包括以 下几个主要方面: 1 建立视频结构化数捌模型 视频结构化主要是指将视频按照内容组织为镜头和场景等比视频帧更高层描述的过 程,是实现视频检索的核心。 人们通常将视频看成一个时叫l 连续的图像序列,通过它叙述件事情,但是在视频 检索中。人们需要通过视频获取信息,如何判断这一段视频中是否包含他们感兴趣的内容, 这就需要将视频数据结构化。最常见的视频结构化工作就是镜头分割,通过镜头分割,可 以实现对视频基于镜头进fj :浏览。o i 足,般的视频中有很多镜头,浏览起米还是很不方 便,另外,镜头是些零散的剪切单元,不能完整表述一个事件,刁i 能成为人们关心的语义 单元。因此,目前研究集1 1 1 在结合多类特征( 如音频、视频、文本等) 抽取视频的语义和 叙事结构上,在多个层次| 二组织视频内择。 2 建立适当的内容特征拙述 特征拙述是c b v r 的核心问题,描述的好坏对检索的效果有直接影响。人们在日常生 活中习惯使用简便的事物概念,例- f c 用“树林、汽车、海滩”等概念表达具体的含义,在 筇2 贝 国防科。学技术人学研究生院学位论文 视频中,它们属于高层语义内容。如果能够建立视频数据底层特征与高层语义概念的关联, 就能够使计算机自动抽取视频数据的语义特征,这也是c b v r 的目标。 3 联合多特征的检索技术 视频包括颜色、纹理、运动等多种特祉,利用这些特,征可以从不同的角度表示视频内 容,综合利用两种或多种视觉特征,容易达到较高的检索率。丽如何按照削户的要求有机 地组纵这些特征来支持查询,是一个值得研究的问题。 4 设计检索系统 设5 1 一个完整的基于内容的视频检索系统,需要涉及人机交互、相关反馈、高维索引 等技术问题。检索系统需要一个友好的人机界面,要求具有多种模式的查询提交方式,检 索结果要直观、明了。区| 为视频内容的特征极其丰富,对于索引能力的要求远远大于传统 数据库,因此还需要研究新的索引结构和算法,以支持快速检索。 5 性能评价 需要有一套能够平衡表达各种场景和事物的标准测试数据来评价检索的效率和效果, 这是一项复杂的工作,要召集相关领域专家收集大量有代表意义的视频数据,以便能够测 试各种算法的效率。在此基础上,定义标准的性能评价准则,如检索率、查准率、查全率、 响应时间等,这样就可以利用标准的检索性能评价准则来全面检验算法的性能。 1 2 2 国内外研究现状 基于内容的视频检索研究工作已经取得了很大进展,初期研究主要集中在分析图像及 视频帧的低层次特征上,如色彩、纹理结构等,近期的工作则集中在更加接近直观内容的 分析上,如视频对象的构成关系、运动特征、视频节目的伴音分析及字幕识别等,反映了 更加接近高层语义信息的趋势。 运动作为视频一个重要的特征,是反映视频变化演进的重要信息,是视频区别于图像 所特有的内容,但是它刁i 是直观可见的,而是隐藏在其它视觉特征诸如颜色、纹理、形状 的变化之中,必须运用特定的方法刊能提取出来。视频中的运动信息又是复杂多样的,拿 一个足球比赛录像来说,其p 既有球员和足球的位置移动,又有摄像机跟踪球员和足球而 引起的运动。因此,在挝墩视频运动特征时,通常将摄像机移动形成的运动信息和视频对 象产生的运动信息分丁l :处理,分别称为全局运动和局部运动。 运动估计是获取视频运动特征的一种传统方法它基于“任意时间光流场亮度不变” j 假设,通过匹配算法估汁出每个像素或区域的运动矢量,作为视频的运动特征。最简单 的全局运动估计就是估汁小图像一一| 饵个像索点的运动矢量,然后取主运动矢量为全局运动 矢量,因此称为像素域运z 力估讣。像素域运动估计算法虽然结果很好,但是由于计算量太 大,导敛效率过低,于赴义衙生了 醍多利n 决述算法,如块匹配运动估计、叫。变形块匹配、 基于网格的运动估计以及分层块匹配估计等等。 全局运动信息并不能全m i 反 叭视频中丰富的运动信息。随着m p e g 一4 以及m p e g 7 等 多媒体国际标准的相继捉“_ 。对视频进行基于内容的操作的要求变得越来越明确。m p e g 4 标准第一次提出了视频刑象( v i d e ( ) o b 。i c c i ) 的概念,将视频场景表示为各自相互独立的 第3 页 刚防科学技术人学研究生院学位论文 视频对象的组合;m p e g 一7 标准则定义了四个运动描述子用来描述视频中的运动特征即 摄像机运动、运动对象轨迹、对象参数运动和运动活动性描述子,其中摄像机运动描述子 就是用来拙述全局运动信息的,j m 蠡动划象轨迹及对象参数运动描述予则需要检测出视频 中的运动对象。 当阿提取视频对象的方法有很多种,按人工参与程度主要可以分为自动提取和人工交 互提取两大类。自动提取算法可以自动地从视频序列中分割出视频对象,如基于光流法的 分割、运动跟踪法和基刁:变化区域的检测法:而人工交互式提取通常是山计算机进行底层 的分割,然后洱通过人:r 抓配心1 _ 卜个| i 牛,j i 的区域属于半自动的视频分割方法,在分 割过程巾需要人为施加影响1 i 能i ! l 动进行。 e h a d e l s o n 和j b e r g e n1 :1 9 8 5 年首次提出视频时空切片b 列的概念,c h o n g - w a hn g o 和张宏江等通过对时空切片的分析【”1 ,提出了分析视频、提取视频运动信息的新方法, 本文的主要研究内容也是建立在这基本方向上的。 在视频检索研究过私中,已开发出多种视频数据检索系统,虽然这些成果大多还没有 用于商业系统,技术水i 卜t :也还微不完善,但已反映了视频数据库系统研究的主要成果。 目前已存在的基于内容的视频检索系统主要有: 1 q b i c 系统 q b i c 系统是i b ma h n a d e n 研究中心研究丌发的基于内容的检索系统,此系统提供了 对静止图像及视频基于内容的检索于段,足第一个功能齐全的视频数据库系统,对视频数 据库发展有较深远的影响。 在q b i c 系统中,静态图像经过对象识别模块以自动、半自动方式出场景中识别出对 象,场景与对象均送入特征提取部分,从,l 一提取出相关特征( 如颜色、纹理、形状、草图 等) 与图像一并送入数据库中:视频序列送入镜头提取模块,由此模块把视频流分割为镜 头序列,并从中提取出代表帧及运动划缘,然后送入特征提取部分,从视频镜头及对象中 提取有关特征送入数据库中。在进行查询1 1 寸,刚户司以从查询接口输入以图形化或示例方 式表示的查询对象特征,b 数据l t - :, r b 存储的对象的内容特征进行比较匹配,寻找出具有相 似特征的图像和视频查咖结果以相似性匹配顺序排列。 2 j a c o b 系统 j a c o b 系统是基于内容的视频数据库查询系统分为两个功能模块:第一个模块用于 视频数据库中的分段,第二:个模块用于数抓:库查询。 视频序列通过镜头j i h 墩模块划分为镜三l 从每一个镜头中抽取一些代表帧( r 帧) ,并 通过它们的颜色和纹理特f i l ( x , 2 镜义如j 以拙述。从视频叶时由取的镜头以及从镜头中抽取的r 帧都存储在镜头数据库| 一,扼进行丰1 5 l 频查啪时,当一个直接查 c i j 或示例查渤提交到查询接 1 2 1 后,匹配引擎通过分析存储在特扑数据库中的数掘来查找最相似的rl i 岐,最终根据用户 预先设定的结果匹配数量显示出胛个最接近的r 帧。 3 v i d e o s t a r 系统 v i d e o s t a r ( v i d e os t o r a g ea n d r e t r i e v a l ) 系统的主要目标是试图建立一个独立于不同 第4 页 防科学技术人学 l j f 究生院学何论文 的数据存储系统的通用框架系统,可与文件系统、关系数据库及面向对象数据库连接到一 起使用,提供管理视频信息的一般功能,并允许用户把其特殊应用加入该系统。 4 v i s u a l s e e k 系统 v i s l i a l s e e k 系统是出荚困哥伦比亚大学图像和高级电视实验室丌发的,实现了互联网 上的基于内容的图像、视频榆索系统,挝供了一套工具供人们在w e b 上查询、检索图像和 视频。 5 c o r e 系统 c o r e 系统是由新加坡国立大学丌发的个基于内容的检索机,其显著技术特色包括: 多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立 基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术等。 另外还有许多类似的系统,例如加利福尼亚大学s a n t ab a r b a r a 分校的n e t r a 、伊利诺 依大学的m a r s 、c m u 的i n l b m e d i a 、哥伦比亚大学的v i d e o q 以及清华大学计算机系联 合8 6 3 高技术研究发展项i _ “w e bj :基! | 容图像检索”研究所建立的i n t e r n e t 网上的图 像检索系统。 1 3论文主要工作 1 3 1 课题内容 本文针对视频检索技术进行了一系列的分析和研究,着重于视频运动特征的提取技术 研究,并提出了具体的实现方法,所做工作主要包括以下几个方面: 1 结合m p e g 7 标准,建立视频结构化数据模型 视频流中有两个固定的抽象层次,整个视频流和单个i 帧。但是这两个层次的视频都不 能准确表达人们所关心的i 勾容,不便于管理,为了对视频数据进行基于内容的查询,首要 的工作就是要对视频数据进行重构,构造基于“镜头一场景”的视频结构。 2 研究分析了目前像素域年n f k n 域中的镜头切变检测算法,并根据对视频时空切片 的研究,提出了一种镜头突变检测的新方法 本文首先介绍了镜头切变的各种类型及其不同表现,研究分析了现有的像素域和压缩 域中镜头切变检测算法的优劣,然后介 甜了视频时空切片的概念,根掘视频时空切片对镜 头变换所表现出来的不连续特征进行了深入硎:究,提出了一种基于时空切片的快速视频镜 头突变检测的方法。该方法能实现在很小虚检概率的条件下,对镜头突变的快速无漏检检 测,算法复杂度很低,。h 刘视频噪声、运动、视频亮度等都不敏感,对视频镜头切变检测 实验时,取得了较好的实验结果。 3 在镜头突变检测晌基础。l ,提出了摄像机运动提取的方法 摄像机的运动表现为切扎i - 的纹理方向,本文在镜头分割结果的基础上,利用h o u g h 变换方法分析单镜头视频 | j - l 训”,提取出摄像机的运动信息。 4 运用变化区域检测力法,实现视频叶运动划豫的提取 第5 页 防科。学技术人学研究生院学位论文 根据对视频序列中州邻眄, i , j , v f f , j , i , j 差圈像进行研究,提出了一种视频序列中运动对象自 动提取的算法。将帧差刚像- 内噪声视为商斯噪声,采用自适应噪声滤波法滤除噪声从而 检测出运动对象所在的大概区域,并结合当前帧的边缘信息,精确提取视频对象边缘,最 后采用扫描线填充算法刑视频划象填充扶得精确的视频对象。实验结果表明,该方法是 有效且鲁棒的。 1 3 2 论文组织 论文共分七章,各章的书婴内容如f : 第一章主要介绍了课题蹦内外研究现状,给出了课题研究的目的、意义以及本文的主 要工作; 第二章数字视频的主要特征及检索方法概述,介绍了数字视频的主要特征和结构,并 简要介绍了基于内容的视频检索系统: 第三章研究了镜头切变的几种类型及其不同表现,分析了现有像素域和压缩域中镜头 切变检测算法的优劣,提了种基于时空切片的快速镜头突变检测方法; 第四章在检测出单个镜头切变的撼础上,运用h o u g h 变换,分析视频单镜头切片图像, 捉取摄像机运动信息; 第五章为视频对象挺取部分日先分析了当l 讨的视频分割算法,然后提出了一种变化 区域检测算法,采用自适应噪声滤波法滤除噪声检测出运动对象的大概区域,并结合当前 帧的边缘信息,精确提取视频对绿边缘,最后采用扫描线填充算法对视频对象填充: 第六章为构造视频检索系统部分,视频检索系统主要由数据库构成子系统和数据库查 洵子系统两个部分组成,小章分别介绍了其主要构成以及功能实现; 第七章对本文的工作做出总结和展望,以指导后续的研究工作。 销6 页 里堕型堂些查苎堂塑茎竺堕堂生笙苎 一 第二章视频数据模型 基于内容的视频检索研究主要可分为建立视频数掘模型、提取视频特征并进行描述和 建立索引以及基于特征捕述的快速检索三部分。其中视频数据结构模型的建立是一个最基 础的问题,是基于内容的视频检索的核心和基础,它决定了系统支持的查询类型和检索能 力,对视频数据库的性能柯着- i i v , q i 关键的影l j 眦 本章首先介绍了多媒体数据庠的发展,研究了数字视频的特点,根据其特点提出了视 频的结构化方法,然后捉t 了一利一l 】川h 二攮于内容视频检索中的结构化视频数据模型,最 后介绍了丛于x m l ( e x t c n s i b l em a r k u pl a n g u a g e ) 的视频结构化拙述方案。 2 1多媒体数据库的发展 2 1 1 数据库发展概述 随着数据库技术的不断发展,它已经逐渐成为先进信息技术的重要组成部分,成为现 代计算机信息系统和计够机应川系统的j i 圳 和核心。数据库技术最初产生于2 0 世纪6 0 年 代中期,根据数据模型的发爬,r f j 以划分为三个阶段:第一代的网状及层次数掘库系统、 第二代的关系数掘库系统和第i 代的以i 对象模型为主要特征的数据库系统。 第一代数据库的代表足19 6 9q - i b m 公司研制的层次模型的数据库管理系统i m s 和7 0 年代美国数据库系统语削办商c o d a s y l 下属数据库任务组d b t g 提议的网状模型。层次 数据库的数据模型是有根的定向有序树,咧状模型对应的是有向图。这两种数据库奠定了 现代数掘库发展的基础,它们具确如下j l 个共同的特点:1 支持三级模式,保证数据库系 统具有数掘与程序的物耻独立i j - :年t l 一定的逻辑独立性;2 用存取路径来表示数据之间的联 系;3 有独立的数据定义滑南:4 导航j 咖q 数据操纵语言。 第二代数据库的主要特征是支持关系数据模型。关系数据模型具有以下特点;1 关系 模型的概念单,实体和实体之州的联系用关系米表示:2 以关系数学为基础:3 数据的 物理存储和存取路径对用j j - 不透明;4 关系数据库语言。是非过程化的。 随着科学技术的不断进步,各个j f f l k 领域对数据库技术提出了更多的需求,关系型数 据库已经不能完全满足需求,于是产生了第三代数据库。主要有以下特征:1 支持数据管 理、对象管理和知识管列! :2 保持和继承了第二代数据库系统的技术;3 对其它系统丌放, 支持数据库语言渤i 准。支持标准i 叫络l 办议,有良好的可移植性、可连接性、可扩展性和互 探作。肚等。 第三代数掘库支持荚系模型、埘向对琢的模型等多种数据模型,并和分砷j 处理技术、 并行计算技术、人工智能技术、多媒体技术等诸多新技术相结合,广泛应用于商业管理、 g i s 、计划统计等多个领域,多媒体数抓:也是其i :生出的一个新型数掘库技术。 多媒体数据库作为管州多; ! l :体信息的有效手段,必然要成为多媒体研究的重要方向。 早在1 9 8 3 年的第9 届v l d b 会议一i :,d t s i c h n t z i s 和s c h r i s t o d o u l a k i s 等几位学者就联合 第7 页 防利t 技术人学埘f 究生院学位论文 提出了多媒体数据库( m u l t i m e d i ad a t a b a s e ) 的概念,但他们的想法一直没有得到重视。 直到近几年随着计算机及m 络技术的迅猛发展,多媒体技术在各行各业中的广泛应用, 多媒体逐渐成为计算机 :业的研究热点,人们才真i f :投入大量精力研究多媒体数据库。这 时,多媒体数据库技术彳得到了高速的发展。 多媒体数据库集成了蚓像、视频、音频等非格式化信息,它们具有数据量大、信息不 定长、结构复杂等特点洲;以j = f j 传统数据厍中以字符和数字符号为拙述的方法进行管理。 因此多媒体数据库不仅要能对l 笙f 像、视频利卢音等媒体进行存储以及基于关键字的检索, 而且要对多媒体数据内容进行自动语义分析、描述耵i 检索。 2 1 2 数据模型 在数掘库中的数据刁i 仅仅是数据本身内容的总和,而且反映了数据之问的联系。但是 计算机不可能直接处理现实世界中的事物,所以人们必须将具体事物转换成为计算机能够 处理的数掘。为了在数据库中对现实世界中的数据之间的联系进行抽象、表示和处理,人 们引入了数据模型这一概念。在数据库技术中使用模型的概念描述数据库的结构和语义, 把表示实体类型和实体之m 联系的模型称为数据模型( d a t am o d e l ) 。 数捌模型是数据库系统一m _ :提供信息表示平操作手段的形式构架一般由数据结 构、数据操作和完整性约束三部分组成。数据结构是研究对象的集合,包括与数据类型、 内容、性质有关的对象,与数据之州联系有关的对象,用以描述数掘库的构造,是数据库 的静态特性,它刻画了个数据模型中最重要的性质和内容;数据操作描述了数据库的动 态特性,定义了对各种对蒙允许执行的各利t 操作的集合;约束条件则是一组完整性规则的 集合,用以限定符合数据模型的数捌库的状态及状念的变化,以保证数据库的f 确性和有 效性。 对数据模型主要有i 个方砥的要求卜 j :一是能比较真实客观的反映现实世界,二是能 够容易被人理解,三是能匈多乃。便的在计鳟机上实现。目自h 传统的数据库所支持的数据模型 主要有三利,:层次模型、| ) 【) 9 状模型、关系模型。层次和网状模型主要是用一个树来描述信 息世界,每一个节点为一个记录类型,每个记录类型有多个字段,字段描述实体属性。关 系模型则用一张张的表格米描述现实山:界,每个行为一个记录,每个记录中有多个字段, 每个字段描述实体属性。现有的这儿种数捌模型都还只能在一定程度上满足对数据模型的 三方面要求。 多媒体数据建模是项t 分刚难的工作,它需要建立一个统一的模式来描述、组织和 处理现实世界的各利t 多;c ! i l 体剥象,i f i 且还要涉及多媒体数据的存储结构和查询处理。尽管 传统数据库技术中的数抓模型发展已经较为成熟,但由于视频数掘是非结构化,具有复杂 性、时序性、冗余性和分砷性等特点,j 传统数抓库所操作的字符型、数字形式的对象很 不同。很难将现有的数据库系统的数据模型直接套用到视频数据中来。建立视频数据模型 的关键是怎样把多媒体信息所具有的复杂关系用实用化的方法在数据模型的层次上有效 地描述出来。 第8 页 防利学技术人学研究生院学位论文 2 2m p e g 7 标准概述 随着视频技术的发腱,基于内容的视频检索成了引人关注而又富有挑战性的课题,并 且具有广阔的市场潜力。1 :j | 【目前许多关键技术尚未解决,尤其是特征描述方面尚不规范, 导致检索时没有统一标准,i 翻此 醚难走向实用。 为了解决对多媒体信息描述的标准问题,国际活动图像专家组( m p e g ) 于2 0 0 1 年, 发展了一个新的国际标准m p e g 一7 ,全称为多媒体内容描述接口 5 1 。m p e g 7 将扩展现有 标识内容的专用方案及有限的能力包含更多的多媒体数据类型,换句话说,它将规范一 组标准描述子集合,用于描述各种类型的多媒体信息,也将对定义其他描述子以及结构( 称 为描述模式) 的方法进行标准化,这些描述( 包括描述子和描述模式) 与其内容关联允 许快速有效地搜索用户感兴趣的资料,m p e g 7 还制定一种标准化语言来说明描述模式, 即描述定义语言。带有m p e g 7 数据的音视频( a u d i o v i d e o ,a v ) 资料可以包含静止图 像、图形、3 d 模型、音频、语音、视频,以及这些元素如何在多媒体表现中组合的信息, 便于存储、检索和交互。 匿l2 1m p e g 7 标准的范围 图2 1 是m p e g 7 处姐! 链的一种高度抽象示意图,用于解释m p e g 一7 标准的范围。从 图中可以看到,m p e g 7 标准的范幽只赳捕述部分,特征捉取和搜索引擎都不属于它的范 畴,主要原因是不需要对它们标准化以建立互操作性,而是留有竞争的余地,另一个原因 是在技术领域允许采纳更好的改进方案。 2 2 1m p e g 7 标准的主要元素 m p e g 7 可以适用二】二巧i 同环境c f i 的不刷应用,这就要求m p e g 7 为视听数据的描述提 供一个灵活的、可扩展的框架,所以,m p e g 7 的目的并不是去定义一个集成的系统,而 是从视听内容描述的不同j :f | 度定义系列的方法和工具。m p e g 7 标准描述的主要元素包 括: 1 描述子d ( d e s c r i p t o r s ) :描述予是特征的表示,它定义特征表示的句法和语义 描述子可以赋予描述值。个特钲u t 以有多个描述子,例如颜色特征可能的描述子有颜色 直方图、频率分量的平均值等。 2 描述模式d s ( d e s c r i p t i o ns c h e m e s ) :描述模式说明成员之间的关系结构和语义, 这里的成员包括描述子和捕述模式。但与描述子不同的是,描述模式不仅包含基本的数掘 类型,还引用其它的描述于和描述模式。 3 描述定义语言d d l ( d e s c r i p t i o nd e f i n i t i o nl a n g u a g e ) :描述定义语言是一种允许 产生新的描述子和拙述模的语五川时也支持扩展和修改现有的描述模式。 第9 页 团防科学技术人学研究生院学位论文 4 系统工具:包括支持扪述的多路复圳、描述与被描述内容的同步、转换及编码( 包 括文奉的和二进制两种格) 机制等: 具,以实现m p e g 7 描述的有效存储转换和保护知 识产权的功能。 应恢酏,对于m p e g 7 的标准描述,描述模式是描述生成的基础,而描述定义语言提 供了建立描述模式的机制。下面的图2 2 说明了它们之l i 自j 的关系。 图2 2m p e g 7 标准的主要元素 2 2 2m p e g 7 标准的组成 m p e g 7 标准主婴包括m p e g 一7 系统、m p e g 7 描述定义语言、m p e g 7 音频、 m p e g 一7 视觉描述、m p e g 7 多媒体描述模式和m p e g 7 校验模型等部分,以下简要介绍 这几个组成部件。 1 m p e g 7 系统 m p e g 7 系统包括一系列的: 具。这些工具包括实现m p e g 7 描述的预处理工具,维 护内容和描述之i 白j 同步的i :具,有效存取管理m p e g 7 描述的工具以及利用m p e g 7 保护 知识产权的工具等等。此外,m p e g ,7 系统还定义了终端的结构和规范的界面,所谓终端 ( t e r m i n a l ) 是指运用m p e g 7 编码描述的实体,可以对应一个应用程序或者应用系统的 一部分。 2 m p e g 7 描述定义语言+ m p e g 7 描述实现l ! | 勺r 卜婴: 具是描述定义语言d d l 、描述模式d s 和描述子d 。描述 子把特征与特征值连接超米,i 盯舶述模式足多媒体刘。象的模型,制定了在一个特定的描述 中描述子的类型以及描述了和其他描述模式之间的关系。 拙述定义语言d d l 址m p e g 7 的核心,它定义了连接描述模式和拙述子的语法规则, 是m p e g 一7 中创建描述模利描述子的语南,同时也支持对已存在的描述模式的扩展和修 改。d d l 不是一种建模语i i 丽魁一种模语南,一种主题语言用来拙述划视听数据进 行建模后得到的结果,它足独立_ - j 2 | t 台和应用程序的。 根据以上的要求,m p e g 专家组拟采用w 3 c 的x m l 模式语言作为m p e g 7 的d d l 捻l o 页 川i 圻科i :披术人1 学研究生院学何论文 的语法堪础。但是,x m i 。j f :_ i 足为视听内容所设汁的,必须对x m l 进行扩展,从逻辑上 讲,m p e g 一7 的d d l 分为x m l 模式结构组件、数据类型组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论