(信号与信息处理专业论文)基于mpeg7的视频数据库存储检索技术研究.pdf_第1页
(信号与信息处理专业论文)基于mpeg7的视频数据库存储检索技术研究.pdf_第2页
(信号与信息处理专业论文)基于mpeg7的视频数据库存储检索技术研究.pdf_第3页
(信号与信息处理专业论文)基于mpeg7的视频数据库存储检索技术研究.pdf_第4页
(信号与信息处理专业论文)基于mpeg7的视频数据库存储检索技术研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着通信和计算机技术的发展以及大型视频图像数据库的出现,传统的基 于文本关键字的图像检索方法逐渐不能满足人们对高效信息检索的需求。如何 快速准确有效的检索查询所需的多媒体信息,已经成为需要追切解决的问题。 基于图像视频自身的视觉内容的图像检索技术提出与研究是信息时代发展的 必然。随着多媒体内容描述接口m p e g - 7 标准的逐步制定和完善,更加推动了 高效的基于内容的多媒体信息检索系统的研究与开发。与此同时公路交通事业 迅速发展,其对车辆自动识别及管理效率的要求也随之提高。本文基于m p e g 7 标准针对交通监管类视频的车辆检索进行研究。 针对这一研究领域,本文对视频关键帧图像的特征提取、图像相似度的度 量、检索性能评价标准以及相关反馈技术等关键技术进行了深入研究。首先分 析了基于内容的图像检索的发展背景和发展趋势,并对目前国内外典型的图像 检索系统研究使用现状进行了研究与分析。其次,对视频信息预处理方法进行 了研究,其中包括视频关键帧提取方法及关键帧图像特征的提取方法的研究与 探讨。最后,在得到视频关键帧图像特征的基础上对m p e g 7 颜色及形状特征 描述方法进行了深入的研究。并将所得到的特征值记录到m p e g 7 特征库,以 此为索引根据给出的目标图像进行相似度比较,实现基于内容的视频图像检索。 在深入研究视频检索技术相关理论的基础上,在v i s u a lc + + 软件开发平台 设计并实现了一个基于m p e g 7 多媒体内容描述标准的视频多媒体信息存储检 索系统。该系统框架能适应多种图像检索技术,可以通过选择的示例图像分类 浏览检索视频图像信息,也可以通过颜色、形状等特征值进行图像检索。本系 统的特色在于实现了基于用户自定义草图的图像检索,与视频图像数据库之间 进行相似度比较输出检索结果图像集。基于用户自定义草图的图像检索的研究 具有重大研究意义且将成为未来多媒体信息检索的必然发展趋势。 关键词:m p e g 7 ,视频检索,视频数据库,关键帧图像,特征提取 a b s t r a c t a st h ed e v e l o p m e n to fc o m m u n i c a t i o na n dc o m p u t e rt e c h n o l o g y , a sw e l la st h e e m e r g e n c eo fl a r g e s c a l ev i d e o i m a g ed a t a b a s e ,t h et r a d i t i o n a lt e x t b a s e dk e y w o r d i m a g er e t r i e v a lm e t h o dc a l ln o ts a t i s f yp e o p l e sn e e d si np r o g r e s s i v ea n de f f i c i e n t i n f o r m a t i o nr e t r i e v a l h o wt or e t r i e v a lt h e i n q u i r e di n f o r m a t i o na c c u r a t e l ya n d e f f e c t i v e l y h a sb e c o m e 趾u r g e n tp r o b l e mn e e d e dt ob er e s o l v e d r e t r i e v a l t e c h n i q u e sa n dr e s e a r c hb a s e do ni m a g ev i d e o 。so w nv i s u a lc o n t e n tp r o p o s e dt ob e i n e v i t a b l ed e v e l o p m e n to ft h ei n f o r m a t i o na g e w i t ht h ep r o g r e s s i v ed e v e l o p m e n t a n dr e f i n e m e n to fm p e g - 7s t a n d a r d , m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a c e , r e s e a r c ha n dd e v e l o p m e n to nc o n t e n t - b a s e dm u l t i m e d i ai n f o r m a t i o nr e t r i e v a l s y s t e m s h a db e e nm u c hm o r e p r o m o t e d a tt h e s a m et i m et h eh i g h w a y t r a n s p o r t a t i o ni n d u s t r yd e v e l o p sr a p i d l y , w h i l er e q u i r e m e n tf o re f f i c i e n c yo f a u t o m a t i cv e h i c l ei d e n t i f i c a t i o na n dm a n a g e m e n ti n c r e a s e sa l o n g 、i t hi t a g a i n s tt h e a p p l i c a t i o nf i e l d ,t h i sp a p e rm a k e sr e s e a r c ho fv i d e or e t r i e v a lb a s e do nm p e g - 7 s t a n d a r df o r 仃a 伍cc o n t r o lo fv e h i c l e s i nr e s p o n s et ot h i sr e s e a r c hf i e l d ,t h i sp a p e ra d o p t d e p t hs t u d yo fv i d e or e t r i e v a l t e c h n o l o g yo nt h eb a s i so fr e l e v a n tt h e o r i e s ,t h ef e a t u r ee x t r a c t i o no fv i d e ok e y f r a m ei m a g e s ,i m a g es i m i l a r i t ym e a s u r e m e n t ,r e t r i e v a lp e r f o r m a n c ee v a l u a t i o n c r i t e r i aa n df e e d b a c kt e c h n o l o g i e s m p e g - 7s t a n d a r dt od e a l 、衍t ht h ev a r i o u s d i f f e r e n tm u l t i m e d i ac o n t e n td e s c r i p t i o n ,i no r d e rt om a k ei tc o n s i s t e n ts oc a nb e a d a p ta l lk i n d so fr e t r i e v a ls y s t e m sa n ds e a r c he n g i n e s t h e r e f o r ea c h i e v ef a s ta n d e 伍c i e n tm u l t i m e d i ai n f o r m a t i o nr e t r i e v a la n da c h i e v eb e t t e r1 0 c a t eo ft h ev i d e o i n f o r m a t i o n f i r s t l y d e s c r i b e st h ed e v e l o p m e n t b a c k g r o u n d a n dt r e n d so f c o n t e n t b a s e di m a g er e t r i e v a l ,a sw e l la sc u r r e n ts i t u a t i o no ft y p i c a li m a g er e t r i e v a l s y s t e mu s i n gi nf o r e i g nc o u n t r i e s s e c o n d l y , i no r d e rt or e a l i z et h en e e df o rv i d e o i n f o r m a t i o nr e t r i e v a lw ec a r r yt h r o u g ht h ev i d e op r e p r o c e s s i n g ,i n c l u d i n gv i d e ok e y f r a m ee x t r a c t i o n ,a n de s t a b l i s hav i d e oi m a g ed a t a b a s ef o rt h ee x p e r i m e n tv i d e o sa n d i m a g e s p r e m i s eo fv i d e ok e yf r a m et ok e yf r a m ei m a g er e a l i z ef e a t u r ee x t r a c t i o n b a s e do nm p e g - 7d e s c r i p t i o n s ,a n dt h er e s u l t i n gc h a r a c t e r i s t i c sa r er e c o r d e di n c h a r a c t e r i s t i c sl i b r a r i e s ,a sf o rt h ei n d e xt oa c h i e v ec o n t e n t b a s e di m a g er e t r i e v a l i n d e p t hs t u d yo fv i d e or e t r i e v a lt e c h n o l o g yo nt h eb a s i so fr e l e v a n tt h e o r i e s , d e s i g na n di m p l e m e n ta v i d e om u l t i m e d i ai n f o r m a t i o ns t o r a g ea n dr e t r i e v a ls y s t e m s b a s e do nm p e g 7m u l t i m e d i ac o n t e n td e s c r i p t i o ns t a n d a r do nv i s u a lc + + s o f t w a r e d e v e l o p m e n tp l a t f o r m 1 1 1 es y s t e mf r a m e w o r kc a na d a p tt oav a r i e t y o fi m a g e r e t r i e v a lt e c h n i q u e s ,c a nb ea ne x a m p l eo fi m a g ec l a s s i f i c a t i o nb ys e l e c t i n gb r o w s e a n ds e a r c ht h ev i d e oi m a g ei n _ f o r m a t i o nc a na l s ob ec o l o r ,s h a p ea n do t h e r c h a r a c t e r i s t i cv a l u e sf o ri m a g er e t r i e v a l n l ec h a r a c t e r i s t i c so ft h i ss y s t e mi st o a c h i e v eu s e r - d e f i n e ds k e t c hb a s e di m a g er e t r i e v a l ,a n dv i d e oi m a g ed a t a b a s e , s i m i l a r i t yc o m p a r i s o nb e t w e e nt h eo u t p u to ft h ei m a g es e to fs e a r c hr e s u l t s b a s e d o nu s e r - d e f m e ds k e t c hi m a g er e t r i e v a lr e s e a r c hi so fg r e a tr e s e a r c hs i g n i f i c a n c ea n d w i l lb et h ei n e v i t a b l ef u t u r eo fm u l t i m e d i ai n f o r m a t i o nr e t r i e v a lt r e n d s k e y w o r d s :m p e g - 7 ,v i d e or e t r i e v a l ,v i d e od a t a b a s e s ,k e y - f r a m ei m a g e s ,f e a t u r e e x t r a c t i o n i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 签名:j 豳强叠一一日期:埤垒:1 一 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即学校有权保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位 论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或 其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认 可的国家有关机构或论文数据库使用或收录本学位论文,并向社会 公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :董歪盎导师( 签名) :圣竺:日期:= 1 2 11 :2 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究背景及意义 随着计算机处理能力日益增强,网络技术的广泛普及和网络带宽不断提高, 大量的多媒体信息不断地产生。多媒体信息包括数字、文本、图形、图像、音 乐、语音、动画和视频等各种信息。多媒体获取设备的普及,又造成大量多媒 体数据不断积累。这些数据汇聚为一个海量的多媒体数据库。然而目前在实际 应用中,如何从这些海量数据中搜索人们感兴趣的信息并有效利用这些信息却 依然是公认的难题。对于文本信息,现在己经有了很多基于关键字的搜索引擎 来为用户提供服务。然而,对于多媒体数据,以图像为例,传统的图像检索利 用文本对其内容进行描述,这样的方法虽然简单,但存在一个根本的问题影响 对图像信息的有效使用,图像内容丰富很难用文字完全表达。 针对这一发展形势,基于内容的图像检索( c o n t e n t - b a s e di m a g er e t r i e v a l , c b 取) 技术在2 0 世纪9 0 年代初期应运而生。基于内容检索图像是通过对图像 自身的视觉内容,即图像底层特征如颜色、纹理、形状等特征的描述来实现的。 此外,由于多媒体信息包含的信息量较一般图像文本信息更为复杂且涵盖的信 息量复杂庞大,对其内容的描述缺乏统一标准,这就导致c b i r 系统的通用性 得不到保证从而限制了其在i n t e m e t 上的实用化进程。 鉴于此,国际标准化组织下的m p e g ( m o v i n g p i c t u r ee x p e r t sg r o u p ,运动 图像专家组) 委员会制定了一个国际化标准m p e g 7 ( m u l t i m e d i ac o m e m d e s c r i p t i o ni n t e r f a c e ,多媒体内容描述接口) 。它提供一种标准化的描述接口来 统一各种不同类型多媒体信息内容的描述方式,并将该描述与信息内容本身相 联系,以便适应不同层次上的用户对信息的需求,实现快速有效的检索各种多 媒体信息。 m p e g - 7 在数据管理方面表现灵活,同时由于其为各类视音频信息提供标 准化的内容描述接口,因而使得数据资源全球化、各类检索系统及搜索引擎之 间互操作性强,允许人们按其内容快捷和有效的检索多媒体数据【2 j 。m p e g - 7 涉及的应用领域十分广泛,目前主要有三个方面:索引和检索类应用视频 数据库存储和检索,商标的注册和检索;选择和过滤类应用个人电视服务, 武汉理工大学硕士学位论文 面向用户的智能信息浏览系统;专业化应用远程购物,通用信息存取1 3 】。 m p e g 7 标准的提出对使得标准描述的图像内容应用到实际的c b i r 系统 中,从而改善检索系统的通用性,并提高检索资源的重复利用率,提高检索效 率,符合新人类对速度的追求。随着网络及多媒体运用的普及对c b i r 及 m p e g 7 标准在c b i r 中的应用体系实现方法的研究具有深远的意义,也将面 临巨大的挑划4 1 。 与此同时随着高速公路的普及以及公路交通事业的迅速发展,人工主动管 理方式已经满足不了大规模交通监管的需要,因此,对于车辆自动识别及车牌 自动识别技术的研究就拥有其存在的必要性和迫切性。车辆自动识别技术是指 通过识别车辆车型或车辆所具有的车牌、射频识别标志等特征来自动识别车辆 的技术,在现代交通监控及管理中扮演着越来越重要的角色。因此本文所设计 的视频检索系统所采用的视频图像素材全都为交通监管类视频,系统设计的目 的在于实现对车辆车型的自动检索查询。 1 2 国内外发展现状 多媒体信息检索是在数据库系统和计算机视觉两大研究领域的推动下开展 起来的,其历史可以追溯到2 0 世纪7 0 年代末期。 1 9 7 9 年在f l o r e n c e 召开了的关于图像应用的数据库技术会议上,图像数据 库管理技术首次进入广大研究人员的视线并引起广泛的注意。由于当时文本检 索技术的研究较为成熟,早期的图像数据管理和检索技术都是基于文本关键字 来实现的。 实现方法是先用对图像信息文本注释,且由于当时的技术水平还无法实现 自动文本描述,因而这些文本注释都是通过人工完成的,其生成过程费时费力; 且由于同一幅图像在不同的观察者看来可能会有不同的反应,由此主观影响而 产生不同的描述文本,这将造成在检索信息过程中返回存在偏差或错误的检索 结果集。 完成文本注释后再利用基于文本的数据库管理系统来检索图像信息。用这 种技术实现图像检索时,图像的收集、分类和标注都由人工来实现。检索时, 主要在这些图像的标注中搜索用户输入的检索词。a m a z i n gp i c t u r em a c h i n e 图 像检索系统是基于文本图像检索技术应用的典型代表【5 】。它由专门教师负责选 择图像丰富的站点,然后对每幅选定的图像进行内容描述,给出关键词。 2 武汉理工大学硕士学位论文 然而,基于文本的图像检索存在严重的问题。大部分图像或视频所包含的 内容( 例如颜色、纹理等) 非常丰富,很难用文字完全表达;其次,由于每个 人作为一个个体都有其特定的描述习惯因而对图像的文本描述就缺乏统一的描 述标准,这些都使得基于文本的图像检索在使用过程中具有很大的局限性。 到了2 0 世纪9 0 年代,随着i n t e m e t 和各种新兴数字图像技术的发展,在科 学、教育、医学、工业等领域产生了大量的视频音频多媒体信息 6 1 。基于文本 的信息检索技术面临的困难日益加剧,难以应对用户对丰富的多媒体信息的需 求,如何有效地管理飞速增长的视频信息变成了一个需要迫切解决的问题。1 9 9 2 年,在美国国家科学基金会组织的一个关于视频信息管理系统的发展及研究方 向探索会议上,专家们一致认为基于视频图像本身内容特征的视频信息表示和 索引是较基于文本方式更为有效直观的方法。因此,在该会议上提出了基于内 容的视频图像多媒体信息检索,并且在其研究热度随后的几年中不断升温。 近十年来,基于内容的图像、视频数据的检索是计算机视觉、图像数据库 与知识挖掘等领域最活跃的研究热点之一。每年都有相关的国际会议召开,如 s p i e 的图像及视频数据库的存储检索,a c m 多媒体信息处理等学术会议,并且 有大量相关研究成果及论文发表。同时,国内外很多研究机构也都在进行相关 的研究工作,已经开发出了大量的科研和商业检索系统,如c m u 公司的 i n f o m e d i a 、m i t 集团的p h o t o b o o k 、1 1 3 m 公司的q b i c 等1 7 j 。而近年来随着多媒 体内容描述接口m p e g 7 标准的逐步制定和完善,更加推动了高效的基于内容 的视频图像多媒体信息检索系统的研究与开发。它将对视频、教育、娱乐、电 影、地理信息系统、医疗应用、电子购物、调查服务和无线广播归档等应用领 域产生巨大的影响,随着视频图像多媒体内容描述的标准化,基于内容的多媒 体信息检索将朝着商业化产业化的方向而发展【3 j 。 1 3 论文主要工作 本文主要研究了基于m p e g 7 视频数据库的存储检索技术,并对整个系统 的实现进行了设计。涉及有视频的关键帧提取,关键帧图像的特征提取及内容 描述,视频数据库的设计,最后建立基于m p e g 7 标准的视频内容存储检索系 统模型。 本文重点研究内容及所做的工作: 1 ) 从视频内容的概念出发,根据m p e g 7 标准,在视频内容分析的基础 武汉理工大学硕士学位论文 之上,建立基于m p e g - 7 标准的视频内容描述模型,并使用m p e g 7 标准对视频数据进行描述。 2 ) 建立一个基于颜色直方图、颜色分布及形状等图像特征建立一个基于 图像内容的视频数据库。并在该数据库基础上基于视频内容分析建立 基于m p e g 7 标准的视频内容存储检索模型。 3 ) 对基于内容的图像检索技术和m p e g 7 标准进行较全面深入的研究; 在研究m p e g 7 中描述符提取方法的基础上,实现基于颜色直方图、 颜色分布和基于纹理特征的图像检索方法;并将m p e g 7 中描述符应 用到图像检索系统中,以确保系统的通用性。 4 ) 基于对m p e g 7 多媒体内容描述的研究,通过对m p e g 7 类库的实现, 在v i s u a lc 刊平台构建一个基于内容的视频检索系统。 1 4 论文组织结构 各章节的主要内容为: 第l 章绪论。综述本文所涉及领域关键技术的国内外现状,以及现有的开 发成果;概述了论文的基本内容以及本人所作的工作。 第2 章介绍了课题工作的系统理论,包括m p e g 7 标准的内容及其组成, 同时对m p e g - 7 在视频信息检索系统中的应用,并阐述了视频信息检索系统设 计的总体方案;设计数据表,为后期系统的开发建立了一个良好的数据库基础。 第3 章对m p e g 7 的颜色特征提取方法及特征描述方法进行研究,将其应 用到视频图像检索实验,并根据评价准则对其性能进行分析。 第4 章对m p e g 7 的形状特征提取方法及特征描述方法进行研究,将其应 用到视频图像检索实验,并对其性能进行分析。 第5 章给出了一个面向m p e g 7 的视频数据库的存储检索原型系统的具体 实现。系统的开发环境;各个子模块的功能介绍及其具体实现。 第6 章对整个系统的研究与设计进行总结,分析课题中有待完善和改进的 方面,并对m p e g 7 在视频信息检索系统中未来发展趋势和应用前景作了展望。 4 武汉理工大学硕士学位论文 第2 章基于m p e g 7 的视频检索系统的总体设计 第1 章对本文的总体结构、课题研究目的及意义进行了阐述,本章主要就 系统实现过程中所涉及的各方面理论知识进行了深入的研究,并对视频信息检 索系统的总体设计思路及设计方案进行了分析和探讨。 2 1 多媒体内容描述标准m p e g 7 多媒体内容描述标准m p e g 7 是针对日渐庞大的图像、视频、音频等多媒 体信息的有效管理和快速检索而提出的。它是一个规定多媒体信息内容表达描 述的标准,试图规范对不同种类多媒体信息的内容描述使基于信息内容的管理 和检索不受表达形式不统一的限制。m p e g 7 标准目前规范描述的多媒体信息 主要为视音频信息,包括静止图象、序n 运动图像、计算机图形、3 d 模型、 动画、语言、声音等1 7 1 。 2 1 1m p e g - 7 标准内容与组成 m p e g 7 为视频图像多媒体信息检索中信息的描述提供了标准,这些描述 与信息内容本身特征相关以便用来快速、有效的查询和访问各种多媒体信息, 大大提高了视频图像多媒体信息检索系统的通用性和可复用性。它的适用范围 广泛,既可用于信息的在线或离线存储,也可用来实现类似信息广播方式的流 式应用【7 1 。任何类型的a v 素材只需带有与其视音频信息内容相关的m p e g - 7 数据,就可以加上信息索引,进行基于内容的信息检索【8 】。这些a v 素材可能包 括静止图像图形、视频及音频,还包括了关于这些成分如何组成一个多媒体表 述的信息,即对其信息内容的描述。 标准描述子集合是m p e g 7 标准定义的用于各种类型的多媒体数据描述的 描述方法集。这些描述子与所制定的多媒体对象的内容紧密联系,采用提取对 象特征的方法为实现基于内容的语义的准确检索提高了接口。在此基础上, m p e g - 7 定义了一种新的语言“描述定义语言”用于指定和生成描述方案, 描述定义语言是m p e g 7 的核心【9 】。此外,m p e g 7 标准还规定了一个标准集 合“描述方案”,该集合用于规范描述各种不同类型多媒体信息的描述符,规范 武汉理工大学硕士学位论文 多媒体描述子的生成和不同描述子之间的有机联系,标准化其描述方案中关于 其他描述符及其结构与m p e g - 7 标注集之间的关系,并给出了实现方法。 基于m p e g 7 标准对视频图像多媒体信息内容进行描述既可以通过手工 输入特征值,也可以通过系统程序实现特征自动提取。m p e g 7 标准中并没有 规定特征的提取方法,研究者可以根据具体实现或个人习惯选择实现特征的提 取算法。但某些特征最好自动提取,如图像的色彩、纹理、形状特征等;另一 些特征,如某一视频片段中包含三五个房子或是某段音频文件录制年代等,则 很难甚至不可能自动提取,所以视频图像多媒体信息的特征提取方法要根据描 述的内容类型及信息包含的结构层次来决定。 2 1 2m p e g - 7 与基于内容的多媒体信息检索的联系 m p e g 7 标准是关于内容描述的,它与基于内容的多媒体信息检索系统的 联系如图2 1 所示,虚线框中所表示的即为整个多媒体信息检索系统。由图2 1 可见,m p e g 7 处在基于内容的多媒体信息检索系统里的中心位置。 m p e g 7 的前端是特征提取,也就是说m p e g 7 是建立在特征提取基础上 的,它只对已经经过处理得到的特征信息进行描述,而并不关心这些特征是如 何得到的【l o 】。m p e g - 7 的后端是搜索引擎,它利用根据m p e g - 7 标准进行描述 的特征内容来进行检索得到检索结果集。即搜索引擎是对m p e g 7 描述内容的 具体实现及应用。由此可知,m p e g 7 只是在特征提取和信息检索之间提供标 准接口,本身并不直接参与这两者的实现,在基于内容的检索中起着连接两者 提供接口进行实现的作用。 分析 m p e g 7提取 受据 特征提取内容描述搜索引擎 jl( 结构怡 t ( 描述两 1 + ( 查询检索 特征提取) 描述方案)过滤浏览) - 一 :二多媒体信息检索系统 图2 1m p e g 7 与基于内容的多媒体信息检索的联系 由于m p e g 7 标准在多媒体信息检索中只起桥梁的作用,并不包括这些特 征提取的工具和算法,也不涉及搜索引擎,因此对于复杂多变的特征提取算法, 6 武汉理工大学硕士学位论文 形式各异的搜索引擎实现方法,研究人员可以有更多的选择余地,同时也不会 因为m p e g 7 标准的提出而进行诸多的学习和改变,可以继续沿用之前开发好 的特征提取和检索方式【l5 1 。这使得产业界在这些方面可以开展竞争,以得出最 好的结果,而且也给标准的发展留下了空间,使之可以不断利用适应数字视频 图像等多媒体信息分析处理领域中的各项新技术。 因此,m p e g - 7 是标准化描述工具,而内容分析工具如特征提取和内容使 用工具如搜索引擎和内容过滤则由产业界去研究和开发。同时,m p e g - 7 仅将 对多媒体描述的格式包括句法和语义归于需要规范的部分,而将其他描述格式 归于不规范的部分。这样可使标准的应用尽可能广泛且对用户的限制尽可能小。 另外,标准所拟规范的范围中也不包括用户如何使用m p e g 7 描述数据。 原则上任何类型的多媒体数据都可以用任何类型的多媒体数据来查询和提取。 例如,任意画一幅草图可提取一组含有类似图案的图像等。 2 2 视频检索技术 随着多媒体技术的发展和信息高速公路的出现,数字视频的存储和传输技 术都取得了重大的进展。人们可以坐在家中访问远端的多媒体数据库,如进行 视频点播、远程教学、访问多媒体图书馆和电子购物等。这些方面所具有的广 阔的商业前景,使得多媒体信息检索技术的研究受到日益广泛的关注【1 7 】。 视频检索就是要从大量的视频数据中找到所需的视频片断或视频点。传统 的视频检索只能通过快进和快退等方法人工查找,是极为繁琐且耗时的一项工 作,这显然已无法满足多媒体数据库的要求。用户往往希望只要给出示例图像 或给出特征描述,系统就能自动地找到所需的视频片断点;即实现基于内容的 视频检索【1 8 】。而该项技术的研究仍然不成熟,满足不了人们对丰富的视频信息 的需求。 视频数据是由图像序列构成的,比文本包含更丰富的信息,因此无法像文 本那样直接地给出它的内容或者直接地进行内容的比较。基于内容的视频检索 包括视频结构的分析、视频数据的自动索引和视频聚类【1 9 】。 要实现基于内容的视频检索,首先必须对视频进行处理,包括对视频结构 的分析和生成视频单元的自动索引。即通过镜头边界检测,将视频分割成一系 列动作不相关的镜头;对分割得到的各个镜头分别进行视频关键帧的选取和静 止特征与运动特征的提取,包括对关键帧图像的颜色、纹理和运动等特征提取, 7 武汉理工大学硕士学位论文 形成描述镜头的特征空间,生成视频单元索引口1 1 。根据得到的这些特征进行视 频的分类即视频聚类。然后依靠这个特征空间索引进行镜头内容的比较。 基于内容的视频信息检索的一般过程如图2 2 所示。 视频聚类 图2 2 视频数据处理过程 图2 2 中体现了对视频数据进行处理的步骤。首先通过镜头分割将视频段 分为一组时间或空间不相关的镜头,记录其镜头与镜头之间的相关关系即运动 特征:再对各个镜头进行关键帧提取,关键帧可以是镜头中的一幅图像,也可 以是一系列图像,但是不管是一幅图像还是一系列图像都必须是能够代表该镜 头的相关内容;由此,对视频的处理就转换为对静态图像的处理,关于静态图 像的处理技术已经由来已久,且相关研究和技术都已较为成熟。本文就是依据 该流程对视频流进行处理,实现对视频信息的检索。 2 3 基于m p e g 7 的视频检索系统框架设计 m p e g - 7 标准的应用范围很广,主要包括:数字图书馆、多媒体目录服务、 广播媒体选择、多媒体编辑以及教育、娱乐、医疗应用、地理信息系统等领域。 m p e g - 7 标准规定对于图像内容的描述必须能够支持浏览方法,支持基于内容 和相似度的检索,且能够简洁有效的描述多媒体内容信息。 基于内容的视频信息存储检索系统结构框图总体设计如图2 3 所示。由图 2 3 可知,该系统由查询接c i 、数据库管理、相似性度量以及输出四个基本组成 都分构成。 对于视频信息首先计算帧间差,根据帧间差进行镜头提取,把视频序列分 为一段一段的镜头,然后提取各个镜头中的关键帧,最后,需要对关键帧提取 用于图像检索的颜色和形状特征。基于m p e g 7 描述定义语言及标准描述子对 这些图像特征进行视频内容描述。 8 武汉理工大学硕士学位论文 基于所提取的图像低层感性特征( 颜色、纹理、形状等) 将视频图像信息 录入视频数据库。根据视频内容描述结果,设计一种更能够代表媒体数据内容 的特征以及高效的索引结构的算法,生成特征索引,当用户输入特征权值进行 视频检索是根据该索引进行图像匹配,由相似性比较结果反馈给用户符合要求 的视频图像。 查询接口 嚼 特征描述 相似性度量 相似性度量 输出 相关反馈k 一 检索结果 数据库管理 m p e g 7 特征库 f 一 特征提取 特征索引 一f 习 f 一 l 图像库 md b ) ; i f ( ! v i d e o s e t - o p e n ( a f xd bu s e _ d e f a i _ 刀已tn 伊e ,s q l s t r ) ) 打开数据表 a f x m e s s a g e b o x ( t b _ v i d e o 表打开失败! ”) ; 2 5 本章小结 本章对系统开发所用到的基础理论做了全面综述。首先介绍了多媒体内容 描述标准m p e g 7 的主要内容及其组成,并分析了m p e g 7 与多媒体信息检索 系统之间的联系以及应用。最后对基于m p e g 7 的视频信息检索系统模型进行 了研究,阐述了视频信息检索系统设计的总体方案;讨论了系统数据库的具体 设计,并给出数据库的e r 图以说明数据库各表之间的关系,为后期系统的开 发建立了一个良好的数据库基础。 武汉理工大学硕士学位论文 第3 章视频图像预处理 基于内容的视频检索是建立在基于内容的静态图像检索基础上的,其检索 查询的原理首先需要对视频进行预处理,即并对结构进行分析并对其自动索引。 视频结构的分析是指通过镜头边界的检测,把视频分割成基本的组成单元 镜头;视频数据的自动索引包括关键帧的选取和静止特征与运动特征的提取。 由于一个镜头只能拍摄相邻地点连续发生的事情,它的描述能力有限,所 以大多数视频都是由许多镜头通过编辑了连接而成的。有的视频切换频繁,镜 头的持续时间短,如电视电影、电视新闻节目等。相比之下,有些视频几乎不 存在镜头的切换,例如本文所研究视频图像素材交通监管类的监控视频, 对于这些视频主要关心的是镜头内物体的运动,不需要进行镜头的切换检测, 只需对其进行关键帧特征选取即可得到目标物体的特征。因此,在具体实现对 视频图像的检索之前,本章先对视频图像预处理方法,包括视频关键帧的选取 及关键帧图像的特征提取进行研究并实现。 3 1 视频关键帧提取 关键帧是用于描述一个镜头的关键图像帧,它应该是能够反映一个镜头内 所有图像帧的主要内容的视频某帧或几帧图像。对于关键帧的选取首先必须能 够反映镜头中的主要事件,图像描述应尽可能地准确全面;此外为便于管理, 数据量应尽可能小,且计算不宜太复杂。 关键帧的选取方法很多,比较经典的有帧平均法和直方图平均法。帧平均 法是从镜头中取所有帧在某个位置上的像素值的平均值,然后将镜头中该点位 置的像素值最接近平均值的帧作为关键帧;直方图平均法则是将镜头中所有帧 的统计直方图取平均,然后选择与该平均直方图最接近的帧作为关键帧【2 3 1 。这 两种方法计算比较简单,所选取的关键帧具有代表意义,但是从个镜头中只 选取一幅关键帧图像无法准确描述一个存在多个运动目标的镜头。一般来说, 从镜头中选取固定数目的关键帧不是一种好的方法,因为这种方法对于变化很 少内容单一的镜头会选取过多的关键帧,而对于运动较多的镜头则又无法用 两幅关键帧图像充分描述镜头的内容1 2 4 j 。 1 2 武汉理工大学硕士学位论文 基于所研究交通监管类视频图像的特殊性本文采用一般的关键帧选取方 法,即采用一帧图像( 通常是第一帧) 来代表一段视频的内容,这一帧图像既 是关键帧,也是参考帧。将后续帧的颜色和运动特征等与其比较,如果差值在 规定门限以内,则这一帧为新的关键帧,同时对于其他后续帧也是新的参考帧。 这样重复下去,就可以得到一系列的关键帧图像。 算法实现过程如下: 1 ) 给定一段视频序列v ,其中视频帧数为,即:v = ,e ,昂 , 其中,e ,e ,目为视频序列帧号; 2 ) 设定输入输出比a ,规定0 口 l ; 3 ) 定义内容特征集p = f 颜色,形状,质地,运动j ; 4 ) 输出视频关键帧图像或帧序列v = r 耳2 ,矗p ,其中n = 口; 耳l ,耳”,i v 。 图3 - 1 为一段视频的帧序列。该段视频持续时间为1 2 秒。 豳悬圃阑 。:,:一, - , 。一 一一一 ,一d、 , l穗l 盖矗l釜:k 图3 - 1 一段视频的帧序列 图3 - 2 为根据上面的视频关键帧提取算法从图3 - 1 所在的视频段中提取出 来的关键帧图像。所提取的这幅关键桢图像充分表示了图3 1 所在视频段的主 要内容,即在该段时间内通过了一辆红色的小车。在后续的视频检索过程中将 针对该幅图像的特征进行提取和相应的检索。 嘲塑嘲圃 武汉理工大学硬士学位论文 图3 2 关键帧图像 由于本文所选择的视频帧序列为一个镜头的视频帧,时间较短( 1 2 秒) , 所包含的视频帧序列图像较少,因此按照前面的关键字提取算法只提取出一幅 关键帧图像。如果输入的视频持续时间较长相应输出的关键帧就为一系列图像。 3 - 3 图即为从一段持续时间较长( 1 分0 9 秒) 的视频中提取的关键帧序列。由 此可见,本文所采用的算法可以较有效的提取视频关键帧序列。 搿笮笮瞥 3 2 颜色特征提取 图3 - 3 关键帧序列 颜色特征是图像最直观、最显著的一种视觉特征,在人类认识活动中起着 非常重要的作用。每种物体都拥有其特有的颜色特征,同一类的物体往往有相 似的颜色特征,可以根据颜色特征来检索图像。 常用的颜色特征空间有r g b ,i l l s ,y u v 等。主要的量化方法有颜色空间 划分、颜色空问聚类和参考颜色等。最常用的颜色空间是r o b 颜色空间,原因 在于太部分的数字图像都是用这种颜色空间来表达的口日。本系统中为了减少程 序的计算量,方便进行特征提取,采取了颜色直方图的r g b 空间颜色特征提取 方法。 r g b 颜色模型是面向硬件设备的模型,它与人的视觉系统结构密切相关。 根据人眼结构,所有的颜色都可看作是3 种基本颜色红色、绿色、蓝色的 不同组合。r g b 颜色空间模型如图3 - 4 所示。 武汉理工大学硕士学位论文 白 黄 黑r ( 红) 图3 - 4r g b 颜色空间模型 图中3 个轴分别代表r ( 红) 、g ( 绿) 、b ( 蓝) 三种颜色。r g b 模型的空 间是个正方体,原点对应黑色,离原点最远的顶点对应白色,其余各点所对应 的颜色可以用从原点到该点的向量( r ,g ,b ) 表示。 颜色特征是图像最直观明显的特征,所以本系统采用颜色直方图来描述关 键帧图像的特征。颜色直方图是表示图像中颜色分布的一种方法,其核心思想 是在特定的颜色空间中采用一定的量化方法对颜色进行量化,然后统计每一个 颜色通道在整幅图像中所占的比重【27 1 。颜色直方图实际上是一个一维的离散函 数,它将图像中各颜色像素的个数进行统计,并用直方图的形式表达出来。 h ( p ) = ( ( 三) ,h c 2 ( ) ,吃( d ,忽。( 上) ,( d 。) ( 3 - 1 ) 其中尼( ) 是每个灰度等级在图像中出现的频率即概率值。 颜色直方图是目前使用最广泛最普遍的图像特征,代表了图像中每一种颜 色强度出现的频率,用颜色直方图可以描述图像的整体颜色特征,具有对图像 的大小,图像平移和旋转等变化不敏感且易于计算等优点。 由一幅图像颜色浓度发生变化后生成的图像与原图像是很相似的,但是由 于图像中各像素的颜色值都发生了变化,两幅相似图像的颜色直方图差别会比 较大。利用传统的基于颜色直方图进行图像检索的方法,很难把这样两幅图像 判定为相似图像。而采用图像的灰度直方图则可以避免这种情况的发生,因此 本文利用图像颜色的灰度直方图来实现图像检索,如图3 5 所示。可以根据图 像中红、绿、蓝3 个分量对亮度的贡献程度不同,再保持同等亮度的情况下将 图像转换为灰度图像,然后对转换得到的灰度图像计算灰度直方图。 武汉理工大学硕士学位论文 图3 5 颜色直方图方法流程图 得到图像像像素的颜色空间向量( r ,g ,b ) 后,则该像素点的灰度值可以通 过g r a y = o 3 0 r + 0 5 9 9 + 0 1l b 计算得到。当( r ,g ,b ) 的取值范围为0 2 5 5 时,则灰 度值g r a y 的取值范围也从0 - - 2 5 5 波动

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论