(计算机软件与理论专业论文)基于本体和MPEG7的视频语义检索技术研究.pdf_第1页
(计算机软件与理论专业论文)基于本体和MPEG7的视频语义检索技术研究.pdf_第2页
(计算机软件与理论专业论文)基于本体和MPEG7的视频语义检索技术研究.pdf_第3页
(计算机软件与理论专业论文)基于本体和MPEG7的视频语义检索技术研究.pdf_第4页
(计算机软件与理论专业论文)基于本体和MPEG7的视频语义检索技术研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)基于本体和MPEG7的视频语义检索技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确的方式标明。 本人完全意识到本声明的法律结果由本人承担。 论文作者签名:脬缆啪 日期:矽年占月27 曰 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在一年后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名:陷煲茵日 日期:a 。刁年上月c 叼日 导师签名l 扭够 嗍:1 月7 日 陈贤明:基于本体和m p e g 7 的视频语义检索技术研究 摘要 随着现代计算机技术,网络技术和语义网技术,多媒体技术的迅速发展,各种 多媒体数据的急剧增长,多媒体信息在语义网上的表示和获取已经成为计算机及 其相关学科的研究热点和前沿研究课题 在本文中,根据m p g e 一7 的视频描述框架,结合本体论( o n t o l o g y ) 的原理, 使用r d f ( 资源描述框架) 和o w l ( w e bo n t o l o g yl a n g u a g e ) 来组织视频的语义结 构信息,构建一个视频的语义信息描述模型同时。通过从视频对象,场景,事件出 发,对视频段的语义进行描述,也结合语义分层描述结构,把视频的高层语义与低 层特征语义衔接起来,并且将m p e g 一7 的x m l 数据转换成基于o w l 的本体描述数据, 以便结合描述逻辑框架进行语义的检索 在实现上,本文利用j e n a 来解析o w l 数据,建立语义推理规则,利用一阶推理 逻辑算法,实现自定义的推理机,实现基于本体的语义网的语义检索同时,在系 统检索上,引入了一种基于网络关键词的相关反馈技术,通过对用户反馈信息的 不断学习,调整语义网络中关键词和图像的权重系数来提高检索效率 关键词:m p e g 一7 ,视频描述框架,本体论,o w l ,语义描述模型,一阶推理逻辑 语义检索 陈贤明:基于本体和m p e g 7 的视频语义检索技术研究 a b s t r a c t a st h ec o m p u t e rt e c h n o l o g yd e v e l o p s ,n e t w o r kt e c h n o l o g ya n ds e m a n t i c w e bt e c h n o l o g ya r ed e v e l o p i n gv e r yq u i c k l ya n dt h em u l t i m e d i ai n f o r m a t i o n i si n c r e a s i n gr a p i d l y n o w ,h o wt od e n o t ea n do b t a i nt h em u l t i m e d i a i n f o r m a t i o ni nt h es e m a n t i cw e bh a sb e e nt h er e s e a r c hh o tp o i n ta n dt h e n e wr e s e a r c ht o p i ci nc o m p u t e ra r e aa n do t h e rs t u d ya r e a s , i nt h i sp a p e r w eb a s eo nt h ed e s c r i p t i o ns c h e m ao ft h em p e g 一7a n d t h et h e o r yo ft h eo n t o l o g y ,u s i n gt h er e s o u r c ed e s c r i p t i o nf r a m e w o r k ( r d f ) a n dt h ew e bo n t o l o g yl a n g u a g e ( o w l ) t oo r g a n i z et h es e m a n t i ci n f o r m a t i o n o ft h ev i d e o i nt h i sw a y ,w ec o n s t r u c tam o d e lt od e s c r i b et h es e m a n t i c i n f o r m a t i o no fv i d e o a tt h es 锄et i m e w ed e s c r i b et h es e m a n t i c i n f o r m a t i o no ft h ev i d e os h o tf r o mt h ev i d e oo b j e c t ,v i d e os c r e e na n dv i d e o e v e n t c o m b i n i n gw i t ht h eh i b e r a r c h yo ft h es e m a n t i ci n f o r m a t i o no ft h e v i d e o ,w ed e s c r i b et h eh i g h l e v e ls e m a n t i ci n f o r m a t i o no ft h ev i d e oa n d h a v et h ec o n n e c t i o nw i t ht h el o ws e m a n ti cf e a t u r eo ft h ev i d e od e s c r i b e d i nt h em p e g 一7 i no r d e rt om a k et h es e m a n t i cs e a r c h i n gi nt h i sd e s c r i p t i o n s c h e m am o r ec o n v e n i e n c e ,w et r a n s f o r mt h ev i d e od e s c r i p t i o nd a t ai nx m l f o r m a tt ot h eo n t o l o g yd e s c r i p t i o nd a t ai n0 w lf o r m a t t or e a l i z et h es e m a n t i cs e a r c h i n g ,w eu s et h et o o l sj e n at op a r s et h e 0 w ld a t a a n ds e tu pas e to fs e m a n t i cr u l e s w er e a l i z es o m ed e s c r i p t i o n l o g i cr e s e a n i n ga l g o r i t h ma n dr e a l i z et h er e a s o n e r i nt h i sw a y w er e a l i z e t h es e m a n t i cs e a r c h i n gi nt h es e m a n t i cw e bb a s e do nt h eo n t o l o g y w h a ti s m o r e ,w ei n t r o d u c ear e l a t i n g f e e db a c kt e c h n o l o g yb a s e do nt h en e t w o r k k e y w o r d t h r o u g hs t u d y i n gt h ef e e d b a c ki n f o r m a t i o nc o n s t a n t l y ,t h e s y s t e ma d j u s t st h ew e i g h tb e t w e e nt h ek e y w o r da n dt h ek e y f r a m et oi m p r o v e t h es e m a n t i cs e a c h i n gr e s u l t k e y w o r d : m p e g 一7 ,v i d e od e s c r i p t i o ns c h e m a , o n t o l o g y , o w l ,s e m a n t i c d e s c r i p t i o nm o d e l ,d e s c r i p t i o nl o g i c ,s e m a n t i cs e a r c h i n g 2 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 第一章概述 1 1 m p e g - 7 的发展现状及其意义 随着信息时代的发展,信息量呈现爆炸式增长,同时信息的种类也愈趋丰富。 例如静态图像、图形、3 d 模型、音频、视频以及最常见的多媒体综合信息等面 对如此大量的多媒体信息,传统的基于关键词或文本的检索方法已不再能满足人 们对多媒体信息获取的需求如何对多媒体信息进行更有效的组织,达到快速、高 效的管理和检索,成为信息时代人们亟待解决的问题m p e g 一7 正是在这样的背景 下应运而生的m e p g - 7 是由i s 0 和c c i t t 成立的运动图像专家组( m p e g ) 所制定的 基于内容的多媒体信息描述标准,其正式名称为“多媒体内容描述接口” ( m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a c e ) ,其目标是通过制定一组标准的 描述符( d e s c r i p t o r ) 及其描述模式( d e s c r i p t i o ns c h e m e ) ,为不同类型的多媒 体信息提供一套描述多媒体内容数据的标准化工具集,使得内容的描述与媒体 的内容相结合,构造一个统一的、标准的多媒体检索平台,以支持基于内容的快 速、高效检索和管理,从而满足实时、非实时以及推一拉( p u s h _ p u l l ) 应用的需求 【l 】本文讨论的基于m p e g - - 7 的典型处理模式是: 图im p e g 一7 的推理链 一个基于内容的视频检索模型是由特征抽取( 分析) 、特征描述( m p e g 一7 的描 述范围) 和搜索引擎( 应用) 构造的( 如图1 ) 该模型提供了一个统一的、对多媒 4 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 体数据进行方便而有效检索的平台接口【2 】 m p e g - - 7 详细规定了一套标准的描述子来描述各种多媒体信息,预先定义了 描述子的结构以及它们之间的关系描述方案,并可以通过描述定义语言来定 义新的描述方案【3 1 m p e g - - 7 中用来描述多媒体信息内容的元素包括: 描述子( d e s c r i p t o r ,用d 来表示) d 与一个视频信息的内容特征的表示值相 关联,该值可以是复合型的,例如视频对象的形状,纹理特征,颜色特征等这些 描述子的目标是能够自动提取相关描述子的特征值,以便在检索阶段能够进行相 似性匹配,这些都是m p e g - 7 的基础工作【3 】 描述方案( d e s c r i p t i o ns c h e m a , 用d s 表示) d s 定义描述子之间的关系和描 述方案的结构和语义,包括对内容进行建模和描述【3 】 描述定义语言( d e s c r i p t i o nd e f i n i t i o nl a n g u a g e ,用d d l 表示) d s 通过d d l 来说明,d d l 也支持建立新的d s 和扩充已有的d s p l 图2d d l ,d s ,d 之间的关系 m p e g - 7 的内容描述框架对视频内容提供了一组预定义的标准的视觉特征描 述参数,这一组标准的视觉特征可以应用不同的语义处理方法来进行多层次语义 的提取而m p e g - 7 的描述定义语言( d d l ) ,提供了描述复杂语义关系的手段,并 且对于不同抽象层次的语义,它都具有强大的表达能力传统的语义表示方法, 一般都与语义的提取过程紧密相关,而m p e g 一7 的一个突出特点是它独立于视频 语义的提取过程【2 】m p e g 一7 本身不是针对语义知识表示的,但是客观上它可以将 以前的各种语义表示方法用一个统一的框架来替代或包容 陈贤明:基于本体和i v l p e g - 7 的视频语义检索技术研究 目前,国内外开发了很多种基于g l p e g - 7 的视频与图像检索系统,也建立了 相应的多媒体信息描述模型,从特征提取,数据组织和数据检索上丰富和实现 b l p e g - 7 的描述集合新加坡国立大学开发的一个基于内容的检索机。其显著的技 术特色包括:多种特征提取方法,多种基于内容的检索方法,使用自组织神经网 络对复杂特征度量,建立基于内容索引的新方法以及对多媒体信息进行模糊检索 的新技术【4 】另外还有很多针对某一方面应用而建立的多媒体信息描述方法例 如对专业体育视频的检索 1 2 语义检索的现状及其意义 随着i n t e r n e t 和无线视频通信技术的发展,视频已经成为人们获取信息的 重要来源,例如,手机视频和在线视频点播因此,一幅图像或一段视频究竟提供 给观众多少的信息,观众从图像或者视频中能够得到什么所要的内容,信息的相 关集合有多少,语义自然就成为了人们研究的焦点 语义( s e m a n t i c s ) 一词是7 0 年代提出的,用于人工智能,知识工程领域,用不 同符号表示信息,并且进行符号运算和逻辑运算,进行规则提取和推理以及模式 分析【5 l 在信息处理领域,于1 9 8 0 年左右,语音处理中就提出了语音中的语义信息的 提取和分析这个课题,而且在m p e g - 7 把语音的语义信息,语音识别描述特征也纳 入了标准范畴在中文信息处理领域中,研究一段中文语句的语义信息的表达和 提取,也成了热门的课题研究者通常用知识工程中的语义模型对处理的领域信 息进行建模,信息组织和分析例如,用语义认知图,以及神经网络h o w n e t 提取事 件角色的语义特征等在本文中,我们将结合m p e g - 7 的多媒体内容描述标准,使 用知识工程中的本体( o n t o l o g y ) 认知论来对视频的语义信息数据进行组织,建立 语义本体模型,并且提供基于本体语义的视频语义信息的检索 在2 0 世纪9 0 年代初,业界就出现了关于图像语义信息研究的报导,但是,目 前,都没有对图像的语义进行明确的定义到底什么是图像的语义信息,它包含哪 些东西,大家有不同的理解最初,人们认为图像的基本特征如:颜色,形状,纹理 等的融合就是语义信息1 6 1 但是,这些只是语义的基础内容之一( 低层语音特征信 息) 图像和视频序列的语义信息是一个复杂的综合的问题图像经过人的视觉系 6 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 统传入大脑,经过心理响应过程,这个过程不单反映了图像本身的客观存在的语 义信息,也包括了观察者对图像视频的主观信息感知嘲在图像理解领域中,彩色 的作用则更为复杂,如暖,冷色的搭配给人不同的感受,目前,还没有从视觉专大 脑专心理,对彩色响应的模型正是由于彩色对人情感的不同影响,颜色会激起 观察者不同的情感,例如,2 0 0 2 年日韩国世界杯中,号称”红魔”的韩国绘球场带 来的不同的震撼效果 现在网上比较流行的检索工具g o o g l e 和i h i d u 等搜索引擎,它们都是要求 用户输入确定的或者模糊的关键字进行查找,当模糊度太小时,可能查不到所需 要的内容,而当模糊度太大时,计算机可能要查询太多的无关内容。不容易做到实 时性例如,当用户需要查找有关”a p p l ei n c ”的信息,结果可能出现许多用户 不关心的内容,像水果”a p p l e ”的大量的无关信息,或者其他的垃圾信息事实 上,我们知道,用户是要检索”苹果公司”从语义的角度来说,用户可能需要这 个公司的相关信息,背景信息,销售记录,产品介绍等因此,语义就是要解决关键 字的内在意义,而不是从字面上的意思进行检索 现在的视频检索的一个更加困难的问题是从大量的图片或者图片序列中查 找所要的演员或者视频的故事情节,视频中的声音等我们知道一段视频流重视 表达一定的意义目前的b a i d u 图像检索引擎中,用关键字表示图像的内容例如 在”在海平面上升起的太阳”这么一幅图像,我们需要知道的信息并不是关键词 “海洋”,“太阳”,而是“日出”这个意义因此,按照传统的检索,是不能满足 需求的,只能求助于从语义方面进行检索同时,视频图像画面上,更多的是需要 考虑更加复杂的语义,例如:情节发生的背景,事件的发生,还有视频对象的动作 意义等,以及这些动作的意义具备的性质还要考虑视频对象在时间和空间上的 语义交换,这样,使用现有的检索模型来组织数据和建立检索引擎都是非常困难 的问题n 目前视频语义的表示方法主要有以下几种 1 文本表示法 简单的视频语义表示方法是用文本对图像或图像的区域进行解释h e r m e s 等在i r i s 系统中,使用相似性技术直接从户外图像中推导出场景的自然语言描 述颜色、纹理、区域和空间信息被输入到图像解释器来获得每一图像区域最可 7 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 能的解释,然后整个场景产生文本描述,可以利用文本检索技术来检索但是使 用文本表示语义对于一些概念之间的复杂关系缺乏足够的表达能力,因此不具有 普遍意义嘲 2 传统的知识表示法 这些表示方法主要采用了人工智能中传统的知识表示,比如语义网络、数理 逻辑、框架等方法,它们具有表达复杂关系的能力最近的一些研究者使用了一 些不同的语义表示模型,比如z h u a n g 等使用了模糊布尔模型、概率布尔模型; c o l o m b o 等使用了形式语言理论表示;m e g h i n i 使用了模糊逻辑语言,m a r c c a v a z z a 等使用了符号语言学方法这些方法在不同的场合分别显示了它们在语 义表达或者模糊匹配方面的能力,但是目前还没有在不同的情况下都能表现出很 好效果的通用方法【卯 3 基于m p e g - 7 的层次对象描述 m p e g - 7 标准致力于制定一个标准化的框架来描述多媒体内容,以便于多 媒体内容得到有效表示和方便的检索与以前的m p e g 标准不同,m p e g - 7 所要解决 的是某些多媒体内容表示的问题首先,m p e g - 7 的内容描述框架对视频内容提供 了一组预定义的标准的视觉特征描述参数,这一组标准的视觉特征可以应用不同 的语义处理方法来进行多层次语义的提取而m p e g - 7 的描述定义语言( d d l ) ,提 供了描述复杂语义关系的手段,并且对于不同抽象层次的语义,它都具有比较强 的数据组织表达能力嘲传统的语义表示方法,一般都与语义的提取过程紧密相 关,而m p e 6 - 7 的一个突出特点是它独立于视频语义的提取过程m p e g - 7 本身使用 x m ls c h e m al a n g u a g e 来描述和组织数据虽然x m ls c h e m a 有很强的结构定义能 力,集合描述能力以及数据类型的定义、约束能力,但是它在语义知识方面,特 别是对知识的综合,知识的获取等方面提供很少的支持,从而不能对语义知识进 行有效和灵活的映射同时,欠缺高效的语义推理机制也是x m ls c h e m a 难以胜任 用来建立通用高效语义模型的一个致命原因 1 3 本文的工作和意义 本文中,我们根据m p g e - 7 的视频描述框架以及标准的视觉特征参数来描述视 频对象的特征语义,以及视频对象本身的对象语义,同时,根据m p e g 一7 的描述框架, 8 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 描述视频信息的场景语义和基本的简单行为语义,结合本体论( o n t o l o g y ) 的原 理,使用r d f ( 资源描述框架) 和o w l ( 并e bo n t o l o g yl a n g u a g e ) 来组织视频的语 义结构的信息,描述视频的高层语义以及衔接m p e g - 7 描述的视频低层语义特征, 从而实现基于m p e g - 7 的视频对象的语义检索和其他的基于语义检索模型相比, 本文主要做了以下的几项工作 1 根据m p e g 一7 的描述框架( m d s ) 把视频特征的描述逻辑由x m ls c h e m a 转 换成r d f 和o w l 来描述的逻辑框架,同时对m p b p 7 的基本数据类型进行转换,建立 基于本体的语义模型的基础 2 ,根据本体论( o n t o l o g y ) 和语义网的原理,建立视频的语义分层描述结 构,描述视频的高层语义以及衔接m p e g - 7 的视频低层特征语义我们从视频内容 的视频对象( v o ) ,视频场景,视频发生的事件出发,对视频段的语义迸行描述 3 根据m p e g - 7 的视频流的场景特征,对视频的场景特征进行标注描述,建 立基于视频对象和视频事件的特征描述,并同时将m p e g - 7 的龇数据转换成基于 o w l 的本体描述数据,以便结合描述逻辑框架进行语义的检索 4 利用j e n a 来解析o w l 数据,结合建立的描述逻辑,建立基于j e n a 的推理 逻辑,建立推理规则库,实现自定义的推理机,以便实现基于本体的语义网的语义 检索 1 4 论文结构 在本文的第一章介绍了m p e g - 7 的发展现状以及语义检索的发展现状,第二 章对咿e g 一7 标准进行详细的阐述,第三章阐述了基于本体的语义描述方案的原 理,详细的介绍了本体论的原理和语义w e b 跟本体的关系第四章根据本体论的 原理和m p e g 一7 的描述框架,建立一个基于m p e g - 7 的本体语义描述模型,同时阐述 这个模型的知识库架构和信息提取技术第五章给出了模型的语义信息提取和语 义检索的实现和实验的结果分析最后,我们对基于m p e g - 7 和本体的多媒体信息 语义检索进行总结,并为下一步的研究工作做铺挚 9 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 第二章m p e g - 7 标准剖析 2 1 肝e g - 7 标准构成要素与应用 m p e g - 7 标准描述的多媒体信息内容的含义超越了传统的意义上图像,声音, 文档的局限,这些内容包括:( 1 ) 客观世界:静止图像,图表,图形,文本,3 d 模型,音 频,语音,活动视频,动画,场景中的景象关系,媒体交互设备等( 2 ) 主观世界,对 事物或事件的概括抽象,人的感情色彩,价值取向等( 3 ) 合成的信息:客观世界和 主观世界各种元素之间的有机结合后构成的多媒体信息m p e g - 7 的框架包括:描 述符( d e s c r i p t o r s ,d s ) ,描述方案( d e s c r i p t i o ns c h e m e s ,d s ) ,描述定义语言 ( d e s c r i p t i o nd e f i n i t i o nl a n g u a g e 。d l l ) 和编码描述( c o d ed e s c r i p t i o n ) 描述符表示多媒体特征信息的语法和语义属性,一个特征可以用多个描述符来表 示例如:平均色( a v e r a g ec o l o r ) ,主颜色( d o m i n a n tc o l o r ) 和颜色直方图 ( c o l o rh i s t o g r a m ) 都是颜色特征的描述符描述方案指定了描述的对象或者特 征之间的结构和关系,既可以是描述符,也可以是描述方案一般情况下,描述方 案是解决多媒体信息的分类和数据的组织问题【8 】例如:一个分段的d s 可以表示 一段视频的某个片断( s h o t ) 描述定义语言允许创建新的描述方案和描述符d d l 允许扩展和修改现存的描述方案目前,m p e g - 7 采用代用m p e g 一7 的特定扩展的 x m l ( 可扩展标记语言) 语言来描述定义语言编码描述主要是为了满足数据的压 缩和传输的要求图3 给出一个具体应用的m p e g - 7 系统框图 1 0 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 图3m p e c - - 7 的系统框图 从图中的数据流程图我们可以看出m p e g - 7 的应用过程:首先,描述生成器利 用特征提取算法从多媒体数据中提取各种特征,然后利用m p e g 一7 描述器来描述 这些特征,再通过编码器形成带有描述信息的m p e g 一7 编码描述。最后,经过解码 器解码,用户在客户端通过搜索引擎获得数据库中的多媒体信息 需要注意的是,多媒体应用的特征提取算法,搜索引擎等不在m p e g 一7 的标准 范围内,m p e g - 7 只是对多媒体内容描述做了标准化,并提供了与其他两部分的公 用接口主要原因是m p e g - 7 组织希望留出一定的空间,使工业界可以在特征提取 算法,搜索引擎的研究方面进行竞争,从而促进特征提取和搜索引擎技术的不断 发展【9 1 在m p e g 一7 标准中,多媒体描述方案( m d s ) 提供了一系列的标准化的多媒体描 述工具其中,内容描述工具从结构和语义上描述了多媒体内容目前,m p e g 一7 已 定义了超过1 0 0 个描述工具,这些描述工具主要包括基本元素,内容管理和内容 描述,内容组织工具三个层次最低层是基本元素,涉及到基本的数据类型,数学 结构和数据结构,模式工具,链接和媒体定位工具以及基本的d s 中间层包含内容 管理和内容描述,它们从不同的方面描述内容 i o l 目前已经定义了5 项内容:创建 与产生,媒体,使用,内容描述的结构和概念其中,“创建与产生”用来描述内容 陈贤明:基于本体和i v i p e g - 7 的视频语义检索技术研究 的创建和产生,主要包括标题,创建者,分类,以及创建的目的这些信息大部分由 创造者产生的,一般不与内容分离“使用”则与内容的使用相关,主要是使用的 版权信息等,以及使用权限“媒体”用于描述存贮的格式和编码格式,压缩标准 掣1 1 1 “内容描述的结构”是从结构的不同方面描述视听的内容“内容描述的 概念”则是从概念的语义和抽象两个方面的描述视听内容最上层包含内容组织 的工具,主要通过对收集信息的分类,细化以及建模,而用户接口工具是用于表达 用户的喜好和使用信息,具有检索和交换视频音频数据结构和语义注释能力,使 对多媒体的访问变得更加的个性,可以根据用户的喜好来定义媒体的优先级,使 用户尽快找到合适的信息,为用户提供方便f 1 1 j m p e 6 - 7 规定了一组多媒体内容信息的描述标准,支持用户对感兴趣的多媒体 信息资源象文本数据一样进行快速、高效的检索和管理可以说,只要与多媒体 信息相关的领域都可以应用m p e g - 7 进行管理,提供相关的服务譬如:广播媒体 ( 例如电视频道的多媒体资源管理和检索、电视台的多频道媒体资料综合管理) ; 数字媒体文化服务( 例如数字博物馆、艺术博物馆和数字图书馆的媒体资源管 理) ;家庭娱乐( 例如对i p t v 视频点播的检索和节目选择) ;卫星遥感图像和视频 管理( 例如绘图、生态学、自然资源管理) ;监控系统应用( 例如交通监控视频的 报警、机场安全监控管理等) 1 1 2 l m p e g - 7 支持p u s h 和p u l l 类应用,实现对多媒体信息的检索和过滤功能p u s h 与p u l l 类的应用模式相反,p u l l 类是从索引到检索,而p u s h 类应用则是从选择到 过滤 2 2 m p e g - 7 的语义描述结构 m p e g - 7 标准的多媒体描述方案( m d s ) 提供了对多媒体内容的语义描述的工具, 用来表示语义实体所描述的媒体数据,比如:对象、代理对象、事件、概念、语义 状态、语义空间、语义时间、属性和语义实体之间的关系语义描述工具 ( s e m a n t i cd s ) 从现实世界语义和概念的角度描述视听内容,它不再强调段而是 强调口述世界里的事件、对象、时间、地点和抽象,它包括时问描述方案,对象描 述方案,概念描述方案,语义时间描述方案,语义地点描述方案,语义状态描述方 案,语义基描述方案 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 事件( e v e n td s ) 描述可理解或抽象的事件可理解事件是发生在口述世界 中的某一时空域中一个或者多个对象的动态关系,描述特定的语义实体在特定的 场景中发生的动作,以及动作的效果等 对象( o b j e c td s ) 语义上描述了一个物理或者抽象的对象,我们可以理解为 一个视频的对象,这个视频的对象在整个视频情节中具有主导的作用 概念( c o n c e p td s ) 描述一种不能被描述为特定对象、事件、时间、空间、状 态的抽象和一般化的语义实体 语义状态( s e m a n t i c s t a t ed s ) 在口述世界给定时刻,给定空间位置或给定媒 体位置内描述实体的语义属性,用来描述语义实体的状态变换 语义时间和语义空间( s e m a n t i cp l a c e a n ds e m a n t i ct i m ed s ) 分别描述口 述世界中的时间和空间 语义基( s e m a n t i c b a s ed s ) 描述口述世界中的环境与语义实体1 1 3 】 下面是根据l l p e g 一7 的蛐s 描述标准所陈述的语义描述符之间的关系表示出 来的u l l l 图 图4m d s 语义描述符之间的关系 多媒体内容的语义描述方案( s e m a n t i c s ) 描述多媒体内容的意义,它由语义 基描述方案( s e m a n t i c b a s ed s ) 和语义关系( s e m a n t i c r e l a t i o n d s ) 描述方案组 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 成其中语义基描述方案包括了对象描述方案( o b j e c td s ) 和事件描述方案 ( e v e n td s ) 对象描述方案( o b j e c td s ) 描述多媒体内容对象的语义特征对象指的是多 媒体信息中可以被语义描述的实体它可以用文本注解的方式描述对象,也可以 通过m p e g - 7 定义的特征描述符( 颜色,形状,纹理等) 来描述对象 事件描述方案( e v e n td s ) 描述多媒体内容中事件的语义特征事件是多媒体 信息中可以被语义描述的发生过程或者导致发生的原因以及发生后的结果它用 语义时闻,语义空间和文本注解描述符描述 语义关系描述方案( s e m a n t i cr e l a t i o no s ) 描述各个对象事件之间的语义关 系 2 3 经典的多媒体信息语义描述模型 目前,基于内容的视觉信息查询( c o n t e n t b a s ev i s u a lo u e r i e s ,c b v q ) 已成 为多媒体技术研究领域的热点,有效的对视频数据进行描述,是基于内容视觉信 息检索的基础,也直接与c b v o 系统的功能和性能相关人们对视频的利用是建立 在对视频语义的理解上因此,语义信息的描述在视频建模上占有十分重要的地 位研究领域在这方面也取得非常大的进展,建立很多个有效的特定领域应用模 型 例如:南京大学计算机研究所的朱华宇等,根据视频信息的层次特点。把语义 信息划分为3 个层次,提出一个基于m p e g - 7 的视频数据模型,并且使用) ( i i l 语言 描述,描述是视频对象、视频事件和视频元数据构造和描述的方法 还有北京联合大学的信息技术研究所的刘宏哲等,提出一种基于内容的视频 分层语义联想模型他们构造了三个层次的信息,概念层次树、场景网络和语义对 象网路采用基于时间和语义关系的检索方法 1 4 1 在国外,视频信息的检索,更多的是结合本体论领域的发展,结合语义网的最 新技术,实现多媒体信息的语义描述和检索例如法国的i n a ( i n s t i t u t e n a t i o n a ld el a u d i o v i s u a l ) 根据语义网的要求,建立一个描述多媒体信息的本 体,把m p e g 一7 的m d s ,和w o r d n e t 本体结合起来,同时提供基于w o r d n e t 本体的推 理支持 1 5 1 1 4 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 这些系统,都在具体的领域上得到了应用,而且也取得了比较好的效果但是, 由于他们的语义描述模型,都是基于m p e g 一7 的x m l 标记语言,要不就只是一种数 据的组织方式;要不,就不能提供比较复杂的语义推理能力嘲l 如i n a 建立的 推理机因此,需要一种语义描述模型和一种模型的数据组织机制,使得基于 m p e g - 7 的多媒体信息的数据能够在未来的语义网上更加方便的组织和检索而因 语义网的发展而提出的语义网本体描述语言( 0 w l ) 可以满足我们的要求本文中。 我们将提出一种基于m p e g - 7 的m d s 的本体描述模型,并且用o w l 来描述组织数据 模型同时,实现把m p e g - 7 对多媒体特征数据和多媒体的描述方案m i ) s 转换成用 o w l 和r d f s 描述的本体描述数据,以便在语义网上建立基于m p e g - 7 的视频信息 的数据检索 陈贤明:基于本体和m p e g - 7 的视颓语义检索技术研究 第三章基于本体的语义描述方案的原理 3 1 本体论原理简介 知识本体( o n t o l o g y ) 本来是哲学中的一个概念近年来,知识本体在人工智 能领域引起了研究人员的兴趣,并越来越多的应用在万维网信息的表示、组织和 管理上知识本体被赋予了太多的含义,从抽象的哲学概念,到实用的计算机推 理牛津英语辞典对“o n t o l o g y ”的解释是“对于存在的研究或科学( t h es c i e n c e o rs t u d yo fb e i n g ) ”,人工智能领域经常引用g r u b e r 在1 9 9 3 年的定义“概念 体系的规范( s p e c i f i c a t i o no fc o n c e p t u a l i z a t i o n ) ”,其定义的表达如下: “i ti sa n e x p l i c i t f o r m a l s p e c i f i c a t i o n o fas h a r e d c o n c e p t u a l i z a t i o n ”译为中文:即本体是一套得到大多数人认同的,关于概 念体系的明确的、形式化的规范说明 其后,德国卡尔斯鲁厄大学的s t u d e r 等学者在这个定义的基础上,对本体 的特点给出了个较为直观和明确的解释:本体就是对概念体系的明确的、形式 化、可共享的规范说明这个定义说明了本体体现的四层含义: 1 本体是明确的( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明 确的定义 2 本体是形式化的( f o r m a l ) 本体是计算机可读的,可以被机器所理解的 3 本体是共享的( s h a r e ) 本体中体现的是共同认可的知识,反映的是相关 领域中公认的概念集,它所针对的是团体而不是个体 4 本体是概念化的它是一个概念体系,又称概念模型( c o n c e p t u a l i z a t i o n ) 本体是一个通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的 模型,其表示的含义独立于具体的环境状态 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和 词汇之间相互关系的明确定义 本体一共有5 个基本的建模元语( m o d e l i n gp r i m i t i v e s ) : 类( c l a s s e s ) 或概念( c o n c e p t s ) 1 6 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 指任何事务,如工作描述、功能、行为、策略和推理过程从语义上讲,它 表示的是对象的集合,其定义一般采用框架( f r a j n e ) 结构,包括概念的名称, 与其他概念之问的关系的集合,以及用自然语言对概念的描述 关系( r e l a t i o n s ) 在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集:r :c , g c _ 如子类关系( s u b c l a s s o f ) 在语义上关系对应于对象元组的集合 函数( f u n c t i o n s ) 一类特殊的关系该关系的前n 1 个元素可以唯一决定第n 个元素形式化 的定义为f :c i c 2 o 。一g 如m o t h e r o f 就是一个函数,m o t h e r - o f ( x ,y ) 表示y 是x 的母亲 公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围 实例( i n s t a n c e s ) 代表元素从语义上讲实例表示的就是对象 另外,从语义上讲,本体的基本的关系共有4 种:如下表( 表1 ) 表1 :本体的基本关系 关系名关系描述 p a r t o f 表达概念之间部分与整体的关系 k i n d - o f表达概念之间的继承关系,类似于面向对象中 的父类与子类之间的关系 i n s t a n c e o f 表达概念的实例与概念之间的关系,类似于面 向对象中的对象和类之间的关系 a t t r i b u t e o f表达某个概念是另一个概念的属性如“价格” 是桌子的一个属性 在实际建模过程中,概念之间的关系不限于上面列出的4 种基本关系,可以 根据领域的具体情况定义相应的关系 本体具有良好的概念层次结构和对逻辑推理的支持,在知识检索中有广泛应 用基于本体的信息检索的基本思想有1 1 7 l : 陈贤明:基于本体和m p e g - 7 的视颓语义检索技术研究 在领域专家的帮助下,建立相关领域的o n t o l o g y ; 收集信息源中的数据,并参照已建立的o n t o l o g y 把收集来的数据按规定 格式存储在元数据库( r d b ,k d b 等) 中; 对用户检索界面获取的查询请求,查询转换器按照o n t o l o g y 把查询请求 转换成规定的格式,在o n t o l o g y 的帮助下从元数据库中匹配出符合条件的数据 集合: 检索的结果经过定制处理返回给用户 关于o n t o l o g y 的表达,主要分为两种情况进行处理【i 柳; 检索系统如不需要太强的推理能力,o n t o l o g y 可用概念图的形式表示并 存储,数据可以保存在一般的关系数据库中,采用图匹配技术完成检索; 如要求较强的推理能力,一般需要一种描述语言( l o o m 等) 表示 o n t o l o g y ,数据保存在知识库中,采用描述语言的逻辑推理能力完成检索 下面,我们给出一个基于本体的信息系统的简单模型: 图5 本体的信息系统模型 陈贤明:基于本体和m p e g - 7 的视频语义检索技术研究 3 2 本体与语义w e b 提高w e b 信息检索的质量包括两方面的内容: 如何在现有的资源上面设计更好的检索技术; 如何为w e b 上的资源附加上计算机可以理解的内容,便于计算机处理, 即给出一种计算机能够理解的表示资源的手段 基于后一种考虑,b e r n e r s - l e e 在2 0 0 0 一1 2 1 8 的x m l 2 0 0 0 的会议上提出 了语义w e b 语义w e b 的目标是使得w e b 上的信息具有计算机可以理解的语义, 满足智能软件代理( a g e n t ) 对w w w 上异构和分布信息的有效访问和检索下面是 w 3 c 为未来w e b 发展提出的基于语义的体系结构一语义w e b 体系结构【j 9 1 : 图6 语义体系结构语义w e b 体系结构 第一层是整个语义网络的基础,u n i c o d e 处理资源的编码,u r i 负责标识资 源:第二层用于表示数据的内容和结构:第三层用于描述w e b 上的资源及其类型: 第四层的本体描述层用于描述各种资源之间的联系第五七层用于在下面四层 的基础上进行的逻辑推理操作其中,第二。三,四层的数据内容和数据语义表示 是语义网的核心层,用于表示w e b 信息的语义f i9 j x m l 和r d f 都能为所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论