(计算数学专业论文)基于本体的动画素材语义检索引擎设计与排序研究.pdf_第1页
(计算数学专业论文)基于本体的动画素材语义检索引擎设计与排序研究.pdf_第2页
(计算数学专业论文)基于本体的动画素材语义检索引擎设计与排序研究.pdf_第3页
(计算数学专业论文)基于本体的动画素材语义检索引擎设计与排序研究.pdf_第4页
(计算数学专业论文)基于本体的动画素材语义检索引擎设计与排序研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算数学专业论文)基于本体的动画素材语义检索引擎设计与排序研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着经济全球化和一体化商业大潮的涌动,动画产业蓬勃发展。 由于动画制作费时费力,生产率低下,大量已有的动画素材的管理和 有效重用意义重大。传统全文检索很难表达用户的查询意图并且只进 行字面意思的匹配,缺乏语义处理能力;基于文本或者内容的检索模 式也难以解决用户与机器理解的“语义鸿沟”;基于语义的检索应运 而生。 本文主要研究了基于本体的信息检索,利用本体技术和l u c e n e 全文检索引擎的倒排索引机制,设计和实现了语义检索子系统,以及 系统排序算法。首先介绍了图像检索的相关研究,分析了其中的优缺 点,接着介绍了本体的相关理论,分析了本体在信息检索中的作用以 及基于本体的信息检索模型,然后提出了动画素材的语义化方案,最 后给出基于本体的动画素材语义检索引擎的架构设计与实现途径。 为缩小检索中的“语义鸿沟 ,提出了基于本体的概念扩展算法, 利用本体中概念间的层次关系,提出基于距离和密度的加权概念相似 度计算方法,以此衡量初始查询词和扩展词间的相似度,并利用遗传 算法对查询词进行组合优化,获得最能体现用户查询意图的查询词组 合再进行检索。通过分析搜索引擎排序算法,借鉴传统信息检索排序 模型与l u c e n e 默认的排序机制,提出了新的排序算法。 为了验证系统设计的可行性和算法的有效性,我们利用快速原型 法实现了基于本体的动画素材语义检索引擎。实验结果表明,在一定 程度上提高了查全率与查准率。 关键词:本体,语义相似度,语义检索引擎,排序算法 a b s t r a c t w i t ht h ee c o n o m i cg l o b a l i z a t i o na n dc o m m e r c i a li n t e g r a t i o n , a n i m a t i o ni n d u s t r yf l o u r i s h e s b e c a u s em a n u f a c t u r i n ga n i m a t i o ni s t i m e c o n s u m i n g ,l a b o r i o u sa n dl o wp r o d u c t i v e ,m a n a g i n ga n de f f e c t i v e r e u s i n gt h el a r g en u m b e ro fa n i m a t i o nm a t e r i a l sa th a n dm a k es e n s e i ti s d i f f i c u l tf o rt r a d i t i o n a lf u l l t e x tr e t r i e v a lt oe x p r e s su s e r s i n t e n to f r e t r i e v a l m o r e o v e r ,i ti so n l yal i t e r a lm e a n i n gm a t c h ,r a t h e rt h a n s e m a n t i cm e a n i n g t h et e x t b a s e do rc o n t e n t - b a s e dr e t r i e v a lm o d e li sn o t e a s yt or e s o l v et h e “s e m a n t i cg a p ”b e t w e e nt h eu s e r sa n dt h ec o m p u t e r s t h e r e f o r e ,s e m a n t i c b a s e dr e t r i e v a le m e r g e s t h i sp a p e ri sm a i n l ya b o u tt h es t u d i e so fo n t o l o g y b a s e di n f o r m a t i o n r e t r i e v a l s e m a n t i cr e t r i e v a ls u b s y s t e ma sw e l la sr a n k i n ga l g o r i t h mo f t h es y s t e mi sd e s i g n e da n dr e a l i z e dw i t ht h eu s eo fo n t o l o g yt e c h n o l o g y a n di n v e r t e di n d e xm e c h a n i s mo fl u c e n e f i r s t l y , r e l a t e dr e s e a r c ho n i m a g e r e t r i e v a li si n t r o d u c e da n dt h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h e r e t r i e v a la r ea n a l y z e d t h e nt h er e l a t e dt h e o r yo fo n t o l o g yi si n t r o d u c e d , a n dt h ef u n c t i o no ft h eo n t o l o g yi nt h ei n f o r m a t i o nr e t r i e v a ls y s t e ma n d t h eo n t o l o g y - b a s e dm o d e lo fi n f o r m a t i o nr e t r i e v a la r ea l s oa n a l y z e d a d d i t i o n a l l y , t h es e m a n t i cm o d e lo fa n i m a t i o nm a t e r i a l si sp u tf o r w a r d f i n a l l y , t h ea r c h i t e c t u r e a n dt h er e a l i z a t i o nw a yo fo n t o l o g y b a s e d s e m a n t i cr e t r i e v a le n g i n ef o ra n i m a t i o nm a t i e r a la r ep r o p o s e d t on a r r o w “s e m a n t i cg a p ”i nt h ep r o c e s so ft h er e t r i e v a l ,t h e e x t e n s i o na l g o r i t h mo fc o n c e p t sb a s e do no n t o l o g yi sb r o u g h tf o r w a r d f u r t h e r m o r e ,t h ea l g o r i t h mn a m e dw e i g h t e d c a l c u l a t i o nm e t h o do f c o n c e p t ss i m i l a r i t yb a s e do nd i s t a n c ea n dd e n s i t yi sa d v a n c e da c c o r d i n g i i i t ot h eh i e r a r c h i c a lr e l a t i o n s h i pb e t w e e nc o n c e p t si no n t o l o g y , w h i c hi s u s e dt om e a s u r et h es i m i l a r i t yb e t w e e ni n i t i a lq u e r yt e r m sa n de x p a n d e d t e r m s f o rt h es a k eo fr e f l e c t i n gt h eu s e r s i n t e n t i o n s ,t h e g e n e t i c a l g o r i t h mf o rr e c o m b i n a t i o na n do p t i m i z a t i o no fq u e r yt e r m si sd e s i g n e d t h r o u g ha n a l y z i n gt h er a n k i n ga l g o r i t h mo fs e a r c he n g i n e ,a n da d o p t i n g t h er a n k i n gm o d e lo ft r a d i t i o n a li n f o r m a t i o nr e t r i e v a la n dt h ed e f a u l ts o r t m e c h a n i s mo fl u c e n e ,an e ws o r t i n ga l g o r i t h mi sp u tf o r w a r d 。 i no r d e rt ov e r i f yt h ef e a s i b i l i t yo ft h es y s t e md e s i g na n dv a l i d i t yo f a l g o r i t h m si nt h i sp a p e r , o n t o l o g y b a s e ds e m a n t i cr e t r i e v a le n g i n ef o r a n i m a t i o nm a t e r i a lh a sb e e ni m p l e m e n t e db yu s i n go fr a p i dp r o t o t y p i n g m e t h o d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h er e c a l la n d p r e c i s i o ni nt h e s y s t e ma r ei m p r o v e dt oac e r t a i n e x t e n t k e yw o rd s :o n t o l o g y , s e m a n t i cs i m i l a r i t y , s e m a n t i cr e t r i e v a le n g i n e , r a n k i n ga l g o r i t h m i v 湖南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不含任何其他个人或集体已经发表或撰写过的作品成果对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名:z f 帕i i 幻 州7 年 易月莎日 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权湖南师范大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密切。 ( 请在以上相应方框内打“) 作者签名:西。拍i 南日期:弘p 7 年占月分日 导师签名: 高春鸣 日期:硼7 年6 月纱日 基于本体的动画素材语义检索引擎设计与排序研究 1 1 课题背景 1 绪论 目前动画产业已经发展成为一个庞大的产业群,被称为“创意工 业 ,具有良好的社会效益和市场前景。动画生产流程复杂,并且产 生了大量诸如图形图像、动作、模型、材质、音效、动效等动画素材, 例如长沙国家数字媒体基地积累的动画素材己达数千万张。全国有数 以千计的动漫公司,每分钟制作费少贝j j s o o o 6 0 0 0 元,多则两三万元, 每年成本投入总和超过几十亿【1 】。在制作大型动画连续剧的过程中, 当前一般是借助f l a s hm x 、a n i m o 、u s a n i m a t i o n 、3 d m a x 、m a y a 等各种制作工具来手绘各种动画形象和特效,存在大量重复劳动并且 动画素材难以重用。传统基于关键词、或者基于分类目录的检索系统 存在对相近素材查全率和查准率低下的问题,制作人员在查找素材的 过程中耗时费力,经常不得不重绘画面近似的动画形象和特效,使得 动画素材复用率低、生产效率低下。 基于文本的图像检索主要采用人工标注的方式,主观性强,标注 质量因人而异,自动化程度低;基于内容的图像检索主要依据图像的 内容特征和主题对象特征来标引和检索,偏重于对底层特征的检索。 用户往往是对图像语义的理解而进行的检索,但是现有的检索技 术在计算机所感知的底层特征和图像的高层语义之间存在着“语义鸿 沟”【2 】,难以获取高层语义信息。再者,由于缺少对图像数据有效的 语义描述,各种系统之间无法信息共享,所以大量的相关信息不能被 检索出来。若要有效地获取图像资源,必须实现基于语义的检索。基 于语义的检索技术不仅能提高信息检索的准确率,而且能提高资源共 享和检索智能化的程度。 硕士学位论文 图像检索的相关研究 有三种基本的图像检索方法: 1 基于文本的图像检索( t b i r , t e x t b a s e di m a g er e t f i e v a l ) ; 2 基于内容的图像检索( c b i r ,c o n t e n t b a s e di m a g er e t r i e v a l ) ; 3 基于语义的图像检索。 1 2 1 基于文本的图像检索 早期的图像检索手段以文本标注( a n n o t a t i o n ) 方式为主,可以称之 为基于文本的图像检索【3 1 ,它实际上是一种数据库技术的应用。它的 主要思路和方法是先对图像用文本进行注解,然后用基于文本的数据 库管理系统来实现图像检索功能。基于文本的图像检索有如下优越 性:。 ( 1 ) 对图像进行注解所得到的文本,可以表达图像中包含的抽象概 念: ( 2 ) 对图像进行标注,得到图像标注数据库,图像检索过程转变为 一个文本检索问题。不但具有检索速度快的优点,还可以使用各种成 熟的文本检索技术。 基于文本检索的方法也存在很多缺点,主要有: ( 1 ) 文本的描述能力有限,难于充分表达图像等媒体数据所包含的 丰富的内容。因为文本描述是一种定性的语义描述,对于图像中如纹 理、不规则形状等描述则较为困难; ( 2 ) 文本描述具有一定的主观性,同一幅图像不同的标注者对其所 作的文本描述可能会出现很大的分歧; ( 3 ) 文本描述涉及对自然语言的理解问题,这问题本身又是一个没 有得到完全解决的难题; ( 4 ) 在现代海量且动态变化的多媒体数据库( 如因特网) 的背景下, 该方法的应用具有很大的困难。 基于本体的动画素材语义检索引擎设计与排序研究 目前许多流行的商用w e b 图像搜索引擎( ! t h g o o g l e 、百度、l y c o s 和a i t a v i s t a 等) 由于技术上的原因,在搜索图像时并没有按照图像内 容本身来搜索,而是采用了和文本搜索类似的技术路线,即采用w e b 网页中与图像关联的文字信息来完成搜索任务,搜索结果不尽人意。 因此目前的图像搜索引擎并没有从根本上解决图像检索这一难题。 1 2 2 基于内容的图像检索 基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,c b i r ) 是目 前图像检索领域最活跃的一种技术方法,其基本原理剧4 ,5 ,6 】:直接根 据图像对象内容进行的各种特征( 如图象的特征有颜色、纹理和形状 等) 的检索,它能从图像资源库中直接找到具有指定特征或含有特定 内容的图像资源。其基本过程是:首先对资源进行预处理,然后根据 资源的内容从资源中提取需要的特征存于数据库中;当用户对所需要 图像进行检索时,对于一个己知的资源抽取其相应的特征,然后在资 源库中检索与其相似的资源,也可以相对于某查询要求给出一些特 征值,然后根据所给定的特征值在图像库中检索所要的资源。它区别 于传统的基于关键字的检索手段,融合了图象理解、模式识别等各种 技术。 基于内容的图像检索比基于文本的图像检索有很大的改进,其优 点如下: 1 ) 直接从内容中提取信息线索 基于内容的检索突破了传统的基于关键词检索的局限,直接对图 像内容进行分析,从中抽取具有代表性的特征,然后利用这些内容特 征检索索引并进行检索。 2 ) 近似匹配检索 在数据库中,需使用模式识别的方法对图像资源库中的资源按不 同索引特征分类。在检索过程中,它采用某种相似性度量对资源库中 的资源进行匹配,以获得查询结果。 硕十学位论文 3 、) 自动化程度提高 特征提取和索引的建立,可由计算机自动实现,避免了人工描述 的主观性,也大大减少了工作量。 4 ) 满足用户多层次的检索要求【7 】 基于内容的检索系统通常由图像库、特征库和知识库组成。特征 库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领 域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域 的应用要求。 5 ) 整个过程是一个逐步逼近和相关反馈的过程 8 , 9 3 。 基于内容的多媒体检索系统具有很强的交互能力,用户参与整个 检索的过程,它是多媒体数据库的一个重要方面。交互性增加了用户 表达查询、评价查询结果和基于这些评价上进一步检索的能力,是一 个闭反馈结构。 典型的基于内容的图像检索系统有q b i c t l o , 1 1 ,它是f 扫i b m 公司 a l m a d e n 研究中心开发的可以称为第一个真正功能齐全的基于内容的 检索系统,它通过友好的图形界面,使用户可以选择颜色、文理形状 等多种检索方式。在其索引子系统中,首先用k l t 变换来完成维数缩 减,并采用r + 树来构造多维索引结构。m a r s ( m u l t i m e d i aa n da n a l y s i s a n dr e t r i e v a l s y s t e m ) 系统是由美国u i u c ( u n i v e r s i t yo fi l l i n o i s a t u r b a n a - c h a m p a i g n ) 大学开发的,其不同之处在于它是多领域交叉技 术实现的系统:计算机视觉、数据库管理系统和信息检索系统。m a r s 的重点不在于找到单个的最佳特征表示,而在于如何将不同的视觉特 征组织成有意义的检索系统,以动态地适应不同的用户。 1 2 3 基于语义的图像检索 基于内容的图像检索系统主要依据图像的内容特征和主题对象 特征( 即图像的实际内容) 来标引和检索,往往需要用户提供一幅样 例图片、或者要求用户采用某种方式( 例如画出图像中对象的大体轮 基于本体的动画素材语义检索引擎设计与排序研究 廓、指定图像中主要的颜色及其比例等) 对图像的视觉特征做出描述, 并以此作为检索条件,这样无疑是把实现系统底层的领域知识带到用 户界面,要求用户具有相关领域知识,更重要的是,作为“人”的用 户,处理和理解信息最习惯、最自然的层次就是语义级别,而不是低 级别的的图像视觉特征。从这个层面上而言,“人”与“机器”之间 存在一个理解断层,这实际上也是“语义鸿沟”的一种表现形式【2 】。 为了弥补基于内容的图像检索在以上这些方面的不足之处,许多 学者提出了基于语义的图像检索方法。这种方法的目的是为了使得图 像检索尽可能逼近人对图像内容的理解,从而使得图像检索技术真正 满足用户的个性化查询需求。一般,人们习惯看到一幅图像就首先判 断它的含义,并且要求计算机也必须具备此能力,这就提升到了语义 层次的检索。语义信息的利用有两方面的困难:一是必须有将低层的 图像视觉特征映射到高层语义的方法;二是必须提供高层语义的描述 方式。基于语义的图像检索研究按照采用的技术主要分为两大类:基 于语义特征的图像检索和基于语义知识表达的图像检索。 基于语义特征的检索方式主要是利用高效的图像处理技术对资 源进行处理,分析其物理特征,然后采用各种算法、统计的方法等来 获得其相应的语义特征。对图像中的对象进行识别和语义提取,包括 基于对象区域的分析、通过学习分类方式由低层特征导出语义概念或 主观倾向、通过人机交互的相关反馈方法获得语言信息和通过环境信 息来间接探测语义信息。a d i t y av a i l a y a 分别采用b a y e s i a n 方法和加 权k n n ( w e i g h t e dk n e a r e s tn e i g h b o rc l a s s i f i e r ) 分类器对假日图像进 行分类,对图像的全局特征进行语义标注【1 2 】。万华林 1 3 】,成洁【1 4 】提 出了基于向量机的( s v m ) 的图像语义分类技术实现对高层语义的描 述。 c h a n g b oy a n g 1 5 】提出了语义相关反馈的图像检索,首先对一些 图片进行底层特征提取和高层语义的标注,来推出未标注的图片的底 层特征和高层语义。洪安祥【1 6 】提出一种基于相关反馈的图像语义特征 硕士学位论文 数据动态构造和检索的方法:先将数据库中的图像和种子图像的相似 程度分为很不相似、不相似、未判断、相似和很相似五等,并将范例 图像作为种子图像进行详细语义描述,采用一般的视觉特征如颜色直 方图来检索,然后用户采用相关反馈的方法对初步检索结果进行判 别,将种子图像的语义描述特征赋予那些用户判断非常相似的图像, 经过用户的反复使用后就可以实现对数据库中所有图像的语义描述, 动态构造语义特征图,最后实现基于语义的图像检索。 基于语义知识表达的图像检索是利用知识库对图像资源的语义 特征( 包括底层语义特征和高层语义特征) 进行人工或者半自动的标 注,把资源的语义特征与知识库关联,并进行语义扩展和推理。国外 著名图片标注工具m o n t o m a t a n n o t i z e r 1 7 】是利用本体知识库进行语 义标注而实现检索的典型代表。国内主要有中国科学院的科学数据库 多媒体检索系统【l8 】以及解放军理工大学的基于语义的智能多媒体信 息检索系统【1 9 】。 1 3 研究内容及意义 通过分析图像检索的各种方法,笔者发现研究语义检索技术来解 决“语义鸿沟 ,以及实现动画素材的语义检索是具有现实意义和价 值的。我们在国家8 6 3 项目“软件及数字媒体i t 资源验证和组织技 术研究及系统开发”的支持下,实地考察了动画制作的流程,总结和 分析得出:在动画制作的过程中完全可以重用之前所产生的诸如分镜 头、人物造型、道具、二维场景、三维场景、原画( 即线稿) 、色稿 等动画素材,从而达到资源重用,减少重复劳动的目的;同时,依据 动画领域本体“星城记 构建语义标注模板以对动画素材进行语义标 识,构建基于本体的卡通动画素材资源库,对动画生产流程中产生的 素材以及中间产品进行集中、统一的有效管理。并在此基础上实现基 于本体的动画素材语义检索引擎,从而提高资源检索的查准率和查全 率。其意义在于更好地实现动画素材资源的存储、管理以及检索服务, 基丁二本体的动画素材语义检索引擎设计与排序研究 为动画公司以及动画的制作人员提供一个基础平台,实现动漫产业基 地的资源共享,增加不同基地人员之间协同工作的能力;实现基于本 体的语义检索,解决“语义鸿沟”问题,以提高资源检索的查全率和 查准率。本文的创新点和论文组织如下: 令分析和设计检索子系统,利用l u c e n e 倒排索引机制,对语义化的 资源进行索引,实现了基于本体的动画素材语义检索引擎。提出 本体概念扩展算法,并利用白适应遗传算法实现查询词组合优化, 构造出最能体现用户查询意图的查询词。 令通过对中国科学院计算技术研究所的i c t c l a s 进行分析,实现了 对中文语句的语义层次归类,为实现图像资源的语义化和语义检 索奠定基础。 夺研究本体中概念的相似度,提出了基于距离和密度的加权概念相 似度计算方法,并结合传统的信息检索排序模型t f i d f ,提出新 的排序算法,在一定程度上提高了检索系统的查全率和查准率。 本文共分为六章: 第一章,绪论,主要介绍课题的背景、图像检索的相关研究、本 文的研究内容与意义; 第二章,介绍了本体的相关理论和基于本体的信息检索模型,探 究和设计动画素材资源的语义化方案,在此基础上给出基于本体的动 画素材语义检索引擎架构设计和各模块的功能介绍; 第三章,设计和实现基于l u c e n e 的检索子系统,并详细阐述本 体概念扩展和基于遗传算法的查询词组合优化机制; 第四章,深入研究概念语义相似度,提出基于语义距离和语义密 度的加权概念相似度计算方法,结合传统的信息检索排序模型,实现 系统排序算法; 第五章,实验分析。设计实验方案以及实验结果分析。 第六章,总结和下一步工作。 基于本体的动画素材语义检索引擎设计与排序研究 2 基于本体的动画素材语义检索引擎 2 1 本体的相关理论 2 1 1 本体的定义 本体( o n t o l o g y ) 的概念起源于哲学领域,即“对世界上客观存在 物的系统地描述”【2 0 】。目前,人们将本体的概念引入计算机科学、人 工智能、知识工程、图书情报、智能检索和数据挖掘等领域,用以解 决知识概念表示和知识组织体系方面的有关问题,但对于本体的理解 和定义一直缺乏统一的看法。斯坦福大学的g r u b e r 最早( 1 9 9 3 年) 提 出本体的定义,即“本体是概念模型的明确规范说明”【2 1 】,后来b o r s t p i m 博士等对g r u b e 的定义作了少许修改,给出本体的另外一个定义, 表达如下:“i ti sa nf o r m a ls p e c i f i c a t i o no fas h a r e dc o n c e p t u a l i z a t i o n ”, 即“本体是共享概念模型的形式化规范说明”【2 2 1 。德国卡尔斯鲁大 学的s t u d e r 等人对上述两个定义进行了深入的研究,认为“a n o n t o l o g yi sae x p l i c i tf o r m a ls p e c i f i c a t i o no fas h a r e dc o n c e p t u a l i z a t i o n , 即“本体是共享概念模型的明确的形式化规范说明 【2 3 】。这个定义 包含四层含义:概念模型、明确、形式化和共享。具体描述如下: 1 概念模型:通过抽象出客观世界中一些现象的相关概念而得 到的模型,其表现的含义独立于具体的环境状态。 2 明确:被引用的概念所属的上位类与在使用此概念时的限制条 件应预先得到明确的定义和说明; 3 形式化:本体通过本体语言编码,使之能被计算机可读,并可 被计算机处理: 4 共享:是指在一个本体中,知识所表达的观念、观点应该“抓 住知识的共性,也就是说,它不只是为某一小部分人所接受的,而是 硕士学位论文 为整个群体所接受的 ,体现的是共同认可的知识,反映的是相关领域 中公认的概念集。 综上所述,本体的目标是捕获相关领域的共有知识,提供对该领 域知识的共同理解,确定该领域内共同认可的术语,并从不同层次的 形式化模型上给出这些术语和术语之间相互关系的明确定义,实现对 领域知识的推理。从知识共享的角度来说,本体是通用意义上的概念 定义集合,是在各种知识系统问交换知识的共同语言。 2 1 2 本体的建模元语 传统知识库系统的开发采用的是概念化建模方法,但这种建模方 法不能完全适用于本体建模。因为开发知识本体的目的是用于人类、 计算机对知识的共享和重用,它是相对稳定的,独立于具体应用。下 面给出陆建江等【2 4 】提出的七元组本体形式化定义: 定义:本体可定义为一个七元组0 = ( c ,a c , r ,彳置,h ,x ) ,其中c 是 概念的集合;彳c 是概念属性的集合;r 是关系的集合;彳膏是关系属 性的集合;日表示层次的集合;j r 是实例的集合;x 是公理的集合。 a ) 概念。概念也称为类,从语义上讲,它是对现实世界中个体的 抽象,表示的是个体的集合,其定义一般包括概念的名称,以及对该 概念的自然语言描述。 b ) 概念的属性。如果c ,是c 中的一个概念,那么它的属性可表示 为彳c ( c ,) 。概念间之所以有差异正是由于它们有着不同的属性,才对 应着不同的个体集合,因此,概念的属性集合又称为概念的内涵,它 所对应的个体集合为概念的外延。 c ) 关系。一个关系通常包含定义域和值域两部分,这两部分限定 了关系所适应的范围。本体中关系的定义域通常是一个概念,而值域 既可以是概念,也可以是具体的取值域( 如字符串和整数等) 。当值 域为取值域的时候,关系便退化为属性,因而属性是一种特殊的关系。 若只考虑关系的值域为概念的情况,关系集合r 中的每个关系 基于本体的动画素材语义检索引擎设计与排序研究 吒( c ,c 。) 便表示概念c ,和气之间的二元关系。此时这个关系只是表明 概念c 。和c 所对应的实例中可能存在关系吒,但并非任意取自这两个q 概念的实例都一定具有这样的关系。概念之间的关系多种多样,但那 些具有普遍性的关系更值得关注,例如,表达概念间的部分和整体的 p a r t o f 关系。 d ) 关系的属性。关系的属性描述是对关系的进一步限制,如一个 表示年龄的关系“h a s a g e ”,如果它的值域是整数,则可以进一步通 过它的属性规定其取值范围是1 1 2 0 之间的整数。 e ) 层次。层次可以定义在概念、属性和关系上。例如,概念上的 层次有k i n d o f 或i s a ,表示s u p e r c l a s s s u b c l a s s 关系,( c ,) h 表 示c 。是c 的超类。a d 实例。一个实例是现实世界中具体的和唯一的个体,它对应着 本体中的一个或多个概念,具有概念描述的属性和具体的属性值。由 于显示世界中的个体可能无法穷尽其数量,同时新的个体会不断产生 而原有的个体也会不断消亡,所以实例相对于本体的其他组成成分来 说是动态的。本体的建模活动一般不考虑实例或只考虑少数重要的实 例,但当本体和实际应用相结合时,需要将特定领域的个体作为实例 添加进来。 g ) 公理。公理集合x 中的每条公理代表领域知识中的永真断言, 例如,声明关系“t e a c h ”和“t a u g h t b y ”是互逆的,声明概念“w o m a n ” 和“m a n ”是不相交的,等等。 上述的七元组形式化本体定义与p e r e z 等人1 9 9 9 年归纳出的五 个基本的本体建模元语【2 5 】:类或概念、关系、函数( 一种特殊的关系) 、 公理以及实例或个体是一致的。实际应用中通常采用本体语言描述本 体,也可采用图来描述本体。 硕士学位论文 2 1 3 本体的应用 2 1 3 1 本体在信息检索中的应用 随着计算机技术的广泛应用和用户信息需求的不断提高,常规 的直接基于关键词的信息检索产生误检、漏检的一个重要原因是用户 需求表达与信息系统的表达方式不一致,实质上是对领域知识理解的 不一致,出现“所得不为所需”,要解决这个问题必须采取某种人和 机器都能理解的中间语言来促进人机交流,消除人和机器对同一信息 的认识误区。 本体是对概念化对象明确的形式化规范说明,可以用来描述领域 知识,形成对该领域知识的共同理解,确定该领域内共同认可的概念, 并从不同层次的形式化模式上给出这些概念和概念之间相互关系的 明确说明。这一系列的基本描述如同工程中一座大厦的基石,为交流 各方提供了一个统一的认识。在这一系列概念及其相互关系的详细形 式化说明的支持下,知识的搜索、积累和共享的效率将大大提高,真 正意义上的知识重用和共享也成为可能。因此,将本体技术引入信息 检索领域的主要目的就是通过本体技术提供一种范围广泛的知识重 用和共享的途径,以解决目前信息检索系统中所存的问题 2 6 , 2 7 】。 本体在信息检索中的作用如下: 1 ) 成为人和机器之间的桥梁,使人和机器对概念的理解达成一 致。基于关键词的检索首先要求用户输入关键词,但是由于自然语言 表达具有灵活性,所以存在着大量的同义词、多义词,如何消除计算 机对自然语言理解和用户检索的真正意图之间的偏差就显得十分重 要。这时,计算机要自动识别出检索关键词的准确含义,理解用户检 索的真正意图就需要借助于特定的工具本体,它作为人和机器之 间交互的中介桥梁,可以帮助检索系统在多个可能的意义中选择最适 合的意义。 2 ) 提高检索的查全率和查准率。查询模块可以对用户提交的关键 基于本体的动画素材语义检索引擎设计与排序研究 词根据本体中的概念和概念关系说明进行查询语义扩展,使原本在基 于关键词检索中遗漏的但又符合用户检索意图的信息资源被检索到, 这样就大大提高了检索的查全率。另一方面,查询模块也可以在语义 层次上对关键词消除不符合用户检索意图的含义,同时在返回结果时 又进行进一步的过滤,把不符合的那部分信息去掉,因此也提高了检 索的查准率。 2 1 3 2 本体在其他领域的应用 o n t o l o g y 广泛应用于人工智能、计算语言、数据原理等领域;特 别是在知识工程、知识表示、语言工程、数据设计、知识管理等领域; o n t o l o g y 甚至还被应用到自然语言翻译、医药、农业、电子商务、企 业管理、地理信息系统、法律信息系统、生物信息系统等许多领域。 2 2 基于本体的信息检索模型 本体是对概念化对象的明确的形式化规范说明,可以用来描述领 域知识,形成对该领域知识的共同理解,确定该领域内共同认可的概 念,并从不同层次的形式化模式上给出这些概念和概念之间相互关系 的明确说明。因此,将本体技术引入信息检索领域的主要目的就是通 过本体技术解决目前信息检索系统中所存在的问题。基于本体的信息 检索思路总结如下 2 8 , 2 9 , 3 0 , 3 1 1 : 1 在领域专家的帮助下,建立相关领域的本体。 2 参照己有本体,按照规定的格式把从信息源中收集到的数据信 息存储在元数据库( 关系数据库、知识库等) 中。 3 对于用户的查询请求,查询转换器会把它转换成规定的格式, 并在本体的帮助下从元数据库中匹配出符合条件的数据集合。 4 检索的结果经过定制处理后,返回给用户。 如果检索系统不需要太强的推理能力,本体可用概念图的形式表 示并存储,数据可以保存在一般的关系数据库中,采用图的匹配技术 硕士学位论文 来完成信息检索。如果检索系统要求比较强的推理能力,一般需要用 一种描述语言表示本体,数据保存在知识库中,采用描述语言的逻辑 推理能力来完成信息检索。基于本体的信息检索系统一般设计框架如 图2 1 所示。 图2 1 基于本体的信息检索系统 2 3 动画素材资源语义化 2 3 1 动画素材资源语义化的意义 现在网上比较流行的检索工具如g o o g l e 和b a i d u 等搜索引擎, 它们都是要求用户输入确定的或者模糊的关键字来进行查找,当输入 的关键字模糊度太小时,可能查不到所需要的内容,而当模糊度太大 时,计算机可能要查询太多的无关内容,查准率不高。例如,用户需 要查找有关“w i n d o w s ”的信息,结果可能出现许多用户不关心的内 容,如和“窗户p 等的大量无关信息,或者其他的垃圾信息事实上, 从语义的角度来说,用户可能需要查询的是“w i n d o w s 操作系统 等。 因此,语义就是要解决关键字的内在意义,而不是从字面上的意思来 进行检索。从计算机信息处理的角度看,语义就是一个字符串及其 字符串的组成部分( 字、词、短语、句子、段落等) 所表示的含义, 1 4 基于本体的动画素材语义检索引擎设计与排序研究 这种含义是对客观世界的现象或者规律的描述。这种含义至少是被人 所理解的,人们试图让机器按照人所理解的内容来理解这个字符串。 计算机科学家特别关心的,还有语义的另外一个属性,即隐含语义。 一般,语义分为显式语义和隐含语义,显式语义是仅来自某个特定字 符串表达者想描述的语义,而隐式语义是表达者故意没有表达的语 义。语义化则是指通过对资源进行描述加工,让人和机器能共同理解 其语义的过程。 为了实现人与机器的共同理解,许多学者在这方面进行了大量的 研究工作,一般都是通过自动标注或人工标注的方式为多媒体资源的 内容增加语义信息,如图片标注工具m o n t o m a t a n n o t i z e 6 1 7 】是 a c e m e d i a 项目【3 2 】中非常重要的一个组件,它可以选定图像中的部分 区域并在知识库( 基于本体的知识库) 中选择合适的本体概念进行关 联;通过计算选定区域的一组物理特征( 如d o m a i nc o l o r 等) ,并 把这组物理特征与选定的概念关联起来,每个这样的关联称为一个 p r o t o t y p e ,p r o t o t y p e 的集合称为p r o t o t y p e 库。 在进行自动标注时,通过分析资源的区域物理特征来近似匹配 p r o t o t y p e ,并将匹配得到的概念标注到资源上,通过这种方式得到 的语义信息往往层次很低,即便可以得到一些高层语义,其语义的准 确性也很差。由于在该方法中标注的语义是和多媒体资源的物理特征 关联起来的,故其检索时语义上的匹配不代表其资源真实内容上的匹 配,相反资源真实内容上的一致也不一定反映到语义上了,总之其检 索的精确性和准确度受物理特征提取算法的影响很大。 a n t h o n yh o o g s 结合视频分析技术,实现动态地识别视频中的对 象、事件等概念【3 3 】。其方法主要是先提取视频关键帧的底层特征,而 后转化为基于文本的视觉特征描述,最后利用朴素贝叶斯方法在 w o r d n e t 3 4 】的语义框架中查找匹配的概念,该方法具有实现简单、性 能稳定的优点。但该方法中的先验概率和似然估计参数是按文本视觉 硕十学位论文 特征描述在w o r d n e t 词条中出现频率计算的,因此存在精确性和准 确度不高的问题。 通过对现有的基于内容的图像检索和基于语义的图像系统的研 究发现,造成检索性能不高的根本原因就是对图像资源底层特征的语 义化不够和缺少有效的高层语义表达机制,以及不能实现两者的共 现。 因此,有必要探索出一个图像资源语义化的方案,力求改善资源 的组织和语义表达形式,从语义的层面而不单是从信息层面来组织和 利用这些资源,从而实现图像资源有效的重用和使用效益的最大化。 2 3 2 动画素材资源语义化方案 m p e g 7 ( 多媒体内容描述接口) 是i s o ( 国际标准化组织) m p e g ( 运动图像专家组) 制定的用来描述多媒体数据内容和支持基于内容 的多媒体管理的标准,它能够为不同类型的多媒体信息提供一套描述 多媒体内容数据的标准化工具集,使得内容描述与多媒体内容相结 合,从而构成一个统一、标准的多媒体检索平台来支持基于内容的快 速、高效的检索。 2 3 2 1 基于m p e g 7 的多媒体资源描述方案 m p e g 7 【3 5 1 标准描述的多媒体信息内容的含义超越了传统的意义 上图像,声音,文档的局限,这些内容包括:( 1 ) 客观世界。静止图像、 图表、图形、文本、3 d 模型、音频、语音、活动视频、动画以及场 景中的景象关系,媒体交互设备等;( 2 ) 主观世界。对事物或事件的概 括抽象,人的感情色彩,价值取向等;( 3 ) 合成的信息。客观世界和主 观世界各种元素之间的有机结合后构成的多媒体信息。m p e g 7 的框 架包括:描述符( d e s c r i p t o r s ,d s ) 、描述方案( d e s c r i p t i o ns c h e m e s ,d s ) 、 描述定义语言( d e s c r i p t i o nd e f i n i t i o nl a n g u a g e ,d l l ) 矛n 编码描述 ( c o d ed e s c r i p t i o n ) 。 基于本体的动画素材语义检索引擎设计与排序研究 m p e g 7 提供了大量描述多媒体资源内容的元数据。虽然可以通 过元数据来很好地描述多媒体资源( 这是典型地基于内容的检索) , 但是这些描述多媒体资源的元数据本身缺乏语义,元数据只是对资源 的内容特征进行了浅层描述,其实质就是利用简单的基于x m l 语法 的元数据标签简单罗列资源的特征,根本没有具备理解资源内容特征 的能力。过度关注资源的底层特征的语义化,而忽略了多媒体资源高 层语义的有效表达,仍然会导致现有的多媒体检索效率不高。 因此,多媒体资源的语义化方案必须满足:一方面,多媒体的语 义化方案必须具备在现有元数据基础上加上语义标签,通过这个语义 标签,把元数据映射到一个知识表示组织体系当中,从而实现把本无 语义的资源元数据纳入到语义( 概念) 网络之中的能力。另一方面, m p e g 7 (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论