(计算机软件与理论专业论文)基于本体的动画素材检索系统设计与检索模型研究.pdf_第1页
(计算机软件与理论专业论文)基于本体的动画素材检索系统设计与检索模型研究.pdf_第2页
(计算机软件与理论专业论文)基于本体的动画素材检索系统设计与检索模型研究.pdf_第3页
(计算机软件与理论专业论文)基于本体的动画素材检索系统设计与检索模型研究.pdf_第4页
(计算机软件与理论专业论文)基于本体的动画素材检索系统设计与检索模型研究.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(计算机软件与理论专业论文)基于本体的动画素材检索系统设计与检索模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 - 当前基于文本的检索技术和基于内容的检索技术广泛应用于多 媒体资源检索领域。然而,基于文本的检索技术采用手工标注,自动 化程度低,标注质量因人而异,不但费时费力,而且难以保证标注结 果语义的一致性;基于内容的检索技术虽然可在一定程度上提高检索 的自动化程度,然而其内容描述只是针对多媒体数据的底层特征,没 有表达资源高层语义信息。另一方面,传统的信息检索模型仅从字面 意义上进行关键词匹配,缺乏语义处理能力,存在信息的误检、漏检 等缺陷。基于本体的信息检索以及潜在语义索引方法是实现语义检索 的两种途径,能够提高检索的查全率和查准率。 本文首先阐述本体相关理论,分析现有的信息检索技术和模型, 以及基于本体的信息检索实现机制;然后提出基于本体的潜在语义索 引模型,给出本体与潜在语义索引结合的具体实现过程,并构建基于 本体的查询扩展算法实现对用户查询的语义扩展,进一步提高语义检 索的准确性和有效性;最后通过实地考察动画制作流程,分析并设计 基于本体的动画素材检索系统,提出面向动画素材的语义检索系统框 架和实现途径,完成系统分析和总体设计,以及本体服务器、查询请 求预处理器、查询请求重构器的设计和实现,并通过分析实验结果说 明语义检索能够有效的提高检索性能。 关键词:语义检索,本体,潜在语义索引,查询扩展,语义化 a b s t r a c t c u r r e n t l y , t h e t e x t b a s e dr e t r i e v a l t e c h n o l o g y a n dc o n t e n t - b a s e d r e t r i e v a lt e c h n o l o g ya r ew i d e l yu s e di nt h ef i e l do fr e t r i e v a lo fm u l t i m e d i a r e s o u r c e s h o w e v e r ,t h et e x t - b a s e d s e a r c ht e c h n o l o g yu s e sm a n u a l a n n o t a t i o nw h i c hl e a d st ot h el o wd e g r e eo fa u t o m a t i o n t h eq u a l i t yo f a n n o t a t i n gv a r i e sf r o mp e r s o nt op e r s o n ,t h i st e c h n o l o g yi s n o to n l y t i m e c o n s u m i n g a n dl a b o r i o u s b u ta l s od i f f i c u l tt oe n s u r es e m a n t i c c o n s i s t e n c y o ft h er e s u l to fa n n o t a t i n g a l t h o u g ht h ec o n t e n t b a s e d r e t r i e v a lt e c h n o l o g yc a ni m p r o v ea u t o m a t i o nd e g r e eo fr e t r i e v a l a ta c e r t a i ne x t e n t ,t h ed e s c r i p t i o no fc o n t e n t so n l yd i r e c t st ot h ep h y s i c a l c h a r a c t e r i s t i c so fm u l t i m e d i ad a t a ,a n dd o e s n td e s c i r b et h eh i g h l e v e l s e m a n t i ci n f o r m a t i o no fr e s o u r c e s o nt h eo t h e rh a n d ,t r a d i t i o n a l i n f o r m a t i o nr e t r i e v a lm o d e lso n l ym a t c hf r o mt h el i t e r a lm e a n i n go f w o r d s ,s h o r to ft h ec a p a c i t yt od e a lw i t hs e m a n t i ci n f o r m a t i o n ,a n d h a v i n gd e f e c t s s u c ha sf a l s ei n f o r m a t i o nr e t r i e v a la n do m i s s i o no f u n d e t e c t e di n f o r m a t i o n o n t o l o g y - b a s e di n f o r m a t i o nr e t r i e v a la n dl a t e n t s e m a n t i ci n d e x i n g ( l s i ) m e t h o da r et w ow a y st or e a l i z es e m a n t i c r e t r i e v a la n dc a ni m p r o v er e t r i e v a lr e c a l lr a t i oa n dp r e c i s i o nr a t i o f i r s t l y ,t h i sp a p e r s e to u tt h e o n t o l o g i c a lt h e o r y ,a n da n a l y z e i m p l e m e n t a t i o nm e c h a n i s mo fo n t o l o g y - b a s e di n f o r m a t i o nr e t r i e v a l a s w e l la st h ee x i s t e di n f o r m a t i o nr e t r i e v a lt e c h n i q u e sa n dm o d e l s s e c o n d l y , w ep r o p o s eal a t e n ts e m a n t i ci n d e x i n gm o d e lb a s e do no n t o l o g y ,g i v i n g t h ep r o c e s so ft h ec o m b i n a t i o nb e t w e e no n t o l o g ya n dl s ii nd e t a i l , b u i l d i n gq u e r ye x p a n s i o na l g o r i t h mb a s e do no n t o l o g yt or e a l i z et h e s e m a n t i ce x p a n s i o no fu s e rq u e r yw h i c hf u r t h e ri m p r o v e st h ea c c u r a c y a n de f f e c t i v e n e s so fs e m a n t i cr e t r i e v a l f i n a l l y ,t h r o u g ht h es u r v e yo f a n i m a t i o np r o d u c t i o nf l o w ,w ea n a l y z ea n dd e s i g na no n t o l o g y - b a s e d r e t r i e v a ls y s t e mf o ra n i m a t i o nm a t e r i a l s ,p r o p o s i n gt h ef r a m e w o r ka n d i m p l e m e n t a t i o nm e t h o do ft h es e m a n t i cr e t r i e v a ls y s t e m ,c o m p l e t i n g d e s i g na n di m p l e m e n t a t i o no ft h eo n t o l o g ys e r v e r ,r e q u e s tp r e p r o c e s s o r a n dr e q u e s tr e c o n s t r u c t o ri na d d i t i o nt os y s t e ma n a l y s i sa n ds y s t e m d e s i g n ,a n di n d i c a t i n gt h r o u g ht h ea n a l y s i so fe x p e r i m e n t a lr e s u l t st h a t s e m a n t i cr e t r i e v a lc a ne f f e c t i v e l yi m p r o v er e t r i e v a lp e r f o r m a n c e k e yw o r d s :s e m a n t i cr e t r i e v a l ,o n t o l o g y ,l a t e n ts e m a n t i ci n d e x i n g , q u e r ye x p a n s i o n ,s e m a n t i c i v 湖南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 张。伊欠 pv 6 月 刁日 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权湖南师范大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密咄 ( 请在以上相应方框内打“”) 作者签名:幽gi 良 导师签名:南磊殇 日期:腓月y 日 日期:2 o 南年6 月 孑日 基于本体的动画素材检索系统设计与检索模型研究 1 1 课题背景 1 绪论 随着计算机技术、网络技术的发展,以数字媒体为基础的动画产 业迅速发展起来,并己发展成为一个庞大的产业群。在原创动画产品 的制作过程中,产生大量诸如图形图像、动作、模型、材质、音效、 动效等动画素材,生产流程也日益复杂。当前长沙国家数字媒体基地 积累的动画素材已达数千万张,制作过程般是借助各种制作工具手 绘各种动画形象和特效,导致大量的重复劳动并且动画素材难以重 用。传统基于分类目录和关键词匹配的检索系统因忽视关键词本身所 含的语义信息而存在对素材检索查全率和查准率低下的问题,制作人 员查找素材费时费力,经常不得不重绘画面近似的动画形象和特效, 使得动画素材复用率低、生产效率低下。 当前基于文本的检索技术和基于内容的检索技术广泛应用于多 媒体资源检索领域。然而,由于文本难以为多媒体资源的底层特征建 立索引,因此基于文本的多媒体检索技术无法揭示和表达多媒体信息 的实质内容和语义关系,即使利用文本对资源进行人工描述,其标注 质量因人而异,不但费时费力,而且难以保证描述结果语义的一致性。 基于内容的多媒体检索技术通过抽取资源的内容特征来建立索 引和实现检索,其研究目标是实现在没有人类参与的情况下自动识别 或理解资源的重要特征。目前比较有代表性的基于内容的多媒体检索 系统包括:i b ma l m a d e n 研究中心研发的图像检索系统q b i c t l l ,m i t 媒体实验室开发了p h o t o b o o k 系统 2 】,美国哥伦比亚大学开发的基于 w e b 的图像视频搜索工具v i s u a l s e e k 3 1 ,中科院计算机技术研究所的 基于特征的多媒体信息检索系统m i r e s 4 】等。 硕十学位论文 基于内容的检索技术虽然可在一定程度上提高检索的自动化程 度,然而其内容描述只是针对多媒体数据的底层特征,没有表达诸如 对象语义、空间关系语义、场景语义、行为语义等【5 】高层语义信息。 由于缺少高层语义的支持,这些系统在检索的准确性和效率上不能满 足用户的要求。 为了更真实的反映用户检索的意图,有必要进行语义层次上的检 索。现有的检索技术在计算机所感知的底层特征和多媒体的高层语义 之间存在“语义鸿沟( s e m a n t i cg a p ) ”【6 】,难以获取高层语义信息。同 时,由于缺少对多媒体数据的有效语义描述,各种系统之间无法实现 信息共享,大量的相关信息不能被检索出来。语义检索是有效获取多 媒体信息的检索技术,不仅能提高检索的准确率,而且能提高信息共 享和检索智能化的程度 7 1 。 本体作为一种能在语义和知识层次上描述信息系统的概念模型 建模工具,能够提供相关概念的明确的形式化说明,为机器理解和人 机交互提供语义支持,可以对信息源进行深层次的语义标引,实现语 义检索。当前基于本体的检索技术广泛应用于信息检索领域,成为当 前信息检索的研究热点之一。 另一方面,当前基于本体的检索技术通常采用传统的信息检索模 型,未能很好的表现标引词之间的关联,影响了检索性能。潜在语义 索引模型通过提取文档中的标引词之间的关联,采用统计的方法来揭 示文档中的语义结构,更加全面的反映标引词和文档之间的关系。利 用该模型不但能够分析标引词之间或文档之间的相似关系,而且能够 分析标引词和文档之间的关系。实践表明该方法比传统的关键词匹配 方法在检索的企准率方面高出2 0 3 0 8 】。 1 2 相关研究工作 1 2 1 潜在语义索引在信息检索中的应用 基丁二本体的动画素材检索系统设计与检索模型研究 潜在语义索引l s i ( l a t e n ts e m a n t i ci n d e x i n g ) ,或者潜在语义分 析l s a ( l a t e n ts e m a n t i ca n a l y s i s ) 9 - 1 4 1 ,是一种扩展的向量空间模型, 它利用统计得出的概念索引进行信息检索,通过对原来的词条一文档 矩阵进行奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) ,取出前k 个最大的奇异值及其对应的奇异矢量构成新矩阵来近似表示原词条一 文档矩阵,消减了词与文档之间语义关系的模糊度,从而提高检索性 能。潜在语义索引模型能够克服传统信息检索系统单从字面上进行关 键词匹配所带来的同义、多义,以及“斜交 现象,从而进一步提高 查准率 8 1 。 当前国内外对潜在语义索引及其在信息检索中的应用进行了大 量的研究。为了降低奇异值分解的时空复杂度,在0 l e a r y ”】工作的 基础上,k o l d a 1 6 】设计了矩阵估计算法半离散矩阵分解( s e m i d i s c r e t e d e c o m p o s i t i o n ,s d d ) 来代替s v d ;h o f m a n n ”】通过采用概率模型来 表示“文档一潜在语义一标引词”三者之间的关系,提出概念潜在语义 分析( p r o b a b i l i s t i cl a t e n ts e m a n t i ca n a l y s i s ,p l s a ) ,该方法使用最 大期望( e x p e c t a t i o nm a x i m i z a t i o n ,e m ) 算法迭代求解,极大的降低 了时间复杂度;s t d u m a i s 1 8 , 1 9 1 通过针对t r e c 文档库的实验结果证 实了基于l s i 的信息检索系统能够较好的克服传统信息检索中基于 字、词匹配带来的局限性;贺扬 2 0 】提出基于潜在语义索引模型的查询 语义扩展模型,该模型利用潜在语义空间来提取语义信息,克服了传 统信息检索模型的弱点,在潜在语义索引模型的基础上进一步提高了 检索性能;刘欣【2 1 1 实现了一个基于潜在语义索引的全文信息检索系 统,该系统利用潜在语义索引来挖掘文档的潜在语义结构,在文档与 查询向量组成的空间中计算它们之间的相关性,并根据初始查询结果 选择一个相关反馈文档对查询进行扩充,以获得更好的性能。初步测 试结果表明,该系统在一定程度上实现了语义角度的查询;顾榕【2 2 】 提出一种基于潜在语义分析的查询扩展算法,该方法通过对文档进行 硕十学位论文 潜在语义分析,引入计算词语间语义相似度的方法,将文本聚类应用 到检索的交互过程中,在提高检索的查准率方面取得了良好的实验效 果;罗景2 3 m 各概念潜在语义模型应用于中文信息检索,实验结果标明, 概率潜在语义模型相对于传统的向量空间模型能够显著的提高检索 的平均精度。 1 2 1 本体在信息检索中的应用 本体技术在信息检索中的应用是当前信息检索领域的热点之一, 国内外许多科研机构和研究人员在这一领域进行了有益的探索。 美国加利福尼亚技术学院 2 4 】开发了基于本体的生物文献检索系 统t e x t p r e s s o ,该系统建立了c a e n o r h a b d i t i s 遗传学中心约6 0 的遗传生 物文献的语义分类体系,并建立丰富的摘要描述信息,从而实现可被 计算机理解的提问式检索。 英国h u d d e r s f i e l d 大学【2 5 】建立了语义丰富的文档信息本体,并对 网页信息进行了语义标注,通过将用户查询与存储在数据库中的语义 元数据进行匹配来实现信息检索。 日本九州大学【2 6 】通过构建w e bs i t ec a p a b i l i t y 本体,使用m y p o r t a l 实现本体个性化语义w e b 信息检索。 a t & t 2 7 】建立了一个应用本体技术的信息检索系统f i n d u r 系统, 通过使用描述逻辑系统所规定的描述逻辑语法,表达了w o r d n e t 中词 汇问的同义、上义和下义关系。该系统从本质上仍然是基于语法的, 它没有使用本体中的词汇去标记文档,只是强调利用本体来实现查询 扩展,而查询输入的词汇本身也并非是依据本体中的词汇来建立。 宋峻峰【2 8 】提出的基于本体的信息检索模型采用了描述逻辑作为 构造本体的本体语言,使用本体中定义的词汇来标记文档,生成基于 本体的文档逻辑视图和用户信息需求逻辑视图,从而可以实现语义层 次的检索,使检索性能大大改善。 基于本体的动丽素材检索系统设计与检索模型研究 哈尔滨工业大学杨艳琴 2 9 】对目前生物学领域最丰富的t a o 矢h 识库 进行研究和分析,设计并开发了基于t a o 的生物领域信息检索系统。 中国农业大学赵庆龄 3 0 】针对农业知识本体论基础性研究的特点, 结合土壤与农业化学专业知识,建立了土壤领域知识体系,并在此基 础上开发了基于网络的农业科技信息智能检索系统。 浙江大学机械电子控制工程研究所叶冰【3 l 】设计了一个面向机械 行业的信息搜索系统的实现框架,探讨了行业信息的特征表示、特征 匹配的实现以及集中式行业信息数据库的信息检索问题。行业内的企 业用户和技术人员可以利用该系统来快速高效地获取比较精确且技 术性强的信息。 中国科学院计算机网络信息中心的科学数据库多媒体检索系统 3 2 1 在传统基于内容的多媒体检索技术的基础上引入领域本体,实现基 于概念、属性和内容的多媒体综合检索。该系统依据本体提供的词汇 集进行人工标注来获取高层语义,语义精度较好并支持小范围语义推 理。 解放军理工大学的基于语义的智能多媒体信息检索技术【3 3 】给出 了实现基于r d f s 的m p e g 7 语义元数据通用参考模型的途径,提出基 于语义的智能多媒体信息检索系统框架。该系统也采用人工标注来获 取高层语义,语义精度较好且能够描述多层语义信息。以上两个系统 较好的解决了多媒体资源底层特征与高层语义之间的“语义鸿沟, 有效的提高检索性能。 因此,将本体和传统信息检索技术相结合,不仅可以继承传统信 息检索的优点,而且可以克服传统信息检索中不能对语义关系进行处 理的局限性。通过构建领域本体,使得系统对领域内的概念、概念之 间的联系以及领域内的基本公理知识形成统一的认识,系统通过分析 用户查询中提问词的语义,理解用户意图,并准确地映射到信息资源, 从而提高了信息检索系统的查全率和查准率。 硕十学位论文 本文研究内容及创新点 如上所述,研究语义检索技术来解决“语义鸿沟并实现语义检 索是有现实意义和价值的。我们在国家8 6 3 项目“软件及数字媒体i p 资源验证和组织技术研究及系统开发 的支持下,实地考察动画制作 流程,总结和分析得出可以重用该制作过程所产生的诸如分镜头、人 物造型、道具、二维场景、三维场景、原画( 即线稿) 、色稿等动画 素材,从而达到资源重用、减少重复劳动的目的;同时,通过构建动 画素材领域本体来规范和描述动画素材领域知识,截取动画素材的静 态视图,依据本体知识库构建语义标注模板以对动画素材视图进行语 义标识以刻画素材的高层语义信息,并根据基于本体的查询扩展机制 实现用户查询语义扩展,较好的解决“语义鸿沟”问题。通过构建基 于本体的动画素材检索系统,有效的提高了资源检索的查全率和查准 率。本文的研究工作及创新点如下: 1 ) 分析并设计基于本体的动画素材检索系统。通过考察动画制作 流程和研究基于本体的语义检索技术,提出面向动画素材的语义检索 系统框架和实现途径,给出动画素材的语义化方案,完成系统分析和 总体设计,以及本体服务器( 与研究小组另一成员合作完成) 、检索 请求预处理器、检索请求重构器的设计和实现。 2 ) 提出基于本体的潜在语义索引模型。本文在文献 2 8 】提出的基于 本体的信息检索模型基础上,引入潜在语义索引模型将高维的标引词 一文档矩阵转换成低维的语义矢量矩阵,降低对文档库中的文档自动 标引的复杂度,并构建基于本体的查询扩展算法实现对用户查询的语 义扩展,进一步提高语义检索的准确性和有效性。 1 3 本文篇章结构 本文共分为五章: 第一章,绪论,主要介绍课题的研究背景、研究内容及意义、及 基于本体的动画素材检索系统设计与枪索模犁研究 论文的组织结构; 第二章,阐述本体相关理论,深入分析现有的信息检索技术及其 应用,特别是采用本体实现语义检索的理论和实现机制; 第三章,给出本体与潜在语义索引模型结合的途径和具体实现过 程,构建了基于本体的查询扩展机制,并给出模型实用性的验证; 笫四章,给出基于本体的动画素材检索系统的设计框架、实现思 路,以及动画素材的语义化方案,并详细阐述各功能部分的具体实现 过程,给出了该系统的实验性评测结果; 第五章,总结与展望。 基丁二本体的动画素材检索系统设计与检索模型研究 2 基于本体的信息检索理论与实现机制 2 1 本体相关理论 本体( o n t o l o g y ) 起初是一个哲学范畴,被哲学家用来描述事情或者 物质的基础。后来知识工程学者借用这一概念,用于知识系统中领域 知识的获取。近年来,信息系统研究者利用本体的概念模拟信息系统 建模,开始了诸多新的研究。 2 1 1 本体的概念及其分类 本体论在哲学的研究领域过于广泛,回到计算机领域,虽然6 0 年 代就被使用,但对于本体的理解和定义一直缺乏统一的看法。1 9 9 3 年,g r u b e r 给出了本体的一个最为流行且让人信服的定义,即“本体 是概念模型的明确的规范说明3 4 】。后来,b o r s t 对此进行了修改,认 为“本体是共享概念模型的形式化规范说吲3 5 】。s t u d e r 等人对上述 两个定义进行了深入的研究,认为“本体是共享概念模型的明确的形 式化规范说明【3 6 】”,这个定义包含四层含义:概念模型、明确、形式 化和共享。具体描述如下: a ) 概念模型:通过抽象出客观世界中一些现象的相关概念而得到的 模型,其表现的含义独立于具体的环境状态。它是对某一事实结 构的一组非正式的约束规则,可以理解和表达为一组概念( 包括 实体、属性和过程) 、定义和关系; b ) 明确:概念和概念的约束都有明确的和无歧义的定义; c ) 形式化:本体通过本体语言编码,使得计算机可读,并可被计算 机处理; d ) 共享:本体体现的足共同认可的知识,反映的是相关领域内公认 硕+ 学位论文 的概念集合,也即本体针对的是社会范畴而非个体之问的共识。 总的来说,本体的目标是捕获相关领域的共有知识,提供对该领 域知识的共同理解,确定该领域内共同认可的术语,并从不同层次的 形式化模型上给出这些术语和术语之间相互关系的明确定义。 w e l t y 等人提出的本体谱体现了目前计算机科学领域对本体的认 识 岁7 】女图1 所示。其中目录( c a t a l o g ) 、文本文件的集合( s e to ft e x t f i l e s ) 、术语表( g l o s s a r y ) 、辞典( t h e s a u r u s ) 是不带自动推理的本体, 而分类的集合( c o l l e c t i o no ft a x o n o m i e s ) 、框架的集合( c o l l e c t i o no f f r a m e s ) 、通用逻辑约束的集合( s e to fg e n e r a ll o g i c a lc o n s t r a i n t s ) 是带有 自动推理的本体。目录和文本文件的集合是简单本体,术语表和辞典 则是稍微复杂的本体。前者提供术语的自然语言描述,其文本具有一 定的结构;后者除了提供对术语的描述,还提供一种通用的层次来联 系泛化和特化术语。分类学本体常应用于知识表示、数据库开发和面 向对象软件工程领域,其中上层类的属性可被特化的类所继承。基于 框架系统的本体不但提供分类结构,而且提供对象之间的关系和对关 系的限制。表达能力最强也最复杂的信息系统本体使用一阶、高阶或 模态逻辑的公理。所有这些本体均满足g r u b e r 给出的本体定义,如 图1 所示,其复杂度从左至右逐渐增强。 图2 1 本体谱 通常情况下按照本体的研究目的、研究主体以及形式化程度来对 基于本体的动画素材检索系统设计与检索模型研究 本体进行分类 3 引。 a ) 根据本体的研究目的,可分为知识表示主体、通用本体( 或称为 常识本体) 、领域本体、任务本体、语言学本体等。知识表示本体 的研究重点是语言对知识的表达能力,s t a n d f o r d 大学知识系统实 验室提出的知识交换格式k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 是 其典型代表;通用本体则关注常识知识的使用,如著名的c y c 工 程;领域本体侧重于特定领域的本体重用,提供对特定的概念及 概念之间的关系的描述。当前对领域本体的研究已涉及诸多领域, 如企业本体、医学概念本体、酶催化生物学本体,以及本课题所 构建的的动画素材领域本体;语言学本体是关于语言及词汇的本 体,如g u m ( g e n e r a l i z e du p p e rm o d e l ) 和w o r d n e t 等;任务本体 主要指可共享的问题求解方法,其推理方法与领域无关b c h a n d r a s k a r a n 等人对关于任务和问题求解方法本体的研究是任务 本体研究的代表,其研究主题包括通用任务、任务结构、任务方 法结构和推理结构等。 b ) 根据本体的形式化程度,可分为完全非形式化本体、结构化非形 式化本体、半形式化本体以及形式化本体等四类。完全非形式化 本体采用自然语言描述本体,如爱丁堡大学的e n t e r p r i s eo n t o l o g y 自然语言版;结构非形式化本体采用受限的或结构化的自然语言 描述本体以减少二义性;半形式化本体则采用人工定义的形式化 语言表示;形式化本体一般具有形式化语义且能在某种程度上证 明“一致性”和“完整性”等属性,如多伦多大学虚拟企业项目 的企业本体。 2 1 2 本体建模语言与构建准则 p e r e z 等研究学者归纳出用于描述本体建模的5 个基本建模元语 ( m o d e l i n gp r i m i t i v e s ) 【3 9 】: 硕十学位论文 1 ) 类( c l a s s ) 或概念( c o n c e p t s ) :指任何事务,从语义上讲,它表示 的是对象的集体,其定义一般采用框架( f r a m e ) 结构,包括概念的 名称,与其他概念之间的关系的集合,以及用自然语言对概念的 描述: 2 ) 关系( r e l a t i o n s ) :指概念之问在领域中的交互作用,形式上定义 为n 维笛长尔积的子集r :g c c 。,如子类关系( s u b c l a s s o f ) 等,在语义上关系对应于对象元组的集合; 3 ) 函数( f u n c t i o n s ) :一类特殊的关系。该关系的前n 一1 个元素可以 唯一决定第n 个元素,形式化定义为f :c l c 2 g 一。一c 。; 4 ) 公理( a x i o m s ) :代表永真断言; 5 ) 实例( i n s t a n c e s ) :代表元素,从语义上讲实例表示的就是对象。 本体中基本的四种关系如下: p a r t o f :表达概念之间部分与整体的关系; k i n d o k :表达概念之间的继承关系,与面向对象中的继承关系 类似; i n s t a n c e o k :表达概念的实例与概念之间的关系,与面向对象 中的对象和类之间的关系类似; a t t r i b u t e o f :表达某个概念是另一概念的属性,如“表情”是 “人”的一个属性。 在实际的建模过程中,概念之间的关系不限于上面列出的4 中基 本关系,可以根据领域的具体情况来定义相应的关系。 本体构建是一个工程问题,需要科学准则以指导本体构建。研究 者在总结以往构建经验的基础上,归纳出一些有用的本体构建准则, 其中最有影响的是g r u b e r 提出的5 个准则: 1 ) 清晰性( c l a r i t y ) :本体必须有效的说明所定义术语的意思。定 义应该是客观的,当定义可以用逻辑公理表达时,它应该足形式化的, 定义应该尽可能的完整,所有定义应该用自然语言加以说明; 基于本体的动画素材检索系统设计与检索模型研究 2 、) 一致性( c o h e r e n c e ) :本体应该是一致的,即由本体得出的推 论与原有的定义是相容的。它所定义的公理应该是逻辑一致的,这是 最基本的要求。概念也同样要满足一致性的要求; 3 ) 可扩展性( e x t e n d i b i l i t y ) :本体应该为可预料到的任务提供概 念基础。它应该可以支持在己有的概念基础上定义新的术语,以满足 特殊的需求,而无须修改已有的概念定义; 4 ) 编码偏好程度最小( m i n i m a le n c o d i n gb i a s ) :概念的描述不应 该依赖于某一种特殊的符号层的表示方法。因为实际的系统可能采用 不同的知识表示方法; 5 ) 最小本体承诺( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :本体约定应 该最小,只要能够满足特定的知识共享需求即可。这可以通过定义约 束最弱的公理以及只定义通讯所需的词汇来保证。 在实际的本体构建过程中,这5 条设计准则往往需要进行权衡, 难以全部满足。 2 1 3 本体描述语言 上个世纪9 0 年代,一些基于a i 的本体描述语言被陆续提出,如 k _ i f 、o n t o l i n g u a 、c y c l 、l o o m 、o c m l 等。随着w e b 的发展,又出 现一系列基于w e b 的本体描述语言,如s h o e 、x o l 、r d f 、r d f s 、 o i l 、d a m l 、d a m l + o i l 、o w l 等。o w l 是w 3 c 推荐的语义网 本体描述语言,它通过提供一个具有形式语义的附加词汇表,使得它 比由x m l ,r d f 和r d fs c h e m a 支持的w e b 内容更具有机器可解释 性,它有三个表述能力递增的子语言:o w ll i t e ,o w ld l 和o w l f u l l 。 o w ll i t e 用于提供给那些只需一个分类层次和简单约束的用户 使用,它具有比o w ld l 更低的推理复杂性;o w ld l 在保证推理 的完备性和可判定性的前提下,在o w l 语言中具有最强的表达能力, 硕十学位论文 它拥有和描述逻辑s h o i n ( d ) 市h 当的表达能力;o w lf u l l 尽管没有可 计算性保证,但有最强的表达能力和完全自由的r d f ( s ) 语法。 这三种子语言的表达能力和推理能力依次增强,它们之间存在如 下关系,但反之不成立: 1 ) 每个合法的o w ll i t e 本体都是一个合法的o w ld l 本体; 2 ) 每个合法的o w ld l 本体都是一个合法的o w lf u l l 本体; 3 ) 每个有效的o w ll i t e 结论都是一个有效的o w ld l 结论; 4 ) 每个有效的o w ld l 结论都是一个有效的o w lf u l l 结论。 选择o w ll i t e 还是o w ld l 主要取决于用户在多大程度上需要 o w ld l 提供的表达能力更强的成分。选择o w ld l 还是o w lf u l l 主要取决于用户在多大程度上需要r d f ( s ) 的特殊建模机制。目前还 没有完全的o w lf u l l 实现。 2 2 信息检索相关理论 随着计算机在人类社会和生活各个方面的广泛应用,不单是研究 人员需要共享和利用数字信息,大众对数字信息的需求也日益强烈。 当前伴随着互联网络的迅猛发展,全球信息的内容和流量也呈指数级 增长。数字信息在为人们的日常工作和生活提供便利的同时,又另人 们不知如何从浩瀚如海的信息中获取自己所需的。如何组织和提供信 息成为信息系统亟待解决的关键问题。 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 通常是将信息按照一定的方式 组织和存储起来,并根据用户的需要找出有关的信息的过程和技术 4 q 。从发展阶段上看,信息检索经历了手工检索、计算机检索到目前 的网络化、智能化检索等多个阶段。 2 2 1 信息检索技术概述 目前信息检索技术可分为3 类【4 1 】:全文检索( t e x tr e t r i e v a l ) 、数 据检索( d a t ar e t r i e v a l ) 和知识检索( k n o w l e d g er e t r i e v a l ) 。 1 4 基丁本体的动画素材检索系统设计与检索模犁研究 l 、) 全文检索:将用户的查询请求和全文中所有词语进行比较,但 不考虑查询请求和文件语义上的匹配。在进行分词、去除停用词、词 根还原等简单的预处理之后,在文档全文基础上建立倒排表。主文档 中的任何词语均在倒排表中建有相应的入口词项。每个入口词项指向 一个属性项链表,该链表中的每一项则记录该入口词项在主文档中的 出现情况,如位置( 偏移量) 、( 英文) 大小写等信息。任意给出一 个查询词,从该词对应的入口词项就可一次性检索到包含该词的文 档。然而,由于全文检索没有考虑查询请求和倒排索引之间语义上的 联系,这种方式虽可保证查全率,但却导致查准率低下; 2 、) 数据检索:用户查询请求和信息系统中的数据均遵循事先规范 好的格式,具有一定的结构,允许对特定的字段检索。这种方式要求 有标识字段的方法,并且其性能取决于所使用的标识字段的方法以及 用户对该方法的理解,因而具有很大的局限性。同时,这种检索方式 对语义匹配的支持也较差; 3 ) 知识检索:综合应用信息管理科学、人工智能、认知科学及语 言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处 理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求, 能高效存取所有媒体类型的知识源( 文本、图像、视频、声音等) ,并 能准确精选用户需要的结果【4 2 】。这种方式的基本思想是模拟扩展人类 关于知识处理与利用的智能行为和认识思维方法。例如:抽象思维方 法,包括逻辑推理、机器学习、概念的概括与划分、对象的分类与继 承等;形象思维方法,如类比、联想等典型方法。知识检索强调基于 知识、语义上的匹配,因而能够更好的保证查准率和查全率。目前知 识检索是信息检索研究的重点,特别是面向w e b 信息的知识检索。 2 2 2 信息检索模型 信息检索从脱机检索、联机检索发展到网络检索,逐步形成一些 硕十学位论文 成熟的检索模型,包括布尔检索模型、向量检索模型、模糊检索模型 等。这些检索模型依据不同的检索理论,对检索元素进行不同的描述。 1 ) 信息检索模型的形式化定义 信息检索模型的形式化定义如下: 信息检索模型是一个四元组f ( d ,q ,f ,r ( q i ,d j ) ) ,其中: d :文档中一组文档逻辑视图,称为文档的表示; q :一组用户信息需求的逻辑视图,称为用户查询; f :一种机制,用于构建文档表示、查询及它们之间关系的模型; r ( q i ,d j ) - 排序函数,输出一个与查询q ,q 和文档表示d ,d 有 关的实数,从而在文档之间根据查询曰i 定义了一个顺序。 建立一个检索模型,首先需要考虑文档的逻辑视图和用户的信息 需求,随后即可构建一个模型框架,这种框架同时也应具备构建排序 函数的功能。 信息检索的经典模型认为,每篇文档可用一组有代表性的关键词 即标引词集合来描述。作为文档中词汇的标引词( i n d e xt e r m ) 语义可 以帮助理解文档的主题,因而标引词常用于编制索引和概括文档的内 容,同时用标引词的权值来描述标引词与文档内容的相关程度。用 k i 表示标引词,d j 表示文档,w i :f 0 为二元组( k i ,d j ) 的权值,该权值 可以用来衡量描述文档语义内容的标引词的重要性。通常认为标引词 的权值彼此独立。 定义:用t 表示系统中标引词的数目,k i 表示标引词, k _ 眠,尼:,k ,) 表示所有标引词的集合,w u o 则为文档d j 中标引词k i 的权值。文档d j 可以用标引词向量互来表示:弓= ( w l ,w :,一,w t j ) 。此 外,函数g i 用以返回任何t 维向量中标引词k i 的权值,即g i ( d ,) = w u 。 2 ) 布尔逻辑模型 布尔逻辑模型【4 3 】是基于集合理论和布尔代数的检索模型。由于集 合的概念非常直观,因而布尔逻辑模型为信息检索系统的普通用户提 基丁本体的动画素材检索系统设计与检索模型研究 供一种易用的框架。同时,查询可被表示成有确切语义的布尔表达式。 由于该模型内部简单、形式简洁,在过去的几年里引起人们的广泛关 注,并在早期的许多商业书目系统中得到应用。 定义:布尔逻辑模型中,标引词权值均为二值的,即w o o ,1 ) , 查询q 是一个常规的布尔表达式。q d n f 表示查询q 的析取范式,q 。表 示q d n f 的任意合取分量。文档d j 和查询q 的相似度定义为: ,、ll ,如果了g i ( q c c g 砌,) 八v k ,( g ,( d ,) = g ,( g 。) ) 龇m ( d ,g ) 210 ,其他 。 。 ( 公式2 1 ) p h 果s i m ( d ,g ) = 1 ,则布尔逻辑模型表示与文档d j 和查询q 相关; 否则,文档与查询不相关。 布尔逻辑模型优点是结构简单、形式简洁,缺点则表现在以下两 个方面:一是检索策略基于二值判定标准,文档要么相关,要么无关, 没有级别变化,难以提高检索性能,因而这种模型实质上是一个数值 检索模型;二是虽然布尔表达式具有确切的语义,但很难将用户的信 息需求转换成布尔表达式。尽管存在这些缺点,该模型仍然是几乎所 有信息检索和文档数据库系统的基础。 为了克服上述缺陷,w a l l e r 和k r a f t 在1 9 7 9 年提出加权布尔检索 模型【删,s a l t o n 在1 9 8 3 年提出扩展布尔检索模型4 5 1 。 3 ) 向量空问模型 鉴于布尔逻辑模型的二值权值存在太多的局限,向量空间模型【4 6 】 提出一种框架以便能够进行部分匹配,即通过将查询和文档中的标引 词非二值权值来实现这个目标。这些词语的权值用于计算存储在系统 中的文档和用户查询之间的相似度。该模型通过对检索出来的文档按 相似度降序排列的方式实现文档与查询之问的部分匹配,使得结果集 内的文档排列顺序比通过布尔逻辑模型得到的结果集要合理得多,从 某种程度上更好的匹配用户信息需求。 定义:向量空问模型二元组( 尼,d ,) 的权值为w 。一个正的非二值 数,查询中的标引词也赋予权重。w i 。表示二元组( 尼,g ) 的权值,w i q 0 , 硕十学位论文 查询向量q 表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论