




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的敦煌壁画信息语义检索系统研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 摘要 敦煌壁画是世界文明的瑰宝,具有极高的历史、社会和艺术价值。敦煌壁画 中的人物、服饰、建筑、动物等对像是敦煌学研究、敦煌相关艺术创作及数字化 的重要素材。同时众多的敦煌壁画的研究文献也是敦煌壁画的重要组成部份,是 研究敦煌壁画的重要文献资源。随着敦煌壁画和壁画研究文献的逐步数字化,研 究人员利用这些数字化了的壁画与壁画研究文献对壁画进行研究。如何能够高效 的找出目标壁画、如何能够方便的将这些壁画与壁画研究文献关联起来,从而有 效的辅助壁画研究人员进行研究,是一个有待解决的问题。 为了解决以上问题,本文研究设计了基于本体的敦煌壁画信息语义检索系统 的实现方案,并且实现了基于该方案的原型系统。主要完成以下三方面的研究工 作: 1 、基于本体的敦煌壁画语义检索。首先,在敦煌研究专家知识的基础上完 成敦煌壁画领域本体的构建和实现;然后通过构建的敦煌壁画领域本体实现基于 本体的敦煌壁画的语义检索。 2 、基于全文检索的敦煌壁画与壁画研究文献的自动关联。首先,利用敦煌 壁画的标注内容生成敦煌壁画与壁画研究文献的全文索引;然后,结合敦煌壁画 的领域本体和全文检索实现壁画研究文献的语义检索。 3 、采用w e b 2 0 技术的壁画信息展示。本研究主要以a j a x 为核心,结合其 它w e b 2 0 相关技术,实现以壁画为中心的壁画信息的综合展示,为壁画研究者 提供良好的用户界面与用户体验。 在以上研究的基础上实现敦煌壁画信息语义检索系统的原型系统。实验结果 表明,原型系统较好的实现了敦煌壁画信息的语义检索,并且有效实现了壁画到 壁画研究文献的关联与检索,最终实现了敦煌壁画信息的综合展示。 关键词:敦煌壁画,本体,全文检索,图像检索,信息语义检索 l i 浙江大学硕士学位论文 a b s t r a c t a b s t r a c t d u nh u a n gf r e s c o e sa r ei n v a l u a b l ec i v i l i z a t i o nl e g a c i e so ft h ew o r l d ,a n dt h e y h a v en g n yh i s t o r y ,a r ta n ds o c i a lv a l u e s t h eo b j e c t so ff i g u r e ,r a i m e n t , a r c h i t e c t u r ea n da n i m a l si nd u n h u a n gf r e s c o sa r ev e r yi m p o r t a n tf o rt h er e s e a r c ho f d u n h u a n gs t u d i e s ,a r tc r e a t i o na sw e l la sd i g i t a ld i s p l a y a tt h e s a m et i m e ,t h e l i t e r a t u r e so fd u n h u a n gf r e s c o sa r ei m p o r t a n tp a r to fd u n h u a n gf r e s c o s w i t ht h e i m p r o v e m e n to fd u n h u a n gi n f o r m a t i o nd i g i t a l i z a t i o n , r e s e a r c h e r s c o u l dr e s e a r c h d u n h u a n gf r e s c o sa n d l i t e r a t u r e s a st h ei n c r e a s i n go ft h ed i g i t a l i z e dl i t e r a t u r e sa b o u t d u n h u a n gf r e s c o s ,t h ep r o b l e mh o wt or e t r i e v et h ei m a g e sq u i c k l ya n dh o w t or e l a t e t h ef r e s c o sa n dl i t e r a t u r e sa u t o m a t i c a l l yb e c a m ei m p e r a t i v e l ya n di m p o r t a n t l y i no r d e rt or e s o l v et h ep r o b l e md i s c u s sa b o v e ,w ep r o p o s ed u n h u a n gf r e s c o s i n f o r m a t i o ns e m a n t i cr e t r i e v a ls y s t e mb a s e do no n t o l o g y ,a n di nt h i sp a p e rw ec o m p l e t e t h r e ea r e aa b o u tt h es y s t e m f i r s t l y ,d u n h u a n gf r e s c o sr e t r i e v a lb a s e do no n t o l o g y u n d e rt h ek o n w l e d g eo f t h ed o m a i ne x p e r t s ,w ec o n s t r u c ta n di m p l e m e n tt h eo n t o l o g yo fd u n h u a n gf r e s c o s a n dc o m p l e t et h ed u n h u a n gf r e s c o sr e t r i e v a lb a s e do nt h eo n t o l o g yt h a tc o n s t r u c t e d b e f o r e a tt h ee n d ,w ec o m p l e t et h es e m a n t i cr e t r i e v a lo fd u r d a u a n gf r e s c o s s e c o n d l y , r e l a t et h ed u n h u a n gf r e s c o sa n dl i t e r a t u r e sa b o u td u n h u a n gf r e s c o s a u t o m a t i c a l l y t h i sp a r to fw o r ki s t oc o n s t r u c tt h ef u l l - t e x ti n d e xo fd u n h u a n g f r e s c o sl i t e r a t u r e su s i n gt h ea n n o t a t i o no fd u n h u a n gf r e s c o s ,a n dc o m p l e t et h e r e t r i e v a ld u n h u a n gf r e s c o sl i t e r a t u r e su s i n gt h eo n t o l o g yo fd u n h u a n gf r e s c o sa n d 如1 1 t e x tr e t r i e v a l t h i r d l y , d e m o n s t r a t et h ed u n h u a n gf r e s c o su s i n gt h et e c h n o l o g i e so fw e b 2 0 t h ew o r ko ft h i sp a r ti sa i ma td i s p l a y i n gt h ed u n h u a n gf r e s c o si n f o r m a t i o nc e n t e ro n d u n h u a n gf r e s c o s ,a n df m a l l yp r o v i d eu s e r - f r i e n d l yi n t e r f a c e a tt h ee n d ,d e v e l o pt h ep r o t o t y p es y s t e mo fd u n h u a n gf r e s c o si n f o r m a t i o n t h er e s u l ts h o w st h ep r o t o t y p es y s t e mi m p l e m e n tt h er e t r i e v a lo fd u n h u a n gf r s e c o s w e l l ,t h er e l a t i o n sb e t w e e nd u n h u a n gf r e s c o sa n df r e s c o sl i t e r a t u r e sa r ec o n s t r u c t e d w e l l ,a n dt h ed e m o n s t r a t i o no fd u n h u a n gf r e s c o si n f o r m a t i o na l s ow o r k e d w e l l 浙江大学硕士学位论文 a b s t r a c t k e y w o r d s :d u n h u a n gf r e s c o ,o n t o l o g y , f u l l - t e x tr e t r i e v a l ,i m a g er e t r i e v a l , s e m a n t i ci n f o r m a t i o nr e t r i e v a l 浙江大学硕士学位论文图目录 图目录 图2 1 本体的分类和层次9 图2 2 骨架法流程图9 图2 3 循环获取法流程图1 l 图2 4p r o t 6 9 6 4 0 2 用户界面1 4 图2 5j e n a 推理子系统结构。2 1 图2 6j e n a 各组成部分在语义检索中的作用2 2 图2 7l u c e n e 系统结构2 3 图3 1 敦煌壁画及壁画形象示意图2 6 图3 2 敦煌壁画本体建模2 7 图3 3 敦煌壁画人物形象本体模型2 7 图3 4 敦煌壁画类和层级图3 0 图3 5 敦煌壁画本体由p r o t 6 9 6 创建的对象属性3 1 图3 6 敦煌壁画本体由p r o t 6 9 6 创建的数据属性3 1 图3 7 敦煌壁画标注系统及标注结果3 2 图3 8 敦煌壁画实本体实例创建流程图。3 3 图3 9 敦煌壁画本体实例生成后由p r o t 6 9 6 显示的数据属性和对象属性3 3 图4 1 敦煌壁画与壁画研究文献全文索引的建立3 9 图4 2 结合l u c e n e 和敦煌壁画本体的壁画研究文献检索流程图4 0 图5 1 敦煌壁画信息检索系统体系结构。4 5 图5 2 敦煌壁画信息语义检索系统主界面4 7 图5 3 敦煌壁画语义检索系统语义检索1 5 8 窟的壁画效果。4 8 图5 4 以壁画为中心的壁画信息展示4 8 浙江大学硕士学位论文 表目录 表目录 表格3 1 敦煌壁画本体属性和属性数据类型取值2 9 表格5 1 应用于系统的敦煌壁画分布表4 7 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特 别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 逝姿盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:签字日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解滥姿盘堂、有权保留并向国家有关部门或机构送交本论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权逝姿盘堂可以将学位论文的全部或部分内容编入有 关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:导师签名: 签字日期:年月日 签字日期:年月 日 浙江大学硕士学位论文 致谢 致谢 即将毕业离开学 - - j 生活了两年半的浙江大学,在浙大学 - - j 和生活的这些时间是我值得 我一生铭记的,我将怀念这里,这里的老师、同学以及所有帮助过我的朋友,衷心感谢你 们。 首先,我要感谢我的导师许端清教授。本文是在许老师的悉心指导下完成的,许老师 有着渊博的学术知识、深刻的理论见解,同时严谨的治学态度、无私的敬业精神以及全心 全意为学生着想使我受益匪浅,让我对求是精神有了更深的认识,必将对我未来的工作、 学 - - j 产生深远的影响。 也要感谢同一课题组的鲁东明教授、董亚波副教授、邢卫副教授以及所有帮助过我的 老师。你们的批评教育使我在学习和工作中少走了很多弯路。 感谢刘建明博士,你在我的具体工作和学 - j 中给予我最热心的帮助和指导。感谢唐大 伟博士,作为和我一起入学的同学,感谢你在我最困难的时候提供最无私的帮助,衷心谢 谢你! 感谢袁庆曙博士、刁常宇博士、吴祺硕士,田里硕士,愿他们都有美好的未来和幸 福的人生。感谢我的室友,很开心和他们度过了两年半的“同居生活”,他们是邬叶舟、 田里、杨显发。 特别感谢我的父母,在我的求学历程中给予我的无数的精神和物质上的支持,无论什 么时候都是那么的信任我、支持我,给予我最温馨的关怀和最真诚的鼓励,让我能够克服 所有困难,完成学业。你们是我人生中最最重要的人,衷心感谢你们。 感谢所有帮助和支持我的人! 浙江大学硕士学位论文 第1 章绪论 第1 章绪论 1 1 引言 敦煌莫高窟始建于前秦建元二年( 公元3 6 6 年) ,至今保存着十六国、北魏、 北周、隋唐、五代、宋、西夏、元等各个朝代的洞窟4 9 2 个,壁画4 5 ,0 0 0 平方米, 彩塑3 ,0 0 0 余身n 1 ;是中国第一大石窟,也是世界上现存规模最大、保存最完整 的佛教艺术宝库。它举世无匹,气魄雄大,通过宗教的折光,反映出中国古代1 0 0 0 多年问人们的部分生活面貌,也堪称中国佛教石窟寺艺术的一个缩影。敦煌莫高 窟1 9 8 7 年1 2 月就被列入世界遗产名录,是世界文化遗产的重要组成部分晗1 。 随着敦煌数字化工程的深入,敦煌莫高窟许多资料都已经实现了分类管理, 其中很大部分内容( 如壁画、彩塑、文献、考古报告、保护档案) 已经数字化或 将要数字化,并且以图像、视频、三维模型、多媒体文档等形式保存敦煌研究 的相关文献是敦煌壁画信息的重要组成部分,是进行敦煌研究的重要参考文献资 料,但是敦煌研究的种类非常多,并且敦煌研究的对象本身就具有很强的多元性 和综合性,以敦煌研究期刊为例,对研究文献的研究方法归类后发现,大致 可分为两大类:一、专题对象研究类。对某个专题研究对象进行分类,总结对象 特点,或研究渊源和演变史。二、考证类。以研究对象为出发点,查找类似对象 扩充研究样本,在此基础上进行横向分类归纳,或按照不同时期进行纵向分阶段 排序,可以考证对象的源起,分析演变史,分析对象的共同点或新的特色。由此 可见,敦煌研究不仅种类多而且数量巨大。敦煌壁画的研究文献是敦煌壁画信息 的重要组成部分,是进行壁画研究的重要的参考信息。 面对这么多的已数字化的敦煌壁画与壁画研究文献,敦煌壁画的研究人员进 行研究所遇到的最大问题、投入精力最多的工作是在敦煌壁画和壁画研究文献的 查找。壁画及其研究文献的查找包括两个方面,一方面是按照年代、位置、主题 等对整幅壁画进行查找和研究;另一方面,很多时候还需要针对壁画中某些内容 元素进行专题的查找和研究,这就需要壁画的研究文献作为参考。壁画资料查找 的困难在于敦煌壁画的洞窟数量众多,同一洞窟内的壁画又存在着创作年代、主 题、内容的不同,壁画数量庞大,壁画内容元素十分丰富,比如一幅壁画中又有 非常多的壁画形象,每个形象有包含饰物、脸型、底座等,由此可见敦煌壁画数 量巨大。研究者难以完全掌握包含研究对象的壁画的实际分布情况,常常需要在 1 浙江大学硕士学位论文 第1 章绪论 多个洞窟之间反复调查,并且要把这些壁画与壁画的研究文献对应起来也需要非 常大的工作量,而且人工进行关联不能做到快速、高效和准确,另外采用手工关 联,想要扩展文献库又需要从新进行手工关联,显得非常不方便。并且这将花费 研究人员大量的时间和精力 面对数量巨大的敦煌壁画与壁画研究文献,如果采用传统的方法,研究人员 必须到石窟中去研究壁画,到文献库中去查阅文献,这将浪费研究人员非常多的 时间。虽然已有大量数字化了的敦煌壁画与壁画研究文献,但是还没有有效的方 法将这些资料充分使用起来。如何能够有效的使用这些数字化了的壁画和壁画研 究文献,如何能够帮助敦煌壁画的研究者快速的检索到他们想要的图像,并且由 检索出来的图像快速定位到该图像的相关研究文献,而且以壁画研究者使用习惯 的方式展示敦煌壁画和壁画相关的研究文献将为研究者节省非常多的时间,提高 他们的研究效率。基于以上原因,本文提出了基于本体的敦煌壁画信息语义检索 系统来解决这些问题。 1 2 基于本体的敦煌壁画信息语义检索系统研究与实现概述 1 2 1 研究内容与功能 作为敦煌壁画信息语义检索系统的核心,如何能够快速准确的检索到目标壁 画;如何能够实现敦煌壁画与壁画研究文献的自动关联、减少人工干预,从而实 现壁画到壁画研究文献的语义检索;最后将壁画信息以壁画为中心立体的展示出 来是本研究所面临的主要问题。根据以上问题,实现敦煌壁画信息语义检索的主 要研究内容和功能如下: ( 1 ) 敦煌壁画信息语义检索研究与实现:研究构建一个包含敦煌壁画语义信 息的领域本体,并实现基于该本体的语义检索是本文的研究重点之一。壁画的信 息不仅包括壁画的色彩、形状,更重要的是壁画本身所蕴含的艺术价值以及对当 时社会、人文信息的反映。目前,在图像检索领域主要有基于文本的图像检索 ( t b i r ) 和基于内容的图像检索( c b i r ) 。基于文本的图像检索由于在图像标注,以 及检索的查全率和查准率上的不足b 1 。由于敦煌壁画年代久远,不少作品已经损 毁严重,一般基于c b i r 的方式不再适用于本领域的应用场景,更重要的是基于 c b i r 的方式会忽略敦煌壁画包括艺术价值在内的丰富的语义信息。因此基于文 本和基于内容的图像检索方法都不适合敦煌壁画的检索。我们根据敦煌壁画的特 2 浙江大学硕士学位论文 第1 章绪论 点研究壁画整体和壁画形象、壁画形象和形象中各个部件的关系,通过采用敦煌 壁画标注系统标注的壁画内容设计并构建一个领域本体,并通过该本体对检索条 件进行推理,实现壁画整体、壁画形象、壁画形象中各个部件的检索。 ( 2 ) 敦煌壁画与壁画研究文献自动关联研究与实现:敦煌壁画蕴含着丰富的 历史、文化、艺术价值,是世界上规模最大、保存最完整的佛教艺术宝库。敦煌 壁画以及敦煌壁画的研究文献,组成了敦煌壁画整个的知识库。壁画本身包含的 知识与壁画相关研究的知识库相结合能够大大丰富壁画的信息,对于壁画的研究 提供更加立体的以壁画为中心的信息。目前,图像与相关文献的关联大多必须使 用手工完成,需要非常大的人力成本,并且随着敦煌研究文献增多又必须重新更 新关联,因此本文将使用前文研究所构建的敦煌壁画的领域本体,并应用全文检 索技术设计并实现一个敦煌壁画与壁画研究文献自动关联的方法。 ( 3 ) w e b 2 。0 下壁画信息展示研究与实现:由于敦煌壁画所包含的内容非常丰 富,不仅包含壁画本身的信息,另外壁画相关的文献也是研究壁画的重要信息。 作为敦煌壁画研究的辅助系统,如何将壁画及相关信息立体的展示出来,包括壁 画的展示,壁画与壁画之间的比较,将是敦煌壁画信息检索系统成功与否的关键 之一 1 2 2 关键技术的研究与开发 ( 1 ) 敦煌壁画领域本体的构建:敦煌壁画本体的设计需要将敦煌壁画研究领 域和计算机知识管理领域的研究进行结合,是一个涉及佛教知识、绘画、社会历 史等多领域的知识表达。本研究设计的本体主要以敦煌壁画的形象分类,形象所 包含的饰物等为主的领域本体。在这个领域本体的基础上包括壁画的洞窟、位置、 年代、主题等元数据信息,涵盖了宗教、绘画、社会、历史、建筑等丰富的多领 域信息,在满足艺术史研究的基础上,提供给不同研究领域的学者使用。敦煌壁 画领域本体的构建是整个研究和应用的核心,构建一个完整的包含敦煌壁画各种 关系的本体将为后续研究打下坚实的基础。 本体是共享概念化的精确形式化规范说明,本体就是对某一领域应用本体论 的方法进行分析、建模的结果。也就是将现实世界中的某个领域抽象为一组概念 和概念之间的关联。本体强调的是特定领域有着公认语义本质的概念以及它们之 间的关联。本体就是关于某个特定领域的可达成共识的概念集、可以用这些概念 浙江大学硕士学位论文第1 章绪论 之间的各种关联来实现对语义的表达,本体的目标就是捕获相关领域的知识,提 供对领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式 化模式上给出这些词汇和词汇相互关系的明确定义。 本研究以敦煌莫高窟壁画为研究对象,在浙江大学艺术系艺术史研究专家专 业的敦煌壁画知识的基础上,重点研究壁画有关的本体设计,明确敦煌壁画的常 用概念术语,确立壁画知识表达的领域本体的相关分类,建立概念之间的上下位 关系、等价关系、包含关系等。敦煌壁画领域是壁画内容进行语义概念标注的依 据,是敦煌壁画知识库的基础,也是整个敦煌壁画信息检索系统的基础。 采用本体的设计理念对敦煌领域知识进行表达相比于基于本体的通用图像 检索方案具有更好的针对性,更加突出敦煌壁画的特点;而对于其他的如基于内 容和基于文本的图像检索方案,基于本体的敦煌壁画图像检索方案能够更好的利 用敦煌壁画所蕴含的语义信息,从而提高检索的效率。在敦煌壁画领域本体的构 建上,考虑到本体建模的方便性和语义网知识表达的通用性,拟使用目前主流的 本体建模工具p r o t 6 9 6 进行建模,以o w l 格式输出。 ( 2 ) 基于全文检索的壁画与壁画研究文献自动关联:全文检索是一种面向全 文、提供全文检索的新型检索技术。国外多从实际角度来理解全文检索,认为它 是基于文献内容进行数字化文档的查询处理,为全文集合建立一个能精确定位每 个字词的索引,克服了传统顺序索引在多文献集合和复杂查询条件下检索效率低 下的不足一些系统还能够将检索结果根据引文数量等因素进行相关性排序。全 文检索技术是对文献全文内容进行字符串的匹配检索,包括字符串检索、截词检 索、布尔检索、位置检索等技术。 敦煌壁画的研究文献是敦煌壁画信息的重要组成部分,也是敦煌壁画价值的 体现,如何将壁画与壁画相关文献关联起来,并且能够快速准确的得到文献,为 研究人员所用,是本研究的重点 本研究采用全文搜索引擎工具包l u c e n e 为t _ 具,以敦煌研究为文献资料 的主要来源,包括p d f 、h t m l 、t x t 为主要格式,使用敦煌壁画标注作为建立 全文检索索引的关键词,实现敦煌壁画到壁画研究文件的自动关联。相比于传统 的采用关系数据库建立索引方式,采用全文检索的方式有更高的检索效率和检索 能力。 4 浙江大学硕士学位论文 一第l 章绪论 ( 3 ) 基于w e b 2 0 相关技术的壁画相关信息展示:基于w e b 2 0 的r i a ( r i c h i n t e r a c ta p p l i c a t i o n s ) 具有高度交互性、丰富用户体验以及功能强大的客户端。 r i a 具有的桌面应用程序的特点包括:在消息确认和格式编排方面提供互动 用户界面;在无刷新页面之下提供快捷的界面响应时间;提供通用的用户界 面特性如拖放式( d r a ga n dd r o p ) 以及在线和离线操作能力。r i a 具有的w e b 应用程序的特点包括如:立即部署、跨平台、采用逐步下载来检索内容和数 据以及可以充分利用被广泛采纳的互联网标准。r i a 具有的通信特点包括实 时互动的声音和图像。客户机在r i a 中的作用不仅是展示页面,它可以在幕 后对用户请求异步的进行计算、传送和检索数据、显示集成的用户界面和综 合使用声音和图像,这一切都可以在不依靠客户机连接的服务器或后端的情 况下进行 本研究主要采用a j a x 技术,对壁画以及壁画相关文献进行展示。为艺 术史研究人员提供良好的用户体验和丰富的功能,真正起到辅助艺术史研究 的作用。 ( 4 ) 敦煌壁画信息语义检索系统设计:为了对相关研究理论和实现思路进行 验证,构建并实现一个敦煌壁画信息检索系统。将敦煌壁酉领域本体应用到系统 中提高壁画检索的查准率与查全率。并且应用基于全文检索的壁画与相关文献的 关联实现从壁画从相关文献的检索,并且结合w e b 2 0 的a j a x 技术实现r i a 。 最终实现敦煌壁画信息的语义检索,并且将壁画信息以壁画为中心立体的展示出 来。 1 3 本文组织结构 第一章绪论。阐述了本文的研究背景、研究的主要意义、所做的主要工作 和内容组织。 第二章相关技术与应用综述对目前图像语义检索进行了研究,论述了主 要采用的思想和技术。对目前全文检索的发展和研究热点进行了研究,以及基于 l u c e n e o 全文检索的应用,对比这些应用与本文涉及的应用的共同点与相似性。 最后;综述w e b 2 0 主流技术,以及应用现状,并简单介绍j e n aa p i 和全文检n - r _ 具包l u c e n e 第三章敦煌壁画本体的构建与壁画语义检索的研究。在领域专家领域知识 5 浙江大学硕士学位论文第1 章绪论 的基础上,完成对敦煌壁画的分类,以及在此分类基础上的敦煌壁画领域本体的 构建。在已构建本体的基础上实现敦煌壁画的语义检索。 第四章敦煌壁画与壁画研究文献自动关联研究。研究使用全文检索技术与 第三章构建的敦煌壁画领域本体相结合的敦煌壁画与壁画研究文献自动关联的 方案。 第五章原型系统设计与实现。介绍了敦煌壁画信息语义检索系统的功能、 体系结构,实现以及关键技术选择并给出了系统界面与效果图。 第六章总结与展望。对本文的工作进行了总结,介绍了系统上要的优点和 工作中仍需要进一步改进和完善的地方以及下一步的研究方向。 1 4 本章小结 本章对基于本体和全文检索的敦煌壁画信息检索研究的研究内容、功能、关 键技术研究和开发进行了分析,简单介绍了本文的主要工作和本文的结构。在下 一章,将详细介绍本体以及本体在图像检索领域的应用和研究现状、全文检索技 术的研究与应用现状,并且介绍a j a x 、j e n a 和l u c e n e 。 6 浙江大学硕士学位论文第2 章相关技术与应用综述 第2 章相关技术与应用综述 本章主要对基于本体的图像检索技术与应用、全文检索技术及其应用进行综 述,叙述他们的特点、当前发展的现状与主要应用。同时对敦煌壁画信息语义检 索系统实现阶段将要使用的主要技术、工具包等进行简要的介绍 2 1 基于本体的图像检索研究与应用综述 2 1 1 本体的概述与分类 近年来,随着w e b 2 o 相关技术的发展与成熟,本体( o n t o l o g y ) 在信息检索与 处理领域受到越来越多的重视。本体在信息检索、信息捕取、异构信息系统的互 操作和集成、语义w e b n 个领域的应用成为研究热点,其特点为:在信息检索、 信息捕取、异构信息系统的互操作和集成3 个领域的应用研究以方法论探索为中 心,并辅以算法、建模和系统架构为主的研究方法。随着用户为中心的开发思想 逐渐受到重视,语义网的应用研究成果也越来越多的发表于学术会议1 。 从西方哲学史的角度来看,本体论起源于对万物本原的追问。 “o n t o l o g y ” 这个词早在1 7 世纪就已诞生,其派生于希腊语的“o n t o ”( “存在”) 和“l o g i a ” ( “箴言录”) ,是一个哲学术语。从哲学意义上看,本体论关注的是“存在”, 即世界在本质上有什么样的东西存在,或者世界存在哪些类别的实体。哲学家亚 里士多德早在公元前4 世纪所确立的重要哲学分支“m e t a p h y s i c s ”就是“关于存 在的科学”岱1 。o n t o l o g y 在哲学中的定义为“对世界上客观存在物的系统描述”, 即“存在论竹,是对客观存在的一个系统的解释或说明,关注的是客观现实的抽 象本质。 随着人工智能的发展,被人工智能界赋予了新的定义然而最初人们对 o n t o l o g y 的理解并不完善,这些定义也出在不断的发展变化中,比较有代表性的 定义列表如下: 1 9 9 1 年n e c h e s 等肺1 “给出构成相关领域词汇的基本术语和关系,以及利用 这些术语和关系构成的规定这些词汇外延的规则的定义”;1 9 9 3 年t o m g r u b e r n 提出本体为:概念模型的明确的规范说明;1 9 9 7 年b o r s t 阳1 在t o mg r u b e r 的基 础上提出本体是:共享概念模型的形式化规范说明;1 9 9 8 年s t u d e r 归1 提出了被 广泛接受的本体的定义,即本体是:共享概念模型的明确的形式化规范说明。按 照s t u d e r 的定义,体现了本体的四层涵义n 们: 7 浙江大学硕士学位论文 第2 章相关技术与应用综述 ( 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象 ( p h e n o m e n o n ) 的相关概念而得到的模型,其表示的含义独立于具体的环境状态。 ( 2 ) 明确( e x p li c i t ) :所使用的概念及使用这些概念的约束都有明确的定义 ( 3 ) 形式化( f o r m a l ) :o n t o l o g y 是计算机可读的 ( 4 ) 共享( s h a r e ) :o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域 中公认的概念集,它所针对的是团体而不是个体。o n t o l o g y 的目标是捕获相关 的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇, 并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确 定义。 对本体进行分类对研究和使用本体都具有重要的意义,目前有两神不同的本 体分类标准1 : ( 1 ) 按照本体形式化程度的不同可以将本体分为以下四类: 完全非形式化( h i g h l yi n f o r m a l ) 的本体:这种本体完全使用自然语言来 描述,其机器可理解性最差,目的在于帮助人们阅读、理解形式化程度更高的本 体。 形式化( s t r u c t u r ei n f o r m a l ) 的本体:采用受控的或者结构化的自然语言 ( 如推荐术语) 表示的本体,其可以在一定程度上减少概念的二义性。 半形式化( h a l f i n f o r m a l ) 的本体:是一种采用人工定义的形式化语言表 示的本体。 严格形式化( r i g o r o u s l y - i n f o r m a l ) 的本体:这种本体对所有的概念术语、 术语的关系、术语的一致性和完整性等等都进行了形式化的语义定义。 ( 2 ) 按照本体描述对象的不同可以将本体分为以下四类“2 1 : 顶层本体:定义最基本的概念类、属性及语义关系,描述最普通的概念和 概念之间的关系,例如时间、空间、物质、对象、事件、行为等,与具体应用无 关,其他种类的本体都是顶层本体的特例。 领域本体:描述的是特定领域中概念和概念之间的关系,利用顶层概念集 来细化定义具体应用领域( 例如教育、医学等) 。 任务本体:描述特定任务或行为中的概念及概念之间的关系,指具体通用 任务( 如交易、传输等) 的专用概念类、属性及语义关系。 8 浙江大学硕士学位论文第2 章相关技术与应用综述 应用本体:描述的是依赖特定领域和任务的概念及概念之间的关系,可以 利用领域和概念任务集来进一步定义针对某个具体应用的概念集。 这四种本体之间具有一定的层次关系,如图2 1 所示,本体的这种分类有利 于本体的创建、集成、共享和应用。 图2 1 本体的分类和层次 2 1 2 本体的创建方法 构建一个好的本体是该本体在应用场景中能否取得好的效果的关键和基础。 目前,关于本体构建方法的研究是根据各个工程的具体需要,不同的工程根据不 同的需要有不同的构建方法与构建原则其中比较著名的方法有骨架法 ( s k e l e t a lm e t h o d o l o g y ) n 射,企业建模法n 耵,m e t h o n t o l o g y 法n 卯,另外如k a c t u s 方法n 耵、a l e x a n d e rm a e d c h e 等提出的循环获取法( c y c l i ca c q u is i t i o n p r o c e s s ) n7 1 、七步法“射、基于开源a p ij e n a 的本体构建法n 被广泛应用。 ( 1 ) 骨架法 骨架法建立在构建企业级本体的基础之上,是爱丁堡大学从实际本体开发过 程中产生的。该方法由一组与企业相关的术语和定义的组成,提供开发本体的指 导方针。 图2 2 骨架法流程图 确定本体的应用范围和目的:根据研究的领域或任务,建立相应的领域本 体或过程本体,领域越大,本体就越大,因此要限制研究的范围。 本体分析:在领域专家领域知识的基础上,定义本体中所有术语的意义及 9 浙江大学硕士学位论文 第2 章相关技术与应用综述 其之间的关系。领域专家对该领域越了解,则所建立的本体就越完善。 本体的表示:采用语义模型表示本体。 本体评价:建立清晰性、一致性、完善性、可扩展性的本体评价标准。 本体的建立:对本体按图2 2 流程进行检验,符合要求的则建立本体,否 则转到。 ( 2 ) 企业建模法 企业建模法又称“评价法”,该方法由多伦多大学企业集成实验室开发,用 于构造虚拟企业本体工程( t o v e - t o r o n t ov i r t u a le n t e r p r i s e ) t o v e 本体包括 企业设计本体、工程本体、计划本体和服务本体。t o v e 方法的步骤如下: 设计动机:定义直接可能的应用和所有的解决方案,提供潜在的非形式化 的对象和关系的语义表示。 非形式化的能力问题:约束条件是能力问题,用术语表示,具体为能解决 什么问题、怎么解决这些问题。用公理和形式化的定义作为答案 术语的形式化:用本体形式化的语言定义从非形式化问题中提取的非形式 化术语。 形式化的能力问题:用形式化术语定义非形式化的能力问题并给出问题的 形式化描述 形式化公理:用一阶谓词逻辑表示术语的定义及约束。 完全理论:说明问题的解决方案必须是完全的。 ( 3 ) m e t h o m o l o g y 法 这种方法是由m a r i a n of e r n a n d e z ,a s u n c i o ng o m e z - p e r e z ,n a t a li a j u r i s t o ,在西班牙马德里大学工艺分校开发人工智能图书馆时提出的。采用这 种方法开发的本体主要有( o n t o ) 2 a g e n t 、c h e m i c a lo n t o a g e n t 等。主要包括以 下三个不同的阶段: , 管理阶段:在这一阶段主要关注任务的进展情况、完成任务所需要的资源、 怎样保证质量等问题。 开发阶段:这一阶段主要的工作有规范的说明、概念化、形式化和执行。 维护阶段:这一阶段分为知识的获取、系统集成、文档说明、评价、配置 管理。 浙江大学硕士学位论文 第2 章相关技术与应用综述 ( 4 ) k a c t u s 方法 k a c t u s 方法源于欧洲e s p r i tt a c t u s 项目 k a c t u s 0 5 】。这是一种由应用开发 控制的本体开发方法。每一个应用都有一个相应的本体,并且其中的本体都能重 用其它的本体。k a c t u s 方法的开发过程如下: ( 1 ) 应用说明:定义应用的上下文和应用模型所需的组件 应用相关本体的初步设计:搜索现有的本体,并对这些本体进行提炼和扩 充。 本体的构造:使用本体构造的相关原则,如最小关联原则来确保本体相互 关联且一致。 ( 5 ) 循环获取法 循环获取法是根据a l e x a n d e rm a e d c h e 等实际工作中总结出来的一套方法, 该方法源于对一家保险公司内部网络空间进行学习而实现半自动本体获取方法, 是一个环状结构如图2 3 所示 图2 3 循环获取法流程图 选择数据源:这是该方法的起点,选择一个通用的核心本体。无论是大型 本体如( 像w o r d n e t 、g e r m a n e t ) ,还是领域本体都是以这个过程开始的。选定这 个核心的基础本体之后,使用者必须确定本体相关的文本。 概念学习:从中选择的文本中获取领域相关的概念,进而由此建立概念 之间的分层关系 浙江大学硕士学位论文第2 章相关技术与应用综述 领域聚焦:通过提炼和精化,从而去除领域无关的概念,只留下和该领域 相关的概念,最终建立起目标本体的概念结构。 关系学习:从基础本体中继承部分关系的同时,必须通过学习并从文本中 提取。 评价:评价通过以上4 个步骤得到的领域本体,如果不符合要求可以继续 从开始循环。 ( 6 ) 七步法 该方法是由斯坦福大学医学院配合p r o 憎9 6 工具进行领域本体构建的开发方 法,也是目前使用最多的开发方法。七个步骤如下: 确定本体所涵盖的领域和范围。 考虑重用已有的本体。 枚举出本体中重要的术语。 定义类( c l a s s ) 和类的层级。 定义类的属性。 定义属性的方面( f a c e t s ) 。 创建实例。 ( 7 ) 采用j e n a 的本体构建法 j e n a 是珏p 公司以j a v a 为基础开发的一个开放源码的语义网工具包,包括用 于解析r d f 、r d f s 和o w l 本体的a p i 和一个基于规则的推理引擎妲町该方法主要 包括:描述类、描述属性、将属性关联到类、定义实例和加入本体维护元数据5 个步骤,使用开源的j e n a 作为该方法的实现工具,能够有效的提高构建效率, 并且具有面向对象的特点。 2 1 3 本体的创建工具 一个好的本体开发方法能够为创建一个好的本体打下基础,一个好的本体创 建工具能够提高本体创建的效率。目前已有非常多的本体创建工具,比较著名的 有:o n t o s a u r u s m l 、o n t o l i n g u a 伍甜、w e b o n t 担习、o n t o e d i t 担q 、p r o t 6 9 6 证5 1 等 ( 1 ) o n t o s a u r u s 由南加州大学信息科学研究所( o s c i s i ) 开发的o n t o s a u r u s 不仅是一个本体 服务器,而且还是一个本体浏览器,可以对席j l o o m 乜鲥编写的知识库和本体进行浏 浙江大学硕士学位论文第2 章相关技术与应用综述 览。作为本体服务器有如下三个优点: 使用l o o m 作为知识表示的语言。 推理能力主要依赖于l o o m 提供的推理功能。 使用s e n s u s 幢7 1 本体作为顶级本体。 ( 2 ) o n t 0 1i n g u a 斯坦福大学知识系统实验室( k s l ) 研制开发的o n t o l i n g u a 是拥有最多的团体 用户的开发工具,使用o n t o li n g u a 作为本体开发的语言。o n t o l i n g u a 服务器拥有 一个本体库,任何用户都可以向本体库中添加本体,并且该本体可以被其他项目 使用。世界各地的用户可以通过o n t o li n g u a f l 艮务器协同开发本体。 ( 3 ) w e b o n t 由英国o p e nu n i v e r si t y 的知识媒体研究所开发研制的w e b o n t o 使用计算概 念建模语言( o p e r a t i o n a lc o n c e p t u a lm o d e l i n gl a n g u a g e ,o c m l ) 编写构建本体, o c m l 是一种图形化语言 2 5 ow e b o n t o 用户一次只能对一个本体进行编辑,并且不 支持o c m l 文件导出。与o n t o li n g u a 服务器一样,必须经过注册才能使用。 ( 4 ) o n t o e d it 由德国卡尔斯鲁厄大学开发的o n t o e d i t 是一个分层构建本体系统工程的工 作平台,提供了一个支持本体开发和维
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宝宝巴士界面设计
- 幼儿园墙饰设计与制作
- 江苏护理职业学院课件
- 安全作业视频课件考试
- 安全事故培训课件
- 护理学导论2025年试题及答案
- 印刷工艺品设计
- 行政管理专科语文核心试题及答案
- 自考行政管理2025年知识应用试题及答案全览
- 家庭护理课件教学
- 2022年全国大学生英语竞赛C类试题
- 装饰、装修施工方案
- 矿井瓦斯抽采
- 施工现场安全检查记录表(周)以及详细记录
- 立法学完整版教学课件全套ppt教程
- 五年级下册科学说课课件 -1.2 沉浮与什么因素有关 |教科版 (共28张PPT)
- 流动注射分析仪常见问题解决方案.
- 《出口报关单模板》word版
- 边坡护坡检验批表格模板
- 工会会计制度——会计科目和会计报表(全)
- 马清河灌区灌溉系统的规划设计课程设计
评论
0/150
提交评论