(计算机应用技术专业论文)基于本体的数字图书馆的检索方法的研究.pdf_第1页
(计算机应用技术专业论文)基于本体的数字图书馆的检索方法的研究.pdf_第2页
(计算机应用技术专业论文)基于本体的数字图书馆的检索方法的研究.pdf_第3页
(计算机应用技术专业论文)基于本体的数字图书馆的检索方法的研究.pdf_第4页
(计算机应用技术专业论文)基于本体的数字图书馆的检索方法的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的数字图书馆的检索方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨t 程大学硕士学位论文 摘要 随着计算机网络技术的不断发展,海量信息的形式多样化,传统的图书 馆已经不能满足人们的需求,基于互联网络的数字图书馆应运而生。然而, 现在的数字图书馆体系中,在资源组织和检索手段还大部分继承了传统图书 馆的方式,存在一定程度上的查全率和查准率低下等方面的问题。因此,提 出一个结合语义的资源描述方式的数字图书馆资源检索模型,从语义和推理 角度对数字图书馆的检索效率进行优化是势在必行的。 针对目前数字图书馆检索中存在的主要问题,本文分析了传统信息检索 手段的不足;然后对数字图书馆、语义网、本体和检索引擎l u c e n e 进行了介 绍;通过对传统信息检索的基本原理、技术等方面的分析研究,结合本体的 具体特点,提出了结合语义的资源描述框架和基于本体的数字图书馆检索模 型s d l m ,详细描述了s d l m 的设计思想和检索流程,并对语义检索模型中 所涉及的关键技术进行了一定的分析研究。本文把语义的资源描述框架和推 理技术有机地结合到语义检索模型s d l m 中。结合具体问题进行了领域规则 扩展,弥补了s d l m 模型的语义局限性,最后对经过扩展后的语义模型进行 推理,并且通过实例验证了s d l m 模型的有效性和可行性。 关键词:数字图书馆;检索:本体;语义网 哈尔滨t 程大学硕士学位论文 a b s t r a c t w i t ht h e c o m p u t e rn e t w o r kt e c h n o l o g yc o n t i n u i n gd e v e l o p m e n t ,v a s t a m o u n t so fi n f o r m a t i o ni nt h ef o r mo fd i v e r s i f i c a t i o n ,t h et r a d i t i o n a ll i b r a r yh a s b e e nu n a b l et om e e tt h ep e o p l e sd e m a n d ,i n t e m e t - b a s e dd i g i t a ll i b r a r yc o m e i n t o b e i n g n o w , h o w e v e r , t h ed i g i t a ll i b r a r ys y s t e m ,i nt h eo r g a n i z a t i o na n dr e t r i e v a l o fr e s o u r c e sm e a n sa l s oi n h e r i t e dm o s to ft h et r a d i t i o n a ll i b r a r y , l i e si nac e r t a i n d e g r e el o w e rr a t eo ft h er e c a l 1r a t ea n da c c u r a t es u r v e ye t c t h u s ,p r o p o s i n ga c o m b i n a t i o no fs e m a n t i cd e s c r i p t i o no ft h er e s o u r c e so fd i g i t a ll i b r a r yr e s o u r c e s r e t r i e v a lm o d e la n do p t i m i z i n gr e t r i e v a le f f i c i e n c yf r o mt h ep e r s p e c t i v e s e m a n t i c a n dr e a s o n i n ga r ee s s e n t i a l i nl i g h to fm a i np r o b l e m so ft h ed i g i t a ll i b r a r yr e t r i e v a l ,i nt h et h e s i s ,s o m e d e f e c to ft r a d i t i o n a li n _ f o r m a t i o nr e t r i e v a lm e a n sw a sa n a l y s e d ;t h e nt h ed i g i t a l l i b r a r y , t h es e m a n t i cw e b ,o n t o l o g ya n ds e a r c he n g i n el u c e n ew e r ei n t r o d u c e d ; o v e ra n a l y s i sa n di n v e s t i g a t i o no ft r a d i t i o n a li n f o r m a t i o nr e t r i e v a lo nt h eb a s i c p r i n c i p l e s ,t e c h n o l o g ye t c ,c o m b i n e dw i t ht h es p e c i f i cc h a r a c t e r i s t i c so fo n t o l o g y , c o m b i n a t i o no fs e m a n t i cr e s o u r c ed e s c r i p t i o nf r a m e w o r ka n do n t o l o g y b a s e d d i g i t a ll i b r a r yr e t r i e v a lm o d e l 。s d l mw e r ep r o p o s e d t h ed e s i g ni d e aa n dr e t r i e v a l p r o c e s s e so fs d l mw e r ed e s c r i b e di nd e t a i l ,a n dt h ek e yt e c h n o l o g yi n v o l v e di n s e m a n t i cr e t r i e v a lm o d e lw a sa n a l y s e da n ds t u d i e di nac e n t a i nd e g r e e i nt h i s t h e s i s ,t h es e m a n t i c so ft h er e s o u r c ed e s c r i p t i o nf r a m e w o r ka n dr e a s o n i n g t e c h n i q u e sw e r eo r g a n i c a l l yi n t e g r a t e di n t ot h es e m a n t i cr e t r i e v a lm o d e ls d l m c o m b i n e dw i t hs p e c i f i ci s s u e s ,t h er u l e so ft h ef i e l dw a se x p a n d e d ,s e m a n t i c l i m i t a t i o no ft h es d l mm o d e lw a sm a d eu p f i n a l l yt h es e m a n t i cm o d e la f t e r e x p a n s i o nw a sr e a s o n e d ,a n dt h ee f f e c t i v e n e s sa n df e a s i b i l i t yo fs d l mm o d e l w e r ec o n f i r m e db ye x a m p l e k e y w o r d s :d i g i t a ll i b r a r y ;r e t r i e v a l ;o n t o l o g y ;s e m a n t i cw e b 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体己 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 日期:砷9 年;月,2 日 哈尔滨t 程大学硕十学位论文 1 1 研究背景 1 1 1 数字图书馆概述 第1 章绪论 随着信息社会的发展,需要存储和传播的信息量越来越大,信息的种类 和形式越来越丰富,传统图书馆的机制显然不能满足这些需要,因此人们提 出了数字图书馆的设想。数字图书馆是伴随着计算机技术、通信技术和网络 技术的迅猛发展而产生并正在成长的新生事物。它是社会信息基础结构中信 息资源管理、存储和传输的基本组织形式,它拥有丰富的超容量多种媒体介 质的数字化信息资源,依托互联网和其它网络而存在,并通过网络为信息需 求者提供高效、快捷的数字化信息服务,使处在不同地理位置的人们能够方 便地随时利用大量分散的收藏数字化、操作计算机化、传递网络化、信息资 源存取自由化和信息资源全球共享化的数字信息资源。 数字图书馆的公认要素有:数字图书馆不是单一的实体;数字图书馆需 要连接许多信息技术;多个数字图书馆及信息机构之间的链接对最终用户透 明;全球范围存储数字图书馆与信息服务是一个目标:数字图书馆的收藏并 不局限于文献的数字化替代品,还扩展到不能以印刷形式表示传播的数字化 人造品。通俗地讲,数字图书馆就是虚拟的、没有围墙的图书馆,是基于网 络环境下共建共享的可扩展的知识网络系统,超大规模分布、便于使用的、 没有空间限制、可以实现跨越书库链接与智能检索的知识中心。可以说,海 量的、多样化的数据和网状的分布是数字图书馆的主要特征。提供给用户尽 可能多的关于数字化资源和服务的语义信息( 元数据) ,这样可以避免用户 陷入数字海洋中。由于网络特性的存在,数字图书馆还必须具备易于管理的 异构的分布的信息资源和符合其特性的检索技术。由于数字图书馆的出现是 为了适应高速更新的数字媒体信息,所以它还必须能够及时反映收藏的更新 哈尔滨工程大学硕士学位论文 变化。由于数字图书馆的全方位知识服务,使图书馆的功能大大增强,成为 互联网上的知识中心、知识网络和知识定位系统。数字图书馆的建设将促进 我国信息技术的发展。同时带动与之相关的计算机技术、网络技术、通讯技 术等各项高新技术的迅速发展,并通过知识的有效传播最终关联到各行各 业,从而产生巨大的经济效益和社会效益。 1 1 2 课题研究的目的及意义 2 0 世纪9 0 年代以来,数字图书馆理论与技术已经成为了图书馆学界一个 国际性热点论题。随着研究的深入,数字图书馆的一些相关问题也日益尖锐起 来。数字图书馆系统中包含大量的不同类型的信息,既可以是来自本地馆藏数 字化的图书、期刊、科学文摘、全文数据库信息;也可以是来自网络数据库 的电子期刊、会议文献、o p a c 书目信息:甚至是经搜索引擎发现的w e b 网页 信息,数量庞大,内容庞杂,如何准确而又快速地获取所需信息,是用户面临的 主要问题。因此,信息检索技术是数字图书馆技术中最重要的也是最关键的。 然而传统检索多采用词切分、单汉字以及词切分和单汉字相结合等技术,并借 助于目录、索引和关键词等方法来实现。此方案的优点是简单、快捷;但缺 点是无法挖掘信息之间的内在联系,检索的结果不能准确、全面地反映用户的 需求。因此相对于传统的检索方法来讲,目前的数字图书馆在信息表达和检 索方面存在缺陷,主要在于其设计目的是面向用户的直接阅读和处理,而没有 提供计算机可读的语义信息,因此限制了计算机在信息检索中的自动分析处 理以及进一步的智能化处理的能力,人们必须力求使计算机之间能够从语义 层次上互相理解和沟通。 目前的数字图书馆多以传统的关键词检索为主。这种检索方式曾经在一 定程度上满足过用户的需求,由于字义本身与其概念的延伸不在同一级上,这 使得寻找的结果可能仅仅是与字面意义或某层的意义相匹配,但人们想要的 往往是这个信息的概念及其相关的成分,而不仅仅是字面所表达的意思。而解 决问题的关键在于,把信息检索从传统的基于关键词层面提高到基于知识( 或 概念) 层面。因此将本体技术引入到数字图书馆。而本体是一种新型的元“元” 数据,其目标是捕获相关领域的知识。提供对该领域知识的共同理解,确定该 2 哈尔滨工程大学硕十学位论文 领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇 间相互关系的明确定义,由此实现知识重用。近年来,信息系统研究者们又用 本体的概念模拟信息系统建模,开始了诸多新的研究。本体对于促进信息系统 的发展具有非常重要的作用。本体在数字图书馆中的应用已经逐渐成为了国 外研究的热点。将本体的技术应用到数字图书馆的检索中去,是本文研究的 重点。如何在传统的检索方式上应用到本体的思想,来很好的解决资源之间 的隐藏的联系,更好地在语义上实现检索功能,为用户方便的搜索到需要的 资源,是研究本文的目的及意义所在。 1 2 数字图书馆研究现状 1 2 1 国内外数字图书馆研究现状 由于数字图书馆的先进性,世界各国尤其是发达国家都十分重视数字图 书馆的建设。纷纷制定开发计划并保证充足的经费投入。数字图书馆在美国 已经被作为“信息基础技术应用”中的挑战性课题进行部署。从1 9 9 3 年开始, 美国自然科学基金会开始考虑立项支持数字图书馆的研究。在美国之后,加 拿大、英国、法国等许多国家也投资研究建设自己的数字图书馆。数字图书 馆的产业化建设进程中,作为电子出版物重要组成部分的电子数据库及其数 据库产业,是其资源建设的基础。据统计,目前美国的数据库生产商有1 0 0 0 多家,数据库4 0 0 0 多个,约占世界上数据库总量的5 0 ;美国有著名的大型 国际联机检索系统1 3 个,年产值4 0 多亿美元;欧共体有1 0 0 0 多个商业化数据 库,联机系统5 0 多个,欧洲数据库的年产值达2 0 亿美元。 我国的数字图书馆研究与开发起步较晚。1 9 9 8 年开始中国数字图书馆工 程已开始进入实质性操作阶段。数字图书馆在我国从1 9 9 8 年开始升温,目标 是以国家科技部支持的国家高性能环境为平台,研究数字图书馆关键技术, 并以各级图书馆、博物馆、新闻出版社及其用户为应用服务对象,最终开发 研制出一套数字图书馆示范应用系统。同时,我国的电子出版物及数据库建 设也取得了可喜的成绩。比较有代表性的大型数据库主要有: ( 1 ) 1 9 9 9 年6 月开始实施的中国知识基础设施工程( c n k i ) 工程,已于 3 哈尔滨丁程大学硕士学位论文 2 0 0 1 年1 1 月1 5 日陆续开通十大c n k i 数据库交换服务中心。该工程建成了中 国期刊全文数据库等系列数据库。 ( 2 ) 由科技部西南信息中心开发的中文科技期刊篇名数据库。该数 据库收录中文科技期刊近万种,数据量已达1 0 0 多万条,年递增约2 5 万条。 ( 3 ) 由中国科学技术信息研究所出版发行的万方数据库系统,主要包括 中国科技论文与引文分析数据库、专业文献类数据库、中国学术 会议论文库、中文期刊数据库等。 ( 4 ) 由北京世纪超星信息技术发展有限责任公司出版发行的超星数字 图书馆,是目前国内最大的公益性数字图书馆。 从我国国内的发展历程来看,我国的数字图书馆始发比美国、r 本和西 欧等国家都晚,但是发展却很快。据不完全统计,目前我国已经开通了2 0 0 家大大小小的数字图书馆。影响比较大的包括中国数字图书馆、超星数字图 书馆等等。综上所述,我国数字图书馆的发展从起步至今已取得很大进展但 由于受各种因素的制约。还存在许多不足。例如书目记录不统一、文献标记 规划不统一、使用费昂贵等,这些都严重影响我国数字图书馆的发展。是今 后我国数字图书馆发展过程中需要认真解决的问题。随着数字图书馆事业的 不断进展由于理念和思路的不同,各家数字图书馆的模式也有很大的不同。 从国内来看。当前面对众多的数字图书馆产品,标准化建设、版权建设及技 术平台建设已经成为数字图书馆发展的三大核心问题。 1 2 2 本体在数字图书馆领域的研究概况 根据前文的介绍了解到数字图书馆在异构数据资源,信息表达和检索方 面都存在着一些问题,不适于用户对数字图书馆的需求。因此业内的很多专 家在本体如何应用到数字图书馆技术的领域业做了很多研究工作。比如说 u s c h o l d 等人认为本体在通讯( c o m m u n i c a t i o n ) 、互操作( i n t e r 2 0 p e r a b i l i t y ) 和系统工程( s y s t e m se n g i n e e r i n g ) 三个方面具有非常重要的作用: ( 1 ) 通讯,主要为人与人之间或组织与组织之间的通讯提供共同的词汇: ( 2 ) 互操作,在不同的建模方法、范式、语言和软件工具之阳j 进行翻译 和映射,以实现不同系统之间的互操作和集成: 4 哈尔滨工程大学硕士学位论文 ( 3 ) 系统工程,本体分析能够为系统工程提供以下优势:重用,本体是 领域内重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化 描述可成为软件系统中可重用和共享的组件;知识获取,构造基于知识的系统 时,用已有的本体作为起点和基础来指导知识的获取,可以提高其速度和可靠 性:可靠性,形式化的表达使得自动的一致性检查成为可能,从而提高了软 件的可靠性;规范描述,本体分析有助于确定i t 系统( 如知识库) 的需求和 规范。在上述背景下,各国计算机相关领域研究者开始把本体技术应用到数 字图书馆的相关信息系统开发中倥,所开发的系统包括s c o r e 、o e d s e w 、 t i m e 2 s e a r c h ,r d fg a t e w a y ,o b s e r v e r ,p i c s e l ,o n t o b r o k e r 、k a o n p o r t a l 、s y d o m 、o n t o s e e k 等。 目前对于资源检索的研究和开发主要集中在本体的构建上。本体作为一 种能在语义和知识体系上描述概念的有效工具,在检索数字图书馆资源的应 用中占据着重要的地位,同时为传统方式的检索和语义查询两者都提供了必 要的扩充,是数字图书馆资源高效检索的保障。国内外的研究者在本体应用 到数字图书馆检索方面也取得了一些成果。例如我国武汉大学的研究人员就 提出了一个基于本体的数字图书馆模型,是建立在历史的领域本体下的,其 构建的本体的复杂度已达到世界领先水平,现已证实该方法已经可以解决一 些在传统检索方式下存在的查全率低下等方面的问题。因此将本体的思想加 到传统的检索方法中去是在这个方面的是个尝试,希望会对整个数字图书馆 本体的研究过程中起到帮助的作用。 1 3 主要研究内容及工作 本文的研究的主要内容是基于本体的数字图书馆资源的检索方法。主要 研究内容包括:对语义w e b 和本体的概念、产生、发展及其应用领域和研究 现状进行详细的论述,将现今最流行的l u c e n e 全文检索框架引入到检索系统 中来。针对传统数字图书馆资源检索方法的不足,将本体的思想引入到检索 模型中去,设计了基于本体的语义检索模型s d l m ( s e m a n t i cd i g i t a ll i b r a r y m o d e l ) 。在数字图书馆资源描述方面,结合了d c 元数据的思想,建立了一 个相对有效的数字图书馆资源描述框架;在检索方面,将语义推理加到了检 5 哈尔滨t 程大学硕十学位论文 i i i 索框架中进行语义检索。对检索模型中实现的各个部分进行了详细的描述, 包括本体的建立,语义推理和语义检索等。 针对如何提高数字图书馆资源的检索质量,本文的主要工作有: ( 1 ) 本文研究了本体,语义w e b ,l u c e n e 等相关技术知识,并且分析 了如何将本体运用到基于语义的搜索技术中去。 ( 2 ) 本文结合d c 元数据对数字图书馆资源进行语义描述,并提出了一 个基于本体的数字图书馆资源检索模型s d l m ,给出了模型的系统架构。 ( 3 ) 通过对本体的学习和研究,建立了数字图书馆资源的本体模型并 对本体存储模式,数据结构,关系规则等进行了详细的阐述。 ( 4 ) 在建立本体模型后,研究其内部推理机制,考虑实际问题的语义 化理解,通过在推理层扩展规则,从而更好的进行基于语义的检索。 ( 5 ) 最后作者给出了一个s d l m 的检索实例,来验证该检索模型的有效 性。 6 哈尔滨工程大学硕+ 学位论文 第2 章数字图书馆相关技术研究 数字图书馆是个分布异构环境中的知识体系,元数据提供了数字图书馆 的语义基础,使资源有了基本的微观结构,但是元数据并不能完全解决信息 系统的语义异构问题,包括资源采用不同元数据方案所造成的微观结构的异 构问题以及资源对象之间存在的复杂的关联关系。因此针对这个问题,本文 应用本体的思想,本体在某种程度上可以看成是“元”元数据,信息系统中 不同实体对象可能采用不同的元数据方案,不同的实体对象之间的关联关系 非常复杂,本体能够对这些情况进行很好的描述,从而为信息的组织、管理 以及检索、查询提供模型和方法。本章将就语义w 曲,本体,l u c e n e 等本文 用到的相关技术进行研究。 2 1 语义w e b 及体系结构 2 1 1 语义w e b 概述 语义w e b n l 的概念是由万维网的奠基人t i mb e m e r s l e e 在1 9 9 8 年他的一 篇题为“s e m a n t i cw e br o a d m a p ”的文章中首次提出的。在2 0 0 0 年1 2 月的 x m l 2 0 0 0 会议上t i m 给出了语义w e b 的体系结构,从t i mb e m e r s l e e 对语 义w e b 的介绍中我们可以看出语义w e b 的一些基本特征: ( 1 ) 语义w e b 不同于现在w w w ,现有的w w w 是面向文档而语义 w e b 则是面向文档所表示的数据; ( 2 ) 语义w e b 将更利于计算机“理解与处理 ,并将具有一定的判断、 推理能力。 当然,语义w e b 并非一个独立的w e b ,它的主要目的不是要完全代替现 有的w e b ,而是对当前的w w w 进行延伸,使得网络中所有信息都是具有语 义的,便于人和计算机之间的交互与合作。语义网研究的重点就是如何为机 器添加概念知识,并且这种“知识是全面地,凭借这些知识,机器能够很 7 哈尔滨工程大学硕十学何论文 好地理解信息,从而实现语义层上的智能应用。正是自动辨别“语义”的优 点,使得其在数字图书馆这种专业性较强的应用中具有意想不到的优势 数字图书馆中具有很多的词义相同、相近的词汇,有很多处于同一体系、属 于同一范畴的分支学科,还有很多同名不同人的作者写的不同文献,针对这 些情况有针对性地进行语义上的理解可以解决传统的检索体系中很多相关问 题。因此语义w 曲是目前万维网的发展方向,它的提出引起了人们极大的兴 趣,己成为全世界范围的研究热点。虽然目前对语义w e b 的研究仍处于起步 阶段,但是语义网的未来是光明的。 2 1 2 语义w e b 的体系结构 语义w e b 的体系结构分为7 个层次,其具体结构和框架如图2 1 所示。 图2 1 语义w e b 框架结构 体系中从底层到高层分别为:u n i c o d e 和u r i 、x m l 、r d f 、o n t o l o g y 、 l o g i c 、p r o o f , t r u s t ,下面分别介绍各个层次在语义w e b 框架中的作用。 ( 1 ) 第一层是u n i c o d e 与u r i ,是整个语义w e b 体系结构的基础,它着眼 于解决w w w 上资源的定位和跨地区字符编码的标准格式的问题。 ( 2 ) 第二层是x m l + n s ( n a m e s p a c e ) + x m ls c h e m a ,是x m l 及其相关 技术层。x m l 允许用户根据需要自定义一些“有意义的标签,对所发布信 息的内容进行标记,并使用文档类型定义( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) 或x m ls c h e m a 来约束这些标签的结构。 ( 3 ) 第三层是i m f + r d fs c h e m a ,其提供的语义模型用于描述w e b 上的 8 哈尔滨工程大学硕+ 学位论文 资源及其类型,r d f ( r e s o u r c ed e s c r i b i n gf r a m e w o r k ,资源描述框架) 定义 了一种用以描述资源及其相互关系的简单模型,是实现数据集成的元数据解 决方案。 ( 4 ) 第四层为o n t o l o g y 词汇( v o c a b u l a r y ) 层,用来定义共享的知识, 从而对各种资源之间的语义关系进行描述,揭示资源本身以及资源之间更为 复杂和丰富的语义信息。 ( 5 ) 第五层l o g i c ( 逻辑) 层主要提供公理和推理规则,为智能服务提 供基础。比如可利用分布在w e b 上的各种断言或公理推理出新的知识。 ( 6 ) 第六层p r o o f ( 证明) 层,用来在l o g i c ( 逻辑) 层之上进行更为复 杂的证明和推理。 ( 7 ) 第七层t r u s t ( 信任) 和跨越多层的数字签名( d i g i t a ls i g n a t u r e ) 则 注重于提供认证和信任机制,使用户代理a g e n t 在网络上实现个性化服务和彼 此间交互合作具有可靠性和安全性。 本文即是在第四层即本体的基础上对数字图书馆的馆藏图书资源进行恰 当的语义描述和语义检索。通过本体定义属性并建立一个分类层次结构,通 过属性将概念相互联系起来,从而建立数字图书馆资源概念的语义空间晦,。在 此基础上对整个数字图书馆领域内的资源进行语义检索,从而达到提高检索 效率的目标。通过以上对于框架结构的总结和分析可以看出,本体具有非常 重要的地位,是解决语义层次上w e b 信息共享和交换的基础,也是检索模型 s d l m 提出的理论支撑和应用基础。 2 2 本体及其应用 2 2 1 本体定义 2 0 世纪9 0 年代以来,人们将本体的概念引入计算机领域,本体被给予 了新的定义。最早的本体定义是1 9 9 1 年n e c h e s 等提出的:“给出构成相关领 域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外 延的规则的定义 。最著名并被引用得最为广泛的定义是由斯坦福大学的 g r u b e r 于1 9 9 3 年提出的,“本体是概念化的明确的规范说明”。对本体概念 9 哈尔滨t 稃大学硕十学位论文 的定义是不断发展的,但是这些定义基本上都包括以下几方面的含义: ( 1 ) 概念模型( c e r p t u a l i z a t i o n ) :通过将客观世界中一些对象的特性或本 质揭示出来而得到的模型:c = ,其中c 表示概念化对象,d 表示 一个域,w 是该领域中相关事物状态的集合,r e 是域空间 上的概念 关系的集合,其表示的含义独立于具体的环境状态。 ( 2 ) 明确( e x p l i c i t ) :所使用的概念及使用这些概念的约束都有明确的定 义。 ( 3 ) 形式化( f o r m a l ) :精确的数学描述,使计算机可读。 ( 4 ) 共享( s h a r e ) :本体中表达的知识是其使用者共同认可的,是相关 领域中公认的。 可见,尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对 于本体的认识是统一的,都把本体当作是领域内部不同主体之间进行交流的 一种语义基础,即由本体提供一种明确定义的共识。 2 2 2 本体描述语言 本体经常被视作一个高层次的描述方法,这个描述方法由一些概念组成, 本体中的概念更主要的是为机器理解语义进行服务。因此,在计算机领域讨 论本体,就要讨论如何实现本体的具体表示,也就是概念的形式化问题。这 就涉及到本体的描述语言。 从以上的本体语言发展框架图中可以看出,所有的描述语言都是在 x m l ,基础上,对语义描述能力进行完善和扩充。其中,最主要的当推w 3 c ( 万维网联盟) 推出的r d f r d fs c h e m a ( 资源描述框架) 和o w l ( 本体网 页描述语言) 。而且,2 0 0 4 年2 月发布的o w l 更是成为了w 3 c 的最新推荐 标准,并且得到了本体开发者的广泛承认。因此将针对这两种描述语言在数 字图书馆资源描述领域的应用进行详细的论述。 l o 哈尔滨工程大学硕士学位论文 图2 2 本体语言栈 1 r d f 和r d f s r d f 是由全球资讯网协会( w 3 c ) 主导和结合多个元数据团体所发展成 的一个架构,是用来描述资源及其之间关系的语言规范 ,。r d f 由三个部分 组成:r d fd a t am o d e l ,r d fs c h e m a 和r d fs y n t a x ,在语法上则遵循另一 个w 3 c 致力推广的架构一x m l 。基本的r d f 是一个与任何特定语法无关的 抽象的表述模式。r d f 模型的基础要素是三种类型的对象: ( 1 ) 资源( r e s o u r c e s ) ,它标识实际的以网络为基础的资源,用统一资 源标识符( u 对) 来标识资源。 ( 2 ) 属性( p r o p e r t i e s ) ,指定特定资源的属性或特性。 ( 3 ) 声明( s t a t e m e n t s ) 是资源和属性的下一级延伸。 每个r d f 声明用x m l 来表述。结合了u r i s 和属性的声明用r d f x m l 语法来序列化,r d f 规范用来生成网络资源的描述。这些资源使用对象模型 被描述为资源、属性和声明。属性和资源可以聚合到容器( c o n t a i n e r ) 中, 容器由一系列的特性和资源组成。r d f 描述使用r d f i x m l 规范被序列化并 作为x m l 来传输。 r d f 虽然具有如上许多优点,但它所提供的建模原语非常基础,只是提 供了一个模型,因此需要对其作进一步扩展。r d fs c h e m a 在r d f 基础上增 加了许多语义原语,用来更进一步增加对资源语义上的描述能力,如类、属 性、类和属性之间的隶属关系等。 核心类包括r d f s - r e s o u r c e ,r d f ;p r o p e r t y 以及r d f s - c l a s s 。 核心特性包括r d f a y p e ,r d f s a u b c l a s s o f 和r d f s a u b p r o p e r t y o f 1 1 哈尔滨_ 程大学硕士学位论文 核心约束包括r d f s :c o n s t r a i n t r e s o u r c e ,r d f s :c o n s t r a i n t p r o p e t y ,r d f s :r a n g e 和r d f s :d o m a i n 。 这些描述机制是单纯的r d f 所不具备的。r d fs c h e m a 提供了r d f 模型 中使用的一个基本类型系统,但是从r d f s 的原语上,r d f s 的表达能力还 是非常有限。 2 o w l o w l 作为w 3 c 的推荐标准,能够用于描述w e b 文档和应用中固有的类 和类之间的关系。它通过定义类和类的属性来形式化一个领域,声明和定义 对象和对象的属性,以及在o w l 形式化语义允许的程度上对类( c l a s s ) 和 个体( i n d i v i d u a l ) 进行推理| 一l 。 o w l 语言提供三种表达能力依次增强的子语言:o w ll i t e ,o w ld l 和 o w lf u l l ,主要的分类依据就是它们的表达能力。其中,o w ll i t e 是表达能 力最弱的子语言,o w lf u l l 具有最强的表达能力,而o w ld l 的表达能力 则在它们之间。我们可以认为o w ld l 是o w ll i t e 的扩展,而o w lf u l l 是o w ld l 的扩展。设计子语言的目的是用于具体的实施团体和用户团体。 o w l 主要通过类( c l a s s ) 、类的实例( i n s t a n e e ) 、属性( p r o p e r t y ) 三 种最为基本的元素和域( d o m a i n ) 、范围( r a n g e ) 两种用于标示属性连接范 围的作用域性质来进行本体的组织旧- 。 ( 1 ) 类:它定义了一组共享某些属性的个体所组成的集合。在本体的推 理中,大多数是针对类的个体进行的,而个体的特性都来源于其所属的类。 ( 2 ) 属性:用于说明个体之间或个体到数值间的关系。属性主要分两种 类型:数据类型属性( d a t a t y p ep r o p e r t i e s ) ,类实例与r d f 或x m ls c h e m a 数 据类型间的关系;对象属性( o b j e c t p r o p e r t i e s ) ,两个类的实例间的关系。 ( 3 ) 关于域( d o m a i n ) 和范围( r a n g e ) 域和范围分别在两个方向上限 定了应用于一个属性的类。域可以被看成是通常意义上的左值,即其修饰的 属性的作用域;范围则可以被认为是通常意义上的右值,也就是属性的值域。 2 2 3 本体构建 目前,本体虽然得到了一定的应用,但是仍然没有总结出一个得到统一 1 2 哈尔滨工程大学硕士学位论文 认可的方法体系。出于不同的工程的考虑,构造本体的过程方法也各不相同, 一般的领域建模都需要特定的领域专家支持。很多学者和研究人员通过工程 实践,总结出了自己的构建本体的原则。其中较为著名的有:m i k eu s c h o l d 和k i n g 在开发企业本体的时候总结出的“骨架 法;m i c h e a lg r t m i n g e r 和 m a r k sf o x 在多伦多大学实验室中开发一套商业和企业公共建模本体的时候 总结出的企业本体建模法( t o v e ) ;m a r i a n of e r n a n d e z 和g o m e z p e r e z 等人 在综合了“骨架法 和g o m e z p e r e z 方法后提出的一种通用的 m e t h o n t o l o g y 方法等等n ”。目前影响力最大的是g r u b e r 在1 9 9 5 年提出 的5 条规则i g l : ( 1 ) 明确性和客观性:本体应该用自然语言对所定义的术语给出明确、 客观的语义定义。 ( 2 ) 完全性:所给出的定义是完整的,完全能表达所描述的术语的含义。 ( 3 ) 一致性:由术语得出的推论与术语本身的含义是相容的,不会产生 矛盾。 ( 4 ) 最大单调可扩展性:向本体中添加通用或专用的术语时,不需要修 改已有的内容。 ( 5 ) 最小承诺:对待建模对象给出尽可能少的约束。 目前本体的构建工具也很多,但是p r o t 6 9 6 构建工具应用的最为广泛,本 文的s d l m 模型中的本体构建也是利用p r o t 6 9 6 进行开发的,具体构建过程 在4 1 节中叙述。 2 2 4 本体的应用 本体构建的目的是应用,对于本体应用的研究已经遍布人工智能、信息 管理、知识管理相关的各个领域,目前比较典型的应用有:语义w e b 服务及 基于语义的信息检索,特别是网络搜索引擎和本文重点讨论的数字图书馆; 基于本体的数据集成、机器学习等;领域本体的应用;在线元数据管理和自 动信息发布等。 本体在数字图书馆中的应用则主要集中在文献标引、信息检索、信息过 滤等方面1 : 1 3 哈尔滨工程大学硕士学位论文 ( 1 ) 文献标引。主要通过本体对文献中相关联的词进行处理,把词汇转 化成概念,从而把对词汇的操作转变成对概念的操作。 ( 2 ) 信息检索。利用本体特有的语义优势对用户的查询进行分析,得出 用户的真实含义,并通过检索的不同概念之间的语义联系来推导出查询结果, 从而提高查全率和查准率。 ( 3 ) 信息过滤。通过对用户信息的统计和分析,创造基于本体的用户模 版,从而解决了用户取向的问题,更加高效的为用户提供个性化的检索结果。 综上,本体的应用领域相当广泛,而且在各个领域内都有着比较重要的 指导意义和建设性,本文就是对本体在信息检索方面的应用作了主要的研究 工作。 2 3 全文检索引擎l u c e n e 的分析研究 数字图书馆的出现使互联网上各种数字资源经过加工处理,然后通过一 个统一的平台供用户检索,从而为读者提供了方便、快捷的知识服务机制。 因而一个数字图书馆系统的检索机制的好坏直接影响数字图书馆的性能,可 以说,全文检索机制是数字图书馆的核心支撑之一。目前,实现全文检索技 术的方法有很多,其中l u c e n e 就是一个非常优秀的开源全文搜索引擎工具 包。 2 。3 1l u c e n e 简介 l u c e n e “2 1 是a p a c h e 软件基金会i a k a r t a 项目组的一个子项目,是一个开放 源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一 个用j a v a 写的全文索引引擎工具包,它为数据访问和管理提供了简单的函数 调用接口,可以方便的嵌入到各种应用中实现针对应用的全文检索功能。具 有快速的、可靠的、可扩展的、可处理关键性事务的数据库支持;低开销量, 内进程执行模型,简单的函数调用a p i ,低管理开销,非常适合用于嵌入式 系统。l u c e n e 的a p i 接口设计的比较通用,输入输出结构都很像数据库的表 1 4 哈尔滨丁程大学硕十学位论文 = = 记录= = 字段,所以很多传统的应用的文件、数据库等都可以比较方便的 映射到l u c e n e 的存储结构、接口中。 l u c e n e 以其开放源代码的特性、优异的索引结构、良好的系统架构获得 了越来越多的应用。l u c e n e 作为一个全文检索引擎,其具有如下突出的优点: ( 1 ) 索引文件格式独立于应用平台。l u c e n e 定义了一套以8 位字节为 基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索 引文件。 ( 2 ) 在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够 针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并, 达到优化的目的。 ( 3 ) 优秀的面向对象的系统架构,使得对于l u c e n e 扩展的学习难度降 低,方便扩充新功能。 ( 4 ) 设计了独立于语言和文件格式的文本分析接口,索引器通过接受 t o k e n 流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现 文本分析的接口。 ( 5 ) 已经默认实现了一套强大的查询引擎,用户无需自己编写代码即使 系统可获得强大的查询能力,l u c e n e 的查询实现中默认实现了布尔操作、模 糊查询( f u z z ys e a r c h ) 、分组查询等等。 2 3 2l u c e n e 系统结构 l u c e n e 作为一个优秀的全文检索引擎,其系统结构具有强烈的面向对象 特征m ,。首先是定义了一个与平台无关的索引文件格式,其次通过抽象将系 统的核心组成部分设计为抽象类,具体的平台实现部分设计为抽象类的实现, 此外与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象 式的处理,最终达成了一个低耦合、高效率、容易二次开发的检索引擎系统。 哈尔滨工程大学硕士学位论文 图2 3 系统结构与源码组织结构图 如图2 3 所示,从图中可以清楚的看到,l u c e n e 的系统由基础结构封装、 索引核心、对外接口三大部分组成。其中直接操作索引文件的索引核心又是 系统的重点。l u c e n e 的将所有源码分为了7 个模块,各个模块所属的系统部 分也如上图所示。从面向对象的观点来考察,l u c e n e 应用了最基本的一条程 序设计准n - 引入额外的抽象层以降低耦合性。首先,引入对索引文件的操 作o r g a p a c h e 1 u c e n e s t o r e 的封装,然后将索引部分的实现建立在 o r g a p a c h e 1 u c e n e i n d e x 之上,完成对索引核心的抽象。在索引核心的基础上 开始设计对外的接口o r g a p a c h e 1 u c e n e s e a r c h 与o r g a p a c h e 1 u c e n e a n a l y s i s 。在 每一个局部细节上,比如某些常用的数据结构与算法上,l u c e n e 也充分的应 用了这一条准则。在高度的面向对象理论的支撑下,使得l u c e n e 的实现容易 理解,易于扩展。l u c e n e 在系统结构上的另一个特点表现为其引入了传统的 客户端服务器结构以外的的应用结构。 2 3 3 基于l u c e n e 的应用开发 通过以上对l u c e n e 系统结构分析和索引格式的分析,已经很清楚地了解 l u c e n e 的系统结构特征。在此基础上,可以通过扩充l u c e n e 系统来完成_ 个 完备的全文检索引擎,紧接着还可以在全文检索引擎的基础上构建各种应用 系统。l u c e n e 提供了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论