(图书馆学专业论文)本体论在网络信息检索中的应用研究.pdf_第1页
(图书馆学专业论文)本体论在网络信息检索中的应用研究.pdf_第2页
(图书馆学专业论文)本体论在网络信息检索中的应用研究.pdf_第3页
(图书馆学专业论文)本体论在网络信息检索中的应用研究.pdf_第4页
(图书馆学专业论文)本体论在网络信息检索中的应用研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(图书馆学专业论文)本体论在网络信息检索中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本体论在网络信息检索中的应用研究 摘要 随着网络信息的爆炸性增长,常规的基于关键词的网络信息检 索技术已越来越不能满足用户的检索需求,而本体论作为一种新的 知识表示方式,由于具有良好的概念层次结构和对逻辑推理的支持, 因而在网络信息检索中具有广阔的应用前景。 通过本体论,一方面可以把信息检索从基于关键词的层次提高 到基于概念的层次,从而提高系统的查准率与查全率;另一方面可 以对概念之间的相关性进行推理挖掘,从而满足用户进行智能化信 息检索的需求。 本文对本体论在网络信息检索中的作用,从用户需求的分析与 实现、目标文档的分析与语义标引以及用户兴趣模型的构建等三个 方面进行了深入的分析与探讨,并在此基础上构造了一个基于本体 论的智能化网络信息检索模型。 本文的主要贡献有: 1 、提出了一种基于本体论的网页文档的标引算法。该算法利用 本体论对提取的网页特征词汇进行概念歧义的消除,然后建立本体 论与网页文档之间的映射关系,从而实现对网页文档进行语义标引。 2 、提出了一种基于本体论的智能化查询算法。该算法充分利用 本体论的推理功能,把出现在用户查询中的概念、关系以及属性等 信息进行综合考虑,从而挖掘出用户的真正需求所在。 3 、提出了一种基于本体论的智能化网络信息检索模型。该模型 的实现不仅比传统的检索系统具有更高的查全率和查准率,而且在 一定程度上使检索系统更具智能化和个性化。 关键词:本体论,语义标引,用户兴趣模型,智能化查询,信息 检索模型 a b s t r a c t w i t ht h er a p i di n c r e m e n to ft h ei n f o r m a t i o no nt h e w e b ,t r a d i t i o n a l i n t o n n a t l o nr e t r i e v a lb a s e do nt h ek e y w o r d si s f a rf r o mu s e r ss a t i s f a c t i o ni n r e c a l la n dp r e c i s i o n a san e w w a yo fk n o w l e d g ed e s c r i p t i o n , o n t 0 1 0 9 yw i l l n a v eaw l d ep r o s p e c to fa p p l i c a t i o ni n s e a r c he n g i n ea r e ab e c a u s eo fi t s c a p a b i 王i t yt or e p r e s e n tm e a n i n go ft h ei n f o r m a t i o nb ya h i e r a r c h i c a ls t m c t u r e a n di t sr e a s o n i n gs u p p o r t u nt h eo n eh a n d ,t h ei n f o r m a t i o nr e t r i e v a l c a nb ep r o m o t e d 行o mt h e k e y w o r d sl e v e lt 0t h ec o n c e p t i o nl e v e lb yo n t o l o g y , i tw i l lp r 咖o t et h er e c a l l 锄dt h ep r e c i s i o n ; o nt h eo t h e rh a n d ,t h e r e l e v a n c eo ft h ec o n c e p t i o nc a n b e e x p l 0 1 t e da n dr e a s o n e d , i tw i l lr e a l i z ei n t e l l i g e n tj n f 0 咖a l i o nr e t r 至e v a 】 f h i st h e s l sg i v e si n - d e p t ha n a l y s i sa n dd i s c u s s i o na b o u t t h e 如n c t i o no f t h eo n t o l o g yi nt h t e ea s p e c t so f i n f o r m a t i o nr e t r i e v a l , i n c l u d i n gt h ea n a l y s i s a n dc o n s t r u c t i o no fu s e r sd e m a n d 、t h ea n a l y s i sa n d s e m a n t i ci n d e x i n go f t a r g e t e nd o c u m e n t sa n dt h ec o n s t r u c t i o no f u s e ri n t e r e s tm o d e l , a n dt h e na n i n t e n l g e n t1 n f o r m a t i o nr e t r i e v a lm o d e lb a s e d o i lo n t o l o g yi s g i v e n t h em a i nc o n t r i b u t i o n sa r e a sf o i l o w s : l r r o p o s ea no n t o l o g y - b a s e ds e m a n t i ci n d e x i n gm e t h o d t h em e t h o d t a k e sa d v a n t a g eo f o n t o l o g yt oc l e a rt h ec o n c e p t u a la m b i g u i t ya n d t h e nb u i l d t h er e f l e c t i v er e l a t i o n s h i pb e t w e e no n t o l o g ya n dt h ew e b d o c u m e n l ,w h i c h f e a l i z e st h es e m a n t i ci n d e x i n go f t a r g e t e dd o c u m e n t 。 z p r o p o s ea no n t o l o g y 。b a s e d i n t e l l i g e n tq u e r ym e t h o d t h em e t h o dt a k e s 血i lu s eo ft h ef u n c t i o no f o n t o l o g yr e a s o n i n g ,a n dg i v e saf u l lc o n s i d e r a t i o n o tc o n c e p t s 、 a t t r i b u t e 、 r e l a t i o n s h i pa n do t h e ri n f o r m a t i o ni nu s e r s q u e r y , w h i c hc a nf i n do u tw h a t u s e r sr e a l l yn e e d 一 j p r o p o s ea n d 姗p l e m e n ta no n t o l o g y - b a s e di n t e l l i g e n ti n f 0 加a t i o n r e t r l e v a lm o d e l t h er e a l i z a t i o no f t h i sm o d e ln o to n l yw i l lp r o m o t et h er e c a l l a n dt h ep r e c i s i o nb u ta l s om a k e st h e r e t r i e v a ls y s t e mm o r e i n t e l l i g e n ta n d k e y w 。r d s :。n t o l 。g y ,s e m a n t j ci n d e x i n g ,u s e ri n t e r e s t m 。d e l ,i n t e l l i g 蚰t i n f o r m a t i o nr e t r i e v a l , i n f o r m a t i o nr e t r i e v a im o d e l 学位论文独创性声明 本人承诺:所呈交的学位论文是本人在导师指导下所取得的研究成果。论文 中除特别加以标注和致谢的地方外,不包含他人和其他机构已经撰写或发表过的 研究成果,其他同志的研究成果对本人的启示和所提供的帮助,均已在论文中做 了明确的声明并表示谢意。 学位论文作者签名:专专表 日 学位论文版权的使用授权书 期:州f 岁 本学位论文作者完全了解辽宁师范大学有关保留、使用学位论文的规定,及 学校有权保留并向国家有关部门或机构送交复印件或磁盘,允许论文被查阅和借 阅。本文授权辽宁师范大学,可以将学位论文的全部或部分内容编入有关数据库 并进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密 的学位论文在解密后使用本授权书。 学位论文作者签名:志髻忘 艚狮躲锄度 日 期:阳护。r ? 本体论在网络信息检索中的应用研究 第一章绪论 1 1 问题的提出 目前人们在利用搜索引擎进行信息检索的过程中,普遍遇到了 “信息过载”的问题,即系统返回的信息量过多,远远超过了用户 所能接受和处理的能力。虽然返回的信息数量巨大,但是有相当数 量的信息却并不是用户所需要的,使得用户将大量的时间耗费在排 除无关的信息上,也就是说搜索引擎的查准率较低;同时,又由于 检索用户和网络文档对同一概念的表达形式往往会有差异,这又导 致许多有用的信息用户无法检索到,也就是说搜索引擎的查全率也 是较低的。造成这一现象产生的根本原因,在于当前的搜索引擎存 在有以下两大方面的不足: ( 1 ) 基于关键词的标引和检索方式不符合语义理解的需要。 现有的搜索引擎提供的检索方式几乎都是基于关键词的方式, 虽然基于关键词的检索方式给人们的检索带来了很大的方便,但它 却不能很好地表达用户的检索需求,这主要表现为: 第一,“忠实表达”的问题。在很多情况下,用户很难简单地通 过一个关键词或关键词串来忠实地表达他的检索要求,表达的不准 确导致检索结果的不准确。 第二,“表达差异”的问题。关键词语言是一种自然语言,随着 时间、地域、领域的改变,同一词汇可以表达不同的语义概念,即 “一词多义 的现象;同概念也可以使用不同的词汇表达,即“一 义多词”的现象。表达的差异导致检索结果的不完全或者不理想。 第三,“词汇孤岛 的问题。在人的大脑中,概念不是孤立存在 的,它总是与其它概念之间存在着各种联系,用户在检索一个词时 除了希望得到包含该词的资源之外,还希望得到与该词相关的其它 信息。在传统的检索技术条件下,这种概念关联的检索是实现不了 的,用户的检索词汇成为一个词汇的孤岛。n 3 同样,现有的搜索引擎在对网页文档进行标引时,采用的也都 是基于关键词的方式。由于不同的关键词可以用来表达同一个概念, 同一个关键词在不同的语义环境中可以表示不同的语义,所以利用 本体论在网络信息检索中的应用研究 关键词标引文档也存在着容易脱离文档的语义内容,无法真实表达 文档内容特征的问题。 ( 2 ) 个性化能力太差。 现在的搜索引擎对所有的用户采用的都是同一种模式,不同的 用户只要用相同的关键词进行查询,得到的结果将会是一样的。显 然,这样的搜索引擎个性化能力太差,它没有考虑到每个用户的个 体差异,不能根据用户背景、爱好的不同,获取用户不同的个性化 信息需求,从而给出不同的检索结果。另外,搜索引擎只负责返回 结果给用户,并不关心用户对返回结果的评价,没有考虑利用用户 的反馈来进一步提高系统的检索性能。总而言之,目前的搜索引擎 针对的是一般的共性用户而不能满足单个用户的个性化查询需求。心3 从以上搜索引擎存在的不足我们可以看出,当前的搜索引擎在 进行网上信息收集和提供查询服务方面存在着严重的效率和质量问 题,这就要求新一代的信息检索系统一一智能化的信息检索系统的 产生来弥补当前各种搜索引擎的不足。智能化的信息检索系统试图 从语义概念层面上理解和标引文档,并根据用户个人的相关信息智 能化地理解用户的信息需求,从而实现语义概念检索,而不是简单 的字符串匹配。 本体论作为一种新的知识表示方式,由于具有良好的概念层次 结构和对逻辑推理的支持,因而在实现智能化的网络信息检索中具 有广阔的应用前景。通过本体论,一方面可以把信息检索从基于关 键词的层次提高到基于概念的层次,从而提高系统的查准率与查全 率;另一方面还可以对概念的相关性进行推理,挖掘出用户的真正 需求所在,从而实现智能化的信息检索。 1 2 目前国内外研究状况 , 1 2 1 国外研究状况 国外关于本体论在网络信息检索中的应用研究涉及的内容很 多,就笔者搜集到的一些文献资料来看,主要有以下几个方面: ( 1 ) 研究如何将用户的查询语言和资源描述用本体论加以规范 化和形式化,这样查询请求和资源描述相一致,消除了表达上的差 2 本体论在网络信息检索中的应用研究 异,从而提高了信息检索的查准率。这种情况很适合于在线黄页以 及产品目录之类的信息检索系统。o n t o s e e k 系统1 即是一个基于内 容、从在线黄页和产品目录中进行检索的系统,该系统将本体论驱 动的内容匹配机制与一个表示形式化的系统相结合,提供了一个可 以用领域内任意词汇进行交互式语义查询的系统。 ( 2 ) 研究利用本体论进行文档标注,即如何将本体论知识嵌入, 到文档中去。在这个领域里,很多研究机构专门研究并提出了一些 标注模型,如德国的k a r ls r u h e + 大学应用计算科学和形式化描述方 法研究所( i n s t i t u t ef o ra p p l i e dc o m p u t e rs c i e n c ea n df o r m a l d e s c r ip tio nm e t h o d s ) 开发的o n t o b r o k e r 系统h 1 ,该系统的核心是 用形式化本体论来描述背景知识,并明确化网络文档的语义,以便 综合利用本体论的表达能力和推理机制。 ( 3 ) 研究利用本体论进行大规模知识库的构建以及在此基础上 的推理。如c y c 项目哺1 ,它是c y c o r p 集团正在进行的一个项目。c y c 知识库中有数以千计的微理论( m ic r o t h e o r y ) ,每个微理论都由一串 断言构成。微理论的机制允许c y c 可以独立地维护乍看起来具有矛 盾对立性的断言,并促进c y c 系统提高专著于推理过程的能力。 c y c o r p 集团的目标是打破“软件开发的瓶颈”,构建“通用性常识 知识基础一一集结了术语、规则和关系的语义底层,这一知识库的 成功将带来为数众多的知识密集型产品和服务。 ( 4 ) 研究利用本体论进行用户查询的扩展。在基于本体论的用 户查询扩展方法的研究中,出现了两个主要的分支:一个是基于本 体论的结构进行查询扩展的方法1 ,其基本的思想是利用本体论中的 路径来进行用户查询的扩展,在本体论的结构图中,每一个概念的 节点都与其它节点有着连通的路径,因此可以选择与该节点连通的 路径上的概念来对用户的查询进行扩展,而对概念的选择则依赖于 本体论的结构;另一个是基于本体论的注释进行查询扩展的方法, 该方法假定了在本体论中相似的概念也具有相似的定义,它使用本 体论中的概念并对其扩充了注释,在进行查询概念扩展时,通过对 概念的注释中出现的单词或术语进行统计,以此来决定两个概念是 否相似。 3 本体论在网络信息检索中的应用研究 1 2 2 国内研究状况 与国外涌现的研究项目和研究成果相比,国内关于本体论在网 络信息检索中的应用研究尚处于起步阶段。就笔者搜集到的一些资 料来看,主要涉及以下几个方面内容: ( 1 ) 对检索文档按领域进行分类标引以及对用户的查询进行规 范的研究。中科院计算所智能信息实验室建立的基于本体论和多主 体的信息检索服务器阳3 是一种利用多智能主体和本体论设计的信息 检索服务器,它集成了界面主体、预处理主体、管理主体、信息处 理主体和具有移动性的信息搜集主体,并在本体论的协助下对被检 索文档按领域进行分类,同时对用户的查询信息进行规范。 ( 2 ) 对用户查询进行语义扩展的研究。哈工大计算机系的廖明 宏等提出了一个智能搜索引擎模型,阳1 利用本体论表示的概念之间的 内在联系将用户查询请求的一些隐含信息挖掘出来,使这些信息在 检索中起着导引作用,从而准确地表明了用户的查询意图。东南大 学的万捷等提出利用本体论的层次结构,根据概念间的距离来对用 户查询进行扩检,从而提高信息检索的查全率。n 叫 ( 3 ) 对基于本体论的用户兴趣模型的研究。国防科技大学的徐 振宁等提出的基于本体论的智能信息检索系统,利用本体论技术 和多主体技术对多层次用户偏好建模,并用多种相关反馈学习算法, 有效地解决了在特定领域范围内精确语义查询、自适应用户兴趣和 信息源的变化,以及系统的可扩展性等问题。 ( 4 ) 对信息抽取的研究。北京理工大学人工智能研究所的廖乐 健等,从知识表示与推理的角度研究了提高信息抽取智能性的途径, 提出本体论与模板规则相结合的技术,并针对线性模板表示的局限 性提出了基于二叉树结构的模板规则表示。该技术目前已经成功地 应用于招聘广告的信息抽取。n 列 ( 5 ) 对本体论的构建以及基于本体论的信息检索的推理功能的 研究。中科院的李景博士进行了花卉学本体论模型构建的研究,利 用c y c 本体论系统的方法和技术对花卉学的知识体系进行了组织, 并在此基础上开发了花卉学文献试验性本体论检索系统,测试了系 4 本体论在网络信息检索中的应用研究 统的排除歧义和推理检索功能。们 1 总的来看,关于本体论在网络信息检索中的应用研究目前尚处 在一个试验和探索的阶段。到目前为止,互联网上还未出现一个非 常完善的、基于本体论的语义检索工具。即使是具有较佳推理功能 的c y c 本体论系统,也只能识别用c y c l 写成的断言,而后才可以进 行推理。而在大多的基于本体论的网络信息检索的研究中,其检索 方法主要是考虑把传统方法中从用户查询和网页文档中抽取出来的 关键词替换为含有语义的概念,以此把基于关键词级的检索提升到 概念级的检索,另有一些更深入的关于本体论在网络信息检索中的 应用研究还考虑到了概念和概念之间的关系,利用概念的层次结构 等刻画概念两两之间的距离和相似度,具有一定的参考价值和实践 意义。然而这些方法大多都没有充分利用本体论中的属性、公理和 函数的作用,从实质上忽略了网络文档和用户查询中蕴含的其它有 价值的信息。如果能够充分利用本体论的推理功能,把这些出现在 文档和用户查询中的概念、关系以及属性等信息综合考虑,就能够 更进一步地把本体论的作用发挥出来。n 4 1 本文在这方面试图做一些 有益的探索。 1 3 本文的研究内容与创新 本文在对目前关于本体论在网络信息检索中的应用研究状况进 行总结的基础上,就如何利用本体论技术实现智能化的网络信息检 索展开了深入的研究,并考虑了如何能够充分利用本体论的推理功 能,把出现在文档和用户查询中的概念、关系以及属性等信息综合 考虑,以进一步地把本体论在网络信息检索中的作用发挥出来。 具体来说,本文的研究主要包括两个方面的内容:( 1 ) 针对本 体论在实现智能化的网络信息检索中的作用进行了深入的研究。本 文针对本体论在目标文档的分析与语义标引、用户需求的分析与实 现以及用户兴趣模型的构建等三个方面的应用进行了深入的分析与 探讨,并分别提出了具体的应用策略和算法。通过对本体论在这三 方面的应用研究,揭示了本体论在实现智能化的网络信息检索中的 巨大作用。( 2 ) 构造了一种基于本体论的智能化网络信息检索模型。 在对本体论在网络信息检索中的作用进行研究的基础上,本文构造 5 本体论在网络信息检索中的应用研究 了一个基于本体论的智能化网络信息检索模型,并对该模型的各个 功能模块给予了详细的说明,另外还对该模型实现的预期效果进行 了分析。 本文的创新之处主要体现在以下三个方面: 1 、提出了一种基于本体论的网页文档的标引算法,该算法利用 本体论对提取的网页特征词汇进行概念歧义的消除,然后建立本体 论与网页文档之间的映射关系,从而实现对网页文档进行语义标引。 2 、提出了一种基于本体论的智能化查询算法,该算法充分利用 本体论的推理功能,把出现在用户查询中的概念、关系以及属性等 信息进行综合考虑,挖掘出用户的真正需求所在,从而实现智能化 的网络信息查询。 3 、提出了一种基于本体论的智能化网络信息检索系统模型,该 模型的实现不仅比传统的检索系统具有更高的查全率和查准率,而 且在一定程度上使检索系统更具智能化和个性化。 1 4 本文的组织结构 本文共分五章: 第一章介绍了课题研究的背景,概述了该领域的研究状况,指 出了本文的主要研究内容以及创新之处。 第二章概述了本体论的涵义以及主要的技术方法。 第三章详细探讨了本体论在语义标引、用户查询扩展与处理以 及用户个性化检索三个方面的作用,并就本体论在这三方面的应用 提出了具体的策略和算法。 第四章提出了一种基于本体论的智能化网络信息检索模型,并 详细介绍了该模型的各个模块的功能与实现。 第五章对本文的研究工作进行了总结,并对未来的工作进行展 望。 6 本体论在网络信息检索中的应用研究 第二章本体论概述 本体论( o n t o l o g y ) 原本是哲学领域里的一个概念。古希腊哲学 家亚里士多德将本体论定义为研究“存在 的科学,同时又把它分 为两个方面:一方面研究存在的本质,另一方面研究客体对象的理 论定义,即整个现实世界的基本特征。n 朝“o n t o lo g y 一词,最早 是在17 世纪时由德意志哲学家郭克兰纽( r g o c le n iu s ) 提出来的, 作为一种哲学理念的“o n t o l o g y ”,是在苏格拉底提出的“始基 问 题中萌芽,在柏拉图和亚里士多德那里奠定雏形,而最终在中世纪 经院哲学中成熟的。n 们 近年来,人们将本体论的概念引入到人工智能、知识工程和图 书情报领域,用以解决知识概念表示和知识组织体系方面的有关问 题。这是因为,在人类对世界的认知过程中,不同的人对客观世界 的认识是有差异的,这种差别是由于不同的人对同一事物具有不同 的概念而导致的。人与人之间缺乏共识导致了人们在交流与沟通过 程中经常会出现误差。共识是指人们对同一个客观事物的认识具有 相同的概念。本体论即是人类共识的集合,其目的是为了构建一个 统一的认识事物的标准。尤其是在计算机网络和人工智能等技术飞 速发展的今天,人们以往的信息收集、处理以及表达的方法受到了 极大挑战。网络信息时代要求对“知识获取”方式和“知识表达 方式做出重新调整。正是由于这种需要,人们才借助于本体论来解 决知识表示和知识组织等方面的问题,从而获得一种适应网络信息 时代的能力。n 本章针对本体论的涵义和技术方法进行了概括性的分析和归 纳。 2 1 本体论的涵义 本文在这里通过对本体论的定义、本体论的类型以及本体论的 作用等三个方面的介绍来明确本体论的涵义。 2 1 1 本体论的定义 7 本体论在网络信息检索中的应用研究 斯坦福大学的g r u b e r 于1 9 9 3 年最早给出本体论( o n t o l o g y ) 的 定义n 钉为“概念模型的明确的规范说明 。1 9 9 7 年b o r s t 进一步完善 为“共享概念模型的形式化规范说明。n 盯 德国卡尔斯鲁厄大学的s t u d e r 等学者于1 9 9 8 年提出本体论应具 有的四大特征:凹们 ( 1 ) 本体论是明确的( e x p lic i t ) 。被引用的概念所属的上位类 与在使用此概念时的限制条件应预先得到明确的定义和说明。 ( 2 ) 本体论是形式化的( f o r m a l ) 。本体论应该具有机器可读性。 ( 3 ) 本体论是共享的( s h a r e d ) 。在一个本体论中,知识所表达 的观念、观点应该“抓住知识的共性,也就是说,它不只是为某一 小部分人所接受的,而是为整个群体所接受的”。 ( 4 ) 本体论是概念化的( c o n c e p t u a liz a t io n ) 。它是一个概念 体系,又称概念模型。所谓概念化是指“客观世界中某些现象的一 个抽象模式,该模式是通过定义这些现象的相关概念形成的。 中国学者李景认为:弛本体论是一个关于某些主题的、层次清 晰的规范说明。它是一个已经得到公认的形式化的知识表示体系, 它包含词表( 或术语表) ,词表中的术语全是与某一专业领域相关的, 词表中的逻辑声明全部是用来描述那些术语的含义和术语问关系 的,即它们是怎样和其它术语相关联的。因此,本体论提供了一个 用来表达和交流某些主题知识的词表和一个关系集,关系集是词表 中术语间关系的集合。本体论作为知识组织的重要手段应该具有以 下要素: ( 1 ) 声明( s t a t e m e n t ) 。声明用来说明本体论所表示的知识范 围、主体,以及它的主要用途和目的。 ( 2 ) 公理( a x io m ) 。公理通常都是一阶谓词逻辑的表达式。公 理是那种无须再进行证明的逻辑永真式。例如,a 产生b :乙肝产生 ( 乙肝的x x x 症状) 。 ( 3 ) 概念、又称为类( c o n c e p t ,c l a s s ) 。类是相似术语所表达 的概念的集合体。 ( 4 ) 属性( p r o p e r t y ,s 1o t ) 。属性用来描述类中的概念,具有 限制类中的概念和实例的功能。一些类具有某一属性,另外一些类 本体论在网络信息检索中的应用研究 不具备这一属性。属性是区分类的标准。属性具有继承性。一个属 性必须具有相应的属性值。例如,“种植 这一类,具有属性“方法 等。 ( 5 ) 函数( f u n c t i o n ) 。函数是关系( r e l a t i o n ) 的特定表达形式。 函数中规定的映射关系,可以使得推理从一个概念指向另一个概念。 例如,函数m o t h e r ( ) 的定义,是将某个人或生物与他( 它) 的母亲联 系到一起。对于任何人或动物而言,m o t h e r ( ) 的值是唯一的。而 m o t h e r ( ) 的逆反函数c h il d r e n ( ) 的值不见得是唯一的。 ( 6 ) 实例( i n s t a n c e ) ,也称个体。归根结底,类是实例的类, 实例是类的实例。函数是实例的函数,实例是函数的实例。实例是 本体中的最小对象。它具有原子性,即不可再分性。如果某个实例 还可以再进行划分,那么它就是一个类,而不是实例。实例可以代 入函数中去进行运算,而函数的运算结果一定是另外一些实例或者 是类。类,包含实例,而每个实例都有不属于其它实例的属性,这 是区分不同实例的唯一标识。 除上述定义外,不少文献从不同的问题域和研究角度出发,对 本体论又给出了各种各样的定义。对本体论的种种不同定义,都是 从不同的角度给出的相应解释。这些定义是相互补充的,并且不断 扩充本体论的应用范围。但它们都有一个共同点,即都包含g r u b e r 定义中所指,出的事实:“本体论是反映客观存在的概念模型,是对概 念模型的明确描述 。 2 1 2 本体论的类型 目前研究本体论的机构和组织很多,而由于应用领域的不同, 各个研究机构对本体论研究的侧重点也有所不同,因此存在着不同 的本体论的分类方式。如果按照本体论的内容来划分类别,可以将 这些为数众多的本体论划分为三种类型:领域本体论、通用本体论 和任务本体论。陋2 3 ( 1 ) 通用本体论 通用本体论或上层本体论、顶级本体( g e n e r a lo r u p p e r o n t o l o g y ) ,划分了存在于客观世界的实体的不同种类,定义 9 本体论在网络信息检索中的应用研究 的是最基本的概念类、属性及其语义关系。在这类本体论中,被定 义的知识可以跨学科应用,这些知识还包括与事物、事件、时间、 空间和地区等相关的词汇表扭引。目前世界上著名的通用本体论是c y c 公司的c y c 本体论,它以形式化语言表达了大量的人类基础知识, 例如事实、经验和用于推理的启发式。c y c 本体论中有数以千计的微 理论,每个微理论都由一串断言构成。近来,c y c 本体论已经拥有了 2 0 万条术语,还有数以万计手工录入的、解释术语的断言。另外术 语合并的功能还可以自动生成数以百万计的非原子化术语。c y c 的目 标是要建成百万级数量的断言的本体论,并在此基础上,对自然语 言理解、学习、问题求解等人类智能活动的机理进行研究。心 ( 2 ) 领域本体论 领域本体论是对某个具体领域的知识和特性的描述,通用本体 论不可能穷尽所有知识,要想使信息检索尤其是某个专业领域的信 息检索达到较高的水准,就需要建立并合理地使用领域本体论心引。 例如对于医学信息检索,就必须在医学领域中对各种疾病的症状、 产生原因、治疗方法、治疗药物等具体内容及其关系进行形式化表 示,并能使计算机借此判定什么样的疾病有什么样的症状,什么样 的药物治疗什么样的疾病等。领域本体论的建立需要领域专家的协 助,因为做好这一工作需要对领域知识和相关业务有全面深刻的理 解,并抽象出隐含的共性和辨析细微的差别。 ( 3 ) 任务本体论 任务本体论用于描述具体任务的求解方法,如医学诊断方法、 知识检索方法等。任务本体论和领域本体论最大的不同在于,它描 述的是动态知识,主要是某一领域内专家的行为知识,阐明处理任 务的策略、方法和过程,帮助计算机自动实现任务目标的执行。任 务本体论提供了一个针对具体任务解决方法的共享基础,在任务本 体论中经常描述的要素包括:任务目标、任务数据、执行状态等。心印 虽然上述分类方法在知识工程和图书情报领域具有某种普遍意 义,但还存在别的分类方案。如根据本体论的推理功能强弱,本体 论可以分为轻量级本体论、中级本体论和重量级本体论三种类型凹 。 ( 1 ) 轻量级本体论不具备逻辑推理功能,例如叙词表和w o r d n e t 。 1 0 本体论在网络信息检索中的应用研究 不具备推理功能的本体论,即使涵盖的概念再多,充其量也不过是 词表扩展后的加强版。 ( 2 ) 中级本体论具有简单的逻辑推理功能,系统可以识别一阶 谓词逻辑的表达式。 ( 3 ) 重量级本体论具有复杂的逻辑推理功能,系统可以识别更 加复杂的二阶谓词逻辑的表达式,并为更加复杂的推理功能的实现 预留了接口,如c y c 本体论系统。 2 1 3 本体论的作用 从一般领域应用的角度来理解,本体论主要有以下作用: ( 1 ) 在人、机器( 表现为软件代理) 以及人与机器之间共享。对 于信息及结构的共同理解是本体论开发的一个最基本的目标。举例 说明,假设几个不同的w e b 站点包含医药信息或者提供医药电子商 务服务。如果这些站点之间共享和发布他们共同使用的术语的本体 论,那么计算机代理就可以从这些不同的站点中抽取并集合信息, 用这些集合的信息来回答用户的查询请求或作为其它应用的输入数 据。 ( 2 ) 可以复用专业领域知识。譬如,许多专业领域的模型均需 要描述有关时间的概念。这些描述中包含时间间隔、时间点( 时刻) 、 相关的时间测算等概念。如果某个研究组织开发出这样一个详细的 通用本体论,其他研究组织就可以轻而易举地将它复用到各自的专 业领域中去。而且,要构建一个大型的本体论,也可以将几个现成 的本体论进行集成。乜钉 ( 3 ) 对于领域知识进行分析、明确,并使其形式化。当要重用 现有本体论和扩展现有本体论时,对术语的形式化的分析就体现出 它的重要价值。心叼 ( 4 ) 将专业领域的知识从运筹学、知识管理的环境中剥离出来。 用户可以按照必须的规范说明和执行程序来实现检索和查询等相关 功能,而用户本身不必非是i t 专家不可。们 ( 5 ) 本体论可以明确领域假设,使领域公理得到明确描述从而 达成共识。通过本体论可以明确领域假设,这些领域知识的明确说 本体论在网络信息检索中的应用研究 明对于要了解该领域的新用户了解该领域中的术语非常有用。如果 关于领域的知识发生变化,通过本体论可以非常容易的改变关于该 领域的假设。如果关于领域的假设被隐藏到了程序语言代码中,则 这些假设非常难以发现和理解,更难修改,特别是对那些不懂程序 的人而言更是如此。 2 2 本体论的技术方法 本体论的技术方法,在本文中主要介绍本体论的建立原则、本 体论的表示语言以及本体论的开发工具。 2 2 1 本体论的建立原则 出于对各自学科领域和具体工程的不同考虑,构建本体论的过 程各不相同。目前尚没有一套标准的本体论构建方法可供参考。不 过一般认为,斯坦福大学的g r u b e r 在19 9 5 年提出的5 条规则是比 较具有借鉴意义的:b 纠 ( 1 ) 明确性和客观性:本体论必须有效地说明所定义术语的意 思。定义应该是客观的,与背景独立的。当定义可以用逻辑公理表 达时,它应该是形式化的。定义应该尽可能的完整。所有定义应该 用自然语言加以说明。 ( 2 ) 一致性:本体论应该是一致的,也就是说,它应该支持与 其定义相一致的推理。它所定义的公理以及用自然语言进行说明的 文档都应该具有一致性。 ( 3 ) 可扩展性:木体论应该为可预料到的任务提供概念基础。 它应该可以支持在已有的概念基础上定义新的术语,以满足特殊的 需求,而无须修改己有的概念定义。 ( 4 ) 编码偏好程度最小性:概念的描述不应该依赖于某一种特 殊的符号层的表示方法。因为实际的系统可能采用不同的知识表示 方法。 ( 5 ) 本体论约定最小性:对本体论的约定应该最小,只要能够 满足特定的知识共享需求即可。这可以通过定义约束最弱的公理以 及只定义通讯所需的词汇来保证。 1 2 本体论在网络信息检索中的应用研究 5 条原则给出了构造本体论的基本思路和框架,但是明显的不 足之处就是它们所反映的内容非常模糊且难于把握。后来,其他一 些研究人员给出了不少面向具体操作的补充原则,其中比较著名的 有如下3 个原则:口3 1 ( 1 ) 概念名称命名标准化。 ( 2 ) 概念层次多样化。 ( 3 ) 语义距离最小化。 其中,概念层次多样化的目的是增强多继承机制的能力;语义 距离最小化的意思是尽可能把含义相似的概念抽象出来,用相同的 术语来表示。 2 2 2 本体论的表示语言 本体论的表示语言,又称为本体论的标记语言、本体论的构建 语言。本体论的表示语言,应该具有如下的基本功能:( a ) 为本体论 的构建提供建模元语( m o d e lin gp r i m it iv e s ) 。( b ) 为本体论从自然 语言的表示格式转化成为机器可读的逻辑表达格式提供标引工具。 ( c ) 为本体论在不同系统之间的导入和输出提供标准的机读格式。( d ) 形式化语言表示,利用机器可读的形式化表示语言表示本体论,可 以直接被计算机存储、加工、利用,或在不同的系统之间进行互操 作。 本体论在知识表示、自然语言处理、信息检索中具有非常重要 的作用,而这些重要作用的实现都要借助于本体论的表示语言才能 实现。下面介绍几种重要的本体论表示语言: ( 1 ) l o o m l o o m 是由南加州大学i s i 研究所的人工智能研究小组开发的, 它是一种基于二阶谓词逻辑的高级编程语言,属于描述逻辑体系的 语言工具,现在己发展为p o w e r l o o m 语言。p o w e r l o o m 采用前后向链 式规则( b a c k w a r da n df o r w a r dc h a i n e r ) 作为推理机制。l o o m 的特 点是:( a ) 提供表达能力强的声明性的规范说明语言;( b ) 提供强大的 演绎推理能力;( c ) 提供多种编程风格和知识库服务。 l o o m 是目前定义较完备、功能较齐全的本体论表示语言,同时 1 3 本体论在网络信息检索中的应用研究 也是一种高级编程语言,但由于它是一种基于d l 的框架式语言,对 一般的用户而言不易掌握。钉 ( 2 ) c y c l c y c l 是c y c 系统的描述语言,是一种体系庞大而又非常灵活的 知识表示语言,它的语法源自于一阶谓词运算。它的特点是:( a ) 在 一阶谓词演算的基础上扩充了等价推理、缺省推理等功能:( b ) 具备 一些二阶谓词演算的能力;( c ) 其语言环境中配有功能很强的推理机 制。与其它表示语言不同的是,c y c l 拥有非常庞大而又具有灵活表 达能力的功能特征集。 c y c l 仅次于l o o m ,也是一种较好的本体论表示语言。它的缺点 在于它本身不是w e b 上的推荐标准,难以作为所有网络资源的标引 规范使用。但是c y c l 的学习与应用都较为便捷,普通用户可以通过 学习较快掌握该语言的语法结构,而且c y c l 的背后有超大容量的c y c 知识库,前台有良好的应用界面和推理引擎的支持,这使c y c l 具有 优越的应用背景。? 引 ( 3 ) o w l o w l 语言是由w 3 cw e b - o n t o lo g y 工作小组开发的,其目的是为 了提供一种可以面向各种应用的语言。o w l 促进了由x m l 、r d f ( s ) 支 持的w e b 内容在机器间的互操作性。o w l 拥有三种表达能力递增的子 语言:o w ll it e 、o w ld l 和o w lf u l l 。o w l 语言在推理功能的定义方 面稍逊于c y c l ,但由于本身是w 3 c 的推荐标准,又具有与多种本体 论语言的兼容性和交互性,其底层语法符合x m l 标准格式,所以在 对网络资源的语义标引和本体论构建方面具有广阔的应用前景。6 1 2 2 3 本体论的开发工具 为了方便本体论的开发和应用,许多组织和团体开发了各种类 型的本体论开发工具,涉及的范围包括本体论的建立、本体论的归 并和整合、本体论的存储和查询、本体论的推理和学习、不同本体 论语言和格式间的转换等。下面是几种比较著名的本体论开发工具: ( 1 ) p r o t e g e 一2 0 0 0 p r o t e g e - 2 0 0 0 7 1 工具由斯坦福大学设计开发,是集本体论编辑 1 4 本体论在网络信息检索中的应用研究 和知识库编辑为一体的开发工具。它提供图形界面和交互式的本体 论设计开发环境,本体论开发人员可以在需要时迅速访问相关的信 息,可以直接实施导航和管理本体论的操作。p r o t e g e 一2 0 0 0 体系结 构的最主要的优势就是它的开放的模块化的风格,基于组件的体系 结构使系统开发者可以通过生成恰当的插件来增加新的功能。 ( 2 ) o n t o e d it o n t o e d it 盯是由德国卡尔斯鲁厄大学开发的,它使用图形方法 支持本体论的开发和维护。该工具允许用户编辑概念和类的层次结 构。这些概念可以是抽象的也可以是具体的,这些概念指出是否可 以直接包含实例。该工具基于较大灵活性的插入式框架,可以实现 以组件化方式扩展工具的功能。提供插件集为用户提供了个性化的 工具应用,可以根据不同的用途场景个性化地调整工具。 ( 3 ) o n t 0 1i n g u a o n t o lin g u a 阳刚是美国斯坦福大学知识系统实验室( k s l ) 开发的 一个本体论开发环境。它是一个在线本体论服务器,提供本体论库、 语言转换器、本体论浏览器和编辑器等服务,远端用户通过w e b 浏 览器与o n t o l i n g u a 服务器交互,建立本体论的形式化定义或对已建 立的本体论进行修改和维护。o n t o lin g u a 是一个功能非常强大的本 体论开发环境,特别是它对本体论的维护、共享、合作开发等环节 的支持程度。 4 们 1 5 本体论在网络信息检索中的应用研究 第三章本体论在网络信息检索中的作用 本章针对本体论在目标文档的分析与语义标引、用户需求的分 析与实现以及用户兴趣模型的构建等三个方面的应用进行了深入的 分析与探讨,并分别提出了具体的应用策略和算法。通过对本体论 在这三方面的应用研究,揭示了本体论在实现智能化的网络信息检 索中的巨大作用。 3 1 本体论在文档分析与语义标引中的作用 语义标引是为网络上的各种资源及其组成部分标注概念类、概 念属性和其它元数据的过程。语义标引的方法目前主要有三类: ( 1 ) 人工标引。由专门人员确定标引资源适用的概念集,解析 资源内容结构,选择元数据元素,建立用r d f 或h t m l 语言标记的 语义数据。这一工作通常在一定的编辑器、概念集和标引过程知识 库支持下进行,是一个智力密集和劳动密集的过程,难以应对浩瀚 和不断变化的网络资源进行标引的需要。 ( 2 ) 利用领域d t d ( 文档类型定义) 和s c h e m a ( 文档模式) 进行概念映射和标引。由于s g m l x m l 文档的d t d 或s c h e m a 详细 定义文档内容结构和各内容元素,我们可以通过建立特定概念和特 定d t d s c h e m a 之间的映射关系,自动地将s g m l x m l 文档中的 d t d s c h e m a 内容元素标记转换为对应的概念元数据标记。但由于 d t d s c h e m a 的适用领域及其体系结构通常不协调或不兼容,难以实 现准确映射,所以还需要人工进行审查和修改。 ( 3 ) 利用词汇语义分析进行标引。自动词语抽取和分析技术已 较成熟,可在此基础上建立词语集合与概念类别之间的映射关系, 然后通过自动词语分析找出文档或文档片断的概念类别、甚至与其 它类别的语义关系,利用这些概念类别进行标引。该标引方法最好 限制在一定的应用领域和资源类型,而且也需要人工审查。h 妇 下面给出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论