(计算机应用技术专业论文)基于本体的知识检索系统研究与实现.pdf_第1页
(计算机应用技术专业论文)基于本体的知识检索系统研究与实现.pdf_第2页
(计算机应用技术专业论文)基于本体的知识检索系统研究与实现.pdf_第3页
(计算机应用技术专业论文)基于本体的知识检索系统研究与实现.pdf_第4页
(计算机应用技术专业论文)基于本体的知识检索系统研究与实现.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的知识检索系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体的知识检索系统研究与实现 手两要 随着社会经济的飞速发展,企业面对的竞争日益激烈。企业加强各种因素的 管理,为的是提高企业自身的应变能力和竞争实力。在企业的各项因素中,企业 文档越来越被人们重视,企业文档在企业中的地位越来越重要,它是整个企业知 识的精华、积淀,对于企业人员之间相互学习,相互交流起着举足轻重的作用。 然而,人们面对杂乱无章的企业文档无所适从,不知怎样才能获得自己想要的信 息。因此信息检索技术就显得尤为重要,它也是现在企业提高竞争力的必由之路。 但是目前的检索技术大都是基于字符串匹配的关键字检索技术,这种检索技术缺 乏语义推理能力,对用户的查询请求也没有提供语义制导,因此会造成信息的误 检、漏检。因此如何提高信息的检索质量成为目前信息检索、数据挖掘和知识管 理等研究领域的重要课题。 本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已 被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语 义w e b 等领域之中,把本体融合到传统信息检索技术中去,不仅可以继承概念 信息检索的优点,还可以克服概念信息检索不能对概念关系进行处理的局限性。 虽然目前有关本体论的研究还处在雏形阶段,没有统一的标准和固定的应用领 域,但是本体在语义网中的应用研究必将成为热点,基于本体的知识检索也必将 引起重视。 本文在总结信息检索技术和信息检索研究现状的基础上,首先研究了本体的 相关概念和相关支撑技术,如本体的分类、本体的构建方法、构建工具;然后着 重研究了基于本体的知识检索的本体描述语言o w l ,详细介绍了o w l 描述语 言的结构和语法,特别探讨了本体的内涵和外延及其在基于本体的检索系统中所 起到的作用。最后研究了惠普实验室开发的语义应用系统开发工具j e n a 以及基 于本体的检索语言s p a r q l 在实现基于本体的检索系统中的作用,并选择企业 文档知识检索系统作为知识检索技术的应用对象,构建企业文档的领域本体,并 在此基础上构建一个实验检索系统,用于证明构建于本体上的检索方法在查全率 和查准率上都比传统的检索系统高。 关键词:o n t o l o g y ;信息检索;知识检索;j e n a ; 企业文档知识检索 r e s e a r c ha n di m p l e m e n to fk n o w l e d g er e t r i e v a ls y s t e mb a s e d o no n t o l o g y a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o ft h e e c n o m i c i t y , e n t e r p r i s e f a c e sf i e r c e r c o m p e t i t i v ee n v i r o n m e n t i no r d e rt op r o m o t et h e r eo w nr e s p o n s i v ea b i l i t i e sa n d c o m p e t i t i v ep o w e r , e r t e r p r i s en e e dt os t r e n g t h e nt h e i rm a n a g e m e n t i nt h ee n t e r p r i s e o ft h ev a r i o u sf a c t o r s ,m o r ea n dm o r ep e o p l ea t t a c ht h ei m p o r t a n c eo fc o m p a n i e s k n o w l e d g e ;b u s i n e s sd o c u m e n t sp l a ym o r ea n dm o r ei m p o r t a n tp o s i t i o ni n t h e e n t e r p r i s e b u s i n e s sd o c u m e n t sa l et h ee s s e n c eo ft h ew h o l ee n t e r p r i s ek n o w l e d g e , a c c u m u l a t i o n ,m u t u a ll e a r n i n gb e t w e e ne n t e r p r i s e s ,e x c h a n g e sp l a yad e c i s i v er o l e h o w e v e r , i ti st h ef a c eo fc o r p o r a t ed o c u m e n t sc h a o t i cc o n f u s i o n ,w ed on o tk n o w h o wt oa c c e s st h ei n f o r m a t i o nt h e yw a n t t h e r e f o r ei n f o r m a t i o nr e t r i e v a lt e c h n o l o g y i sp a r t i c u l a r l yi m p o r t a n t ;i ti st h eo n l yw a yt oi m p r o v ec o m p e t i t i v e n e s so fb u s i n e s s b u tt h er e t r i e v a lt e c h n o l o g ya r el a r g e l yb a s e do ns t r i n gm a t c d a j n gk e y w o r ds e a r c h t e c h n o l o g y ,a n dt h el a c ko fs e m a n t i cr e t r i e v a lt e c h n o l o g ys u c hr e a s o n i n ga b i l i t yo ft h e u s e r sr e q u e s td i dn o tp r o v i d ef o rs e m a n t i cg u i d a n c e ,r e s u l t i n gi nt h em i s u s eo f i n f o r m a t i o ns e i z e d ,m i s s e d s oh o wt oi m p r o v et h eq u a l i t yo fi n f o r m a t i o nr e t r i e v a l b e c o m ei n f o r m a t i o nr e t r i e v a l ,d a t am i n i n ga n dk n o w l e d g em a n a g e m e n tr e s e a r c hi n t h ef i e l do fi m p o r t a n ti s s u e s o n t o l o g ya st h en e wc o n c e p t t od e s c r i b et h es e m a n t i ch i e r a r c h yo fk n o w l e d g e h a sb e e nw i d e l yu s e di nd i f f e r e n tf i e l d s t h ei n f o r m a t i o nr e t r i e v a lm e t h o d sc o m b i n e d w i t ho n t o l o g yc a nn o to n l ye m p h a s i z et h ea d v a n t a g e so fk n o w l e d g e - b a s e dr e t r i e v a l b u ta l s od e a lw i t ht h er e l a t i o n s h i p sb e t w e e nt h ev a r i o u sc o n c e p t s t h o u g ht h e r e s e a r c ho fo n t o l o g yi sj u s ta tt h eb e g i n n i n g , t h ea p p l i c a t i o no fo n t o l o g yi n i n f o r m a t i o nr e t r i e v a la n ds e m a n t i cw e bw i l lb et h ef o c u si nt h i sf i e l d t h ep r o p o s a la n dd e v e l o p m e n to fk n o w l e d g er e t r i e v a lb a s e do no n t o l o g yi sa n e wi n s p i r a t i o n o nt h eb a s eo fs u m m a r i z i n gt h e nc u r r e n tc o n d i t i o no fi n f o r m a t i o n r e t r i e v a ls t u d i e s ,t h i se s s a yc o n c e r t r a t e so no n t o l o g ya n do n t o l o g yl a n g u a g e o w l , w h i l es t r e s s i n go nt h ec o n n o t a t i o na n de x t e n s i o no fo n t o l o g y , a sw e l la si t sf u n c t i o ni n t h es e m a n t i cr e t r i e v a ls y s t e m b e s i d e s ,t h ee s s a ye l a b o r a t e st h es t r u c t u r ea n d , g r a m m a r o fo w l ,f u r t h e rm o r e ,i ta l s od e m o n s t r a t e st h ef u n c t i o n so ft h e s e m a n t i c - w e b - d e v e l o p i n gs o f t w a r e - j e n aw h i c hw a sd e v e l o p e db yh pa n dw e b o n t o l o g yl a n g u a g e s p a r q li n c u r r e n ts e m a n t i cr e t r i e v a ls y s t e m i tc h o o s e s e n t e r p r i s ed o c u m e n tk n o w l e d g er e t r i e v a ls y s t e ma so b j e c t ,t ow h i c ht h es e m a n t i c s e a r c hi sa p p l i e d b yb u i l d i n gt h ed o m a i no n t o l o g ya n db u i l d i n ga l le x p e r i m e n t a l r e t r i e v a ls y s t e m ,i t st op r o v et h eq u a l i t a t i v ei n c r e a s eo ft h ep r e c i s i o nr a t i oa n dr e c a l l rati0 0fretrievameth0dandt001 bui1d0n o nt010 gy k e y w o r d s :o n t o l o g y ;i n f o r m a t i o nw e b ;k n o w l e d g er e t r i e v a l ;j e n a ;d o c u m e n t r e t r i e v a ls y s t e m 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含未获得( 洼! 垫遗查基 丝嚣薹签别直盟鲍:奎拦亘窒2 或其他教育机构的学位或证书使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名五莉 签字日期:埭6 月2 e l 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论 文收录到中国学位论文全文数据库,并通过网络向社会公众提供信息服务。( 保密 的学位论文在解密后适用本授权书) 学位论文作者签名:王春9 洳 导师签字:设廿 l 签字日期:2 舻艿月z 日签字日期钞衫年莎月o 基于本体的知识检索系统研究与实现 1 绪论 随着经济的发展,信息的发展极其迅速,人们对信息的需求也愈加强烈。互 联网的出现为信息的传播带来了新的契机。伴随着互联网的普及和应用,网络信 息以不同的形式提供各种有用的知识,人们通过网络检索工具获取各自需要的知 识。如今用户从因特网上获取信息一般都是通过搜索引擎来进行的。然而使用传 统的搜索引擎,用户要精确地找到所需要的信息往往十分困难,这主要有以下几 个方面的原因【1 】:第一,系统对用户的提问理解不够准确,导致返回结果中含有 很多噪声,用户不能够很容易地找到自己所需要的信息;第二,系统对信息内容 的处理大多采用基于某种编码过程的预处理技术或某种全文分析技术,仅仅反映 内容的一个侧面,导致检索结果全面性下降;第三,由于用户提出的问题与信息 源的内容完全一致的可能性较小,难以保证内容与用户问题的正确匹配,准确率 很低。要提高现有检索系统的精度,就需要解决上述几个问题。于是设计一个基 于语义层面的信息组织及其表示、合理的信息检索系统成为倍受关注的问题。 本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自 被提出以来就引起了国内外众多科研人员的关注。o n t o l o g y 是对概念化的明确 描述,它把现实世界中的某个应用领域抽象成一组概念及概念间的关系。将 o n t o l o g y 融合到传统信息检索技术中,不仅可以继承概念检索的优点,还可以 克服概念信息检索不能对概念进行处理的局限【2 】。 1 1 课题国内外研究现状 近年来,基于本体论的信息检索已经在国内外学术界和企业界中引起了广 泛的关注。本体( o n t o l o g y ) 是近年来计算机及相关领域普遍关注的一个研究热 点,作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广 泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义 w e b 等领域之中。2 0 世纪9 0 年代以来,研究人员从各自的专业角度出发对本体 的理论和应用进行了深入研究,取得了丰富的研究成果。 国内外大量学者都在此领域进行了各种研究,大致可分为以下几个方面: 1 ) 基于本体的检索实验系统研究。对于基于本体的检索试验系统进行了大 基于本体的知识检索系统研究与实现 量的研究,产生了不少相应的检索系统。如巴西学者r e g i n a 等研制了一个检索 代理系统,能够提供多领域的信息入口,该系统的核心是运用了领域本体和用 户兴趣进化模型。本体应用在信息检索中的著名项目有( o n t o ) a g e n t l 3 、 o n t o b r o k e r 4 】和s k c 熨。( o n t o ) a g e n t 的目的是为了帮助用户检索到所需要的w e b 上已有的o n t o l o g y ,主要采用了参照o n t o l o g y ,参照o n t o l o g y 是以w e b 上已有 的o n t o l o g y 为对象建立起来的,它保存有各类o n t o l o g y 的元数据,( o n t o ) a g e n t 的目的是帮助用户检索网上已有的本体,主要采用了参照本体,利用它保存网上 现有本体的元数据;o n t o b r o k e r 面向的是w e b 上的网页资源,目的是为用户检 索到所需要的网页,它是德国卡尔斯鲁厄大学应用信息学与形式描述方法学院 ( a 口b ) 的一个研究项目,该项目建立了一个用来处理h t m l 、x m l 和r d f 格式 的信息源和信息源语义描述的系统,其核心是用形式化本体描述背景知识,并明 确网页的语义,以便综合利用本体的表达能力和推理机制。s k c 的目标是解决 信息系统语义异构的问题,实现异构自治系统之间的互操作,该项目希望通过在 o n t o l o g y 上建立一个代数系统,用这个代数系统来实现各o n t o l o g y 之间的互操 作,从而实现异构系统之间的互操作。 基于本体的检索方法研究。如v i p u l 讨论了一种用于信息检索的本体构建 方法。美国学者通过在检索过程中构建用户行为本体来对检索结果进行排序;德 国学者n e n a d 和l j i l j a n a 提出了一种在基于本体的信息检索系统中使用基于逻辑 的优化检索方法;韩国学者s a n go kk o o 等提出了一种半自动的本体生成方法, 可用于信息检索的索引文件;德国学者t o r s t e n 等提出了一种用于联机分析处理 和信息检索的基于本体的集成方法等等 6 1 。 3 ) 基于本体的检索评价研究。如斯洛伐克的学者j a n 和i v a n 在同一个文本 集中将全文检索方法( 向量空间模型) 、潜在语义索引方法( l i s ) 和基于本体的方法 进行对比研究。 由欧洲信息社会技术( e u i s t ) 支持的o n t ow e b ( o n t o l o g y - b a s e di n f o r m a t i o n e x c h a n g ef o rk n o w l e d g em a n a g e m e n ta n de l e c t r o n i cc o m m e r c e ,知识管理和电子 商务领域中基于本体的信息交换) 项目组的比奇霍弗( s b e c h h o f e r ) 等人在分析了 本体设计目标和应用实例的基础上,提出本体语言应具备 7 1 :明确本体的外延; 必须为每一个本体提供元数据;本体语言应包含类定义原语;本体语言应包含属 2 基于本体的知识检索系统研究与实现 性定义原语;说明类与性质之间的等价关系;对特殊的等价关系的说明;特定领 域的公理与假设;必须给出类实例;集的势约束;支持字符模型等2 0 个方面的 条件。 国外很多相关机构已经尝试将本体应用于信息检索、自动分类、信息集成、 数字图书馆的智能导航、信息过滤等,但基本处于实验或小范围的验证阶段,目 前这些技术都还不成熟,相关机构的专家也在努力研究新的技术期待新的发展。 与国外相比,国内无论是在理论研究、实证研究,还是在技术手段的实现和 应用方面都相对落后,与国外高水平的研究相比存在很大差距。尽管如此,国内 有关学者在基于本体的检索系统方面也进行了大量研究。主要研究内容包括信息 检索【8 1 、产品信息建模、虚拟企业建模、常识知识库等方面。如中国科学院计算 技术研究所大规模知识系统的研究【9 1 、中国科学院数学研究所常识知识库的研究 【埘、浙江大学人工智能研究所基于o n t o l o g y 论的产品信息集成研究等【1 1 1 。 综观国内外的研究状况,可以发现:迄今为止,国外的本体理论研究日趋成 熟,理论体系正在逐步完善。国内的研究水平相对滞后,大量文章仍停留在翻译, 综述国外研究的水平上,具有独立创新性的研究少之又少。 综上所述,本体在信息检索中的应用具有如下特点【1 2 】: a 基于本体的信息检索的构建一般都是通过人工提取的,这使得在信息检索 中,本体的应用不能大规模展开,因此需要开发出自动或半自动的本体学习工具; b 基于本体的检索系统一般规模较小,都是利用某一领域的领域本体来检索 特定领域的信息,系统停留在实验原型阶段,能够商业化推广应用的系统较少。 c 本体在信息检索中的应用,例如基于本体的“概念检索”、“语义检索”、 “知识检索、“个性化检索 、“内容检索、“自然语言检索”等,虽然形式不同, 但本质都是希望利用本体来解决语义理解的问题。 目前存在的问题归纳起来有以下几点: a 截止到现在,国内还没有基于本体检索系统投入运行和使用的报道。 b 国内外的相关机构在本体研究的深度上相差不大,但是在本体研究的普遍 性上则相差很大。 c 本体构建的技术与基于本体的检索技术不能很好的整合,存在脱节问题。 d 再构建基于本体的检索系统中,基于本体的语义标引仍然是一个瓶颈。 3 基于本体的知识检索系统研究与实现 e 已有的相关本体系统也是基于特定领域的本体系统,没有很好的通用的本 体系统,并且领域本体的规模也较小。 1 2 课题研究目的及内容 1 2 1 研究目的 在信息检索领域,面对信息资源日新月异的增长,如何有效组织复杂的海 量信息,提供高效信息服务,成为各界迫切需要解决的难题。当前,信息检索技 术主要基于关键字匹配或其扩展,难以保证较好的查准率和查全率。传统的搜索 引擎并不能对用户输入的检索式进行语义分析和语义扩展,同时也缺乏对w e b 信 息的推理能力和理解能力。然而,本体( o n t o l o g y ) 作为一种能在语义和知识层 次上描述概念体系的有效工具,在信息检索领域也得到了相当广泛的关注。基于 本体论的检索系统在这种检索的智能化过程中,扮演了一个十分重要的角色。借 助本体论,使检索系统能对检索请求和网络信息源进行深层次的语义分析,实现 基于语义理解的网络信息检索。本文就对基于本体的信息检索进行研究,研究本 体的基本理论知识和基于本体的信息检索的关键技术,来解决传统信息检索存在 的问题,以提高信息检索的质量和效率。 1 2 2 研究内容 本文主要作了以下几方面的工作: 本文首先概述了本文的研究背景和目的,对信息检索技术、本体在信息检索 系统的应用及现状进行了研究。 本文综合研究了o n t o l o g y 的概念、分类、描述语言、构建方法、构建工具, 并重点分析了o w l 语言的三个子语言及其语言成分。 本文研究了基于本体的知识检索用到的关键技术,主要包括:领域本体的构 建方法、本体的存储方式,重点论述了j e n a 在基于本体的检索中的作用及应 用。 在深入研究了基于本体的知识检索系统的关键技术之后,提出了基于本体的 企业文档知识检索系统模型,阐述了系统的实现思路和系统结构,并详细阐 述了基于本体的企业文档知识检索系统的关键技术的具体实现。 4 基于本体的知识检索系统研究与实现 本文设计实现了基于本体的企业文档知识检索系统。该系统提供面向企业文 档的检索服务,检索方式灵活多样,能够对用户提供语义制导,有较强的推 理能力。 1 3 论文的结构 本文由5 章组成: 第1 章绪论。对当前基于本体的信息检索技术进行了总结,指出了当前信 息检索技术存在的缺点和不足,在此基础上分析了课题产生的背 景、研究现状、研究目的和内容。 第2 章基于本体的知识检索理论基础。介绍了信息检索的相关知识,并研 究了o n t o l o g y 的概念、分类、应用、描述语言、创建方法各个方面, 作为本文后续研究的基础。本章还分析了o w l 语义表达能力,最 后介绍了o n t o l o g y 与语义w e b 的关系。 第3 章基于本体的知识检索技术。探讨了基于本体的知识检索系统的关键 技术,包括领域本体的构建方法、领域本体的村纯技术、j e n a 基于 本体的知识检索中的重要作用和语义检索策略。 第4 章基于本体的知识检索系统的设计。开发了基于本体的企业文档知识 检索系统。分析了系统的设计思想、系统结构、开发环境,详细介 绍了系统的开发过程和具体技术的实现。 第5 章总结与展望。总结了全文,说明下一步的研究方向。 5 基于本体的知识检索系统研究与实现 2 基于本体的知识检索理论基础 ; 目前的信息数量以指数级增长,但是信息描述及其模糊,更严重的是人与计 算机系统之间的通讯从语法或者语义上缺乏一个标准。因此,人们很急迫的研究 新的信息检索技术,基于本体的信息检索应运而生。本体作为一个形式化、显示 的共享概念化的规范,提供了一个好的方法,至少在某种程度上解决了这个向题。 2 1 信息检索概述 信息检索起源于图书馆的参考咨询和文摘索引工作。在信息处理技术、通讯 技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高 速发展,得到了广泛的应用。 2 1 1 信息检索 信息检索( i n f o r m a t i o nr e t r i e v a l ,简称瓜) 就是信息用户为处理解决各种问 题而查找、识别、获取相关的事实、数据、知识的活动及过程,包括信息的组织、 存储、表现、查询、存取等各个方面。作为人类社会活动必不可少的一部分,信 息检索有着悠久的历史,而随着信息社会的到来,其重要地位日益突出。从发展 阶段上来看【1 3 - 1 4 1 ,信息检索经历了手工检索、计算机检索到目前网络化、智能化 检索等多个阶段。目前,信息检索已经发展到网络化的阶段。信息检索的对象从 相对封闭、稳定一致、有独立数据库集中管理的信息内容扩展到开放、动态、更 新快、分布广泛、管理松散的w e b 内容;信息检索的用户也由原来的专业情报 人员扩展到包括在企业、政府、教师、学生各个领域的普通人员。 2 1 2 信息检索分类 根据d a v i dl e w i s 和k a r e ns p a r c kj o n e s 的观点,目前的知识管理结构中,信 息检索可以分为以下三个领域【1 5 】:数据检索( d a t ar e t r i e v a l ) 、全文检索 ( t e x t r e t r i e v a l ) 和知识检索( k n o w l e d g e r e t r i e v a l ) 。 数据检索 主要针对结构化信息系统,查询要求和数据都遵循一定的格式,具有一定的 结构,往往对应系统设计者建立的一系列属性的值。数据检索允许对特定的字段 6 基于本体的知识检索系统研究与实现 检索,例如:检索技术= “本体。比较有代表性的是各种商业数据库【1 6 】。数据检 索依赖于编码的质量,检索花费大,检出的信息相对准确,但容易漏检相关的数 据,并且数据检索的性能取决于所使用的字段标识方法和用户对这种方法的理 解,具有很大的局限性。数据检索支持语义匹配的能力也较差【1 7 1 ,当然这里数据 所指的范围比传统分类法中的要广,它既包括文字信息、。数值信息,也包括事实 检索的对象【1 8 】。 全文检索 全文检索把用户的查询请求以关键词的形式与全文中的每一个词进行比较, 而不考虑查询请求与文档语义上的匹配。这种检索方式主要基于词频分析技术。 比较有代表性的是g o o g l e 和百度。这种方式因为只是针对文本的匹配,检出信 息量大、不需人工干预,缺点是返回信息过多,有很多无关信息,用户面对一大 堆结果往往无所适从,必须从结果中进行筛选。 知识检索 知识检索是指在知识组织的基础上,从知识库中检索出知识的过程,是一种 基于知识组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。知 识检索具有两个显著特征,一是基于某种具有语义模型的知识组织体系,知识组 织体系是实现知识检索的前提与基础,知识检索则是基于知识组织体系的结果; 二是对资源对象进行基于元数据的语义标注,元数据是知识组织系统的语义基 础,只有经过元数据描述与标注的资源才具有长期利用的价值。以知识组织体系 为基础,并以此对资源进行语义标注,才能实现知识检索。 知识检索模型集成各类知识对象和信息对象,融合智能与非智能理论、方法 与技术,实现知识检索,例如基于知识结构的检索、基于知识内容的检索、基于 专家启发式的知识检索、基于知识导航的智能浏览检索和分布式多维检索【1 9 1 。知 识检索系统中,除提供关键词实现主题检索外,还结合自然语言处理和知识表示 语言,表示各种结构化、半结构化和非结构化信息,提供多途径和多功能的检索。 自然语言,也就是人们日常使用的各种通俗语言,自然语言处理技术是提高检索 效率的有效途径之一。从实用性的角度来说,我们所需要的是计算机能实现基本 的人机会话、寓意理解或自动文摘等语言处理功能,还需要使用汉语分词技术、 短语分词技术、同义词处理技术等【刎。 7 基于本体的知识检索系统研究与实现 知识检索是基于“知识 的搜索,即利用机器学习、人工智能等模拟或扩展 人的认识思维,提高信息内容的相关性。知识检索具有明显的优势:检索机制和 界面的设计均体现“面向用户的思想,即用户可以根据自己的需求及其变化, 灵活地选择理想的检索策略与技术;知识检索能主动学习用户的知识,主动向用 户提供个性化的服务;综合应用各种分析、处理和智能技术,既能满足用户的现 实信息需求,又能向用户提供潜在内容知识,全面提高检索效率。 2 2 本体的定义 本体论( o n t o l o g y ) 最早是一个哲学上的概念。从哲学的范畴来说,o n t o l o g y 是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。在人工智 能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们将o n t o l o g y 定义为“给出 构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 词汇外延的规则的定义”【2 1 】。1 9 9 3 年,g m b e 给出了o n t o l o g y 的一个最为流行 的定义【捌,即“o n t o l o g y 是概念模型的明确的规范说明 。后来,b o r s t 在此基础 上,给出了o n t o l o g y 的另外一种定义f 2 3 】:o n t o l o g y 是共享概念模型的形式化规 范说明。s t u d e r 等对上述两个定义进行了深入的研究,认为o n t o l o g y 是共享概念 模型的明确的形式化规范说明。这包含4 层含义【刎:概念模型( c o n e p t u a l i z a t i o n ) 、 明确( e x p l i c i t ) 、形式化( f o 皿a 1 ) 和共享( s h a r e ) 。 1 ) 概念模型:指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念 而得到的模型。概念模型所表现的含义独立于具体的环境状态。 2 ) 明确:指所使用的概念及使用这些概念的约束都有明确的定义。 3 ) 形式化:指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。 4 ) 共享:指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公 认的概念集,即o n t o l o g y 针对的是团体而非个体的共识。 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确 定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系的明确定义【2 5 1 。 p e r e z 等人认为本体可以按分类法来组织,并归纳出本体的五个基本构成元 素:类( c l a s s e s ) ,关系( r e l a t i o n s ) ,函数( f u n c t i o n s ) ,公理( a x i o m s ) 和实例( i i l s t a n c e s ) 2 6 1 。 8 基于本体的知识检索系统研究与实现 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 概念的含义很广泛,可以指任何事务,如工作描述、功能、行为、策略和推 理过程等等。从语义上讲,它表示的是对象的集合,其定义一般采用框架( f r a m e ) 结构,包括概念的名称,与其它概念之间的关系的集合,以及用自然语言对概念 的描述。 2 ) 关系( r e l a t i o n s ) 关系代表了在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子 集:尺:c 1 c 2x g 。如子类关系( s u b c l a s s o f ) 。在语义上关系对应于对象元组 的集合。 3 ) 函数( f u n c t i o n s ) 函数是一类特殊的关系,关系的前n 1 个元素可以唯一决定第n 个元素,形 式化的定义为f :c 1x c 2 x c n 一1 _ q 。如m o t h e r - o f 就是一个函数,m o t h e r - o f ( x , y ) 表示y 是x 的母亲。 4 ) 公理( a x i o m s ) 公理代表永真断言。 5 ) 实例( i n s t a n c e s ) 实例是代表元素。从语义上讲实例表示的就是对象。 从语义上分析,本体中基本的关系有四种( 参见表2 - 1 ) 表2 - 1 本体中的基本关系 关系名 关系描述 p a r t - o f 表达概念之间部分与整体的关系 k i n d - o f表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系 i n s t a n c e - o f 表达概念的实例与概念之间的关系,类似于面向对象中的对象和类之间的 关系 a t t r i b u t e - o f 表达某个概念是另一个概念的属性,”姓名”是人的一个属性 在实际应用中,不一定要严格按照p e r e z 等人提出的五个基本元素来构造本 体,同时概念之间的关系也不仅限于p a r t o f 、k i n d o f 、i n s t a n c e - o f 和a t t r i b u t e o f 这四种基本关系,可以根据领域的具体情况定义相应的术语及关系,以满足应用 的需要。 9 基于本体的知识检索系统研究与实现 2 3o n t o l o g y 的分类 针对目前出现的各种各样的本体,依据不同的分类标准,可以将本体分为不 同的类【明。 2 3 1 依照领域依赖程度 顶层( t o p - l e v e l ) 本体:描述的是最普通的概念及概念之间的关系,如 空间、时间、事件、行为等等,完全独立于特定的问题和领域,其他种 类的本体都是该类本体的特例。 领域( d o m a i n ) 本体:描述的是特定领域如医药、汽车等中的概念及概 念之间的关系。 任务( t a s k ) 本体:描述的是特定任务或行为中的概念及概念之间的关 系,如诊断等。 应用( a p p l i c a t i o n ) 本体:描述的是依赖于特定领域和任务的概念及概念之 间的关系。 在g u a r i n o 给出的这个分类当中j 领域本体和任务本体是处于同一个研究 和开发层次的,它们都可以应用顶层本体中定义的词汇来描述自己的词汇。应用 本体既可以应用领域本体中的概念,也能引用任务本体中的词汇。 2 3 2 依照细化程度 g u a r i n o 从两种不同的维度作为对进行划分。除了上面提到的依据对领域的 依赖程度划分,还提出了以详细程度来划分。细化程度是相对的、较模糊的一个 概念,指描述或刻画建模对象的程度。 参考本体详细程度高。 共享本体详细程度低。 2 3 3 依照形式化程度 高度非形式化:用自然语言松散表示,如自然语言版的e n t e r p r i s e o n t o l o g y 。 结构非形式化:用限制的结构化的自然语言表示,如文本形式的e n t e r p r i s e o n t o l o g y 。 1 n 基于本体的知识检索系统研究与实现 半形式化:形式化人工定义的语言表示,如采用o n t o l i n g u a 的e n t e r p r i s e o n t o l o g y 。 严格形式化:所有术语都具有形式化的语义,能在某种程度上证明完全 性和合理性。如多伦多大学的企业本体。 除了上述几种分类方法外,1 9 9 9 年,p c r c z 和b e n j a m i n s 在分析和研究了各 种本体分类法的基础上,归纳出1 0 种本体:知识表示本体、常识本体、顶级本 体、元( 核心) 本体、领域本体、语言本体、任务本体、领域一任务本体、方法 本体和应用本体嘲。这种分类法是对g u a r i n o 提出的分类方法的扩充和细化,但 是这1 0 种本体之间有交叉,层次不够清晰。 2 4o n t o i o g y 的描述语言 2 4 1o n t o l o g y 描述语言概述 本体中的概念主要是为机器服务,机器并不能像人类一样理解自然语言中表 达的语义,目前的计算机也只能把文本看成字符串进行处理。因此,在计算机领 域讨论本体,就要讨论如何实现本体的具体表示,也就是概念的形式化问题。在 具体的应用中,本体的表示方式可以多种多样,主要可分为四大类【2 9 】:非形式化、 半非形式化、半形式化、形式化语言。本体可以用自然语言来描述,也可以用框 架、语义网络或逻辑语言等来描述。 本体语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该 满足以下要求: 良好定义的语法( aw e l l d e f i n e ds y n t a x ) 良好定义的语义( aw e l l d e f i n e ds e m a n t i c s ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 充分的表达能力( e f f i c i e n te x p r e s s i v ep o w e r ) 表达的方便性( c o n v i e n c eo fe x p r e s s i o n ) 本体语言不仅要有描述能力,同时也应具备推理能力,因此它一般都是基于 某种逻辑语言的,目前开发的本体语言主要是基于一阶逻辑和描述逻辑的。一阶 逻辑是一种形式语言系统,研究的是假设与结论之间的蕴含关系,即用逻辑的方 法研究推理的规律。它可以看作是自然语言的- 二种简化形式。由于其精确、无二 基于本体的知识检索系统研究与实现 义性,所以容易被计算机理解并进行处理,同时又与自然语言相似,具有很强的 表达能力,因此一阶谓词逻辑系统可以用来表示人类的某些知识。但是一阶逻辑 作为一种形式语言,还远远不能表示人类自然语言所能表达的全部知识【3 0 1 。用一 阶逻辑表达某一领域有关问题的知识,实际上就是如何用一阶逻辑对自然语言命 题进行符号化的问题。首先要将一个原子命题分解为个体词和谓词两个部分,接 着找出原子命题中所包含的量词与谓词的关系。目前开发的基于一阶逻辑的本体 语言主要有:c y c l ,o n t o l i n g u a 和l o o m 。 描述逻辑是一种基于对象的知识表示的形式化,也叫概念表示语言或术语逻 辑。它建立在概念和关系之上,其中概念解释为对象的集合,关系解释为对象之 间的二元关系。描述逻辑是一阶逻辑的一个可判定的子集,具有合适定义的语义, 并且具有很强的表达能力。一般地,描述逻辑依据提供的构造算子,在简单的概 念和关系上构造出复杂的概念和关系。在这种最基本的描述逻辑的基础上再添加 不同的构造算子,则构成不同表达能力的描述逻辑 3 1 1 。与一阶谓词逻辑不同的是, 描述逻辑系统能提供可判定的推理服务,它保证推理算法总能停止,并返回正确 的结果。一阶逻辑虽然具有很强的表达能力,但其推理过程复杂,不利于本体的 检验;而描述逻辑的推理复杂度可知,更适用于本体检验。并且描述逻辑的语法 容易转换成x m l r d f 形式,因此基于描述逻辑的本体模型更适合于网络环境下 的概念建模与知识共享。目前开发的基于一阶逻辑的本体描述语言都未能在描述 资源方面得到广泛的应用。而描述逻辑有着精确的数学基础,支持较强的推理能 力,更适合于网络环境下大量知识的描述和推理。 2 4 2 基于描述逻辑的本体描述语言伽l 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言【3 2 1 ,例如: s h o e 3 3 1 、r d f l 3 4 和r d f s 、o i “3 5 1 、d a m l 3 6 1 、o w l l 3 7 3 8 1o n t o l i n g u a 、l o o m 等。 他们当中有基于一阶逻辑的,也有基于描述逻辑的;有基于h t m l 的,也有基 于x m l 的;有与具体系统相关的,也有与w e b 相关的。对于w e b 上的应用程 序而言,需要一个通用的功能强大的标准语言来表示o n t o l o g y ,以避免在不同规 格的描述语言之间的转换。o w l 是万维网联盟( w 3 c ) 与语义w e b 相关的系 列规范的一部分,是w 3 c 推荐的语义网络“栈”中的一部分,这个“栈”的描述如 下【3 9 】: 1 2 基于本体的知识检索系统研究与实现 x m l :结构化文档的表层语法,对文档没有任何语义约束 x m l s c h e m a :定义x m l 文档的结构约束的语言。 r d f :对象( 或者资源) 以及它们之间关系的数据模型,为数据模型提 供了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论