




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的智能信息检索.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 摘要 随着网络技术的发展和信息量的激增,信息检索越来越受到人们的关注。而 传统的信息检索大多集中在关键字匹配方面,对其语义的处理涉及的不多。因此 虽然有较高查全率,但查准率却不高。 与传统信息检索相比,智能信息检索的最大特点就是在检索过程中引入了资 源对象的语义处理。在信息检索过程中引入本体为实现语义推理提供了必要的基 础条件。作为领域知识概念化的系统描述,领域本体定义了领域中的概念术语, 描述了概念间的关系,提供了语义推理所需的逻辑规则,能够让计算机识别和理 解领域本体的结构和元数据信息,并根据相关的逻辑规则获取信息库中显性或隐 性的知识。本文在现有信息检索理论的基础上,将领域本体作为语义处理的基础, 并结合用户相关反馈的思想,从不同层次研究了本体在智能信息检索中的应用, 开展了如下三个方面的工作: 1 提出了一种新的智能信息检索模型。它主要由知识库、查询语义扩展和 概念层次过滤三个模块组成。把本体理论通过本文提出的模型应用到信息检索 中,使得在一定程度上解决目前信息检索中语义的处理不足的问题成为可能。 2 提出一种新的领域本体建模方法。在现有的领域本体构建模式的基础 上,通过借鉴其他领域本体的建立模式,提出了一种新的领域本体建模方法用于 构建本文系统的本体知识库。该方法具有很强的逻辑性和可操作性。 3 提出了一种新的查询扩展算法。针对目前信息检索在查询扩展方面的不 足,本文提出了一种新的查询扩展方法。该方法是一种混合查询技术,它结合了 本体理论和用户相关反馈技术。本文以中国科学院计算机技术研究所开发的 f i r t e x 为实验平台,将新算法与基于余弦相似性的查询扩展算法进行比较,实验 表明,新算法更胜一筹。 关键词:本体;领域本体;智能信息检索;查询扩展;搜索引擎;知识表示; 知识库 基于本体的智能信息检索 a bs t r a c t w i t ht h e d e v e l o p m e n to f n e t w o r kt e c h n o l o g ya n di t sb r o a da p p l i c a t i o n , i n f o r m a t i o nr e t r i e v a lh a sb e e np a i dm o r ea n dm o r ea t t e n t i o n t h et r a d i t i o n a l i n f o r m a t i o nr e t r i e v a lm e t h o d sc o n c e n t r a t eo nt h ew a yo fk e y w o r dm a t c h i n g s e m a n t i cu n d e r s t a n d i n g ,t h em o s ti m p o r t a n tp a no fi n f 0 r m a t i o nr e t r i e v a ls y s t e mh a s n o tb e e ni n v o l v e d a l t h o u g hr e c a l lt h ei e t r i e v a lr e s u l t sc a nn o tm e e tt h eu s e r s n e e d i n t e l i g e n ti n f 0 r m a t i o nr e t r i e v a lc o u l dp r o c c s st h er e s o u r c e ss e m a n t i c l yc o m p a r e d w i t ht r o d i t i o n a l i n f o r m a t i o nr e t r i e v a l i ni n t e l i g e n ti n f o r m a t i o nr e t r i e v a l ,o n t o l o g yi s t h ef o u n d a t i o no fs e m a n t i cr e a s o n i n g d o m a i no n t o l o g i e sd e 6 n cc o n c e p t so ft h e c e r t a i nd o m a i n s ,d e s c r i b er e l a t i o n so fc o n c e p t sa n dp r o v i d et h el o g i c 九j l e sf 0 r s e m a n t i cr e a s o n i n g i nt h i sw a yc o m p u t e rc o u l du n d e r s t a n dt h es t r u c l u r ea n d m e t a d a t ao fad o m a i no n t o l o g ya n dg e tt h eo b v i o u so rr e c e s s i v ek n o w l e d g ef r o m i n f i o r m a t i o nb a s eb yr e l a t e dl o g i cr u l e s i nt h i sp a p e r ,w ei n t e g r a t e do n t o i o g ya n d u s e rr e l e v a n c ef e e d b a c ki n t oi n f b r m a t i o nr e t r i e v a la n dd i ds o m es o m e t h i n gb a s e do n t h ec u r r e n ti n f b r m a t i o nr e t r i e v a lt h e o r y 1 an e wi n t e l l i g e n ti n f o r m a t i o nr e t r i e v a lm o d e lw a sp r o p o d i tc o n s i s t so f k n o w e d g eb a s e ,q u e r ye x p a n s i o na n dc o n c e p t sn l t r a t i o n a p p l y i n go n t o l o g yl o i n f o r m a t i o nr e t r i e v a li s i m p o s s i b l et os o l v et h ep r o b l e mo fs e m a n t i cu n d e r s t a n d i n s u 踊c i e n c yi naw a y 2 an e wm o d e l i n gm e t h o do fd o m a i no n t o l o g yi sp r e s e n t e db a s e do nt h e e x i s t i n gm o d e l so fd o m a i no n t o l o g i e s t h ep r o p o s e dm e t h o dp e r f 0 r m sw e l ii nl o g i c a n do p e r a t i o n 3 i no f d e rt oi m p r o v et h ep e r f o r m a n c eo fi n f o r m a t i o nr e t r i e v a ls y s t e m s , a n o v e lm e t h o df o rq u e r ye x p a n s i o ni sp r e s e n t e d t h ep r o p o s e dm e t h o di sah y b r i dq e t e c h n 0 1 0 9 yt h a tc o m b i n e sr e l e v a n c ef e e d b a c ka n do n t o l o g i e s f i r t e x ,w h i c hi st h e 6 r s to p e ns o u r c ei n f o r m a t i o nr e t r i e v a ie x p e r i m e n t a lp l a t f o r mi no u rc o u n t r yi su s e d a so u re x p e r i m e n t a lp l a t f o r m w ec o m p a r e dt h ep r o p o s e dm e t h o dw i t hc o s i n e s i m i l a r i t y - b a s e dq ew h i c h i saw i d e l yu s e d q u e r ye x p a n s i o nt e c h n i q u e t h e e x p e “m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e dm e t h o dp e r f o r m sw e l l k e yw o r d s :o n t o l o g y ; d o m a i no n t o l o g y ;i n t e i g e n ti n f o r m a t i o nr e t r i e v a l ; q u e r ye x p a n s i o n ;s e a r c he n g i n e ;k n o w i e d g ee x p r e s s i o n ;k n o w i e d g eb a s e 硕士学位论文 插图索引 图3 1 信息检索过程1 7 图4 1 智能信息检索系统框架图2 4 图4 2 构建领域本体的知识工程方法流程2 6 图4 3 部分本体概念层次结构2 9 图4 4 查询扩展实验流程图3 5 图4 5 查询扩展流程图3 8 图4 6 两种方法的查全率比较4 0 图4 7 两种方法的查准率比较4 0 图4 8 两种方法的f 值比较4 l m 兰州理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成 果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表 或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律后果由本人承担。 作者签名: 日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权兰 州理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密囤。 ( 请在以上相应方框内打“,”) 作者签名; 导师签名: 榔枉 t1 锄1 日期:幻年2 月,2 日日期:护年2 月,二日 , 日期:曰年,1 月,1 日 1 1 研究背景与意义 第薹章绪论 随着l n 宅e r n e 毫在全越界范萤内迅猛发震,瓣终生庞大的数字纯信息耪入佛获 取信息之阗的矛盾匾益突出。据权威机构统计,网上约有数十亿的潮页,有些专 家甚至宣称网页总数己达5 5 0 0 亿,并且这一数字还在不断快速增长,如何在如此 瘴大豹王魏t e r 羲e 专上及时地获取有价值的信息,已或药至纛t e r 建e 毫臻户爨益关注的阀 题2 “。 人们已l 经进入了信息时代,面对信息海洋,觉得力不从心,往往花费了许多 对阕却质获甚少。两于i n t e r n e 专是个开放、变化糯分布的信息空闻,其自身酶 3 个弱点已经明显地阻碍了人们充分地使用王n t e r n e t 上豹信息资源: 薹。至n 专e r 魏e t 上可利用的信息是光组织的、舜构的,并盥分布在世赛的各个 站点上; 2 。数据帮服务的类型戮及数量每天都在迅速变纯,信息的霹剩霜性积w 靠 性也在不断变化; 3 因为信息源的动态性以及信息的更掰和保存等问题,使得检索到的信息 常常是模糊酶,有时甚至是错误麴。 面对王n t e r n e t 信息过载和用户使用信息时的迷航状况,改善现有的信息检索 方法是当前追切需要解决的问题。本文针对当前信息检索方法存在的缺点和不 足,把本体技术应用于智熊信息检索研究中,它可以代替人来完成繁杂的信息收 集、过滤、聚类等经务,实现蘩惠检索蘸智辘纯。 目前,信息检索方法主要是基于内容分类目录和基于关键词搜索的。目录分 类从宏观大粒度上为初级用户提供一个所关注领域的入口,通过相关链接可以获 得一些浅层信息,其查全率帮查准率都无放僳涎。基于关键词搜索是把震户酶查 询请求和w 曲页面、文档中的每一个词进行比较,只要发现巢个网页中含有这个 关键字符,就将该网页俸为查询结巢返回给用户。融子参与遴配的是字符的外在 形式,不考虑查询请求与文件语义上的匹配,这种方式虽然可以保迸查全攀,但 是凌准率却大大地降低了。嚣莆因特瓣上的搜索碍| 擎普遍采瘸传统蘩息检索牵的 索引模型,如倒排文件、矢量空间模型等。尽管在关键词的基础上对检索技术做 了许多改进,但这些改进大都是获搜索算法层面逝发,基于数学模型的霜度来提 高检索的质量,著没有对所检索的关键词给予语义上的分析和处理。对计算机而 畜,关键词几乎没有任何语义,因此检索的性能还是难以得到本质的提高,这也 基于本体的智能信息检索 是目前信息检索技术普遍存在的缺陷乜1 。 本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自 被提出以来就引起了国内外众多科研人员的关注,并在计算机的许多领域得到了 广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和w e b 上异构信息的 处理、语义w e b 等b3 。本体的最终目的是为了解决知识的重用和共享。由于本体 能够很好地描述概念的内涵以及概念与概念之间的关系,具有良好的概念层次结 构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广 泛的应用。 基于本体的信息检索也称为基于语义的检索,是相对于基于关键词的检索提 出的,把用户提交的关键词通过语义理解和计算转换成语义概念,检索出与此概 念有关的、用户真正想要的信息,从而提高查全率。目前常见的做法是,通过引 入领域本体,把用户输入的关键词进行语义转换,实现基于语义的信息检索。领 域本体的建立、补充和完善都通过人机结合的方式实现。领域本体中的词汇通过 对部分有代表性文档的分析获得,在信息检索过程中及时补充新出现的领域词 汇,动态完善领域本体。 1 2 基于本体的信息检索研究概述 本体在信息检索领域的应用研究始于2 0 世纪末至2 1 世纪初,国内外大量学者 都在此领域进行了各种探索,大致可分为三方面: 1 基于本体的信息检索方法研究。如v i p u l 讨论了一种用于信息检索的本体 构建方法。美国学者通过在检索过程中构建用户行为本体来对检索结果进行排 序;德国学者n e n a d 和l j 订j a n a 提出了一种在基于本体的信息检索系统中使用基 于逻辑的优化查询方法;我国学者蔡文涛等提出了一种用于概念信息检索的基于 本体的地址析取方法;韩国学者s a n go kk o o 等提出了一种半自动的本体生成方 法,可用于信息检索的索引文件;德国学者t o r s t e n 等提出了一种用于联机分析处 理和信息检索的基于本体的集成方法等等。 2 基于本体的信息检索实验系统研究。大量研究集中在这方面,产生了不少 检索系统。本体应用在信息检索中的著名项目有( 0 n t o ) 2 a g e n t 、o n t o b r o k e r 和 s k c 。( o n t o ) 2 a g e n t 的目的是为了帮助用户检索到所需要的w w w 上已有的本体,主 要采用了参照本体,参照本体是以w w w 上已有的本体为对象建立起来的本体,它保 存有各类本体的元数据;0 n t o b r o k e r 面向的是w w w 上的网页资源,目的是为用户检 索到所需要的网页;s k c 的目标是解决信息系统语义异构的问题,实现异构自治 系统之间的互操作,该项目希望通过在本体上建立一个代数系统,用这个代数系 统来实现各本体之间的互操作,从而实现异构系统之间的互操作。 2 3 基于本体的信息检索评价研究。如斯洛伐壳的学者j a 羚和至v a 纛在同一个文 本集中将全文检索方法、潜在语义索引方法和基于本体的方法进行对比研究。综 上所述,本体在信息检索中的应用具有如下特点: a 用予信息检索的本体的构建般都是通过人工提取的,这使得本体在信 息检索中的应用不能大规模展开,因此需要开发出自动或半自动的本体学习工 具; b 关于本体在信息检索中的应用有基于本体的“概念检索一、“语义检索坩、 “知识检索、“个性化检索嚣、内容检索斗、自然语言检索一等,都是希 望利用本体来解决语义理解的问题; c 。基于本体的检索系统一般规模较小,都是利用某一领域本体来检索特定 领域的信息,系统停留在实验原型阶段,能够商业化推广应用的系统较少h 1 。 。3 国内外相关研究现状 目前,国杰外在基于本体的信息检索领域的研究进行的非常活跃。在实际应 用研究中,人们逐渐认识到使用语义进行检索是一种解决精确查询的有效途径。 但是语义检索依赖显示标注的信息资源,或是完整、正确的自然语亩理解系统。 本体在智麓信息检索中提供了形成态询和资源播述所必需的元语,| 以本体技术为 核心建立领域语义模型,为信息源提供语义标注信息,使系统内的所有a g e n t 对 领域内的概念、概念之间的联系及领域内的基本公理知识有一个统一的认识,从 而能够显著地提高系统的联想能力和精确性,有望快速、高效、精确地检索出用 户所需麴有价值豹信息,同时也提供给系统内所有用户一个全面的共同视图。本 体已逐渐成为智能信息检索系统的一种知识表示,是系统集成的核心部件。 1 3 。l 国内研究现状 国内对予本体在信息检索中应用还处予实验阶段,未能真正进行商业化实 施。主要研究集中于两点: 1 利用本体概念之间的内在联系将一些隐含( 或不明的) 信息挖掘出来,使 这些信息在检索中起导弓l 作用。文献 5 】提出了一个智能搜索引擎模型,该模型 利用本体和信息过滤技术对用户的查询请求进行启发式导引,从而准确的表明了 用户的查询意图。 2 利用本体的领域信息,在这些领域信息的协助下,对要检索的文档进行 分类。圈时,按照用户的兴趣爱好,对用户也进行分类,放两提高查询效率。文 献 6 以英文词汇的本体库w o r d n e t 中的本体作为背景本体,并对其中术语的每 种会义和相应的领域建立了对应关系,此外,定义了些函数用于从本体中提取 出文档关键字的定义,从某一领域对应的本体中求出该领域的术语集。并在这些 函数和本体的协助下对被检索文档按领域进行分类。 有些研究虽然没有直接涉及到本体论这个概念,但是它们所采用的概念层 次、语义网络思想实际上属于本体论所涵盖的范畴n 1 : 1 3 2 国外研究现状 在国外,基于本体的信息检索研究主要集中在以下几个方面。 1 如何将用户的查询语言和资源描述用本体加以规范化和形式化,这样查 询请求和资源描述相一致,消除了表达上的差异,可以提高检索的精确度 ( p r e c i s i o n ) ,这种的情况适合于在线黄页以及产品目录之类的信息检索系统 o n t o s e e k 哺1 系统即以在线黄页和产品目录为研究对象,将在线黄页和产品目录中 的主要数据以概念图的方式表达并存储于数据库中;同时,用户需求也以概念图 的形式表示,并与数据库中的概念图相匹配。0 n t o s e e k 针对匹配提出了一系列 的规则与限制。 2 用本体的语义网络来挖掘概念之间的种种关系,将所有潜在相关的信息 作为检索的依据,提高检索的r e c a l l ( 查全率) 。文献 9 详细介绍了语言网络里 的种种关系,并提出了单词语义模型( w o r ds e m a n t i c sm o d e l ) ,将文档内容和 用户查询进行语义扩展,以此提高检索的查全率。 3 用本体概念对文档进行标注( a n n o t a t i o n ) ,这些额外的元信息可以帮助 检索工具准确的判断哪些文档更加符合检索要求。文献 1 0 提出了e s c r i r 。系 统,此系统以生物基因领域的文章摘要和该领域的本体为试验基础,将需要表达 的非形式化信息以形式化的概念加以标注。同时该文献还探讨了有关标注中几个 值得思考的问题。 4 如何在x m l 这一类的半结构化文档中发挥本体论的作用。通常将本体的 术语概念嵌入到x m l 标签里,增加x m l 标签的语义表达能力。通过使用本体可以 集成访问不同的x m l 文档类型。文献 1 1 提出了o s i r i x ( o n t o l o g y g u i d e d s e a r c hf o ri n f o r m a t i o nr e t r i e v a li nx m ld o c u m e n t s ) 系统,o s i r i x 系统从 预先定义好的本体中产生标注d t d ,与原先的d t d 共同作用,形成了嵌有本体概 念的x m l 文档,这样,当o s i r i x 系统执行检索时,就可以利用本体中的概念层 次,检索到更多的符合需求的文档。 以上研究都以本体技术为核心,建立领域语义模型,为信息源提供语义标注 信息,为用户提供领域范围内的语义查询,能够动态适应网络中信息的动态变化。 4 硕士学位论文 。4 本文的主要研究工作 本文将主要研究基于本体的智能信息检索方法。我们对国内外现有的信息检 索方法和检索系统进行研究,把本体应用于信息检索过程中以提高信息检索的智 能化和检索效率。 本论文首先跟踪本体论的国蠹井研究现状,并加以综合比较。对本体论这一 新兴学科的概念、方法及研究和应用现状作了深入研究。进入九十年代以来,本 体和本体工程的价值被发现,在信息共享、系统集成、基于知识的软件开发等方 面得到了广泛的应用。 其次,我们对计算机领域内的自然语言进行分析,并利用分析结果对计算机 领域中的概念进行实例化,我们可以将这些实例化了的概念称为信息实体,然后 根据本体中概念之间的关系将这些信息实体组织起来,这样就将原来的半结构或 无结构的自然语言转化成了其有一定结构的信息实体及这些实体之间的关系。对 于用户提出的检索请求,我们也利用领域本体对其进行理解,将其转化为对某个 信怠实体及其属性的查询,保证了用户闻题与信惠攒述的一致性,可以实现他街 的精确匹配,使信息检索系统“理解用户的信息需要n 2 。引。它在对内容的分析 理解、蠹容表达、知识学习、推理机制,决策等基础上实现检索的智簏化,从 嚣 改善目前信息检索中实时性差、引导能力差、常规的直接基于关键词的信息检索 技术不能满足用户在语义上秘知识上的需求等阀题n 朝。由予本体具有良好的概 念层次结构和对逻辑推理的支持,因而在信息检索中得到了广泛的应用,通过赋 予特检索信息的具体语义内涵,来解决传统信息检索过程中所存在的问题,以提 高检索的质量和效率。 最后,在设计智能信息检索模型的过程中,本文提出了一种新的领域本体建 模方法,用予检索系统知识痒的建立,该方法具有缀强的逻辑性帮可操作性。在 查询扩展方面,本文将本体技术与用户相关反馈技术结合起来,设计出一种新的 混合查询扩展方法。实验结构表臻该方法大大提高了信息检索的查全率和查准 率,其成果已经撰写成论文发表在相关国内国际期刊上。 本文的内容安排 本论文的具体组织结构如下: 第一章、绪论。本章主要介绍了基于本体的智能信息检索的目的和意义,国 内外研究现状,阐述了本文主要研究工作和论文组织结构安排。 第二章、本体论概述。总结国内外在本体论方面的研究现状,详细介绍了本 体的起源和发展、本体的定义,本体的分类,本体的形式化表示语言,本体建模 方法和工具潋及本体的应用。 s 基于本体的智能信息检累 第三章、信息检索技术。主要介绍了信息检索技术的研究现状,包括:信息 检索的概念,当前搜索引擎在信息检索时存在的问题,智能信息检索的概念及特 点,最后是目前智能信息检索常用的方法。 第四章、基于本体的智能信息检索。详细介绍了基于本体的智能信息检索系 统的设计方案及关键技术。提出了一种新的领域本体建模方法,用于系统知识库 的建立。以f i r t e x 为实验平台,将本体技术与用户相关反馈技术结合起来用于信 息检索时的查询扩展。 最后,全文的总结和进一步的展望。 6 硕士学位论文 第2 章。本体论概述 近些年来,随着计算机应用需求的不断增强,计算机科学与技术的发展日新 月异。然露在这种快速发展的同时,也面临着种种的困难。主要的困难包括;知 识的表示、信息的组织、软件的复瘸等。特别是由于因特瓣的快速发展,面对信 息的海洋,如何组织、管理和维护海量信息并为用户提供有效的服务也就成为一 项重要而迫切的研究课题。为了适应这些要求,本体作为种能在语义和知识层 次上描述信息系统的概念模型建摸工具,被广泛地应用于知谈工程、数字图书馆、 软件复用、信息检索和w e b 上异构信息的处理、语义w e b 等。 2 。1 本体的起源和发展 本体作为一门学问起源于对万物本源的追阔。本体这个词旱在1 7 世纪就已诞 生,从哲学意义上看,本体关注的是“存在一,即世界在本质上有什么样的东西 存在,或者世晃存在哪些类别的实体。 在人工智能领域,经历了2 0 世纪6 0 年代通用问题求解方法研究的豳境以后, 研究人员发现越来越有必要考虑知识重用问题,同时在数据库管理系统( d b m s ) 研究领域,早期数据库的概念模型的专门化和不一致,导致了后来数据库集成方 面的许多实际闻题。努外,伴随着瑟向对象技术的兴起,为了能重雳应臻程序,软 件工程研究领域也开始认识领域建模( d o m a i nm o d e l i n g ) 的重要性u 引。 以上3 个方面的问题都需要对某个领域进行通用概念上的描述,因此,必须 回答这样的闻题:对予某个领域,本质上有些什么样豹对象、过程、属性和关系9 什么是一项事务、一个人以及一个组织? 它们之间的相互依赖关系如何? 而这正 是本体所研究的内容。 在信息系统领域,首先是鹾c e 8 r t h y 受学者q u i n e 的启发,认识到哲学本体与 人工智能的逻辑理论构建活动之间的重叠,并予1 9 8 0 年提豳。以逻辑概念为基础 的智能系统必须“列嬲所有存在的事物,并构建一个本体描述我们的世界 。当 时大多数a i 逻辑学者都认为对某个世界所获取的信息和人们的“常识是一致的。 因j 鬻:,s o 餮a 也提出要构建一个可能世界的本体;尽可畿恐包含世赛的所有事物、 它们之间的联系以及相互影响的方式。然而,当时的绝大多数人工智能学者并没 有考虑到与之相重合的哲学概念中的本体,而直接引入“本体一这个术语来表示 他铜在知识工程中对领域世界的“存在挣研究。这造成了人工智能和信息系统颁 域中对“本体术语含义的误解,使其更倾向予逻辑理论,而与世界的“存在捧 离得更远。这些学者认为,将“本体看作是用来定义信息系统中的对象、属性、 7 基于本体的智能信息检索 关系、事件和过程的一种“逻辑理论一,似乎更适合人工智能学科。然而,应该 看到,信息系统正是因为缺乏对系统外真实世界的理解和描述才造成了许多问 题,因此在信息科学领域,迫切需要对本体的定义作进一步的辨析和规范。 2 2 本体的定义 本体自被提出以来就被不同的学者给予不同的定义。n e c h e s 等将本体定义为 “给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规 定这些词汇外延的规则的定义厣。s w a r t o u t 将本体定义为,“本体是一个为描述 某个领域而按层次关系组织起来的一系列术语,这些术语可以作为一个知识库的 骨架一n 。文献 1 8 定义“本体是以某一观点用详细明确的词汇表描述实体、 概念、特性和相关功能的理论 。文献 1 9 认为“本体必需包括所使用术语的规 范说明,大家一致认可的该术语的含义,以及术语之间的联系,从而表达概念一 在诸多定义中,最著名并被引用得最为广泛的定义由g r u b e r 提出:“本体是概念 模型的明确的规范说明他们。文献 21 对该定义进行了引申,提出“本体是共享 概念模型的形式化规范说明 。文献 2 2 认为本体的概念包括四个主要方面:( 1 ) 概念化( c o n c e p t u a l i z a t i o n ) :客观世界的抽象模型; 根据本体的主题分类 按照本体的研究主题,分为如下五种类型: 1 知识表示本体:它的研究重点是语言对知识的表达能力。典型的有斯坦 福大学知识系统实验室提出的一种称为知识交换格式k i f ( k n o w l e d g e i n t e r c h a n g ef o r m a t ) 的知识描述语言,以及可以在线将各种知识转换为k i f 的本 体服务器o n t 0 1 i n g u a 。目前,研究者普遍认为,所有其他的知识表示形式都可 8 额士学位论文 以转换为k i f 的形式。 2 通用或常识本体:关注于常识知识的使用。通用知识本体论的研究包括 著名的e ¥c 工程,其他工作还包括j 。s 。餮a 的通用本体研究等。 领域本体:领域本体在一个特定的领域中可以重用,他们提供该领域特 定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要 理论和基本原理等。对特定领域的本体硒究和开发曩前已经涉及许多领域,包括 企业本体、医学概念本体、陶瓷材料机械属性本体等。 4 语言学本体:是指关于语言、词汇等的本体典型的实例有 g u 麓( g e n e r 氇l i z e du p p e rm o d e l ) 和普林斯顿大学研制的w o r d n e t 。 5 。任务本体:任务本体是本体研究靛另一个分支,主要研究可共享的闯题 求解方法,这里的推理方法与领域无关,任务本体主要涉及动态知识,而不是静 态知识。任务本体的研究以c h a n d r a s e k a r a n 等人的关于任务和问题求解方法本体 的研究受代表。具体的研究主题毯括:通用任务、与任务相关的体系结构、任务 方法结构、推理结构和任务结构等。 根据本体形式化程度分类 按照本体表示的形式化程度对现有本体进褥分类,可分必: 圭完全非形式化:完全采用自然语言表示的本体,如爱丁堡大学企业项目 中的e n t e r p r i s eo n t 0 1 0 9 y 自然语言版。 2 。结构非形式化:采用受限的或结构化的自然语言表示,以减少二义性。 例盎蓬上踅蕊e n t e r p r 主s e0 n t o 王o g y 的文本版本释襻o r k f 王。鬻蘸a n 氇g e 璜e 狂专c o a 重量t 主o n 推出的工作流术语汇编。 3 半形式化:用种人工定义的形式化语言表示。许多采用o n t 0 1 i n g u a 描 述麴本体都属于这一类。 4 形式化:所有术语都具有形式化的语义,并能在某种程度上证明包括一 致性和完整性等方面的属性。如多伦多大学虚拟企业项舀的企业本体。 根据本体研究层次分类 本体的研究和开发工作是在不同层次上进行的,根据本体的研究层次,可分 为: 1 顶层本体:主要研究非常逶用豹概念,如空间、对问、事物、对象、事 件、行为等,他们完全独立予特定豹问题或领域。因此可以说顶层本体可以在一 个很大的范围内共享。 2 领域本体:研究与一个特定领域相关的术语或词汇,如医学、企业模拟 危盘 守 3 :任务本体:定义通用任务或推理活动,如诊断等。它们都可以应用顶层 9 基于本体的智能信息检索 本体中定义的词汇来描述自己的词汇。任务本体和领域本体处于同一个研究和 开发层次。 4 应用本体:描述特定的应用,它既可以应用特定的领域本体中的概念, 又可以引用出现在任务本体中的概念。 2 4 本体的构成 本体的构成有多种提法心引,最常见的是p e r e z 等人的提法,他们认为本体可 以按分类法来组织,并归纳出本体的5 个基本构成元素:类( c l a s s ) 或概念 ( c o n c e p t s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) 和实例 ( i n s t a n c e s ) 【2 5 】。 类( cl a s s ) 或概念( c o n c e p t s ) 概念的含义很广泛,可以指任何事务,如工作描述、功能、行为、策略和推 理过程等等。从语义上讲,它表示的是对象的集合,其定义一般采用框架( f r a m e 结构,包括概念的名称,与其它概念之间的关系的集合,以及用自然语言对概念 的描述。 关系( r e l a t i o n s ) 关系代表了在领域中概念之间的交互作用,形式上定义为n 维笛卡尔积的子 集:只:c l c 2 g 。如子类关系( s u b c l a s s o f ) 。在语义上关系对应于对象元 组的集合。 函数( f u n c t i o n ) 函数是一类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。形 式化的定义为f :c 1 g c 一g 。如m o t h e 卜o f 就是一个函数,m o t h e 卜o f ( x , y ) 表示y 是x 的母亲。 公理( a x io i l l s ) 公理代表永真断言,如概念乙属于概念甲的范围。 实例( i n s t a n c e s ) 代表元素。从语义上讲实例表示的就是对象。 从语义上分析,基本的关系有四种,分别是p a r t o f :表达概念之间部分与 整体的关系、k i n d o f :表达概念之间的继承关系,类似于面向对象中的父类与 子类之间的关系、i n s t a n c e o f 表达概念的实例与概念之间的关系,类似于面向 对象中的对象和类之间的关系、a t t r i b u t e o f 表达某个概念是另一个概念的属 性,如“价格 是商品的一个属性。 在实际应用中,不一定要严格按照p e r e z 等人提出的5 个基本元素来构造本 体,同时概念之间的关系也不仅限于p a r t o f 、k i n d o f 、i n s t a n c e o f 和 1 0 硕士学位论文 a t t r i b u t e o f 这四种基本关系,可以根据特定领域的具体情况定义相应的关系, 以满足应用的需要。 2 5 本体的描述语言 本体可以用自然语言描述,也可以用框架、语义网络、或逻辑语言描述。到 目前为止,本体的描述语言大约有2 8 种之多。虽然本体表示语言很多,但目前使 用最普遍的是0 n t o l i n g u a 、c y c l 、l o o m 和o w l 等。 o n t o l i n g u a 是一种基于k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的,提供统一 的规范格式来构建本体的语言。o n t o l i n g u a 为构造和维护本体提供了统一的、计 算机可读( 可处理) 的方式。由o n t 0 1 i n g u a 构造的本体可以很方便地转换到各种知 识表示和推理系统,使得对本体的维护与具体使用它的目标表示系统分离开来。 可以把0 n t o l i n g u a 转换成p r o l o g 、c o r b a 的i d l 、c l i p s 、l o o m 、e p i k i t 、a l g e r n o n 和标准的k i f 。目前,o n t o l i n g u a 主要是作为本体服务器上提供的,用于创建本体 的语言。另外有不少项目使用o n t 0 1 i n g u a 作为实现本体的语言。 c y c l 是c y c 系统的描述语言,它是一种体系庞大而且非常灵活的知识描述语 言。该语言在一阶谓词演算的基础上,扩充了等价推理、缺省推理等功能,而且 具备一些二阶谓词演算的能力。在该语言的环境中配有功能很强的可进行逻辑推 理的推理机。 l o o m 是o n t o s a u r u s 的描述语言,是一种基于一阶谓词逻辑的高级编程语言, 属于描述逻辑( d e s c r i p t i o nl o g i c ) 体系。它具有以下的特点:( 1 ) 提供表达能力 强、声明性的规范说明语言;( 2 ) 提供强大的演绎推理能力;( 3 ) 提供多种编程 风格和知识库服务。该语言后来发展成为p o w e r l o o m 语言。p o w e r l 0 0 m 是k i f 的变 体,它是基于逻辑的,具备很强表达能力的描述语言,采用前后链规则( b a c k w a r d a n df o r w a r dc h a i n e r ) 作为其推理机制。 2 0 0 0 年x m l 会议之后,w 3 c 为在网页上标注语义积极推进语义标注语言的研 发。自从w 3 c 在2 0 0 1 年2 月正式推出s e m a n t i cw e ba c t i v i t yw e b 信息资源的语义 描述语言己进化到w e b 本体语言o w l 。 o w l 提供了三种表达能力递增的子语言o w ll i t e ,o w ld l 和o w lf u ll ,分别 用于特定的用户群体。 o w ll i t e 用于提供给那些只需要一个分类层次和简单约束的用户。例如,虽 然0 w ll i t e 支持基数限制,但只允许基数为0 或l 。提供支持o w ll i t e 的工具应该 比支持其他表达能力更强的o w l 子语言更简单,并且从辞典( t h e s a u r i ) 和分类系 统( t a x o n o m y ) 转换到o w ll i t e 更为迅速。相比o w ld l ,0 w ll i t e 还具有更低的形 式复杂度。 基予零体魏智能信愚梭索 o w ld l 用于支持强表达能力的同时需要保持计算的完备性( c o m p u t a t i o n a l c o m p l e t e n e s s ,即所有的结论都能够确保被计算出来) 和可判定性 ( 莲e e i 如鹣n i t y ,邸所有的计算都能在有限的时闻内完成) 蕊知识表示。0 嚣l0 l 包括了0 w l 语言的所有语言成分,但使用时必须符合一定的约束,例如,一个类 可以是多个类的子类,但它不能同时是另外一个类的实例。 o 餮lf 娃圭圭支持最强的表达能力秘完全自由的西f 语法的瘸户,但是。骖lf 珏圭王 没有可计算性保证。例如,在0 1 | j | lf u l l 中,一个类可以被同时看为许多个体的一 个集合以及本身作为一个个体。它允许在一个本体增加预定义的( r d f ,0 w l ) 词汇 的含义。这样看来,不太可能有推理软件能支持对0 1 j | lf u l 王的所有成分的完全推 理。 2 6 本体的构建方法和工具 2 6 王构建方法 本体的构建方法很多,但还没有一套完整的统一的方法论。研究者们创建了 许多的本体。在实际的构造过程中,根据各自阀题域和具 本工程的不同,又形成 了各种各样创建本体的方法。如何对这些方法的性能给出评估标准,就成为一个 值得研究的问题。以下是几种常用的构建方法。 1 i d e f 一5 方法。i d e f 一5 通过图表语言帮缨化说明语言来获取某个领域的本 体。蓬表语言虽然表达能力有限,但直观,易理解;细化说骥语言具有缀强的表 达能力,可把隐藏在图表语言内的深层次的信息描述清楚,从而弥补图表语言的 不足。i d e f 一5 方法包括以下五个步骤: 组织耪范围:确定。疑t o 王o g y 建设项爱的誉标、鼹点耪语境,并为组员分配 角色。 数据收集:收集o n t o l o g y 建设需要的原始数据。 数据分析:分析数据,为抽取。鞋t o 王o g y 傲准备。 初始化的本体建立。 本体的精炼与确认。 2 骨架法( s k e 王e t a l 鹾e t h o d o l o g y ) 。建立在企业本体基础之上,是相关商 业企业闻术语耱定义的集合,只提供开发本体的指导方针,包括如下步骤: 确定目的和范围。 建设本体:分为捕获、编码和集成。 文档化:把概念、元本体等徽糟文档。 3 企业建模法。用于构造虚拟企业本体工程,分为以下步骤: 硕士学位论文 激发场景:某些场景可以激发本体的建设。 非形式化的能力问题:应该能够回答的各种问题。 术语的规范化。 形式化的能力问题:把非形式化的能力问题用形式化的术语定义出来。 形式化公理:用一阶谓词逻辑表示术语的定义及约束。 完备性定理:定义在什么条件下方案完备。 4 m e t h o n t o l o g y 方法。该方法结合了骨架法和g o m e z p e r e z ,基本流程如 下: 规格说明书:产生自然语言编写的非形式化的、半形式化的、或者形式化的 本体规格说明。 知识获取:知识的来源很多,可以是专家、书籍、手册、数字、表格、甚至 是其他的本体。 概念化:用规格说明书中识别的领域词汇表描述问题和解
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深海养殖水下监控与数据分析
- xx市燃气改造项目施工方案
- 2025年边际函数考研真题及答案
- 燃煤发电厂冷却水系统改造方案
- 物业服务与社区安全防范三方合作协议范本
- 某小区物业合同终止及移交管理协议
- 【二手车】2025年市场规模预测:技术创新推动新能源汽车占比达10%
- 2025年数学七下试卷及答案
- 工业互联网平台数据备份与恢复策略在2025年农业领域的应用研究报告
- 建筑方案设计手绘作业
- 装配式建筑装饰装修技术 课件 模块五 装配式隔墙
- 药事管理工作制度及操作规程
- JT-T-883-2014营运车辆行驶危险预警系统技术要求和试验方法
- (高清版)JTG 5421-2018 公路沥青路面养护设计规范
- 管理百年-知到答案、智慧树答案
- 五年级安全标志提醒你
- 脑死亡判定标准
- 猪肉配送服务方案
- 《五环旗下一家人》课件
- 屠呦呦生平事迹
- 喷涂分析改善报告
评论
0/150
提交评论