




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)基于本体的消防信息检索系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要摘要目前i n t e r a c t 已经成为世界上最大的信息资源库,网上的信息以爆炸性的速度不断丰富和扩展。如何能够快速而有效地按照用户的意图去获取网络资源,成为了一个十分重要而紧迫的问题。合理的信息检索机制将会提高用户使用效率,但由于目前的信息检索系统主要是基于关键词的全文匹配,往往返回大量的无用信息。使得用户需要花费大量的时间耗费在排除无用信息上,在查全率和查准率方面往往无法达到用户的检索要求。因此寻求智能化的检索方式也就成为了热点。近年来由于o n t o l o g y 具有良好的概念层次结构和对逻辑推理的支持,能够通过概念之间的关系来表达概念的语义能力,较好的为语义检索提供知识基础,所以基于o n t o l o g y 的信息检索已经成为一个重要研究课题。考虑到构建本体的复杂度,所以本文只选择消防领域作为本体构建领域。本文首先介绍信息检索系统和本体的背景及相关概念,接着提出基于本体的消防信息检索系统的总体构架,并结合消防器材实例来实现系统的语义查询。本文的研究内容主要包括以下几个方面:( 1 )通过对一般的信息检索系统的分析研究,提出基于本体的消防信息检索系统的体系结构。设计并初步实现了针对语义信息查询功能的原型系统。( 2 )以消防领域知识作为研究对象,建立起一个描述本领域信息知识的本体,并将其以o w l 的形式实现持久化。( 3 )集成当前流行的网络信息检索系统通过比较来体现该系统的语义查询的优势并体现个性化服务。关键字:本体:消防;信息检索;搜索引擎;肖防器材英文摘要t h er e s e a r c ho nt h ef i r ef i g h t i n gi n f o r m a t i o ns e a r c hs y s t e mb a s e do no n t o l o g ya b s t r a c ta tp r e s e n t ,i n t e r n e th a sa l r e a d yb e e nt h em a i nm e d i u mo ft h ew o r l d ,a n dt h ei n f o r m a t i o no nt h ei n t e r n e te x p a n d sw i t ht h ee x p l o s i v es p e e d h o wt og e tt h en e t w o r kr e s o u r c ee f f e c t i v e l ya c c o r d i n gt ot h eu s e r si n t e n t i o nh a sb e c o m eav e r yi m p o r t a n ta n du r g e n tp r o b l e m r a t i o n a li n f o r m a t i o nr e t r i e v a lm e c h a n i s mw i l lb ea b l et oi m p r o v et h eu s e r sa v a i l a b i l i t yf a c t o r ,b u tb e c a u s et h e s es y s t e m sa tp r e s e n ta r eb a s e do nk e y w o r d ,a n dr e t u r nw i t hl a r g ea m o u n to fu s e l e s si n f o r m a t i o ns o m e t i m e s s oi tc o s t sag r e a td e a lu s e r st i m et oe l i m i n a t et h eu s e l e s si n f o r m a t i o n ,s ot h er e c a l lf a c t o ra n dp e r t i n e n c yf a c t o rc a n n o tg e tt h er e q u e s to fu s e r s i tb e c o m e sah o t s p o tt os e e kt h ei n t e l l e c t u a l i z e dr e t r i e v a lw a y d u r i n gt h ep a s ty e a r s ,f o rt h eh i b e r a r c h yo fc o n c e p t i o n ,s u p p o r t i n gr e a s o n i n g ,o n t o l o g y b a s e di n f o r m a t i o nr e t r i e v a lh a sb e c o m ei m p o r ts t u d yt a s k c o n s i d e r i n gt h ec o m p l i c a t e dd e g r e eo fd e s i g n i n go n t o l o g y ,s oic h o o s et h ef i r ef i g h t i n ga r e at ob u i l do n t o l o g y t h e a r t i c l ei n t r o d u c e st h eb a c k g r o u n da n di n t e r r e l a t e dc o n c e p t so fi n f o r m a t i o nr e t r i e v a ls y s t e ma n do n t o l o g yf i r s t ,t h e na d v a n c et h ef r a m e w o r ko ft h ef i r ef i g h t i n gi n f o r m a t i o ns e a r c hs y s t e m a tl a s tr e a l i z e si n q u i r i n ga b o u ti n f o r m a t i o nr e t r i e v a lw i t hr e a l i z i n gs y s t e m a t i cs e m a n t e m ei nf i r ec o n t r o le q u i p m e n ta r e a t h er e s e a r c hc o n t e n to ft h i st h e s i si n c l u d e st h ef o l l o w i n gs e v e r a la s p e c t s :( 1 ) a d v a n c et h ef r a m e w o r ko ft h ef i r ef i g h t i n gi n f o r m a t i o ns e a r c hs y s t e mb ya n a l y z i n gc o m m o ni n f o r m a t i o ns e a r c hs y s t e m s d e s i g na n de l e m e n t a r yr e a l i z et h i sm o d e lt h a ta i ma ts e m a n t i cq u e r y ( 2 ) b ef a m i l i a rw i t hk n o w l e d g eo ff i r ec o n t r o lf i e l d ,b u i l dt h eo n t o l o g yo ff i r ef i g h r i n g ,a n dr e a l i z ep e r m a n e n c eb yo w l ( 3 ) i n t e g r a t et h ep o p u l a ri n f o r m a t i o ns e a r c hs y s t e m sa n dc o m p a r et h e mw i t hf i r ef i g h t i n gi n f o r m a t i o ns e a r c hs y s t e m p r o v i d ei n d i v i d u a t i o ns e a r c h i n gs y s t e ms e r v i c e k e y w o r d s :o n t o l o g y ;f i r ef i g h t i n g :i n f o r m a t i o nr e t r i e v a l :s e a r c he n g i n e :f i r ef i g h t i n ge q u i p m e n t大连海事大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成博士硕士学位论文= = 基王奎往的澄随值皇捡塞丕统的硒究:。除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。栌啪擀礼蚌胁担淼躲物一论文作者签名:7 锨彬6 年矿岁月2 上日学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。保密口,在年解密后适用本授权书。本学位论文属于:保密口不保密矾请在以上方框内打“)论文作者签名:物燧名:鹤日期:土o dg 年;月2 2 日基丁本体的消防信息检索系统的研究第1 章绪论1 1 研究背景信息的生产、传播、搜集和查询是人类最基本的活动之一。随着i n t e r n e t 的迅速发展,网上的信息以爆炸性的速度不断丰富和扩展。根据2 0 0 0 年4 月在波士顿举行的第5 届搜索引擎年会的报告,2 0 0 0 年1 月全球网页数目已经超过1 0亿。目前最大的搜索引擎g o o g l e ( h t t p :w w w g o o g l e c o m ) 从2 0 0 2 年的1 0 亿网页增加到现在近4 0 亿网页;国内的中文搜索引擎百度( h t t p :w w w b a i d u c o m ) 的中文页面从两年前的七千万页增加到了现在的两亿多。据估计,整个互联网的网页数达到1 0 0 多亿,而且每年还在快速增长。如此海量的信息,其信息的组织结构是异构的、多元的、分布的【1 1 。由于i n t e r n e t 的开放性,w e b 的上的信息涉及的领域是广而多的。与传统信息资源相比,w e b 信息资源具有以下的特点【2 1 :( 1 ) 动态性数据和服务种类每天都在大量的增加、更新,i n t e m e t 上的数据每时每刻都处在变化中。新的页面在出现,旧的页面在更新、删除。( 2 ) 重复性由于信息被分布在数百万个服务器上,并且相互之间存在着引用和参照,所以存在着大量的相同或相似信息。( 3 ) 半结构化或无结构化w e b 上的信息通常是无组织的,不具有关系数据库中的数据结构化特性,或只是有限的结构化特性,这样就使得检索起来非常困难。( 4 ) 非规范化由于i n t e m e t 是面向所有用户的,所以当人们发布信息的时候,由于多种因素造成了很多拼写错误、自定义用词等。使得信息的质量得不到保证,存在着不稳定性和不可靠性。( 5 ) 异构性第1 章绪论信息分布在不同的平台上,各平台之间的结构各异,通过不同的协议( 如t c p i p 协议,h t t p 协议等) 进行相互连接。这样就造成信息结构不同,多语言多类型的信息交织在一起,杂乱无章。所以如何方便、准确而且快速地从i n t e r n e t 中找到并且获得所需的信息,这一迫切需要解决的需求,推动了人们使用客观和科学的信息组织和检索方法,从过载的海量信息中选取真正相关的信息来满足用户的信息需求。各式的信息检索系统的出现就是为了解决这个问题而设计的。其中搜索引擎正是信息检索系统中最具代表的一个工具。通过搜索引擎,用户可以从网络信息海洋中获取想要的信息。中国互联网络信息中心调杳报告指出,4 6 2 的用户上网最主要的目的是为了获取信息。在经常使用的服务中,6 1 6 的用户使用了搜索引擎,仅次于电子邮箱服务的使用度( 8 8 4 ) ,8 3 4 的用户得知新网站的途径是通过搜索引擎。由此可见搜索引擎在用户获取所需信息过程中的重要性1 3 j 。但是随着网民对信息检索系统的依赖程度越来越高,满意度却越来越低。例如虽然今天的搜索引擎看起来已经非常的强大,但是当我们查询一个确切的信息时,还是会有大量的时间浪费在搜索上,一个关键词可以搜索出来成千上万的网页结果,但是你又能够翻阅几页? 该查的查不到,不想要的却都来了,这就是信息不足与信息过剩的矛盾。前者是用户的真正信息需求,后者或是冗余或是不当信息。这个矛盾现在还没有得到很好的解决。这是因为目前使用的信息检索系统,主要是基于关键词匹配的。前者对海量信息资源的揭示的效率和深度都很有限,后者仅局限在字符形式匹配的层面上,对信息的语义、语用的揭示极为有限。智能处理能力的缺乏,导致目前检索工具远远不能满足用户的需求。提高信息利用的效率,是非常重要和迫切的研究课题。o n t o l o g y 作为一种能在语义和知识层次上描述信息系统的概念模型的建模工具,在提出后迅速成为信息系统与人工智能领域的一个研究热点。并在许多领域得到了广泛的应用,如知识工程、软件复用,信息系统间异构信息处理,自然语言理解等。特别是在信息检索领域,o n t o l o g y 提供了一种对信息和知识进行规范化描述和建模的方法,在构建智能化的检索系统、构建语义w e b 等方面有很重要的意义i4 。基于本体的消防信息检索系统的研究o n t o l o g y 具有良好的概念层次结构和对逻辑推理的支持,具有通过概念之间的关系来表达概念语义的能力,能较好地为语义检索和概念检索提供知识基础,所以基于o n t o l o g y 的信息检索成为一个重要的研究课题。基于o n t o l o g y 的智能信息检索优于关键词检索,因为o n t o l o g y 包含机器可以判断的概念的定义,从而使系统对领域内的概念,概念之间的联系及领域内的基本公理知识有一个统一的认识,系统通过分析用户提出的查询中所包含词( 组) 的语义,理解用户的查询,并准确地映射到信息资源,从而提高了信息检索系统的查全率和查准率【5 1 0信息检索作为信息学领域中最活跃的研究分支之一,其涉及到多学科领域的交叉合作,主要包括:信息的组织、存储,索引,异质数据源的集成和人工智能等技术,信息检索技术的研究与发展和这些相关领域的发展是息息相关的,同样的,对新型智能信息检索技术的研究也能推动相关科研领域的发展。因此,基于本体的智能信息检索技术研究还具有较高的学术理论意义。1 2 研究工作本课题得到国家自然科学基金项目“智能化语义网服务中本体集成机理与应用模式”( 批准文号:6 0 6 7 2 0 3 1 ) 的资助,论文工作同时也是这个项目的组成部分。本文首先对w e b 上的检索机制的现状、存在的问题及其未来发展趋势进行了探讨,结合具体的消防领域,以及用户个性化研究,提出了基于本体的消防信息检索系统的构架并加以实现。本论文的创新点主要有:( 1 ) 基于本体的消防信息检索系统是一种专业性的检索系统,目前国内还没有专门的消防领域检索系统,因而研究消防领域检索系统本身就是一种尝试。( 2 ) 充分考虑消防信息的特点,采用p r o t 6 9 6 加以实现,构建消防领域本体库。( 3 ) 提出了基于本体的消防信息检索系统的设计思想,并实现原型系统。( 4 ) 集成当前的流行的检索系统,突出用户个性化,为用户提供人性化的服务。1 3 本文的组织结构本文是根据作者所做的工作进行组织安排的,具体组织方式如下:第1 章绪论第1 章首先说明了本文的研究背景,研究工作,接着对文章的组织结构进行介绍。第2 章介绍了信息检索机制中的起源和发展,类型及常用技术等。第3 章介绍了本体相关概念及应用研究。第4 章提出基于本体的消防信息检索系统的设计构架第5 章构建消防领域的消防器材本体。第6 章提出基于本体的消防信息检索的设计和实现。第7 章通过对所做的工作加以总结,并提出了有待进一步探讨的问题。基于本体的消防信息检索系统的研究第2 章信息检索机制2 1 信息检索的含义信息检索,是指将信息按一定的方式组织和存储起来,并根据用户的需要查找这些信息的过程。广义的信息检索又称为信息存储与检索。狭义的信息检索则仅指从信息集合中查找所需信息的过程,相当于通常意义上的信息搜索【6 1 。信息检索包括信息的存储、组织、表现、查询、存取等各个方面,其核心为信息的查询。2 2 信息检索技术的起源和发展信息检索起源于图书馆的参考咨询和文摘索引工作,从1 9 世纪下半叶首先开始发展,至2 0 世纪4 0 年代,检索己成为图书馆独立的工具和用户服务项目。随着1 9 4 6 年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用同。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的w e b 内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求【引。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。在信息检索领域,英语信息检索的发展较为迅速。英语信息检索系统,可以利用向量空间表示检索信息内容,并将自然语言处理应用于信息检索,大大提高了信息查询的准确性。中文信息检索系统的发展相对较慢,目前已有的中文检索系统绝大部分仍为关键词检索,甚至许多系统还处于“字 索引阶段,不仅效率较低,而且信息检索的精度和准确性很差。究其原因,是因为中文信息检索有自身的特点,比如中文语词之间没有空格,因此在索引前需要进行语词切分。另一第2 章信息检索机制方面,与英语相比,汉语句法分析和语义理解更为困难,造成中文信息检索的发展较为缓慢。互联网技术对信息的传播方式带来了巨大的变化,也明显地促进了信息检索技术的发展和应用,一大批网络检索系统也随之诞生,为网民提供了快速信息获取和网络信息导航工具。从某种程度上可以说,网络信息检索代表了当代信息检索的发展方向。2 3 信息检索技术类型目前信息检索技术可分为3 判9 】:全文检索:把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文件语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大地降低了。数据检索:查询要求和信息系统中的数据都遵循一定的格式,具有一定的结构,允许对特定的字段检索。数据检索需要有标识字段的方法。数据检索的性能取决于所使用的标识字段的方法和用户对这种方法的理解,因此具有很大的局限性。数据检索支持语义匹配的能力也较差。知识检索:知识检索强调的是基于知识的、语义上的匹配,因此在查准率和查全率上有更好的保证。目前知识检索是信息检索研究的重点,特别是面向w e b信息的知识检索。这也是本文研究的重点。2 4 搜索引擎搜索引擎按照一定的策略在互联网中搜集和发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的目的。如果没有搜索引擎,用户要在互联网的信息海洋里寻找信息,必然会像“大海捞针 一样无功而返。2 4 1 搜索引擎的主要技术一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成【1 0 l 。搜索器:搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是利用能够从互联网上自动收集网页的绰号为“蜘蛛( s p i d e r ) 或“机器人( r o b o t s ) ”的基丁本体的消防信息检索系统的研究计算机程序在各网址中爬行,访问网络中公开区域的每一个站点并记录其网址,从而创建出一个详尽的网络目录1 1 1 】。同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。索引器:索引器的功能是理解搜索器所搜索的信息,由分析索引系统程序对收集回来的网页进行分析,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、u r l 、更新时间、编码、长度、链接流行度( l i n kp o p u l a r i t y ) 等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项( 或称短语索引项) 两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符( 空格) ;对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法1 1 2 】。索引表一般使用某种形式的倒排表( i n v e r s i o nl i s t ) ,即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系( p r o x i m i t y ) 。检索器:检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制1 1 3 j 。用户接口:用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。每个搜索引擎都提供了一个良好的界面,用户只要把想要查找的关键字或短语输入查询栏中,并按“s e a r c h ”按钮,就会得到查询结果。有些搜索引擎将搜索的范围进行了分类,查找可以在用户指定的类别中进行,这样可以提高查询效率,搜索结果的“命中率较高,从而节省了搜寻时间。2 4 2 搜索引擎分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类1 1 4 】:目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网第2 章信息检索机制站,提供目录浏览服务和直接检索服务【1 5 】。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:y a h o o ,o p e nd i r e c t o r y ,g og u i d e 等。机器人搜索引擎:由一个称为蜘蛛( s p i d e r ) l 拘机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户【1 6 】。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:g o o g l e ,b a i d u 等。元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户【1 刀。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r ,i n f o m a r k e t 等。2 4 3 检索效果评价衡量检索系统检索效果的参数主要有查全率( r e c a l lf a c t o r ) 和查准率( p e a i n e n c yf a c t o r ) ,查全率是检索出的相关文档数和文档库中所有的相关文档数的比率:查准率是检索出的相关文档数与检索出的文档总数的比率【1 8 】。对于一个检索系统来讲,查全率和查准率不可能两全其美:查全率高时,查准率低,查准率高时,查全率低。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的w e b网页,所以查全率很难计算,目前的搜索引擎系统都非常关心查准率。影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制【1 9 l 。2 5 信息检索的一些常用技术信息语词切分和语词词法分析:语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词问没有分隔符( 空格) ,因此需要进行语词切分。词语切分基于本体的消防信息检索系统的研究是汉语处理一个很重要的环节。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。进行词性标注及相关的自然语言处理:在切分的基础上,利用基于规则和统计( 马尔科夫链) 的方法进行词性标注。基于马尔科夫链随机过程的n 元语法统计分析方法,被证明在词性标注中能达到较高的精度【2 0 1 。在此基础上,还要利用各种语法规则,识别出重要的短语结构。建立检索项索引:一般使用倒排文件的方式建立检索项相关信息,相关信息一般包括“检索项 、“检索项所在文件位置信息”以及“检索项权重”。例如,检索项“计算机”的位置信息为“文档d 中第n 段第m 句第w 词 。这样,在信息检索时,用户可以要求在查询中,检索项t 1 和检索项t 2 位于同一语句或同一段落中。检索项索引的建立准则是要易于文档信息的更新处理。查询扩展处理:为了提高信息检索的召回率,需要进行查询扩展处理。这种处理根据同义词词典和语义蕴涵词典扩展查询检索项。同义词扩展,如“计算机和“电脑 指同一概念;因而查询“计算机”同时也要查询“电脑,反之亦然。主题蕴涵扩展是指不但要查询检索词,而且还要查询其中所包含的子概念。比如,主题词“艺术 包括“电影 、“舞蹈 、“绘画 等等。“电影 又包括“故事片”、“记录片一等。因此,查询“艺术”当然包括“电影 、“舞蹈”、“绘画 以及其下的子概念。为提高信息检索的精度,可利用向量空间模型实行相关查询反馈处理。即用户从初次查询的结果中,选择内容重要的文档或文档片断,让搜索引擎依据所选文档的特征,重新进行查询,从而提高查询精度【捌。2 6 传统信息检索技术的不足虽然搜索引擎基本上解决了在庞大的i n t e m e t 信息库中为用户搜寻所需要的信息的问题,但传统信息检索技术主要借助于目录、索引和关键词等方法来实现。此技术的优点是简单、快捷和容易实现,但存在以下问题1 2 1 l :信息过量,重复率和误检率高。一个搜索引擎对查询请求通常返回成千上万个检索结果,很多检索结果和用户查询毫无关系,其中还有很多重复的结果。第2 章信息检索机制不能很好理解搜索用户的真实意图。一义多词( 同义词) 现象的普遍存在,导致了传统信息检索的查全率难以保证,而一词多义( 多义词) 现象则导致在检索结果中包含大量的无效信息,使得查准率也难以满足。比如对于“绿茶”,人们要的可能分别是茶文化、健康知识、电影介绍、化妆品或者其他。但搜索引擎会返回所有的结果供用户选择,在大量的搜索结果中再次去挑选出自己想要的某一概念下的特定信息又是一项繁琐的工作。用户与系统的交互过于简单。并不是所有的用户一开始都有一个较为明确的杳询目标,他们只是知道自己对哪些主题感兴趣,却不知道使用什么关键词来明确地描述所需要的信息,此外有些信息查询是很难用几个关键词组合来准确的描述。而搜索引擎又没有边查询边修正查询关键词的功能,用户无法通过不断细化或精确化查询词来达到准确表达自己的需求的目的。也就导致了检索质量难近人意。没有考虑用用户的反馈提高查询结果。系统只负责返回结果给甩户,并不关心用户对返回结果的选择或评价,没有充分利用用户的反馈来进一步提高系统的性能。基于本体的消防信息检索系统的研究第3 章本体概念及应用研究3 1 本体的基本概念o n t o l o g y 的概念起源于哲学领域,即“对世界上客观存在物的系统地描述【2 2 】 。在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义【2 3 1 。后来在信息系统、知识管理等领域,越来越多的人研究本体,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由g r u b e r 提出的,“本体是概念模型的明确的规范说明【2 4 1 。f e n s e l 对这个定义进行分析后认为本体的概念包括四个主要方面【冽:概念化( c o n c e p t u a l i z a t i o n1 :客观世界中现象的抽象模型;明确( e x p l i c i t ) :概念及它们之间的联系都被精确定义;形式化( f o r m a l ) :精确的数学描述;共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。从以上不同研究者的定义,可以看出本体涉及到的概念为:术语( 词汇) 、术语关系、规则、概念化、形式化的规格说明、领域知识、表达和共享。其实,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言。虽然不同研究者对本体有不同的描述,但是从内涵上来看,他们对本体的认识是一致的,都是把本体当作某个领域内( 可以是特定领域的,也可以是更广的范围) 不同主体( 人、代理、机器等) 之间进行交流( 对话、互操作、共享等) 的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作为使用者之间达成的共识。3 2 本体的种类本体的分类方法很多,目前还没有能够被广泛接受的分类标准。本体可以按照研究主题,形式化程度,本体的研究层次进行分类。( 1 ) 根据本体的研究主题,可以分为知识表示本体、通用或者常识本体、领域本体、语言学本体、任务本体等【矧。第3 章本体概念及应用研究知识表示本体的研究重点是语言对知识的表达能力,典型的有s t a n f o r d大学知识系统实验室提出的一种称为知识交换格式k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) ;通用或者常识本体关注于常识知识的使用,例如著名的c y c 工程等;领域本体则在一个特定的领域可以重用,他们提供特定的概念定义和概念之间的关系,提供该领域中所发生的活动以及该领域的主要理论和基本原理等,对特定领域的本体研究和开发目前己经涉及到许多领域,包括企业本体、医学概念本体、酶催化生物学本体等;语言学本体是指关于语言、词汇等的本体,典型的实例有g u m ( g e n e r a l i z e du p p e rm o d e l ) 和p r i n c e t o n 大学研制的w o r d n e t 等;任务本体主要是指可以共享的问题求解方法,这里的推理方法与领域无关,任务本体主要涉及动态知识,而不是静态知识。任务本体的研究以c h a n d r a s k a r a n 等人的关于任务和问题求解方法本体的研究为代表。具体的研究主题包括:通用任务、与任务相关的体系结构、任务方法结构、推理结构和任务结构等。( 2 ) 根据本体形式化程度分类,可以分为完全非形式化本体、结构非形式化本体、半形式化本体、以及形式化本体【2 刀。完全非形式化本体采用自然语言来描述本体,例如爱丁堡大学企业项目中的e n t e r p r i s eo n t o l o g y 自然语言版;结构非形式化采用受限的或结构化的自然语言表示,以减少二义性,例如e n t e r p r i s eo n t o l o g y 的文本版本和w o r k f l o wm a n a g e m e n tc o a l i t i o n 推出工作流术语汇编;半形式化则用人工定义的形式化语言来表示,许多采用o n t o l i n g u a 描述的本体都属于这一类;形式化本体一般具有形式化语义,并且能够在某种程度上证明“一致性和“完整性 等属性,例如多伦多大学虚拟企业项目的企业本体。( 3 ) 根据本体的研究层次,可以分为顶层本体、领域本体、任务本体和应用本体等。基于本体的消防信息检索系统的研究顶层本体主要研究非常通用的概念,如空间、时间、事物、对象、事件、行为等,他们完全独立于特定的问题或者领域,因而可以在很大的范围内共享;领域本体主要研究与一个特定领域相关的术语或者词汇,如生物学、企业模拟等;任务本体主要用于定义通用任务或者推理活动,如诊断等,它们可以应用顶层本体中定义的词汇来描述自己的词汇;应用本体主要用于描述特定的应用,它既可以引用特定的领域本体中的概念,又可以引用任务本体中的概念。p e r e z 和b e n j a m i n s 在分析和研究了各种本体分类法的基础上,归纳出1 0 种类型,分别是:知识表示本体、通用本体、顶级本体、元( 或核心) 本体、领域本体、语一言本体、任务本体、领域一任务本体、方法本体和应用本体。这种分类法是对g u a r i n 。提出的分类方法的扩充和细化,但是这1 0 种本体之间有交叉,层次不够清晰【2 9 1 。3 3 本体描述语言s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n s ) 作为h t m l 的扩展,是马里兰大学开发的。它使用不同于h t m l 的一些标记,使得可以在h t m l 文档中插入本体。x o l ( o n t o l o g ye x c h a n g el a n g u a g e ) 是s r ii n t e r n a t i o n a l ( 斯坦福国际研究所) 的人工智能中心( a i c ) 开发的。其目的是在不同的数据库、本体开发工具、或者其他应用程序之间交换本体。r d f ( 资源描述框架,r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 是w 3 c 在x m l 的基础上推荐的一种标准,用于表示任何的资源信息。w 3 c 推荐以r d f r d f s 标准来解决x m l 的语义局限。o i l ( 本体推理层本体交换语言,o n t o l o g yi n f e r e n c el a y e r o n t o l o g y i n t e r c h a n g el a n g u a g e ) 是在欧洲的i s t 项目0 n t o - k n o w l e d g e 中开发的。o i l 以r d fs c h e m a为起点,用更为丰富的o n t o l o g y 建模原语对r d fs c h e m a 进行扩充。d a m l ( d a r p aa g e n tm a r k u pl a n g u a g e ) 是d a r p a 计划第一阶段所创建的一种语言。d a m l 扩展了r d f ,增加了更多更复杂的类、属性等定义。第3 章本体概念及应用研究o w l ( w e b 本体语一言,w e bo n t o l o g yl a n g u a g e ) 是w 3 c 推荐的本体描述语言的标准,位于w 3 c 绘制的本体语言栈的栈顶。其目的为了在w w w 上发布和共享本体而提供的语义标记语言,o w l 是在d a m l + p i l 的基础上发展起来的。作为r d f ( s ) 的扩展,目的是提供更多的元语以支持更加丰富的语义表达,并更好的支持推理【刈。基于不同的应用需求,o w l 提供了三个表达能力依次递增的子语台:o w ll i t e ,o w ld l 和o w lf u l l 。在表达能力和推理能力上,每个子语言都是前面的语言的扩展。o w l 是一个强大的本体描述语言。用o w l 能够描述很多概念与概念之间的基本关系,如等价,传递,概念之间的联合等等。o w l 有一些不能表达,这些包括字符串处理,数字运算,缺省值等。此外,推理在o w l 上面很困难,o w ll i t e 和o w ld l 是可判定的,而o w l 是不可判定的。o w l 的三个子语言描述如列表3 1 所示【3 1 1 。表3 1o w l 子语言t a b 3 1c h i l dl a n g u a g eo fo w l子语言描述例子o w l l i t e用于提供给那些只需要一个分类层次和简单的支持基数( c a r d i n a l i t y ) ,只允属性约束的用户。许基数为0 或1 。o w l d l支持那些需要在推理系统上进行最大程度表达当一个类可以是多个类的用户,这里的推理系统能够保证计算完全性的一个子类时,它被约束不( c o m p u t a t i o n a lc o m p l e t e n e s s ,即所有地结论都能能是另外一个类的实例。够保证被计算出来) 和可决定性( d e c i d a b i l i t y ,即所有的计算都在有限的时间内完成) 。它包括了o w l 语言的所有约束,但是可以被仅仅置于特定的约束下。0 w l f u u支持那些需要在没有计算保证的语法自由的一个类可以被同时表达为r d f 上进行最大程度表达的用户。它允许在一许多个体的一个集合以及个o n t o l o g y 在预定义的( r d f ,o w l ) 词汇表上这个集合中的一个个体。增加词汇,从而任何推理软件均不能支持o w lf u l l 的所有f e a t u r e 。基1 :本体的消防信息检索系统的研究3 4 本体的构造3 4 1 本体的构造准则目前大家公认在构造特定领域的o n t o l o g y 的过程中需要领域专家的参与,g r u b e r 提出了指导本体构造的5 个准则【3 2 l ,即:清晰( c l a r i t y ) :本体必须有效的说明所定义术语的意思。定义应该是客观的,与背景独立的。当定义可以用逻辑公理表达时,它应该是形式化的。定义应该尽可能的完整。所有定义应该用自然语一言加以说明。一致( c o h e r e n c e ) :本体应该是一致的,它应该支持与其定义相一致的推理。它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。可扩展性( e x t e n d i b i l i t y ) :本体应该为可预料到的任务提供概念基础。它应该可以支持在已有的概念基础上定义新的术语,以满足特殊的需求,而无须修改己有的概念定义。最小编码( m i n i m a le n c o d i n gb i a s ) :概念的描述不应该依赖于某一种特殊的符号层的表示方法。因为实际的系统可能采用不同的知识表示方法。本体约定最d , ( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :本体约定只要能够满足特定的知识共享需求即可。这可以通过定义约束最弱的公理以及只定义交流所需的词汇来保证。3 4 2 本体构造方法由于本体工程到目前为止仍处于相对不成熟的阶段,每一个工程都拥有自己独立的方法。下面是知识工程界所承认的几种本体开发方法:i d e f 5 法、骨架法、企业建模法、m e t h o m r o l ( 硒y 、循环获取法f 3 3 1 。这里仅用骨架法作介绍,骨架法是u s c h o l d & g r u n i n g e r 提出了一个本体构造的方法学框架,该框架包括以下组成部分:( 1 ) 确定本体的目的和使用范围。( 2 ) 构造本体。该阶段又分为以下几个步骤:本体捕获:即确定关键的概念和关系,给出精确定义,并确定其它相关的术语;本体编码:选择合适的表示语言表达概念和术语;第3 章本体概念及应用研究本体集成:该阶段要合成来自其他领域的概念和术语。( 3 ) 评价。根据需求描述、能力i c l 题( c o m p e t e n c yq u e s t i o n ) 等对本体以及软件环境、相关文档进行评价。( 4 ) 文档化。这些文档应该包括本体中定义的主要概念、元本体等。( 5 ) 每阶段的指导方针。3 4 3 本体建设工具到目前为止,已经出现了许多本体建设工具。根据这些工具所支持的本体描述语言,大致可以分为两类。基于a i 的本体描述语言的一类工具:包括o n t o l i n g u a ,o n t o s a u m s ,w e b o n t o等。这三个工具的共同点是:都基于某种特定的语言( o n t o l i n g u a 基于o n t o l i n g u a 语言,o n t o s a u r u :基于l o o m 语言,w e b o n t o 基于o c m l 语言) ,并在一定程度上支持多种基于趾的本体描述语言1 3 4 1 。基于w e b 的本体描述语言的一类工具:包括p r o t 6 9 6 系列、w e b o d e ,o n t o e d i t ,o i l e d 等。这些工具最大的特点是独立于特定的语言,可以导入导出多种基于w e b 的本体描述语言格式( 如x m l ,r d f ( s ) ,d a m l + o i l , o w l 等) 。其中,除了o i l e d 是一个单独的本体编辑工具外,其他都是一个整合的本体开发环境或一组工具。它们支持本体开发生命周期中的大多数活动,并且因为都是基于组件的结构,很容易通过添加新的模块来提供更多的功能,具有良好的可扩展性。3 5x m l 与r d f 介绍3 5 1 扩展标记语言发展史2 0 世纪7 0 年代以后,随着微型计算机的普及,计算机的使用在数据处理基础上,转化为文字信息处理。由于各个程序使用的语言、系统不同,造成编辑的文本信息格式各不相同,极大地制约了信息的交换,信息检索方法也随格式不同而复杂程度不同。为了实现数据之间的互换,国际标准化组织( i s o ) 1 9 8 6 年1 2 月制订了文档记述的标准,即s g m l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 清洁生产状态评估与环保设施更新合同
- 离婚协议范本:共同财产分割及个人债务清偿执行细则
- 旅游民宿门面房租赁与民宿管理服务合同
- 离婚协议中共同财产分割及债权债务处理保证协议
- 2025年水利安全员c证考试题库(及答案)
- 2025年安全培训考试题库完整及答案解析
- 2025年【焊工(高级)】模拟考试题及答案
- 2025年同等学力申硕工商管理考试测试题含答案
- 2025年临床助理医师考前预测试卷及答案
- 2025年公务员考试行测常识题库及参考答案
- QA出货检验日报表
- 《婴幼儿常见病识别与应对》3.5 消化系统常见病防治与护理
- 加润滑油安全操作规程
- 萨福双脉冲气保焊说明书DIGIPLUS课件
- 高中期中考试家长会PPT课件 (共51张PPT)
- JJG 573-2003膜盒压力表
- GB/T 39634-2020宾馆节水管理规范
- GB/T 13234-2018用能单位节能量计算方法
- 营业线施工单位“四员一长”施工安全知识培训考试题库
- 紧急采购申请单
- 工程地质学:第7章 岩体结构及其稳定性
评论
0/150
提交评论