(计算机科学与技术专业论文)领域本体的构建及其在信息检索中的应用研究.pdf_第1页
(计算机科学与技术专业论文)领域本体的构建及其在信息检索中的应用研究.pdf_第2页
(计算机科学与技术专业论文)领域本体的构建及其在信息检索中的应用研究.pdf_第3页
(计算机科学与技术专业论文)领域本体的构建及其在信息检索中的应用研究.pdf_第4页
(计算机科学与技术专业论文)领域本体的构建及其在信息检索中的应用研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机科学与技术专业论文)领域本体的构建及其在信息检索中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士研究生学位论文领域本体的构建及其在信息检索中的应用研究 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮 电大学或其他教育机构的学位或证书而使用过的材料与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意 申请学位 本人签名 ,本人承担一切相关责任 日期:塑! z :f :堡 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全都或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书非保密论文注释: 本学位论文不 本人签名: 导师签名: 权书 日期:2 0 0 z6 2 7日期: 兰! ! z :垒:兰¥ 日期:2 竺垒2 :2 : 北京邮电大学硕士研究生学位论文领域本体的构建及其在信息检索中的应用研究 领域本体的构建及其在信息检索中的应用研究 摘要 作为北京邮电大学智能通信软件与多媒体北京市重点实验室科研 项目“基于g l o b u s 的分布式推理机研究”的前期工作,本文着 重研究了领域本体的构建及其在信息检索中的应用。 随着网络信息的急增,信息检索工具将扮演着越发重要的角色。 借助于信息检索工具,人们可以快速、准确地查找到所需的信息。查 全率和查准率是衡量信息检索工具的重要标准,目前基于关键字的信 息检索在查全率和查准率方面都有待提高。一方面,检索工具会返回 大量无关的链接:另一方面,相当多的有效信息被检索工具遗漏了。 为此,应该把信息检索从基于关键词的层次提高到基于概念的层次, 同时应该对概念的相关性进行挖掘。而基于领域本体的语义检索正是 实现这种提高的关键所在。 本文获得的主要研究成果有: ( 1 ) 针对己有本体建模方法的局限性,借鉴软件工程学中基于软 件生命周期的建模理论,建立了电影本体的结构模型。提出了一种新 的基于平面螺旋关系的本体知识存储机制,以降低查询构造的复杂 度,提高查询扩展的效率。 ( 2 ) 设计了基于电影领域本体的智能信息检索模型的三层体系结 构,实现了查询生成,查询优化,匹配服务,检索结果序列优化等功 能模块。 ( 3 ) 提出了一种新的基于查询表达式与关系表互为映射的查询提 炼算法,使得自然语言查询处理过程中避免引入复杂的分词环节,能 够识别查询语句中的核心概念,有效地提高了查询效率。 ( 4 ) 建立了基于本体的电影领域信息检索原型系统,充分利用本 体在知识重用和共享上的优势,帮助用户从领域知识库中高效地获取 专业信息。 ( 5 ) 根据检索的结果与检索词的关联程度,提出一种新的基于本 体加权语义树的相似度算法,使得检索的结果文档按照语义相关性从 高到低排列。 关键词:领域本体信息检索模型语义相似度 北京邮电大学硕士研究生学位论文顿域本体的构建及其在信息检索中的应用研究 a b s t r a c t a st h ep r e l m m r yw o r ko ft h er e s e a r c hp r o j e c t 。r e t m a r c ho nt h eg l o b mb a s e d d i s t r i b u t e dr 器o n e rs y s t e m , t h a ti ss u p p o r t e db y b 蜘i n gk e yl a bo fi n t e l l i g e n t c o m m u n i c a t i o n ss o f t w a r e m u l t i m e d i af r o mb u p t , t h i sp a p e rf o c u s e s0 1 1t h es t u d y o f t h em e t h o d sf o rb u i l d i n gd o m a i no n t o l o g i ma n di t sa p p l i c a t i o n w i t ht h er a p i di n c r e m e n to ft h ei n f o r m a t i o no nt h ew 曲舢f o r m a t i o nr e t r i e v a l t o o l sa r cb e c o m i n gm o r oa n dm o r ei m p o r t a n t w i 也t h eh e l po ft h ei n f o r m a t i n n r e t r i e v a lt o o l s , p e o p l ec a nl o c a t et h en e e d e di n f o r m a t i o ni naq u i c ka n dc o r r e c t w a y r e c a ua n dp r e c i s i o l la r ei m p o r t a n ts t a n d a r d sf o ri n f o r m a t i o nr e t r i e v a lt o o l s , b u t t h ei n f o r m a t i o nr e t r i e v a lb a s e do nt h ek e y w o r d si sf a rf r o ms a t i s f a c t i o ni nr e c a l la n d p r e c i s i o n o nt h eo n eh a n d al o to fi r r e l e v a n tl i n k sa r cr e t u r n e d o nt h eo t h e rh e n d , a l a r g eq u a n t i t yo f v a l u a b l ei n f o r m a t i o ni sm i s s e d s ot h ei n f o r m a t i o nr e t r i e v a lh a st ob e p r o m o t e df z o mt h ek c y w o r d sl e v c lt ot h ec o n c e p t i o nl e v e l a tt h es a m ct i m et h e r e l e v a n c eo ft h ec o n c e p t i o ns h o u l db ee x p l o i t e d a n dt h es e m a n t i cr e t r i e v a lb a s e do n d o m a i no n t o l o g yi 3j u s tt h ek e yf o rt h i si i l l p r o v c t n e n t s o m ea c h i e v e m e n tt h ep a l m h a sa c q u i r e dc a l lb ea 【p 嘴s s e da sf o i l o 噶: ( 1 ) a i m e dt ot h el i m i t a t i o n so fs o i n ce x i s t i n go n t o l o g ym o d e l i n gm e t h o d , t h e p a p e ru s e st h e $ o r w a r eh i ec y c l em o d e l i n gm e t h o df r o ms o f t w a r e _ e n g i n e e r i n gf o r r e f e r e n c e , t h e nb u i l d su pt h es t r u c t u r em o d e lo fm o v i a 3 n t o l o g y an e wo n t o l o g y k n o w l e d g es t o r a g em e t h o db a s e do np l e n eh e l i xr e l a t i o ni sp r e s e n t e d 啦m e t h o d 锄 r e d u c et h ec o m p l e x i t yo fq u e r yc o n s t r u c t i n g , a n di m p r o v et h ee f f i c i e n c yo fq u e r y e x t e n s i o n ( 2 ) at h r e e - l a y e r s s t r u c t u r ef o rm o v i ed o m a i no n t o l o g yb a s e d i n t e l l i g e n t i n f o r m a t i o nr e t r i e v a ls y s t e mi sd e s i g n e di nt h ep a p c r , a o dw or e a l i z e 娜ef x i c t i o n m o d u l e s ,s u c ha sq u e r yb u i l d i n g , q u e r yo p t i m i z i n g , m a t c h i n gs e r v i c e , o r d e r so p t i m i z i n g o f r e t r i v a lr e s u l t se t c ( 3 ) t h ep a p e rp r e s e n t san e wq u e r ya b s t r a c t i n ga l g o r i t h m , w h i c hi sb a s e do nt h e m u t u a lm a p p i n gb e t w e e nq u e r ye x p r e s s i o na n dr e l a t i o nt a b l e s u p p o r t e db yt h e a l g o r i t h m , t h ec o m p l i c a t e ds t e p so fg l o s s a r ys y n c o p a t i o n 潍b ea v o i d e dd u r i n gt h e p r o c 舒so t n a t u r & ll a n g u a g e q u e r yd e a l i n g 1 4 ) t h ea u t h o rd e v e l o pa no m o l o g y - h a s e di n f o r m a t i o nr e t r i e v a lp r o t o t y p es y s t e m o fm o “ed o m a i n f u l l yu t i l i z i n go n t o l o g y ss u p e r i o r i t yi nk n o w l e d g er e u s ea n d k n o w l e d g es h a r e i tc a l lh e l pu s 啪a c q u i r ep r o f e s s i o n a li n f o r m a t i o nf r o md o m a i n k n o w l e d g e b a s e ( 5 ) a c c o r d i n gt ot h er e l a t e dd e g r e eb e t w o c nr e t r i v a lr e s u l t sa n dq u e r y , t h ep a p e r p u tf o r w a r dan e ws i m i l a r i t ya l g o r i t h mt h a tc a nm a k et h er e t r i e v a lr e s u l t sr a n k e d d e s c e n d e r l yi ns e m a n t i co r d e r s k e yw o r d s :d o m a i no n t o l o g y , i n f o r m a t i o nr e t r i v a lm o d e l ,s e m a n t i cs i m i l a r i t y 3 北京邮电大学硕士研究生学位论文领域本体的构建及其在信息检索中的应用研究 第一章绪论 作为北京邮电大学智能通信软件与多媒体北京市重点实验室科研项目 “基于g l o b u s 的分布式推理机研究”的前期工作,本文着重研究了领域本体的 构建及其在信息检索中的应用 1 1 信息检索 1 t 1 信息检索概述 信息检索领域所涉及的范围很广,它包括信息的表示、存储、组织和获取 信息检索系统应该为用户提供一个非常简单的方法来访问他所关心的信息但 是,如何表示用户的信息需求并不是一个容易的问题。为了查询到自己感兴趣的 信息,用户必须首先将信息需求转化成一个查询式,这个查询式是可以被信息检 索系统所识别的在当前的大多数系统中,这个查询式是由一组关键字所组成。 检索系统根据这些关键词从大量的数据库中获取用户感兴趣的信息,并组织成用 户便于使用的方式返回给用户,这就是信息检索系统的工作原理 理想的信息检索系统应该实现一旦用户提交查询式,就马上返回所有符合要 求的信息,并且不被那些不相关的内容所打扰,这引出了对信息检索系统l i 】的两 个基本评价标准:查全率( r e c a n ) 和查准率( p r e d s i o n ) 。查全率是在当前数据库中 所有符合检索要求的文档之中被检出的文档所占的比例。查准率是检出文档之中 真正符合检索要求的文档所占的比例。必须综合考虑查全率和查准率,不可偏废。 根据不同的标准,信息检索有不同的分类。一般来说,信息检索按检索技术 可以分为三类i l l :全文检索( t e x tr e t r i e v a l ) 、数据检索( d a t ar e t r i e v a l ) 和知识检索 ( k n o w l e d g er e t r i e v a l ) 全文检索是指计算机索引程序通过扫描文章中的每一个词,来对其建立索 引,指明该词在文章中出现的次数和位置;当用户查询时,检索程序就根据事先 建立的索引进行查找,并将查找的结果反馈给用户的检索方式全文检索主要分 为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引, 检索时将词分解为字的组合按词检索指对文章中的词,即语义单位建立索引, 检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词, 因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切 分字词,以达到按词索引的目的。由于全文检索的特点是把用户的查询请求和全 文中的每一个词进行比较,不考虑查询请求和文本语义上的匹配,这种方法虽然 可以保证查全率,但是查准率大大降低了。 数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式,具有一 定的结构,允许对特定字段检索。数据检索需要有标识字段的方法,其性能取决 于所使用的标识字段的方法和用户对这种方法的理解,因此具有很大的局限性。 数据检索支持语义匹配的能力也较差。 知识检索强调的是基于知识的、语义上的匹配,因此在查准率和查全率上有 更好的保证。目前知识检索是信息检索研究的重点,特别是面向w e b 信息的知 识检索。 北京邮电大学硕士研究生学位论文领域本体的构建及其在信息检索中的应用研究 1 1 2 信息检索存在的问题 随着因特网的普及,信息检索发展到了网络检索的阶段,搜索引擎作为使用 频率最高的网络信息检索工具,为人们获取信息提供了方便的手段。但根据美国 p e w a n t e m e t 调查公司对美国搜索引擎使用者的调查结果显示【2 】,随着因特网上 的信息量呈指数级的增长,人们却因为“信息过载”而陷入了“信息危机”中。 究其原因,一方面是由于因特网信息分布的特点导致了人们处于一个鱼目混珠、 纷繁复杂的信息环境;另一方面是目前的信息检索技术还不能完全满足用户的需 求,主要表现如下: 1 搜索引擎不能体现用户的个性化信息需求:网络信息内容覆盖面很广、 形式各异,而搜索引擎对所有的用户提供相同的界面和检索策略;但实际上不同 用户或同一用户在不同的时刻对信息需求的侧重点是不同的。 2 搜索引擎不能为用户提供高质量的信息:目前的搜索引擎检索方式单一, 仅能为用户提供分类浏览的查询方式或基于关键词的全文检索方式,不能充分表 达与理解用户的检索需求,也不能理解文档的内容并提取其所揭示的主题内容, 因而无法提供基于内容的、智能的信息检索服务。分类方式查询按类层层查询, 方式虽然简单,但容易漏检,查全率低;基于关键词的全文检索匹配模式单一, 会反馈给用户大量无关信息,从而降低查准率。 3 w e b 环境下的信息资源结构多样。搜索引擎只能为用户提供网页格式的 文档信息,对于在数据库中存放的结构化数据则无能为力,而这类“隐性数据” 通常是经过人工控制的比较有价值的信息。 4 网络信息是实时动态的,但搜索引擎只能在一定的时间间隔内对信息进 行采集标引,不能保证信息的及时更新,由此产生错链接和死链接,给用户造成 浏览负担。 目前因特网在信息表达和检索方面存在的这些缺陷,是因其设计目的是面向 用户直接阅读与处理,而非是提供给计算机阅读的,因此限制了计算机在信息检 索中的自动分析处理以及进一步智能化的信息处理能力。而当前互联网搜索引擎 的强大功能是由其后台强大的硬件服务器群和适合的体系结构支撑的,而不是其 本身采用的检索技术先进。例如著名的网络搜索引擎g o o g l e 和b a i d u ,都是采用 基于关键词匹配的全文检索技术,这种单纯按照字面匹配的检索技术其弊端是显 而易见的。假设用户输入“牡丹”这个检索词,系统会把所有出现“牡丹”两个 字的文章反馈给用户,而不管这些文章是关于植物花卉的还是牡丹电器的或是和 牡丹江地名有关的。由此可见,基于关键词匹配的全文检索技术所采用的基于字 符串匹配的标引缺乏语义信息,这种先天不足导致了后期检索质量很难有质的飞 跃。 为了解决上述问题,本体( o n t o l o g y ) 作为一种能在语义和知识层次上描述信 息系统的概念模型建模工具,自提出以来就引起了国内外众多科研人员的关注, 并在计算机信息检索领域取得了广泛的应用。形式化定义的本体不仅能够以面向 对象的方式描述特定领域的主要概念,而且能够描述概念之间的关系:借助本体, 普通用户可以方便地在概念上描述信息需求,构造复杂的查询;信息检索系统可 以对信息源进行深层次的语义标引,从而突破机械式字面匹配局限于表面形式的 缺陷,实现概念检索。 北京邮电大学硬士研究生学位论文 领域本体的构建及其在信息检索中的应用研究 1 1 3 智能信息检索技术 鉴于传统检索系统的这些缺陷,智能化检索得以快速发展。目前,智能信息 检索系统常用的技术脚有: 1 机器学习 机器学习是研究如何使机器模拟人利用各种学习方法来获取知识,并进行知 识的积累、修改和扩充的过程,目的是将数据库和信息系统中的信息自动提炼并 转换成知识机器学习的一般过程是建立理论、形成假设和进行归纳推理,通过 学习处理环境提供的信息,以丰富知识库中的知识机器学习技术是网络信息检 索技术智能化的基础。 2 自然语言理解 自然语言理解是自然语言处理的高级阶段,它是研究如何让计算机理解并生 成人们日常所使用的语言,使得计算机懂得自然语言的含义其目的在于建立起 一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活 动。其常用技术包括三个方面:机器翻译、语义理解和人机会话技术。 ( 1 ) 机器翻译 机器翻译是利用计算机把一种自然语言转变成另一种自然语言的过程智能 搜索引擎在这一领域的研究将使得用户可以使用母语搜索非母语的网页,并以母 语浏览搜索结果。 ( 2 ) 语义理解 语义理解通过将语言学的研究成果和计算机技术结合在一起,实现了对词语 在语义层次上的理解。在语义理解的整个过程中,又涉及到三种技术:自动分词、 短语识别和同义词处理。 ( 3 ) 人机会话技术 人机会话技术可以为计算机提供下一代的人机交互接口,实现从文字接口, 图形接口到自然语言接口的革命,其技术内涵主要包括语音识别、语音合成两个 核心部分。这将使得检索接口的自然化、可视化和人性化成为可能。 目前,由于自然语言理解技术自身发展还不成熟,基于语义处理和知识表示 方面都存在许多困难,因而将自然语言理解与信息检索相结合,最终达到进一步 提高检索系统的整体性能还是一个有待挖掘的课题。 3 基于词表的知识推理 基于词表的知识推理是以词表关于概念间关系的知识为依据,并模拟人类检 索专家推理思维的过程,来实现信息检索的智能化。基于词表的智能信息检索系 统是在传统检索系统中融入专家系统技术而形成的信息系统,它以概念间存在的 内在关系为研究出发点,达到了在一定程度上对概念的理解和对人类专家检索过 程模拟的目的,以实现信息检索的智能化。 4 智能搜索代理 人们在进行互联网信息检索时,总是期望获得较高的查全率和查准率,这就 要求用户在使用搜索引擎时不但要提交高质量的查询式,还要知道信息源的位 置,这对于一般用户来说是很难的。而智能代理就可以代替用户进行信息的搜索 和定位工作,该技术是人工智能研究的新成果,它在用户没有明确具体要求的情 况下,根据用户需要,代替用户进行各种复杂的工作,如信息查询、筛选等,并 能推测用户的意图,自主制定工作计划。一般来说,智能代理有如下特征: ( 1 ) 智能性,具有丰富的知识和一定的推理能力,能对用户的需求进行分析, 北京邮电大学硕士研究生学位论文领域本体的构建及其在信息检索中的应用研究 自动拒绝一些不合理或者可能给用户带来危害的要求,而且具有从经验中不断学 习以提高处理问题的能力。 ( 2 ) 代理性,在功能上是用户的某种代理,它可以代替用户完成一些任务, 并将结果主动反馈给用户。 ( 3 ) 移动性,可以在网络上漫游到任何目标主机,并在目标主机上进行信息 处理操作,最后将结果集中返回到起点,而且能够随计算机用户的移动而移动。 ( 4 ) 主动性,能根据用户的需求和环境的变化,主动向用户报告并提供服务。 ( 5 ) 协作性,能通过各种通信协议与其他智能代理进行信息交流,并可以相 互协调共同完成复杂的任务。 1 2 领域检索现状分析 1 2 1 领域检索国内外相关研究 w e b 检索的主要服务对象定位于大众,因此检索结果泛而不精是其特点之 一,而对于特定领域的从业者来说,他们更多时候希望检索的结果全而精且局限 于自己感兴趣的领域之内,因此专业的领域检索系统开发成为近年来信息检索 ( i n f o r m a t i o nr e t r i e v a l 。i r ) 领域的研究热点。 近几年,国内外领域检索的相关研究主要有: ( 1 ) 哈尔滨工业大学,杨艳琴,对目前生物学领域最丰富的t a o 知识库进行 研究和分析,设计并开发了基于t a o 的生物领域信息检索系统【4 】。 ( 2 ) 中国农业大学,赵庆龄,针对农业知识本体论基础性研究的特点,结合 土壤与农业化学专业知识,建立了土壤领域知识体系,并在此基础上开发了基于 网络的农业科技信息智能检索系统嘲。 ( 3 ) 中国科学院自动化研究所,宛根训,对商标领域图像数据库进行研究, 开发出高效、准确的商标自动检索系统,减少传统的关键词检索方法存在的缺陷, 提高商标注册的准确性并缩短注册的时间【6 】。 ( 4 ) 浙江大学机械电子控制工程研究所,叶冰,陈鹰,设计了一个面向机械 行业的信息搜索系统的实现框架,探讨了行业信息的特征表示、特征匹配的实现 这一前台信息数据的主动获取过程;同时也讨论了集中式行业信息数据库的信息 检索这一后台信息检索问题。通过该系统,可以方便行业内的企业用户和技术人 员快速、高效地获取比较精确和技术性强的信息 7 1 。 ( 5 ) m e d i c a lm a t r i x ,由堪萨斯大学创建,现由美国m e d i c a lm a t r i xl l c 主持, 是目前最重要的医学专业搜索引擎。它是一个因特网上内容全、不受限的临床医 学资源的全方位列表,将站点根据性质、评估、内容、特色和临床内容水平分级, 它是一个可免费进入的i n t e r a c ti 临床医学数据库,提供了关键词搜索和分类目录 搜索,最适合临床医师使用。 ( 6 ) e n t r c z 生物信息检索系统是由美国n l m 的生物技术信息中心( n a t i o n a l c e n t e rf o rb i o t e c h n o l o g yi n f o r m a t i o n , n c b i ) 建立的一个生物医学专业的具有综合 服务功能的免费数据库检索系统。e n t r e z 系统最大的优点是:通过其任何一个数 据库作为入口检索,便可在其他数据库中找到相关的检索提问信息,利用该系统 可方便地进行文献检索、生物化学物质及其结构信息的检索等。 北京邮电大学硕士研究生学位论文 领域本体的构建及其在信息检索中的应用研究 1 2 2 领域检索现状分析 领域查询是一种利用国际信息资源的重要现代化手段,能够迅速高效地提供 信息服务。因此长期以来,如何很好地利用领域检索都是讨论的热点但是由于 当今领域查询系统及数据库的数量迅速增长,查询技术也日新月异,挖掘领域检 索的潜力这一任务变得越来越困难,用户己被置于一个数据库的。迷宫”之中, 即使对于专业查询人员,能否合理地选择查询系统和数据库,也是一个非常棘手 的问题。接下来的两方面是对一这种状况的典型分析: 1 从查询方式来看 随着i n t e r n e t 的普及和发展,人们越来越依赖网络从事科研及商务活动,但 是利用现有领域查询系统来查询某一信息,得到的结果存在着大量冗余,很少有 他们想要的东西,其中的原因在于目前的领域检索系统查询的方式大多是基于关 键词或者内容分类目录进行查找的,很少有进一步的智能化处理 2 从数据源质量来看 人们对查询要求有很好的全面性和时效性,这就对数据库资源的质量提出了 严格的要求无论是什么类型的联机检索系统,数据源都是其核心。即使再先进 的领域检索系统,如果没有高质量的数据库资源,那也没有什么价值。 特别是我们国家领域数据库的发展和建设起步比别人晚,目前总体水平还是 比较低,这表现在: ( 1 ) 领域数据库的容量较小,覆盖年限短,时效性差; ( 2 ) 领域数据库规范性差,数据库服务能力差; ( 3 ) 领域数据库的开发缺乏市场意识; ( 4 ) 领域数据库建设中的小型、交叉、重复问题等较严重 1 3 本文主要内容和意义 1 3 1 本文研究的目标和内容 1 本文研究的目标 本文的研究目标是在深刻理解本体理论的基础上,以业界著名的亚马逊公司 的4 互联网电影数据库”( l v i d a ,i n t e m o tm o v i ed a t a b a s e ) 中的知识文档为参照, 进行电影本体知识库的构建,并尝试将建立好的电影领域知识库嵌入专业的检索 系统中,开发出一个基于本体的领域智能检索原型系统,从而实现基于本体的领 域知识检索。 2 本文研究的内容 本文主要工作如下: ( 1 ) 在浏览国内外本体研究文献的基础上,探讨了本体的内涵,介绍了一些 著名的本体描述语言和编写工具,并对主要的本体建模理论进行了比较分析。 ( 2 ) 梳理电影领域的知识结构,应用基于软件生命周期的建模理论,采用 o w l 语言和p r o t ! 9 6 工具构建电影本体m o v i e o n t o l o g y 。 ( 3 ) 研究基于o w l 描述的本体知识库与关系数据库如s q ls e r v e r 之间的数 据映射方法,采用j s p 技术实现基于w e b 的电影领域智能信息检索服务。 北京邮电大学硕士研究生学位论文 领域本体的构建及其在信息检索中的应用研究 ( 4 ) 开发了一个基于电影本体的智能检索模型,以其为基础研究了本体查询 的算法。然后在研究传统信息检索相似度算法的基础上,提出基于本体加权语义 树的相似度算法,对系统的检索结果进行评价。 1 3 2 本文研究的意义 在当前信息爆炸的时代,对信息检索的要求也正在向纵深方向发展,人们在 进行信息查询时,不仅希望能够查询出所有感兴趣的信息,过滤掉无关的信息, 同时希望获得最有参考价值的信息,以最快的速度解决问题。这就要求信息检索 系统能够正确的理解用户的信息需求,同时具备对数据源进行语义分析( 表述及 推理1 的能力。针对这一客观问题,本文在研究本体理论的基础上,构建了电影 本体知识库,并构建了基于该知识库的的领域智能检索系统,该系统的检索结果 更加贴近用户的需求,同时能够更加合理地组织现有的数据资源。 通常,领域数据源的质量是制约领域查询的关键性因素,我们在逐步提高数 据源质量的同时,改进查询思想基于本体的语义检索,充分挖掘数据源内部 隐含的语义关系,这能在很大程度上弥补数据源质量的不足,同时促进查询处理 的标准化,能够有效的提高领域信息查询的质量和效率。这对于专业的信息服务 工作者、经常需要利用高质量信息的相关人员来说具有切实的应用价值。 因此,本文的研究意义为: ( 1 ) 通过研究开发基于本体的试验性领域应用模型,实现基于本体的智能检 索,从而揭示基于本体的知识体系在专业知识挖掘方面的实力和前景。 ( 2 ) 本课题的研究提供了一种新的、先进的智能检索方法,而且可以推广应 用于其它相关信息检索领域。 ( 3 1 本研究既是领域本体中的基础性研究,又具有创新意义和实用性,而且 将为后继的相关研究提供一定的经验教训。 1 3 3 本文结构安排 本论文共分六章,其主要章节内容如下: 第一章“绪论”,介绍整个课题的背景,提出了研究内容和主要工作,对本 文的工作进行了整体介绍。 第二章“本体理论概述”,介绍语义w e b 技术,从而引出本体的概念;然后 介绍了本体相关的主要技术理论。 第三章“领域本体的构建研究”,根据现有的本体建模方法,结合本体自身 特性以及软件工程学中基于软件生命周期的建模理论,来指导构建电影领域本 体,并提出了一种新的本体知识存储机制。 第四章“基于本体的电影领域信息检索”。详细介绍基于电影领域本体的智 能检索模型以及实现过程中查询生成与提炼等关键技术。然后在此基础上构造了 电影本体智能检索原型系统,并对其功能模块进行了介绍。 第五章“领域本体的相似度计算与系统评价”,介绍本体加权语义树的构造 方法,并在此基础上提出基于本体加权语义树的相似度算法。然后在构建的原型 系统中,应用此算法来与传统相似度算法进行了试验比较分析。 第六章“结束语”总结全文,提出了一些不足并说明对今后工作的展望。 北京邮电大学硕士研究生学位论文 领域本体的构建及其在信息检索中的应用研究 第二章本体理论概述 本章首先介绍语义网知识基础,然后介绍了本体的概念、分类、功能、构建 原则以及本体在信息检索领域的应用然后对本体的描述语言及开发工具进行了 比较分析,为后续建立领域本体奠定了基础 2 1 语义网基础 2 1 1 语义同技术架构 语义w e b 的思想 g l 就是利用元数据( m e t a d a t a ) 语言对w e b 信息资源的内容进 行语义上的描述,从而使计算机能够利用这些语义信息对信息资源的内容进行理 解和处理,并在此基础上实现更高级的、基于知识的智能应用。语义w e b 中采 用的知识表示方法,是为了满足计算机能够理解w e b 上的内容,并对其进行判 断和推理,满足智能代理( a g e n t ) 对w e b 上异构分布信息有效访问和搜索的需要, 而产生的基于本体知识表示方法的新思想。因此,语义w e b 中的语义与对客观 存在的概念化以及描述认知结果的语言密切相关,而定义这种语义的核心就是在 数据的相互关系中定义数据的含义 语义w e b 韵建设分成三个步骤t 通过标记语言( 如x m l ) 定义一套术语,用 r d f 、o w l 等本体描述语言对其进行基本的语义描述,形成某个领域的本体, 这样不断地在网络中建设很多本体;然后编制软件,能够根据本体之间的关系进 行推理:最后基于推理软件建设应用 一万维网之父”t u nb c n e r s - l v v 认为哪:语义w e b 将会给网页有意义的内容 带来结构。从而为网络中代理了用户复杂需求的a g e n t 提供一个具有足够信息丰 度的环境。他为未来的w d o 发展提出了基于语义的体系结构语义w e b 体系 结构u q ,如图2 1 所示,从底层到高层分别为:u n i c o d v 与u r i ,x m l 、p d f ( s ) 、 o n t o l o g y 、l o s i c ,p r o o f t r u s l 。 图2 - 1 语义w e b 体系结构 北京邮电大学硕上研究生学位论文 领域本体的构建及其在信息检索中的应用研究 1 u n i c o d e 和u r i 层 这是语义w e b 的最底层。u n i c o d e 是一个字符编码系统标准,支持世界上所 有主要语言文本的混合,它可以保证我们使用国际化、通用化的字符集,避免不 同类型字符集之间由于编码不同而造成的存储、传递和使用上的混乱,同时也可 以实现多国语言的混合存储和使用。负责标识资源的u r l ( u n i v e l s a lr 船o u r i n d i c a t o r ) 是1 瓜i n l i l i v e 鹉a lr e s o u r c cl o c a t o r ) 的超集。u r i 是i n t e m e t 资源的一种 识别方法,在语义w e b 中,任何可以被描述的事务都可以称为资源,每一个资 源都由唯一一个u r i 所标识,不同的资源拥有不同的u r i ,通过指定的u r i 可 以确定互联网中唯一一个资源( 即定位的唯一性) 。 2 x m l + n s + ) 洲ls c h e m a 层 这是语义w e b 中首要的关键技术,也是整个体系结构的基础。用于从语法上 表示数据的内容和结构,通过使用标准的格式语言将网上资源和信息的表现形 式、数据结构与内容分离。 x m l 是一种允许自定义标记的通用、结构化的描述语言,已经成为描述w 曲 文档和数据的标准化语言。名称空间n s ( n a m e s p a c e ) 为x m l 文档中的结构化标 记提供了上下文环境,一方面为文档中的每一个标记都提供了确切的含义,另一 方面将不同上下文环境相同名称的标记区分开来,从而避免了语义上的歧义。 ) 0 “ls c h e m a 在标记的使用和文档机构上,为x m l 文档提供了明确的语义限制, 最终确保每一个x m l 文档都是语义合法、结构完整、内容有效的。 3 r i ) f + r j ) fs c h e m a 层 其提供的语义模型用于描述w 曲上的资源及其类型,为网上资源描述提供了 一种通用表示框架,以实现数据集成的元数据解决方案。 g d f ( r e s o u r e ed e s e r i p t i o i lf n u n e w o r k ,资源描述框架1 定义了一种用以描述资 源及其相互关系的简单模型,是语义w e b 实现的关键技术之一,是语义信息描 述的有效手段。其基本数据模型包括三类对象:资源、属性和陈述。资源之间的 关系通过属性和值来描述。描述特定资源特定属性的值,就构成r d f 的一个陈 述,通常可以用三元式 描述:其中,被描述的资源称 为s u b j e c t ,描述资源的属性称为p r e d i c a t e ,o b j e c t 则是属性对应的值。r d f 建立 在x m l 和u r i 的基础上。 r d f 通过属性和值描述资源及资源之间的关系,但并没有提供描述这些属性 和属性之问关系的机制。r d fs c h e m a ( 简称r d f s ) 提供了这种表达机制,它描 述了r d fp r o p e r t i e s 的使用规则,为r d f 提供了领域字典,并用类型层次结构 来组织该字典,从而构成完备的语义空间。r d f 和r d fs c h e m a 合称r d f ( s ) 。 x m l 和r d f 都能为所描述的资源提供一定的语义。但是x m l 中的标签和 r d f 中的属性集都没有任何限制,x m l 和r d f 不能处理以下问题:同一概念 有多种词汇表示;同一词汇表示多种概念。这一问题在本体层得到解决。 4 o n t o l o g yv a c a b u l a r y 层 语义w e b 的核心层,用来定义应用领域中的共享知识,从而对各种资源之间 的语义关系进行描述,揭示资源本事以及资源之间更为复杂和丰富的语义信息。 语义信息的交流必须以共同的理解为前提,否则双方就会发生误解和不理解。在 语义w e b 中,这一共同的“理解”,即共同的语义空间,是由本体建立和提供的。 关于本体理论的详细讨论见后面章节,它是本文研究的基础所在。 5 本体的上层:l o g i c 、p r o o f 和t r u s t 层 这三层位于语义w e b 体系机构的顶部,也是语义表达的高级要求,目前正处 北京邮电大学硕士研究生学位论文领域本体的构建及其在信息检索中的应用研究 于研究的阶段,也有一些简单的示范性应用系统正在建设中其中,逻辑层提供 了推理规则的描述手段,证明层通过运用这些规则进行逻辑推理和求证,而信任 层则负责为应用程序提供一种机制以决定是否信任给出的论证 6 数字签名( d i g i t a ls i g n a t u r e ) 在这个层次结构中,上层将下层的语言机制作为本层的支撑语言通过分析 器,从合法有效的下层描述中抽取出本层所能理解的模型,实现更多的语义处理 功能。因此,语义w e b 是向下兼容的,当用r d f x m l 表达o w l 时,如果只有 r d f 分析器,可以部分理解该本体内的类结构,只要忽略其中带。o w l :”前缀 的元素即可,但能完全解释该本体内的所有实例,因为这只是语法相关的由于 w e b 上的海量信息不可能在短时间内全部建立语义标记,而且语义的标记方法也 将不断发展,这种向下的部分可解释性为语义w e b 的发展提供良好的基础 2 1 2 概念问的语义关系 1 同义词关系 同义词关系表达了在相似数据源问的一种等价关系,是一种对称关系如计 算机和电脑就属于同一个概念,它们是同义词关系 2 上位关系 上位关系表示i s - a 关系,例如:t e a c h e r i s - a p e r s o n , p e r s o n 是t e a c h e r 的上位概 念。上位关系也称之为泛化关系,上位概念更具有一般化 3 下位关系 下位关系则与上位关系相反下位关系是不对称的,是一种偏序关系,具有 传递性。例如t e a c h e r i s - a p e r s o n , t e a c h e r 是p e r s o n 的下位概念;e n g l i s h t e a c h e r i s - a t e a c h e r , e n g l i s ht e a c h e r 是t e a c h e r 的下位概念根据传递性e n g l i s ht e a c h e r 也是 p e r s o n 的下位概念 4 属关系 属关系表示一类事物包含于另一类事物,如p a r t - o f 关系,鼠标p a r to f 电脑。 综合上面概念间的各种关系,以图2 2 来阐明概念语义图的具体结构,其中 概念在其中表现为节点,而节点问的弧则代表了上述的种种关系。 图2 吨概念语义图示例 北京邮电大学硕士研究生学位论文领域本体的构建及其在信息检索中的应用研究 本体论是语义网的基础,因为本体提供了形式化和一致的领域模型,可以被 人和机器解释。本体论对语义网络的支持主要体现在以下两个方面: 1 本体虽然可以呈现不同的形式,但所有的这些形式都应该包括词汇表, 为一个领域提供共享和一致的词汇,这样网络上的数据就具有了清晰的含义,便 于人和机器的通信。 2 本体的概念组织通常是一种层次结构,通过这种层次结构,我们即可获 取语义网络上部分数据的关系。同时,网络工具也容易利用这些关系对数据进行 推导、加工。 2 2 本体论 2 2 1 本体的概念 本体( o n t o l o g y ) “2 1 又称为实体,源自于形而上学的哲学分支,它对客观世界 的事物进行分解,发现其基本的组成部分,进而研究客观事物的抽象本质。近年 来,本体的概念被越来越多的应用于计算机知识工程领域,用于对客观世界的存 在进行系统化描述,方便知识的重用和交互。人们已经从不同的角度和方面为本 体论概念进行了定义,其中比较著名的有“本体是概念模型的一个显示的规格说 明”和“本体是共享概念的一个形式化的规格说明”。 目前获得大部分研究者公认的本体定义是t o mg r u b e f 【1 2 】于1 9 9 4 年在 s r k b ( s h a r e d r c u s a b l e k n o w l e d g e b a s e s ) 的邮件列表中提出的定义:“本体是关于 共享概念的协议。共享概念包括对领域知识建模的概念框架、可互操作的系统通 信协议和特定领域理论的表示协议。在知识共享环境中,本体以定义表达词汇的 形式来获得描述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论