(计算机科学与技术专业论文)基于本体的语义检索在轨道交通系统中的应用研究.pdf_第1页
(计算机科学与技术专业论文)基于本体的语义检索在轨道交通系统中的应用研究.pdf_第2页
(计算机科学与技术专业论文)基于本体的语义检索在轨道交通系统中的应用研究.pdf_第3页
(计算机科学与技术专业论文)基于本体的语义检索在轨道交通系统中的应用研究.pdf_第4页
(计算机科学与技术专业论文)基于本体的语义检索在轨道交通系统中的应用研究.pdf_第5页
已阅读5页,还剩100页未读 继续免费阅读

(计算机科学与技术专业论文)基于本体的语义检索在轨道交通系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 签字同期:沙门。年 狈舂衍 j 衫月。o 同 导师签名:赵嗳 签字日期:泐年6 月ly 同 -ir-_-_-。_-k 中图分类号:t p 3 9 1 1 l u d c :x x x x 学校代码:1 0 0 0 4 密级:公开 北京交通大学 硕士学位论文 基于本体的语义检索在轨道交通系统中的应用研究 t h e a p p l i c a t i o n r e s e a r c h o fs e m a n t i cr e t r i e v a lb a s e do no n t o l o g yi n r a i lt r a n s i ts y s t e m 作者姓名:张素静 导师姓名:赵宏 学位类别:工学 学科专业:计算机科学与技术 北京交通大学 2 0 1 0 年6 月 学号:0 8 1 2 0 5 9 9 职称:副教授 学位级别:硕士 研究方向:数据库 ,ii,ll_i 致谢 首先我要向我的导师赵宏教授表示衷心的感谢,是她的耐心鼓励和悉心教导, 引导我进入了信息检索这个领域。在我攻读硕士学位的近两年里,赵老师不仅在 学术上给予我悉心的指导和耐心的帮助,更教会了我做人的道理。赵老师严谨的 治学态度、精深的学术造诣、朴素的生活习惯和认真的工作作j x l 时刻感染着我, 激励着我,使我受益终生。 衷心的感谢赵老师对我的关心和帮助,每次想起她一遍遍不厌其烦地给我讲 解领域知识,帮我理顺丌题思路,熬夜加班,字斟句酌地为我修改论文的情景, 都让我不胜感激。论文从最初题目的选定、中途的撰写修改,直到最后的成稿, 都倾注了赵老师大量的心血。 感谢北京交通大学所有的任课老师对我的教诲和关心,老师们给予的知识是 我修身立命的根本,也是我论文构思的源泉,更是我受益终生的财富。感谢所有 和我一起攻读学位的各位同学,感谢在学习期问朝夕相处的各位朋友,在和他们 的交流中,增进了我继续峰持的信心,使我获得了不少的启迪,学习到了很多知 识。同时也向论文的参考和征引的文献资料的作者致以深深的谢意。 感谢我的父母兄嫂,是他们的支持让我得以完成学业,他们的勤劳善良给了 我无尽的动力和勇气。感谢我的爱人,感谢他在这两年罩对我的理解、支持、帮 助、鼓励和宽容,每当我缺乏勇气和信心时,是他的默默支持和鼓励使得我能安 心地完成学业。 最后,感谢百忙中抽出时l 日j 审阅拙作的各位专家,由于本人才疏学浅,论文 中难免存在疏漏之处,恳请各位老师批评指正。 中文摘要 摘要:随着网络技术的发展和网络应用的普及,依托网络技术的轨道交通系 统正在迅猛的发展,现有的轨道交通系统资源缺少统一的知识描述,导致各系统 问难以交互操作和共享。目前,基于关键字的检索方式在语义提示上有很大的局 限性,难以满足用户的要求。因此有必要引入新的技术手段对现有的轨道交通基 础数据平台进行改进。 本论文将本体的概念引入轨道交通系统中,首先论述信息检索和本体理论的背 景和意义,并介绍了目前国内外对基于本体的语义检索的研究现状;接着介绍了 本体和信息检索的基础知识,重点介绍了现有的本体构建方法;然后在总结已有 本体构建方法的基础上,结合高速铁路的实际情况,以高速铁路范畴表和主题 词表为基础,以动车组为例,提出了高速铁路领域本体的构建过程;接着介绍 了基于本体的语义检索的关键技术:语义预处理技术、语义相似度算法和语义扩 展查询算法等等,在此基础上,对语义相似度算法进行了改进,提出了一种从多 方面对关键词进行扩展的更完备的语义查询扩展算法;最后,将基于本体的语义 检索技术在轨道交通系统中加以实现,对前面所提到的理论和思想进行了初步验 证。 关键词:轨道交通;本体;语义检索 分类号:t p 3 9 1 1 1 a b s t r a c t a b s t r a c t :w i t ht h ed e v e l o p m e n to fn e t w o r k t e c h n o l o g ya n dp o p u l a r i z a t i o no f t h en e t w o r ka p p l i c a t i o n s ,r e l y i n go nt h en e t w o r kt e c h n o l o g yo f r a i lt r a n s i ts y s t e i ni sm e r a p l qd e v e l o p m e n to fr a i lt r a n s i ts y s t e m ,i t sd i f f i c u l tt oi n t e r a c t i v eo p e r a t ea n ds h a r et h e r e s o u r c e sb e c a u s eo f l a c k i n gt h eu n i f o r md e s c r i p t i o ni nv a r i o u ss y s t e m s a tp r e s e n t , k e y w o r d sr e t r i e v a lm e t h o d sc a n tm e e tt h er e q u i r e m e n t so f t h ec u s t o m e r sa st o om a j l v m e a n m gt ot h el i m i t a t i o n s t h e r e f o r e ,i ti sn e c e s s a r yt or e s e a r c han e w t e c h n i q u et o i m p r o v et h ee x i s t i n gr a i lt r a f f i cd a t ap l a t f o r m 1n 1 8p a p e rw i l li n t r o d u c et h ec o n c e p to f o n t o l o g yi nr a i lt r a n s i ts y s t e m ,t h i sa r t i c l e f i r s td i s c u s s e st h et h e o r yo f i n f o r m a t i o nr e t r i e v a l ,o n t o l o g yb a c k g r o u n da n ds i g n i f i c a l l c e a i l dm t r o d u c e st h ep r e s e n to nt h es e m a n t i cr e t r i e v a lb a s e do no n t o l o g y r e s e a r c hs t a t u s 1n e ni tm t r o d u c e so n t o l o g ya n db a s i c k n o w l e d g eo fi n f o r m a t i o nr e t r i e v a l ,t h i sp a p e r i n t r o d u c e st h ee x i s t i n go n t o l o g yc o n s t r u c t i o n ,t h e na tt h ec o n c l u s i o no ft h ee x i s t i n 2 o n t o l o g yc o n s t r u c t i o nm e t h o d ,a n db a s e do nt h ea c t u a ls i t u a t i o no f h i g hs p e e dr a i l w a v t h e h i g h 。s p e e dr a i l w a yc a t e g o r yl i s ta n dt h e s a u r u s ,t r a i n s ,f o r e x a m p l e ,t e l l st h e n l g h 。s p e e dr a i l w a yc o n s t r u c t i o np r o c e s so fd o m a i no n t o l o g y , t h e ni t i n t r o d u c e st h e s e m a n t l cr e t r i e v a lb a s e do no n t o l o g yi s t h ek e yt e c h n o l o g y :t h es e m 锄i cs i m i l 撕t v p r e t r e a t m e n tt e c h n i q u e s ,a n dt h es e m a n t i cq u e r ye x p a n s i o n ,e t c ,a n dt h e a l g o r i t h l n , b a s e do ns e m a n t i c s i m i l a r i t ya l g o r i t h mw a si m p r o v e d ,a n dp u t sf o n a r dak i n do f k e y w o r d st oe x p a n dm o r ec o m p r e h e n s i v es e m a n t i cq u e r ye x p a n s i o n a l g o r i t h m ,f i n a l ly t n es e m a n t i cr e t r i e v a l t e c h n o l o g yb a s e do n o n t o l o g y i nr a i lt r a n s i t s y s t e m i s 1 m p l e m e n t e di nt h eg a t e w a y , a n dt h e p r e v i o u s l ym e n t i o n e dt h e o r i e sa n di d e a sf o r p r e l i m i n a r yv m i d a f i o n k e y w o r d s :r a i l t r a f f i c ;o n t o l o g y ;s e m a n t i cr e t r i e v a l c l a s s n 0 :t p 3 9 1 1 1 l 目录 目录 中文摘要i i i a b s t r a c t v i i 1 绪 仑1 1 1 背景和意义一1 1 2 基于本体的信息检索的国内外研究现状1 1 2 1 国外研究现状2 1 2 2 国内研究现状3 1 3 本文的章节安排4 1 4 论文的组织结构4 2 信息检索和本体概述7 2 1 信息检索理论7 2 1 1 信息检索模型8 2 1 2 信息检索技术10 2 2 本体11 2 2 1 本体的定义12 2 2 2 本体的分类1 2 2 2 3 本体构建的方法1 4 2 3 本章小结1 6 3 基于范畴表和主题词表的本体构建方法1 9 3 1 本体构建的相关概念1 9 3 2 基于范畴表和主题词表的本体构建方法2 0 3 3 高速铁路多专业领域本体的构建2 1 3 3 1 高速铁路本体构建的基础2 1 3 3 2 专业本体的具体构建过程2 2 3 4 本章小结2 6 4 基于本体的语义处理关键技术的研究2 7 4 1 文档的语义预处理技术2 7 4 1 1 文本信息的提取2 7 4 1 2 文本信息的语义标注2 8 4 2 语义相似度的计算2 9 4 2 1 传统的语义相似度计算模型3 0 北京交通大学硕十学位论文 4 2 2 语义相似度算法的改进3 l 4 2 3 实验分析3 3 4 3 基于本体的语义查询扩展技术3 5 4 3 1 语义查询扩展技术3 5 4 3 2 多方面扩展的语义查询扩展模式3 7 4 4j e n a 推理机3 9 4 5 本章小结4 0 5 基于本体的语义检索在轨道交通系统中的实现4 l 5 1 语义检索系统的框架设计4 1 5 2 本体的构建过程4 2 5 2 1 高速铁路本体概述4 2 5 2 2 高速铁路本体构建知识体系的合并方案设计4 2 5 3 应用程序的实现4 5 5 3 1 本体推理模型的建立4 5 5 3 2 语义扩展模型4 8 5 4 检索性能评价4 8 5 5 本章小结5 0 6 总结展望5 l 6 1 论文总结5 1 6 2 展望一5l 参考文献5 3 附录5 7 独创性声明8 9 学位论文数据集一9 1 绪论 1 1 背景和意义 1 绪论 随着计算机技术以及i n t e r n e t 技术的迅速发展,人类已经进入了网络信息时 代,互联网是当今主要的网络信息集散地。 根据c n n i c 于2 0 0 8 年1 月7 日发布的第2 1 次中国互联网络发展状况统计 报告中的数据显示,截至2 0 0 7 年1 2 月中国互联网用户己达到2 1 亿人,其中 7 2 4 的用户经常使用搜索引擎,而国外用户对互联网的使用比例更高,如美国, 搜索引擎使用率已经达到了9 1 【l 】。可见搜索引擎已经成为网民最经常使用的信息 检索手段,目前最著名的搜索引擎有g o o g l e 、b a i d u 、y a h o o 等。随着网民对搜索 引擎的依赖程度越来越高,人们对搜索引擎的满意度却越来越低。检索信息需求 的不足与网络信息过剩之间的矛盾已经成为了当前以关键字检索技术为主导的信 一 息检索方式存在的主要问题。 传统的信息检索方式存在以上的困难,究其原因,是其检索方式基于人工分 类和关键字匹配。前者是面对海量的信息时,对信息资源的揭示效率不高,而且 。 深度受限,需要人工介入,维护量大,信息量少,信息更新不及时等;后者局限 于字符外在表现形式的机械匹配,而不是其所表达的语义,对信息语义的揭示极 为有限,缺乏语义处理能力。计算机很难通过关键字来了解用户的需求,使得检 索结果的准确率大大的降低。 这些因素导致现有的信息检索系统不能满足用户的实际检索需求,在查全率 和查准率等性能衡量指标上也未能取得突破,因此如何提高信息检索的效率,摆 脱信息需求困境已经成为目前非常重要和迫切的研究课题。 轨道交通系统资源种类繁多,形态各异。如何有效的管理这些资源以使其方 便用户使用,已经成为轨道交通研究领域的一个重要课题。传统的资源管理方式 下,由于资源缺乏统一的语义描述,用户难以查找到与需求相关的资源,难以实 现相关资源的语义融合。如何使被管理的轨道交通资源具有应用程序可以理解的 含义,方便用户查找到与需求相关的资源,并根据资源所具有的领域知识,实现 资源的语义融合,这些问题是目前轨道交通资源管理所面临的挑战。 1 2 基于本体的信息检索的国内外研究现状 此京交通人学硕十学位论文 传统的信息检索方法或搜索引擎,无论是关键字匹配方式还是结合布尔逻辑 提供更为复杂的查询表达方式,都是以关键字匹配为基础的,这种方法有两 陷: ( 1 ) 检索结果只是在字面上符合用户的要求,实际内容往往偏离用户的需求; ( 2 ) 用户输入的查询稍有偏差,检索系统就无法确定用户的真j 下需要,因而 提供证确的结果。 为了解决这些问题,研究者从语义的角度,提出了语义检索的方法和技术, 检索是把信息检索与人工智能技术、自然语言技术相结合的检索。目前语义 有两种,即基于本体论的和基于概念的语义检索。前者是基于本体构建概念 实现的语义检索,而后者是根据概念词典和关系数据库构建概念空间,从而 的语义检索,基于概念的语义检索具有一定的语义处理能力,并且具有较好 然语言接口。但是概念信息检索的概念库中不包含概念问关系的描述,因此 处理有关概念关系的问题。而基于本体论的语义检索将本体融合到传统的信 索技术中,不仅可以继承概念信息检索的优点,还可以克服概念信息检索不 概念关系进行处理的局限。因此本文着重研究基于本体的语义信息检索。 1 2 1 国外研究现状 关于本体的研究,国外( 尤其是欧美) 处于领先地位,推出了一系列的本体 开发方法( 如i d e f 5 法、骨架法、企业建模法、m e t h o d o l o g y 法、循环获取法、 u s c h o l d 方法等) 、开发工具( 如o n t o l i n g u a 、o n t o s a u r u s 、p r o t e g e 2 0 0 0 、o n t o e d i t 等) 和相关标准。国外本体应用在信息检索中的著名项目主要包括( o n t o ) 2 a g e n t ( 基于网络代理搜索本体的本体) 、o n t o b r o k e r ( 基于本体的分布式结构化信息获取) 【2 j 和s k c ( 可兼容知识合成) 【3 】等。 早在1 9 9 4 年v o o r h e e s 【5 】曾提出基于本体的查询扩展,使用了本体中的概念进 行查询扩展,并得出最有效的方式是利用本体中的同义词和特定的子类关系进行 扩展。此后基于本体的查询扩展研究侧重于两个方面:基于结构化的方法和基于 注释的方法。前者着重从本体的结构信息中抽取出相似度衡量的依据,而后者则 通过计算本体术语定义中的重叠次数来衡量语义相似度。 m a k i 6 】在2 0 0 3 年提出了基于本体结构的方法,其基本思想是利用本体中的路 径来进行用户查询的扩展。在本体的结构图中,每一个概念的节点都与其他节点 有着联通的路径,因此对用户查询进行扩展的时候,可以选择与该节点联通的路 径上的概念。在对概念选择的时候,m a k i 提出利用一系列的关系边和概念节点之 间相似度的方法来进行排序,优先选择与被扩展概念相似度大者。而计算相似度 2 绪论 的方法依赖于本体的结构,例如进行比较的概念之间路径的数量、长度以及路径 中存在的关系的种类数、路径中节点种类等,都可以作为衡量的标准。 p h i l i pn o 一7 】在2 0 0 0 年使用了基于本体的方法在项目丌发经验库中建立了关 于经验的索引,项目管理者和使用者可以通过该索引库查找信息,并规划当前的 项目,例如查找“关于测试中等大小软件系统的方法”,将会得到“测试”的子概 念“黑盒测试和“白盒测试”,以便于经验库中获得以前的经验。gs o l d a r l 8 1 在 2 0 0 1 年提出了语义检索模型的体系结构,以便于从科学数据中提取语义,k h a n 和 m c l e o d 9 】设计并实现了一个用本体构造的基于概念的模型用于文本检索。 a t & t t l o 】建立了一个应用本体技术的信息检索系统f i n d u r 系统,通过使用描 述逻辑系统规定的描述逻辑语法,表达了w o r d n e t 中定义的词汇间的同义、上义和 下义关系,获得简单的背景知识,并调用推理系统来完成推理任务,得到某个词 的同义词集合、上义词集合以及下义词集合,从而可以实现查询扩展。但是该系 统从本质上仍然是基于语法的,因为它没有使用本体中的词汇去标记文档,只是 强调利用本体来实现查询扩展,而查询输入的词汇本身也并非依据本体中的词汇 来建立。 1 2 2 国内研究现状 国内对本体的研究起步较晚,研究成果相对较少。主要研究内容包括产品信 息建模、虚拟企业建模、常识知识库等。如中科院计算所的大规模知识系统研究、 中科院数学所常识知识库的研究、浙江大学人工智能研究所基于本体的产品信息 集成研究等。其中比较有影响的有中科院数学所陆汝铃院士的常识知识的实用性 研刭4 1 。 宋峻峰】提出的基于本体的信息检索模型采用了描述逻辑作为构造本体的本 体语言,使用本体中定义的词汇来标记文档,生成基于本体的文档逻辑视图和用 户信息需求逻辑视图,从而可以实现语义层次的检索,使检索性能大大改善。 由此可见,把本体融合到传统信息检索技术中,不仅可以继承传统信息检索 的优点,还可以克服传统信息检索中不能对语义关系进行处理的局限性。基于本 体的智能信息检索优于关键字检索,因为本体包含机器可以判断的概念的定义, 从而使系统对领域内的概念、概念之间的联系以及领域内的基本公理知识有一个 统一的认识,系统通过分析用户提出的查询中所包含词的语义,理解用户的查询, 并准确地映射到信息资源,从而提高了信息检索系统的查全率和查准率,因此我 们可以利用本体对用户输入的检索关键字进行理解、推理、扩展,使检索结果更 符合检索需求,从而提高信息检索的质量。 北京交通人学硕十学位论文 另外,信息检索作为信息学领域中最活跃的研究分支之一,涉及到多学科领 域的交叉合作,主要包括:信息的组织、存储、索引,异质数据源的集成和人工 智能等技术,信息检索技术的研究与发展和这些相关领域的发展是息息相关的, 同样的,对新型智能信息检索技术的研究也能推动相关科研领域的发展。因此, 基于本体的信息检索技术研究具有较高的学术理论意义。 1 3 本文的章节安排 本文针对信息检索的研究现状,在前人研究工作的基础上,重点研究基于本 体的语义检索的几个关键问题: ( 1 ) 介绍常用的本体构建工具以及本体构建方法,分析其不足,综合各种本 体构建方法的优势,并结合轨道交通系统的实际情况,以高速铁路范畴表和主 题词表为基础构建高铁领域本体。 ( 2 ) 研究基于本体的语义检索的关键技术:主要是基于本体的语义预处理技 术;语义相似度计算模型及算法的分析;基于本体的语义查询扩展方法的研究。 并在此基础上,对语义相似度算法进行了改进。提出了一种更为完备的语义查询 扩展模式,从同义概念、上位概念、下位概念、等价概念、同义概念及其上下位 概念、等价概念及其上下位概念和概念之阳j 的关系等多方面对关键词进行语义扩 展查询。 ( 3 ) 将以上技术在轨道交通基础数据平台上加以实现:建立轨道交通系统的 领域本体文件,编码实现检索功能,并通过测试,验证文中方法的可行性和有效 性。 1 4 论文的组织结构 第一章,讲述了基于本体的信息检索的背景和意义,以及国内外的研究现状。 第二章,介绍了信息检索和本体技术的基础知识,其中包括信息检索的模型, 本体的定义,本体的分类以及现有的本体构建方法。 第三章,以动车组为例,以高速铁路范畴表和主题词表为基础,介绍了 高速铁路本体构建的过程。 第四章,介绍了基于本体的语义检索的关键技术,包括文档的预处理、语义 查询扩展和语义相似度算法,在此基础上,对语义相似度算法进行了改进,并提 出了一种从多方面对关键词进行扩展的更全面的语义查询扩展算法。 第五章,讲述了基于本体的语义检索在轨道交通系统中的具体实现,拜对检 4 绪论 索的结果进行了分析,验证了基于本体的语义检索的可行性和有效性。 第六章,对论文的研究工作做出总结,对基于本体的语义检索研究做出详细 的分析和展望,阐述进一步的研究工作。 信息检索利本体概述 2 信息检索和本体概述 基于本体的语义检索,就是利用本体丰富的语义关系实现用户检索的语义理 解,进而提高信息检索的查全率和查准率。本章将对信息检索和本体理论做一个 概述。 2 1 信息检索理论 信息检索( i n f o r m a t i o nr e t r i e v a l ) 通常是将信息按照一定的方式组织和存 储起来,并根据用户的需求找出有关信息的过程和技术【1 2 1 。 信息检索有狭义和广义之分。狭义的信息检索是指给出信息检索需求及检索 相关的文档集,从中找出所需求的信息的过程;而广义的信息检索是指不但能检 索文本的信息,而且也能检索非文本信息( 如图像、视频等) ,并可以完成多种任 务( 如文本检索、过滤、分类、摘要等) 。而轨道交通系统中资源检索即为狭义的 信息检索。 对于信息检索,主要存在时问性通讯、信息处理和文献查找三种角度的认识。 莫尔斯【1 3 】在1 9 5 0 年发表的把信息检索看作是时间性的通讯中,不仅首次 提出了信息检索这个概念,并认为“信息检索足一种时间性的通讯形式”,就是说 通过信息检索得到一些文献,从而使得作者和读者之间建立起了一种通讯。 从信息处理的角度看,信息检索的基本问题是如何处理信息和信息的结构。 这种认识偏重于信息管理,认为信息不仅局限于文献的范围,图像、声音、数据 等也都能反映信息,并把信息检索看作是计算机科学与技术的一个分支。把信息 检索视为一种信息处理的认识,强调如何构造以及利用什么形式来构造信息结构 的问题。在网络迅速发展的今天,信息资源浩如烟海,这种认识对于信息检索工 具的设计和组建有着重要的指导意义。 从文献查找的角度看,信息检索是查找含有用户所需信息的文献的过程。如 英国著名学者b c v i c k e r y 认为:信息检索是从汇集的文献中选出特定用户在特 定时间所需信息的操作过程。美国著名情报学家f w l a n c a s t e r 认为:信息检索 是查找某一文献库的过程,以便找出那些某一主题的文献。关于这种认识, l a n c a s t e r 的经典表述是:信息检索系统并不检索信息。这是由于信息是无形的, 它必须依附于文献而存在,虽然信息检索的最终结果是满足用户的信息需求,但 是检索的直接对象是文献,当用户阅读文献并理解其内容时,用户的信息需求才 得到满足。 7 北京交通人学硕十学位论文 2 1 1 信息检索模型 信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算 的框架和方法。其本质是对相关度建模,信息检索模型是i r 中的核心内容之一。 文档可以表示成多个标引项的集合,标引项通常用词来表示,但是也可以用 其他语言单位来表示,关键词也可以看成是标引项的一种,不同的标引项作用不 同,通过杖重末加以区分。 信息检索模型就是将文档、查询词以及它们之间的关系进行建模的框架。由 四元体组成:f d ,q ( q ;,d ,) ) d :文档集中的一组文档逻辑视图。 q :一组用户信息需求的逻辑视图,是一个查询集合,也是用户任务的表达。 q ( q ;,d 。) :排序函数,该函数给查询q ;和文档d 。之间的相关度赋予一个排序 值。 f :一个框架,用来构建文档、查询和它们之间关系的模型。 信息检索模型是判断文本是否与查询相关和对相关文本进行排序的数学模 型。根据所使用的数学方法来分,可以将信息检索模型分为以下三类: 1 布尔模型 布尔模型是基于集合论和布尔代数的一种简单检索模型。由于集合的定义是 非常直观的,布尔模型提供了一个信息检索用户容易掌握的框架。查询通常以语 义精确的布尔表达式的方式输入。布尔模型遵循两条基本规则:每个索引词在一 篇文档中只有两种状态之一,即出现或者不出现,对应权值分别为0 或l 。查询足 由三种布尔逻辑运算符a n d 、o r 、n o t 连接索引词组成的。 布尔模型的优点是: ( 1 ) 简单:现代很多搜索引擎中仍然包含布尔模型的思想,如g o o g l e 的高级 检索。 ( 2 ) 自我保护功能:暗暗地降低用户对搜索系统的期望,使自己不在责任方, 检索结果不好的原因在于用户构造的查询不好。 布尔模型的缺点是: 只能严格匹配( 得分不是0 就是1 ) ,不能近似或者部分匹配,多个结果无法 排序; 一般用户构造查询不是很容易,构造不利可能会造成结果过多或者过少。 布尔模型虽然有上述缺陷,仍然是文档数据库系统中的主要模型,而且索引 术语的权重从根本上提高了检索系统的性能,从而导致了向量模型的产生。 信息检索和本体概述 2 向量空间模型 向量空间模型是康奈尔大学s a l t o n 于1 9 7 0 年提出并倡导的原型系统s m a r t 。 向量空间模型中将查询和文档都转化成标引项及其权重组成的向量表示,都可以 看成向量空间中的点。 向量空间模型的基本思想是将文档集合表达为一个向量c = ( d 。,d 。,d 。) ,将每 一个词项按照其在文档集合上的分布也表达成一个向量: v e c ( t 。) = t f ( t ;,d 。) ,( t ;,d 。) ,( t ;,d 。) ,定义词项之间的相似度为: s i m ( t i ,t j ) = c o s ( v e c ( t i ) ,v e c ( t j ) ) s i m ( q ,d ) 不再是q 和d 的向量点乘,而是用上述“词项一词项”相似度的某个 函数。例如,对q 的每一个词项,分别得到它和d 中词项的最大相似度,将这些 最大相似度加起来得到q 和d 的相似度: s i m ( q ,d ) = i m a x j ( t q j ,t d j ) 向量模型的前提是假设t e r m 的独立性,即认为t e r m 之间在文章中的出现是 独立、互不影响的。向量空间模型利用非布尔值来表达查询或文档中的索引词权 重,然后计算文档和查询的相关程度,再根据相关程度由大n d , 将检索结果文档 返回给用户。 向量空间模型的优点是支持部分匹配和近似匹配,结果可以排序,和布尔模 型相比,它具有更好的查询精度;缺点是该模型基于直觉的经验性公式,标引项 之间的独立性假设与实际不符,实际上t e r m 的出现之间是有关系的,不是完全独。 立的。例如:在一篇文档中,“张怡宁”、“乒乓球”的出现不是独立的。 3 概率模型【1 3 】 概率检索模型是通过概率的方法将查询和文档联系起来:定义3 个随机变量 r ,q ,d ,相关度r = 0 ,1 ) ,查询q = q 。,q :,) ,文档d = d 。,d :, ,则可以通过计算条件 概率p ( p = iiq = q ,d = d ) 来度量文档和查询的相关度。 文档d ,与查询q 的相似度定义为: s i m ( d j ,q ) = p ( rid j ) p ( r 7 i d j ) r 表示相关文档集;r 表示r 的补集;p ( rd 。) 表示d ,与查询q 相关的概率; p ( r ld 。) 表示文档d ,与查询q 不相关的概率;检索问题即求条件概率问题;i f p r o d ( rld ;,q ) p r o d ( n rid ;,q ) t h e nd ;是检索结果,否则不是检索结果。 概率模型包括一系列模型,如l o g i s t i cr e g r e s s i o n 模型等。最经典的概率 检索模型是英国伦敦城市大学的r o b e r t s o n 和剑桥大学的s p a r c kj o n e s 提出的二 元独立概率模型,最著名的概率检索原型是伦敦城市大学的o k a p i 。 9 北京交通人学硕士学位论文 2 1 2 信息检索技术 信息检索的发展经历了手工信息检索、机械信息检索、计算机信息检索等几 个发展阶段。 手工信息检索发展于1 9 世纪术,这个阶段的信息检索手段是书本式和卡片式, 包括检索型和资料型的工具书等。这些检索工具虽然有的还在发挥作用,如书本 式检索工具,但足随着电子资源的普及,其作用已逐渐消弱。 机械信息检索是手工检索向计算机信息检索的过渡阶段,其发展是2 0 世纪 4 0 一5 0 年代,这一阶段的主要信息检索手段包括穿孔卡片和缩微制品检索。 计算机信息检索起源于2 0 世纪5 0 年代。它以1 9 5 4 年美国海军兵器中心图书 馆使用的计算机信息检索系统为标志,可分为四个发展阶段:脱机检索、联机检 索、光盘检索、网站检索。其中,网络信息检索开始于2 0 世纪9 0 年代初,检索 系统主要由网络站点、网页浏览器和搜索引擎以及网络支撑软件组成,核心部分 是网络浏览器和具有收集、检索功能的搜索引擎。 1 9 9 1 年思维机等公司、明尼苏达大学、欧洲高能粒子协会分别推出了因特网 上的检索工具w a i s 、g o p h e r 和w w w 。目前,网络浏览器w w w 因其集文本、图像、 声音等多媒体信息于一体的巨大优点,已经占信息服务的主导地位,基于w e b 的 搜索引擎已经成为最重要的信息检索工具。著名的有y a h o o 、g o o g l e 等搜索引擎, 而g o o g l e 是目前世界上最大的搜索引擎。 信息检索目前可以分为以下三个领域:数据检索、全文检索和知识检索【b 】。 1 数据检索 主要是针对结构化的信息系统,数据和查询的要求都遵循一定的格式,具有 一定的结构。数据检索可以对特定的字段检索,具有代表性的是各种商业数据库。 【1 6 】数据检索依赖于编码的质量,检索花费大,检索出的信息相对准确,但容易漏 检相关的数据,并且数据检索的性能取决于所使用的字段标识方法和用户对这种 方法的理解,具有很大的局限性。另外,数据检索支持语义匹配的能力较差【1 7 1 。 2 全文检索 检索原理是把用户的查询请求用关键词形式和全文中的每个词比较、匹配, 并不考虑查询请求和文档语义是否相关,具有代表性的是g o o g l e 和b a i d u 。全文 检索的缺点是只根据关键词针对文本一一匹配,所以检索出的信息量大,缺乏人 工干预,返回大量的无关信息,用户常常面对检索结果无所适从,而且必须从结 果中进行筛选。 1 0 信息检索和本体概述 3 知识检索 是指在知识组织的基础上,从知识库中检索出知识的过程,是一种基于知识 组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。知识检索有 两个明显的特征:一个足基于某种具有语义模型的知识组织体系,它是实现知识 检索的前提和基础,而知识检索就是基于知识组织体系的结果。另一个是对资源 对象进行基于元数据的语义标注,元数据即是知识组织体系的语义基础,经过元 数据描述和标注,资源爿有了长期利用的价值。以知识组织体系作为基础,对资 源进行语义标注,才能实现知识检索。 知识检索模型集成了各种知识对象和信息对象,融合了各种智能和非智能的 理论、方法和技术,用以实现知识检索。例如基于知识结构检索,基于知识内容 检索,基于专家启发式知识检索等等。知识检索最常用的模型有分类检索模型、 多维认知检索模型、分布式检索模型等等。 知识检索系统中,除了提供关键词来实现主题检索外,还结合了自然语言处 理与知识表示语言,来表示各种结构化、半结构化与非结构化的信息,提供多种 途径和多种功能的检索。自然语言处理技术是提高检索效率的有效途径之一。自 然语言理解的任务是建立一种能够模仿人脑去理解问题、分析问题和回答问题的 计算机模型。从实用的角度来说,我们需要的是计算机能实现基本的人机会话、 语义理解或者自动文摘等功能,还需要使用汉语分词技术、短语分词技术、同义 词处理技术等【墙】。 衡量检索系统效果的参数主要有查全率和查准率。查全率是检索出的相关文 档数和文档库中所有的相关文档数的比率;查准率是检索出的相关文档数和检索 出的文档总数的比率。 在一个检索系统中,很难做到查全率和查准率两全齐美:查全率高时,查准 率不高;查准率高时,查全率不高。对搜索引擎来讲,没有一个搜索引擎系统能 搜集到所有的网页,因此查全率难实现,现在的搜索引擎系统主要关注的性能指 标是查准率。 2 2 本体 本体作为能在语义和知识层面上描述信息系统概念模型的一种建模工具,从 被提出就引起了国内外众多科研人员的广泛关注,并成为了信息检索和人工智能 领域的一个研究热点,在知识工程、软件复用、信息系统间异构信息处理、自然 语言理解等方面获得了广泛的应用。 北京交通火学硕十学位论文 ,本体提供了对信息与知识进行规范化描述和建模的方法, 结构和对逻辑推理的支持,还能较好地为语义检索和概念检 以,目前基于本体的信息检索已成为一个重要的研究课题。 源于哲学领域,在哲学中的定义是“对世界上客观存在物的 系统描述,即存在论”,是对客观存在的一个系统的解释和说明,关注的是客观现 实的抽象本质。 在人工智能方面,较早给出本体定义的是n e c h e s 等人【1 9 】,他们将本体定义成 “给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规 定这些词汇外延的规则的定义”,n e c h e s 认为:“本体定义了组成主题领域的词汇 表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则”。此 后在信息系统和知识系统等领域,越来越多的人开始研究本体,并给出了很多不 同的定义。 本体是一种可以形式化的知识,种管理知识的知识。本体具有群体共享、 知识表达、重用和互换支持等特点。本体可以是一组协议、一门语言,也可以是 一种标准和一种框架。 2 2 2 本体的分类 g u a r i n o 2 2 】提出以详细程度和领域依赖度这两个维度作为本体分类的基础,详 细程度是一个相对的、模糊的概念,指描述或者刻画建模对象的程度。详细程度 高的称作是参考本体,详细程度低的称作是共享本体。 1 按照对领域依赖程度,本体又可以分成四种类型 ( 1 ) 顶层本体:主要是研究通用的概念,定义了最基本的概念类、属性和语义 关系,例如空间、对象、时间和行为等,它们完全独立于特定的问题和领域,因 此说顶层本体可以在很大的范围内共享。 ( 2 ) 领域本体:描述的是特定领域中的概念和概念之间的关系。 ( 3 ) 任务本体:描述的是特定的任务或行为中的关系概念类、属性和语义关系。 ( 4 ) 应用本体:描述特定的应用,可以应用特定的领域本体中的概念,也可以 引用出现在任务本体中的概念。 此四种本体具有一定的层次关系,本体的这种分类有利于本体的创建、集成、 1 2 共享和 2 ( 1 差,目 目中的 ( 2 念的二 ( 3 o n t o l i ( 4 完整性 同 分为四 顶 和行为等等,和具体的应用无关,其中的几种知识本体都为其特例。 现在已经开发的本体项目中,大致可归到顶层本体的主要有以下几种【2 4 】: ; ( 1 ) 面向语言学的语义词典,典型的有w o r d n e t 、f r a m e n e t 、知网h o w n e t 等。 普林斯顿大学的w o r d n e t 是基于心理学语言规则的英文词典,以s y n s e t s 为单位 组织信息。加州大学的f r a m e n e t 英文词典,采用称为f r a m es e m a n t i c s 的描述框 架,提供较强的语义分析能力,目前发展为f r a m e n e ti i 。知网h o w n e t 由中科院华 建集团推出,它是一个以英汉双语所代表的概念和概念特征为基础的,通过概念 的义原构成来揭示概念特征和关系的语言学词典,主要是面向汉英机器翻译。 ( 2 ) 面向自然语言处理和机器翻译的本体项目,典型的有g u m 、s e n s u s 等。g u m 支持多语种处理,包括基本概念和独立于各种具体语言的概念组织形式。s e n s u s 为机器翻译提供概念结构,包含了7 万多个概念。 ( 3 ) 面向人工智能和常识知识库的本体系统,有c y e 、s u m o 等。c y e 主要由知 识库、推理引擎、c y c l 表示语言、自然语言处理子系统等部分组成,并已经被用 于多个商业项目。s u m o 是由i e e e 标准上层知识本体工作小组负责,目的是发展标 准的上层知识本体。特定领域的概念不包含在s u m o 中,但s u m o 会提供上层通用 概念和顶层框架,使各领域本体能以此为基础进行构建,成为基于s u m o 的具有标 准格式和统一框架的领域本体。 北京交通人学硕十学位论文 2 2 3 本体构建的方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论