




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的语义检索技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东轻工业学院硕上学位论文 摘要 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) ,是从数据集中提取相关文档和信息的 过程。随着数字信息量的不断增加以及用户对查询质量的要求的提高,传统的信 息检索技术已经很难满足高质量的检索任务。本体作为一种论点新颖、起点较高 的知识组织体系,它所涉及的相关技术对于促进信息检索技术在知识管理中发挥 作用十分重要。 针对目前大多数信息检索系统都是基于语法层上机械式的关键词匹配检索 技术,缺乏语义处理能力,存在信息的误检、漏检等缺陷,作者在研究了信息检 索技术的相关理论和本体技术的相关知识后,通过分析传统向量空间模型在语义 处理方面的缺陷,本文构建了一个基于模糊本体的信息检索系统结构模型,借助 于模糊本体,探讨了在检索过程中如何利用本体的领域知识实现基于概念的查 询。该模型充分利用了模糊本体中隶属度的概念,对查询语句和文档关键词向量 空间模型进行模糊本体概念映射,概念相似度计算。 系统模型分为文档预处理和文档检索两大部分。与传统的信息检索系统结构 不同的是,该模型中加入了本体服务器。在本体的帮助下,文档预处理对检索对 象进行处理,建立基于概念的索引;文档检索部分的查询转换模块对用户需求进 行部分的语义化处理,利用查询表达式中包含概念的上位词、下位词、同义词以 及概念的义项对初始查询表达式进行了查询转换,检索代理模块利用转换后的查 询表达式到信息源中进行查询。在具体的实现过程中,作者针对检索过程中的关 键部分一查询扩展进行了深入的研究,并对扩展结果使用a p r i o r i 算法进行修剪。 文章最后利用本文研究成果实现了一个面向计算机取证领域的信息检索系 统,并通过具体数值实验对该系统在查全率和查准率方面进行了性能分析,实验 证明该系统具有良好的性能。 关键词:领域本体;概念映射;信息检索;模糊本体;向量空间 i 山东轻工业学院硕上学位论文 a bs t r a c t i n f o r m a t i o nr e t r i e v a li sa p r o c e d u r e t h a te x t r a c t sr e l a t e di n f o r m a t i o na n d d o c u m e n t sf r o mt h ed a t as e t s 。a l o n gw i t ht h ei n c r e a s i n ga c c u m u l a t i o no fd a t aa n dt h e r i s i n gd e m a n do fh i g hq u a l i t yo fr e t r i e v a lr e s u l t s ,i th a sb e e nv e r yd i f f i c u l tf o rt h e t r a d i t i o n a li rt e c h n o l o g i e st om e e tt a s ko fh i g h q u a l i t yi n f o r m a t i o nr e t r i e v a l a sa n e w l ye m e r g e dk n o w l e d g eo r g a n i z a t i o ns y s t e mw i t hh i g hs t a r t i n gp o i n t ,o n t o l o g y t e c h n o l o g i e sa r ep l a y i n gav e r yi m p o r t a n tr o l e i np r o m o t i n gt h ef u n c t i o no fi ri n k n o w l e d g em a n a g e m e n t a tp r e s e n t ,m o s to ft h ei n f o r m a t i o nr e t r i e v a ls y s t e m sa r eb a s e do nm e c h a n i c a l r e t r i e v a lt e c h n i q u ei nt h es y n t a xl a y e r t h es y s t e mm a ym i s ss o m ei n f o r m a t i o nt h a t u s e r sr e a l l yw a n ta n dr e t u ms o m ei n f o r m a t i o nt h a tu s e r sd o n tw a n t ,a f t e rt h e i n v e s t i g a t i o no nt h ec o n c e m e dt h e o r yo fi rt e c h n o l o g i e sa n dt h ek n o w l e d g eo f o n t o l o g yt e c h n o l o g i e s ,i no r d e rt oo v e r c o m et h es h o r t c o m i n g so ft r a d i t i o n a lv e c t o r s p a c em o d e li nd e a l i n gw i t hs e m a n t i c ,w ec o n d u c t sa ni rs y s t e mc o n s t r u c tm o d e lb a s e d o nf u z z yo n t o l o g y w i t ht h eh e l po ft h ed o m a i nk n o w l e d g ei nd o m a i nf u z z yo n t o l o g y , i te x p l a i n sh o wt or e a l i z ec o n c e p t b a s e dr e t r i e v a l i nt h i sm o d e l ,c o n c e p tm a p p i n ga n d s i m i l a r i t yc a l c u l a t i n ga r em a d eb a s e do nt h em e m b e r s h i p d e g r e ec o n c e p to ff u z z y o n t o l o g y , w h i c hm a k ei tp o s s i b l ef o ru st oa n a l y z ed o c u m e n to nc o n c e p tl e v e l t h es y s t e mm o d e lc o n t a i n st w op a r t s :d o c u m e n tp r e t r e a t m e n ta n dd o c u m e n t r e t r i e v a l i nt h ei rm o d e l ,i ta d d sa no n t o l o g ys e r v e r , w h i c hi sd i f f e r e n tf r o mt h e t r a d i t i o n a li rs y s t e mc o n s t r u c t w i t ht h eh e l po fo n t o l o g y , t h ed o c u m e n tp r e t r e a t m e n t t r a n s a c t sa n di n d e x e st h er e t r i e v a ls o u r c e sb a s e do no n t o l o g y , ,t h eq u e r yc o n v e r s i o n m o d u l ed o e ss o m es e m a n t i cp r o c e s s i n go nu s e rn e e d sa n de x p a n s e st h ei n i t i a lq u e r yo n i t ss y n o n y m 、h y p o n y ma n di t ss e n s e s ;t h er e t r i e v a la g e n tm o d u l eu s e st h ec o n v e r s i o no f q u e r i e st or e t r i e v a lt h ei n f o r m a t i o ns o u r c e s i nt h es p e c i f i cr e a l i z a t i o np r o c e s s ,i tm a k e s a ni n - d e e pa n d p i n c h i n gt h er e s u l t su s i n gt h ea l g o r i t h ma p r i o r i f i n a l l y ,w i t ht h eh e l po fr e s e a r c h i n gr e s u l t sw ep r e s e n tan o v e le v i d e n c ea n a l y s i s m e t h o di nc o m p u t e rf o r e n s i cd o m a i nb a s e do no n t o l o g y e x p e r i m e n t sa r ec a r d e do u tt o t e s ti tp e r f o r m a n c e a n dt h er e s u l ts h o w si t se f f i c i e n c y k e yw o r d s :d o m a i no n t o l o g y ;c o n c e p tm a p p i n g ;i n f o r m a t i o nr e t r i e v a l ;f u z z y o n t o l o g y ;v e c t o rs p a c em o d e l i i i 学位论文独创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。文 中引用他人的成果,均己做出明确标注或得到许可。论文内容未包含法律意义上 已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论文或 成果,与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 学位论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属山东轻工 业学院。山东轻工业学院享有以任何方式发表、复制、公开阅览、借阅以及申请 专利等权利,同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时, 署名单位仍然为山东轻工业学院。 敝作者虢鳌窒盛 导师签名: 日期:磁年上月4 日 日期:五让年月孕日 山东轻工业学院硕士学位论文 1 。1 课题研究目的和意义 第1 章绪论 随着计算机网络技术的飞速发展,能够高质高效地在海量信息中检索到所需 的证据信息成为计算机取证领域一个非常棘手的问题。目前常用的证据分析工具 多是基于人工分类目录或关键词匹配。前者对海量信息资源的揭示效率不高、深 度有限;后者在信息的语义和语义揭示上有局限性,缺乏知识处理能力和理解能 力。如何构造出一个能够更准、更快、更全地查找到所需信息的信息检索系统成 为当前计算机取证领域迫切需要解决的问题。本体的提出使得从基于关键词层面 上的查找提高到基于语义概念( 或知识) 的层面上,本体描述了概念的内涵以及 概念与概念之间的关系,具有良好的概念层次结构和对逻辑推理的支持,在查全率 和查准率上有更好的保证,并且在基于知识的检索中得到了广泛的应用。 1 2 课题国内外研究现状 本体的概念最初起源于哲学领域,它在哲学中的定义为“对世界上客观存在 物的系统地描述,即存在论 ,是客观存在的一个系统的解释或说明,关心的是客 观现实的抽象本质。近一二十年来,本体的概念和方法被计算机学科采用,最早 出现在人工智能领域,现在在计算机的许多领域得到了广泛的应用,如知识工程、 软件复用、数字图书馆、异构信息处理、语义、信息检索等。目前,在企业管理、 生命科学、地理空间科学、农业科学等专业领域的信息组织中发挥着重要作用。 要搞清本体研究的发展趋势,就必须了解国内外的本体研究现状。 目前国外本体应用在信息检索中的著名项目包括( o n t o ) 2 a g e n t 1 】、 o n t o b r o k e r 【2 j 和s k c 3 】。这3 个项目也分别代表了3 个方向。( o n t o ) a g e n t 的目的 是为了帮助用户检索到所需要w w w 的上已有的本体,主要采用参照本体。参照本 体是以w w w 上己有的本体为对象建立起来的本体,它保存了各类本体的元数据。 o n t o b r o k e r 面向的是w w w 上的网页资源,目的是为用户检索到所需要的网页,这 些网页含有用户所关心的内容。s k c 是一个正在进行的项目,其目标是解决信息系 统语义异构的问题,实现异构的自治系统之间的互操作。该项目系统通过在本体 上建立一个代数系统,用这个代数系统来实现各本体之间的互操作,从而实现异 构系统之间的互操作。 另外,国外还有一些专家学者正在从事本体方面的研究工作。文献f 4 】介绍了基 于本体的信息检索主体m e i i s a ,并用于在医疗领域检索。德国卡尔鲁厄大学的应 用情报学和规范描述方法研究所对本体理论和本体的数学表达进行了深层次的研 第1 章绪论 究1 5 j ,他们目前从事的研究重点是构建基于本体的知识门户和语义门户。美国斯坦 福大学的知识系统实验室,无论是在本体建模工具领域,还是在本体应用层面的 研究方面,都站在了知识工程领域的最前沿。除此之外,国外研究基于本体检索 加工的学者和机构还有西班牙萨拉戈萨大学的e d u a r d o 和巴斯克大学的a r a n t z a , 以及美国佐治亚大学大规模分布式信息系统实验室【6 】和美国德克萨斯大学计算机 系的基于知识系统研究小组等。 国内对本体的研究起步比较晚,主要研究内容包括产品信息建模、虚拟企业 建模【7 1 、常识知识库 8 1 等。徐振宁【9 - 1 1 1 等人把本体作为信息检索系统的核心,通过构 造形式化的领域本体,提出了一种将知识表示和知识处理引入互联网信息处理的 方法,为互联网上半结构化数据和关系数据库提供了统一的语义模型。中科院计 算所智能信息处理开放研究室建立的基于本体论和多主体的信息检索服务器【1 2 1 利 用了多智能主体和本体理论设计。宋峻峰【1 3 】提出的基于本体的信息检索模型采用 了描述逻辑作为构造本体的本体语言,使用本体中定义的词汇来标记文档,生成 基于本体的文档逻辑视图和用户信息需求逻辑视图,从而可以实现语义层次的检 索,使检索性能大大改善。浙江大学人工智能研究所对基于本体的产品信息进行 了深入研究【h 】。重庆大学的张英海【1 5 】等在基于关键词和概念分析的基础上,提出 了一种基于语义概念模型检索的向量空间模型。台湾的蕖俊儒在基于模糊逻辑的 基础上,提出了模糊本体的概念,并给出了模糊本体自动生成框架,用于处理文 档中存在的不确定信息。 1 3 课题的主要研究内容 在综合分析当前本体国内外研究现状,信息检索系统存在问题以及本体技术 的基础上,本课题以研究本体的理论和技术为基础,研究如何在领域本体的基础 上提高信息检索查询质量,并针对现有的非结构化或半结构化的信息,在基于传 统的信息检索系统结构的基础上,本文提出了一个基于模糊本体的语义检索向量 空间模型,详细阐述了基于模糊本体的语义索引、文档预处理和查询扩展等。详 细研究了概念检索中的关键部分一概念映射技术,并实现了基于本体的信息检索 系统。 1 4 论文创新点 课题研究中本人的主要工作和创新点如下: ( 1 ) 课题将数据流挖掘技术引入到智能检索领域,将进一步提高智能检索技 术实时分析能力及对大规模数据的检索能力。 ( 2 ) 在很多应用领域中,由经典本体支持的形式化概念不足以表示不确定信 2 山东轻t 业学院硕上学位论文 息,本文在研究模糊逻辑相关理论的基础上,提出将模糊逻辑隶属度加入概念相 似度计算公式,以提高查询速度和准确率。 ( 3 ) 针对传统向量空间模型存在的缺陷,本文拟提出了一种基于模糊本体的 语义检索向量空间模型,并对该模型相关技术进行了详细介绍。 ( 4 ) 课题研发一个文本分析工具的原型。该工具将能对w o r d 、e x c e l 、p d f 文 件进行关键词有效检索,并能对特定领域( 计算机取证领域) 相关词汇进行语义检 索。 1 5 文章组织结构 全文共分六章,具体结构为: 第一章,绪论。介绍该论文的选题目的和研究意义,阐述本体国内外研究现 状、本课题主要研究内容以及论文主要创新点。 第二章,探讨了信息检索的基本原理,详细阐述了信息检索技术涉及的信息 表示、信息检索过程和信息检索结果三个方面。 第三章,阐述了本体技术的定义、分类、构成、表述语言、本体的建模原语和 构建工具等八个方面,以及本体在信息检索中的应用。 第四章,构建了基于领域本体的信息检索系统结构模型,阐述具体实现过程和 主要算法。 第五章,对模糊本体概念映射进行了深入的研究,并实现基于本体的信息检索 系统。 第六章,对研究内容进行总结与对未来研究的展望。 第2 章信息检索技术 第2 章信息检索技术 本章首先介绍了信息检索模型的概念,探讨了信息检索的基本原理,然后详 细阐述了信息检索技术涉及的信息表示、信息检索过程和信息检索结果等三个方 面的内容,最后概括了当前信息检索存在的不足。 2 1 信息检索模型的概念 信息检索是信息资源与信息需求的匹配过程,是通过定的算法寻找信息资 源与信息需求的交集的过程。由于信息资源空间和信息需求空间的不确定性,信 息检索是信息需求向信息资源不断靠近的过程,是一个摸索的过程,是一个逐步 求精的过程【l6 ,1 7 j 。 信息资源是实现信息检索的基础,原始的文档中包括文本、图像、视频、音 频等数据,不能直接进行检索,需要从这些原始数据中抽取逻辑视图,支持信息 检索。用户用查询来表示他的信息需求。检索系统根据查询的表示,搜索文档集, 获取与用户查询相关的文档。信息检索的匹配是相似度匹配,查询的结果按序返 回。以上过程实际上涉及个重要的处理文档集和查询的表示、相似匹配及排序。 对这些检索的因素和过程建模,我们把信息检索模型定义为: 一个信息检索模型是将文档表示、查询以及它们之间的关系进行建模的框架, 它由三元组表示: fe d ,q ,r ( qi ,dj ) 】 式( 2 1 ) 其中d 是文档集中的一组文档逻辑视图( 或称为文档的表示) q 是一组用户信息 需求的逻辑视图( 查询的表示) ,这种视图( 表示) 称为查询。r ( q 。d 。) 是一个排序 函数,该函数输出一个与查询q ;q 和文档d ,d 有关的函数。这样在文档q 。之间 根据查询定义了一个顺序。 为了建立一个检索模型,必须首先考虑文档的逻辑视图和用户的信息需求, 给出这些后,就可以构造一个模型框架,由此设计一个检索策略。所以说,在构 造信息检索模型时,首先要考虑信息表示也就是信息资源和信息需求的表示。 2 2 信息资源和需求表示 在信息检索中,信息资源和信息需求的表示对信息检索的效率有十分重要的 影响。因此,信息资源和信息需求表达的不确定性是信息检索系统中的一个重要 问题。如何控制和协调信息资源和信息需求的表达的一致性是信息检索中至关重 4 山东轻工业学院硕十学位论文 要的工作。信息资源的表示包括信息资源外部特征描述、信息资源内容特征描述 和信息资源表示全文或多媒体信息。信息资源的表示在不同的语义空间中受到不 同的方式和规则控制。对信息资源的描述程度就是对信息资源的揭示程度,揭示 信息资源的程度越深就能够提供越丰富的检索途径。信息需求可以说是一个模糊 的不确定的内容需求,通过需求者自身的知识、经验和学习,能够逐步明确和清 晰化。信息需求的描述过程就是信息需求逐步求精的过程,同时在这个过程中可 能产生信息需求的转移和转化。信息需求的表示就是在特定的语义空间中描述信 息需求的外部线索特征和内容特征。没有控制的信息资源和信息需求表达方式是 今后信息检索的主要方向。人工语言和自然语言的界限将逐步淡化和消失。 2 3 信息检索过程 信息检索过程是对不同的信息资源和需求不同层次的描述信息,进行比较和 匹配的过程。信息检索过程主要涉及两个方面信息检索的数学模型和特征内容处 理。 2 3 1 信息检索的数学模型 信息检索的数学模型在很大程度上决定了信息系统性能。到目前为止,检索 技术有很多不同的数学模型。最常见的信息检索模型是布尔逻辑模型1 1 8 - 2 0 1 、矢量 空间模型【2 7 , 2 8 1 和概率模型【2 1 2 3 1 。 ( 1 ) 布尔逻辑模型 在布尔模型中,文档与查询由检索词的集合来表示,其文档相似性通过基于 集合论与布尔代数运算来进行判定。对于布尔模型,索引检索词的权重值为二元 值,即w i j o ,1 ) ,查询q 为布尔表达式。假定q d 。f 是q 的析取范示,并且q 是 q d 。f 的任一合取分量,则文档d j 与查询q 的相似性计算为: 棚) :j1 ,矿3 q 。i ( q w ) 八( v k , s t m ( a ,吕( 谚) 2 蜀( ) ) 式( 2 2 ) ,g ) = 。 瓦l z z ) 。 【0 其中k i 为索引库中的第i 个检索词,索引库中的检索词全集为k = k l , k 2 k t ) 。 w i j 为文档d j 中索引词k i ( 表示为k i ,j ) 的权重值。呜= ( k lj , k 2 j ,k t j ) 是文档d j 的索 引词向量。g i 函数返回在t 维检索词空间中索引检索词k i 的权重值,即g i ( d j ) - - w i ,i 。 当s i m ( d j ,q ) = l ,则布尔模型判定文档d j 与查询相关,否则为不相关。布尔模 型由于设计简单、易于实现、处理查询条件时间短等特点,所以仍在商业系统 中得到较为广泛的应用,然而经典布尔模型有以下限制: 对于布尔模型,查询与文档问的相似性是二元的:1 为相关,0 为不相关, 而没有部分相关的情形。 第2 章信息检索技术 布尔模型没有提供评分函数,不能以所检索到的文档进行排序。一般来说, 用户总是认为排在相关文档集中前列的文档与用户的查询更加相关。 基于经典布尔模型的检索系统可能返回过多的或者过少的结果文档。例如 对于查询“aa n dba n dc a n dd ”,系统可能会产生过少的结果,而实际上用户可能 希望得到一些相关的文档,并不一定要求文档都必须包含检索词“a ,b ,c ,d ”。 布模型没有提供对查询检索词赋权重值的机制。实际上用户可能知道他所 提交的查询中,哪些检索词是比较重要的哪些检索词并不重要。 匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或 者与查询无关。查询结果一般不进行相关性排序。布尔模型的优点是计算简单, 但它的缺点也很明显二值化相似度函数很难表达文档和查询之间的相关程度,这 种没有中间值的方法在应用中不是检索到很少的文档,就是检索到大量的文档。 众所周知,索引词的加权将有效提高检索的性能,一些研究者提出了改进的布尔 模型。针对索引项权重的选择,引出了矢量空间模型。 ( 2 ) 矢量空间模型 矢量空间模型是最简便有效的文本表示模式之一。矢量空间模型是s a l t o n 等人 于6 0 年代未期首先提出的,在著名的s m a r t 系统得到成功的应用。从此以后, 该模型及其相关技术,包括项的选择、加权策略,以及采用相关反馈进行优化查 询等在文本分类、自动索引、信息检索等许多领域得到了广泛的应用。特别是随 着网上信息的快速膨胀,还被广泛地应用到搜索引擎、个人信息处理、网上新闻 发布等信息检索领域中,取得了较好的效果。 矢量空间模型通过分派非二值权重给查询和文档中的索引词,把文档和查询 之间的匹配程度从离散值进化到连续值,这样做的明显效果就是,它可以更精确 地描述文档间的关系。在矢量空间模型罩,与二元组( k i ,d j ) 相关联的权重w i j ,它是 一个正的非二值的连续值。查询中的索引词汇同样也以权重表示,令w i ,q 是与( k i ,q ) 相关联的权重,且w i ,q = o ,这样查询矢量q 定义为弓= ( w 1 q w :,q w ,。) 同理,文档 d j 的矢量可以表示为a t = ( w l j w 2 j w 。i ) 这样文档呜和用户查询q 都被表示成了一个 t 维矢量。矢量模型通过计算它们之自j 的关系来确定文档d j 和查询q 之问的相似度。 这种关系可以定量表示,一般用这两个矢量的余弦夹角来计算。相似度s i m ( d j ,q ) 的计算公式: s i 似“护黼2 t w i j w i ,q i 1 际防 式( 2 3 ) 从上式可以看出,s i m ( d j ,q ) 的值在0 和1 之间变化,矢量模型按照文档与查 询的相似度对文档排序。这样可以预先定义一个阀值v ,当大于v 的时候可以认为 6 山东轻工业学院硕士学位论文 目标文档与查询相关,否则认为无关。 前面提到过,文档中的每个索引词对文档内容的贡献是不同的,可以把索引 词的重要程度看成一个聚类问题。索引聚类包括类间相似度和类内相似度。类内 相似度是通过测算k i 在文档也出现的频率得到的,一般用i f ( t e r mf r e q u e n c y ) 来表示, t f 越大说明这个词越能表示出文档的内容倾向。类间相似度计算一个索引词在整个 文档集合出现的倒频率,一般用i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) 表示。矢量模型需 要同时兼顾t f 和i d f 这两个参数并进行折衷考虑。 设n 为系统文档集合中文档总数,n j 是索引词k i 出现过的文档数,令f r e q i , j 是 k i 在文档d j 中的频率,k i 的归一化频率,;在也: f r e o : f i ,j _ l i j ) m a x ( f r e q 式( 2 4 ) l ,j 声“1 在实际应用中,为避免因文档长度引起的频率变化,对权值函数进行规范化 处理 w i ,j = f i , j x l o g ( i n - l - i + o 5 ) 式( 2 5 ) ( 3 ) 概率模型 在概率模型中,文档和用户查询条件表示为索引词集合的形式,概率模型通 常采用索引词在文档中的统计分布等参量,计算任意文档d 与给定用户查询条件q 相关的概率p ( qid ) 。 贝叶斯推理网络模型是一种典型的信息检索概率模型,该推理网络模型提供 了一种将不同来源的证据结合起来,以确定给定文档满足用户查询条件或者信息 需求概率要求的自然方法。 贝叶斯网络是一个描述随机变量之间因果关系的有向无环图。在贝叶斯网络 中,节点表示随即变量,一条从父节点y 到子节点x 的边表示两个随机变量的依 赖关系,在贝叶斯网络中的任一节点x 都附加了一系列条件概率队p ( xiy l ,y 。) , 件概率表示子节点与父节点y l ,y n 依赖关系的强度,在贝叶斯网络中,一 个一节点仅条件依赖于它的父节点。 在将贝叶斯网络应用于信息检索系统中,节点是每个索引词k i ,数据全集中 的文档d i 和和用户查询条件q 。边有两种类型:一类是从文档d i 指向索引词k i ,表 示索引词k i 出现在文档d i 中;另一类是从k i 指向用户查询条件q ,表示索引词k i 出现在查询条件q 中。这样整个贝叶斯网络也划分为3 个基本层次:文档层次、 索引层次和用户查询层次,于是,计算用户查询条件与文档的相关度这一问题转 7 第2 章信息榆索技术 换为由贝叶斯网络计算用户查询条件与文档的联合概率问题。 概率模型的优点是:文档可以按照它们的相关概率递减的顺序计算秩;缺点 是:开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有 考虑索引术语在文档中的频率,而索引术语都是相互独立的。 2 3 2 特征内容处理 信息检索的第一步就是对原始的文档数据进行处理,提取文档的逻辑结构和 特征,按照文档的内容模型进行组织,支持信息的检索。此处的文档是指广义的 文档,包含文本、图像、视频和音频等媒体。由此,文档数据的内容处理就是指 文本、图像、视频和音频数据文本和多媒体的特征内容处理。文本数据内容的处 理,首先需进行词汇分析,识别出文本词汇,同时对数字、连字符、标点和字母 的大小写进行处理。然后去除虚词,过滤掉那些对检索来说作用不大的词。接着 对剩下的词抽取词干,去除前后缀,这样就可以检索到查询项的语法变异词,最 后选择索引项,确定哪些词( 或词干、词组) 用作索引元素。 2 4 信息检索结果分析 检索结果是信息检索的最终目的,直接关系到信息检索的性能。对检索结果 进行分析可以为语义空问技术、信息表示技术和信息匹配技术提供有效的反馈信 息,从而提高信息检索的性能。信息检索结果分析涉及到信息检索结果排序、信 息检索结果的性能分析。 2 4 1 影响检索结果排序的因素 信息检索结果的排序是以不同的顺序把信息检索的结果呈现给信息用户。关 联度最高的检索结果显示在最前面,这样可以帮助信息用户更容易地获取所需信 息,节约用户时间,提高检索效率。在对检索结果进行排序时,涉及到词频、关 联、引用和访问量等因素后两种主要针对网络信息资源。词频是即关键词在文献 中出现的频率,它是文献内容的一种体现形式。直观上,若信息资源包含的某一 检索词越多,则该文献与信息需求的相关度就越高。基于词频的检索通常是基于 词匹配,而不是语义匹配,有可能检索出大量的无关信息。同时,有个别信息资 源的信息生产者,由于某种目的可能有意加大某些关键词的使用量。这种欺骗行 为同样给用户带来信息垃圾。总的来说,基于词频排序的相关程度比较高,是一 种比较满意的排序方法。关联排序是一种联系关系的排序方法。根据信息资源和 信息需求的学科内容属性,对检索结果进行再匹配,剔除与信息需求学科属性不 相关的结果,进一步精简结果。也可以是预先处理信息资源,把信息资源根据内 8 山东轻t 业学院硕f :学位论文 容的不同分成不同的簇,簇内信息资源密切相关,与簇外信息资源尽量不相关。 这样与信息用户信息需求相关的文章可能会尽量的靠近某些簇,因此可以剔除检 索到的其他不在这些簇的信息资源。基于关联的排序方法也与语义的理解密切相 关。语义的理解程度越高排序的结果越准确。 超链接和文献引用都是二种引用关系。w e b 中蕴含着丰富的结构信息,页面 之间的超链接反应了某种引用关系。一个页面被其它站点引用的次数基本上反映 了该页面的受欢迎程度重要性。超链中的标记文本对链宿页面也起到了概括作用。 这种概括在一定程度上比链宿页面作者所作的概括( 页面的标题、关键字、摘要) 更为客观、准确。可以通过构造w e b 页面引用关系图,综合考虑页面的被引用次 数以及所引用页面的相关度来判断本页面的重要性。例如,以p a g e r a n k 核心技术 的搜索引擎g o o g l e 能够查询与用户请求相关的“权威 页面。对超链接的有效性 的确定是基于超链接排序的难点和重点。文献引用体现了文献间的某种联系,同 时也体现了被引用文献在该主题的重要性一影响因子,被引用得越多,说明该文 献在该主题上越重要。根据文献的重要性确定文献在读者检索结果上的排序位置, 把学科领域中具有重要意义的文献优先提供给读者,改变目前检索结果排序单一 按照时问因素排列的模式一。 访问量即信息资源的使用频率,是一种语用关系,它可以衡量信息资源的重 要程度。信息的使用频率越高,信息的重要程度就越高。许多站点都设有自 己的访问量计数器,以此显示自己的重要性与吸引力。搜索引擎会记录它所搜索 到页面的被点击次数,从而判断该页面被访问和使用的频率。这是一种由公众集 体确认信息资源重要性的方法,具有一定的客观性与公众性。访问量也有可能存 在欺骗,也就是信息资源的信息生产者故意按照某种算法增加访问量,或者是发 起很多无效的访问。 2 4 2 检索系统评价 检索性能是指检索系统对用户查询请求响应的准确度的评价,其指标分为查 准率( p r e c i s i o n ) 和查全率( r e c a l l ) t z 4 - 2 6 。 查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关 文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索 出来。 查全率= l 检出相关文献量文献中相关文献总量i 1 0 0 式( 2 5 ) 查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比 率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。 查准率= i 检出相关文献量检出文献总量i 1 0 0 式( 2 6 ) 9 第2 章信息榆索技术 例如检出的文献总篇数为3 0 0 篇,经审查确定其中与项目相关的只有6 0 篇, 另外2 4 0 篇与该课题无关。那么,这次检索的查准率就等于2 0 。显然,查准率是 用来描述系统拒绝不相关文献的能力,有人也称查准率为”相关率。查准率和查 全率结合起来,描述了系统的检索成功率。影响查准率的因素主要有索引词不能 准确描述文献主题和检索要求组配规则不严密选词及词间关系不正确标引过于详 尽组配错误检索时所用检索词( 检索式) 专指度不够,检索面宽于检索要求检索系 统不具备逻辑 非 功能和反馈功能检索式中允许容纳的词数量有限截词部位不 当,检索式中使用逻辑”或 不当等等。 检索系统的可靠性,指检索系统的稳定性和健壮性。检索系统应该在时间上 连续运行,同时在相当短的时间范围内,不同的信息用户输入相同的检索内容, 获得的检索结果应该尽量相同和相似。检索系统的响应速度,指信息用户输入检 索内容到输出检索结果的花费时间,包括检索准备时间、检索过程时间、获取文 献时间等。提高检索速度应该分析信息用户检索表达式的使用额度,加速在子集 里检索的速度,因为信息用户经常只在某领域内查找无论数据库多大,检索词的 检索速度均应在相当短的时间之内,因为信息用户使用检索词查找的概率较大应 该采用高级缓存技术,因为网络环境下信息用户使用相同检索表达式的概率较大。 查询的查准率和查全率是互相制约的,一般来说查全率越高,查准率越低; 查全率较低时,可以获得较高的查准率。所以往往要根据实际需要在两个值之 间进行权衡,以达到满意的检索结果。 2 5 当前信息检索的不足 目前,信息检索存在着以下几个方面的不足( 后两种主要针对网络信息资源) : ( 1 ) 查询质量不高。查询质量低表现在返回大量的结果页面,然而真正符合用 户需求的数量很少,而且这些相关链接很多都没有出现的查询结果的前面。用户 需要不停的尝试、翻页才能找到有价值的信息,这个过程耗费了大量的时间。在 信息量指数增长的时代,这个问题显得尤为突出。提高查询质量是目前智能化信 息检索研究中最关键的一个问题,在结合了数据挖掘技术后,信息检索的查询质 量可以得到很大改善。 ( 2 ) 基于关键词的查询缺乏用户行为理解力。从检索技术发展的角度看,基于 关键词的查询将是现在以及相当长的一段时间内最重要的检索方法。基于关键词 的查询是以关键词的布尔组合来实现复杂的检索。而现有的搜索引擎提供给用户 的提问函数是相当有限的,大多数的搜索引擎只提供关键词间最基本的布尔连接, 只提供两种逻辑运算符,并且强制一个逻辑运算符应用于所有的关键词。在很多 情况下,要构建一个有效的查询组合是非常困难的。另一方面,即使是相同的关 1 0 山东轻r t 业学院硕 :学位论文 键词,不同的用户的查找目标也有可能足不同的,它和用户的个人偏好、当前查 找的上下文环境、以前的查找历史等因素密切相关。在了解了这些参数的基础上, 可以设计出更符合用户需要的搜索引擎。 ( 3 ) 查询更新速度慢。该原因造成了查询结果更新速度慢一个是搜索引擎的系 统效率不高,每次文档收集的周期过长,完成索引后的内容已经和最新的页面产 生了差别二是文献更新速度越来越快。现在很多网站都包括了动态页面,这些页 面是由后台数据库驱动的,数据库的变化直接导致这些动态页面的改变。部分静 态页面的更新速度也在加快,在七连续两次访问的间隔中,很多网页面的变化次 数会远大于两次,而这些变化的内容用户通过查询是无法得到的。 ( 4 ) 缺乏有效的信息分类。目前绝大部分搜索引擎的查询结果都是用列表和分 页的方式提供的,所有相关和不相关的链接没有关联的放在一起,这对于查找目 的明确的用户来说非常的不方便,因为必须在各个链接之间不断的跳过或者选择。 将查询页面进行分类或者聚类是改变用户导航质量的有效途径,它可以让用户快 速的选择某个分类并在该分类中进一步细化查找目标。 2 6 小结 本章节阐述了信息检索的逻辑模型,对当前信息检索技术包含的几个重要部 分一检索模型,检索过程,检索结果,进行了详细的分析。在章节的最后,还提 出了当前信息检索存在的一些不足,为后续工作的开展做好铺垫。 第3 章本体论研究 第3 章本体论研究 本章详细介绍本体论的相关理论知识:本体的概念、本体分类、本体的功能、 本体的建模元语、本体描述语言、本体的构建规则、本体的构建工具以及本体在 信息检索中的应用。 3 1 本体的概念 o n t o l o g y 最早属于哲学的范畴,它被定义为“客观存在的一个系统的解释和 说明,客观现实的一个抽象本质”,后来被应用到人工智能领域,研究人工智能的 n e c h e s 等人将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用 这些术语和关系构成的规定这些词汇外延的规则的定义 【2 9 1 ;这个定义实际上给 出了构造本体的过程,即:找出基本的术语和术语问的关系及相应的规则,然后 给出这些术语和关系的定义。在计算机界,1 9 9 3 年,o r u b e r 给出了本体的一个最 为流行的定义,即“本体是概念模型的明确的规范说明”【3 。后来,b o r s t 对此稍 做修改,提出:“本体是共享概念模型的形式化规范说明【3 。 s t u d e r 等对上述的定义进行了深入的研究,认为本体是共享概念模型的明确的 形式化舰范说明。这个定义是目前为止最完善的定义,它体现了o n t o l o g y 的四层 含义3 2 , 3 3 】: ( 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,概念化所表现的含义独立于具体的环境状态。 ( 2 ) 明确( e x p l i c i t ) :所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) 形式化( f o r m a l ) - 本体是计算机可读的( 即能被计算机处理) 。 ( 4 ) 共享( s h a r e ) :本体中体现的是共同认可的知识,反映的是相关领域中公认 的概念集,它所针对的是社会范畴而非个体之问的共识。 除了上述定义以外,不少文献从不同的领域和角度出发对本体给出了各种各 样的定义,这些定义之间是相互补充的,并且不断的扩充了本体的应用范围,但 是它们的共同点都包含了g r u b e r 定义中所指出的事实:“本体是反映客观存在的概 念模型,是对概念模型的明确描述”。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词 汇之间相互关系的明确定义。目前o n t o l o g y 已经在人工智能、计算语言学以及数 据库理论中占有重要的地位。并且在知识工程、知识表示、定性模型、语言工程、 数据库设计、信息模型、信息集成、基于对象的分析、信息检索和析取、知识管 1 2 山东轻工业学院硕十学位论文 理和组织、基于智能代理的系统设计等研究领域中得到认可和应用,并具体应用 到企业集成、自然语言翻译、医学、医学工程、产品信息标准化、电子商务、地 理信息系统、法律信息系统、生物信息系统等基于o n t o l o g y 的信息系统中。 3 2 本体的分类 目前关于本体的研究非常广泛,尤其是在国外,许多研究组织和机构都研究 建立了各种各具特色的本体。针对目前出现的各种各样的本体,也出现了不同的 分类方法,最为广泛的分类方法是根据本体应用主题,将这些为数众多的本体划 分为五种类型: ( 1 ) 领域本体:领域本体在一个特定的领域中可重用,它们提供该领域特定的 概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和 基本原理等。对特定领域的本体研究和开发目前已涉及许多领域,包括企业本体、 医学概念本体、酶催化生物学本体、陶瓷材料机械属性本体等。 ( 2 ) 通用或常识本体:关注于常识知识的使用。通用知识本体的研究包括著名 的c y c 公司的o p e n c y c 本体,最新版的o p e n c y c 包括6 0 0 0 个概念和6 0 0 0 0 个关 于这些概念的声明包括( 概念间的关系、对概念的限制等) ,另外o p e n c y c 还包括 一个基于本体论的常识推理机。 ( 3 ) 知识本体:它的研究重点是语言对知识的表达能力。典型的有斯坦福大学 知识系统实验室提供的一种称为知识交换格式k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的知识描述语言,以及可以在线将各种知识转换为k i f 的本体服务器o n t o l i n g u a 。 目前普遍认为,所有其它的知识表示形式都可以转换为k i f 的形式。 ( 4 ) 语言学本体:是指关于语言、词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 对外开放课件
- 对公业务贷后管理课件
- 安全培训的项目经理课件
- 工程审计应急服务方案(3篇)
- 2025年煤及矿产品批发服务项目合作计划书
- 2025年甲醛知识试题及答案
- 2025年吉他考题试卷及答案
- 2025年牛羊数学思维题目及答案
- 工程汛期防洪应急方案(3篇)
- 工程项目方案评估(3篇)
- 高三生物一轮复习课件病毒 微专题
- 畲族民俗文化课件
- 2025-2030男装市场市场现状供需分析及投资评估规划分析研究报告
- 航海概论航海技术臧继明课件
- 急性脑梗死静脉溶栓护理查房
- 2024年中国农业银行秋季校园招聘考试真题及答案
- 乡村医生药品管理培训
- 医院培训课件:《危重病人心电监测》
- 医院规培合同范本
- 银行贷款电子合同电子版(2025年版)
- 非物质文化遗产微短剧叙事策略与文化传承路径研究
评论
0/150
提交评论