




已阅读5页,还剩62页未读, 继续免费阅读
(计算机科学与技术专业论文)基于粒计算和眼动的科技文献检索模型和方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
? :4 , 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 训、6 f o 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名刻幺域导师签名:么醴二季垂 日期:趁! ,笸! 伊 j1j-_1 摘要 摘要 科技文献是由文章的作者、标题、摘要、子标题、正文和参考文献等内容组 成的,这些内容构成了科技文献的结构化特征。现有的科技文献检索系统都是基 于关键词的检索,就是指将科技文献的这些内容以关键字的形式作为检索条件来 进行检索。本文一方面结合用户的偏好关系,通过粒计算的理论和方法来讨论科 技文献粒的构建和结构,并以此为基础构建了科技文献检索模型;另一方面,针 对用户偏好关系的获取情况设计了一个眼动实验。 本文的主要工作如下: 1 、现有的研究主要是结合用户的偏好关系,通过粒计算的理论和方法来讨 论科技文献粒的构建和结构,并以此为基础构建了科技文献检索模型。本文针对 科技文献的结构化特征,并基于这种结构化特征把科技文献表示成几种不同的形 式,通过粒计算的方法来分析关于科技文献的粒结构和层次结构的表示。对于用 户的偏好关系,通过粒计算中粒结构的特性来对用户偏好关系进行形式化描述。 基于用户的偏好关系,来推断科技文献之间的相关度。利用布尔模型和向量空间 模型对相似度的计算,来对检索结果进行排序,以此来提高科技文献检索的效率。 2 、对于用户偏好关系的获取情况,本文设计了一个眼动实验。在信息检索 中,结合多种信息源可以提高搜索的准确性。通常情况下,从一个较大的文献集 合中最快最有效的搜索到用户想要的科技文献是很困难的。大多数信息检索系统 都是依赖于显式反馈机制,就是使用户可以明确地知道其检索到的文献是否相 关。为了更好地处理这种较大的数据集,使用户能够查找到最相关的文献。本文 提出了一个新策略,结合科技文献的结构化特征,以及从用户眼动获取的隐式反 馈信息对检索结果进行排序。 总之,本文就是基于信息检索系统的特点,从科技文献的粒结构表示以及用 户的偏好关系的角度出发,建立了一个基于用户偏好关系的科技文献检索粒计算 模型。 关键词结构化文档;粒计算;眼动;用户偏好关系;科技文献检索系统 a b s t r a c t a b s tr a c t as c i e n t i f i cd o c u m e n ti sc o n s i s t e do f 也ea u t l l o r ,t i t l e ,s 蝴a 吼s u b t i t l e ,t e x t , r e f 酐e n c e sa n ds oo n t h e s ec o n t e n t sa r eo 唱a n i z e db yas t r u c t u r a lf e a t u r e m o r e c u r r e n ts c i e n t i f i cd o c u m e n t sr e t d e v a ls y s t 锄so n l yf o c u so nh o * t or e 砸e v er e l e v a n t 撕i c l e sb a s e do nm ek e y w o r d so fm ec o n t e n t so ft h ea n i c l e 1 1 1t h j sp a p o n 也eo n e h a n d ,w ec o n l b i n et h eu s e r 。sp r e 向e n c er e l a t i o n ,缸o u 曲m em e o wa n dm e t h o do f 铲锄u l a rc o m p u t i n gt o d i s c u s st h ec o n s t m c t i o na i l ds t m c t u r eo f 铲a n u l e so f 也e s c i e n t i f i cd o c u m e n t s ,a n db u i l das c i e n t i f i cd o c u m e n tr e t r i e v a lm o d e lb a s e do ns u c h g r a i l u l a rs t n l c t u r e ;o nt h eo t h e rh a n d ,w ed e s i g na 1 1e y em o v 锄e n tt e s tb a s e do nm e u s e rp r e f 酹e n c er e l a t i o n t h em a i nw o r ko ft h i sp a p e ri so r g a n i z e da sf o l l o w s : 1 、t h ec u l l r e n ts t u d yc o m b i n e sw i t ht h eu s e r f sp r e f e r e n c er e l a t i o n ,d i s c u s s e st h e c o n s t r u c t i o na n ds t l l l c t u r eo ft h eg r a n u l eo fm es c i e n t i f i cd o c u m e n tb a s e do nt 1 1 e m e o 巧a n dm e t h o do fg r a n u l a rc o m p u t i n g ,a n dc o n s t i u c t sm es c i e n t i 6 cd o c u m e n t r e t r i e v a lm o d e l i i lt h i sp a p e r , a c c o r d i n gt o t h es t l l l c t u r e df e a t u r eo fs c i e n t i f i c d o c u m e n t ,w ep r e s e n tm es c i e n t i f i cd o c u m e n tt os o m ed i 行贸e 1 1 tf o 肌s ,a n da n a l y z e m er e p r e s e n t a t i o no ft l l es t m c t u r ea n dh i e r a r c h yo fm eg r a l l u l ea b o u tt h es c i e n t i f i c d o c u m e n tt h r o u 曲t h em e t h o do f 伊a n u l a rc o m p u t i n g f o rm eu s e r sp r e f e r e n c e r e l a t i o n ,t h r o u 曲t h ec h a r a c t e r i s t i c so ft h eg r a n u l a rs t m c t u r et od e s 谢b e st h eu s e r s p r e f e r e n c er e l a t i o nf o m l a l l y ,a sw e l la l st h em e t h o do f t h ec o n s t m c t i o n t h ed e g r e e so f r e l e v a n c eo fs c i e n t i f i cd o c m n e n t sa r ei n f e r r e d 行o mt h eu s d sp r e f e r e n c er e l a t i o n h o r d e rt oi m p r o v et h ee 伍c i e n to fm es c i e n t i f i cd o c 啪e n tr e t r i e v a ls y s t e m ,t h eb o o l e a j l a n dt h ev e c t o rs p a c em o d e l sa r ea n a l y z e d ,t or a n kt h er e s u l t so ft h er e t d e v e 2 、f o rt h eo b t a i no ft h eu s e rp r e f h e n c er e l a t i o n ,w ed e s i g na ne y em o v 锄e n tt e s t i nt h i sp a p e r c o m b i n i n gm u l t i p l ei n f o 咖a t i o ns o u r c e sc a j li m p r o v et h ea c c u r a c yo f s e a r c hi ni n f o m a t i o nr e 伍e v a l i i lg e n e r a l ,s e a r c h i n gf o rt h em o s tr e l a t e ds c i e n t i f i c d o c u m e n t s 行o mal a r g ec 0 1 l e c t i o ni sad i 衔c u l tt a s k m o s ti n f o 肌a t i o nr e t r i e v a l s y s t 锄sr e l yo ne x p l i c i tf e e d b a c km e c h a l l i s mt h a ta l l o w su s e r st oc l e a r l yl ( n o w w h e t h e rt h ed o c u m e n t sr e t r i e v e da r er e l e v a n t 1 1 1o r d e rt ob e t t e rd e a lw i t hs u c hl a r g e r d a t as e t s ,e n a b l eu s e r st of i n dt h em o s tr e l e v a n td o c u m e n t s t h i sp a p e r p r e s e n t san e w s e a r c hs t r a t e g yw h i c hc o m b i n e ss 咖c t i j r e df e a t u r e so fs c i e n t i f i cd o c u m e n tt o g e t h e r i i i - 、 ! _ l w i m 删c i t f e e d b a c kf r o mu s e r ,se y e m 。v e i n e n t ,a n d u s i n gt h e mt 。r a n k m es e a r c h r e “? 洫竺等= 孚;f 箸:m e 咖m 洲i n 硒仰a t i o n 而e v d 竺芝= :三:三兰盖:篡茹羞= 朗t a n dm e s y s t 篡竺竺三:三:= = = = = :羞:忑i 曲a s e a o n u s e r t sp r e f e r e n c er e l a t i o n sp o i i l to f v l e w ,t h ee 咖1 1 s 吼上lu 工一v l 一 1 u s e rp r e f 白e n c ed o 趴】m e n tr e t r i e v a lm o d e l f o r 可a n u l a rc 。m p u h n g i v e y e m o v e m e n t ; u s e r i 舀 m m 伧 呲跏 咖州 盯 出 m r 锄 一 咖吼6 d 咀 以 乳 盯 毗 酣 。 帆 蔓 翻 趾 如 吖 饥= - _ _ 目录 目录 摘要i a b s t r a c t i i i 第1 章绪论。1 1 1 研究背景和意义1 1 2 相关研究及发展2 1 3 论文的主要工作3 1 4 论文的组织结构4 第2 章信息检索7 2 1 信息检索概述7 2 1 1 信息检索的概念一7 2 1 2 信息检索的体系结构7 2 1 3 信息检索支持系统8 2 2 信息检索的基本原理9 2 3 信息检索模型9 2 3 1 布尔模型1 0 2 3 2 向量空间模型1 1 2 3 3 概率模型1 3 2 4 信息检索效果的评价指标l5 2 5 本章小结1 6 第3 章粒计算的研究现状及其发展1 7 3 1 国内外研究现状1 7 3 2 粒计算的基本成分l8 3 2 1 粒18 3 2 2 粒结构19 3 2 3 粒的划分模型2 0 3 3 粒计算的三元论2 l v 北京工业火学 二学硕一i :学位论文 3 4 本章小结:2 3 第4 章基于用户偏好的科技文献检索粒计算模型2 5 4 1 引言2 5 4 2 结构化文档与用户偏好关系2 6 4 2 1 科技文献的结构化特征2 6 4 2 2 用户偏好关系2 7 4 3 基于粒的科技文献检索2 9 4 3 1 科技文献的粒描述2 9 4 3 2 科技文献的粒结构3 0 4 3 - 3 科技文献粒的信息检索模型3 l 4 4 实现方法示例3 3 4 4 1 概述3 3 4 4 2 用户偏好关系的获取3 3 4 4 3 各层的文献的表示方法3 4 4 5 本章小结3 5 第5 章基于眼动实验来分析科技文献检索3 7 5 1 引言3 7 5 2 方法3 8 5 3 实验3 9 5 3 1 被试3 9 5 3 2 实验设备3 9 5 3 3 实验设计与实验过程4 0 5 4 数据分析与实验结果4 0 5 4 1 眼动轨迹分析4 0 5 4 2 眼动数据分析4 1 5 4 _ 3 评价方法4 2 5 4 4 实验结果4 2 5 5 本章小结4 5 目录 结论一:4 7 参考文献4 9 攻读硕士学位期间发表的学术论文5 3 致谢。5 5 一v n i 一 一 第1 章绪论 1 1 研究背景和意义 第1 章绪论 在互联网产生之前,数据检索系统是用户进行检索的重要手段之一,此时检 索工作主要依赖强大的数据库系统,例如,图书馆系统。随着互联网的产生,出 现了网络浏览器以及网络搜索引擎。基于网络的发展,信息检索系统逐渐取代了 原有的数据检索系统。数据检索系统和信息检索系统处理的问题域区别非常大, 这取决于它们处理的对象【l 翊。数据检索处理的是定义良好的、结构化的、简单 的问题,而信息检索处理的是定义得不是十分好的,半结构化甚至是无结构并且 更为复杂的问题【3 j 。 信息检索系统已经承担了过去几十年的检索工作,主要关注的是简单的文本 匹配,以及匹配文档之间的排序。而随着互联网上可用信息的爆炸式增长,需要 提供给用户更多的工具、方法、语言来支持其进行浏览、研究、分析、理解、组 织信息检索系统产生的结果。从另一个角度说,科学的进一步发展需要信息检索 系统向信息检索支持系统的过渡。信息检索支持系统【3 卅的设计目的就是为用户 提供必要的工具和语言,来帮助用户检索到最有用的信息和知识,它着重强调的 是支持功能。在本文中,重点以科技文献检索系统为例。 科技文献检索系统是科技研究者必备的工具之一,如:s c h o la r g o 0 9 1 e c o m 、 d b l p 、c i t e s e e r 。科技文献与其它文档的区别之一是它可以被看作是一种典型的 结构化文档【_ 7 1 0 】。一般的科技文献主要包括:文章的作者、标题、摘要、子标题、 正文和参考文献等内容。现有的科技文献检索技术主要分别以文章的作者、标题、 摘要、子标题、正文和参考文献等内容作为检索的条件来进行检索,如:把文章 的作者作为检索的条件,可以检索到所有与该作者有关的科技文献,也可以了解 到关于该作者的研究方向与兴趣,以及所有的研究成果;根据文章中的参考文献 来作为检索条件,可以检索到该科技文献以及所有引用过该文献的其他相关文 献;根据文章的正文,传统的科技文献检索是建立在全文检索理论基础上的搜索 技术,即关键词搜索法。用户在使用此类搜索引擎时,可以将需要查找内容中的 重点词汇,即关键词,输入到搜索栏中,提交给搜索引擎后,即可快速的查看到 若干条与该关键词相关的信息列表。总之,目前科技文献检索系统主要是依据传 统的信息检索发展而来的。传统的信息检索通常不考虑科技文献的结构和语义, 它们根据用户输入的查询术语来检索与该查询术语最匹配的文献 1 删。本文研究 北京t 业人学 _ 学硕:l 学位论文 的重点就是要把科技文献的结构化特征充分运用到信息检索中去, i 。, 科技文献的结构赋予了该科技文献很重要的意义。根据科技文献本身的这种 结构化特征【0 1 ,可以帮助我们更好地理解科技文献的内容。科技文献的结构往 往取决于作者的习惯,诸如,作者的写作环境、背景、风格等等。然而,现有的 一些搜索系统却没有利用到这种结构。所以,现在应该做的就是从多个方面来分 析文献的结构,从而找出一个最能体现文献内容的文献表示方法。基于不同的方 法所表示出来的科技文献结构往往会有本质上的不同。基于科技文献的不同结 构,其表示形式也有所不同。对于科技文献的不同的表示形式,关键就在于要找 到这样一种表示方法,来更有效、更直接地表示文档。 根据科技文献本身不同的结构来分析该文献不同的表示形式【4 1 1 1 4 】,利用科 技文献的不同表示结构来满足不同的用户需求。对于查询用户来说,不同的用户 会有不同的信息需求,基于这种对信息需求的多样性,来确定哪一种表示对于该 用户是最有效的。例如,对于初学者来说,他只想了解关于这篇文献的内容介绍, 而不太注重于它的实际应用或整体创新,那么基于文献引言的表示就能满足该用 户的要求;对于有经验的人来说,他们更注重于对应用或创新的了解,那么我们 基于对全文文献或文献结论的结构表示就可能满足相应用户的需求。 通常情况下,科技文献的结构往往会影响人们的阅读,例如:当在检索科技 文献的时候,首先,可以根据文献的标题来初步决定该文献是否是我们需要的, 然后再根据章节的子标题、摘要以及正文等来研究这些科技文献。也就是说,我 们在判断该文献是否是我们需要的,这个过程具有一定的层次性。于是,结合了 粒计算的理论与方法来分析文档的层次粒结构【1 5 2 们。 1 2 相关研究及发展 本文的研究主要涉及了以下几个领域: ( 1 )信息检索【以】这一术语产生于c a l v i nm o o e r s19 8 4 年在m i t 的硕士论 文。它的涵义是指将信息按照一定的方式组织和存储起来,并根据信息用户的需 要找出有关的信息的过程。它涉及了数据库技术、图书和情报科学、人工智能、 自然语言处理、机器学习等众多知识和学科领域。 ( 2 )信息检索支持系统【n i 作为一个研究领域是由u 1 1 i v e r s i t yo fr e g i n a 的 y yy a o 教授在2 0 0 2 年首次提出的。它为参与检索工作的用户提供各种工具和 语言来提高检索的准确度和效率。他指出信息检索支持系统将成为继数据检索系 统到信息检索系统过渡后,又一次重大的变革,并论述了信息检索支持系统的基 本概念、组成部分以及本领域所涉及到的学科。 第1 章绪论 信息检索支持系统的关键部分都会涉及到粗糙的信息表示问题。y yy a o 教 授指出【4 6 ,1 0 ,1 9 】:粒计算将是构建检索空间的关键理论,其中包括对文档空间、用 户空间、术语空间、检索结果空间的信息粒化。基于粒计算中关于粒的结构和层 次性的特点来分析粒的表示。 ( 3 ) 波兰学者z p a w l a k 教授在2 0 世纪8 0 年代初期提出了“粗糙集理论”, 用来研究不完整数据、不精确知识的表达、学习、归纳等方法。粗糙集理论认为 人类的知识是一种分类的能力【2 。粒计算的粗糙集理论模型的提出者y yy a o 首先将粒的研究定位在对论域的划分的基础上,划分是一种最典型的理想状态, 通常较常见的一种是覆盖【1 睨0 1 。 粒计算是在粗糙集和模糊集的基础上提出来的,粗糙集的发展为粒计算的研 究提供了理论基础和应用模型。粒计算是人工智能领域中一个新的研究热点,是 关于信息处理的一种新的概念和计算范式,它覆盖了所有有关粒度方面的理论、 方法、技术和工具的研究,是基于对论域上的元素分类的思想提出来的,粒计算 研究的基本目的是应用于问题求解,将复杂问题进行多层次多粒度的划分,然后 从中找到对问题较好的近似解或最优解,以便降低问题的复杂度【2 m 9 1 。 ( 4 ) 眼动仪是一种记录人眼运动的精密仪器,它通过检测并提取眼睛位置 信息来表达并记录视觉运动的过程。利用眼动跟踪技术,来探讨用户在浏览检索 到的信息时的视觉特性。在信息检索中引入眼动,通过一个眼动实验来获取相关 信息的反馈,具体来说,就是当用户在浏览信息时,可以通过检索用户的眼动轨 迹来获得用户的兴趣偏好。浏览信息其实就是一个阅读的过程【3 4 1 。 阅读是一个复杂的认知过程,而通过眼动分析法,可较深入地考察阅读过程 的认知特点,准确把握语言理解的即时认知过程。以日艮动为指标考察阅读过程, 是心理语言学和阅读心理学研究的一个重要领域。阅读活动中认知加工与眼动行 为关系的研究,可以追溯到1 9 世纪,当时的研究主要集中在研究眼动的基本参 数和基本特征上。上世纪7 0 年代以后,眼动记录技术的发展,尤其是计算机技 术的使用,使阅读过程的研究进入了一个新阶段。心理学家开始重视眼动与知觉、 认知之间的关系,开始利用眼动参数来描写认知加工的过程。 1 3 论文的主要工作 信息检索系统就是对大量的存储信息进行识别和分类,满足不同查询用户的 信息需求。然而,基于简单的文本匹配和文档分类的信息检索系统已经不能满足 人们对爆炸式信息的需求,需要提供给人们更多的工具、方法、语言来支持浏览、 研究、分析、理解y 组织信息检索系统检索到的结果。于是,就需要信息检索系 北京丁业大学二掌硕:l 二学位论文 统向信息检索支持系统的过渡。在信息检索支持系统中,面对互联网上海量的信 息( 即科技文献) ,如何才能准确有效的检索到用户真正想要的信息和知识。结 合科技文献的结构化特征,为科技文献寻求一个最有效的表示形式,准确地表示 出科技文献的内容。 文档本身都是有结构的,根据结构化文档本身的这种结构化特征,可以帮助 我们更好地理解文献的内容。然而,现有的一些搜索系统( 诸如,g o o 酉e ,b a i d u 等搜索引擎) 却没有利用到这种结构。所以,本文的研究主要是通过粒计算的理 论和方法来讨论科技文献粒的构建和结构,着重对科技文献的不同层次的粒结构 进行分析,并把这种粒结构运用到信息检索中。同时,通过粒计算中粒结构的特 性来对用户偏好关系进行形式化描述。结合用户的偏好关系,并以此为基础构建 了科技文献检索模型。 对于用户的这种兴趣偏好情况,本文通过一个眼动实验来隐式的获取用户的 兴趣偏好关系。目前的信息检索系统主要依赖于显式的类型查询,也就是说,通 过利用隐式反馈来帮助用户达到显式获取的效果。具体来说就是,从u 艮动观察中 获取这种隐式反馈,并以此来推断用户的兴趣偏好和意图。基于科技文献的结构 化特征,在信息检索中,结合f 艮动技术来获取用户的偏好情况。总体来说,充分 考虑到用户的兴趣偏好和眼动之间的联系,通过观察用户在检索时的行为来得出 用户真实的兴趣偏好。 1 4 论文的组织结构 本文的内容共分为六章,各章的内容安排简要描述如下: 第一章绪论,分析了本文的研究背景的意义,确定了本文的研究主题和目 标,介绍了本文的主要工作; 第二章信息检索,详细阐述了信息检索的概念及相关技术,并全面系统地 分析了信息检索的基本原理和技术特点,为进行主动信息检索提供了重要的理论 依据; 第三章粒计算,详细介绍了粒计算的基本概念和研究现状,以及其理论与 方法,着重叙述了粒计算中粒的结构和层次结构的重要特性; 第四章基于用户偏好的科技文献检索粒计算模型,分析比较了基于用户的 偏好关系对科技文献检索的特点,并结合粒计算的理论与方法建立了科技文献检 索模型; 第五章基于眼动实验来分析科技文献检索,通过一个眼动实验获取隐式反 馈信息,并以此来分析科技文献检索模型; 第l 章绪论 绰论,、鹧结了本文的毒要研究成果,并指出了进一步的研究方向。 本文的组织结构如图1 1 所示: l第五章基于眼动实验来分析科技文献检索 图1 1 本文的组织结构 f i g l l r el lo 唱a n i z a t i o n a ls t m c t u r eo ft h ep a p e r 6 第2 章信息检索 2 1 信息检索概述 2 1 1 信息检索的概念 第2 章信息检索 信息检索【m 】( i n f o m a t i o nr e t d e v a l ,简称i r ) 是指将信息按照一定的方式 组织和存储起来,并根据信息用户的需要找出有关的信息的过程,所以它的全称 又叫信息的存储与检索( i n f o 肌a t i o ns t o r a g ea n dr e t r i e v a l ) ,这是广义的信息检索。 它包括两个部分,其中一部分是存储,即,将大量的、分散无序的信息搜集起来, 经过加工处理,使之有序化、系统化,成为可以用来查询使用的信息集合;另一 部分是检索,即,借助于查询语言,将所需要的信息从信息集合中查找出来。狭 义的信息检索仅指该过程的后半部分,即从信息集合中找出所需要的信息的过 程,相当于人们通常所说的信息查寻( i n f 0 肌a t i o ns e a r c h ) 。 信息检索涉及数据库技术、图书和情报科学、人工智能、自然语言处理、机 器学习等众多知识和学科领域。信息检索的主要目的是对信息进行表示、组织、 分析、存储、搜索与获取,使用户更快更有效地得到所需要的或感兴趣的信息。 信息检索的过程可以简单地描述为:首先,用户提交查询条件,信息检索系统根 据该查询条件在文档集中检索出与其相关的文档子集;其次,对这些相关文档子 集中的文档按照与查询条件相关性的值进行排序;最后,返回给用户一个有序的 文档集。 2 1 2 信息检索的体系结构 通常情况下,信息检索是指为了个人或他人的需要,去查找适当的信息资源 或信息对象。信息检索系统是指为满足信息用户的信息需求而建立的、存贮经过 加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与 检索方法及检索服务功能的一种相对独立的服务实体( 包括人和检索工作单位) , 统称为信息检索系统( i n f o 姗a t i o nr e t r i e v a ls y s t e m ,简称瓜s ) 。信息检索系统的 作用就是对数据系统进行有效的管理和利用。 信息检索系统中所涉及的主要模块有用户界面模块( u s e ri n t e m c e ) 、文档处 理模块( t e x to p e r a t i o n s ) 、查询处理模块( q u e d ,o p e r a t i o n s ) 、文档索引模块 ? 7 北京工业大学工学硕= i :学位论文 ( i n d e x i n 曲、信息检索模块( s e a r c h i n g ) 以及排序模块( r a n k i n 曲。信息检索的体系结 构如图2 1 所示。 图2 1 信息检索的体系结构 f i g u r e2 一li i l f o m a t i o nr e t r i e v a i a r c h i t e c t u r c 2 1 3 信息检索支持系统 信息检索支持系统的设计目的就是为用户提供必要的工具和语言,来帮助用 户检索到最有用的信息和知识,它着重强调的是支持功能。大多数信息检索系统 都是基于索引和搜索的原则设计的。现有的信息检索系统只关注于原始信息的存 储和搜索功能,从而忽略了两个重要的问题,即模型和用户参与。虽然现有的信 息检索系统,以网页搜索引擎为例,建立了层次结构模型来为文档提供语义解释, 但最终用户还是不能参与模型的创建过程。 信息检索支持系统提供了更多的支持功能来试着解决信息检索系统的问题。 8 第2 章信息检索 它提供了模型、语言和工具来帮助用户调查、分析、理解和组织文档集和搜索结 果。这些工具允许用户去探索每个单一文档,乃至整个文档集合的语义和结构信 息。它还提供了三个相关模型,文档模型负责文档和文档集的表示和解释,检索 模型负责搜索,表示模型负责搜索结果的表示和解释【3 胡。 2 2 信息检索的基本原理 从本质上讲,信息检索就是对信息集合与需求集合的匹配与选择。从图2 2 可以看到,要实现匹配与选择,首先要对信息集合进行特征化表示,即通过人工 或计算机的方法对信息集合进行加工处理,将原来隐含的、不易识别的特征显性 化。这种加工处理工作被称为内容分析与标引,其中,用来表示文档特征的词条 被称为标引词。另一方面,在检索时,也要对用户所提出的信息需求进行分析, 提取概念或属性,并利用与标引过程相同的标识系统( 检索语言) 来表达需求中 所包含的概念和属性,然后通过匹配和选择机制,对需求集合与信息集合进行相 似性比较,最后根据一定的标准选出符合需要的信息。 匹配与选择 图2 2 信息检索的基本原理 f i g u r e2 2b a s i cp r i n c i p l e so fi n f o n n a t i o nr e t r i e v a l 2 3 信息检索模型 信息检索领域有三种经典模型,它们分别是布尔模型、向量空间模型和概率 模型。本节在介绍经典模型之前给出了信息检索模型的形式化定义如下【l 】: 定义:信息检索模型是一个四元组 d ,q ,尺( g ,d ) ,其中 ( 1 ) d 是文献集中的一组文献逻辑视图( 表示) ,称为文献表示; ( 2 ) q 是一组用户信息需求的逻辑视图( 表示) ,这种视图( 表示) 称之为查询; ( 3 ) f 是一种机制,用于构建文献表示、查询及它们之间关系的模型; 9 北京工业大学丁学硕:l 学位论文 ( 4 ) 尺( g ,d f ) 是排序函数,该函数输出一个与查询g ,q 和文献表示d d 有关的实数,这样就在文献之间根据查询g ,定义了一个顺序。 在信息检索中,每篇文献都可以用一组具有代表性的关键词描述,这些关键 词就是该文献的标引词( i n d e xt e 册) 。标引是指对信息集合中具有检索价值的特征 信息如题名、作者、主题等进行提取和标识,并组织成索引文档,为用户的查询 和访问提供准确而有效的检索入口。标引词的语义能够体现文献的主题,因此常 常被用来编制索引或者概括文献的内容。在检索的过程中,可以根据实际情况为 标引词设定权值( w 秭曲t ) ,该值描述了标引词与文献的相关程度。 2 3 1 布尔模型 布尔( b 0 0 1 e a n ) 模型是基于集合论和布尔代数的一种简单检索模型【l 3 6 】,用布 尔表达式表示用户的查询条件,通过对文献标识与查询条件的逻辑比较来获取文 献,是一种简单常用的严格匹配模型。常用的布尔逻辑组配运算符有:逻辑 “与”( a n d ) 、逻辑“或 ( o r ) 、逻辑“非”( n o t ) 。在布尔模型中,标引词只 有两种状态,出现或不出现在某一篇文献中,这样也导致了标引词的权重都表现 为二元性。 对布尔模型而言,标引词权重变量都是二值的,即,w f ,= o ,1 。查询条件g 是一个常规的布尔表达式。文献d ,和查询条件g 的相似度可以定义为: 跏= r 甏 弘, 如果m 扛,g ) = l ,则布尔模型表示文献d 与查询条件g 相关,否则就表示文献 d ,与查询条件目不相关。布尔模型只是判断文献要么相关、要么不相关,无法描 述与查询条件部分匹配的情况l l j 6 j 。 布尔模型的主要优点是具有清楚和简单的形式,直观并且简洁,但也存在着 一些缺陷:首先,它的匹配策略是基于二元判断标准,对于一篇文档的查询来说, 只有相关和不相关两种状态,缺乏对文档相关性排序的概念,限制了过滤功能。 其次,虽然布尔表达式具有精确的语义,但往往有时很难将用户的信息需求转换 为布尔表达式。通常情况下,大多数用户发想把他们需要的查询信息转换为布尔 表达式时,并不是那么容易。 第2 章信息检索 2 3 2 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是由gs a l t o n 等人在2 0 世纪 6 0 年代提出的【5 7 58 1 ,是近年来应用广泛且效果较好的一种信息检索模型。在向 量空间模型中,将所有文档和用户查询都看作是由若干关键词构成的向量,记作 o 。,f :,f 。) ,所有的文档向量构成一个向量空间,任何一个文档或是用户查询都 被看作是向量空间中的一个点。这样,文档与用户查询之间的相似性问题就转化 为向量空间中两个点之间的相似度问题【1 3 6 1 。 ( 1 ) 向量的构造 设d 表示文档集合,对任意文档v d ,d 可表示为一个胆维向量的形式: d ,= ( w 1 ,w 2 ,w :,! ,) ( 2 2 ) 用户的查询需求也可以表示为向量的形式,即: g = ( w l 。,w 2 。,) ( 2 。3 ) 其中,以为向量空间中关键词的个数,坳表示第f 个关键词f ,在文档吒中的 权重,表示第i 个关键词f ,在用户检索语句中的权重。和的取值范围是 一个连续的实数区问 o ,1 】。 f 一( 2 ) 权重的计算 关键词与文档的相关程度体现了词的重要程度,不同的词,重要性也是不同 的。与标引词的重要性相关的两个因素是词频朋肛g “e ,z 钞,矿) 和逆文献频 率西v e 昭如c “m p 盯f 肛g “e 门钞,渺) 。即一z 卯是一种统计方法,在此用来 评估关键词对文献的重要程度。 设表示文献集合中的文献总数,z ;表示包含索引词的文献数,咖g 口表 示索引词f ,在文献d ,中出现的次数,如表示索引词在文献d 中出现的频率, 它的计算公式可以表示如下: 鲲2 袅 ( 2 - 4 ) 其中,m a x 加g 表示文献d ,中所有关键词出现次数的最大值。如果索引词f , 北京工业大学- t 学硕j :学位论文 不出现在文献d ,中,则,蛎= o 。 f 彤为索引词的逆文献频率,计算公式可以表示如下: 颂:1 。g 型( 2 5 ) 于是,对于文献向量的权重的计算,可采用删d f 加权策略,具体的计 算公式表示如下: 嘞= 蜗f 彬 ( 2 - 6 ) 对于查询向量的权重,其计算公式可以表示如下: = ( o 5 + 器卜苦 陋7 , 在上式中,佛g 幻表示用户检索语句中关键词f ,的出现次数,m a x 舡g ,为用 户检索语句中所有关键词出现次数的最大值。 ( 3 ) 相似度的计算 根据上述对文献和查询向量形式的定义,我们可以得出文献d ,与查询口的相 似度计算公式为: 聊2 赫2 w f , f = l 再x 鼯 ( 2 8 ) 其中,l 孑l 和吲分别是文档和查询向量的模( n o 脚s ) 。它们表示一个固定的值, 因此不会影响返回的文献结果集。因为嘞芝。且o ,则o 跏p ,虿) l 。 在向量空问模型中,通过计算向量d ,与g 之问的相似度来评价文献d ,与查 询g 的相关程度,比较相似度的大小对文献进行排序。只要文献与检索部分匹配, 就有可能被检索出来。为了避免被检索到的文献太多,可以给m p ,虿) 设定一 个阈值,如果相似度大于这个阈值就会被检索出来,否则将被舍弃。 向量空间模型的优点在于:( 1 ) 关键词权重的算法提高了检索、过滤、用户 1 , 。 第2 章信息榆索 模型管理的性能;( 2 ) 部分匹配的策略使得检索到的结构化文档集合更接近于用 户的查询需求;( 3 ) 根据余弦公式计算结构化文档与查询之间的相似度,并按相 似度的大小对检索结果进行降序排序。其缺点在于关键词之间是相互独立的。现 实情况中,许多关键词之间都存在着局部相关性。如果对所有关键词不加分析地 应用到集合中的所有文献,可能会影响到整体的检索效果。 2 3 3 概率模型 在信思检索中,由于文本信息相关性的不确定性和查询信息表不的模糊性, 促使人们在概率的框架下解决信息检索的问题。概率模型的基本思想是:给定一 个用户查询,存在一个文献集合,该集合只包含完全相关的文档而不包括其它不 相关的文档,将这个文档的集合被称为理想结果集”6 1 。然而,用户在进行检索 之前,对这个理想结果集的属性特征是不可知的,也就是说,在查询期问这些属 性也是不可见的。因此,需要在检索前对理想结果集的这些属性进行估计。这样, 猜测的结果就构成了初始的结果集合,在这个初始集合的基础之上,对文档进行 判断,决定哪些是相关的,哪些是不相关的,从而形成新的集合,不断重复这一 过程,以至最终使检索结果达到或接近理想结果集合。 在概率模型中,索引词的权重都是二元的,即,= o ,1 ) ,= o ,1 。查 询g 是索引词集合的子集。设尺表示相关文档集合( 初始的猜测集合) ,r 是尺的 补集( 非相关文档的集合) ,尸泳ld ,) 表示文档d ,与查询g 相关的概率,p 伍ld ) 表 示文档d ,与查询g 不相关的概率。于是,文档d j 与查询g 的相似度所m p ,g ) 可 以定义为【l ,3 6 】: 跏= 剿 仁功 根据贝叶斯定理有 毗劫= 揣 ( 2 _ 1 0 ) 其中,尸p ,i 尺) 表示从相关文档集合尺中随机选取文档d 的概率;尸 ) 表 示从整个文档集合中随机选取一篇文档作为相关文档的概率。同理可知尸p l 尺) 北京丁业大学t 学硕:l 学位论文 和p 。 由于对文档集合的每一个文档而言,:p 取) 和尸( _ ) 是相同的,于是有 嘶小渊 倍 假设索引词是相互独立的,则 二 毗小礁黜一 ( 2 一1 2 ) 其中,p ir ) 表示从相关文档集合尺中随机选取的文档d 中出现索引词i 的概率,尸阮l 尺) 表示从相关文档集合月中随机选取的文档d ,中不出现索引词i 的概率,同理可知尸el 页) 和尸伍i 页) 。 取对数,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版会计师事务所专项审计与调查服务合同
- 二零二五年度毛绒玩具产品库存管理合同
- 2025版离婚协议签订后反悔的婚姻调解程序
- 二零二五年度生态环保工程承建协议合同
- 2025版多功能农业机耕服务合同
- 2025版房产抵押贷款期限延长合同规定
- 二零二五版吊装作业安全教育培训及协议
- 2025版离婚夫妻子女抚养权及财产分配及子女教育协议
- 二零二五年度城市轨道交通招标合同样本
- 二零二五年度新能源汽车充电站项目可研报告编制合同
- 低空经济可行性研究报告
- 中药材种植员职业技能鉴定经典试题含答案
- 完整版护士糖尿病护理课件
- 工程防溺水安全教育课件
- 铜绿假单胞菌安全数据单
- 立足“大思政”当好引路人-如何当好班主任专题培训
- 高考语文议论文写作入门指导(基础知识)(讲义)(学生版)
- 部队安全驾驶课件
- 物资装备配置方案
- 2025年中级经济师考试全试题及答案清单
- 体教结合视角下“家校社”协同促进儿童体质健康的策略研究
评论
0/150
提交评论