(计算机软件与理论专业论文)基于贝叶斯网络的信息检索研究.pdf_第1页
(计算机软件与理论专业论文)基于贝叶斯网络的信息检索研究.pdf_第2页
(计算机软件与理论专业论文)基于贝叶斯网络的信息检索研究.pdf_第3页
(计算机软件与理论专业论文)基于贝叶斯网络的信息检索研究.pdf_第4页
(计算机软件与理论专业论文)基于贝叶斯网络的信息检索研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机软件与理论专业论文)基于贝叶斯网络的信息检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文中文摘要 摘要 贝叶斯网络是以统计学为基础,是数据挖掘技术的一种方法。本质上 贝叶斯网络是一个有向无循环的图表模型,直观地表述了多个变量之间的 依赖关系。它通过一个有向无循环图来描述各个节点之间的因果关系,通 过一个条件概率分布表来描述各个节点之间的关系密切程度。并且,贝叶 斯网络可以有效地把先验知识和现有数据结合起来,使得网络的推理结果 更加的合理。特别是在当前数据较少或者较难获得的情况下,贝叶斯网络 的这一优点更加明显。 现在随着因特网技术的迅速发展,因特网上的信息成几何级数增长, 传统的信息检索服务己不能满足用户的检索需求,因此智能信息检索成为 重要的研究课题。影响一个检索系统的性能有很多因素,最关键的还是信 息检索的模型。信息检索的模型的效率决定了整个信息检索效果。 本文从介绍了信息检索的三类数学模型集合模型、代数模型和概 率模型着手,对这三类信息检索模型的检索效果进行了分析。并分析了利 用贝叶斯网络来进行信息检索的几个优势:贝叶斯网络方法有坚实的理论 基础;贝叶斯网络有成熟的概率推理算法和开发软件;贝叶斯网络更适合 于信息检索模型;贝叶斯网络具有很强的学习能力。同时结合信息检索本 身的特点,本文在推理网络模型的基础上设计了一个贝叶斯网络模型。并 对信息检索中的贝叶斯网络模型做了若干改进,通过对贝叶斯模型中的概 率进行限定,由此简化了计算的工作量。同时由于用户在输入查询关键词 的时候,往往由于自身的种种原因,而不够准确、细致,这时会严重的影 响到信息检索的结果。为了解决这个问题,本文在再次基于贝叶斯网络、 利用关联规则挖掘的方法对检索词进行了扩展,这样可以有效地解决用 户输入的查询关键词不准确的问题。 本文最后通过实验在查全率和查准率上对我们提出的信息检索模型 和其他三种传统的信息检索模型做了比较,结果证明我们提出的信息检索 模型是十分有效的。 关键词:贝叶斯网络,信息检索模型,关联规则挖掘,向量空间模型,查 全率,查准率 重庆大学硕士学位论文英文摘要 a b s t r a c t o nt h eb a s eo fs t a t i s t i c s ,t h eb a y e sn e t w o r ki sam e t h o do fd a t am i n i n g i ne s s e n c et h eb a y e sn e t w o r ki sad i r e c t e da c y c l i cg r a p hp r e s e n t i n gd i r e c t l y t h er e l i a n c er e l a t i o n sa m o n gm a n yv a r i a b l e s i td e p i c t st h ec a u s ea n de f f e c t r e l a t i o n sb yad i r e c t e da c y c l i cg r a p ha n dt h ec h u m m yr e l a t i o n sb ya c o n d i t i o n a lp r o b a b i l i t yd i s t r i b u t i o nt a b l ea m o n ga l ln o d e s m o r e o v e r , w e c a ni n c o r p o r a t et h ep r i o rk n o w l e d g ei n t oc u r r e n td a t ae f f e c t i v e l ya n dg e ta m o r er e a s o n a b l er e s u l t e s p e c i a l l yw h e nt h ec u r r e n td a t aa r es c a r c eo rh a r d t oo b t a i n ,t h ea d v a n t a g eo ft h eb a y e sn e t w o r ki se v i d e n t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e tt e c h n o l o g ya n dt h e nt h e s u r p a s s i n gi n c r e a s eo fa l lk i n d so fi n f o r m a t i o nc h a r a c t e r i z e db yg e o m e t r i c p r o g r e s s i o n ,t h ei n t e l l e c t u a l i z e di n f o r m a t i o nr e t r i e v a lh a sb e c o m eam a j o r r e s e a r c ht o p i c f o rt h et r a d i t i o n a li n f o r m a t i o nr e t r i e v a lc a n tm e e tt h e r e q u i r e m e n t so fu s e r s t h ef u n c t i o na f f e c t i n gar e t r i e v a ls y s t e m a t i c a l l yh a s m a n yf a c t o r s ,m o s tk e y sb es t i l lt h ei n f o r m a t i o nr e t r i e v a lm o d e l t h e i n f o r m a t i o nr e t r i e v a lm o d e le f f i c i e n c yh a s d e c i d e de n t i r ei n f o r m a t i o n r e t r i e v a le f f e c t i n t h i sp a p e r ,w ei n t r o d u c e dt h r e ec l a s s e so fm a t h e m a t i c sm o d e l so f i n f o r m a t i o nr e t r i e v a l ,w h i c ha r es e tm o d e l ,a l g e b r am o d e la n dp r o b a b i l i s t i c m o d e l t h ec h a r a c t e r i s t i c so ft h e s em o d e l sw e r ea l s oa n a l y z e d a n dh a v e a n a l y s e ds e v e r a la d v a n t a g e so ft h ei n f o r m a t i o nr e t r i e v a lm a k i n gu s eo f b a y e st ob ei np r o g r e s sc o m i n gt h en e t w o r k :b a y e sn e t w o r km e t h o dh a st h e s o l i d r a t i o n a l e ;b a y e s n e t w o r kh a st h em a t u r ep r o b a b i l i t ys p e c u l a t e a l g o r i t h ma n de x p l o i t a t i o ns o f t w a r e ;b a y e sn e t w o r ki sm o r es u i t a b l et oi n i n f o r m a t i o nr e t r i e v a lm o d e l ;b a y e sn e t w o r kh a st h ev e r ys t r o n gl e a r n i n g a b i l i t y a n du n i o ni n f o r m a t i o nr e t r i e v a ls e l fc h a r a c t e r i s t i c ,w ed e s i g n e da b a y e sn e t w o r km o d e lo ni n f e r e n c en e t w o r km o d e lb a s i s w em a d es o m e i m p r o v e m e n t si nb a y e sn e t w o r ko fi n f o r m a t i o nr e t r i e v a l ,s e t t e dal i m i tf o r b yt h ef a c tt h a tp r o b a b i l i t yi nm o d e li s i np r o g r e s st ob a y e sn e t w o r k ,h a v e f a c i l i t a t e dc a l c u l a t i v ea m o u n to fw o r k a tt h es a m et i m e w h e nc o n s u m e ri s i m p o r t i n gt h ei n q u i r i n gk e y w o r d s ,h a v ev a r i e t yo fc a u s es o m e t i m e sb e c a u s e o fo n e s e l f , b u tn o te n o u g ha c c u r a t e ,n o te n o u g hm e t i c u l o u s ,t oh a v e 重庆大学硕士学位论文英文摘要 a f f e c t i n ga ni n f o r m a t i o nr e t r i e v a lr e s u l tg r a v e l y f o rt h ep r o b l e mr e s o l v i n g t h i s ,w eh a v ee x p a n d e di nm a k i n gu s eo fm i n i n ga s s o c i a t i o nr u l e sm e t h o dt o h a v eb e e ni np r o g r e s st os e a r c h i n gaw o r do n c ea g a i nb a s e do nt h eb a y e s n e t w o r k s u c hc a nr e s o l v et h ei n a c c u r a t ec o n s u m e ri n p u ti n q u i r yk e y w o r d p r o b l e me f f e c t i v e l y f i n a l l y , b yt h ef a c tt h a tt h ee x p e r i m e n td r a w so nr e c a l l r a t ea n d p r e c i s i o nr a t e ,w ec o m p a r i n gt h ei n f o r m a t i o nr e t r i e v a lm o d e lb r o u g h t f o r w a r db yu s ,a n dt h eo t h e rt h r e ek i n d st r a d i t i o ni n f o l r m a t i o nr e t r i e v a l m o d e l t h a tr e s u l tt e s t i f i e si n f o r m a t i o nr e t r i e v a lm o d e lb r o u g h tf o r w a r db y u si sv e r ye f f e c t i v e k e y w o r d s :b a y e s i a nn e t w o r k ,i n f o r m a t i o n r e t r i e v a l m o d e l ,m i n i n g a s s o c i a t i o nr u l e s ,v e c t o rs p a c em o d e l ,r e c a l lr a t e ,p r e c i s i o n r a t e 1 1 1 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重庆太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:舀l 丑眙 签字日期:1 即7年箩月3 1 日 学位论文版权使用授权书 本学位论文作者完全了解重废太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权 重庆太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于 不保密( ) 。 ( 请只在上述一个括号内打“”) 学位论文作者签名:昏刁恬导师签名: 签字日期: 2 胡年 月;1 日 邗录藤 j 签字日期:细7 年r 月1 日 重庆大学硕士学位论文l 绪论 1绪论 1 1 课题的提出背景 在基于互联网的各种信息服务中,文档数据信息库是最为普遍和频繁被 使用的信息源之一。由于文档不断积累,数量日益庞大,对于文档数据库的 检索就变得越来越困难。当用户想要查找与某个主题相关的文档时,检索工 具会利用它所具有的强大搜索功能向用户推荐大量的文档,而并不关心这些 文档是不是用户所真正需要的。从用户的角度来看,他们必须自己在这些推 荐文档中逐一甄别,做出取舍。这部分工作要由用户手工来完成,不仅会使 他们倍感疲惫,而且浪费了许多时间和费用。并且用户在进行文档检索,输 入查询词的时候往往不够准确,这就给检索的结果带了一定的影响,直接导 致了检索的效率。因而,用户迫切希望一种新型的能够理解用户实际意图、 过滤多余信息、对检索词进行准确扩展的检索工具。 影响一个检索系统的性能有很多因素,最关键的还是信息检索的模型, 其中包括文档和查询条件的表示方法、评价文档和用户查询相关性的匹配策 略、查询结果的排序方法和用户进行相关反馈的机制等。经过相关科研人员 近半个世纪的努力,一些有效的信息检索模型陆续提出并逐渐应用到相关的 系统中。其中影响比较大的检索模型包括:布尔逻辑模型、向量空间模型、 概率模型以及最近提出的语言模型检索方法等。 基于这样的出发点,本文将从用户使用的角度提出一种基于贝叶斯网 络的检索模型,以用户的输入查询词为依据,利用关联规则挖掘的方法在 贝叶斯网络模型上对查询词进行扩展,最后通过简化计算,获得查询的最 终结果,提高检索的效率。 1 2 国内外研究的现状与发展 1 2 1 智能化信息检索 基于人工智能的信息检索是近年来出现的一种新型检索方式,它融合 了专家系统、自然语言理解、用户模型、模式识别、数据库管理系统以及 信息检索等领域的知识和先进技术。对于互联网这样一个分布式的信息空 间,采用人工智能方法是一种实现个性化检索的较好方法,它可以代替人 类完成繁杂的信息收集、过滤、聚类以及融合等任务,在互联网中引导用 户进行更为有效的检索。 重庆大学硕士学位论文 1 绪论 目前,国外一些科研部门、高等院校、商业公司都在对智能化网络信息 检索进行研究,并且己经开发出了一些成功的产品。如:a r t h u r a n d e r s e n 提 出的内嵌特定领域知识,并使用证明式自然语言理解技术的f s a 和e l o i s e 系 统;i b m 的基于规则和知识,使用启发式的策略和简单自然语言的g l o b e n e t 系统;芝加哥大学开发的基于“问题库”的具有问答功能的智能搜索引擎 f a q f i n d e r ;卡耐基梅隆大学开发的基于机器学习的智能系统w e b w a t c h e r ; 以及基于用户查询行为和兴趣,寻找特定信息的专用智能软件w e d o g g i e ( c m u ) 和n e w sw e e d e r , f i r e l y , n e w s f i n d e f 等1 5 1 。 国内对智能化的网络信息检索也进行了相关的研究【”,如南京大学研制 的w e b a c c e s s 系统,它应用了机器学习、自然语言处理、超文本等技术;清 华大学研制的p i n s 系统和b o o k m a r k 系统,它们能自动收集和记录用户的习 惯和兴趣,跟踪用户的信息需求。采用“以网对网”技术的首信智能搜索引擎; 基于汉语的语法、词的上下文语义等中文信息处理技术的“网典”a i s s 系统; 基于用户个性要求的平方智能搜索引擎等。目前国内的智能网络信息搜索系 统大多只是支持简单的自然语言理解和概念检索,对机器学习、智能代理、 信息挖掘等技术研究的很少。 网上智能信息检索是帮助人们快速获取信息的有效手段。然而,现有系 统仍然存在一些缺陷或不足,比如非个性化检索方式适应用户兴趣变化的能 力较差、用户与检索系统的交互方式比较单调、缺少适应信息源信息变化能 力等。 1 2 2 贝叶斯网络的应用 目前对贝叶斯网络的研究主要集中在三个方面:贝叶斯网络推理,贝叶 斯网络学习和贝叶斯网络应用。我们研究信息检索模型,主要就是利用贝 叶斯网络推理和应用,也就是用贝叶斯网络模型进行计算的过程。 贝叶斯网由于其对推理模式的扩充和改进以及严谨的概率数学基础, 在专家系统的不确定性推理领域,逐步取代了早期基于规则的方法,已广 泛应用于辅助智能决策、数据融合、模式识别、医疗诊断、文本理解、预 测、信息分类、数据挖掘、系统控制等领域,并且出现了专门研究贝叶斯 理论的组织和学术刊物i s b a 。基于贝叶斯网的应用软件,大致可以分为 应用于特定领域的专家系统和通用的贝叶斯网络开发工具软件两类。 贝叶斯网在不确定知识表示及推理方面表现出的卓越性能,为人工智能 的其它研究领域提供了有力的工具。在模式识别中,利用最简单的贝叶斯网 朴素贝叶斯网( n a i v eb a y e s ) 构造的分类器一1 ,其分类能力与经典的 c 4 5 分类器1 不相上下。经过贝叶斯网改造的分类器,如树形增强n a i v e 2 重庆大学硕士学位论文1 绪论 b a y e s 分类器”“、通用信度网分类器”“,其分类能力明显优于c 4 5 分类器。 在数据挖掘中,利用贝叶斯网的学习算法,既可以脱机对数据进行分析整理, 也可以在线更新数据。近年来,随着研究的深入,利用贝叶斯网学习数据中 隐含的因果关系已取得了很大进展,这为知识挖掘提供了更有力的工具。同 时,一批以贝叶斯网为基础的专家系统也建立了起来。如最早的p a t hf i n d e r 系统,该系统是淋巴疾病诊断的医学系统,它可以诊断6 0 多种疾病,涉及1 0 0 多种症状;后来发展起来的i n t e r n i s t i 系统,也是一种医学诊断系统,它可 以诊断多达6 0 0 多种常见疾病。尽管这些系统大多现在只用来进行教学,尚 未用于医学的临床诊断,但基于贝叶斯网的专家系统已逐渐被人们所接受。 在商业应用领域,以微软为代表的批公司,已将贝叶斯网应用到了 自己的产品中。早在1 9 9 3 年,以敏锐的商业头脑著称的微软总裁b i l lg a t e s 看到了贝叶斯网研究潜在的商机,将贝叶斯网络领域的杰出者e r i e h o r v i t z d a v i dh e c k e r m a n 和j a c kb r e e s e 等人收到微软的帐下,共同开发贝叶斯网 的应用。1 9 9 5 年,微软推出了第一个基于贝叶斯网的专家系统,一个用于 幼儿保健的网站m i c r o s o f to np a r e n t ( w w w o n p a r e n t i n g m s n c o r n ) ,使父 母们可以自行诊断幼儿的疾病。1 9 9 6 年,微软提供了w i n 9 5 中打印机故 障的在线诊断o n l i n et r o u b l es h o o t e r s ,该系统基于一个有5 0 多个结点的贝 叶斯网,涉及到打印机出现的四到五种主要症状,每种症状可以提供十多 种故障的原因。另外,以贝叶斯网为基础的帮助系统也被用在了微软的主 要的产品之m i c r o s o f t o f f i c e 中。这种称为帮助小精灵的工具,是基于最 简单的贝叶斯网n a i v eb a y e s 的推理系统。它可以根据以往的使用经 验及时地为用户提供不同的帮助主题。如当用户的操作显得没有头绪,那 么系统就可以断定用户需要帮助,当一个用户在对个表格进行操作时,系 统会及时地给出关于表格格式的提示等。 1 3 本文研究的意义、目标与主要内容 在现实的生活中,信息检索具有很大的意义和作用:首先它可以使我们 充分利用信息资源,避免重复劳动。科学研究具有继承和创造两重性,科学 研究的两重性要求科研人员在探索未知或从事研究工作之前,应该尽可能地 占有与之相关的信息,即利用信息检索的方法,充分了解国内、国外,前人 和他人对已探索或研究的问题已做过哪些工作? 取得了什么成就? 发展动 向如何? 等等。这样才能做到心中有数,防止重复研究,将有限的时间和精 力用于创造性的研究中。因此,信息检索是科学研究必不可少的前期工作。 再有,信息检索也为人们更新知识,实现终生学习提供门径。在当代社会, 重庆大学硕士学位论文l 绪论 人们需要终生学习,不断更新知识,才能适应社会发展的需求。美国工程教 育协会曾估计,学校教育只能赋予人们所需知识的2 0 一2 5 ,而7 5 8 0 的知识是走出学校后,在研究实践和生产实践中根据需要,不断再学习而获 得的。因此,掌握信息检索的方法与技能,是形成合理知识和更新知识的重 要手段,是做到无师自通、不断进取的主要途径。 在信息检索中,涉及两个对象:用户和检索系统。其中检索系统又可以 分成两部分:检索引擎和文档库。信息检索的实质是用户借助检索引擎检索 出文档库中用户所需的信息。检索引擎无法直接知道用户需要什么样的信 息。连通用户和检索引擎的媒介是查询项:用户将所需信息表示成查询项的 形式,检索引擎认为用户所需信息和查询项一致。通过查询项,用户将自己 的检索需求告诉了检索引擎。对于检索引擎,在了解用户所需信息( 查询项) 后,只须且必须检索出在文档库中跟查询项相似或相关的文档。为了准确无 误地检索出跟查询项相似或相关的文档,对检索引擎而言,最关键的是选择 一种最优的检索模型,借以准确量化查询项和文档之间的相关度。从而,如 果查询项和用户所需信息完全一致,检索模型对文档和查询项相关度的测算 完全正确,那么,检索结果完全符合用户的需求,查准率和查全率都将获得 最佳值。而用户的查询项是由用户的个人因素所决定的,在检索系统里,我 们是掌控不了查询项。而文档库也是根据先前的知识所设计好的,一般是不 会改变的。所以在本文里,我们只是重点研究信息检索的模型,其它的暂时 不做更多的考虑。 由于信息检索在研究和人们日常生活中的重要性,并针对国内外目前的 研究现状,本文对基于贝叶斯网络的信息检索进行了研究。就如何提出模型、 如何得到检索结果,本文的主要工作有以下几个方面: 对现有的三种传统信息检索模型,及集合模型、代数模型和概率模型 进行了一个详细介绍,并在提出的时间、理论基础、系统实现难度和商业运 用情况等方面进行了一个比较。 分析了应用贝叶斯网络来建立信息检索模型的优势,在推理网络模型 的基础上,本文提出了基于贝叶斯网络的信息检索模型。 基于贝叶斯网络、利用关联规则挖掘的方法对检索词进行了扩展,并 通过对贝叶斯模型中的概率进行限定,由此简化了计算的工作量。 对模型进行测试。通过模拟的查询任务,用查全率和查准率两个指标 对模型进行评价,并分析了影响模型性能的几个因素。 4 重庆大学硕士学位论文1 绪论 1 4 论文的框架与组织 全文共分为六章,具体的章节安排如下: 第一章,概述了本论文的研究背景和现状,介绍了本文的研究内容和意 义。 第二章,简单介绍了现有的三种经典信息检索模型:集合模型、代数模 型、概率模型。 第三章,介绍了贝叶斯网络基本概念,贝叶斯网络的优点以及我们为什 么要选择贝叶斯网络来作为信息检索模型的基础。 第四章和第五章,在推理网络模型的基础上,设计了一个基于贝叶斯网 络的信息检索模型。基于贝叶斯网络、利用关联规则挖掘的方法对检索词进 行了扩展,并通过对贝叶斯模型中的概率进行限定,由此简化了计算的工作 量。 第六章,介绍了评价模型的实验,分析了影响模型性能的潜在因素。 重庆大学硕士学位论文2 现有信息检索模型综述 2 现有信息检索模型综述 信息检索( i n f o r m a t i o nr e t r i e v a l ) 是对无结构自然语言文本数据库的 检索。当用户有了信息需求( i n f o r m a t i o nn e e d ) ,他可以通过信息检索系 统查找、浏览文档数据库,找到符合他需要的信息。信息检索系统向用户 提供的查找方式通常是基于关键字的形式,用户需要把他的无形的信息需 求用有形的关键字表达出来,提交给检索系统。 信息检索研究对象为无结构的文本,这一点与基于数据库的数据检索 不同。在数据库领域,数据之间有特定的关系,并按照这种逻辑关系进行 结构化的存储。进行检索时,可以按照这种逻辑关系直接找到需要的信息。 数据库中的信息通常粒度较小,包含的信息量少,不能表示比较大的主题。 x m l 文档是有结构的,因为它们是高度结构化的,而且结构是语义的直 接体现。它们可以看成一种半结构化的数据库。 给定一个用户查询条件,对与其相关文档判定方法的不同产生了不同 的信息检索模型,而不同的信息检索模型所采取的评分函数的设计,以及 检索词索引库的建设也相应有所不同,所以有必要对现有的信息检索模型 进行归纳和总结。对于信息检索而言,一个中心问题是如何判断一篇文档 是否与用户的查询条件相关。对相关性进行判定的方法通常是设计一个评 分函数( 即相似性计算函数) ,对检索过的文档进行评分,然后再根据评分 的高低对这些文档进行排序,一般来说,排在越前面的文档被认为与查询 条件更加相关。因此,评分函数是信息检索系统是否有效的关键之一。 根据对相关文档判定方法的不同,信息检索模型可以分为以下三类经 典模型:集合模型、代数模型、概率模型。随着对信息检索系统的深入研究 与发展,又从这三类经典模型中派生了许多扩展模型。 2 1 集合模型 集合模型是基于集合理论的模型,其典型的模型有:布尔模型、扩展的 布尔模型及基于模糊集的模型。而最常用的是布尔模型,所以我们常常也把 布尔模型当成是集合模型的代表,以此来介绍集合模型。 2 1 1 布尔模型 布尔模型是一种以经典集合论和布尔代数为理论基础的非常简单的检 索模型。它采用布尔代数的方法,用布尔逻辑表达式表示用户提问,通过对 6 重庆大学硕士学位论文2 现有信息检索模型综述 文献标识和提问式的比较来检索文献。它将某一特定的文档表示为索引项集 合,通常表示成d = ( d l ,d 。d 。) ,通过集合运算来判定文档与检索的相关度。 系统要求用户输入查询的内容,如果有多项内容,那么用户的查询词就用布 尔运算符“与”( a n d ) ,“或”( o r ) ,“非”( n o t ) 进行连接,查询串一般以语义精确 的布尔表达式的方法输入,然后通过对文献标记与查询串的逻辑比较获取文 献。集合模型是检索系统的基本数学模型,基于布尔表达式的信息检索方法 构成了几乎所有信息检索和数据库系统的基础。【7 】这是因为:布尔模型是能 独立实用的检索系统数学模型,而其它数学模型,如向量模型和概率模型都 经常是和布尔模型一起混合使用的。实际上布尔运算就是集合之间的交、并、 补运算,也就是说布尔检索实际上是通过若干个词所包含的文献集合的交、 并、补运算来响应用户提问的。 布尔模型简单、易实现,在检索系统中得到了广泛的应用,但它还是存 在明显的局限性:布尔模型是基于二值判定标准的,文献要么相关、要么不 相关,并没有一个相关级别的概念,因此很难有好的检索效果;构造布尔逻 辑式不是一件容易的事情,对于一般用户而言,很难用a n d 、o r 、n o t 运 算符的结合来准确地表达一个检索语句,并且检索词的简单组匹配不能完全 反映用户的实际需要;检索输出完全依赖于布尔提问与文献的匹配情况,很 难控制输出量的大小;检索结果不能按用户定义的重要性排序输出,用户只 能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要。 鉴于布尔模型的这些不足,人们提出用语词加权和部分匹配的功能来扩 展经典的布尔模型将向量模型和布尔模型融为一体,克服了传统布尔模型的 一些缺陷,这就是所谓的s a l t o n 模型,即扩展布尔模型。【8 】 2 1 2 扩展布尔模型 扩展的布尔检索模型是基于布尔逻辑基本假设的一个改进,下面采用矢 量的方法来讨论布尔模型。【9 】【1 0 i 假定文献集合中的文献d y t g y 羽两个关键词t x 和t y 表示,并且k 和y 允 许被赋予一定的权值,其权值分别为w x j 、w y j ,权值的取值范围为【o ,1 】, 权值越接近于1 ,说明该词越能反映文本的内容,反之,反映文本的内容差 一些。给关键词加权通常采用的是著名的t f _ i d 跏权方案: 叼= 白赢丽i d f x ( 2 1 ) 7 重庆大学硕士学位论文 2 现有信息检索模型综述 式中f x j t 在文献d j 中出现的频率,耐厂工为逆文献词频。为了 简单起见,用石,y 分别表示权值w x j 、w y j 。我们采用二维图( 如图2 1 所示) 来表示文献的提问,用距离的概念表示文献与提问的相似度。 o ( 0 o ( o ,o ) 1 ,0 ) l ,0 ) 图2 1 扩展布尔逻辑的矢量表示 f i g2 1t h es a l t o nb o o l e a nl o g i c v e c t o re x p r e s s 对于析取提问q 2 t 石v t j ,只有a 、b 、c 三点所代表的文献才是最理想的, 对于任意一篇文献d j 而言,当它离a 、b 、c 三点越接近时说明相似度越大, 8 重庆大学硕士学位论文2 现有信息检索模犁综述 因而d 到点( 0 ,0 ) 的矢量距离可以用来度量与提问q 的相似度,则: j o j i = 乒万 ( 2 2 ) 显然,o 叫d 爿对为了使相似度控制在。和1 之问,相似度可以规范化为: l o j l = ( 2 3 ) 对于合取提问q 2 t x a t y ,只有c 点才是最理想的文献,则d ,到c 点的矢 量距离为: 蚪o j 正瓣4 , 它可以作为衡量文献与提问之间相似度的一个尺度,则相似度可以规范 化为: b i = ,一 ( 2 5 ) 我们在这里就只是介绍了有两个关键词的情况,对了推广到n 个引标词 的情况我们就不做详细的介绍了。 2 1 3 总结 布尔模型和扩展的布尔模型主要是基于康托( c o n t o r ) 的经典集合论:一 个元素a 和一个集合a 的关系只存在a e a ,a 芒a 两种情况,经典集合论 容不得模糊的概念,这对于信息检索过程中所存在的模糊性的解释造成一 定的困难。为了解决这种模糊性引起的不确定问题,人们引入模糊集合理 论来又构建模糊集合模型。 基于模糊集合的检索模型是对集合模型的最新研究重点,其出发点是 用“隶属函数”的概念来描述差异的中间过渡,并通过隶属函数对经典集合 论加以推广。模糊集合理论处理的是边界不明确的集合的表示,其中心思 想是把集合中的元素和隶属函数结合在一起。 1 1 】隶属函数的取值在【o ,1 】 上,0 表示元素不隶属于该集合,1 表示完全隶属于该集合,值在0 和l 之间表示元素为该集合的边际元素。在典型的集合模型中加入模糊集合的 应用就可很好的解决原来布尔模型的二值判定标准的问题,在布尔模型中 文献要么相关、要么不相关,并没有一个相关级别的概念。而模糊集合模 型就在检索的时候加入隶属函数的概念,由此提高检索的效率。 9 厚 重庆大学硕士学位论文 2 现有信息检索模型综述 2 2 代数模型 检索系统的代数模型是检索系统中所有数学模型中相对来说较有想像 力和创造性的一种模型,较能很好地揭示文献之间的关系,但是它也是使 用最复杂、要求最高的模型。g e r a r ds a l t o n 在上世纪7 0 年代提出的利用 向量空间,通过向量的空间关系来定义和计算相关度函数,从而进行特征 表达,将w e b 页面文档转化为向量形式,再通过相关度的计算,倒排文档 进行索引,从而使用户得到一个清晰的检索结果。典型的代数模型有:向 量空间模型、扩展的向量空间模型及潜在语义空间模型。 向量空间是由一组线性无关的基本向量组成,向量维数与向量空间维 数一致,并可以通过向量空间进行描述。在向量空间模型中,文档d 是泛 指文档或文档中的一个片段( 如文档中的标题、摘要、正文等) 。而特征 项t 是指出现在文档中能够代表文档性质的基本语言单位( 如字、词等) , 也就是通常所指的检索词,这样一个文档d 就可以表示为 d = ( d 。,d :d 。) ,其中f l 就代表了检索字的数量。向量空间模型中的文档 就被形式化为n 维空间中的向量,空间的一维是倒排表中的一个元素。这 样文档d 的向量可以表示为d ( w n ,w a ) ,其中1 ,2 w 却分别代 表了特征项t l , t 2 9 * o9 t n 对文档d 的贡献程度,称之为权重。特征项权重 i ,m 2 代表特征项t l t 2 ,t n 能够代表文档d 能力的大小,体现了 特征项在文档中的重要程度,其取值范围是【o ,1 】。对于所有文档和用户 查询都映射到向量空间,从而将文档的分类过程简化为空间向量的运算, 文档信息的匹配问题转化为向量空间的矢量匹配问题,大大减小了问题的 复杂度。 我们用向量模型对得到文档d 进行检索。在这里查询词就不再是用查 询串来表示,而是查询向量q 来表示。相似度s 来代表两个文档内容的相 关程度,所以文档d ,和查询向量q 均以一个n 维向量来表示时,q 的权重 向量就表示为( k 。,k :,w o ) ,嘭和q 的相关度就是相似度,一般使用内 积或夹角0 的余弦来计算,两者夹角越小,余弦值越大说明相似度越高。 图2 2 示意了文档与文档,文档与查询之间的相关度。 如下的公式就表示了文档与查询之间相关度的计算。 砌川2 黼2 w ,w 幻 1 0 ( 2 6 ) 重庆大学硕士学位论文 2 现有信息检索模型综述 文档q ( - ,2 ,) q ( w 9 1 ,w 9 2 ,w 印) 特征项1 文档n ( l ,w 2 ,w m ) 图2 2 文档的相关度图示 f i g2 2d o c u m e n tr e l e v a n c ed e g r e ep i c t u r e 排序这个结果后与设立的阈值进行比较,如果大于阈值则文档d ,与查 询相关,保留该文档d ,的查询结果,如果小于则不相关,过滤此文档d , 这样就可以控制查询结果的数量,加快查询速度。 存在的问题:从向量空间模型的特点可以看出,在特征项确定的情况 下,特征项的权重计算是文档分类的关键,特征项权重计算常用的方法有 布尔函数、开根号函数、对数函数、t f i d f 函数等,其中t f i d f 函数应用 最为广泛,其基本思路是使用频率因子t f ( t e r mf r e q u e n c y ) 进行特征项 的赋权,同时还要考虑文档集因子i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) ,体 现出查询内容与文档的相关度大小,一般采用使用出现频率的倒数来计 算,i d f = l o g ( n n 。) ,其中n 为文档集合,n l 为查询内容在文档中出现的次 数,但是t f i d f 函数也存在缺点,它虽然考虑了出现特征项的文本在整个 文档集中的比例,却不能很好地把握特征项在文本集合中分布的差异,所 以影响了分类的最终效果。1 1 2 向量空间模型的第一个问题是由于特征项在文档中的不同位置会代 表不同的权重,而不同的关键词长度也会影响权重的大小。例如“汽车修 理”一词在查询时,如果该词出现在文档的标题处,则其权重一定比出现 在文章的摘要中要高,而出现在摘要中的权重一定要比出现在正文中要 高;而且如果文档d l 的长度比文档d 2 长,那么在d 2 中的权重也应该比 重庆大学硕士学位论文2 现有信息检索模型综述 d l 要高,其相似度也应该大一些,对于中文文档,关键词的长度越长,则 在文档中出现的机率就越小,所以较长的关键词要比较短的包含更多的信 息。在实际情况中,如果同一特征项在不同文档中出现的次数不同,那么 在出现频率较高的文档中,其权重应该较高( 而不应该是统一权重值 “l ”) ,在传统的t f i d f 函数中,每增加一个文档都要重新计算向量,导 致查询速度降低,同时由于使用频率因子,在扩大查询范围时,不可避免 的会影响到查询的准确性。 向量空间模型的另一个问题在于查询和文档向量间是依靠链接来判 断的,而且判断的依据是简单地将两者相同关键词进行比较,但实际情况 是,大量的关键词具有相同的语义,同一关键词也会有多种语义的解释描 述( 即产生了语义分歧) 。例如“计算机”一词,也可以是“电脑”、“微机” 等,对用户来说所指的可能是一个意思,但在向量空间模型中这几个词是 完全不同的概念,也就是说用户用“计算机”这个关键词去查询时,相关的 “电脑”、“微机”包含这些词的文档会检索不出来,而另一方面,可能许多 不相关的文档反而会被检索。【l 3 】 2 3 概率模型 这个模型的基本思想是:根据事前检索过程中得到的相关性的先验信 息,计算文献集合中每篇文献成为相关文献的概率,然后根据用统计决策理 论( 即贝叶斯决策准则) 决定的输出标准确定哪些文献作为命中文献输出。 概率检索有几个的假设前提和理论: 相关性独立原则假设。文献对一个检索项的相关性与文献集合中的其 他文献是独立的。 词的独立性假设。索引项和检索项中词与词之间是相互独立,任何一 个词的出现与否都不会影响到其它词的出现,它们是相互独立的。 文献相关性是二值的,即只有相关和不相关两种。 概率排序原则,是r o b e r t s o n1 9 7 7 年提出的。该原则认为,如果一个检 索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减 的顺序排列,那么系统的总体效果将是最好的。【1 4 】 贝叶斯( b a y e s ) 定理,用公式表示为: p ( r i d ) :丝坚善掣 ( 2 7 ) p 口j 概率信息检索的目的是估计p ( r i q ,d ) ,即文献d 对检索式q 来说被用户 判断为相关的概率。概率检索模型基本方法是:每一篇文献根据有没有特 重庆大学硕士学位论文2 现有信息检索模型综述 征项将文献表示为二值向量d = ( d ,d 2 d 。) ,n 是特征项的数量,4 = o 或l 表示文献中没有或有第i 个特征项。再由文献相关性独立假设;用r 表示文献相关,r 表示文献不相关,对每一篇文献计算p ( r i x ) 和p ( r l x ) 来 决定哪个是相关的,哪个是不相关的。由于我们不能直接估计p ( r i x ) 和 p ( ri x ) 的值,因此要用已知的量来进行估计,根据贝叶斯理论, p ( r i d ) 一p ( d l r ) x p ( r ) 和p ( r i d ) :p ( d l r 万) x - p ( r ) ,这里p ( r ) 和p ( i ) 是相关 p 1 4 jp 口j 和不相关的先验概率,p ( r i x ) ,p ( r i x ) 正比于给定的文献d 相关或不相关的 概率。为了决定文献相关的阈值。需要一个决策依据,最简单的决策判断是: p ( r l x ) p ( ri x ) l i o 文献相关程度大于不相关程度则认为文献d 是相关的,否 则认为文献d 不相关。在两者相等时,人为地认为它是不相关的。d s 为了 使检索结果能够排序,还要确定排序函数。 只有概率模型才能反映出文献与提问的相关性的大小,从而对相关文 献进行排队,集合模型和代数模型都做不到这一点。 2 4 三种模型的比较 2 4 1 概率模型与向量空间模型的关系 从上面对于三种原理的介绍中很容易看出:集合检索模型是一种基于 逻辑判断的检索模型,而后两种检索模型则都是把检索问题最后归结为一 种数值的比较,因而两者在许多方面有相似之处。 概率检索模型与向量检索模型在对于文献的表示方面,都是用一系列 关键词及其权值的组合来表达。不同之处在于概率检索模型的权值是关键 词在文献中出现的概率,而向量空间检索模型中,所谓的权值,却是关键 词所反映主题的程度,但其中一种常用方案就是用词在文献中发生的频率 来计算。因而二者又达到统一。 另外,二者的用户查询也是以一组词及其权值组合而成,只不过在向 量空间模型中把它作为向量处理而已。 最后,在文献、查询的匹配中,概率模型是计算权值和;而向量空间 模型则依据相似系数。最后的检索结果都代表检索文献对用户满意度的一 系列数据,用户可设阈值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论