(计算机应用技术专业论文)基于web的文本信息检索算法的研究.pdf_第1页
(计算机应用技术专业论文)基于web的文本信息检索算法的研究.pdf_第2页
(计算机应用技术专业论文)基于web的文本信息检索算法的研究.pdf_第3页
(计算机应用技术专业论文)基于web的文本信息检索算法的研究.pdf_第4页
(计算机应用技术专业论文)基于web的文本信息检索算法的研究.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着计算机及互联网络技术的迅速发展,网上文本的数量成指数级增长, 如何帮助用户离效准确地从这些海量信息中获取有用的信息是当前迫切需要解 决的问题。因此,w e b 文本信息检索成为目前备受关注的一个热门研究课题。 文本信息检索是指从大量文档集合中找到与给定的查询请求相关的、恰当数目 的文档子集。 首先,本文介绍了信息检索的发展概况和相关技术,以及信息检索的定义, 研究了信息检索的三个基本模型( 布尔模型,向量空间模型,概率模型) 和信 息检索的算法( 基于内容的检索算法,基于内容和链接分析的融合的检索算法, 基于分类和内容的融合检索算法) 。并对能提高检索性能的w e b 文本预处理技术 进行了深入剖析。 其次,本文研究了传统的向量空间模型,并针对传统的向量空间模型的查 全及查准率不高等问题,提出了一种分解的向量空间模型。 最后,本文为了对改进的算法模型进行评测,搭建了一个基于传统的向量 空间模型的信息检索系统和一个基于分解的向量空间模型的信息检索系统。对 这两个系统进行评测,结果表明该改迸的模型在查全率和查准率都有很大提高。 关键词信息检索搜索引擎向量空间模型链接分析 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f c o m p u t e ra n di n t e r n e tt e c h n o l o g y , t h en u m b e ro f o n l i n et e x th a sa l le x p o n e n t i a lg r o w t h h o wt oh e l pu s e r se f f i c i e n t l ya n da c c u r a t e l y o b t a i nu s e f u li n f o r m a t i o nf r o mt h en l a s so f i n f o r m a t i o ni sa l lu r g e n tn e e d t h e r e f o r e , t h ew e bi n f o r m a t i o nr e t r i e v a lh a sb e c o m eah o tr e s e a r c ht o p i co fg r e a tc u r r e n t c o n c e r n t e x ti n f o r m a t i o nr e t r i e v a li st of i n da l la p p r o p r i a t es u b s e tf r o mal a r g e n u m b e ro f f i l e sr e l a t e dt ot h ei n q u i r i e s f i r s t l gt h ed e v e l o p m e n ta n dt e c h n o l o g yi si n t r o d u c e dr e g a r d i n gt h ei n f o r m a t i o n r e t r i e v a lb r i e f l yi nt h ep a p e r t h r e er e t r i e v a lm o d e l s ( b o o l e a nm o d e l , v e c t o rs p a c e m o d e l ,p r o b a b i l i t ym o d e l ) a n d t h e a l g o r i t h m s ( r e t r i v a la l g o r i t h m s b a s e d0 1 1 c o n t e n t , r e t r i v a la l g o t h r i m sb a s e do nc o n t e n ta n dl i n k , r e t r i v a la l g o r i t h m sb a s e do n c l a s s i f i c a t i o na n dc o n t e n t ) a r ei n 臼o d u c e d p r e t r e a t m e n tm e t h o d sw h i c hc a ni m p r o v e t h ea c c u r a c yo f r e t r i e v a la l ea d d r e s s e d s e c o n d l y , a n a l y s i st h et r a d i t i o n a lv e c t o rs p a c em o d e l ,d u et oi t sl o we f f i c i e n c yi n r e c a l la n dq u e r y , t h i sp a p e rp r e s e n ta s p l i tv e c t o rs p a c em o d e l f i n a l l y , i no r d e rt oe v a l u a t et h em o d e l ,t h i sp a p e rb u i l das y s t e mb a s e do n t r a d i t i o n a lv e c t o rs p a c em o d e ia n das y s t e mb a s e do ns p r i tv e c t o rs p a c em o d e l e v a l u a t et h et w os y s t e m s ,t h er e s u l tm a n i f e s ti tc a l le n h a n c et h ee f f i c i e n c y k e yw o r d s :i n f o r m a t i o nr e t r i e v a l s e a r c he n g i n ev e c t o rs p a c em o d e l l i n ka r i a j y s i s 论文原创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。文 中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法律意 义上己属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论 文或成果。 本人如违反上述声明,愿意承担以下责任和后果: 1 交回学校授予的学位证书; 2 学校可在相关媒体上对作者本人的行为进行通报; 3 本人按照学校规定的方式,对因不当取得学位给学校造成的名誉损害, 进行公开道歉; 4 本人负责因论文成果不实产生的法律纠纷。 论文作者签名: 坞 日期: 论文知识产权权属声明 年互日当 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属东北电力 大学。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。 本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名 单位仍然为东北 论文作者签名;日期: 导师签名:盈盘 日期: 第1 章绪论 1 1 选题的背景及意义 随着i n t o n e t 的迅速发展、社会信息化的推进和网络应用的日益广泛,w e b 已经成为存取信息的主要平台。它允许任何人、在任何地点、任何时间传播和 获取信息;用户既是信息的消费者,又是信息的生产者。这一机制为信息在全 球范围的发布和传播提供了机会,w e b ( w o r l dw i d ew 曲万维网) 网络给人们提 供了大量的信息资源,给我们的生活、学习等带来了极大的便利。同时也引发 了“信息爆炸”,各种信息在网络上的爆炸式增长,也常常使我们淹没在信息的 汪洋中。那么我们在日常生活中都是如何寻找信息的呢,相信我们大家都会使 用到w e b 搜索引擎。 目前全球用户量最大的搜索引擎g o o g l e 在其网站上标明已索引了8 1 亿个网 页 1 】,中国互联网络信息资源的第1 8 次数量调查显示1 2 1 ,截至2 0 0 6 年6 月3 0 日,中国域名数量已经达到2 9 ,5 0 0 ,5 0 0 个,全国网站达到7 8 盘万个,网页总数 超过2 4 亿个,网民总数己达1 2 3 ,0 0 0 万人,上网计算机总数约为5 , 4 5 0 万。 人们在利用w w w 过程中,最主要的获取信息资源的途径是借助搜索引擎 来实现。c t c n i c ( q a 国互联网络信息中心) 于2 0 0 6 年7 月发布的中国互联网络发 展状况统计报告的最新统计资料表吲2 】:有8 5 的人是通过搜索引擎发现新站点 的,在经常使用的网络服务中搜索引擎和浏览新闻超过了电子邮件,它们并列 占据第一位。美国著名网络评估公司尼尔森公司公布的最新报告显示,今年l o 月问有1 1 5 亿美国人,即美国全国人口的3 9 、网民总数的7 6 使用了搜索引 擎网站,平均每人每天的使用时间为4 0 分钟。 由于网络存在大量的、分散的信息,人们在搜索自己需要的信息对,需要 花大量的时间等待或是判断,才能筛选出部分重要的相关信息。w w w 信息检 索成为一个重要而又困难的问题,因此,如何帮助用户高效准确地从w w w 中 获取有用的信息这一问题得到研究人员越来越多的关注,w e b 文本信息检索成 为目前备受关注的一个热门研究课题。有不少研究活动在讨论如何增进搜索结 东北电力大学工学硕士学位论文 果的精确度,或者加快用户找到相关重要网页的速度【3 l 。 目前出现的搜索工具从资源的后台组织及用户与系统交互的形式上来分, 可以分为两大类【4 】:是基于分类的浏览,二是基于关键词的检索。在基于分类 的浏览中,由于目前的网站目录多是以人工分类或计算机自动分类来实现,在 分类体系、文档的归类等方面都存在着许多不利于人们发现相关信息的缺陷。 虽然基于关键词的检索从总体上优于基于分类的浏览,但它从检索界面及检索 结果的呈现上来看都没有让用户能快速准确地找出相关的检索结果。具体表现 在: ( 1 ) i n t e t n e t 及其检索系统的用户复杂多样,人们希望检索界面能够为具有不 同计算机操作水平、检索经验和有认知能力的用户提供直观、个性化的检索操 作。 ( 2 ) 单一的文本关键词查询界面难以表达用户复杂的信息需求。以关键词表 达检索需求的方式一方面体现了搜索引擎的易用性,它也是搜索引擎能够提高 检索速度的主要原因,但另一方面,关键词方式只适合表达简单的、粗糙的检 索需求,这也正是为什么搜索引擎往往返回大量非相关的检索结果。因此,用 户在表达检索需求及优化检索需求方面希望能 ! 导到检索工具提供的相应的提示 性帮助。 ( 3 ) 检索的精度不高。当用户请求查询进行检索时,返回的很多结果和自己 想要的结果差距很大,很多都是无关的信息。 ( 4 ) 目前的搜索引擎在检索结果的呈现方式上并没有考虑到用户不同的检 索需求,仅以单一的线性排列的方式呈现在屏幕上。 随着网上信息的爆炸式增长,这些特点也越来越成为影响当前网络信息检 索效率提高的重要因素。w e b t o p 通过2 , 0 0 0 个搜索案例的研究,得出的结论是: 7 1 的搜索引擎使用者深受挫折,这说明目前的搜索引擎离用户所期望的效果还 存在着较大的差距。 在信息资源的海洋中,即使是最先进的搜索引擎也只能从l 3 可以索引的 w e b 站点中获取信息。人们开始提出一个新的口号:“要学会抛弃信息。”人们 开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息 利用率? ” 第1 章绪论 事实上,对于一个普通用户来说,要从茫茫的信息海洋中获取自己需要的 最新、最权威的知识和较为全面的信息,并从中得到有用的知识几乎变得不可 能。 而各个行业、各个领域往往急需本行业本领域的最新、最权威的知识和信 息,他们没有时间在成千上万的站点中的数不清的页面中查找所需的信息。登 录各个网站,点击各链接,不但要花去大量时间,而且由于漫无边际地搜索和 浏览,长时间地接触重复的、平面化的信息,必然造成对注意力的巨大浪费。 从搜索引擎出现以来,学术界、产业界就一直没停止过对w w w 信息检索 的研究,从网络信息检索发展过程来看,人们多从检索层面入手改进搜索技术, 如概念检索、智能代理检索、元搜索引擎技术、自然语言检索技术、关联词语 技术等,此外,各个搜索引擎仍然以能够搜索多少百万甚至上千万的网页为自 己能力的象征,试图通过扩大搜索库来满足用户的检索需求。如y a h o o 宣布, 他们正在实行一个“c a p ”计划为“内容集聚项目”一检索那些上亿个虽然在开 放的数据库中,但是却不能被搜索引擎发现的文件,也就是所谓的“看不见的 或者深渊w e b ”,到目前y a h o o 已经和美国国会图书馆、u c l a ( u n i v e r s i t yo f c a l i f o r n i a ,l o sa n g e l e s ) 、国家广播电台等签订了协议,将其内容都包含到自己 的搜索数据库中,扩大搜索量可以大大提高查全率,但是如果结果没有以利于 用户从中找出相关文档的形式进行呈现,则将增加用户的认知负担,结果的可 用性也很难得到保证。因此,要改善目前的搜索效果一方面需要对检索技术、 检索功能、搜索量进行更新完善,但另一方面可以从信息的呈现、用户与搜索 工具的交互上进行新的突破性研究。 文本信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 是指从大量文档集合中找到与给定 的查询请求相关的、恰当数目的文档子集。文本信息检索是处理海量文本的重 要手段。w e b 文本信息检索是利用文本信息检索的技术并结合w e b 页面的特征, 帮助用户在海量的w e b 页面中获取所需要的信息,它是目前的一项备受关注的 热门研究课题,具有非常重要的理论意义和应用价值。 1 2 研究现状 我们现在所说的搜索引擎都是基于w w w 的,也就是基于网页的检索,如 一3 一 东北电力大学丁学硕十学位论文 我们熟知的y a h o o 、g o o g l e 、b a i d u 等,不过这些并不是互联网上最早的信息检索 服务,如早在1 9 9 0 年出现的a r c h i e 就是一种文档信息查询索引服务之一,1 9 9 3 年6 月网络机器手程序“w w w w a n d e r e r ”的诞生是基于万维网搜索引擎的雏形。 信息检索的研究已有多年的历史,早在上个世纪5 0 年代,当计算机被图书 馆等部门用于存储和管理文档时,信息检索就作为一个研究热点领域而诞生了。 到了8 0 年代,信息检索领域在索引模型,文档内容表示以及匹配策略等方面取 得了许多突破性的研究成果,这些成果也成功应用于w e b 上,产生了搜索引擎。 w e b 文本信息检索是指从大量w e b 文档集合中找到与给定的查询请求相关 的,一定数目的文档子集【5 】。为了尽可能多尽可能准确地找到与用户查询请求相 关的文档信息,在信息检索领域方面很多专家和研究学者提出了很多检索方法。 s a l t o n 提出了向量空间模型算法嘲,并成功应用于s m a r t 系统川。该模型 使用t f + d f 将给定的文本( 文章、查询、或文章的一段等) 转换成一个维数很高 的向量,进行查询向量与文档向量的相似度比较。r o c c h i o & s a l t o n 提出了相关反 馈模型【s 1 ,该模型利用用户和系统之间的交互,有效地提高了检索结果的精度。 m i c h a lc u t l e r 9 结合h t m l 标记的特性,在向量空间模型基础上提出了依据位置 信息的检索算法,提高了检索质量。 近年来,许多研究者发现,w w w 上超链结构也是一个非常丰富而重要的 资源,如果能充分利用这个资源,可以极大地提高检索结果的质量和准确性。 基于这种超链分析思想,许多学者也提出了链接分析算法b o ,并成为研究的热 点。 k l e i b e r g l l l 】提出了h i t s ( h y p e r l i n k - i n d u c e dt o p i cs e a r c h ) 超链接主题查找算 法,并引入两类网页:权威网页( a u t h o r i t y 网页) 和集中网页( h u b 网页) 。它的主 要思想是利用页面的被引用次数及其向外链接数目的多少来决定不同网页的价 值。 b r i n & p a g e f 位】提出了p a g e r a n k 方法,其基本思想是:一个页面被多次引用, 则这个页面很可能是重要的:一个页面尽管没有被多次引用,但被一个重要页 面引用,则这个页面也很可能是重要的;一个页面的重要性被均分并被传递到 它引用的页面。 r l e m p e l 和s m o r a n 提出了s a l s a 算法【l3 1 ,该算法考虑了用户回退浏 第1 章绪论 览网页的情况,保留了p a g e r a n k 的随机漫游和h i t s 中把网页分为a u t h o r i t y 和 h u b 的思想,但取消a u t h o r i t y 和h u b 之间的相互加强关系。 基于超链分析的检索方法虽然可以提高检索的查全率,但是研究学者认为 结合多重技术和方法的融合检索比单一检索方法更能有效地提高检索系统的性 能【1 4 】。因此,基于内容和超链分析相结合的检索算法【”。9 1 是w e b 文本信息检索 领域目前所采用的主流算法。 随着网络技术的发展,个性化服务己经成为目前网络技术和智能信息处理 中的研究热点。在传统i n t e m e d 艮务模式下,为了找到目标信息,用户要耗费大 量的时间和精力。个性化信息检索则根据用户的兴趣和特点进行检索,返回与 用户需求相关的检索结果。a s r d c a r 2 0 1 、m l a d e n i c t t 2 “、b o l l a e k e r l i y 2 2 等对基于内 容过滤的个性化信息检索傲了不同层面的研究。k o n s t a i l f 2 3 】、l i e b e r n l a l l l 2 4 1 、 a l t o n i s c h e i d l 【2 5 】对基于协作过滤的个性化系统提出了自己的方法。由于在检索 中考虑了用户的差异,个性化信息检索可以大大提高检索的效率。 在网页中,除了主题信息以外,还存在大量的与主题无关的导航条、广告信 息、版权信息以及修饰信息等内容,这些相对于主题的噪音内容的存在,使得 准确地识别并清除网页中的噪音内容成为提高w e b 处理准确性的一项重要技 术。s h a n h u al i na n dj a n m i n gh o l 2 6 】提出首先根据t a b l e 标签将网页分成若干内 容块( c o n t e n t b l o c k ) 划分出主题内容块和噪音内容块的去嗓方法;张志刚、陈静、 李晓明【2 7 1 提出以一组启发式规则为基础的方法;欧健文、董守斌、蔡斌【2 s 1 提出 一种基于模板化的网页主题提取方法;封化民等【2 9 】提出了一种新型的w e b 页面 分析和内容提取框架;荆涛、左万利 3 0 1 提出利用网页的布局信息对页面进行划 分,并在此基础上消除噪音。 1 3 本文研究的主要内容和目标 本文的主要任务和目标是: ( 1 ) 对现有的w e b 文本信息检索算法进行研究,并对能提高检索性能的w e b 文本信息预处理技术进行研究。在对现有w e b 文本信息检索算法研究的基础上, 搭建一个基于传统向量空间模型的信息检索系统。 ( 2 ) 在分析传统向量空间检索模型的不足的基础上,提出了分解向量空间模 型,该模型能充分利用新闻文本信息的结构特征和内容特征的检索方法,研究 传统的向量空间模型的改进。并依据提出的方法搭建了一个分解向量空间模型 信息检索系统。 ( 3 ) 对搭建的基于传统向量空间模型的信息检索系统和基于分解向量空间 模型的信息检索系统进行测试,并对结果进行分析。 1 4 论文的组织 全文共分六章,具体的章节内容安排如下: 第一章绪论,介绍了论文研究的背景和现状,概述了当前信息检索技术的 情况,最后介绍了本文的主要研究内容和论文的组织。 第二章详细介绍了信息检索的定义和主要的信息检索算法。在分析几种检 索算法的基础上,对信息检索算法做了一下比较。 第三章介绍了w 曲网页的预处理技术,包括网页的去噪和网页索引库的建 立,及一种基于框架和规则的网页去噪方法。 第四章是本文的创新部分,提出了一种利用分解的向量空间模型进行w e b 新闻文本的信息检索方法。该方法没有使用传统向量空间模型中单个向量,而 是按照语义将特征词划分为四个组( 人物,时间,地点,内容) 并形成四个向 量空间,每个空间进行独立的权重计算和相似度计算。而且将新闻中的时间信 息标准化,利用地理知识将新闻中的地点特征词扩充,并利用这些信息进行检 索。 第五章搭建了一个基于传统向量空间模型的信息检索系统,并对系统的框 架、各功能模块的设计和实现做了详细的介绍。并依据第四章提出的基于分解 向量空间模型的方法搭建了一个基于分解向量空间模型的信息检索系统,详细 介绍该系统的各个功能模块的设计及具体实现。同时给出对这两个系统的评测。 最后给出总结。并提出了下一步的目标。 - - 6 - - 第2 章信息检索模型及算法研究 第2 章信息检索模型及算法研究 随着互联网成为获取信息的主要手段之一,相关网络信息的信息量与信息 复杂度也成倍增加。如何准确快捷地获取信息已成为人们非常关注的焦点。本 章对信息检索的概念、经典的信息检索模型以及主要的信息检索算法和技术进 行了分析和比较。首先详细地阐述了布尔模型、向量空间模型和概率模型的特 点,其次针对传统的信息检索方法如基于内容检索方法、基于超链分析的检索 方法、混合的检索方法做了分析和比较。 2 1 信息检索的定义 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 泛指用户从包含各种信息的文档集中查 找所需要的信息或知识的过程。随着当今社会各领域的迅猛发展,信息以爆炸 的方式不断增长,而且种类相当繁杂,除了文本、数字以外,还常常包括图形、 位图像、声音、动态图像等多媒体文档。在这里我们把信息检索的任务看作是 “给定用户的信息需求后,从文档集中识别出最为匹配的文档”。 信息检索主要研究对整个文档信息的表示、存储、组织和访问。一个好的 信息检索系统不仅要求将输出信息进行相关性排列,应该还能根据用户的意图、 兴趣和特点自适应和智能化的调查匹配机制,获得用户满意的检索输出。 最常用的衡量信息检索性能的尺度是信息检索的查全率和查准率,信息检 索的查准率为检索结果中有用的相关文档数与检索到的查询结果总数之比,而 信息检索的查全率为满足用户查询要求或相关于查询要求的信息与被检索出的 结果集信息比率。 2 2 经典的信息检索模型 在信息检索引擎中,信息获取方式的优劣主要取决于信息模型的建立方法。 信息模型建立方法主要可以分为三类:布尔模型、向量模型和概率模型。在布尔 模型中,文档和查询式都表示为特征项的集合,可以通过运用集合运算来进检 东北电力大学t 学硕卜学位论文 索;在向量空间模型中,文档和查询式表示为高维空间中的向量,可以通过对 于向量的代数运算进行检索;概率模型中,文档和查询式是通过概率理论形式化 为概率分布,检索模型也建立在概率运算的基础之上。 2 2 1 布尔模型 布尔( b o o l e a n ) 模型1 3 1 】是基于集合论和布尔代数的一种简单检索模型。在布尔 检索中,要定义一个二值变量的集合,这些变量都对应文档的某个特征,称为 索引项。索引项一般是词或词组等简单的文本项,文档由这些索引项的组合来 表征和索引,如果该项对文档的内容表示有贡献,则赋值为l ,否则为0 。查询 式是索引项和操作符a n d ,o r , n o t 组成的表达式。匹配函数遵循布尔逻辑的原则, 检索时根据用户查询和简单的布尔逻辑规则将文档划分为匹配集和非匹配集。 布尔模型的主要优点在于具有清楚和简单的形式,而主要缺陷在于完全匹配会 导致太多或者太少的结果文档被返回。 2 2 2 向量空间模型 向量空间模型嘲( v e c t o rs p a c em o d e l ) 由s a l t o n 等人于上世纪6 0 年代末提出 并成功地应用于s m a r t 系统田】环境中。该模型主要是将文档看作由相互独立 的特征项组,t 2 一功构成,对于每一特征项加都根据其在文档中的重要程 度赋以一定权值聊,将( f ,t 2 啪看成一个珂维坐标系中的坐标轴,( w l , w 2 蚴为对应的坐标值,从而转化为一个向量空间。文档映射成为空间中的 一个点,从而文档信息的匹配问题转化为向量空间中矢量匹配问题。特征项t k 在文档西中的权值阡0 通常由两部分计算获得:一部分是特征项k 在文档d j 中出 现的次数,即弧,另一部分是整个文档集合中包含特征项k 的文档个数,即诉。 直观上看,以越大,阡k 值越大;同样娠越小,阡么值也越大,说明特征项t k 更 能代表文档癖的内容。在查询进行时,查询同样也要向量化。 向量空间模型突破了一般的布尔模型中索引项在文档中的权重及索引项和 文档的相似度都只能是0 或1 的局限,其权重和相似度是某个范围中的一个实 数,该模型可以将检出的文档按相似度的大小进行排序,让更相关的文档排在 前面。 2 ,2 3 概率模型 在2 0 世纪6 0 年代m a r o n 和k u h n s 提出了概率模型,该模型在i n q u e r y 系统3 3 1 环境中取得了较好的检索效果。富有代表性的模型是二值独立检索模型 ( b i r ) 。b i r 模型实现简单且检索效果好,它根据用户的查询q ,可以将所有文 档分为两类,一类与查询相关( 集合的,另一类与查询不相关僻的补集) ,两者 概率分别表示为:p 俾j 司和l p 俾1 矽。索引项的分布基于以下两条假设:( 1 ) 文 档d 可以表示为d ( x ,勋,z ,其中二元随机变量坼,表示索引项 是否在 该文档中出现,如果出现。则帮:1 ,否则柏- 0 。( 2 ) 索引项与索引项之间相互独 立,任意一个索引项的动作不会影响到其它索引项。 文档d 与查询q 的相关度排序函数为: 酬d ,q ) = 黜 ( 2 - 1 ) 利用b a y s e 公式并经简化,文档与查询q 的相关函数可转换成以下形式; 跏( 蚴= 枷测 ( 2 2 ) 其中p i = r ,r ,q i = 佛7 f ) 矿7 上,表示训练档集中文档总数,表示训练 文档集中与用户查询相关的文档数,;表示在训练文档集中包含特征项乃的文档 数,j 表示,个相关文档中包含特征项乃的文档数。 概率模型的主要优点是文档按照其相关概率大小降序排列,其效率明显优 于布尔模型,但比向量空间模型略差。其主要缺点是需要初始时将文档分为相 关和不相关的集合。 2 3 主要的信息检索算法 本节详细阐述了三种信息检索算法:基于内容的检索方法、基于内容和超 链接分析的融合检索方法以及分类与内容相融合的检索方法,并进行了比较分 析。 2 3 1基于内容的检索方法 基于内容的检索【3 4 】是传统的检索方法,它主要是从用户查询词条在文档中 的出现情况角度来考虑,例如词条频率。向量空间模型是根据词条频率进行检 索的典型算法嘲,最初由s a l t o n 等人在六十年代初期提出并发展起来的。这一模 型主要是将给定的文本( 文章、查询、或文章的一段等) 看作由相互独立的词条组 ( t l ,t 2 一 ) 构成,对于每一特征项t t ,都根据其在文档中的重要程度赋以一定 权值嫩,将( 幻,t 2 ,曲看成一个n 维坐标系中的坐标轴,f 职,一。矸0 为对应的坐标值,从而转化为一个向量空间。特征项t k 在文档函中的权值w , k 通常由两部分计算获得:一部分是特征项k 在文档西中出现的次数,即颤,另一 部分是整个文档集合中包含特征项k 的文档个数,即西匠。这样有: w t k = 弧f 够= t f , k l 0 9 2 ( 以t ) ( 2 - 3 ) 其中,代表文档集合中的文档数量,n k 代表在文档集合中出现特征项厶 的文档数目。从式( 2 3 ) 可知,如越大,阡k 值就越大;同样n k 越小,w , k 值就 越大,说明该特征项“更能够代表文档西的内容。 进行文档向量与查询向量的相似度s i m 比较,通常采用余弦法: s i m ( d ,q ) = c 0 s0 = w 。q 。 k = i 唇雨 在进行查询匹配,查询条件q 的向量化过程可采用布尔模型进行: ( 2 - 4 ) ( 2 5 ) 特征向量囊出现在查询条件g 中,则毋为l ,否则为o 。 相似度值越高说明两者之间越相关,越能反映用户的查询要求。因此,向 垆 讧 若 若 l o 厂,一、l = 嘭 量空间模型算法计算简单并且有效,得到广泛的应用1 9 1 。但是它也存在以下缺点: ( 1 ) 各个特征项不论处于文档中何种位置,表达文档内容的能力是相同的。 而实际上出现在文档不同位置的特征项对文档内容的贡献程度是不一样的,比 如出项在标题的特征项应该比出现在摘要中的特征项作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论