




已阅读5页,还剩68页未读, 继续免费阅读
(计算机软件与理论专业论文)搜索引擎中查询扩展的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
广西大学学位论文原创性声明和学位论文使用授权说明 原创性声明 本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相 关知识产权属广西大学所有。除已注明部分外,论文中不包含其他人已经发表过的研究 成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮 助的个人和集体,均己在论文中明确说明并致谢。 论文作者签名:粱,晋加卜年万月二f 日 学位论文使用授权说明 本人完全了解广西大学关于收集、保存、使用学位论文的规定,即: 本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容; 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务; 学校可以采用影印、缩印、数字化或其它复制手段保存论文; 在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。 请选择发布时间: 口即时发布口解密后发布 ( 保密论文需注明,并在解密后遵守此规定) 论文作者签名:粱一千 导师签名:似l o 年6 月、昭 搜索引擎中查询扩展的研究 摘要 随着信息技术的飞速发展以及人们对信息需求的日益迫切,搜索引擎 已成为人们在网上搜索相关信息的一个必不可少的工具。在使用搜索引擎 中,如何通过输入好的查询表达式来获得好的搜索结果是困扰网民的一个 问题。查询扩展具有增强搜索引擎系统的易用性和查准率的作用。本文从 创新性和实用性出发,重点对查询扩展子系统相关技术进行研究并进行了 相应设计,具有积极的现实意义。 本文包括以下四个方面的主要内容: ( 1 ) 本文根据查询扩展词项的来源不同进行分类论述,对查询扩展相 关技术进行了深入的分析,并总结了各种查询扩展方法的特点、优点和不 足之处。 ( 2 ) 在深入研究基于局部文档集的查询扩展和基于全局文档集的查询 扩展的基础上,为了进一步提高检索性能,研究一种基于局部文档集的方 法和基于全局短语挖掘相混合的查询扩展。实验表明,基于文档集混合的 查询扩展在检索性能上得到进一步提高。 ( 3 ) 在深入分析查询日志中的用户行为特点的基础上,本文研究一种 基于查询目志的查询式提取方法以及一种基于查询日志的频繁查询项集挖 掘方法。为了吸收基于文档集方法和基于查询日志方法的优点,研究并提 出一种基于查询日志与基于文档集相混合的查询扩展方法。实验表明,基 于文档集方法与基于查询日志方法混合的查询扩展在查准率方面要好于 于文档集的方法或基于查询日志的方法。 ( 4 ) 为了验证本文的研究,设计了基于l u c e n e + n u t c h 的搜索引擎系 以及查询扩展子系统。为了使系统支持中文搜索和查询扩展子系统的设计, 对n u t c h 进行了改进。 关键词:搜索引擎;查询扩展;文档集;查询日志 r e s e a r c ho fq u e r ye x p a n s i o n o fs e a r c he n g i n e a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , a n dt h ei n c r e a s i n g l y u r g e n td e m a n d so fi n f o r m a t i o no fp e o p l e ,t h es e a r c he n g i n eh a sb e c o m ea n i n d i s p e n s a b l et o o lf o rs e a r c h i n gr e l a t e di n f o r m a t i o no n l i n e w h e nu s i n gs e a r c h e n g i n e s ,h o wt oe n t e rag o o dq u e r ye x p r e s s i o nt og e tg o o ds e a r c hr e s u l t sh a s p l a g u e dn e t i z e n s q u e r ye x p a n s i o nc a ne n h a n c es e a r c he n g i n es y s t e m su s a b i l i t y a n dp r e c i s i o n s t a r t e df r o mt h ei n n o v a t i o na n dp r a c t i c a b i l i t y , a n dr e l a t e d t e c h n o l o g yf o rq u e r ye x p a n s i o ns u b s y s t e m h a sb e e ne m p h a s i z e dn o to n l yi n r e s e a r c hb u ta l s oi nt h ec o r r e s p o n d i n gd e s i g n ,w h i c hh a sp o s i t i v ea n dp r a c t i c a l s i g n i f i c a n c e m a i nc o n t e n to ft h i st h e s i si n c l u d e - ( 1 ) t h i sp a p e rh a sc l a s s i f i e dd i s c u s s i o na c c o r d i n gt oq u e r ye x p a n s i o nt e r m s f r o md i f f e r e n t s o u r c e s ,d e e p l ya n a l y z e dt e c h n o l o g i e sa b o u tr e l a t e dq u e r y e x p a n s i o na n ds u m m a r i z e st h ec h a r a c t e r i s t i c s ,a d v a n t a g e sa n dd i s a d v a n t a g e so f a l lk i n d so fq u e r ye x p a n s i o nm e t h o d s ( 2 ) o nt h eb a s i so fr e s e a r c ho nq u e r ye x p a n s i o nb a s e do nt h el o c a l d o c u m e n ts e t sa n dt h eg l o b a ld o c u m e n ts e t s ,i no r d e rt of u r t h e ri m p r o v et h e r e t r i e v a lp e r f o r m a n c e ,am e t h o do fq u e r ye x p a n s i o no fc o m b i n a t i o nb a s e do n l o c a ld o c u m e n ts e ta n dg l o b a lp h r a s e sm i n i n gi s p r o p o s e di n t h i s p a p e r i i i s h o wt h a tt h ep r e c i s i o nr a t eo fq u e r ye x p a n s i o nb a s e so nt h ec o m b i n a t i o no ft h e m e t h o do fd o c u m e n ts e t sa n dt h em e t h o do fq u e r yl o g si sb e t t e rt h a nt h a to ft h e m e t h o db a s e do fd o c u m e n ts e t sa n dt h a to ft h em e t h o db a s e do nt h eq u e r yl o g ( 4 ) i no r d e rt ov a l i d a t et h er e s e a r c ho ft h i sp a p e r , s e a r c he n g i n es y s t e m b a s e do nl u c e n e + n u t c ha n dq u e r ye x p a n s i o ns u b s y s t e ma r ed e s i g n e d n u t c h h a sb e e ni m p r o v e di no r d e rt om a k et h es y s t e ms u p p o r ts e a r c h i n go fc h i n e s e l a n g u a g ea n dd e s i g no fq u e r ye x p a n s i o ns u b s y s t e m k e yw o r d s :s e a r c he n g i n e ;q u e r ye x p a n s i o n ;d o c u m e n ts e t s ;q u e r yl o g s i v 目录 摘要 a b s t r a c t 第一章绪言 1 1 课题研究的背景及意义 1 1 1 课题研究的背景 1 1 2 论文选题的目的和意义 1 2 论文研究内容和创新之处 1 2 1 本文研究的内容 1 2 2 本文研究的创新之处 1 3 本文的组织结构 第二章查询扩展相关技术综述 2 1 基于文档集的查询扩展技术 2 1 1 基于全局文档集的分析方法。 2 1 2 基于局部文档集的分析方法。 2 2 基于查询r 志的查询扩展技术 2 2 1 基于聚类的方法 2 2 2 基于关联规则挖掘的方法 2 3 基于人工构建资源的方法 2 4 其它应用于特定场合的查询扩展技术简介 2 5 关于查询扩展的评价方法_ 2 6 本章小结1 2 第三章基于文档集的查询扩展的研究1 3 3 1 基于局部文档集的查询扩展研究1 3 3 1 1 基于局部共现的查询扩展思想13 3 1 2 扩展词选取的研究1 4 3 1 3 一种基于局部文档集的查询扩展算法设计。1 6 3 2 基于全局文档集的短语挖掘算法的研究1 9 3 2 1 短语挖掘技术综述2 0 3 2 2 基于统计的短语挖掘的算法思想2 l 3 2 3 一种基于统计的短语挖掘算法设计2 2 3 3 一种基于文档集的混合查询扩展研究2 4 3 3 1 基于局部文档集方法与基于全局文档集方法的比较与分析2 4 3 3 2 种基于文档集的混合查询扩展方法2 5 3 4 实验与分析2 6 3 4 1 实验数据集与评估方法2 6 3 4 2 基于局部文档集的查询扩展的实验与分析2 7 3 4 3 基于统计的短语挖掘算法的实验与分析3 0 3 4 4 基于文档集的混合查询扩展的实验与分析3 2 3 5 本章小结。3 5 v 第四章基于文档集与基于查询日志混合的查询扩展的研究 4 1 查询日志分析 4 2 一种基于查询日志的频繁查询项集挖掘的研究 4 2 1 基于查询同志的查询式提取 4 2 2 频繁查询项集挖掘思想。 4 2 3 一种基于查询日志的频繁查询项集挖掘方法。 4 3 基于文档集与基于查询日志相混合的查询扩展的方法的研究 4 3 1 相关技术的研究与分析 4 3 2 基于查询日志提取的查询式与基于文档集挖掘的短语进行混合的研究 4 4 一种基于文档集与基于查询日志相混合的查询扩展的设计 4 4 1 系统分析与扩展词计算 4 4 2 系统的设计 4 5 实验与分析 4 5 1 实验数据集与评估方法 4 5 2 实验与分析 4 6 本章小结 第五章搜索引擎及查询扩展子系统的设计 5 1 软硬件平台 5 2 基于l u c e n e + n u t c h 的搜索引擎的设计 5 2 1n u t c h 的改进。4 8 5 2 2 系统分析。4 9 5 2 3 搭建基于l u c e n e + n u t c h 的搜索引擎5 1 5 3 索引模块5 2 5 4 查询扩展模块5 3 5 5 查询建议模块5 4 5 5 1 查询建议概述5 4 5 5 2 基于a j a x 的查询建议的设计5 5 5 6 实验与分析5 6 5 7 本章小结5 8 第六章总结与展望5 9 6 1 总结5 9 6 2 下一步的工作5 9 参考文献6 0 致谢。6 5 攻读硕士学位期间参加的科研项目。6 6 攻读硕士学位期间发表论文情况6 6 v 1 广西大掌硕士掌位论文搜索引擎中查询扩展的研究 1 1 课题研究的背景及意义 1 1 1 课题研究的背景 第一章绪言 计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近的十几年 里,随着网络技术的发展,网络上的信息量明显增多,人们对信息的查找也日益频繁。 如何在这浩瀚的信息海洋中找到自己想要的信息昵? 人们最常用的办法就是在搜索引 擎工具中输入查询表达式,让搜索引擎按相关度从大到小返回若干和查询表达式相关的 网页。最常见的相关度的评分办法是基于t f - i d f 的方法【l 捌,其主要思想是按查询词表 达式在文档中出现的频率及位置等情况来对文档进行评分。这其中很重要的一点就是看 查询词( 串) 在文档中出现的频率。余慧佳等人【3 】通过对大规范的网络日志进行研究和 统计,得出网民的上网行为特点,其表明了我国的网民的平均查询长度为1 8 5 个词, 这说明了用户输入的查询是比较短的。如果在搜索引擎中只给出简单的查询词,往往不 能很好地返回用户想要的信息【4 1 。由于各种原因,用户输入的查询词( 串) 并不能很好 地将查询意图和检索系统的相关资源情况,相关度评分方法结合起来,也就不能很好地 返回用户最想查询到的信息。 在信息搜索中,常见的问题有:( 1 ) 由于用户输入的查询表达式未能充分表达用户 的需求,返回的信息没有按用户的意图进行排序,返回结果中排序在前面的若干文档和 查询意图的相关性不够强,比较分散,不容易找到想要的结果。例如用户输入查询表达 式为“j a v a ,检索系统就不能明白用户究竟是想要找j a v a 教程还是想下载j a v a 的软 件,这样返回结果中排序在前若干的文档和用户的查询意图相关性并不强。( 2 ) 在某些 系统中,例如移动搜索,用户使用手机上网,由于手机键盘的原因,输入字符不太方便, 要输入比较具体的查询词( 串) 须要比较长的时间,这需要有一种查询推荐来帮助用户, 提高用户检索的效率【5 1 。 以上原因推动了查询扩展相关技术的研究和发展。查询扩展( q u e r ye x p a n s i o n ) , 是指是指在信息搜索系统中,对初始查询进行扩展或重新构造,得到比初始查询更长, 更接近用户查询意图的查询词( 短语) 。查询扩展,有时也称为查询建议( q u e r y 广西大掌硕士学位论文搜索引擎中查询扩展的研究 s u g g e s t i o n ) 或查询重构( q u e r yr e f o r m u l a t i o n ) 【6 ,主要作用是能提高检索系统的 查准率和易用性【8 1 。 1 1 2 论文选题的目的和意义 信息搜索是计算机科学中很有意义的研究领域,而查询扩展也是其中的一个研究热 点。查询扩展的意义主要有两个方面:第一,增加搜索引擎系统的智能化功能,增强系 统的交互性和易用性,具有较高的应用价值。传统的搜索引擎系统是完全依靠用户提交 的查询表达式来搜索相关信息,在用户的搜索相关信息的过程中,交互操作和相关提示 信息都很少,这给用户带来不便。在搜索引擎中增加查询扩展功能,能比较明显地凸显 出系统的智能化功能。在某些应用系统,如移动终端的信息搜索中,由于键盘操作的不 便,查询扩展能较明显地改善系统地易用性。第二,增强查询表达式的表达含义,使查 询意图清晰明确,增强检索的查准率,提高检索系统的检索效果。用户如果输入过短的 查询式往往使得系统在信息量存储量的搜索引擎中比较难以返回用户满意的搜索结果 【4 】。通过查询扩展,对初始查询进行扩展或重构,会使得查询表达式的意图变得清晰和 明确,这样做的一个直接的好处就是提高了搜索引擎的查准率。 因此,查询扩展相关技术的研究,既可以改善了系统的查准率,也增强系统的易用 性,有积极的现实意义。本文深入地研究搜索引擎的架构和相关技术,并在此基础上, 以查询扩展词项的来源作为切入点,对相关的技术和设计方法进行研究,本文的研究方 法和思想有一定的创新性和实用性。 1 2 论文研究内容和创新之处 1 2 1 本文研究的内容 本文的研究内容主要包括以下方面: ( 1 ) 通过对大量的查询扩展相关的文献进行阅读,按照扩展词的来源不同对相关 的技术研究、对比和分析,分析并总结了各种方法的设计思想,优点和缺点,为本文的 查询扩展的相关算法研究打下扎实的理论基础。 ( 2 ) 为了在一定程度上克服基于局部文档集的查询扩展方法中查询飘移问题 ( q u e r yd r i f t ) ,研究了基于全局文档集的短语挖掘算法,并研究一种基于文档集的混 2 广西大掌硕士掌位论文 合的查询扩展方法,其主要思想是将基于局部文档集的“共现”方法 的短语挖掘方法相混合,并进行有关的实验和分析。 ( 3 ) 为了进一步改善查询扩展的效果和提高系统的查准率,本 志的查询式提取和基于查询日志的频繁查询项集挖掘基础上,研究一 于查询日志的混合查询扩展。为了减少在线计算时间上的开销,研究 计算和离线计算相结合的计算方式。最后进行有关实验对比与分析。 ( 4 ) 为了在一个真实的搜索引擎系统中验证本文研究方法,本 于l u c e n e + n u t c h 的搜索引擎系统及查询扩展子系统。其中,为了使 持中文检索和便于查询扩展的设计,对n u t c h 进行了改进。 1 2 2 本文研究的创新之处 本文的创新主要有: 1 ) 为了吸收基于局部文档集方法和基于全局文档集方法的优点,进一步提高查询 的效果,研究一种基于文档集的混合的查询扩展方法,其主要思想是将基于局部文档集 的方法与基于全局文档集的短语挖掘方法相混合。 2 ) 为了吸收基于文档集方法与基于查询日志方法的优点,使查询扩展的结果更接 近用户的查询意图,进一步提高搜索引擎的查准率,本文研究了一种基于文档集和基于 查询日志相混合的查询扩展方法。其主要思想是在基于查询日志的查询式提取和基于查 询会话的频繁项集挖掘的基础上,与基于文档集的查询扩展方法进行混合。 1 3 本文的组织结构 本文结构安排如下: 第一章,作为绪言,介绍了本文研究的背景、意义,研究的内容,创新点,并简 述了整篇论文的组织结构。 第二章,对查询扩展相关技术进行了分类论述,并对查询扩展相关技术研究现状 和特点进行总结和归纳。 第三章,在研究基于局部文档集的方法与基于全局文档集的查询短语挖掘的基础 上,研究一种基于局部文档集与基于全局文档集的短语挖掘相混合的查询扩展方法。 第四章,在对查询日志进行深入分析和对基于文档集的方法进行研究的基础上, g - 西大掌硕士掌位论文 搜索引擎中查询扩展的 研究一种基于文档集和基于查询日志相混合的查询扩展,并对该子系统进行设计 减少用户的等待时间,扩展词的计算方式采取在线计算与离线计算相结合的计算 第五章,设计出基于l u c e n e + n u t c h 的搜索引擎实验系统,及查询扩展的子 第六章,总结与展望。 4 广西大掌硕士掌位论文 搜索引擎中查询扩展的研究 第二章查询扩展相关技术综述 查询扩展( q u e r ye x p a n s i o n ) ,有助于提高系统的易用性,改善系统的查准率,有 积极的现实意义。部分文献中将查询扩展称为查询建议( q u e r ys u g g e s t i o n ) 或查询重 构( q u e r yr e f o r m u l a t i o n ) 【】。其特点是对用户输入的初始查询进行相关词的扩展, 并提示给用户,供用户进行选择。查询扩展具有提高系统易用性、消除查询歧义和改善 系统查准率的作用。从扩展词项( e x p a n s i o nt e r m ) 的出现方式来看,比较常见的是在 用户提交初始查询之后,对初始查询进行扩展,最终得到若干比初始查询更长的查询式, 供用户进行增益查询时选择。也有在用户提交初始查询之前,就对查询式进行的扩展并 提示给用户进行选择,例如g o o g l es u g g e s t i o n 。按扩展词项的来源不同,可将查询扩展 分为三大类:基于文档集的方法,基于查询日志的方法,基于人工构建资源的方法。 2 1 基于文档集的查询扩展技术 基于文档集的查询扩展方法是目前常见的研究方法,根据扩展词项的来源范围不同, 可分为基于全局的分析方法和基于局部的分析方法。 2 1 1 基于全局文档集的分析方法 基于全局的分析方法是最早被提出来的查询扩展方法。该方法的主要思想是:在整 个文档集里对词与词之间的相关情况进行统计和分析,常见的相关性分析是对词项与词 项的共现情况进行统计。1 9 7 1 年,s p a r c kkj o n e s 等人1 9 提出的基于全局分析的词项聚 类方法可以看成是最早提出的基于全局的分析方法之一,其主要思想是:根据词项与词 项在文档中的共现程度对词项进行聚类,形成簇,如果初始查询属于某个簇,则同簇的 其他词项将成为初始查询的候选相关词项。该方法虽然提出了基于全局的词项聚类思 想,但显然在消除歧义方面做得不好,因为一个词可能会分到多个簇中,使得其含义仍 然模糊。1 9 9 3 年,q i uy o n gg a n g 等人【1 0 】提出的基于概念的查询扩展也是一种基于全局 的分析方法,其主要思想是:先在全部文档集构建所有词项与词项的相似性词典 ( s i m i l a r i t yt h e s a u r u s ) ,值得说明的是其中相似性的度量是根据词到所有出现该词 的文档向量空间( d v s ) 计算出来,其中特征频率( f e a t u r ef r e q u e n c y ) 将参与计算, 其类似于t f ( t e r mf r e q u e n c y ) 。在进行查询扩展时,将查询式中所有词分别在相似性 广西大掌司e b 学位论文 搜索引擎中查询扩展的研究 词典中进行查找并计算,将权值和最大的前r 个词选出来作为初始查询的扩展词项。1 9 9 4 年,y u f e n gj i n g 等人【l l 】提出的短语发现器( p h r a s e f i n d e r ) 可看作是当时比较成熟的 基于全局分析的查询扩展的代表之一,其主要思想是:使用p h r a s e f i n d e r ( 一个程序) 对全部的文档集进行统计和分析,构建一个 三元组的 全局性词典,这里的词项( t e r m ) 指的是除停用词以外的一般词,短语( p h r a s e s ) 指 的是满足一定词性规则的若干词的组合,关联频率( a s s o c i a t i o n f r e q u e n c y ) 指的是 t e r m 与p h r a s e s 的共现频率。值得一提的是该方法在固定长度窗口( w i n d o w ) 中进行, 这里的固定长度窗口是指的是不将自然段作为分析的最小单位场所,而是以3 至1 0 句 的固定长度作为段落的范围。 除了上述的基于全局的分析方法之外,还有基于潜在语义标引的技术( l s i :l a t e n t s e m a n t i ci n d e x i n g ) 方法【1 2 】。基于潜在语义分析的核心思想是用词项与文档的关系来 进行奇异值分解( s v d :s i n g u l a rv a l u ed e c o m p o s i t i o n ) ,该方法的目的主要是消除歧 义。通过分析与对比,我们可以得知,基于全局的分析方法的最大缺点是计算开销非常 大,而且缺少相关反馈,效果也并不理想,目前已很少有单纯使用全局分析的方法来进 行查询扩展的研究和设计,但如果是和某些方法进行结合,或作为某些方法的辅助手段, 仍然是可以借鉴的。 2 1 2 基于局部文档集的分析方法 基于局部的分析方法消除了基于全局分析方法中计算开销大的缺点,成为目前基于 文档集方法中一种可操作性较强的方法之一。基于局部文档集方法的主要思想是利用 在检索系统中提交初始查询后返回的排序在前面的若干篇文档作为相关词项的来源。 1 9 7 7 年,a t t e r 等【1 3 】提出一种在全文检索系统中的局部反馈方法可看成是最早提出基于 局部分析的方法之一。它的主要思想是:在检索系统中提交初始查询后返回的前n 篇文 档中进行词的聚类,进行词的聚类时的主要依据是对词项出现的频率进行统计和分析。 该方法设计的一个主要目标就是减少基于全局聚类的计算开销。但仍存在着一定的局限 性,例如对初始查询所返回的前篇( t o p - n ) 文档的依赖性较大,没有计算和分析到 初始查询与文档中词项的“共现情况”,这样当系统返回的前篇文档中存在和初始查 询相关性不够强的文档时,就有可能产生查询飘移( q u e r yd r i f t ) 。 1 9 9 6 年,j i n x ix u 等人【1 4 】提出的一种使用局部文档并采纳p h r a s e f i n d e r 的思想的 6 广。西r 大掌硕士掌位论文搜索引擎中查询扩展的研究 方法( l c a :l o c a lc o n t e x ta n a l y s i s ) 可看成基于局部文档集方法中较早而且较为经 典的方法,直到现在仍有不少学者在进行基于文档集的查询扩展研究时仍部分采纳或借 鉴该思想。l c a 的主要思想是:在初始查询提交给检索系统后所返回的前n 篇文档中的 段( p a s s a g e ) 中统计和分析初始查询与候选扩展词项的共现情况,并结合p h r a s e f i n d e r 方法【1 1 】对侯选词项进行评分,将评分最高的若干个词项作为初始查询的扩展词项。其中 p a s s a g e 指的是文档中固定长度的文本( 实验中采用3 0 0 个词) ,其实验表明在前n 篇文 档中采用3 0 到3 0 0 个p a s s a g e 可达到比较好的效果。该方法的优点是考虑了初始查询 与候选词项在一定范围内的共现情况( c o o c c u r r e n c e ) ,但仍存在一定的缺点,例如在 候选词所处的位置上仍没有进行考虑,即没有进行权重上的区别。 2 0 0 6 年,丁国栋等人【l5 】提出了一种基于局部共现的查询扩展方法( l o c o o c ) 。该方 法的主要步骤为:( 1 ) 根据初始查询q 在待检索语料集c 中执行初始检索,选出检索结 果的前n 篇文档组成局部文档集s ;( 2 ) 根据评分公式对每个候选词项进行评分;( 3 ) 选出评分最高且在语料集中至少出现在2 篇文档中的k 个词项作为扩展词。其中的k 取 3 0 至1 0 0 , n取1 0 至 5 0为宜。这里的评估分式为: f ( w ,q c ,s ) = i a f ( gc ) i d f ( wic ) l og ( c o od ( w ,gls ) + 1 o ) ,其中 q 口 f ( w ,qc ,s ) 为全局文档集c ,局部文档集s 情况下的词项w 和初始查询q 的关联性, i d f ( q l c ) 为全局文档集情况下的q ( 初始查询p 中查询词口) 倒转文档频率,i d f ( w l c ) 为 全局文档集中候选词项的倒转文档频率,c o o d ( w , qs ) 为局部文档集中候选词项矿与g 在局部文档集s 中平均共现程度。此外,该文献 1 5 还提出了对扩展后的查询式进行词 项权重分配的方法,具有一定的先进性。从评分公式中可以看出基于“共现 的相关性 计算没有考虑到共现的具体位置,这在w e b 应用中显然还存在一定的局限性。 2 0 0 6 年,m i ns o n g 等人【1 6 】提出一种利用关键短语提取( k e y p h r a s ee x t r a c t i o n ) 的方 法进行查询扩展的方法。其主要思想是:从被检索的文档中提取短语,然后根据这些短 语进行查询扩展,在提取短语时根据短语词项“共现 程度来对短语进行权重的分配, 短语的提取方法是一种无监督的方法,有较强的实用性。 在基于w e b 的文档集查询扩展研究中,应对不同区域中的候选扩展词进行有所区别的 分析和计算【1 7 , 1 8 】。2 0 0 7 年,b e nh e 等人【1 刀提出了一种结合多个域进行查询扩展的方法。 其主要思想是:将标题( t i t l e ) 、锚文本( a n c h o rt e x t ) 、正文( b o d y ) 分成不同的域, 7 广西大学硕士学位论文 但其候选词评分公式与l o c o o c 方法相比,显得简单一些,没能充分考虑其它的影响因素。 文献 1 9 】提出一种利用关联规则挖掘的方法在文档集中进行查询扩展的方法。该方 法的主要思想是:先提出基于完全加权关联规则挖掘的信息检索模型,在这个基础上, 用完全加权关联规则挖掘方法进行查询扩展。所利用到的文档集是初始检索的文档。在 这些文档中进行完全加权词间关联规则挖掘,从中提取扩展词。 通过分析,我们可以得出两个方面的结论,基于文档集的方法具有扩展词项来源广 泛、直接,可操作性较强的优点,目前仍是查询扩展研究和设计的主要方法之一。但也 存在对热门词和流行词的反应、更新速度慢等缺点。 2 2 基于查询日志的查询扩展技术 基于查询日志的查询扩展技术是近年来发展得较为迅速的研究方法,常见的基于查 询日志的查询扩展方法有基于聚类的方法和基于关联规则挖掘的方法。 2 2 1 基于聚类的方法 文献 2 0 提出了一种用聚类的思想在用户查询日志的会话( s e s s i o n ) 中发现相关词 的方法。该方法将同一个用户在一定时间的查询式集合作为一个会话,然后在每个会话 中分析查询式与查询式的共同出现情况。该方法实际上是在查询日志中利用了“共现” 的思想来计算出初始查询的相关查询式。c h i e n - k a n gh u a n g 等人口妇提出了一种利用查 询日志,构造用户到文档的有向图,并根据i p 或查询词来构造查询会话( q u e r ys e s s i o n ) 然后根据s e s s i o n 中词项的“共现 情况分析、计算出相关词项。其中一个s e s s i o n 是 同一个i p 在一定时间内( 作者认为5 分钟能达到比较好的效果) 包含的查询词项等的 集合。文献 5 】也提出了一种基于查询日志的方法来发现查询建议词项,但其不使用到 s e s s i o n 。其主要思想是先在查询日志中构建查询词到u r l 的无向图,在图中从初始查 询这个“点”开始,在图中作深度优先搜索,当搜索到查询词项的数目大于预先设定的 最大数目时,搜索停止,并将搜索到的查询词项作为相关候选词项;然后设计出评分公 式对候选词项评分,其中一个重要的依据是查询词到u r l 的点击率。换句话说,根据公 式,如果同一个候选集中的一个查询词和初始查询词到同一个u r l 的点击频率都较高, 8 广西大学硕士学位论文搜索引擎中查询扩展的研究 则这个查询词被认为是和初始查询强相关的,就极有可能被选为建议词项。文献 2 2 所 述的也是一种基于查询日志的方法,其主要思想是:在用户查询记录的基础上建立用户 空间,在文档集合上建立文档空间,根据用户日志将两个空间中的词按照用户提交某 个查询所点击的文章以条件概率方式连接起来,当新的查询到来时,系统选取当该查 询出现时被选择成为扩展用词的条件概率最大的文档用词加入初始查询中。 2 。2 2 基于关联规则挖掘的方法 文献 2 3 】提出了利用关联规则来对查询日志的进行挖掘,从中寻找扩展词项,产生 查询建议。其方法是:先从大量的查询日志中基于用户查询到u r l 构建q u e r ys e s s i o n , 其中的s e s s i o n 是根据i p 地址和查询式数目来划分的,一个s e s s i o n 包含了来自同一 个i p 的十条查询式;然后采用关联规则挖掘方法从s e s s i o n 中进行挖掘,得出查询建 议词项。x i a o d o n gs h i 等人【2 4 】提出了一种利用改进的关联规则挖掘算法来对大量的用 户查询日志进行挖掘,计算出相关词项,其主要特点除了使用了关联规则挖掘算法之外, 还有效地对查询日志分割成不同的查询事务,还利用到莱文斯特距离( l e v e n s h t e i n d i s t a n c e ) 来度量候选词项的相似性,将相似性高的候选词优先作为扩展词,该方法可 设计性较强。 m i ns o n g 等人提出了一种将关联规则挖掘方法和本体论进行结合来计算出查询扩展 词项的方法【2 5 1 。其主要的优点在于既可以有效地发现共现频率较高的词项作为候选扩展 词项,又使用本体论( o n t o l o g y ) 方法来消除有歧义的查询扩展短语。 基于流行词的查询扩展有助于改善搜索结果,有助于提高查准率【2 6 1 。基于用户查询 日志方法的特点是相关词从用户的查询同志中间接获得,对热门词和流行词效果很好, 计算开销相对基于文档集的方法要少,实时性强,能较及时地反映近期用户的查询兴趣 和趋势,常用到聚类、关联规则挖掘等方法来发现相关词,是目前国外一个研究热点之 一。其缺点是对发现非热门词的概率较低容易造成扩展词项“冷热 不平衡的现象。 2 3 基于人工构建资源的方法 基于人工( 半人工) 构建资源的方法是利用人工( 半人- 1 - ) 的手段构建词项与词项 间的关系词典或系统来实现查询扩展,该方法的特点是具有一定的语义关系或层次归属 关系,不容易发生查询飘移。黄名选等人 2 7 】提出了一种基于查询语义树的查询扩展方法, 9 先构建基于本体论的资源,利用这个资源进行语义的查询扩展。基于语义的方法需要人 工( 半人工) 来构建面向生物和医学领域的资源,这使得用户可以在不太熟悉生物和医 学领域的知识的情况下,也能进行模糊式的查询。该方法结合本体来转化成查询和扩展 词的语义关系,从而进行有助于用户进行查询的查询扩展。 基于人工( 半人工) 构建资源的方法具有能利用到语言本身的特点及其内在的词项 的语义关系的优点,可这样的资源不可避免地需要人工参与构建,因而在大规模的文本 检索系统中可操作性还不强。 2 4 其它应用于特定场合的查询扩展技术简介 除了上述的应用于一般场景和环境的相关词提示技术之外,还有一些针对于特定的 环境或用于特定的应用场景中的相关词提示的方法。除了面向一般用户的查询扩展之 外,个性化的查询扩展主要思想是识别出不同类别的用户,针对不同的类别的用户进行 不同的查询扩展,方法主要是利用查询日志来划分不同的用户类别以及挖掘其兴趣。文 献啪1 提出一种个性化的查询扩展方法,其主要思想是将文档集进行分类,而且对用户也 进行分类识别,识别出特定的用户并针对性地给出查询扩展词项。 查询扩展的计算环境通常是在集中式的环境下进行的,但也有少数是在p 2 p 网络的 环境下进行计算的【3 1 1 和基于分布式系统的计算环境3 2 1 。张骞等人【3 1 1 提出了一种在p 2 p 网络中进行查询扩展的研究方法,其主要思想是在具有目录节点和叶节点的p 2 p 混合网 l o 广西大掌硕士掌位论文搜索引擎中查询扩展的研究 络中先利用初始查询返回的n 篇最相关的文档,用基于局部上下文的分析方法在 得出查询用词空间与文档空间的关系,然后间借助文档空间将查询空间 与文档用词建立一定的映射关系,根据词频情况、文档出现频率情况、查询词出现次数 情况等进行评分,将分数最高的若干项作为扩展词项。查询扩展是在目录节点上进行的, 叶节点需将查询记录发往相应的目录节点。p a u lo g i l v i e 等人【3 2 】提出一种在分布式网 络环境中进行查询扩展研究的方法,其主要研究的内容是在各节点中取得文档样本,利 用这些样本文档作为计算相关词的语料,而且还具体地对其效率进行了分析。 除了在应用于文本检索的查询扩展之外,还有在其他媒体检索环境下的查询扩展。 z h e n g - j u nz h a 等人【3 3 】提出了一种可视化的查询建议,其主要的特点是:当用户输入关 键词之后,系统会给出一个下拉的,包含着图像的列表,这样将会很直观地用和用户输 入的查询关键词相关的图像来帮助用户查询相关图像,也有助于用户查询文本和图像混 合的信息。其主要的方法是:用“共现 的方法来得出初始查询式的查询建议,用“图 像相似 的方法得出相关的图像,也就是图像建议( i m a g es u g g e s t i o n ) ,然后将词项 一图像的建议和图像搜索进行连接,这样当用户输入关键词时,可以给出相关的查询扩 展短语或相关的图像。该方法有可以借鉴用于在多媒体的检索环境中的查询扩展的研究 和设计。 除了在单一的语言( 例如中文) 下进行查询扩展的研究之外,还有在跨语言( 例如 中文和英文混合) 检索中进行查询扩展的研究3 4 , 3 5 】。g u i h o n gc a o 等人【3 4 1 提出了一种在 中英文交叉语言环境下的查询扩展的研究方法,其主要思想是将基于词典翻译的方法和 基于马可夫链( m a r k o vc h a i n ) 结合,产生扩展词项,其优点是可以将部分有歧义的词进行 有效翻译,克服了词典覆盖率不够宽的缺点。支持多语言交叉的查询扩展在跨语言检索 系统将能改善查询效果。 2 5 关于查询扩展的评价方法 常见的相关词提示技术的评价指标有查准率( p r e c i s i o n ) ,查全率( r e c a l l ) 等。查 准率是指检索系统中命中的相关文档数和检索出的文档总数的比率口6 1 ,是查询扩展研究 领域中最重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年本科《传感器与测试技术》期末试题及答案
- 安顺市2025-2026学年八年级上学期语文期中模拟试卷
- 中国专家共识解读:成人颅脑损伤院前急诊诊治指南(2025版)
- 活蚕沟站区车辆工队2025年第二季度每日一题
- 社区消防知识培训课件演讲稿
- 河南省洛阳市偃师区2024-2025学年四年级下学期期末质量检测英语试题
- 社区村镇工作基础知识培训课件
- 农牧机械出租合同范本
- 股权出让协议合同范本
- 公司劳务合同范本简单
- 茶馆门店运营管理制度
- 中职宿舍规矩管理制度
- 燃气生产调度管理制度
- 2025至2030年中国真空电机行业市场行情监测及前景战略研判报告
- 2025-2030中国棉花产业行情走势与市场共同发展前景预测报告
- 数学名师工作室三年发展规划
- 2025-2030中国分体式滑雪板行业市场现状供需分析及投资评估规划分析研究报告
- 废玻璃再生资源化项目投资可行性报告
- 2024生产安全事故应急预案
- 医院后勤管理的安全风险防控措施
- 雾化吸入技术课件
评论
0/150
提交评论