(管理科学与工程专业论文)基于聚集系数的文本检索查询性能预测.pdf_第1页
(管理科学与工程专业论文)基于聚集系数的文本检索查询性能预测.pdf_第2页
(管理科学与工程专业论文)基于聚集系数的文本检索查询性能预测.pdf_第3页
(管理科学与工程专业论文)基于聚集系数的文本检索查询性能预测.pdf_第4页
(管理科学与工程专业论文)基于聚集系数的文本检索查询性能预测.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(管理科学与工程专业论文)基于聚集系数的文本检索查询性能预测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着信息技术的发展,信息资源呈爆炸性增长,人们迫切需要从海量 的文档集中搜索自己感兴趣的信息,信息检索技术应运而生并发挥着越来 越重要的作用。然而,目前的信息检索系统都存在严重的鲁棒性问题,查 询性能预测作为最可能解决该问题的技术,受到信息检索界的广泛关注。 研究人员针对查询性能预测做了大量工作,提出了c 1 a r i t ys c o r e 、 r o b u s t n e s ss c o r e 等经典算法,然而,基于检索前的方法预测准确性较差; 基于检索后的方法,虽然预测准确性较高,但是都要分析所有相关文档的 几何学特性,计算复杂度高。 本文中,我们分析了信息检索的影响因素,发现查询、文档集的质量、 检索模型及模型中的参数都对信息检索性能有重大影响,而检索系统没有 识别所有查询词项更是导致检索失败的根源。 基于“检索系统没有识别所有查询词项是导致检索失败的根源”和“聚 团性假设”两大理论,借鉴向量空间模型中的思想,我们提出了基于聚集 系数的文本检索查询性能预测模型,该模型利用聚集系数来衡量检索系统 对所有查询词项的识别度和返回的相关文档间的相似度,实验证明,聚集 系数与查询的难易度有着显著的一致性联系,与c l a r i t ys c o r e 、r o b u s t n e s s s c o r e 模型相比,聚集系数模型能够较为准确地对查询性能进行预测。 相对于以往的模型,聚集系数模型有许多创新: ( 1 ) 首次将“检索系统没有识别所有查询词项是导致检索失败的根源” 和“聚团性假设 两大理论同时应用到查询性能预测模型中,利用聚集系 数同时衡量检索系统对所有查询词项的识别度和返回文档的相似度,可以 获得更好的预测性能; ( 2 ) 首次利用返回文档关于查询的相似度来代替直接计算返回文档间 的相似度,在保持较高预测准确性的同时提高了计算效率: ( 3 ) 首次将“利用w o r d n e t 中词项的距离来计算它们的相似度”的方 法应用到查询性能预测中,并利用它来计算频繁词项与查询词项的相似度, 取消了“频繁词项之间、频繁词项与查询词项之间均相互独立的假设, 更加符合实际应用情形。 此外,聚集系数模型只需要分析检索返回的前k 个( k 一般取1 0 ) 相 关文档,在取得不错的预测性能的同时,计算速度非常快。 除了用于解决检索系统的鲁棒性问题,聚集系数模型还可以用于分布 摘要 式信息检索的结果融合、元信息检索的结果融合、帮助用户构造更有效的 查询、查询扩展等众多领域,具有重要作用。 关键词:信息检索文本检索 查询性能预测查询难易度预测聚集系数模型 u a b s t r a c t a b s t r a c t w i t hm er a p i dd e v e l o p m e n to fi n f o m l a t i o nt e c h n o l o g y ,e l e c t r o n j ci n f o m l a t i o n d a t ag r o w se x p l o s i v e l ya 1 1 d s e a r c l l i n g h l t e r e s t e di n f o n n a t i o nf 砧m1 2 u r g e s c a l e d o c 啪e n t sb e c o m e sd e s i r a b l e i n f o n n a t i o nr e t r i e v a l ( i r ) t e c l u l o l o g ye m e r g e sa n d b e c o m e sm o r ea n dm o r ei m p o i r t a n t h o 、e v e r ,t 1 1 e r ei ss e r i o u sr o b u s tp r o b l e mi nm o s t c u r r e n ti rs y s t e m s p r e d i c tq u e d ,p e r f o 肌a j l c e ( p q p ) t e c h n o l o g yh a sa r o u s e di n t e n s e i n t e r e s t si ni rc o m m u n i 够a sk e yt e c h n o l o g yt os o l v es u c hr o b u s tp r o b l e m m a n ye x p e n sh a v er e s e a r c h e dp q pa n dp r o p o s e dm a n yg o o da l g o r i t h m s ,s u c h a sc l a d t ys c o r em o d e l ,r o b u s t n e s ss c o r em o d e l h o w e v e r p r e r e t r i e v a lm e t h o d s c a l l n o tp r e d i c tq u e r yp e r f 0 m a n c ev e r yw e u 晰t h o u ta n y 砌b m a t i o na b o u tr e t r i e v e d d o c u m e n t s s o m e p o s t - r e t r i e v a l m e t h o d sa c q u i r eg o o dp e r f o m a n c e b u tt l l e s e m e m o d sm a i n l ys u r v e yt h eg e o m e t 】了c h a r a c t e r i s t i co fr e t r i e v e dd o c u m e n t sa n d r e q u i r eam a s so fc a l c u l a t i n gr e s o u r c e i nt h i sp a p e r ,w ea n a j y z et h ei n n u e n c ef a c t o ro f i rs y s t e ma n df i n dt h a tq u e r i e s , d o c u m e n t s ,i rm o d e la n di t sp a r a m e t e ra 1 1h a v es t r o n gr e l a t i o nw i t ht h er e t r i e v a l p e r f o r m a n c e a n dt 1 1 a ti rs y s t e mh a s n ti d e n t i f i e da l la s p e c t so ft h et o p i ci st h em a i n r e a s o nf o rr e t r i e v a lf a i l u r e b a s e do n “i rs y s t e mh a s n ti d e n t i f l e da l l2 l s p e c t so ft h et o p i ci sm em a i nr e a s o n a r o u s e dr e t r i e v a lf - a i l u r e a j l d c l u s t e rh y p o t h e s i s ”,w ep r e s e n tan o v e lm e t h o dt o p r e d i c tq u e r ) rp e r f o m a l l c ef o rt e x tr e t r i e v a lb yc l u s t e rs c o r e ,w h i c hh 2 l sg o t t e ns o m e i d e a l s 丘o mv 色c t o rs p a c em o d e l i i lc l u s t e rs c o r em o d e l ,c l u s t e rs c o r ei su s e dt o q u a n t i 矽h o wi rs y s t e mi d e n t i f i e se a c ha s p e c ti nq u e r ya n dt h es i m i l 撕t yb e t w e e n e a c hr e 仙m e dd o c u m e n ts h u l t a n e o u s l y e x p e r i m e n t r e s u l td e m o n s t r a t e st h a tc l u s t e r s c o r es 蟾n j f i c a n t l ya n dc o n s i s t e n t l yc o r r e l a t e s 晰也t h ea v e r a g ep r e c i s i o no v e ra l l t e s t c 0 1 l e c t i o n s c l u s t e rs c o r em o d e lc a n p r e d i c tq u e r ) rp e 怕r i l l a n c ep r e c i s e l y c o n t r a s tt oo t h e rc l a s s i cm o d e l ,c l u s t e rs c o r em o d e lh a sm a l l yi m p r o v e m e n t sa l s f o l l o w s : f i r s t ,i ti n t r o d u c e sb o t l l i rs y s t e mh a s n ti d e n t i f i e da ua s p e c t so ft h et o p i ci s m em a i nr e a s o na r o u s e dr e t r i e v a lf a i l l l r e ”a n d “c l u s t e rh y p o t h e s i s m e o r yi n t op r e d i c t q u e r ) rp e r f o 衄a n c ef o r t h ef i r s tt i m e i t sp e r f o n t l a n c ei sm u c hb e t t e rs i n c ei tm e a l s u r e s h o w i 】王s y s t e mi d e n t i f i e se a c h2 l s p e c ti nq u e d ra l l d 也es i m i l 耐t ) rb e t 、v e e ne a c h r e t u m e dd o c 啪e n ts i m u l t a n e o u s l yb yc l u s t e rs c o r e i a b s t r a c t s e c o n d ,i tu s e st l l es i m i l a r i 妙o fe a c hr e t u m e dd o c 眦e n ta b o u tq v e r yi n s t e a do f t 1 1 es i m i l a r i t yb e t 、v e e ne a c hd o c u m e n tf l r s t l y i tc a l lb ec o m p u t e dm o r eq u i c k l y w i t h o u td e 留a d i n gt h em o d e l sp e r 内册觚c e t k r d ,i tg e t st h es i i i l i l a r i t ) ,b e t w e e nq u e wt e n n a n d 行e q u e n tt e mb yc o m p u t i n g t h e i rd i s t a n c ei nw - o r d n e ta n dc a n c e l st w ou 1 1 嘴a l i s t i ch y p o t h e s i z e s ,o n ei st h a tw o r d s i i ld o c u m e m s 甜ec o n s i d e r e dt ob ei n d e p e n d e n tw m le a c ho m e ra n da n o t h e ro n ei st h a t w o r d si nd o c u m e n t sa r ec o n s i d e r e dt ob ei n d e d e n d e n t1 v i mt h ew o r d si nq u e a l s o ,i ti se a s yt oc o m p u t ec l u s t e rs c o r e 晰mt o pk r e t 唧e dd o c u m e n t s b e s i d e ss o l v i n gr o b u s tp r o b l e mi ni rs y s t e m ,c l u s t e rs c o r em o d e la l s oc a nb e u s e dt om e r g er e s u l t si nd i s t r i b u t e di rs y s t e ma i l dm e t as e a r c hs y s t e m ,h e l pu s e r c o m p o s eb e t t e rq u e q u e r ye x p a n s i o na n ds oo n k e yw o r d s :i r 怕肌a t i o nr e t r i e v a l ,t e x tr e t r i e v a l ,p r e d i c tq u e r ) rp e 怕咖a j l c e , p r e d i c tq u e 搿d i m c u i 吼c l u s t e r rs c o r em o d e l 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者躲继一 签翱期:尘毕生 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 叫么开口保密( 年) 作者魏彰盘查 签字日期掣照 导师签名: 签字日期: 第一章绪论 第一章绪论 著名管理学家、诺贝尔经济学奖得主西蒙教授认为管理就是决策,管 理的一切活动都可归结为决策活动,而决策是根据已知信息做出判断。决 策往往是一个非常复杂和艰难的思维过程,管理水平的高低、决策质量的 好坏,在很大程度上取决于管理者与决策者对周围环境信息的了解。管理 与决策的有效性需要信息的支撑。 然而,随着i n t e r n e t 技术的发展,i n t e r n e t 上的信息量呈指数级增长, 如何从浩瀚的文档集中获取我们需要的信息,如何判断获取信息的质量, 这是我们每个人尤其是管理者经常遇到的问题。因此,信息检索以及检索 性能预测越来越受到人们的重视。 1 1研究背景 截至2 0 0 0 年7 月,w e b 上已经有超过2 l 亿个静态页面,并且每天有超 过7 3 0 0 万个新页面产生。以搜索引擎g 0 0 9 l e 为例,截至2 0 0 2 年4 月,共 索引了约2 0 亿个网页,然而到2 0 0 8 年7 月,g o o g l e 官方宣布其搜索引擎 索引到的网页数目超过1 万亿。 n e t c r a f t 是i n t e r n e t 业界著名的调查公司,该公司从1 9 9 5 年8 月开 始跟踪统计网站数量。1 9 9 5 年8 月的统计数目显示,当时全球网站总数只 有1 8 万个,到2 0 0 4 年5 月互联网网站数量才达到5 0 0 0 万,然而在这之 后仅仅过了3 0 个月就突破了1 亿大关。 同时,互联网在中国发展也极其迅速,根据中国互联网络信息中心 ( 2 0 0 9 ) 的最新统计,中国的i n t e r n e t 用户数量已经从2 0 0 0 年的6 0 万迅 速递增到2 0 0 8 年的2 9 8 亿,同期的w w w 网站数目也从2 6 5 万增长到2 8 7 8 万,网页数量更是从2 0 0 2 年的1 6 亿个迅速增长到2 0 0 8 年的1 6 0 9 亿个, 短短6 年间就增长了1 0 0 倍。 由以上数据可以看出,互联网上的信息量极其巨大,并且呈爆炸性增 长。作为全球化的信息空间,一方面w e b 上蕴含着大量的具有潜在价值的 信息,另一方面,l 跚代n c es 和g i l e scl ( 1 9 9 8 ) 指出,网络中9 9 的信息资 源对9 9 的用户来说是无关的。如何从海量的数据中寻找所需的知识,是当 今社会人们共同面临的一个难题,信息检索技术在人们的生活中发挥着越 来越重要的作用,也成为当今最热门的研究领域。 然而,虽然人们投入巨大的热情和精力研究信息检索问题,但是到目 第一章绪论 前为止,如何从海量的数据中筛选出用户需要的信息,或者对用户有用的 信息,一直没有得到很好的解决。英国莫里调查公司2 0 0 8 年的调查结果显 示,只有1 8 的用户表示总能通过搜索引擎搜索到需要的信息,满意度调查 结果更是让人吃惊,6 8 的用户对搜索引擎很失望,2 8 表示还可以,其余 4 为不知道。可见目前信息检索系统仍然存在很大问题,需要进一步研究 和发展。 1 1 1 基本概念 1 。1 。1 1 信息检索 随着计算机系统性能的提升和网络技术的不断进步,i n t e r n e t 得到蓬 勃发展,成为全球最大的信息资源库,网上存取信息渐渐地变为了人们的 日常所需。 信息检索( i n f o r m a t i o nr e t r i e v a l ,简称i r ) 是对信息项进行表示、 存储、组织和存取( r i e a r d obye ta l ,1 9 9 9 ) 。本论文研究的文本检索, 是从一定规模的文档库中找出满足用户提出的查询请求的相关文档子集的 技术,包括信息的表示、组织、存储、访问及搜索等各个方面,其目标是 检索出与用户查询相关的文档,尽量减少不相关的文档,核心为文本信息 的索引和检索( 丁国栋等,2 0 0 6 ) 。 信息检索和数据检索的区别: 信息检索的目的是从大量的信息中找到满足用户需求的信息,这与数 据检索的概念是类似的。但是,数据检索语言的目的在于检索出所有完全 匹配给定条件的对象,数据库中的数据,要么满足用户查询,要么不满足, 而没有在一定程度上满足的概念,因此数据检索处理的数据必须具有良好 定义的结构和语义:信息检索的检索对象( 文档集合) 以及用户查询可以 是非结构化的并且具有语义模糊性,因此检索系统必须以某种方式“解释 文档的内容,并且根据文档与用户查询的相似度进行排序。 1 1 1 2 查询性能预测 查询性能预测( p r e d i c t i n gq u e r yp e r f o r m a n c e ,简称p q p ) ,也称为 查询难易度预测( p r e d i c t i n gq u e r yd i f f i c u l t y ) ,它试图在不知道该查 询在给定文档集中的正确答案的情况下,对检索系统处理某一查询时返回 结果的好坏程度进行评估( y 0 m t o vec ta l ,2 0 0 5 ) 。人们通常使用平均准确率 ( a v e r a g ep r e c i s i o n ,简称a p ) 或p r e c i s i o n 1 0 作为评价指标,对检索 系统针对某特定查询的检索结果进行质量评估。 2 第一章绪论 相对于长期的对信息检索模型的研究,查询性能预测技术的研究还处 于初级阶段。然而,查询性能预测技术在提高检索系统鲁棒性、检索结果 融合、查询扩展等方面有重要作用。查询性能预测对于提高检索系统鲁棒 性的重要作用开始得到大家的公认,信息检索界把它认定为检索系统最重 要的功能之一。国际著名的文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e , 简称t r e c ) 于2 0 0 3 年在a dh o c 检索任务的基础上提出了r o b u s t 任务,旨 在关注检索系统的鲁棒性问题,t r e c2 0 0 4 和t r e c2 0 0 5 都将r o b u s t 作为 重要议题。信息检索界的顶级会议a c ms i g i r 也在2 0 0 5 年增加了查询难易 度预测主题。 1 1 2 信息检索的过程 图1 1 信息检索过程 在检索过程开始以前,有必要定义文本数据库,它的功能为,1 ) 存放 待检索文档内容:2 ) 在该文档集上可以执行的操作;3 ) 文本模型( 即文 本结构和可以检索哪些因素) 。文本数据库中存放的信息是通过网络爬虫或 人工方式采集到的,一旦定义好文献的逻辑视图,数据库管理器就为文档 建立索引。在信息检索中,索引是非常关键的数据结构,它支持在海量数 据中进行快速查找。信息检索中可能用到不同的索引结构,如互关联后继 第一章绪论 树、倒排文档等。 索引建立以后,就可以开始检索过程。 用户首先详细说明用户需求,这可能是个迭代的过程,用户会不断修 正用户需求表达式,检索系统也会通过关联提示帮助用户对表达式进行描 述。当用户表达式确定后,运用与文本操作相同的方法对用户需求进行分 析和转换,并将其转换成能够被检索系统识别的系统表达式。然后通过处 理查询获得检索文档。 在把文档发送给用户之前,检索系统根据相关度对检出文档进行排序。 随后,用户检查经过排序的文档集合,查找有用的信息,当然,用户也许 根据明确的兴趣查看文档,形成一个子集并且开始用户反馈循环。在这样 的循环中,系统利用用户所选择的文档改进查询的表达,这种改进的查询 有可能较好地表示真正的用户需求。 1 1 3 信息检索的主要研究方向 信息检索作为当前最前沿、最热门的研究领域,吸引了众多专家学者 的眼球,国内外许多专家从检索算法改进、w e b 信息检索等众多方面对它展 开了深入的研究。目前,信息检索界的主要研究方向如下: 1 1 3 1检索算法的改进 布尔模型、向量空间模型、概率模型等经典检索模型虽然都在一定程 度上取得了较大成功,但是他们自身都还存在缺陷,例如向量空间模型中 的“各词项相互独立”假设显然与实际不符。许多专家研究经典模型存在 的缺陷,提出了p 一范数模型、广义向量空间模型等众多改进方法。这些新 算法虽然能在一定程度上改进经典检索算法,但也引入了检索效率降低等 一些新问题。目前,检索算法的改进仍然是众多研究者关心的焦点。 1 1 3 2w e b 信息检索 w e b 信息检索受到越来越多的重视。w e b 信息检索与传统信息检索有所 不同:一是海量信息资源,用户对查全率的追求降低,查准率要求越来越 高;文档之间的超链接结构是w e b 信息检索和传统信息检索的又一区别, 链接描述文档对网页主题的概括有高度的精确性,由此产生了基于超链接 结构的检索技术:w e b 上的文本数据大部分用h t m l 书写;w e b 检索对效率 要求更高。t r e c1 9 9 9 2 0 0 4 连续六年将它作为重要主题,已经取得了一些 成果,并且百度、g o o g l e 等众多商用搜索引擎也取得一定成功,但是w e b 信息检索仍然是重要的研究方向。 4 第一章绪论 1 1 3 3 相关反馈( r e l e v a n c ef e e d b a c k ) 相关反馈是一种利用查询结果中的相关信息增强查询效果的技术,它 的基本思想是用户对信息检索的结果进行显性或者隐性的相关性判定,系 统根据这些判断对查询进行处理,重新检索从而提高最终结果的质量( 宋 伟萍等,2 0 0 8 ) 。将相关反馈技术运用于查询扩展、词权调整等,可以有 效地改进检索效果。目前,相关反馈技术已经成功地应用于基于内容的图 像检索系统、个性化信息检索等领域,t r e c2 0 0 8 对它进行了深入的探讨, 并且,将它作为t r e c2 0 0 9 的重要主题。 1 1 3 4 查询扩展( q u e r ye x p a n s i o 叫 查询扩展是为了解决查询词项不匹配的问题,检索系统利用用户初始 查询的返回结果,通过一定策略在初始查询中加入一些与主题相关的词项, 从而达到提高检索性能的目的( x ujxe ta 1 ,1 9 9 6 ) 。查询扩展技术一般 需要利用外部的语义词典及其它包含概念之间相关性信息的知识库。研究 表明,如果能够正确对用户查询进行扩展,扩展信息可以有效地改进查询 性能:但是,如果错误地扩展用户查询,则可能对查询结果带来负面影响。 目前,查询扩展是改进信息检索系统性能的一个重要研究方向。 1 1 。3 5 海量数据检索 w e b 信息、o f f i c e 文档信息等呈几何级数增长,信息检索系统需要处 理的数据量越来越大。如何保证检索系统在t b 级数据量下的检索性能也是 一项极有挑战性和实效性的任务,t r e c2 0 0 4 、2 0 0 5 、2 0 0 6 都对它进行过讨 论,目前它仍是信息检索系统中的难题和重要研究领域。 1 1 3 6 视频、图像检索 随着数码设备、网络视频的飞速发展,视频、图象等多媒体数据也越 来越多,而基于内容的视频、图像检索仍然是信息检索系统中的难题,t r e c 2 0 0 l 和2 0 0 2 都将视频检索作为重要议题,从2 0 0 3 年开始,视频检索更是 作为t r e c 的独立评估单元一直保留到现在,足可见多媒体检索的重要性。 1 1 3 7 相关性排序研究 相关性排序是衡量信息检索引擎性能的一个关键指标。g 0 0 9 1 e 最成功 的地方就是最早利用p a g e r a n k 分析法对结果进行排序,从而提高了检索质 量。目前,常见的排序算法有词频统计法和超链接分析法,其中超链接分 析法又有p a g e r a n k 分析法、h i l l t o p 分析法、h i t s 分析法等,这些算法都 取得了一定的成功,但是相关性排序的性能仍然制约了检索系统的平均性 第一章绪论 能的提升。 1 1 3 8 鲁棒性研究 前面的研究方向都是考虑如何提升检索系统的平均检索性能,但是, 在取得不错的平均检索性能时,检索系统对于个别查询失效的问题仍然需 要我们深入研究,信息检索系统的鲁棒性已经被公认为其必备的重要性能 之一。检索系统的鲁棒性问题已经严重制约了它的发展以及用户体验,t r e c 2 0 0 4 和t r e c2 0 0 5 都将它作为重要议题,信息检索的顶级会议a c ms i g i r 也于2 0 0 5 年引入了查询难易度评价主题。关于信息检索鲁棒性问题的研究, 已经取得了一些成果,例如c l a r i t ys c o r e 模型等,但是这些模型的预测 准确性或效率都还存在一些问题,目前,它仍是信息检索领域最重要的研 究方向之一,这也是本文研究的主题。 1 1 4 信息检索系统的鲁棒性问题 多年以来,许多学者在信息检索模型方面做了大量的研究工作,提出 了布尔模型、向量空间模型、概率模型等许多很有代表性的信息检索模型。 这些经典模型的提出,大大促进了信息检索的发展。然而,这些模型都是 经验启发式模型,存在巨大的鲁棒性问题,具体表现在以下方面: ( 1 ) 这些模型中包含需要人工经验调节的参数。周一模型在同一文档 集上处理同一查询,不同的参数取值其返回结果性能相差较大: ( 2 ) 模型中的参数不变时,同一模型处理同一查询,在不同的文档集 上其返回结果也会相差很大; ( 3 ) 在模型、模型中的参数、文档集都相同时,对于不同查询的检索 结果,其性能也会相差很大; ( 4 ) 不同模型,对于基于同一文档集上的相同查询,它们的结果性能 也会相差很大。 总之,检索性能对模型、模型参数、文档集或者查询的变化很敏感, 用户和检索系统都很难事先预期每个查询的检索结果的性能好坏。以搜索 引擎为例来说明情况( 3 ) 和( 4 ) ,在9 0 0 9 l e 中输入不同的查询,有的能搜 索到我们需要的信息,有的返回的结果则包罗万象:而且,即使在g o o g l e 和百度中输入同样的信息进行检索,其检索结果相差也非常大。返回结果 的性能相差很大会使用户对检索系统的信任度降低,同时,当检索结果很 差时,检索系统并不能给予用户提示,往往是用户花费大量时间查看多个 返回文档之后才能基本确定检索返回结果中并没有自己需要的信息。 6 第一章绪论 王斌( 2 0 0 6 ) 分别以概率模型、向量空间模型构造检索系统,使用t r e c 的t o p i c1 5 卜2 0 0 主题集合在t r e c 3 数据集上进行实验,实验结果验证了 检索性能对模型参数、文档集或者查询的变化很敏感,检索系统存在严重 的鲁棒性问题。 另一方面,t r e c 的发展历程也让人们逐渐认识到增强信息检索系统鲁 棒性的重要性。一组在某一文档集合和主题集合上取得较好性能的模型参 数在用于其它的文档集合或者主题集合时却常常结果较差,使得人们很难 展开对信息检索的规律性探索。研究者在总结这些经验教训时逐渐发现, 提高信息检索系统的性能不能仅仅从宏观上考虑检索系统或模型的平均性 能,必须要针对不同主题来探索检索系统的鲁棒性,从微观上提高每个主 题的检索性能,从而达到提高整个检索系统或模型鲁棒性的目的( h a r m a nd , 2 0 0 5 ) 。因此,t r e c 在2 0 0 3 年提出了r o b u s t 检索任务,旨在关注每个检索 系统对于那些“难”主题( 以往评测中结果较差) 的检索效果。 1 2 查询性能预测的研究意义 前文中,我们已经指出了信息检索系统存在着严重的鲁棒性问题,而 查询性能预测被公认为最有可能解决该问题的技术,受到了信息检索界的 广泛关注。同时,查询性能预测技术在信息融合、查询扩展等方面也具有 重要作用。 ( 1 ) 自适应检索系统 前面我们已经分析过,信息检索系统存在严重的鲁棒性问题,检索系 统针对不同的查询、文档集、系统参数等性能差别非常大。通常,研究者 会花费大量的人力去人为调节参数,或者根据有限的查询集合和文档集合 训练出参数。但是,无论是人为调节的参数还是根据固定的查询集合和文 档集合学习出来的参数,都是试图最优化信息检索系统的平均性能,而没 有考虑到查询、文档集合的差异性,即不同类型的查询或者不同的文档集 合也许需要不一样的参数,这是导致检索系统鲁棒性问题的根源( 郎皓等, 2 0 0 8 ) 。虽然检索系统在个别查询上性能较差并不会很明显地影响其平均性 能,但是这将极大地影响对这些特定查询感兴趣的用户的体验。 利用查询性能预测技术,检索系统可以识别那些返回结果质量较差的 查询,然后对它们进行有针对性的处理。在理想情况下,如果检索系统能 够预测某一查询返回结果的性能,那么它就可以自动地调整其算法或者参 数来更好地适应该查询,从而获得更加稳定的检索性能,检索系统的鲁棒 7 第一章绪论 性问题将迎刃而解。查询性能预测技术在提高检索系统鲁棒性上的重要作 用已经得到信息检索界的认可。 ( 2 ) 分布式信息检索系统的结果融合 在典型的分布式信息检索中,将一个查询在多个不同的文档集中独立 进行检索,每个文档集返回一个相关文档列表,然后将这些相关文档列表 按一定的策略进行结果融合,合并成一个新的独立的文档列表返回给用户。 在将这些相关文档列表进行融合时,需要根据每个文档列表的重要性为其 设置不同的权重,然后根据相应的权重进行结果融合。查询性能预测技术 可以用于改进文档列表权重的设置,利用查询性能预测技术对每个相关文 档列表的质量进行打分,并以该打分作为相应文档列表的权重。y o _ f i 】一t o ye e ta l ( 2 0 0 5 ) 的研究结果表明,相对于传统的基于c o i r 的分布式信息检 索系统,利用该权重计算方法的分布式信息检索能取得更优的效果。 ( 3 ) 元信息检索系统的结果融合 元信息检索系统是指针对某个查询,同时利用多个不同的检索系统独 立地在同一文档集中进行检索,并将各个检索系统的返回结果按一定的策 略进行融合。在通常的情况下,我们都是根据每个检索系统的平均性能来 设定权重值,或者给每个检索系统设置相同的权重值,这显然没有考虑同 一检索系统针对不同的查询或文档集其性能存在的较大差异,也没有考虑 不同的检索系统针对同一查询或文档集其性能存在的较大差异。这是元信 息检索系统鲁棒性问题的根源。利用查询性能预测技术,我们可以采取类 似分布式信息检索的结果融合方法,针对每个检索系统返回文档的质量来 设置相应的权重,这样能很大地提高元信息检索系统的稳定性。 ( 4 ) 帮助用户构造更有效的查询 查询性能预测可以提供有价值的反馈信息,这些信息可以指导一个用 户的信息查询过程。当检索系统预测检索返回结果的质量较差并将该信息 反馈给用户时,用户可以重构他的查询或者与检索系统进行交互,直到获 得较好的检索结果。传统检索系统中,用户将不得不花费很多时间去读那 些检索返回的文档,然后才能作出检索结果优劣的判断,而查询性能预测 技术可以极大地改进这个过程。 ( 5 ) 有选择的查询扩展 查询扩展技术是信息检索界热门的研究方向之一,但是它并没有广泛 应用于实际的检索系统当中,这是因为不恰当地进行查询扩展会导致一些 查询失效甚至损害它们的检索结果。“初始检索返回的文档与查询相关 是 查询扩展技术的基本假设,因此,只有在初始检索返回文档都与查询相关 8 第一章绪论 ( 也即初始检索结果较好) 的情况下,查询扩展技术才会起到积极的作用。 我们可以利用查询性能预测技术进行有选择的查询扩展,对于那些预测结 果较差的查询,只利用它们的初始检索结果而不进行查询扩展,并提示客 户构造更加有效的查询;对于其它预测结果较好的查询,可以进一步进行 查询扩展,以期获得更好的检索结果。因此,利用查询性能预测技术进行 有选择的查询扩展,在提高检索系统性能的同时,也避免了查询扩展对于 初始结果较差的查询的失效问题,能够提高检索系统的鲁棒性和稳定性。 ( 6 ) 识别缺少相关文档的查询 对于有的查询,文档集中没有任何与其相关的文档,因而检索返回的 文档都将是与其无关的,这类查询被称为缺少相关文档的查询( m c q ) 。查 询性能预测技术的一个重要应用便是识别这类缺少相关文档的查询,这对 于用户、检索系统和系统管理员都具有重要作用。用户可以知道该文档集 中是否包含他感兴趣的信息,管理员可以通过检索系统搜集到用户普遍关 注但是文档集中缺少相关文档的话题,进而通过增加该类话题的相关文档 来达到提高检索系统性能的目的。y o m t o vee ta 1 ( 2 0 0 5 ) 提到,可以利 用查询性能预测的结果作为特征,并根据一定的规则来识别缺少相关文档 的查询,他的这一理论在实验中得到了验证。 1 3 国内外研究现状 信息检索系统鲁棒性的研究起源于t r e c 会议,现在引起了信息检索界 的广泛关注。在组织t r e c 会议的过程中,人们逐渐意识到,提高信息检索 系统的鲁棒性是提高其性能的关键,因而在2 0 0 3 年起发起了r o b u s t 任务, 并在t r e c2 0 0 4 和t r e c2 0 0 5 中连续两年将r o b u s tt r a c k 作为重要议题。 国内的许多机构和专家都进行了信息检索系统鲁棒性研究。清华大学 ( z h a n gme ta 1 ,2 0 0 3 ) 、中科院自动化所( x uje ta l ,2 0 0 3 ,j i nqle t a 1 ,2 0 0 3 ) 、北京大学( s w e nbe ta 1 ,2 0 0 4 ) 、中科院计算所( d i n ggde t a l ,2 0 0 5 ) 等都先后参加t r e cr o b u s t 任务的评测,在国内率先展开了检 索系统的鲁棒性研究。其中,j i nqle ta l ( 2 0 0 3 ) 提出了考虑查询词之 间的距离关系的相关度计算方法。z h a n gme ta l ( 2 0 0 3 ) 提出了一种基于 主特征空间的权重计算方法并与b m 2 5 公式加权,用于区分出现在不同字段 中的查询词项的重要程度。s w e nbe ta l ( 2 0 0 4 ) 提出了一种新的基于词 性意义矩阵的检索模型。d i n ggde ta 1 ( 2 0 0 5 ) 使用了一种新的平滑方 法和相关反馈模型。从评测结果来看( v 0 0 r h e e sem ,2 0 0 3 ,v o o r h e e sem , 9 第一章绪论 2 0 0 4 ) ,大多数研究都是沿用了以往文本检索中的基本方法,即从查询扩展、 相关反馈和相关度计算等方面进行研究。但是大部分研究取得的效果并不 理想,只有两种思路有一定借鉴作用:一种是采用w e b 等外部资源而不是 文档集资源进行查询扩展可以取得较好效果:另一种是利用元检索系统可 以在某种程度上改善检索系统的鲁棒性。 2 0 0 3 年,n 工s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ) 组织了为期6 周的可靠信息存取研讨会( r e l i a b l ei n f o r m a t i o na c c e s s w o r k s h o p ,简称r i aw o r k s h o p ) ,探讨如何使检索系统对任何查询主题都返 回可靠的结果。这次研讨会邀请了多个信息检索界知名的研究团队参加, 他们通过对多个检索系统都检索失败的“难 查询进行人工分析和总结, 试图从检索系统模型以及查询表示两方面寻找导致查询失败的原因。虽然 此次研讨会没有总结出较好的自动判定方法,但是他们总结出了1 0 种常见 的查询失败模式,并得到一个重要结论:如果知道导致一个给定查询主题 检索失败的原因,那么就可以利用目前的信息检索技术大幅度地提高该查 询的检索性能。 信息检索的顶级会议a c ms i g i r 也于2 0 0 5 年引入了查询难易度评价研 讨会。本次研讨会的主要议题是,如何在检索开始前判断某一查询的难易 程度( 即可能返回结果的质量高低 来有针对性地提高该查询的检索性能。 这次研讨会取得了一定成果,研究者提出了些从查询分析角度来处理鲁 棒性问题的思路。k w o kkl ( 2 0 0 5 ) 采用平均词项频率和倒排索引频率等 特征进行s v m 分类,能够预测1 3 一l 2 的难问题和部分易问题。但是,该 方法在不同情形下很难保持一致性。j o s i a n eme ta l ( 2 0 0 5 ) 通过考察查 询的语言特征和检索结果性能的关系,指出查询中某些语言特征之间的链 接关系对于查询难易度的预测有辅助作用。g r i v o l l ae ta 1 ( 2 0 0 5 ) 利用 查询的语言特征和文档集的特征来对查询的难易度进行分类,该方法对于 某些特定的检索系统可以达到8 0 的分类准确率,但是它用于其它系统的效 果却并不理想。 其他许多研究者也从查询分析角度展开了信息检索鲁棒性的研究。 c r o n e n t o w n s e n dse ta 1 ( 2 0 0 2 ) 利用查询的纯度( c l a r i t y ) 来预测查询 的突显程度,具体来说,纯度是指查询和文档集在语言模型方面的差异程 度,他们的研究发现,对于某些信息检索模型,纯度和检索性能之间存在 着正相关关系,因此通过计算查询的纯度,可以在检索开始前预测该查询 的难易度。y o m t o ve ta l ( 2 0 0 5 ) 以整个查询和部分查询独立检索时的返 回结果之间的重叠程度及倒排文档频率作为特征,并通过回归方式计算不 1 0 第一章绪论 同特征的组合系数,也获得了较好的效果。 另外,还有一些研究者试图从模型角度解决鲁棒性问题,如f a n ghe t a l ( 2 0 0 4 ) 分析经典信息检索模型的应用条件和参数取值范围对其鲁棒性 的影响,研究发现,为了保持检索系统的鲁棒性,检索模型需要满足一定 限制条件,并且必须注意参数的取值范围。 1 4 研究内容 针对信息检索的鲁棒性问题,本文将从信息检索系统的查询性能预测 方向展开研究,分析影响信息检索性能的因素、导致检索失败的原因,并 提出利用“聚集系数 来预测查询性能的模型。主要做了以下两方面的工 作: 1 4 1分析影响文本检索的影响因素 由前面的分析可以看出,信息检索是一个复杂的过程,分析文档集建 立反向索引、分析用户查询并检索、检索结果排序等每个步骤都受很多因 素影响。 只有深入了解了影响检索性能的因素以及导致检索失败的原因,才能 提出有针对性的模型来预测检索结果的好坏,并进一步根据预测结果与用 户进行交互。通过研究以前的理论并进行具体实验,发现检索性能的好坏 受到查询本身的因素、文档集的质量、检索模型类型及其参数的影响。同 时,分析n i s t 组织的r i aw o r k s h o p 中总结的查询失败模式,从中探讨导 致检索失败的主要原因,发现检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论