(计算机软件与理论专业论文)基于上下文的个性化信息检索技术研究.pdf_第1页
(计算机软件与理论专业论文)基于上下文的个性化信息检索技术研究.pdf_第2页
(计算机软件与理论专业论文)基于上下文的个性化信息检索技术研究.pdf_第3页
(计算机软件与理论专业论文)基于上下文的个性化信息检索技术研究.pdf_第4页
(计算机软件与理论专业论文)基于上下文的个性化信息检索技术研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机软件与理论专业论文)基于上下文的个性化信息检索技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 搜索引擎是互联网用户最常用的信息查询工具。目前主流的搜索引擎并没有 明确区分不同用户的查询意图,而不同用户即使输入相同的查询词,其查询需求 也是有差别的。个性化信息检索技术就是针对以上问题提出的。个性化信息检索 通过收集和分析个人信息和查询的上下文,而不是仅仅依靠检索词来判断用户的 真实需求,因而能够根据用户的不同需求而返回个性化的检索结果以提高检索精 度 本文在对个性化信息检索相关技术进行了较为全面、深入的分析基础上,分 别研究短期上下文和长期上下文的个性化信息,以及如何根据基于上下文的个性 化信息进行个性化模型建模,从而改善信息检索系统查询性能。最后搭建了一个 基于上下文的个性化检索原型系统。 在研究短期上下文的个性化信息方面,为了改善信息检索系统对a dh o c 请 求只针对查询词的缺点,首先给出了基于上下文的个性化检索的形式化描述, 其次设计了短期上下文的个性化检索算法。该算法以单元统计语言模型为基础, 结合隐性相关反馈技术,克服了用户a dh o c 请求时仅依靠单独查询词的局限 性。通过实验证明该算法使查询精度平均提高5 0 。 在研究长期上下文的个性化信息方面,为了克服在传统信息检索系统中,无 法根据个人长期行为特点进行响应的缺点,本文以北大网络中心对天网搜索引擎 的用户行为分析为基础,设计了长期上下文的个性化检索算法。该算法通过分析 用户行为日志,建立起长期个性化模型,对当前查询起到改善作用。通过实验证 明了该方法的有效性和较好的抗噪声性。 本文设计并实现了一个基于火狐浏览器的个性化检索系统。该系统以基于短 期上下文的个性化检索算法为算法基础,利用l e m u r 语言模型工具,以搜狗实 验室公开的全网新闻数据作为语料集。同时利用该系统作为今后研究的实验平 台,搜集真实用户行为日志,为今后研究工作奠定基础。 关键词:个性化检索;相关反馈;语言模型 a b s t r a c t s e a r c he n g i n ei sa p o p u l a rt o o lf o ri n f o r m a t i o nr e t r i e v a l ( i r ) n o w a d a y s h o w e v e r , t h et r a d i t i o n a ls e a r c he n g i n ed o s en o td oa j o bi ni d e n t i f y i n gt h ei n d i v i d u a l su n i q u e s e a r c hg o a l ,w h i l ei to n l yr e t u r n st h er e t r i e v a lr e s u l t sa s s o c i a t i n gw i 廿lt h eq u e r yu s e r p r o v i d e s i no r d e rt oo v e r c o m et h ep r o b l e m , t h e r eh a v eb e e nm a n ya t t e m p t st o i m p r o v er e t r i e v a la c c u r a c yb a s e do np e r s o n a l i z e di n f o r m a t i o nr e t r i e v a lt e c h n o l o g y b a s e do ni n - d e p t hs u r v e yo nt h ee x i s t i n gs t u d i e sa b o u tp e r s o n a l i z e di r , t h i sp a p e r d i s c u s s e ss e p a r a t e l yo nt h es h o r t t e r mc o n t e x ta n dt h el o n g - t e r mc o n t e x tp e r s o n a l i z e d i n f o r m a t i o n t h et h e s i sd i dr e s e a r c ho nh o wt ou s et h ec o n t e x t - b a s e dp e r s o n a l i z e d i n f o r m a t i o nt oi m p r o v et h er e t r i e v a la c c u r a c y f i n a l l y , ap r o t o t y p es y s t e mo f c l i e n t - s i d ep e r s o n a l i z e ds e a r c ha g e n tw a sb u i l t t h em a i nw o r ko ft h et h e s i si n c l u d e s : i nt e r m so ft h es h o r t - t e r mc o n t e x tp e r s o n a l i z e di n f o r m a t i o n ,f i r s tw ep r o p o s e da f o r m a ld e s c r i p t i o no ft h ep e r s o n a l i z e di n f o r m a t i o nr e t r i e v a l s e c o n d ,b a s e do nt h e s t a t i s t i c a ll a n g u a g em o d e la n dt h ei m p l i c i tf e e d b a c kt e c h n o l o g y , w ep r o p o s e da n a p p r o a c ht oi t e r a t i v e l yu p d a t et h eq u e r ym o d e la c c o r d i n gt ot h es h o r t t e r mc o n t e x t s u c ha sq u e r yh i s t o r i e sa n dc l i c k e dd o c u m e n t s t h i sm e t h o dw a sp r o v e dt ob e s a t i s f i e d 谢t l lt h eu s e ra dh o eq u e r yi n t e n t i o n b yt h ee x p e r i m e n t ,i tf o u n dt h a tt h et h e m e a na v e r a g ep r e c i s i o ni si n c r e a s e db ya b o u t5 0 i nt e r m so ft h el o n g t e r mc o n t e x tp e r s o n a l i z e di n f o r m a t i o n ,f i r s tw ed i s c u s s e d a b o u tl o n g t e r mc o n t e x t ,w h i c hi sb a s e do nt h er e s e a r c ho ft h ep e k i n gu n i v e r s i t y n e t w o r kc e n t e ro nt h es k y n e ts e a r c he n g i n e s e c o n dw ei m p r o v e dt h ea p p r o a c ho f b u i l d i n gl o n g - t e r mu s e rp r o f i l eb yi n t e r p o l a t i n gt h eq u e r yh i s t o r yl a n g u a g em o d e l s f i n a l l yb yt h ee x p e r i m e n t ,w ef o u n dt h a t t h i si m p r o v e dm e t h o dh a st h eg o o d a n t i n o i s yp e r f o r m a n c e f i n a l l y , ap r o t o t y p es y s t e mo fp e r s o n a l i z e di rs y s t e mw a sb u i l t ,w h i c hu s e dt h e c o n t e x t - s e n s i t i v e p e r s o n a l i z e d i n f o r m a t i o n t h i ss y s t e mw a sb u i l ta sar e a l e x p e r i m e n t a le n v i r o n m e n tf o r t h ef u t u r er e s e a r c h k e y w o r d s :p e r s o n a l i z e di n f o r m a t i o nr e t r i e v a l ;c o n t e x t - s e n s i t i v ei n f o r m a t i o nr e t r i e v a l ; s t a t i s t i c a ll a n g u a g em o d e l 厦门大学学位论文原创性声明 本人呈交的学位论文是本人在导师指导下,独立完成的研究成 果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均 在文中以适当方式明确标明,并符合法律规范和厦门大学研究生学 术活动规范( 试行) 。 另外,该学位论文为() 课题( 组) 的研究成果,获得() 课题( 组) 经费或实验室的 资助,在() 实验室完成。( 请在以上括号内填写课 题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特 别声明。) 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送交 学位论文( 包括纸质版和电子版) ,允许学位论文进入厦门大学图书 馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国 博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和 摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: () 1 经厦门大学保密委员会审查核定的保密学位论文, 于年月日解密,解密后适用上述授权。 ( ) 2 不保密,适用上述授权。 ( 请在以上相应括号内打“”或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 斌,川汕月 人 明 年 声j 1 沙 第一章绪论 第一章绪论 随着互联网信息日益丰富,在日常工作生活中人们越来越依赖信息检索系统 来查找所需的信息。信息检索( i n f o r m a t i o nr e l r i e v a l ) 最早是由c a l v i nn m o o e r s 在1 9 5 0 年的z a t o r t e c h n i c a lb u l l e t i n ( n o 4 8 ) 中公开提出的。信息检索最初主要 是应用于图书馆中的文献检索,1 9 5 4 年美国海军兵器中心( n o t s ) 图书馆在 i b m 7 0 1 型号计算机上成功建立了世界上第一个计算机文献检索系统。随着计算 机技术与互联网的发展,信息检索系统也从批处理方式的文件检索发展到七十年 代后的联机情报检索,乃至现在的大规模互联网信息检索和数字图书馆文献检 索。可以说,信息检索技术已经融入我们每天的工作和生活。 1 1 研究背景 搜索引擎作为网络信息服务最基本的手段,在一定程度上可以满足用户对 互联网上信息检索的要求,但由于其通用的性质,或称作为商品化软件的要求, 这些通用的搜索引擎所表现的数据信息覆盖领域广、信息量大、数据不稳定、冗 余度大等特性,导致用户查询的精度非常低,其效果难以满足不同背景、不同目 的和不同时期的用户查询请求。缺陷主要表现在以下几个方面 1 适应用户兴趣变化的能力较差 现有大部分信息检索系统采用关键词输入方式进行检索。对任何用户都采用 同一种模式,很容易让用户感到迷茫,有时用户也无法准确地表述自己的兴趣。 尽管搜索引擎对每个用户输入的查询条件都能够返回一个按相关度排序的结果, 但是由于没有考虑单个用户的查询需求,把查询条件有关的所有检索结果都返回 给用户【l 】,不能区分不同用户的查询意图,导致了用户对查询结果满意度的降低。 2 用户与检索系统的交互方式比较单调 在系统响应上,传统的搜索引擎是将有序的结果文档集合分页显示的方式进 行结果反馈的,这样的响应方式一定程度上限制了用户与检索系统的交互。针对 不同需求的用户,提供不同的输入方式是目前现有系统所缺少的。因此用户对检 索系统的使用上无法进行个性化的操作,导致了系统对用户的查询意图理解模糊 基于上下文的个性化信息检索技术研究 而只能采取统一的方式进行结果反馈。 个性化信息检索技术就是针对以上问题提出的。个性化信息检索通过收集和 分析个性化信息,而不是仅仅依靠检索词来判断用户的真实需求,因而能够根据 用户的不同需求而返回个性化的检索结果以提高检索精度【2 】。 相关反馈( r e l e v a n c ef e e d b a c k ) 技术是通过查询后处理来实现个性化检索最 常采用的方法【3 j 。相关反馈的提出是基于这样的经验:很少有用户能够构造出理 想的查询词,也就是说用户无法用几个简单的查询词来描述自己的需要,但是如 果系统把文档呈现给用户,显然用户是有能力判断其相关性的。相关反馈技术已 经被证明可以有效地提高检索精度【3 一钉。但是,相关反馈依赖于用户来对文档进 行相关性评价,比如明确指出哪些文档含有相关信息等,根据研究【5 】表明,用户 往往不愿意花费时间精力来进行这样的相关性判定。 隐式反馈( i m p l i c i tf e e d b a c k ) 是以一种用隐式的( 用户几乎察觉不到的) 方 式获得用户的反馈信息的方法,也就是通过用户与系统的正常交互行为来推测用 户的兴趣偏好,不需要用户额外花力气去做相关性评价。研究 6 1 表明,隐式反馈 技术虽然不如显式反馈精确,但在交互式环境中可以成为显式反馈的有效替代。 实际上,最近的研究【1 ,7 l 表明如果充分利用客户端丰富的用户行为作为隐式反馈 信息,甚至能比利用显式反馈取得更好的效果。因此,基于隐式反馈信息的个性 化信息检索受到研究者的广泛关注。 1 2 研究动因 如上所述,基于隐式反馈的个性化信息检索是提高检索系统性能的有效技术 之一。但是根据我们的了解,目前已有的相关研究中,尚有下列问题没有得到很 好的解决: 1 短期上下文的隐式反馈信息可以帮助系统实时更新用户描述,能够反映 用户的a dh o c 信息需求。这种a dh o c 信息需求也许只是用户的一时兴起,一旦 得到满足,就对这种信息再也没有兴趣了。然而,目前尚没有一个框架能够以统 一的方式来开发利用短期上下文的隐式反馈信息。 2 根据对用户行为习惯的分析,由于用户兴趣爱好和职业背景的相对稳定 性,在使用信息检索系统时通常呈现出:查询词在一个比较长的时间内趋于稳定 2 第一章绪论 的数据特征。因此如何结合长期上下文的个性化信息,提升用户对现有信息检索 系统查询的满意度,目前还没有一个很好的解决方法。 3 基于上下文的个性化信息检索技术研究,缺乏有效的、标准的评测数据, 很难说明一个模型的优劣。如何在基于标准的数据集上进行算法的评测,目前这 方面的资料还比较缺乏。 1 3 论文主要工作 本文对目前的个性化信息检索相关技术进行了较为全面、深入的阐述。根据 个性化信息检索的实现方式不同,对目前的个性化信息检索研究工作进行了分类 和讨论,并对一些代表性工作进行了介绍和分析。通过对现状的分析,总结了现 阶段研究存在的一些不足,本文主要工作可以分为如下几点: 1 为了克服传统信息检索系统在进行a dh o c 查询时单独依赖于检索词的不 足,本文结合统计语言模型和相关性反馈的特点,设计了一种短期上下文环境中 的个性化检索算法。对该算法在t r e ca p 8 8 9 0 标准语料集上做了全面的测试和 对比分析,证明了该方法可以更好地描述用户的需求。 2 传统的信息检索系统在根据长期上下文信息( 例如个人的兴趣爱好、职 业背景等) ,实现个性化信息检索上存在着一定的不足。本文在北京大学网络实 验室对于天网搜索引擎用户行为数据的分析基础上,分析了长期上下文信息对提 高个性化信息检索性能的可行性。本文设计了在长期上下文环境中的个性化检索 算法,同时对该方法进行了实验评测。 3 在短期上下文环境中个性化检索算法基础上,本文利用搜狗实验室提供 的全网新闻数据为语料集,实现了个性化信息检索系统原型,证明了该算法在中 文环境下的有效性。同时,系统客户端是基于火狐浏览器的,负责记录存储用户 在使用系统的长期行为日志,为今后的研究奠定数据基础。 。 本文的创新点主要体现在以下几点: 1 本文设计了短期上下文的个性化检索算法。该算法以单元统计语言模型 为基础,利用查询会话中的查询历史和隐性反馈信息,采用改进了的相关反馈技 术,进行短期用户模型建模。通过实验证明该算法使查询精度平均提高了5 0 。 2 本文设计了在长期上下文环境下的个性化检索算法。该算法通过分析用 3 基于上下文的个性化信息检索技术研究 户长期行为日志,采用对逐个历史查询进行单元模型建模的方法,建立起长期的 个性化模型。通过实验证明在查询精度上,该算法较基准算法提高了2 5 ,也 说明了该算法有较好的抗噪声性。 3 本文设计并实现了一个基于火狐浏览器的个性化检索原型系统,证明了 在中文环境下,本文设计的短期上下文的个性化检索算法的有效性。 1 4 论文组织结构 第一章分析本文的研究背景,给出了研究动机,归纳本文的主要研究工作 并介绍论文的组织结构。 第二章对目前的个性化信息检索的相关技术进行了较为全面、深入的分析。 根据所采用的个性化信息种类以及个性化检索的实现方式,对目前的个性化信息 检索研究工作进行了分类和探讨,并对一些有代表性的工作进行了分析。 第三章首先给出基于上下文的个性化检索的抽象模型和形式化描述,接着 设计了短期上下文环境中的个性化检索算法。该算法以统计语言模型作为基础, 结合了隐式反馈和相关反馈的技术。最后对该算法在t r e ca p 8 8 9 0 的标准语料 集合上进行测试,同时对算法结果进行比较和分析。 第四章首先分析用户的查询行为习惯,接着设计了长期上下文环境中的个 性化检索算法,即利用长期行为日志进行个性化模型建模。最后对该模型进行实 验评测,同时对评测的结果进行分析。 第五章按照第三章中介绍的短期上下文环境的个性化检索方法,设计了一 个基于火狐浏览器的个性化检索系统原型。该系统将搜狗实验室公布的全网新闻 数据作为语料集合,同时负责记录下真实的、长期的用户行为日志,为今后研究 提供数据支持。 第六章论文的总结和进一步研究方向。 4 第二章个性化信息检索相关技术 2 1 引言 第二章个性化信息检索相关技术 随着互联网内容的不断丰富,信息海量化正在导致信息“垃圾化 。人们面 临“信息过载”、“信息迷航”,不是信息匮乏而是因为信息过多而难于找到自己 真正所需的信息。搜索引擎( s e a r c he n g i n e s ) 是互联网用户常用的信息查询工具。 搜索引擎以一定的策略对互联网信息进行采集、组织和处理,并为用户提供信息 查询服务,从而起到信息导航的目的。信息检索技术在一定程度上满足了用户的 查询需求。目前每天有数亿的网民在使用g o o g l e ,百度,y a h o o ! 等搜索引擎。根 据最新发布的第2 3 次中国互联网络发展状况统计报告【8 】指出,目前搜索引擎的 使用率为6 8 o ,在各互联网应用中位列第四。 表2 - 12 0 0 7 至2 0 0 8 年搜索引擎用户增长 时问2 0 0 7 年底2 0 0 8 年底变化 网民规模网民规模增长量增长 使用率使用率 ( 万人)( 万人)( 万人)率 搜索引擎 7 2 4 1 5 ,2 0 0 6 8 0 2 0 ,3 0 05 ,1 0 0 3 3 6 资料来源:中国互联网络信息中心,第2 3 次中国互联网络发展状况统计报告,2 0 0 9 年1 月 尽管搜索引擎对每个用户输入的查询条件都能够返回一个按相关度排序的 查询结果集合,但是由于没有考虑单个用户的查询需求,因此,往往不能区分不 同用户的查询意图,即对于相同的查询词条,不同用户的查询意图可能是不一致 的。而传统搜索引擎在处理这样的查询时,仅仅是依据单独的查询词条返回查询 结果,而忽略了用户进行这一查询行为时的上下文,即没有区分不同用户的信息 需求,而是把和查询条件有关的所有检索结果都返回给用户【l 】,因此导致了用户 对查询结果满意度的降低。 传统的信息检索技术由于其通用的性质,仍不能满足不同背景、不同目的和不 5 基于上下文的个性化信息检索技术研究 同时期的查询请求;个性化信息检索技术就是针对这一问题提出的,它把用户区别 对待,认识到了用户之间的不同之处,它为不同的用户提供不同的服务,以满足不 同的需求。形象地说,就是必须为每个用户提供一个过滤器,根据这个过滤器对用 户的检索需求进行过滤,或者对检索得来的结果进行过滤。个性化信息检索系统 根据用户的兴趣进行检索,返回与用户需求相关的检索结果。由于在检索系统中 考虑到了不同背景、不同目的和不同时期的不同用户的查询请求,因此个性化信 息检索可以有效地提高信息检索的效率【2 】。 个性化信息检索受到研究者的广泛关注,已经被列为信息检索研究领域的重 大挑战性课题之一【9 】。研究者们的研究内容虽然有所差别但是可以归纳为如何描 述用户的个性化信息;结合用户个性化信息的个性化检索算法;以及如何将个性 化结果展示在客户面前这三类的问题。 该章节就主要从以下几个方面进行阐述,第二节分析个性化信息的种类描述 和获取方式;第三节分析如何将个性化的查询结果展示给用户。第四节分析如何 进行个性化检索评测以及本论文采取的评测方法。最后归纳和总结以后适合的研 究方向。 2 2 个性化信息描述 2 2 1 用户的个性化上下文信息 2 2 1 1 短期上下文个性化信息 短期上下文用户信息一般是指局限在单个查询会话( q u e r ys e s s i o n ) 内的用 户信息。查询会话是指具有一致的信息需求的查询序列( 通常情况下是一个连续 的查询序列) 。一个查询会话通常会持续一段时间:首先用户设计并提交一个查 询条件,然后浏览搜索引擎返回的结果页面;如果不满意,用户会修改查询条件, 重复这个查询过程。常用的短期用户信息包括:历史查询、点击信息以及用户客 户端的某些行为等。u c a i r 1 0 。1 2 1 和p a i r 1 3 1 都是典型的基于短期用户信息的个性 化检索系统,它们都是通过分析用户的短期历史查询和即时隐式反馈信息 ( i m m e d i a t ei m p l i c i tf e e d b a c k ) 来预测用户信息需求。 6 第二章个性化信息检索相关技术 图2 - 1 用户查询会话周期 不 满 = 也 恳 短期用户信息有许多优点:首先,短期用户信息可以帮助系统实时更新用户 描述,能够反映用户的a dh o c 信息需求,这种信息需求也许只是用户的一时兴 起,一旦得到满足,就对这种信息再也没有兴趣了。在这种情况下,那种长期收 集的、能够反映用户一般性兴趣的信息就无能为力了,而短期用户信息正可以发 挥其作用。比如用户的输入查询“适配器”,根据g o o g l e 搜索引擎返回的结果 如下: w w w c c l a n e ! c o r r v s c n o o l a l c l e x p l a l n a _ j m m l j ,k 墨盟醛照。叁墼盟墨 蓝牙适配器报价与价格e n e 溢牙适配器报价产品库 蓝牙适配器报价与价格蓝牙适配器大全蓝牙适配器图片相关信息e b e n e t 产品库大全l 皂供e n e t 产品报价频道提供详细蓝牙适配器的产品参数查询蓝牙适配嚣报价咨诲服务 p r o d u c t e n e t c o m c r v p r i c e p l i s t 4 3 1 5 2 s h t m l 4 7 k 一旦幽一耋篁塑壅 第1 0 条结果+ 焉豢簇黧螺糯黏翼如赭包装,将叶燃噬嗍户肭 待的个适配允许通常因为接口不蒹容而不能在起工作的类工作在一起,做法 图2 - 2g o o g l e 搜索引擎搜索“适配器一结果 7 基于上下文的个性化信息检索技术研究 这个时候用户点击查看了第1 0 条结果,内容涉及的是程序语言设计中的适配器 模式。那么用户下一次,继续输入查询“适配器场景“,意图是想查询该设计 模式适合的场景,那么这个时候系统应该结合用户执行这个查询之前的同一个查 询会话周期内的信息,返回给用户相关的结果。而不是返回类似 ;g 删g 需熹磊;磊i 驴垂 g 譬嚣羹l 絮蒜骝慕梨卷蒙蘸黛蔫勰瑟船 z h i d a o b a i d u c o m ,q u e s f i o n 9 7 4 3 4 9 h t m l 1 9 k - 壁重熊堕一塑型星垩基 图2 - 3g o o g l e 搜索引擎搜索“适配器场景刀结果 其次,相对于长期用户信息来说,短期用户信息更容易收集和管理,不需要 设计很多策略去维护和更新用户描述。最后,短期用户信息来自同一个查询会话 中,和当前的查询比较一致,噪音相对较少。 但是短期用户信息的缺点也很明显。因为短期用户信息是一个查询会话中的 用户信息,因此信息量会比较少,难以反映出用户的一般性兴趣。而且要采用短 期用户信息的话,需要首先进行查询会话的边界检测【1 0 , 1 4 ,即检查相邻的查询是 否是属于同一个查询会话。 2 2 1 2 长期上下文个性化信息 长期用户信息可以包括所能收集到的所有用户信息,比如用户过去的所有网 络浏览记录【1 , 7 , 1 5 - 2 0 ,历史查询记录 3 , 1 6 , 2 1 。2 3 1 ,用户的显式反馈信息【2 4 刀】,用户客户 端行为【1 5 ,3 蛸l 】等。 长期用户信息的优点有很多。首先,使用长期用户信息时不需要进行查询会 话的边界检测,长期用户信息中所有与当前查询相关的信息都可以用来帮助澄清 用户当前的检索意图。其次,长期用户信息内容比较丰富,可以从多角度、多层 面来反映用户的个人背景和兴趣爱好。 8 第二章个性化信息检索相关技术 长期用户信息的缺点也很明显。首先,长期用户信息的收集与管理比短期用 户信息困难得多,长期用户信息存在大量噪声数据,需要系统有效地维护和更新 用户描述。其次,长期用户信息在面临用户的a dh o c 信息需求时往往会无能为 力。最后,与短期用户信息相比,并不是所有的长期用户信息对当前的查询都会 有帮助,只有那些跟当前查询相关的信息才是有用的,因此需要首先从大量内容 中找出这些相关信息。比如历史信息中的“适配器 对当前用户的查询“适配器 并没有帮助作用,反倒可能会因为这样的无关信息太多而将真正相关的信息淹 没。 表2 2 短期与长期上下文个性化信息对比 用户a dh o c 信息量 噪声问题边界检测 查询需求 短期上下文一个查询会话内 比较小可以反映不需要 用户个性化信息信息 长期上下文 长期信息 严重难以反映需要 用户个性化信息 2 2 2 个性化信息提取 用户个性化信息的上下文环境主要依赖于用户与信息检索系统的交互,如何 进行这样的交互呢? 现阶段主要可以分为三种主要的方式:用户主动提供,显示 相关反馈以及隐式相关反馈三种形式。 2 2 2 1 用户主动提供 让用户直接向系统描述其兴趣和检索意图是获得用户信息的最简单方式。用 户主动描述一般作为查询前处理方式,即:用户首先描述其兴趣,可以是一般性 的长期兴趣,也可以是当前的检索意图,然后这些信息与查询条件一起被提交给 检索系统。在使用这种方式时,一般要求用户通过选择兴趣类别或者提供相关资 源来表达其兴趣需求。有些个性化检索系统 2 8 , 3 2 】要求用户从给定的几个类别中 9 基于上下文的个性化信息检索技术研究 选择自己感兴趣的类别,通过这种方式可以把检索结果限制在特定的几个类别 中,从而实现检索结果的个性化。然而这种方式所获得的信息往往是一般性的信 息,难以精确描述用户当前的检索意图。还有些系统会要求用户提供一些相关资 源,比如用户感兴趣的网页链接、或者能够反映用户检索意图的文字等。o u t r i d e 【7 】是一个基于客户端的个性化检索系统,在开始使用该系统时,用户可以提供几 个相关链接,系统会自动抓取相应的网页,并将其分类到o d p 的概念层次中建 立用户描述。由于用户主动描述方式比较简单直接,因而也被一些商业系统所采 用。y ! q 是y a h o o 公司推出的一个个性化检索系统,它通过让用户显式地提供一 些词句、段落、文档来获得用户的兴趣。然而,通常使用“用户主动描述”的方 式只是实现了“定制”的系统,而不完全是“个性化”的系统。这些系统需要用 户主动去维护自己的用户描述,缺少自适应性。 n t e x t 二二二 匦囚 图2 - 4y a h o o 的y ! q ! 个性化检索系统 2 2 2 2 显式相关反馈 通过用户主动提供的 信息片段,作为初始 查询的信息 搜索引擎返回的结果主要依赖于用户的查询条件,然而很少有用户能够构造 出理想的查询条件,也就是说用户无法用几个简单的查询词来刻画自己的需要。 这不但与用户本身的词汇量有关,也和用户对问题的理解程度、对搜索引擎的熟 悉程度都有关系。但是经验告诉我们,如果把相关文档放在用户面前,用户能够 很容易地判断出这是否是他想要的,因此很自然地就产生了“相关反馈的想法。 相关反馈方法【4 l 是一种查询重构策略:在检索期间,用户提供初始查询条件,检 1 0 第二章个性化信息检索相关技术 索系统返回给用户一个有序文档集,用户对此文档集中的某些文档做出相关判 断,检索系统根据用户所做出的相关判断对初始查询条件进行修改,然后根据修 改后的查询条件重新进行检索,返回一个新的有序文档集,从而提高检索系统的 精度。相关反馈是查询后处理所最常采用的方法【3 1 ,已经被证明可以非常有效地 提高检索精度1 1 , 3 1 。 相关反馈依赖于用户对文档进行相关性评价,比如指出哪些文档含有相关信 息等。但是文献1 5 j 表明,用户往往不愿意花费额外的力气去提供这样的相关性评 价。而且用户也会考虑到自己的隐私问题,不乐意提供自己的个人信息。因此在 实际系统中,尤其是在网络检索系统中,显式反馈技术很少被实际采用【3 3 1 。 2 2 2 3 隐式相关反馈 尽管相关反馈技术已经被证明可以用来有效地提高检索系统的精度,但是由 于这种方式依赖于让用户对文档进行相关性评价,用户往往不愿意花费额外的力 气去提供这样的相关性评价。在这种情况下,作为相关反馈技术的一种替代品一 一隐式反馈技术应运而生了。隐式反馈,顾名思义就是以一种隐式的方式获得用 户的反馈信息,也就是通过观察用户的正常交互行为,自动推测用户的兴趣偏好, 不需要用户显式地做出相关性判断【l 副。 研究【6 】表明,隐式反馈虽然不如显式反馈精确,但在交互式环境中可以成为 显式反馈的有效替代。实际上,最近的研究【i 】表明如果充分利用客户端丰富的用 户行为作为隐式反馈信息,甚至能比利用显式反馈取得更好的效果。另外,隐式 反馈信息还具有大量存在、容易获取的优点。因此,隐式反馈信息成为个性化信 息检索的研究热点。k e l l y 的博士论文【3 4 】中对隐式反馈进行了系统的研究。许多 种隐式反馈信息,比如历史查询记录( s e a r c hh i s t o r y ) 、网络浏览记录( b r o w s i n g h i s t o r y ) 、用户客户端行为以及网络社区( w e bc o m m u n i t i e s ) 等,都在个性化信 息检索研究中受到了关注。 2 3 个性化结果表示 通常可以用两种办法来改进信息检索系统来增强用户体验【3 5 1 。一种就是前面 讲到的,通过分析和利用用户的个性化信息实现个性化检索,还有一种就是允许 基于t i 的个性化信息捡索技术研究 用户和系统之同进行复杂的交互。通常检索结果的输出形式都是一个排好顺序的 文档列表,因此用户在洲览完所有的检索结果之前,往往无法对检索结果有一个 整体认识。实际上,可以将检索结果以一种其它形式展示给用户,而不是像通常 的搜索引擎那样只提供一个按顺序排好的列表,比如可以利用聚娄技术将相似的 结果页面聚在一起,每个类赋予一个标签,这样用户可以快速地定位到他所感兴 趣的类别,而不需要去浏览许多检索结果。这样既增强了用户体验,也可以借此 主动获取更多的用户交互信息。著名的商业搜索引擎v i v i s i m o 就采用了这样的 方法。 i 肿,搜索。a d a p t e r ( 适配器) 给出的分 类信心 图2 - 5v i v i s i m o 商用搜索引擎对“a d a p t e r ”查询的结果显示 不过这些工作仍然是对| 司一个查询条件返回相同的结果,没有考虑到用户之 间的差别;但是,有一些相关工作中不但研究了结果表示,同时也考虑到用户的 不同需求而实现了个性化检索。元搜索引擎0 r 0 ”p d 弼不但能够对检索结果进行 聚类,还有相关反馈的功能,可以修改查询条件进行查询扩展。 目前大部分搜索引擎还提供一种叫做“相关搜索”或者“相关查询”的结果 第二章个性化信息检索相关技术 表示方式。所谓相关搜索,是指搜索引擎系统不但返回给用户该查询条件的检索 结果,同时还给出一个相关查询条件列表,从而帮助用户澄清检索需求。文献 3 7 , 3 8 3 9 1 对相关搜索进行了深入研究。目前这种技术已经比较成熟,为大多数搜 索引擎所采用,但是个性化的“相关搜索 研究尚未见报道。 图2 - 6g o o g l e 对“适配器“搜索结果的相关搜索显示 此外,为了增强用户体验,个性化检索系统的用户界面也需要注意几个问题。 首先,系统可以通过可视化界面让用户了解个性化都做了些什么,也可以提供友 好的方式允许用户对个性化的力度加以控制。其次,个性化带来了检索结果顺序 的不稳定性【2 引,即:由于用户描述的改变,原来用户能够检索到的文档,再使用 原来的查询条件进行检索时却找不到了。可以通过缓存的方式、或者允许用户对 其用户描述进行控制的方式来解决该类问题。 2 4 个性化信息检索结果评测 目前信息检索系统评测最常用的方法是c l e v e r d o n 4 0 】提出来的基于测试参考 集合的方法,它包括三个重要部分:测试文档集合,查询条件集合,查询条件集 合所对应的相关文档集合。相关文档集合通常是根据用户查询条件集合中的每一 个查询条件手工构建的。目前在信息检索领域比较著名的评测会议,像t r e c , n t c i r 和c l e f ,都是采用这种方式对信息检索系统进行评测的。 但是如果要测试个性化信息检索系统的性能,这样的标准测试集方法就不合 适了,因为这种方法没有考虑用户的个性化信息和查询的上下文。事实上,对个 性化检索系统进行性能评测目前还是一个具有挑战性的工作1 4 1 1 0 有些研究中通过 对用户查询日志的分析来对个性化检索系统的性能进行评价。不过大多数个性化 1 3 基于上下文的个性化信息检索技术研究 检索的评测是采用用户学习的方式【1 0 , 1 6 , 2 2 , 2 8 , 4 2 - 4 5 】,也就是通过让用户对系统进行 真实的体验对系统性能进行评价:每个参与者需要提交一定数量的查询任务;因 为通常需要与参照系统进行性能比较,因而不同系统返回的结果需要合并;最后 请用户对合并后的结果进行相关性判断。评测中所使用到的用户描述可以由用户 手工指定幽j ,但是大多都是从用户的历史信息中自动获取的。测试所需要的查询 任务可以是用户自定义的【4 2 1 ,或者是用户以前使用过的查询条件 2 3 , 4 3 , 4 4 ,如果个 性化检索系统只是利用了短期的用户信息,那还可以选择一些标准测试集中的查 询作为测试用的查询条件【1 0 ,4 5 1 。用户学习方式的最大优点就是可以让用户明确 地判断检索结果是否相关。但是,用户学习需要耗费大量的人力物力,并且没有 标准的数据集,实验可重复性比较差。 1 4 第三章基于短期上下文中的个性化检索算法研究 第三章基于短期上下文中的个性化检索算法研究 3 1 引言 随着网络的发展,互联网上存在大量不同类型的信息资源。搜索引擎作为网 络信息检索工具而被人们广泛使用,但是随着网络信息量的增加,面对用户个性 化的信息需求,传统搜索引擎日益显现其不足,具体表现在以下几个方面: 1 大部分搜索引擎是基于关键词匹配的,这种匹配完全是一种机械式的匹 配。它既不能区分关键词的同形异义,也不能联想到相关同义词,更不可能考虑 到关键词所处的特殊语言环境。因此,它不能有效地理解人们的查询请求。 2 用户在选择关键词或构造查询表达式表达其信息需求时往往面临一些困 难,对于许多无关信息,往往需要用户花大量时间浏览与选择。 3 传统搜索引擎基本上都是“一个搜索适用所有用户 ,对所有用户其检索 结果都是一样,不能根据不同的用户给出相应的建议,无法满足用户的个性化需 求。 基于隐式反馈的个性化信息检索是提高检索系统性能的有效技术之一【1 】【3 4 1 。 但是根据我们的了解,目前已有的相关研究中,尚有下列问题没有得到很好的解 决: 1 短期上下文用户个性化信息可以帮助系统实时更新用户描述,能够反映 用户的a dh o c 信息需求,这种信息需求也许只是用户的一时兴起,一旦得到满 足,就对这种信息再也没有兴趣了。然而,目前尚没有一个框架能够以统一的方 式来开发利用短期隐式反馈信息。 2 基于短期上下文的个性化信息检索评测,目前研究中评测标准不统一, 无法就一个算法的优劣程度给出有力的说明。 本章节首先抽象个性化检索的一般框架,并且给出个性化检索的形式化描 述。在此基础之上,本文采用了统计语言模型作为基本的文档模型,结合相关反 馈技术州,设计了基于短期上下文的个性化检索算法。该算法根据查询会话内查 询词历史,利用线性插值方法,对用户的当前查询模型进行更新,同时根据查询 过程中用户隐性反馈信息,采用改进了的隐性反馈算法对查询模型进行补充。最 1 5 基于上下文的个性化信息检索技术研究 后介绍基于标准评测语料集合t r e c 基础上,进行的短期上下文的个性化检索评 测,通过实验表明我们的短期上下文的个性化检索算法在查询精度上有了显著的 提高,同时在短期上下文环境中,对比了改进的隐性反馈算法与e m 算法的性能, 对结果进行了比较分析。 3 2 个性化检索的一般框架 传统搜索引擎返回的结果主要依赖于用户的查询条件,然而很少有用户能够 构造出理想的查询条件,也就是说用户无法用几个简单的查询词来刻画自己的需 要。这不但与用户本身的词汇量有关,也和用户对问题的理解程度、对搜索引擎 的熟悉程度都有关系。因此,个性化检索的目的就是根据用户的个性化信息对信 息检索系统进行用户需求确认,即一个完善信息系统查询需求的过程。这个过程 如图3 1 所示,可以概括如下:检索开始时,用户提供初始查询条件,检索系统 返回给用户一个有序文档集。用户对此文档集中的某些文档进行一个交互( 或者 与所有的文档都不交互) 。然后根据用户的个人特点和检索经验,对上一查询条 件进行修改从而重新进行检索,返回一个新的有序文档集,从而提高检索系统的 精度。 系统响应附 图3 - 1 个性化检索一般抽象过程 将以上过程进行形式化描述:用户的查询历史县= ( 4 ,r ) ) ( i _ l ,2 t - 1 ) , 其中4 表示用户查询会话周期内第t 次的动作,而羁表示系统针对4 给出的响 1 6 第三章基于短期上下文中的个性化检索算法研究 应。则该问题形式化描述:针对用户当前查询动作4 ,如何利用用户查询历史 q = ( 4 ,置) ,以及用户的一些个人特征信息比如用户的职业、年龄,甚至用 户曾经浏览过、收藏过的网页等等类似的用户个性化信息,如何得出系统最佳的 响应足。所以如果简单概括,其实个性化信息检索系统就是一个如何根据u ( 用 户) ,c ( 文档集) ,e( 查询历史) ,4 ( 当前查询动作) 做出一个合理的响 应决策冠的过程。 如果结合贝叶斯风险模型,我们可以定义系统对当前查询动作4 的可能响应 集合为r ( a ,) = r l , r 2 。屹 。假设用户的个性模型为u ,定义一个损耗函数评价每 一种响应可能的损耗即l ( 4 ,r m ,u ) 。利用贝叶斯模型,如果要得到最佳的系统 响应就必须使损耗函数降到最低。l ( 4 ,乙,u ) 中对于用户个性模型u 是必须进 行推断的,可以得出如下的一般个性化检索模型: 墨= a r g m i n ,e ,( 4 ) 三( 4 ,u ) p ( u1 月:,4 ,c ) d u ( 3 - 1 ) 根据【4 7 1 ,我们可以对这个一般个性化最小风险框架进行一定的近似 墨= a r g r n i n ,e ,( 4 ) l 三( 4 ,u ) 尸( u lq ,4 ,c ) d u a r g m i n 厂e ,( 4 ) 三( 4 ,u + ) 尸( u ig , ,4 ,c ) ( 3 - 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论