




免费预览已结束,剩余50页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本本 科科 毕毕 业业 论论 文文 基于隐性反馈的个性化检索基于隐性反馈的个性化检索 查询扩展研究查询扩展研究 Based on Implicit Feedback of Personalized Retrieval Research in Query Expansion 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 指导教师: 年年 月月 摘要摘要 近年来随着 Internet 的飞速发展,web 资源以指数级的速度增长,到 2004 年初,网页数量大约到达 80 亿,造成“信息过载”和“信息迷航” 。目前搜索 Web 资源的形式多种多样,使用最广泛的是搜索引擎,但是当前的搜索引擎信 息检索主要考虑的是通用性,没有体现个别用户的信息需求,个性化服务能有 效的满足个别用户的信息检索需求。 本文通过分析传统查询扩展方法,提出了基于隐性反馈的个性化查询扩展, 从而满足用户的个性需求。该方法首先收集用户的浏览历史,以此来挖掘用户 的浏览习惯,其次基于统计模型进行建模,构建个性化的搜索结果。论文的主 要内容包括以下方面: 研究传统的查询扩展机制,并对一些有代表性的工作进行了介绍和分析。 提出基于隐性反馈的个性化查询扩展,并实现一个具备用户信息收集和 反馈的 Firefox 插件。 基于 Lucene 检索框架搭建个性化搜索平台。 对于个性化搜索平台进行性能优化。 关键词关键词 个性化;查询扩展;隐性反馈 ABSTRACT With the fast development of Internet in recent years, Web resources increase at an explosive speed. By the beginning of 2004, the quantity of the webpage was up to 8 billion, which case “Information over loading” and “Information get lost”. At present the ways of using the resource on Web is various, the most popular is to use search engine, but the existing engines is for all users, which cant satisfy the users individual demands, Personalized information service system can satisfy the users individual demands effectively. After analyzing the method of traditional techniques query expansion, we describe a new technique of personalized query expansion based on Implicit Feedback, and then satisfy the users personalized demands. Firstly, we collected the users browse history and mine users habits. Secondly, we modeling based on statistics model, making the result of personalized query expansion. The paper mainly includes some researches as fallowing: Doing research about the mechanism of query expansion, introduce and analyze some of typically work. Proposed the personalized query expansion based on Implicit Feedback, implement an Firefox plug-in which can collecting users information of user and Feedback the information. Making a personalized search engine based on Lucene framework. Optimizing the personalized search engine. KEY WORDS: Personalization, Query Expansion, Implicit Feedback 目录目录 第第一章一章 绪论绪论1 1.1 研究背景.1 1.2 国内外研究现状.2 1.3 论文主要工作.3 1.4 论文组织结构.3 第二章第二章 信息检索与查询扩展机制综述信息检索与查询扩展机制综述.5 2.12.1 信息检索信息检索.5 2.1.1 信息检索概述.5 2.1.2 信息检索的概念.5 2.1.3 信息检索的过程.6 2.1.4 信息索引提高检索速度.7 2.1.5 信息检索的性能评价.7 2.22.2 查询扩展机制查询扩展机制.8 2.2.1 查询扩展概述.8 2.2.2 查询扩展的概念.8 2.2.3 查询扩展的国内外现状.8 全局分析.9 局部分析.10 局部上下文分析.10 基于用户日志的查询扩展.12 第三章第三章 FIREFOXFIREFOX 插件开发插件开发.15 3.13.1 浏览器的概念浏览器的概念.15 3.23.2 浏览器的历史浏览器的历史.15 3.33.3 F FIREFOXIREFOX的优势的优势 17 3.43.4 F FIREFOXIREFOX常用插件常用插件 18 3.53.5 F FIREFOXIREFOX插件开发插件开发 19 第四章第四章 个性化搜索平台个性化搜索平台.26 4.14.1 搜索引擎的概念搜索引擎的概念.26 4.24.2 搜索引擎的历史搜索引擎的历史.26 4.34.3 个性化搜索平台个性化搜索平台.28 第五章第五章 项目性能优化项目性能优化.32 5.15.1 仿仿 G GOOGLEOOGLES SUGGESTUGGEST功能性能优化功能性能优化 .32 5.1.1 模糊查询测试.32 5.1.2 实际的仿 GoogleSugget 应用.36 5.25.2 LUCENELUCENE搜索的性能优化搜索的性能优化 36 5.2.1 数据源优化.36 5.2.1 搜索速度优化.39 第六章第六章 结论结论43 致谢致谢44 参考文献参考文献.45 Contents Chapter 1 Introduction.1 1.1 Background1 1.2 Research Status.2 1.3 Main Tasks of Thesis 3 1.4 Organizational Structure of Thesis.3 Chapter 2 Overview of Information Retrieval and Query Expansion5 2.12.1 Information Retrieval.5 2.1.1 Summary of Information Retrieval.5 2.1.2 Concept of Information Retrieval .5 2.1.3 Process of Information Retrieval 6 2.1.4 Increasing Speed of Information Retrieval.7 2.1.5 Performance Evaluation of Information Retrieval7 2.22.2 Query Expansion.8 2.2.1 Summary of Query Expansion8 2.2.2 Concept of Query Expansion8 2.2.3 Research Status in Query Expansion 8 Global Analysis.9 Local Analysis.10 Local Analysis in Context.10 Based on User Log of Query Expansion.12 Chapter 3 Firefox Plug-in Development.15 3.13.1 Concept of Browser.15 3.23.2 History of Browser15 3.33.3 Advantage of Firefox 17 3.43.4 Userful Plug-in of Firefox.18 3.53.5 Plug-in Developmentof Firefox19 Chapter 4 Personalized Search Platform.26 4.14.1 Concept of Searchengine26 4.24.2 History of Searchengine26 4.34.3 History of Personalized Search28 Chapter 5 Performance Optimization.32 5.15.1 Performance Optimization in the Function of GoogleSuggest .32 5.1.1 Testing of Fuzzy Query.32 5.1.2 Function of GoogleSugget Application 36 5.25.2 Performance Optimization in Lucene Search 36 5.2.1 Datasource Optimization.36 5.2.1 Search Speed Optimization.39 Chapter 6 Conclusion43 Acknowledgement.44 References45 基于隐性反馈的个性化检索查询扩展研究 1 第一章第一章 绪论绪论 随着互联网技术的飞速发展,信息呈爆炸式的增长。一方面,互联网提供 着相对自由的平台;另一方面,快速、无序的信息对于用户来说却意味着杂乱 无章。寻找资料已不如过去来的简单,如何从海量信息中找出符合用户需求的 信息成为迫切需要解决的问题,于是个性化服务技术和信息检索技术引起了众 多学者的研究。 1.11.1 研究背景研究背景 搜索引擎(Search Engine)是随着 Web 信息的迅速膨胀而发展起来的网上 信息检索工具。如何高效合理地利用网络信息?搜索引擎正是为了解决这些问 题而出现的技术。虽然在一般情况下搜索引擎买足了用户的需求,但是在用户 的真实信息需求和系统理解的查询需求之间仍然存在一定的偏差。这些偏差导 致搜索引擎所表现的数据不稳定、冗余度大等特性,导致用户查询的精度非常 低,如何解决这样的问题成为信息检索领域中的一个十分重要的研究课题。 针对不同需求的用户,提供不同的输入方式是目前现有系统所缺少的。在 返回的系统响应上,传统的搜索引擎是以排序的结果文档集合分页显示的方式 进行结果反馈的,这样的显示方式一定程度上也限制了用户与检索系统的交互。 因此用户对检索系统的使用上无法进行个性化的操作,导致了系统对用户的查 询意图理解模糊而只能采取统一的方式进行结果反馈。 个性化信息检索技术就是针对以上问题提出的。个性化信息检索通过收集 和分析用户的个人信息和查询的上下文,而不是仅仅依靠检索词来判断用户的 真实需求,因而能够根据用户的不同需求而返回个性化的检索结果以提高检索 精度。 相关反馈(Relevance Feedback)技术是通过查询后处理来实现检索个性 化最常采用的方法。相关反馈的提出是基于这样的经验:很少有用户能够构造 出理想的查询词,也就是说用户无法用几个简单的查询词来描述自己的需要, 但是如果系统把文档呈现给用户,显然用户是有能力判断其相关性的。相关反 馈技术已经被证明可以有效地提高检索精度。但是,相关反馈依赖于用户来对 基于隐性反馈的个性化检索查询扩展研究 2 文档进行相关性评价,比如明确指出哪些文档含有相关信息等,根据文献的研 究表明,用户往往不愿意花费时间精力来进行这样的相关性判定。 隐式反馈(Implicit Feedback)是以一种隐式的(用户几乎察觉不到的) 方式获得用户的反馈信息,也就是通过用户与系统的正常交互行为来推测用户 的兴趣偏好,不需要用户额外花力气去做相关性评价。研究表明,隐式反馈技 术虽然不如显式反馈精确,但在交互式环境中可以成为显式反馈的有效替代。 实际上,最近的研究表明如果充分利用客户端丰富的用户行为作为隐式反馈信 息,甚至能比利用显式反馈取得更好的效果。 因此,基于隐形反馈的用户个性化查询服务受到研究者的广泛关注,研究 者们近期提出了许多有效的算法和思路。 1.21.2 国内外研究现状国内外研究现状 早在 20 世纪 70 年代,国外已有这方面的技术研究。研究比较多的是查询 扩展优化(Query Expansion,QE) ,即在远查询的基础上加入于用户用词相关 的词或词组,组成更为精确的新的查询词,这在一定程度上弥补了用户查询表 达与候选结果之间的差别,尽可能以较小的遗漏检索出候选的结果。 1960 年,Maron 和 Kuhns 提出了用高度相关的词语来扩展用户查询。1965 年,Rocchio 研究了在向量空间模型中把查询扩展和词语重新加权相结合的技 术1。Ide 集成了 Rocchio 的研究,并提出了词语重新加权公式的变形2。 1976 年,Robertson 和 Spark Jones 提出了概率模型3。Croft 和 Harper 提出了初始查询应当使用不同的权值计算方式。1983 年,Croft 提出了将概率 公式扩展到包含内文档概率,并引入了参数 C 和 K4。 1978 年,Harper 和 Van Rijsbergen 使用基于最大生成树的词语词语 聚类技术来选择词语进行概率查询扩展5。两年后,他们又提出了一种新的相 关加权方案EMIM,用于查询扩展技术。 目前流行的查询优化技术主要有相关反馈(relevance feedback) 、伪相关 反馈(pseudo feedback) 。相关反馈机制由用户对检索出的文档进行相关性判 定,系统根据这些判定生成新的查询,从而提高最终结果的准确率。伪相关反 馈不需要与用户互交,它将初次查询的前 N 篇文档自动认为是相关文档,以此 基于隐性反馈的个性化检索查询扩展研究 3 依据对查询进行扩展。相关反馈技术是信息检索中的查询优化的一个非常重要 的机制,它通过增加或减少检索到的关键词的权重来修正查询的目的,从而提 高检索效果。 1.31.3 论文主要工作论文主要工作 本文对目前的查询扩展机制进行了较为全面、深入的综述,同时在王威的 基于隐形反馈的用户个性化查询服务的基础上,单独实现一个独立于系统外的 查询扩展的 Firefox 插件。通过对算法在 TREC AP88-90 语料集下模拟的用户短 期查询行为数据下进行全面的评测对比分析,结果另人满意。同时根据统计语 言模型的特点,我们可以推断该方法在中文语料的环境下也将取得不错的效果。 论文的主要工作总结如下: 1)对目前的信息检索与查询扩展机制进行全面、深入的综述。通过学习和研究 常用查询扩展技术,我们对于个性化信息检索有一个全面的了解。 2)在王威的基于隐形反馈的用户个性化查询服务的基础上,单独实现一个独立 于系统外的查询扩展的 Firefox 插件。此插件包括用户的行为收集和用户的行 为反馈两个主要部分。 3)搭建一个简易的个性化搜索平台,实现对文本数据源的索引和搜索。本系统 基于 Lucene,综合 Struts2 和 Spring,采用四层架构,并且使得层与层之间松 耦合高内聚,实现可更换数据源。前台使用 DIV + CSS,加上仿 GoogleSuggest 的查询提示功能,创建人性化的用户界面。 4)通过搭建一个简易的个性化搜索平台分析 Lucene 这个项目的优缺点,并提 出相应的解决办法,并通过优化提高 Lucene 的性能。 1.41.4 论文组织结构论文组织结构 第一章 绪论,分析了本文的研究背景和国内外研究现状,归纳本文的主要研究 工作并介绍论文的组织结构。 基于隐性反馈的个性化检索查询扩展研究 4 第二章 对目前的信息检索与查询扩展机制进行全面、深入的综述。对目前的查 询扩展机制进行了分类和探讨,并对一些有代表性的工作进行了介绍和分析。 第三章 在王威的基于隐形反馈的用户个性化查询服务的基础上,单独实现一个 独立于系统外的查询扩展的 Firefox 插件。 第四章 搭建一个简易的个性化搜索平台,实现对文本数据源的索引和搜索。 第五章 通过搭建一个简易的个性化搜索平台分析 Lucene 这个项目的优缺点, 并提出相应的解决办法,并通过优化改善个性化搜索平台的性能。 第六章 对于毕业设计的总结。 基于隐性反馈的个性化检索查询扩展研究 5 基于隐性反馈的个性化检索查询扩展研究 6 第二章第二章 信息检索与查询扩展机制综述信息检索与查询扩展机制综述 Web 信息检索发展迅速,搜索引擎作为 Web 信息检索的入口,它的出现改变 了用户使用互联网的习惯,使用户在互联网上方便地寻找信息。仿佛一夜间, 各种各样的搜索服务席卷而来。从最初的 Google、Yahoo 到现今的 Baidu、MSN、中搜、Sogou 等,搜索引擎的品牌越来越多,服务也越来越丰富。 本章主要是对信息检索与查询扩展机制的综述,对一些相关概念和研究现 状 进行分析。 2.12.1 信息检索信息检索 .1 信息检索概述信息检索概述 信息检索从 19 世纪下半叶开始发展,他起源于图书馆的参考咨询和文摘索 引工作。随着计算机和网络的出现,大量的信息可以共享,这使得用户可以方 便、迅速地接触到各种信息。另一方面,用户如何在大量信息中找到所需的信 息却是一个难题。在这种背景下,将计算机技术、网络技术与信息技术相结合 而成的现代信息检索技术已成为计算机科学的一门热门学科。 .2 信息检索的概念信息检索的概念 信息检索(IR, Information Retrieval) ,通常指文本信息检索,包括信 息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和 检索。信息的表示和组织是为了让用户更容易的访问信息,但是如何表达用户 的信息需求是个比较复杂的问题,用户必须将自己的需求用信息检索系统的查 询语言表示出来。 信息检索关心的是如何让用户获取其感兴趣的信息。信息检索的定义为: 信息检索可以称为一个过程或是一个方法,即将用户对信息的需求转化为一系 列的文档,这些文档中包含了对用户有用的信息。 基于隐性反馈的个性化检索查询扩展研究 7 信息检索首先需要一个包含相当数量的文档集,而我们关心的是一种良好 的检索技术。文档集中的文档可能有多种形式,而且信息检索已经不仅仅局限 于网友和文档的检索,其范围已经扩大到图像、音频、视频等。 .3 信息检索的过程信息检索的过程 1)构造文本数据库。构造文本数据库步骤如下: 确定要使用的文档 确定要对这些文本所做的操作 确定文本的模型 确定文本所采用的数据结构 2)建立文档的索引。利用文档的索引可以大大提高信息检索的速度。目前有多 种建立文档索引的方法,但是对于大规模的文档信息库来说,用得最多的是倒 排索引。 3)对索引进行检索。用户给出一个查询,该查询将被分析,然后利用文本操作 进行处理。查询扩展在真正处理之前还可以预先进行一些处理,最后根据用户 的查询获取一些文档。 4)在获取对应文档后,对他们按照一定排序后返回给用户。用户可以检查哪些 搜索结果,然后显式或隐式地对这些结果进行评价,这些信息将被反馈到下一 次的查询。 基于隐性反馈的个性化检索查询扩展研究 8 图图 2-12-1: 信息检索的一般过程信息检索的一般过程 .4 信息索引提高检索速度信息索引提高检索速度 我们需要一种方法对文档进行预处理,在文档间建立一种便于检索的数据 结构,以此来提高信息检索的速度。这种数据结构就是索引。当信息检索系统 所要处理的文档数量巨大时,建立索引能够显著提高信息检索的速度。不过信 息检索系统不支持快速的信息更改。因为这涉及到数据内容的变更需要对整个 数据结构中的关系链进行维护。但大多数信息检索系统中的文档数据都相对稳 定,小的变更与整个系统的数据量相比,可以忽略不计。 .5 信息检索的性能评价信息检索的性能评价 信息检索系统是为了向用户提供信息而产生的,但是由于用户查询请求具 有模糊性和不准确性,信息检索出的文档往往不一定是用户想要的结果,因此 需要将检索结果按结果集中的文档与查询之间的相关程度进行排序,通常排在 最前面的文档就是最符合用户需求的结果,因此信息检索系统需要对检索结果 的准确程度进行评价,这种评价一般是建立在某个测试集的基础上。测试集应 当包括一个文档库,一组用户查询以及由专家指定的对应于每个查询的一组相 关文档。 基于隐性反馈的个性化检索查询扩展研究 9 目前信息检索系统的评价主要是用户对所获取的结果进行评价。比如,是 否喜欢系统,系统界面是否友好,是否能够找到用户所需的信息。 以下是评价信息检索系统的 5 个指标: 1)信息是否完全:指该系统是否能够尽可能地包括所属领域内的信息。一个系 统设计得再好,如果信息量非常少,那么,用户选择它的机会也相当小。 2)信息检索的相应时间:这一点无需多言,倘若用户每次查询都需要等待几分 钟甚至几十分钟,那么一定没有人会使用这样的系统。事实上信息检索系统响 应的时间长短,直接反映出信息检索系统设计的优劣。 3)召回率:它指的是检索出的文档和整个文档库当中所有相关文档的比值。这 个比值用来评价信息检索系统中有用文档的分量,也就是系统是否能够查全所 有文档。 4)精度:通俗地说就是查找的准不准。一个精度很差的搜索引擎肯定没有市场。 5)自然程度:指用户在检索时,是否可以用更为自然的方式表达他们的检索请 求。一个好的检索系统,应当可以让用户以更为直接和自然的方式来表示它们 的请求,带给用户更好的搜索体验。 2.22.2 查询扩展机制查询扩展机制 .1 查询扩展概述查询扩展概述 传统搜索引擎在进行 Web 信息检索方面存在很大不足,已经不能为用户提 供满意的搜索结果查询扩展作为解决短查询和词的匹配问题的一种解决方案, 引起了国内外很多学者的关注,并且提出了许多可行性的研究方法。 .2 查询扩展的概念查询扩展的概念 查询扩展是指利用计算机语言学、信息学等多种技术,把与初始查询相关 的词或者与初始查询语义相关联的概念以逻辑“或”的方式添加到初始查询中, 等到比初始查询更长的新查询,然后再次检索文档,以改善信息检索的查全率 和查准率,从而解决信息检索领域长期困扰用户的“词不匹配”问题,弥补用 基于隐性反馈的个性化检索查询扩展研究 10 户查询信息不足的缺陷。 查询扩展的核心问题是如何设计和利用扩展词的来源,目前扩展词的来源 主要有以下三种: 1)来自初次检索中认为相关的文档。 2)利用某种技术如聚类技术、文本挖掘技术等从文档集或查询日志中找出与初 始查询相关的词作为扩展词。 3)来自某种包含词与词之间的相关信息的资源,这种资源可以是人工生成的, 也可以是利用大规模语料通过统计的方法自动生成的。其中两个人工生成资源 的例子为 WordNet 和 HowNet。 .3 查询扩展的国内外现状查询扩展的国内外现状 目前,关于查询扩展的研究热点大体上有全局分析、局部分析、局部上下 文分析以及基于用户日志的查询扩展等。 全局分析全局分析 全局分析对全部文档中的词组进行相关分析,计算每对词或词组间的关联 程度。当一个新的查询到来时则根据预先计算的词间相关关系,将与查询用词 关联程度最高的词及词组加入原查询以生成新的查询。主要的技术有聚类算法、 潜在语义索引(LSI) 、相似性词典等。 词的聚类算法是由 Sparck Jones 提出的比较早的一种算法,它根据词的共 现来对词进行聚类,并用聚类对查询进行扩展。其前提是假设如果文档集中的 两个词是相关的,那么它们在集合中共现的概率就打。缺点是它不能处理词的 歧义性,即如果一个查询有多个意义,词的聚类算法会把词分配到不同的聚类 中,从而使查询的结果更含糊,导致查询的性能下降。 潜在语义索引采用降维技术,他假设高维空间中关联词能够使用低维空间 相应的表示。潜在语义索引使用了矩阵理论中著名的技术:奇异值分解 (Singular value decomposition,SVD) 。即给定 T 个词和 D 个文档的词频矩 阵 T * D,SVD 方法删除一些行和列,是矩阵减少为 K*K,对于大量的文章,K 一般取值为几百。为了使信息丢失最小化,只忽略矩阵中意义最小的部分。通 基于隐性反馈的个性化检索查询扩展研究 11 过奇异值分解和多维索引变换后的文档可用于比较两文档的相似度或找出与查 询最匹配的前面 N 个结果。该方法的缺点是该技术没有比标准的矢量空间检索 系统提供更好的效果,对低维空间的选择仍然是比较困难的问题。 相似性词典是为了处理词的歧义问题,采用将查询作为一个概念来处理, 由于多个查询词同时共现的歧义消除效果比仅仅考虑用单个查询词的共现更好, 因此扩展词的选择是通过考虑与所有的查询词的共现来计算获得的,如目前的 Phrasefinder 技术。Phrasefinder 技术把一个概念 C(C 通常是一个名词短语) 用一个元组集,.表示。其中 ti 表示与概念 C 共现 的单词,ai 表示 ti 与 C 共同出现的频率,元组集称为概念 C 的伪文档。给定 一个查询 Q,计算伪文档与查询 Q 之间的相关度,并对结果进行排序,取得到 最高分数的概念来进行查询扩展。该方法的缺点是要计算出每一对词的共现率 来产生概念,生成伪文档,计算的要求比较高,导致查询效率也会有所下降。 局部分析局部分析 局部分析利用两次查询的方法解决查询扩展问题。局部分析利用初次检索 得到的与原查询最相关的 N 篇文章作为扩展用词的来源,而并非利用先前计算 得到的全局词关系词典。局部分析主要技术有局部聚类、相关反馈和局部反馈 等,相对于全局分析,局部分析的计算量比较小。 局部聚类最早是由 Atter 和 Fraenkel 在 1977 年提出来的,其技术是依据 全局的聚类方法,首先初始化查询 Q,得到检索结果 D;对 D 中的词进行聚类分 析,使用聚类中的词进行查询扩展,再进行第二次检索。由于其分析的文档数 相对较少,从而有效提高了检索速度。 相关反馈是根据用户对初次检索的结果进行评估后,将用户认为相关的文 章作为扩展用词的来源,并对初始化的查询进行扩展,并根据词频重新计算扩 展了的查询词的权重,其中最相关的文档是响应用户初始化查询的检索结果的 文档集合,该方法的缺点是要求用户的参与。 局部反馈,它是在相关反馈的基础上发展起来的。局部反馈解决了相关反 馈必须与用户交互的问题,它假设初次查询的前 N 篇文章认为是相关文章,并 以此为依据对查询进行扩展。局部反馈方法的缺点是当初次查询后排在前面的 基于隐性反馈的个性化检索查询扩展研究 12 文档与原查询相关度不大时,局部反馈会把大量无关的词加入查询,从而严重 降低查询精度,甚至低于不做查询扩展优化的情形。 局部上下文分析局部上下文分析 局部上下文分析(LCA,Local Context Analysis)实际上是利用全局分析中 的 Phrasefinder 技术和局部分析中的局部反馈技术。利用 Phrasefinder 技术, 结合局部反馈方法中仅仅考察最相关的 N 篇文档的共现率,从而减少计算量。 实践表明仅仅分析最相关的文档,不仅使 Phxasefinder 更加有效,而且效率更 高。另一方面,局部反馈的缺点是如果最相关的 N 篇文档不相关时,检索结果 比查询扩展之前更差。而结合 Phrasefinder 共现思想后,可以过滤不相关的文 档。局部上下文分析假设最相关的文档通常形成几个聚类簇,其中每个簇与一 个特定的主题相关,与查询最相关的文档通常在一个簇中。除了满足查询的最 相关的文档簇之外,还存在一些不相关的文档簇,这种现象可以通过主体重叠 解释。如果两个主题是关于不同的信息需要,对应于不同的文档集,当主体之 间有部分共同的词汇存在,这种现象叫做主体重叠。聚类现象隐含着从局部反 馈得到的扩展词汇主要来自最大的簇中。即若最大的簇是主题重叠,则局部反 馈将失败。因此,一个成功的查询扩展不依赖于最相关文档的数量,而是依赖 于最相关的簇是否是最相关文档集中最大的簇。局部反馈的另一种假设是不相 关的簇往往缺少一些查询关键词,相关的簇几乎包含全部的查询关键词。局部 上下文分析的假设是把与所有的查询关键词共现的词汇作为查询扩展词。即把 Phrasefinder 技术用于最相关的文档,就能取得更好的查询扩展的效果。 令初始化查询为 Q,(Q 由关键词 w1, w2, wm 组成);被检索的文档集为 C, 其中排在最前面的与查询 Q 有关的 n 篇文档为 S = p1,p2,pn。LCA 一般 选择与尽可能多的初始查询关键词最相关的词作为扩展词,具体的说,LCA 将 构造一个函数 f(c,Q)来衡量概念。与查询 Q 中每个关键词 wi 之间的相关性, 最后选择与查询最相关的概念作为查询扩展词。 假设前 n 篇文档中,优秀的查询扩展词一般与所有的初始查询关键词都具 有很大的相关性。令 N 为文档集合 c 中的文档的数量,Nc 为包含概念 c 的文档 数量,co(c,wi)为 S 中概念。与关键词 wi 之间共现的次数。LCA 用 基于隐性反馈的个性化检索查询扩展研究 13 co_degree(c,wi)表示概念。与关键词 wi 之间的相关度: _deg( ,) log( ,) 1)( )/log( ) 1010 coree c wco c widf cn ii (公式(公式 2-12-1)( ,)( , ) (, )co c wtf c p tf w p p in s i i ( ) min(1.0,log(/)/5.0) 10 idf cN Nc 其中 tf(c,P)与 tf(wi,P)分别表示概念 c 与关键词 wi 在文档 p 中出现的次数。 为了计算概念 c 与查询 Q 之间的相关度,只需计算概念 c 中关键词与每个关键 词 wi 的联合乘积。但是,如果一个概念 c 与 m - 1 个查询关键词都有很大的相 关度,仅仅与一个查询关键词的相关度为 0,结果造成概念 c 与查询 Q 之间的 相关度为 0。为了防止这样的情况发生,引入一个很小的常数,可以得到如 下的相关度函数: (公式(公式 2-12-1) ( , )(_deg( ,)g c Qcoree c wi w in Q i 在公式中起到对 g 进行平滑的作用,通常的值越大,概念 c 与所有关键词 wl,w2,wn,的同现率对 g(c,Q)值得影响越大;的值越小,概念 c 与关键 词 wi 个体的相关度对 g(c,Q)的大小影响越大。另外,由于初始查询中每个关 键词也不是同等重要的,为了在公式中体现关键词的重要程度,引入 idf 得到 如下结果: (公式(公式 2-32-3) () ( , )(_deg( ,) in idf wi c Qcoree c wi wQ i 局部上下文分析方法是由 Xu 和 Croft 提出来的,他在整体上是一种局部分 析方法,但利用全局分析的词汇间共同出现频率的思想避免了向原查询加入不 相关的词的问题。局部上下文分析的方法被用于 INQUERY 系统中,并在 TREC 标 基于隐性反馈的个性化检索查询扩展研究 14 准测试集上取得了良好的效果,实验表明,该方法的检索结果明显优于传统的 全局分析和局部分析方法。 基于用户日志的查询扩展基于用户日志的查询扩展 前面提到的三种查询扩展方法仅考虑将新的用户查询映射到文档集中,从 文档中选择与其相近的词,而基于用户日志的查询扩展方法考虑的是整个用户 的查询日志。用户查询日志是众多用户使用检索系统时多次反馈结果的积累, 对它的分析相当于使用大量用户的相关反馈。相对于传统的及时相关反馈而言, 对日志记录的分析更具有普遍性和统计意义。 基于用户日志的查询扩展统计模型的基本思想是,在用户查询记录的基础 上建立用户查询空间,在文档集上建立文档空间,根据用户日志将两个空间中 的关键词按照用户提交某个查询所点击的文章,以条件概率方式连接起来。当 新查询到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大 的文档用词加入查询。该算法介于全局分析和局部分析之间,当使用整个文档 集作为分析对象时,该算法类似于全局分析,但同时引入了用户查询空间的关 键词作为关联关系的一部分。也可以采用寻找与原查询高度相关的文章作为扩 展用词的来源,但其相关依据并不依赖于初始检索结果,也不需要用户给出及 时反馈来判断,而是建立在对大量用户长期行为的分析和学习基础上,得出具 有普遍意义的相关度量,称为“用户投票”的学习方法。显然,该方法从大量 日志中得到的先验知识,远比个别用户临时判断或系统在毫无人为参与的情况 下得到的结果更为准确,并且将关于用户反馈的学习放在检索之前,省去了初 始检索和用户参与的代价。 1)1)显式相关反馈显式相关反馈 搜索引擎返回的结果主要依赖于用户的查询条件,然而很少有用户能够构 造出理想的查询条件,也就是说用户无法用几个简单的查询词来刻画自己的需 要。这不但与用户本身的词汇量有关,也和用户对问题的理解程度、对搜索引 擎的熟悉程度都有关系。但是经验告诉我们,如果把相关文档放在用户面前, 用户能够很容易地判断出这是否是他想要的,因此很自然地就产生了“相关反 基于隐性反馈的个性化检索查询扩展研究 15 馈”的想法。相关反馈方法1是一种查询重构策略:在检索期间,用户提供初 始查询条件,检索系统返回给用户一个有序文档集,用户对此文档集中的某些 文档做出相关判断,检索系统根据 用户所做出的相关判断对初始查询条件进行修改,然后根据修改后的查询 条件重新进行检索,返回一个新的有序文档集,从而提高检索系统的精度。相 关反馈是查询后处理所最常采用的方法6,已经被证明可以非常有效地提高检 索精度7。 相关反馈依赖于用户对文档进行相关性评价,比如指出哪些文档含有相关 信息等。但是文献8表明,用户往往不愿意花费额外的力气去提供这样的相关 性评价。而且用户也会考虑到自己的隐私问题,不乐意提供自己的个人信息。 因此在实际系统中,尤其是在网络检索系统中,显式反馈技术很少被实际采用。 2)2)隐式相关反馈隐式相关反馈 尽管相关反馈技术已经被证明可以用来有效地提高检索系统的精度,但是 由于这种方式依赖于让用户对文档进行相关性评价,用户往往不愿意花费额外 的力气去提供这样的相关性评价。在这种情况下,作为相关反馈技术的一种替 代品隐式反馈技术应运而生了。隐式反馈,顾名思义就是以一种隐式的方 式获得用户的反馈信息,也就是通过观察用户的正常交互行为,自动推测用户 的兴趣偏好,不需要用户显式地做出相关性判断9。 研究10表明,隐式反馈虽然不如显式反馈精确,但在交互式环境中可以成为显 式反馈的有效替代。实际上,最近的研究11表明如果充分利用客户端丰富的用 户行为作为隐式反馈信息,甚至能比利用显式反馈取得更好的效果。另外,隐 式反馈信息还具有大量存在、容易获取的优点。因此,隐式反馈信息成为个性 化信息检索的研究热点。Kelly 的在博士论文12中对隐式反馈进行了系统的研 究。许多种隐式反馈信息,比如历史查询记录(Search History) 、网络浏览记 录(Browsing History) 、用户客户端行为以及网络社区(Web Communities) 等,都在个性化信息检索研究中受到了关注。 基于隐性反馈的个性化检索查询扩展研究 16 除了以上方法外,近两年来又有许多学者开始着手一些新方法的研究,其 中最受关注的是基于概念的查询扩展研究,这些方法根据词之间的同义词,相 关联词之间的关系,构建知识库,然后用知识库中关于同一概念的词进行扩展。 在基于概念的查询扩展方法中,系统把初始查询关键词看作是一系列的概念, 而不仅仅是一连串的字符串。因此,即使用户所需要的相关文档不包含初始查 询关键词,也能够被检索出来,从而提高了查全率。 基于隐性反馈的个性化检索查询扩展研究 17 第三章第三章 Firefox 插件开发插件开发 万维网(WEB,WWW)是一种把所有 Internet 的信息(包括你愿意加进去的 本地信息)组织成超文本文件形式文件的企图。 尽管这个梦也许有点不太现实, 但是全球网确实让你能访问 Internet 的所有资源,只需用浏览器“读“适当的 文件就行。 3.13.1 浏览器的概念浏览器的概念 浏览器是指可以显示网页服务器或者文件系统的 HTML 文件内容,并让用户 与这些文件交互的一种软件。网页浏览器主要通过 HTTP 协议与网页服务器交互 并获取网页,这些网页由 URL 指定,文件格式通常为 HTML,并由 MIME 在 HTTP 协议中指明。一个网页中可以包括多个文档,每个文档都是分别从服务器获取 的。大部分的浏览器本身支持除了 HTML 之外的广泛的格式,例如 JPEG、PNG、GIF 等图像格式,并且能够扩展支持众多的插件(plug-ins) 。 另 外,许多浏览器还支持其他的 URL 类型及其相应的协议,如 FTP、Gopher、HTTPS(HTTP 协议的加密版本) 。HTTP 内容类型和 URL 协议 规范 允许网页设计者在网页中嵌入图像、动画、视频、声音、流媒体等。 3.23.2 浏览器的历史浏览器的历史 姆伯纳斯-李(Tim Berners-Lee)是第一个使用超文本来分享资讯的 人13。他于 1990 年发明了首个网页浏览器 World Wide Web。在 1991 年 3 月, 他把这发明介绍给了给他在 CERN 工作的朋友。从那时起,浏览器的发展就和网 络的发展联系在了一起。 当时,网页浏览器被视为能够处理 CERN 庞大电话簿的实用工具。在与用户 互动的前提下,网页浏览器根据 gopher 和 telnet 协议,允许所有用户能轻易 地浏览别人所编写的网站。可是,其后加插图像进浏览器的举动使之成为了互 联网的“杀手级应用” 。 NCSA Mosaic 使互联网得以迅速发展。它最初是一个只在 Unix 运行的图像 基于隐性反馈的个性化检索查询扩展研究 18 浏览器;很快便发展到在 Apple Macintosh 和 Microsoft Windows 亦能运行。 1993 年 9 月发表了 1.0 版本。NCSA 中 Mosaic 项目的负责人 Marc Andreesen 辞 职并建立了网景通讯公司。 网景公司在 1994 年 10 月发布了他们的旗舰产品网景导航者。但第二年 Netscape 的优势就被削弱了。错失了互联网浪潮的微软在这个时候匆促的购入 了 Spyglass 公司的技术,改成 Internet Explorer,掀起了软件巨头微软和网 景之间的浏览器大战。这同时加快了万维网发展。 这场战争把网络带到了千百万普通电脑用户面前,但同时显露了互联网商 业化如何妨碍统一标准的制定。微软和网景都在他们的产品中加入了许多互不 兼容的 HTML 扩展代码,试图以这些特点来取胜。1998 年,网景公司承认其市 场占有率已无法挽回,这场战争便随之而结束。微软能取胜的其中一个因素是 它把浏览器与其操作系统一并出售(OEM,原始设备制造) ;这亦使它面对反垄 断诉讼。2001 年, 捆绑在 WinXP 中的 IE6 市场占有率一度达到 90%以上. 网景公司以开放源代码迎战,创造了 Mozilla,但此举未能挽回 Netscape 的市场占有率。在 1998 年底美国在线收购了网景公司。在发展初期,Mozilla 计划为著吸引开发者而挣扎;但至 2002 年,它已发展成一个稳定而强大的互联 网套件。Mozilla 1.0 的出现被视为其里程碑。同年,衍生出 Phoenix(后改名 Firebird,最后又改为 Firefox) 。Firefox 1.0 于 2004 年发表。及至 2007 年, Firefox 市场占有率约占 17%。 Opera 是一个灵巧的浏览器。它发布于 1996 年。目前它在手持电脑上十分 流行。它在个人电脑网络浏览器市场上的占有率则稍微较小。 Chrome 是 Google 发展的一款浏览器,其目的是为了打破 Internet Explorer 的垄断,目前刚刚推出市场,但已有不俗表现。 HotBrowser 是 MAGICMASTER 在云计算时代出品的一款云安全浏览器,它也 时常 被作为平台应用于高端计算机和手持电脑领域。MAGICMASTER 在内测版本 时期由于商标问题将正在研发的浏览器更名为“HotBrowser” 。目前尚未有中文 版本的 HotBrowser,在对于中国来讲是个不平凡的 2008 年的最后一天,首次 提出进军繁体/简体中文市场。HotBrowser 目前并 没有官方正式的中文名字, 通常被爱好者们译为“浩势”或“云安全” 。 基于隐性反馈的个性化检索查询扩展研究 19 Lynx 浏览器仍然是 Linux 市场上十分流行的浏览器。它是全文字模式的浏 览器,视觉上并不讨好。还有一些有着进阶功能的同类型浏览器,例如 Links 和它的分支 ELinks。 Konqueror 是一个由 KDE 开发的浏览器,KDE 开发人员在开发 KDE2 时意识 到一个良 好的桌面环境必须搭配一个良好的网络浏览器及档案管理员,便投入 不少力量开发了 Konqueror,这个浏览器使用了自家开发的排版引擎 KHTML, 由于 Konqueror 是属于 KDE 的一员,并只常见于 Unix-like 下的 KDE 桌面环境, 所以 Konqueror 并未普及。 纵然 Macintosh 的浏览器市场现在亦同样被 Intern
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年X射线高频高压发生装置合作协议书
- 2025年板材无模多点成型压力机项目发展计划
- 2025年枣阳市法院系统招聘真题
- 2025年宝鸡市市级机关公开遴选考试真题
- 土地使用合同四篇
- 2025福建省晋江圳源环境科技有限责任公司招聘6人模拟试卷及答案详解(历年真题)
- 2025年济柴动力有限公司春季高校毕业生招聘(10人)模拟试卷及答案详解参考
- 食品加工协议书范本5篇
- 2025广西百色西林县地方志编纂服务中心公开招聘1人考前自测高频考点模拟试题及一套参考答案详解
- 2025广东佛山市中心血站南海血站招聘公益一类事业编制工作人员2人考前自测高频考点模拟试题附答案详解(突破训练)
- 一国两制课件
- 2025年全国国家版图知识竞赛题库及答案(中小学组)
- 十一节后收心会安全培训课件
- 医院麻醉药品、第一类精神药品注射剂空安瓿回收登记表
- 研究借鉴晋江经验-加快构建三条战略通道
- 他克莫司治疗肾病综合征优势课件
- 新版GMP教程第五章设备课件
- 99S203 消防水泵接合器安装图集
- 轴承故障诊断演示文稿
- 高原性红细胞增多症的观察和护理
- 大连理工.电机与拖动PPT课件11章全744P
评论
0/150
提交评论