




免费预览已结束,剩余39页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本 科 毕 业 论 文 基于隐性反馈的个性化检索-用户行为资料收集研究Based on Implicit Feedback of Personalized retrieval- Search and study of user behavior data collection姓 名:学 号:学院:软件学院系:软件工程专 业:软件工程年 级:指导教师: 年 月摘要 随着因特网的迅猛发展,网络已成为人们获得信息的重要途径和手段,网路中的海量信息既给人们带来了方便,也带来了许多问题。网络中的信息内容庞杂, 组织松散,为找到有用信息,人们经常要花费大量的时间,所以近年来因特网个性化搜索服务越来越引起人们的关注。搜索引擎由于没有考虑到用户个人的兴趣爱好,不同用户对于同样的检索关键词检索出的信息是相同的,这样做并不能完全满足用户的要求。因此基于用户兴趣的个性化搜索服务已成为人们研究与开发的热点。本文主要介绍了基于隐性反馈的个性化检索的相关概念,并详细介绍了如何通过对用户行为资料的收集研究,隐性的分析和总结用户的喜好兴趣。并通过上下文相关算法,为用户提供个性化搜索服务。关键词: 用户行为资料; 隐性反馈; 上下文;AbstractsWith the rapid development of Internet, the network has become an important means of access to information. Mass information from the network not only brings convenience, it also brings many problems. Information network is complex and loosely organized. In order to find useful information, people often have to spend a lot of time, so in recent years, personalized Internet search service has attracted attention. Because search engines do not take into account the individual interests of users, different uses searching for the same search keyword get the same result as it does not fully meet the customers requirements. Therefore personalized search service based on user interest has become a hot research and development. In this paper, based on implicit feedback of the personalized search related concepts, we focus on how to analyze and summarize the implicit preferences of the users interest through information collection of user behavior research and to provide users with personalized search service through context-sensitive algorithms .Keywords: Implicit feedback; Information on the context of user behavior;Context 目录第一章 绪论11.1 研究背景11.2 国内外研究现状31.3 论文主要工作41.4 论文组织结构4第二章 个性化搜索与用户行为资料收集研究62.1 个性化搜索概述62.1.1搜索技术的新战场62.1.2个性化搜索72.1.3个性化搜索引擎72.1.4个性化搜索服务72.2个性化信息概述72.2.1用户搜索行为82.2.2用户短期搜索行为信息92.2.3用户长期搜索行为信息92.3个性化信息获取102.3.1 服务器端分析102.3.2 用户主动提供102.3.3 系统被动学习11第三章 短期上下文个性化检索算法123.1个性化信息获取技术123.1.1显式相关反馈123.1.2隐式相关反馈133.2短期上下文下的个性化检索算法133.3用户短期模型15第四章 Firefox插件开发194.1引言194.2Firefox插件开发194.2.1插件开发基础194.2.2 Firefox常用插件214.3Firefox插件的具体实施244.3.1Firefox插件的系统架构流程图244.3.2用户行为搜集流程图254.4插件的结构264.5插件的效果图27第五章 个性化搜索平台设计和实现285.1个性化搜索平台的一般架构分析285.2个性化搜索引擎组件设计295.3系统架构图315.4个性化搜索平台实现32第六章 结论34参考文献35致谢36ContentsChapter 1 Introduction11.1 Background11.2 Research at home and abroad31.3 Working paper41.4 Thesis Structure4Chapter 2 personalized search and study of user behavior data 62.1 Personalized Search Overview62.1.1 The new search technology battlefield62.1.2 Personalized Search72.1.3 Personalized search engine72.1.4Personalized Search service72.2Personal Information 2.2 Overview72.2.1User search behavior 82.2.2Users of information search behavior of short-term92.2.3Analysis of user search behavior of long-term92.3Personalized information access102.3.1Server-side analysis 102.3.2Users take the initiative to provide102.3.3System passive learning11 Chapter 3Short-term context of personalized search algorithm123.1personalized information access to technology123.1.1Explicit relevance feedback123.1.2Implicit relevance feedback133.2Short-term context of personalized search algorithm133.3short-term model of users15Chapter 4 Firefox Plug-in Development194.1 Introduction194.2 Firefox Plug-in Development194.2.1 Plug-in Development based on194.2.2 Firefox commonly used plug-ins214.3 Firefox concrete implementation of plug-ins244.3.1 Firefox plug flow chart of the system architecture244.3.2 The flow chart 27, the collection of user behavior254.4 plug-in structure264.5 the effect of plug-ins27Chapter 5 Personalized Design and Implementation of Platform285.1 Personalized Search of the general framework analysis 285.2 Personalized Search Engine Component Design295.3 System Architecture Figure315.4 Personalized Search platform32Chapter 6 Akeknowlegements34References35Regards36基于隐性反馈的个性化检索-用户行为资料收集研究第一章 绪论随着互联网技术的迅猛发展,信息呈爆炸式的增长。一方面,互联网提供着丰富的信息,可以毫不夸张的说,互联网已经成为了一个信息世界;另一方面,互联网世界又是一个杂乱的世界,信息存储非常随意自由。寻找资料已不如过去来的简单,如何从海量、杂乱的信息中快速找出用户所需要的信息已经成为一个日益凸显的问题,于是基于用户兴趣的个性化搜索服务已成为人们研究与开发的热点。1.1 研究背景1)第一代搜索引擎:无论是纯技术型的搜索引擎还是分类目录,都可以认为是互联网上的第一代搜索引擎,出现于1994年前后,以Altavista、YAHOO和Infoseek为代表,搜索结果的好坏往往用反馈结果的数量来衡量,也就是说,第一代搜索引擎“求全”。然而,第一代搜索引擎性能并不是想象中的那么优秀,在全球11个主要的搜索引擎中,搜索引擎仅能搜索到国际互联网上全部页面的16%,甚至更低,造成这种情况的原因,主要是因为这些搜索引擎没有及时更新他们的资料。2)第二代搜索引擎1998年,以Google和DirectHit为代表的第二代搜索引擎出现在互联网上,这些引擎的主要特点是提高了查准率,可以用“求精”来描述。互联网上的第二代搜索引擎伴随互联网信息量的爆炸式增长。第一代搜索引擎由于技术的限制,很难覆盖整个互联网的大部分内容。链接分析技术的引入,真正提高了自动搜索引擎的结果质量。搜索引擎真正跨入第二代自动搜索引擎。搜索引擎系统以信息自动抓取和自动排序检索为特征。3)第三代搜索引擎互联网上的第三代搜索引擎甚至式第四代目前正在发展和形成当中。大多数人认为正在发展中的第三代和第四代搜索引擎则分别为“求专”和“求易”。总结起来无论是第三代还是第四代搜索引擎,个性化、分类化和智能化是公认的新搜索引擎所应该具备的特征。 当今网络上的信息海量并杂乱,其中相当多的东西是重复,甚至于“垃圾化”第一代、第二代搜索引擎的“求全”、“求精”精神已经无法满足用户快速寻找的需求。所以第三代搜索引擎应运而生,它迫切解决前两代搜索引擎乃至自身所存在的缺陷:1) 无法适应用户具体兴趣现有大部分搜索引擎采用的都是关键词输入方式进行检索。所有用户都采用在同一种模式,输入自己所认为的关键字,然后搜索引擎返回一个按相关度排序的结果。而这个结果对所有的用户都是一样的,没有考虑到具体用户的具体查询需求,从而导致用户对查询结果满意度的降低。而且有时用户也无法准确地表述自己的兴趣。尽管现在很多搜索引擎为此行了改进,也确实改善了检索效率。但由于没有根据用户具体兴趣提供相应的个性化模式共享机制,所以并不能很好地适应用户兴趣变化。2) 用户与搜索引擎的交互方式比较单调 针对不同用户的具体需求,提供不同的输入方式是目前大部分搜索引擎所缺少的。大部分搜索引擎返回的结果是以一个按相关度排序的结果文档集合分页显示的方式进行结果反馈的,这样的显示方式并不能完全满足用户的具体需求,因为用户可能需要一个不一样的返回结果。传统的搜索引擎用户对检索系统的使用上无法进行个性化的操作,导致了搜索引擎对用户的查询意图理解模糊而只能采取统一的方式进行结果反馈。1.2 国内外研究现状目前世界上流行的个性化查询优化技术主要有相关反馈(Relevance Feedback)、伪相关反馈(Pseudo Feedback)。相关反馈机制由用户对检索出的文档进行相关性判定,系统根据这些判定生成新的查询,从而提高最终结果的准确率。伪相关反馈不需要与用户互交,它将初次查询的前N篇文档自动认为是相关文档,以此依据对查询进行扩展。相关反馈技术是信息检索中的查询优化的一个非常重要的机制,它通过增加或减少检索到的关键词的权重来修正查询的目的,从而提高检索效果。相关反馈(Relevance Feedback)技术是通过查询后处理来实现检索的个性化,它的提出是基于这样的现实:很大程度上的有用户能不够构造出理想的查询关键词,也就是说用户无法用几个简单的查询词来描述自己的需要,但是如果系统把文档呈现给用户,显然用户是有能力判断其相关性的。相关反馈技术已经被证明可以有效地提高检索精度。但是,相关反馈依赖于用户来对文档进行相关性评价,比如明确指出哪些文档含有相关信息等,但是用户往往不愿意花费时间精力来进行这样的相关性判定。隐式反馈(Implicit Feedback)是以一种隐式的(用户几乎察觉不到的)方式获得用户的反馈信息,也就是通过用户与系统的正常交互行为来推测用户的兴趣偏好,不需要用户额外花力气去做相关性评价。研究表明,隐式反馈技术虽然不如显式反馈精确,但在交互式环境中可以成为显式反馈的有效替代。实际上,最近的研究表明如果充分利用客户端丰富的用户行为作为隐式反馈信息,甚至能比利用显式反馈取得更好的效果。因此,基于隐式反馈信息的个性化信息检索受到研究者的广泛关注,研究者们近期提出了许多有效的算法和思路。本文也主要对基于隐式反馈信息的个性化信息检索进行研究。1.3 论文主要工作本文对目前的基于隐式反馈信息的个性化信息检索机制进行了较为全面、深入的综述,同时在王威的基于隐形反馈的用户个性化查询服务的基础上,单独实现一个独立于系统外的查询扩展的Firefox插件。通过对算法在TREC AP88-90语料集下模拟的用户短期查询行为数据下进行全面的评测对比分析,结果另人满意。同时根据统计语言模型的特点,我们可以推断该方法在中文语料的环境下也将取得不错的效果。论文的主要工作总结如下:1)对目前的信息检索与用户行为资料收集研究机制进行全面、深入的综述。通过学习和研究常用短期上下文个性化检索算法,对于个性化信息检索有一个全面的了解。2)在王威的基于隐形反馈的用户个性化查询服务的基础上,单独实现一个独立于系统外的查询扩展的Firefox插件。此插件包括用户的行为收集和用户的行为反馈两个主要部分。3)搭建一个简易的个性化搜索平台,实现对文本数据源的索引和搜索。本系统基于Lucene,综合Struts2和Spring,采用四层架构,并且使得层与层之间松耦合高内聚,实现可更换数据源。前台使用Div+CSS,加上仿GoogleSuggest的查询提示功能,创建人性化的用户界面。1.4 论文组织结构第一章 绪论,分析了本文的研究背景和研究现状,归纳本文的主要研究工作并介绍论文的组织结构。第二章 对目前的个性化搜索与用户行为资料收集研究机制进行全面、深入的综述。第三章 描述了目前用户行为资料收集技术,并对短期上下文个性化检索算法进行深入的介绍和研究。第四章 在王威的基于隐形反馈的用户个性化查询服务的基础上,单独实现一个独立于系统外的查询扩展的Firefox插件。第五章 搭建一个简易的个性化搜索平台,实现对文本数据源的索引和搜索。第六章 对于毕业设计的总结。第二章 个性化搜索与用户行为资料收集研究 随着网络的市场化,平民化,网络上的信息每天都在成指数倍增长。网络上的信息除了多之外,也在进行不断的重复,甚至于网络垃圾多于有用信息。这在很大程度上加大了人们查找资料的难度,搜索引擎就是为了解决这一问题而出现的。但是传统的搜索引擎已经不能满足人们快速查找所需信息的要求,因为传统搜索引擎在对用户的适应性,和用户的交互上存在的明显的缺陷。那么个性化搜索就呼之欲出了,个性化搜索就是为了解决具体用户查找网络信息的具体需求。2.1 个性化搜索概述2.1.1搜索技术的新战场搜索引擎已经改变了我们使用互联网的方式,甚至形成了一种“搜索式”的使用习惯,但这远远不够。随着用户对传统搜索引擎的满意度越来越低,新的适应用户需求的搜索引擎的提出已经成为一个热门的研究课题。“个性化”已经成为了搜索引擎新出路的制胜法宝,它总是能缔造一个又一个的神话。搜索个性化的风暴即将来临,用户不仅需要能搜寻到信息的搜索引擎,他们更希望做信息消费的主人,让搜索引擎以“我”为中心,而不是“我”以搜索引擎为中心。 但目前的现状是,在搜索引擎面前,各类用户别无选择。对个人用户而言,搜索引擎服务提供商显示什么样的信息内容,排列什么样的搜索结果,利用什么样的访问设备,个人无权选择;对企业客户而言,员工不能有效获得适应业务需求的特定信息,尤其是整合了内部知识信息资源和互联网信息资源的个性化信息;对广告客户来说,结合产品的优质、定向、可追踪的诱导信息淹没在芜杂的信息中;而对于网站,无法控制搜索引擎以提供适合网站特点的信息源,只能选择千人一面、千篇一律的搜索结果,因为提供搜索服务的主动权垄断在霸气十足的搜索引擎巨头们的手中。不过搜索巨头们已经意识到,搜索引擎个性化是在品牌忠诚度以外留住用户的主要方法,个性化搜索将成为搜索技术的新战场,微软、雅虎、Google等都在开发个性化的搜索引擎技术以吸引用户。个性化搜索引擎已经成为了各大搜索引擎开发商的新战场。2.1.2个性化搜索个性化搜索或者叫个人化搜索,personalized search/search personalization 1,指的是搜索引擎根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等。2.1.3个性化搜索引擎能够满足用户的个体信息需求, 即通过观察和分析用户的搜索行为, 从中识别用户的信息需求偏好, 并且能够根据用户对搜索结果评价, 自觉地调整搜索策略, 使得对于同一检索请求, 不同用户能够得到最贴近的自己需要的信息。2.1.4个性化搜索服务个性化搜索服务 2主要体现在两个方面: 用户可以使用比关键词表达方式更为方便灵活、符合用户个性习惯的描述方式, 来表达自己的信息需求。用户能够从多个信息源中获得最贴近自己需要的信息, 即针对同一检索关键词, 不同用户能够获得不同的检索结果。2.2个性化信息概述上一节介绍了个性化搜索的相关概念,那么个性化搜索主要是基于什么样的信息来实现所谓的“个性化”?这一节主要介绍了用户的搜索行为,个性化信息主要通过对用户的搜索行为进行分析所得出的结果。这种分析包括对用户短期搜索行为分析和用户长期搜索行为的分析。2.2.1用户搜索行为 用户通过搜索引擎寻找自己所需要的信息,通常包括以下行为:输入关键字,点击链接,退出链接,向前翻页,向后翻页。 图2-1用户搜索行为图 如上图:用户输入厦门大学软件学院,然后用户可能对第一条目录感兴趣就点击进入查看,之后退出;或者可能用户对这个页面不感兴趣,就可能向翻页等。然后用户输入其他关键字进行另一次搜索,直至用户找到需求目标完成一次搜索过程。2.2.2用户短期搜索行为信息 用户短期搜索行为一般是指局限在单个查询会话(Query Session)内的用户进行搜索所采用过的行为。查询会话是指具有一致的信息需求的查询序列(通常情况下是一个连续的查询序列),一个查询会话通常会持续一段时间:首先用户设计并提交一个查询条件,然后浏览搜索引擎返回的结果页面;如果不满意,用户会修改查询条件,重复这个查询过程。通过对这个查询会话中用户行为资料的收集,并根据用户在这些行为资料当中所访问的页面信息进行用户兴趣分析,形成一个用户短期上下文信息。由于只根据用户的一个查询会话过程,因此信息量会比较少,难以反映出用户的一般性兴趣。但是用户短期上下文信息有许多优点:首先,短期用户信息可以帮助系统实时更新用户描述,能够反映用户的即时兴趣的信息需求,这种即时需求只是用户的一时兴起,一旦得到满足,就对这种信息再也没有兴趣了。在这种情况下,那种长期收集的、能够反映用户一般性兴趣的信息就无能为力了。那么就只能根据用户的及时搜索行为进行用户及时兴趣的分析,从而达到满足用户短期搜索行为的需求。由于这种即时性这就要求我们必须对用户查询行为进行边界检测,即相邻的两个查询是否属于同一兴趣范围内的搜索。例如,第一次搜索“汽车”,然后搜索“汽车 价格”是同一个查询搜索,如果第二次搜索“水果”那很可能就是不是同一搜索了。2.2.3用户长期搜索行为信息用户长期搜索行为包括所能收集到的所有用户信息,比如用户过去的所有网络浏览记录, 历史查询记录,用户的显式反馈信息,用户客户端行为等。通过对用户长期搜索行为的所有信息进行分析,得到用户长期上下文信息。用户长期信息的优点有很多。首先,使用长期用户信息时不需要进行查询会话的边界检测,长期用户信息中所有与当前查询相关的信息都可以用来帮助澄清用户当前的检索意图。其次,长期用户信息内容比较丰富,可以从多角度、多层面来反映用户的个人背景和兴趣爱好。长期用户信息的缺点也很明显。首先,长期用户信息的收集与管理比短期用户信息困难得多,长期用户信息存在大量噪声数据,需要系统有效地维护和更新用户描述。其次,长期用户信息在面临用户的即时兴趣的信息需求时往往会无能为力。最后,与短期用户信息相比,并不是所有的长期用户信息对当前的查询都会有帮助,只有那些跟当前查询相关的信息才是有用的。2.3个性化信息获取实现个性化很重要的一项技术就是如何收集用户行为资料,如何对用户行为资料进行分析,并形成有效的个性化信息。在互联网上获取用户个性化信息的方法主要有三种:服务器端分析、用户主动提供和搜索引擎系统被动学习 3。2.3.1 服务器端分析即从服务器中分析获取用户的行为资料。互联网中的每个服务器都有访问日志文件,它记录了关于用户访问和交互的信息。通过对这些数据的分析可以理解用户的行为,从而为用户提供个性化的服务或改善网站的结构。可以通过以下两种方式来实现从服务器端获取用户的相关信息: 一般的访问模式挖掘和个性化的使用记录挖掘。一般的访问模式挖掘通过分析用户使用记录来了解用户的访问模式和倾向; 个性化的使用记录挖掘则倾向于分析单个用户的偏好, 其目的是根据不同用户的访问模式,为每个用户提供定制的站点。2.3.2 用户主动提供即由用户主动填写、提供来获取用户的兴趣信息。利用此方法来获取用户兴趣信息的方式主要有三种:1) 用户将自己感兴趣的信息或在线文档分类后提供给系统, 系统从这些文档或信息中发现用户的兴趣。此方法目前已经被广泛应用。2) 用户提供自己的研究方向和其他阅读爱好等信息,系统从这些信息中发现用户的兴趣。实现此目标的一种常用方法就是让用户回答一些问题,比如: 从事的专业、研究兴趣和研究方向; 参加的项目以及用一两句话描述这些项目; 除了阅读与自己的专业和研究方向相关的资料外, 还经常阅读哪些非本专业的书等等。用户输入答案后, 系统进行目标标识, 并对其进行聚类。一般来说, 不同问题的答案形成不同的类,来表示用户的各种兴趣。这样, 在根据用户兴趣发送页面或进行信息过滤时,可以根据用户的不同兴趣来发送或过滤,从而有效地避免将各种不同的兴趣表示成用户的一个兴趣的缺陷。这种方法的实现无须训练,因此可以快速地得到用户的兴趣且实现简单。3) 用户对系统检索到的信息结果进行评价打分,系统通过用户反馈信息来更新用户的兴趣数据描述。2.3.3 系统被动学习即监视用户的信息搜索与浏览过程等使用习惯来获取用户的兴趣信息。被动学习主要是系统通过对用户查询行为进行记录、统计、数据挖掘来实现的。也就是说,系统根据用户兴趣向用户发送从互联网搜集来的信息后,系统对用户在返回的信息集合中筛选、浏览等过程进行实时监控。系统通过监视用户的信息查询过程能自动获得用户的信息需求。其方法是系统通过不断接收用户在Web浏览时的相关信息, 并将信息进行整理、组织,从中分析出用户的信息偏好,或对用户上网的历史文档如IE临时文件、个人收藏夹等进行数据挖掘,找出用户的网页浏览偏好。系统再根据用户的兴趣偏好形成新的用户兴趣数据模型进行信息推荐。第三章 短期上下文个性化检索算法3.1个性化信息获取技术 用户个性化信息的获取主要服务器端分析、用户主动提供和搜索引擎系统被动学习三种方法。服务端分析是基于每个服务器的访问日志文件,这样根据这些日志文件进行语言模型,为用户提供更为贴近用户需求的搜索服务。但是由于服务器上的日志文件是来自所有用户的,这就使得搜索引擎系统无法根据服务器的访问日志文件对单个用户提供个性化服务。用户主动提供是一个很好的个性化服务方法,但是用户往往无法精确的描述自己的搜索需求,同时也涉及到用户的隐私等原因,使得用户主动提供这个方法在网络检索系统中很难被应用得很好;搜索引擎系统被动学习是通过监视用户的信息搜索与浏览过程等使用习惯来获取用户的兴趣信息,这在很大程度上方便了用户的使用同时也能获取用户兴趣模型,已经成为了当今搜索引擎的研究热点。本文也将采用系统被动学习的方法来获取个性化信息。3.1.1显式相关反馈搜索引擎返回的结果主要依赖于用户的查询条件,但是很少有用户能够构造出理想的查询条件,也就是说用户无法用几个简单的查询词来刻画自己的需要。这不但与用户本身的词汇量有关,也和用户对问题的理解程度、对搜索引擎的熟悉程度都有关系。经验告诉我们,如果把相关文档放在用户面前,用户能够很容易地判断出这是否是他想要的,因此很自然地就产生了“相关反馈”的想法。相关反馈方法是一种查询重构策略:在检索期间,用户提供初始查询条件,检索系统返回给用户一个有序文档集,用户对此文档集中的某些文档做出相关判断,检索系统根据用户所做出的相关判断对初始查询条件进行修改,然后根据修改后的查询条件重新进行检索,返回一个新的有序文档集,从而提高检索系统的精度。相关反馈是查询后处理所最常采用的方法 ,已经被证明可以非常有效地提高检索精度 。相关反馈依赖于用户对文档进行相关性评价,比如指出哪些文档含有相关信息等。但是用户往往不愿意花费额外的力气去提供这样的相关性评价。而且用户也会考虑到自己的隐私问题,不乐意提供自己的个人信息。因此在实际系统中,尤其是在网络检索系统中,显式反馈技术很少被实际采用 。3.1.2隐式相关反馈尽管相关反馈技术已经被证明可以用来有效地提高检索系统的精度,但是由于这种方式依赖于让用户对文档进行相关性评价,用户往往不愿意花费额外的力气去提供这样的相关性评价。在这种情况下,作为相关反馈技术的一种替代品隐式反馈技术应运而生了。隐式反馈,顾名思义就是以一种隐式的方式获得用户的反馈信息,也就是通过观察用户的正常交互行为,自动推测用户的兴趣偏好,不需要用户显式地做出相关性判断 。隐式反馈虽然不如显式反馈精确,但在交互式环境中可以成为显式反馈的有效替代。实际上,如果充分利用客户端丰富的用户行为作为隐式反馈信息,甚至能比利用显式反馈取得更好的效果。另外,隐式反馈信息还具有大量存在、容易获取的优点。因此,隐式反馈信息成为个性化信息检索的研究热点。许多种隐式反馈信息,比如历史查询记录(Search History)、网络浏览记录(Browsing History)、用户客户端行为以及网络社区(Web Communities)等,都在个性化信息检索研究中受到了关注。下面将主要论述有关基于隐式反馈的短期上下文的个性化检索算法.3.2短期上下文下的个性化检索算法 短期上下文用户信息一般是指局限在单个查询会话(Query Session)内的用户信息。我们对隐性短期上下文反馈算法 5,可以有一个定义(如下图):图 3-1用户一般查询过程用户的查询历史 (i=1,2t-1),具体来说包括1. 在一个查询会话周期内,用户输入查询词或者是对查询词进行重构而重新输入的查询词的操作。2. 用户查看系统针对返回的结果文档,同时点击符合用户查询意图的文档的操作。3. 用户点击了“前一页”(“后一页”)进行翻页的结果查询等其他与系统交互的行为。是指系统依据内在的文档评分机制返回用户的排序结果文档集合或者是 如前所述的其他个性化信息检索界面,我们以传统排序的结果文档集合作为的主要形式。结合前文描述的个性化检索一般框架 8,我们有: (3-1)系统针对最佳的响应是对所有文档一种损耗最低的排序序列。而其中对于损耗函数L,我们利用之前的KL Divergence公式进行替换则有 (3-2)其中是对用户模型的统计语言模型量化描述,因此如何利用来取得对于的最佳描述,即 (3-3)也就是如何根据用户短期的行为历史来预测用户短期模型是进行隐性反馈的短期上下文算法的关键。3.3用户短期模型针对用户在一个查询会话周期内的行为,我们对用户模型进行建立。首先在中我们可以利用用户在执行之前的查询历史。因为在一个查询会话周期内,用户的查询意图不会改变,因此之前的查询词对于的辅助作用,从直观来看是具有一定的帮助的。(这里还涉及到一个查询会话周期的识别问题,在实验中采用人工标识查询会话的方法进行查询会话的识别。)我们使用普遍的对模型进行插值的方法,对查询模型进行更新。具体的算法如下:对于用户首次输入的查询q ,首先对其进行一定的过滤处理,即对于中文进行分词,英文进行词根化和停用词过滤。随后我们基于统计语言模型计算查询语言模型 9,具体计算公式如下: (3-4)其中是指词w在查询q中出现的次数,是指查询q的长度。如果对于一个查询会话周期内的查询,我们利用之前的查询,对进行循环插值,具体的计算公式如下: (3-5)其次,考虑用户提供的查询词一般比较短,无法提供对用户查询意图的准确描述。在短期历史中,我们记录下了用户每次浏览的结果文档集合以及对于每篇文档的浏览停留时间。我们采取估计用户停留在某篇文档上的时间如果超过一定的一个阈值,那么我们可以假设该文档在一定的程度上符合用户的查询意图。利用这种隐性信息反馈的技术,与用户显式提供相关文档评价信息的结果不相上下。因此,我们利用用户在短期历史中浏览的文档集合作为主要的隐性相关信息,同时结合统计语言模型的相关性反馈策略,对于,结合用户浏览过的相关文档集合为,进行查询语言模型地更新:1)基于最小化差异的相关反馈算法,即对于相关文档集合我们预测一个模型使得它们之间的KL差异性最小化,定义,即和相关文档集合之间的平均差异值。考虑到估计的模型,理论上应该接近于用户浏览过的相关文档集合,由于一篇文档中一般篇幅较长,受较多噪音影响,对于那些具有明显查询特征和领域特征的词汇贡献可能会有所减弱,在实验中我们利用 (3-6)其中文档的模型和语料集的模型分别为 (3-7) (3-8)为了使差异值最小化,即 ,我们通过如下方法对进行参数估计,具体计算公式如下: (3-9)在实验中。2)基于Zhai教授在研究中提出的在相关性反馈中使用的基于相关性文档而生成的混合模型方法,我们也在实验中与我们使用的基于最小化差异性算法做了一个对比。混合模型是假设相关文档集合是由一个模型生成的,那么就有 同样考虑到文档的噪音影响,我们这里也引入了语料集作为背景,为了减少文档里的噪音影响。从而 (3-10)实验中我们使用EM算法,通过确定,对上述模型参数进行估计,具体在EM算法中的参数如下:实验中对EM算法进行迭代直到差别小于0.0001我们认为其结果收敛。在实验中,参数我们取值为0.5.最后,我们根据查询语言模型和通过预测的语言模型进行插值从而计算出新的查询模型,具体的计算公式如下: (3-11)进而对于更新的查询模型,我们通过计算进行文档评分,其中是文档d的语言模型,实验中采用基于Dirichlet先验分布的贝叶斯平滑方法对文档d的模型进行估计。36第四章 Firefox插件开发4.1引言用户通过搜索引擎来搜索自己所需要的信息时,他首先接触到的是一个浏览器,通过浏览器用户可以自由的访问网络上的海量信息。在目前市场上充斥着各种各样的浏览器,其中Firefox是一款基于Gecko引擎,开放源代码的浏览器,不仅体积小、速度快,而且完全支持W3C标准,可应用于Windows、Linux和MacOS平台。Firefox 拥有一组开发者使用的工具,包括强大的 JavaScript/CSS 控制台、文件查看器等,提供您洞察网页运作详情的能力。同时Firefox独有的架构使得您可以方便的为它安装扩展与皮肤,打造完全符用户个性的浏览器。通过以上对Firefox的简单介绍,我可以知道Firefox是一个功能强大并且易于扩展的开源浏览器。所以本文要实现一个独立于系统外的查询扩展的firefox插件。此插件包括用户的行为收集和用户的行为反馈两个主要部分。这样就可以对用户的行为资料进行收集,然后反馈到搜索引擎底部,形成有效的用户个性化信息。接着通过Firefox浏览器把搜索到个性化结果显示给用户,而Firefox的独有架构也可以为用户提供个性化的返回结果显示方式。这样通过Firefox我们就能轻易的打造一个完全符合用户个性化需求的个性化浏览器。4.2Firefox插件开发4.2.1插件开发基础1) XMLXML(Extensible Markup Language)即可扩展标记语言,它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)。Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。2) XULXUL (XML User-interface Language 基于 XML 的用户接口语言)是一种新的富客户端(Rich Client)技术,是 Mozilla 和 Firefox 的核心语言,是一种用来快速开发跨平台用户接口的新途径。其实不难发现很多新出现的语言都是基于 XML 的,比如 FIXML(Financial Information Exchange ML 金融信息交互描述语言),ECML(Electronic Commerce ML 电子商务描述语言)等。XUL 也不例外,它完全遵循 XML 国际标准,套用面向对象的说法就是 XUL 继承了 XML。任何能使用和解析 XML 的地方 XUL 都可以出现。XUL 和 Mozilla&Firefox 浏览器的血缘关系。Mozilla&Firefox 的出现和 XUL 是密不可分的,Mozilla&Firefox 本身就是基于并且用 XUL 开发的。目前所有用 XUL 开发的界面程序都必须通过 Mozilla&Firefox 浏览器访问,而后者是跨平台甚至可以运行在手持设备 PDA上。这就注定了 XUL 跨平台的优越特性。XUL 的易用性在于它非常简单易学,因为 XUL 所需要的技术仅仅是 XML,JavaScript 和 CSS。只需要有基本的 html 网页开发经验,要是开发过 JSP,ASP 乃至 Portlet,那就更能轻松掌握。当然要实现非常复杂的功能还是需要一段时间的积累。3) CSSCSS 指层叠样式表 (Cascading Style Sheets),样式定义如何显示 HTML 元素,通常存储在样式表中。把样式添加到 HTML 4.0 中,是为了解决内容与表现分离的问题。外部样式表可以极大提高工作效率,通常存储在 CSS 文件中,多个样式定义可层叠为一。4) JavaScriptJavaScript是一种广泛用于客户端Web开发的脚本语言,常用来给HTML网页添加动态功能,比如相应使用者的各种操作。它最初是网景公司的Brendan Eich设计的,是一种动态、弱型式、基于原型的语言,内建基类,并且以它为基准制定了ECMAScript标准。虽然更常用于网页,但是JavaScript也可以用于其他场合,例如Firefox插件编程。JavaScript 和 Java 很类似,但到底并不一样! Java 是一种比 JavaScript 更复杂许多的程式语言,而 JavaScript 则是相当容易了解的语言。JavaScript 创作者可以不那麽注重程式技巧,所以许多 Java 的特性在 Java Script 中并不支援。尽管JavaScript是作为给非程序人员的脚本语言,但是JavaScript是一门具有非常丰富特性的语言,它具有和其他程序语言一样的复杂性,或更加复杂。4.2.2 Firefox常用插件1)FireBug:在 Web 调试工具中,FireBug 现在几乎已经成为了众多调试工具的标准,其强大程度绝对超乎你的想象。FireBug 可以快速分析出页面的 DOM 结构,并生成可折叠、展开的树状图。对于每一个元素,我们都可以通过 FireBug 来实时更改它的属性、值甚至 CSS,特别是对 CSS 的修改,结果会实时展现在页面上,这对 Web UI 人员来说绝对是个非常实用的功能。而对于开发人员来说,FireBug 可以为 Javascript 设定断点,可以通过简洁的函数监控变量、生成日志方便调试。FireBug 绝对无愧于 Firefox 中第一调试工具的称号。2)Adblock:这是一个从网页过滤广告的扩展。Firefox本身已具备阻止弹出式广告窗口的功能,在Firefox 1.0简体中文增强版中又内建了Adblock扩展,进一步增强了Firefox的广告过滤功能,不但可以过滤弹出的窗口,而且还能对多次重复弹出的窗口 和浏览页面的内容进行过滤。在“Adblock首选项”里提供了“物件标签”、“瓦解可阻止的元素”、“检查父级链接”、“站点阻止”和“导入、导出过 滤”等功能。我们可以自行定制广告过滤条件,为浏览器提供全面的广告阻止功能。3)Search Status:这是一个在浏览器的状态栏上显示当前页面的Google网页级别和 Alexa排名的扩展。网页级别 (PageRank.PageRank)是Google用于评测一个网页重要性的一种方法,在揉合了诸如Title标识和 Keywords标识等其它众多因素之后,Google通过PageRank来调整结果,使那些更具重要性的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。PR值最高为10。Alexa是以发布世界网站排名而引人注目的一个网站,其发布的排名具有很高的权威性。其中每三个月 Alexa会公布一次新的网站综合排名,其排名的依据是用户链接数(Users Reach)和页面浏览数(Page Views)三个月累积的几何平均值。4)View Source Chart:查看源码的好助手,不仅可以将 HTML 代码整理得非常易读,而且通过语法高亮进一步提高可读性。 5)All-in-One Gestures:这是一个提供使用鼠
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北京市人民医院红细胞血型系统非ABO知识深度考核
- 2025北京第四实验学校招聘45人模拟试卷及一套参考答案详解
- 张家口市人民医院电力安全操作规程基础考核
- 沧州市中医院护理专家终身成就评审
- 沧州市人民医院免疫功能低下患者管理考核
- 大学食堂安全知识培训课件
- 天津市人民医院影像与临床结合考核
- 上海市中医院辅助生殖并发症处理应急考核
- 沧州市中医院财务管理高级研修班结业论文项目评审
- 张家口市人民医院肌病诊断专项考核
- 2024年12月英语四级真题及答案-第1套
- 【课件】急性百草枯农药中毒
- 如何利用团体标准做好患者跌倒评估和预防
- 干部人事档案专项审核工作实施计划方案
- 老年人能力评估师试题【含答案】
- 安徽省蚌埠市2024-2025学年八年级下学期第一次月考地理试卷(含答案)
- 全国小学语文赛课一等奖统编版(2024新编)语文一年级上册《gkh》精美课件
- 《阻燃化学品 焦磷酸哌嗪》文本及编制说明
- 天车电气培训课件
- 合作协议书模板(完整版)
- 疾控中心安全生产教育
评论
0/150
提交评论