(计算机应用技术专业论文)基于lucene的群体个性化搜索引擎研究.pdf_第1页
(计算机应用技术专业论文)基于lucene的群体个性化搜索引擎研究.pdf_第2页
(计算机应用技术专业论文)基于lucene的群体个性化搜索引擎研究.pdf_第3页
(计算机应用技术专业论文)基于lucene的群体个性化搜索引擎研究.pdf_第4页
(计算机应用技术专业论文)基于lucene的群体个性化搜索引擎研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)基于lucene的群体个性化搜索引擎研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要i n t e r n e t 是一个高度开放、异构和分布式的信息空间,海量的信息杂乱地散布在全球各个站点上,而且每天都以极快的速度更新。随着互联网技术的发展和网络应用的日益广泛,i n t e m e t 已经成为了人们获取信息资源和进行信息交流的一个重要途径。伴随着互联网的发展,w e b 信息也日益增长,如何从海量的互联网资料中找到自己需要的信息,成为了阻碍互联网发展的一大难题。虽然传统搜索引擎的出现极大地提高了网络信息的检索速度,在一定程度上解决了这个问题,但还是无法满足人们对信息服务日益增长的个性化需求。同时,在这个讲究个性和以人为本的时代,个性化和人性化的搜索引擎也成为了时代的需要,使得个性化搜索引擎成为了当前一个重要的研究课题。本文针对传统搜索引擎在用户个性化需求方面存在的不足,提出了一种全新的个性化理念,即群体个性化搜索。利用个性化信息采集系统收集和提取用户的个性化信息,通过扩展用户需求和优化搜索过程和结果,为用户提供个性化和人性化的信息搜索服务。本文所做的主要工作如下:1 、首先简要介绍了l u c e n e 这个主流搜索引擎应用工具的研究和应用,然后对当前主流个性化搜索引擎的相关原理及应用作了理论性介绍,重点对个性化信息的采集和更新进行了分析,为下一步的研究改进打下基础。2 、针对个性化搜索引擎存在的不足和问题,提出了一种全新的个性化搜索引擎思想即群体个性化搜索技术。通过分析比较相关数据,对群体化搜索引擎的应用进行了可行性和服务性的分析。整体结构设计上采用客户端服务器模式,对群体个性化搜索引擎进行系统实现,重点介绍了群体个性化搜索引擎几个重要模型的设计与实现,如用户模型的设计与实现,个性化查询扩展模块,个性化排序模块等。3 、在系统实现的基础上,分别与传统搜索引擎及个性化搜索引擎进行了搜索结果比较,分析了群体个性化搜索引擎的优缺点。本文的研究内容将为个性化搜索引擎指出一个全新的发展方向,为搜索弓擎的进一步发展提供个新的理论平台和开端。关键词:个性化信息采集,个性化查询,搜索引擎,群体个性化a b s t r a c ti n t e r n e ti sah i g h l yo p e n ,h e t e r o g e n e o u sa n dd i s t r i b u t e di n f o r m a t i o ns p a c e ,af l o o do fi n f o r m a t i o nc l u t t e ri nv a r i o u ss i t e ss p r e a da r o u n dt h ew o r l d ,b u ta l s ov e r yf a s tp a c ee v e r yd a yu p d a t e s a st h ei n t e r n e tt e c h n o l o g ya n dt h ei n c r e a s i n g l yw i d er a n g eo fn e t w o r ka p p l i c a t i o n s ,i n t e r n e th a sb e c o m et h ep e o p l e sa c c e s st oi n f o r m a t i o nr e s o u r c e sa n da ni m p o r t a n tw a yo fe x c h a n g eo fi n f o r m a t i o n w i t ht h ed e v e l o p m e n to ft h ei n t e m e t ,w e bi n f o r r n , a t i o ni sa l s og r o w i n gm a s so fi n t e r n e ti n f o r m a t i o no nh o wt o f i n dt h ei n f o r m a t i o nt h e yn e e dt ob e c o m ei m p e d e dd e v e l o p m e n to ft h ei n t e r n e tam a j o rc h a l l e n g e w h i l et r a d i t i o n a ls e a r c he n g i n e sh a v eg r e a t l yi m p r o v e dt h ea p p e a r a n c eo fn e t w o r ki n f o r m a t i o nr e t r i e v a ls p e e d ac e r t a i ne x t e n t ,s o l v e dt h i sp r o b l e m ,b u ts t i l lc a l ln o tm e e tp e o p l e si n f o r m a t i o ns e r v i c et h eg r o w i n gd e m a n df o rp e r s o n a l i z a t i o n a tt h es a m et i m e ,i nt h i sp a ya t t e n t i o nt op e r s o n a l i t ya n dp e o p l e o r i e n t e de r a , p e r s o n a l i z e da n du s e r f r i e n d l ys e a r c he n g i n e ,b e c a m et h en e e d so ft h et i m e s m a k e sp e r s o n a l i z e ds e a r c he n g i n eh a sb e c o m ea ni m p o r t a n tc u r r e n tr e s e a r c ht o p i c i nt h i st h e s i s ,at r a d i t i o n a ls e a r c he n g i n ei nt h eu s e ri n t e r f a c e ,p e r s o n a l i z a t i o no ft h ed e f e c t s ,t h eu s eo fp e r s o n a l i z e di n f o r m a t i o na c q u i s i t i o ns y s t e mt oc o l l e c ta n de x t r a c tt h eu s e r sp e r s o n a l i z e di n f o r m a t i o n ,t h r o u g ht h ee x p a n s i o no fu s e rn e e d sa n do p t i m i z et h es e a r c hp r o c e s sa n dr e s u l t s ,t op r o v i d eu s e r sw i t hp e r s o n a l i z e da n du s e r - f r i e n d l yi n f o r m a t i o no ns e a r c hs e r v i c e t h i sp a p e rh a sf 1 6 n et h em a i nw o r ki sa sf o l l o w s :1 、b r i e f l yw ei n t r o d u c et h el u c c n et o o l st h a tm a i n s t r e a mr e s e a r c ha n da p p l i c a t i o n ,a n dp e r s o n a l i z et h ec u r r e n tm a i n s t r e a ms e a r c he n g i n e sm a d et h er e l e v a n tp r i n c i p l e sa n da p p l i c a t i o no ft h e o r e t i c a ld e s c r i p t i o n ,f o c u s i n go np e r s o n a l i z e di n f o r m a t i o nc o l l e c t i o na n du p d a t i n go ft h ea n a l y s i s ,f o rt h en e x tl a yt h ef o u n d a t i o nf o rf u r t h e rr e s e a r c ht oi m p r o v e 2 、p e r s o n a l i z e ds e a r c he n g i n ef o rt h es h o r t c o m i n g sa n dp r o b l e m s ,an e wp e r s o n a l i z e ds e a r c he n g i n ei sa d v a n c e dt h a tt h es e a r c he n g i n ei np e r s o n a l i z a t i o no fg r o u p s t h r o u g ha n a l y s i sa n dc o m p a r i s o no fd a t a , t h es e a r c he n g i n ei np e r s o n a l i z a t i o no fg r o u p sf o ra p p l i c a t i o n si nt h ea n a l y s i so ft h ef e a s i b i l i t ya n ds e r v i c e o v e r a l ls t r u c t u r eo ft h ed e s i g nw i t ht h ec l i e n t - s e r v e rm o d e l ,t h es e a r c he n g i n ei np e r s o n a l i z a t i o no fg r o u p sf o rs y s t e mi m p l e m e n t a t i o n ,f o c u s i n go nt h es e a r c he n g i n ei np e r s o n a l i z a t i o no fg r o u p san u m b e ro fi m p o a a n tm o d e ld e s i g na n di m p l e m e n t a t i o n ,s u c ha su s e rm o d e ld e s i g na n di m p l e m e n t a t i o no fp e r s o n a l i z e dq u e r ye x p a n s i o nm o d u l e ,p e r s o n a l i z e dr a n k i n gm o d u l e 3 、b a s e do nt h ei m p l e m e n t a t i o ni nt h es y s t e m ,r e s p e c t i v e l y ,w i t ht h et r a d i t i o n a ls e a r c he n g i n e sa n dp e r s o n a l i z e ds e a r c he n g i n es e a r c hr e s u l t sc o m p a r i s o na n da n a l y s i so ft h eg r o u p ss t r e n g t h sa n dw e a k n e s s e so fi n d i v i d u a ls e a r c he n g i n e s t h i ss t u d yw i l lp r o v i d ep e r s o n a l i z e dc o n t e n ts e a r c he n g i n et h a tan e wd e v e l o p m e n td i r e c t i o nf o r t h ef u r t h e rd e v e l o p m e n to fs e a r c he n g i n e st op r o v i d ean e wp l a t f o r ma n dt h eb e g i n n i n go ft h et h e o r y k e y w o r d s :p e r s o n a l i z e di n f o r m a t i o nc o l l e c t i o n ,p e r s o n a l i z e ds e a r c h ,s e a r c he n g i n e ,g r o u p so fp e r s o n a l i z a t i o n独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。期:竺! ! :墨!学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留许向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。研究生( 签名) :言艾导师( 签名) :邓m 日期纠。支伊武汉理工大学硕士学位论文1 1 课题研究背景第1 章绪论网络无时不在。如今,网络已经逐步走进人们的工作和家庭,成为生活中不可缺少的一部分,网络应用也已经渗透到了工作、学习、生活等方方面面,网络的用途也越来越日常化。人们可以通过网络随时随地方便快捷的共享大量的信息资源,互联网给用户提供了一个巨大的信息资料库。因为它这种灵活的使用形式,以及其巨大丰富的信息量,逐渐成为人们获取信息资源的一个重要来源,极大简化了用户的操作过程,较好的满足用户需求。据相关数据统计,现阶段,中国网民总数达到我国总人口的近一半,而搜索引擎用户比例占中国网民总人数七成,而且这个比重还在日益增大 】。在大家日常的工作、生产和生活中,都要用到互联网的应用服务,而且随着时间的推移,这个用户群将会越来越多越来越广,网络应用也将由基础走向专业化和个性化。搜索引擎的应用可以帮助用户从不计其数的网络信息中查找用户需求的相关信息,它从网络大量的信息中查找出与关键词相互关联的信息,然后进行收集来建立搜引数据库,以此来满足用户搜索请求。目前市场上主流搜索引擎,例如对中国客户最熟悉的b a i d u ,能够较为快捷方便的帮助用户寻找到所需的信息资讯,一定程度上满足了互联网用户的相关需求,从而深入广大用户欢迎。但传统的搜索引擎其商业特性决定了其简单性和广博性,它的服务笼统、不区分对象,提供的只是一个初始化搜索服务,面对搜索结果需要用户自行检验,越来越不能满足各种用户不同的个性化需求。我们在传统搜索引擎的使用过程中只要输入相同的关键词,所有用户都会得到一样的用户界面和同样的信息。而且在这些返回到用户的搜索结果中,不仅大量重复,还包含着许多无用的乃至损坏的信息和链接,用户要从这些信息中找到适合自己的需要和有用的信息,又是一个巨大的工程【2 】。为了节省时间和效益,用户急需一个可以理解用户的个性化需求,并根据用户个性化需求快速准确的提供用户真正感兴趣的信息的个性化搜索引擎。个武汉理工大学硕士学位论文性化搜索引擎就是在这种背景下被提出来的,个性化是搜索引擎的发展趋势,是传统搜索引擎急需解决的问题,但是个性化搜索引擎也存在它自身的些不足,其发展也只是处于起步阶段,本课题就是针对当前个性化搜索引擎不足和存在的问题,进行了研究改进,提出了群体化搜索的解决方法。、1 2 课题研究的目的及意义近年来,特别是2 0 0 9 年来,网络搜索引擎应用广泛普及,搜索引擎用户群也逐年大幅增长。如何从庞大的互联网资料中找到自己需要的信息,成为了阻碍互联网发展的一大难题。随着s n s 、3 g 等全新网络技术的出现和快速发展,搜索引擎的发展趋势将逐步向专业化和细致化发展,搜索结果也将越来越精准和个性化。同时,随着搜索引擎的竞争日益激烈,发展的日益完善,搜索引擎用户需求也日趋多元化和人性化,如何满足搜索引擎用户曰趋丰富和实际的搜索需求,成为搜索引擎发展的目标和方向。经过用户检验的,最贴近用户实际,契合用户需求的产品才是最完善的作品,而现有的搜索引擎并不能提供出这些个人需求的相对专业和个性化的服务,所以搜索引擎技术亟需进一步的完善和发展。本文就搜索引擎的现状做了研究和分析,并提出了新的个性化搜索引擎思想,目的就在于弥补传统搜索引擎和传统个性化搜索引擎在个性化服务上的不足,提高搜索引擎的准确性和实用性。1 3 论文取得的成果本文针对当前搜索引擎的不足和存在的问题,提出了一种全新的个性化搜索引擎思想,即群体个性化搜索引擎,并对其可行性和服务性进行了分析:利用l u c e n e 这个全文检索引擎工具包,采用客户端服务器模式对群体个性化搜索引擎进行了系统的设计、开发与实现,并对系统模块实现的有关技术进行了相关的分析与研究,例如个性化查询改进、个性化网页权重和个性化排序算法在扛寸。在设计完成的基础上,通过搜索结果演示,在与传统搜索引擎及个性化搜索引擎进行了搜索结果比较,分析了群体个性化搜索引擎的优缺点,并对群体2武汉理工大学硕士学位论文个性化搜索引擎的发展前景进行了展望。1 4 论文的工作与组织结构针对前面提出的搜索引擎存在的问题,作者承担并完成了以下工作:1 、查阅和学习了大量相关技术方面的书籍资料,对个性化搜索引擎的相关技术进行了研究;2 、总结了当前个性化搜索引擎取得的成果和存在的不足,并针对这些不足,提出了新的思想和解决方案;3 、设计实现了群体个性化搜索引擎系统,重点对组成系统的几个重要模块进行了研究分析。本文根据作者所做的研究进行组织安排,具体的组织方式概括如下:第一章,简单介绍了课题研究的来源、目的、意义、方向以及作者的工作内容和论文的组织结构等。第二章,简单介绍了l u c e n e 的相关理论知识和用户兴趣个性化信息的获取和更新方式。第三章,分析了当前搜索引擎的不足,对群体化搜索引擎的应用进行了可行性和服务性的分析,提出了一种全新的个性化搜索引擎思想,群体个性化搜索引擎,详细论证了群体个性化搜索引擎的设计思想和体系结构,并进行了设计与实现。重点介绍了客户端和服务器端等重要模型的设计与实现。第四章,在系统实现的基础上,分别与传统搜索引擎及个性化搜索引擎进行了搜索结果对比,进行了分析比较,以实验验证了群体个性化搜索引擎的优缺点。第五章,对本文的所做工作进行了总结,对未来群体个性化搜索引擎发展进行了展望。武汉理工大学硕士学位论文2 1l u c e n e 简介第2 章个性化搜索技术l u c e n e 是目前网络开发运用最广泛的工具之一,它是一个基于j a v a 的开放源代码的全文检索引擎工具包,在它提供的免费平台上,开发人员可以自由使用相关引擎资料。通过使用l u c e n e ,可以极大便利的简化搜索引擎开发人员的开发过程。这个开源的工具包为广大用户提供了完整的搜索引擎构架和包含搜索引擎基础功能的大量代码,而且它可以方便地嵌入到各种平台上,实现全文索引和检索功能,可以帮用户省去大量的重复开发工作和时间。2 1 1l u c e n e 的主要功能和优点l u c e n e 功能非常强大,总体来说主要包括两部分,一是文本内容索引入库,二是根据查询条件返回结果【15 】,其逻辑图如图2 1 所示。囝曰囤图2 1l u c e n e 的主要功能结构4囤b圜囡口口卜武汉理工大学硕士学位论文l 、入库功能模块入库即把内容加载到全文索引库中,按照先后顺序,入库的逻辑过程可分为如下步骤n 5 ,:定义入库内容的文档结构。入库内容的文档结构与数据库中的数据结构类似,每个入库的文档可以由多个字段构成,如文章标题、作者、发布时间、原文链接、正文内容等;分词处理。文档在入库前还需要进行分词处理,分词处理就是将文档按照关键字段分类,分类操作由语言分析器来完成;入库。切分后的词组还要被注册到索引树上,其它一些不需要索引的内容也需要入库,以供查询使用,这些文件操作全部由存储器完成。2 、查询功能模块查询逻辑包括从输入查询条件到输出查询结果,按先后顺序查询逻辑可分为以下步骤:接受查询条件。接受的查询条件包括词组、语句以及公式,条件之间可以通过特定运算符连接成表达式。查询条件分析。接收到的查询条件直接被传送到查询分析器中,分析器对查询条件进行分析。查询数据库。检索器根据查询式遍历索引树得到查询结果。返回查询结果。将返回的结果链接显示在查询结果页面反馈给用户,用户可以通过点击链接连接到原始网页,也可以打开和查看检索库中存储的网页内容,即网页快照。由于l u c e n e 工具包中大量地使用s t r a t e g y 设计模式,使得应用接口非常灵活,用户可以方便的利用这些接口,定制出适合自己需要的语言分析器、查询分析器甚至检索器。一作为广受欢迎的应用工具,l u c e n e 具有相当明显的优势。第一,l u c e n e的源代码是完全面向公众开发的,任何个人都可以通过免费使用现有的框架和代码来学习和从事相应的开发工作,所以其用户群体很多,在应用中开发,在开发中应用,这是一个良性的循环,它作为社会共享资源在大家共同研究改进下得到不断的完善和进步,从而越来越贴近用户需求。第二,它在面向对象架构方面具有显著优势,这种极其合理的架构方式能够方便我们在原有的基础上对各种功能的进行扩展,方便使用者研究和改进。第三,所有使用者都可以通5武汉理工大学硕士学位论文过l u c e n e 提供的这个面向大众开发的网络平台随意的进行探讨和交流,彼此交换心得和资源。2 1 2l u c e n e 的系统结构分析l u c e n e 是完全面向对象的设计结构。首先,它拥有与平台无关的索引文件格式:其次,实现了抽象和继承,将系统的核心部分作为抽象类,平台实现部分作为抽象类的实现;另外还使用了封装,将与具体平台相关的部分比如文件存储封装为类。这种面向对象的结构设计,使得l u c e n e 具有低耦合、高效率和易于二次开发等众多优点。l u c e n e 的系统结构与源码组织图如图2 2 所示。图2 2l u c e n e 的系统结构与源码组织图从图中可以清楚看到,l u c e n e 系统主要由基础结构封装、索引核心和对外接口三大部分组成【1 5 1 。其中基础结构封装模块包括各种文件类型和结构的封装;对外接口模块主要负责与用户交互,包括查询输入和结果输出等;索引核心是系统和核心模块,它直接负责对索引文件的更新和查询。由图2 2 还可以看到,l u c e n e 将实现系统各个模块的源码按照功能封装成了7 个包,从面向对象上来说,这种模块化增加了各个功能模块之间相互独立性,减少了耦合度。另外l u c e n e 还引入了传统的客户端服务器结构以外的应用结构,使得l u c e n e 可以作为一个运行库被包含于应用本身。6武汉理工大学硕士学位论文2 1 3l u c e n e 的评分机制l u c e n e 也有自己一套完整的评分机制。不过它并不是事先为每个网页资源进行评分,而是在用户检索时进行实时的评价和计算,文档的得分会根据用户的输入关键字而实时调整,越贴近用户需求的资源获得的评分会越高。如果在建立索引时,每个文档的得分就已经确定,那无论用户输入什么关键字,最后文档的排名都不会更改,评分机制就失去了应有的意义。文档的评分可以被认为计算某个关键字在文档中出现的频率,l u c e n e 计算关键字在对应文档中出现频率的等分公式如下:乏:矿( t 2 n z ) i d f ( t ) xb o o s t ( t f i e l d j n d ) xl e n g t h n o r m ( t f i e l d 2 n z l )面公式中包含了影响文档评分的各种因素,用户可以通过调整各种因素来实现自己对文档评分的要求。2 2 个性化搜索引擎概述由于网络用户自身的差异和对需求信息的不同,相对其自身所关注的各项信息和搜索习惯也各自不同,而传统搜索引擎则是则不会细致的考虑用户之间、集群之间的差异,它只是机械式的为每个用户提供的都是相同的信息空间。我们在使用传统搜索引擎的过程中,往往任意一个关键词,都是重复庞大的返回结果,它不会主动甄别对用户有用的信息,只是在海量的网络信息中大量抓起,这些呈现在用户面前的信息,许多都是无用和重复,用户需要费时费力的从中筛选出其真正需要的信息。所以用户迫切希望搜索引擎能够理解用户的个性化需求,根据用户自身个性化的特点,搜索引擎自身能够自主对搜索过程和结果进行优化,真正为用户提供有用的信息,从而为用户节省大量的精力和时间。正是因为存在这种市场需求,个性化搜索引擎才有其发展空间。个性化搜索引擎就是能够根据用户本身和个性化需求的不同,有针对性的提供其所需的网络搜索服务。具体来说,就是用户首先根据自身需求提供相关的个人和个性化信息,搜索引擎智能的通过对这些信息进行甄别和分析,得到符合该用户的个性化模式,然后将其运用到用户的搜索过程中,从而有重点的获取符合该用户本身个性化需求的信息,最后对这些信息进行组织排列,提供个用户一个较为合适的搜索结果。7武汉理工大学硕士学位论文个性化搜索引擎主要是用来为用户提供更贴切的服务,帮助用户准确、快捷、方便地查找其所需信息,同时有效屏蔽掉无关信息。通过用户的个性化信息和需求,自动进行信息检索服务,为用户提供有用的个性化搜索结果,即对于相同的查询请求,不同的用户根据自身需求不同而得到各自所需的结果【7 】。在这里可以通过一个例子作比较,比如输入查询的关键词“大话”,在传统搜索引擎中其返回的结果很多很繁杂,而根据用户个人不同,如果是位游戏玩家,他( 她) 需要的是大话西游等网络游戏的相关信息,如果用户是位书迷,他( 她) 需要的是大话三国大话水浒等畅销小说的相关信息,而个性化搜索引擎则能够根据用户身份不同,人性化为其优先提供所需求方面的信息。2 3 建立个性化信息库个性化搜索引擎与传统搜索引擎的主要区别就在于,个性化搜索引擎可以通过用户个人资料和个性化需求信息,为不同的用户提供符合其兴趣和习惯的人性化搜索结果。每个用户都有他的不同的需求,只有充分理解用户的这种各自不同的差异,才能为用户提供更好、让用户更满意的个性化的服务。所以如何收集用户的个性化信息,建立一个健全的、动态的用户个性化信息库,是实现个性化搜索引擎的关键。2 3 1 个性化信息采集系统如图2 3 所示的个性化信息采集模型,根据这个模型我们可以建立一个个性化信息采集系统来收集用户的个性化信息,系统可以通过与用户交互和检测用户的行为习惯等操作收集用户信息,建立和完善一个健全的用户个性化信息库。8武汉理工大学硕士学位论文图2 3 个性化信息采集模型图不同用户都会有其相关的个性化信息,个性化信息采集有两种方式。用户可以直接将个人信息或者感兴趣的关键词提交给个性化的信息采集模块,这种称为显式收集。用户也可以对搜索引擎的返回结果进行选择,选择出自己感兴趣的有关结果提交给个性化信息采集模块,系统根据用户自身的访问习惯,例如长时间浏览的信息、经常关注的网点等,也可以从中获得用户的兴趣资料,从而得到用户的兴趣反馈,这种称为隐式收集阴。2 3 2 用户个性化信息的采集上面我们已经提到,用户个性化信息的收集方法有显式收集和隐式收集。显式收集是通过用户主动提供的,而隐式收集的主要信息来源则是通过对用户上网时的习惯和浏览网页的一些个人习性进行观察和分析,从而来收集信息,不管哪种方式,也都需要用户的积极配合。用户个性化信息的显式收集优点就是实现简单,过程直接,省时省力,效果明显,但是它收集信息的过程太过依赖用户,需要大量的询问,这样会给用户的使用带来一定的负担,从而影响搜索引擎的实用性。隐式收集因为其后台操作,获取信息的途径较少,所以无法准确获取用户的个性化信息,基于此建立的用户模型经常无法完全让用户满意,但是它对用户的依赖性小,可以主动去发掘和分析出用户个性化信息,具有较好的动态性和实时性。9武汉理工大学硕士学位论文因此在构建个性化搜索应用中,可以有机的将这两种方法结合起来,通过显式方式来获取静态用户信息,通过隐式方式来获取动态用户信息。在用户使用个性化搜索引擎时,可以通过用户注册自己的个人基本信息以及感兴趣的内容,来初始化静态的个性化信息,然后在用户的使用过程中再通过隐式收集来获取用户的动态信息,通过这种完备的信息收集方式,从而有效的为用户提供功能全备的个性化服务。2 4 本章小结本章简单介绍了搜索引擎的开发工具包l u c e n e ,广大用户可以通过运用l u c e n e ,充分利用现有资源,开发出所需要的搜索工具,从而可以省去大量的重复开发的工作和时间。本章介绍了个性化信息采集系统模型,阐述了用户个性化信息的收集方法以及用户兴趣个性化信息的更新方式。对显式方式和隐式方式这两种信息收集方式进行了研究,分析了其各自的优缺点,在实际应用过程中,需要两种收集方式相结合,从而来优化我们的搜索过程。通过这章,可以了解到个性化信息的采集是整个个性化搜索引擎实现技术的关键所在,是提供个性化乃至群体个性化服务的基础,要研究和改进搜索引擎,必须运用到这些相关技术,此章的目的就是为下一步研究改进工作打下基础。1 0武汉理:【大学硕士学位论文第3 章群体个性化搜索引擎的设计与实现随着近年来互联网技术的迅速发展,网络的信息量与日俱增,随之而来的网络应用也越来越深入我们的日常生活,而网络的各种信息在日益丰富的同时也日益繁杂,各种无用臃肿的信息充斥在网络上,干扰着广大网络用户正常的需求。在这种情况下,用户如何从海量的网络信息中甄别适用于自身,收集对个人有用的信息成为了网络发展的热点和难点。在信息繁杂的网络上能够及时、准确而又全面地甄别并获取自己所需要的资源,已成为当前广大用户的共同需求。个性化搜索引擎的出现,有效缓解了互联网混杂、臃肿、多变的信息及其来源和渠道与用户个性化需求之间的矛盾,成为了网络发展历程上一个至关重要的进步。搜索引擎可以帮助用户从海量臃肿的网络资源中快捷有效地获取自己所需要的即时性资源,给人们的学习工作和生活带来了极大的便利。如今,搜索引擎已经成为人们日常生活使用最多而且影响最重要的网络应用工具,并出现越来越快的发展趋势,同时随着互联网的发展和进步,用户也对搜索引擎的提出了更高和更迫切的要求。一4 ? 孙q 雀 1 扼空e t图3 一l 搜索引擎用户规模和使用率武汉理工大学硕士学位论文如图3 1 所示,近年来,搜索引擎用户的规模越来越大,而其使用率在网络用户中的比重也日益趋重,未来几年里,搜索引擎的商业化竞争也将越来越激烈,必将有效的促进搜索引擎技术的发展提高,搜索引擎的开发和应用具有及其重要的现实意义和商业价值嘲。3 1 群体搜索思想3 1 1 传统个性化搜索的现状和不足个性化搜索引擎主要是方便用户实现迅速准确查询服务,同时有效屏蔽掉无关信息的搜索工具。通过用户的个性化信息和需求提供有用的个性化搜索结果,即对于相同的查询请求,不同的用户根据自身需求不同而得到各自所需的结果。但从当前搜索引擎的应用情况看,即使是目前最主流的搜索引擎服务商,比如国内使用最广泛的b a i d u ,在对用户个性化搜索需求方面所能提供的服务还很有限,才处于起步阶段,需要进一步的完善和发展,并且将会有极大的提高空间。可以说,现在的搜索引擎还不能提供令人满意的个性化服务。主要问题如下:一、用户搜索信息表现不完整。这个与不同用户自身文化水平和表达能力有关,有些用户不能熟练使用关键词来检索出自己所需求的信息,往往词不达意,因此不能得到有效搜索。再者搜索引擎也不具备智能纠错想功能,系统往往无法正确理解用户的搜索请求。由于用户与搜索引擎系统在交互上的这些障碍,使得用户的需求无法准确的表现出来,用户的操作也无法被搜索引擎准确的理解和执行,从而导致搜索引擎效率和准确率的低下。二、检索的速度和效率还有待提高。面对大量繁杂的网络数据,传统的搜索引擎个性化技术往往会出现处理不及时、检索速度慢、结果不精确等问题。它所采用的个性化算法和优化技术缺乏良好的精确度,只是简单进行分词匹配和统计,不仅耗时耗力,并且极易漏掉用户需要的相关信息,所以难以得到有效普及。三、对涉及用户隐私方面存在泄露风险。当前搜索引擎即使能简单提高用户个性化需求,也是在通过获知用户个人信息的基础上,而且还涉及到用户使1 2武汉理工大学硕士学位论文用的检索历史记录和c o o k e 文件等,这样就会导致用户自身的个人隐私信息得不到有效保障。由于这些不足和存在的问题,导致目前的搜索引擎一方面无法做到为用户提供满意的个性化服务,一方面在应用和推广上受到的限制,使得个性化搜索引擎处于一个尴尬的境界。3 1 2 群体个性化搜索引擎的提出随着搜索引擎的竞争越来越激烈,发展的日益完善,搜索引擎用户需求也日趋多元化和人性化,如何满足搜索引擎用户日趋丰富和实际的搜索需求,成为搜索引擎发展的目标和方向。由于搜索引擎用户的自身条件、素质、所处环境和需求等方面的个性化的差异,他所关注和需求的的信息也各自不同。由于传统个性化搜索引擎存在的问题和局限性,用户急需一个可以理解用户的个性化需求,并根据用户个性化需求快速准确的提供用户真正感兴趣的信息的个性化搜索引擎,群体个性化搜索引擎就是在这种背景下被提出来的。前面已经提到过,个性化搜索引擎的最完美状态是为每一位用户量身定制一个特定的最符合其自身的搜索引擎,但基于过于庞大的用户基数,这个想法是难以实现的。在网络世界中,大量的网民都有非常集中和明确的上网目的,这些人中存在着大量具有相同兴趣和情趣的人,他们通常都具有相同或相似的的网络行为和网络应用。而这些人在使用搜索引擎时,他们的表达方式和使用的搜索关键词往往也具有惊人的相似度。基于这点可以按照“人以群分”的法则,将庞大的搜索引擎用户群体划分为若干个小的群体( 我们称之为个性化群体) 。群体个性化搜索引擎的核心思绪像就是将庞大的搜索引擎用户群体分成若干个具有相同兴趣和情趣的个性化群体,以群体为单位,寻找出群体的共性作为这个群体对外的群体个性,然后根据群体个性为这些群体提供个性化的搜索服务。而且由于搜索引擎用户明显的群集性,只要抓住这种群集性中的主要群体,就抓住了搜索引擎用户中的绝大部分个体。而当有新用户加入时,只需要根据其提供的个性化信息,将其归类到各个个性化群体中,就可以为其提供相应群体的个性化服务。1 3武汉理工大学硕士学位论文3 1 3 群体个性化搜索引擎的可行性分析前面已经提到,群体个性化搜索引擎的核心思想是根据“人以群分 的法则,将用户个体的概念放大为具有相同个性化特征的用户群体,转而为个性化用户群体提供适合其群体个性化的个性化搜索引擎。如何根据网络上如此庞大、的搜索引擎用户群,来划分个性化搜索群体,找到其共性,下面可以通过一些数据来具体了解一下我国搜索引擎的用户特征。3 1 3 1 搜索引擎用户的结构特征为了将广大的搜索引擎用户分之以群,先来看看2 0 0 9 年中国搜索引擎用户行为和结构的一些数据【4 】:1 9 岁以下2 0 2 9 岁3 0 s 争岁4 0 - 4 9 岁5 0 s 9 岁6 0 岁以上一年龄分布川卜不同年龄群体搜索使用率图3 2 搜索引擎用户年龄分布1 4 ob,昏,觞识鹳竹秽铋的舶秘。武汉理工大学硕七学位论文1 0 0 钟03 0 a6 0 o 4 0 o 2 0 o o a8 0 9 6 0 伊4 0 伊2 0 伊o 髀;i 学历分布- i - 不同学历群体搜索使用率图3 3 搜索引擎用户学历分布一收入分布叫叠一不同收入群体搜索使用率图3 4 搜索引擎用户收入分布o心y心秽r 拶武汉理工大学硕士学位论文其他无业下岗走业退休表赫牧渣劳 b 者自由职业者个体户产业服务业工人农村外出务工人员专业技术人员企业公司一股职员企业公司管理者党政机关事业单位工作者学生j 0 ;。网民总体挫霉用户一:4 :4 - 。_ j l c f op 一。蔓! ! ! ! ! ! ! ! ! ! ! ! 曼宴! ! ! 三= lv l _ _ :。一| ( 。十:一? t4 ”?图3 - 5 搜索引擎用户职业分布由以上这些数据可以看出,搜索引荤用户结构比较单一,用户大多集中在年轻人群,其学历也相对较高,而从收入来看,各个收入段人群中,搜索引擎与收入水平成正比随着收入上升,使用搜索引擎的人数比重也越来越大。与全国网民整体的收入水平相比,搜索引擎用户的月收入水平明显高于全国网民的月收入水平,拥有较强的消费支付能力。搜索引擎用户基本都是具有一定技术水平,生活水平相对较高的用户群,所以搜索引擎作为互联网的基础应用之一,具有较高的商业价值。313 2 搜索引擎用户的网络行为特征据了解,我国网民最广泛的网络应用是以娱乐为主,在搜索引擎的使用上也更倾向于娱乐休闲相关的信息。1 、搜索内容近年来,用户个人需求,比如娱乐休闲等搜索比重日益加大,说明用户需:篙= “武汉理工夫学硕士学位论文求越来越个人化。粤业瓷料苴他生活信息企业产亚畸耪信孽2 、网络应用图3 - 6 用户使用搜索引擎搜索的内容一一一一一1jjj一毒一武汉理t 大学硕十学位论文0 。rrh “n :i :蠢。妒,t : 2 $ e 。啥j ?图3 7 搜索引擎用户各种网络应用使用情况从搜索引擎用户的网络行为来看,广大网民开益增长的网络需求越来越倾向于个人化,就是相对集中于个人的日常生活和娱乐,人们越来越重视自身的个性化需求,而且广大网民的行为特征基本相似和集中,越来越依赖于网络搜索引擎的应用。由此可见,搜索引擎的实际应用意义是毋庸簧疑的,如果其发展更不上用户日益增长的个性化需求的需要,必将导致其发展理念和技术的重丈更新,由此而适合提出的群体个性化搜索引擎概念,可以在一定意义上满足了搜索引擎发展的需要。由于网络用户群体的相对集中,按照群体划分用户行为的理念是可行的,通过网络用户需求和行为特征,详细将其划分为不同的群体,然后再以这些群体为单位,为群体用户提供个性化服务,从而为个人提高服务。在个性化群体的划分过程中,不可能做到面面俱到,我们要做的是抓住主流,即大部分用户群体的共性和特性,对他们进行归纳和总结,来进行个性化用户群体的创建和划分。比如按照用户的年龄,我们可以将用户划分成1 0 一1 9岁用户群,2 0 2 9 多用户群,3 0 岁以上用户群:按照用户的学历,可以将用户划分成中小学用户群,高中专技校用户群,大专用户群,本科用户群,本科以上用户群;按照用户的职业可以将用户划分成学生用户群,党政机关事业单位用户群,企业职工用户群,企业管理者用户群,专业技术人员用户群,自由职业者用户群等:按照用户的网络应用,可以将用户划分成影视、音乐搜索用武汉理工大学硕士学位论文户群,游戏用户群,新闻搜索用户群,专业资料用户群等;而且一般来说,女性用户的网络应用主要以购物娱乐为主,而男性用户则主要以娱乐游戏为主。我们可以根据这些来划分详细的用户群体。3 2 群体个性化搜索引擎的整体结构设计群体个性化搜索引擎的核心思想就是将用户根据其特征相应划分为若干群体,然后以群体为单位分别为各个个性化群体提供个性化和人性化的专业搜索引擎,来实现个性化服务的目的。3 2 1 群体个性化搜索引擎的设计思想为了使群体个性化搜索引擎具有更强的信息处理能力,设计中特地采用了客户端服务器模式。在客户端使用了智能分析模块和包含了用户的个性化信息库,其中客户端在用户成功登录后,会将服务器端的用户个性化信息读取到本地并存储在用户个性化信息库中。在群体个性化搜索引擎客户端的工作过程中,用户提交的搜索请求首先会通过客户端的智能分析模块和用户个性化信息库,经过分析和优化处理后的个性化搜索请求发送到服务器端,而服务器端的智能分析模块只需要对用户搜索请求进行粗略的分析和优化;同样搜索结果服务器端也只需要做较为粗略的整理,返回的搜索结果在客户端再做详细的筛选、排序和优化。这样设计主要是为了减轻服务器端的压力,采用这种模式可以将大量的优化和分析的工作分散到客户端进行,大大减小服务器的工作压力。由于群体个性化搜索引擎服务器端的搜索是采用n 个专业搜索引擎共同工作的模式,在服务器端的设计中,采用了多元搜索引擎的设计模式,在多元搜索引擎中一个主搜索引擎之下包含众多的专业搜索子引擎,分别处理各个领域的搜索请求。3 2 2 群体个性化搜索引擎的体系结构群体个性化搜索引擎主要分为客户端和服务器端两大部分。客户端是连接客户与服务器的桥梁,它的主要功能就是负责提供与用户交互的接口和界面,其作用是管理和收集用户的个性化信息,在用户个性化信息库的支持下分析和1 9武汉理工大学硕士学位论文优化用户的搜索请求,使其更加符合用户的个性化需求,然后将优化后的个性化搜索请求提交给服务器,并等待服务器的返回结果,在收到服务器返回的搜索结果以后,根据用户的个性化信息将服务器返回的搜索结果再进行进一步的筛选、排序和优化,最终返回给用户。服务器端则实现了群体个性化搜索的主要搜索功能,它的主要功能是负责对客户端的搜索请求进行响应,接收客户端的个性化搜索请求,并利用群体个性化信息库和领域知识库对搜索请求进行分析、解读,然后分类后分别提交给针对各个群体的个性化搜索引擎,各个个性化搜索引擎通过对网页数据库进行挖掘、聚类形成各个类型的网页索引,经过初步整理后将搜索结果返回给客户端。群体个性化搜索引擎的总体结构如图3 8 所示:撇务器端j图3 8 群体个性化搜索引擎的体系结构图武汉理工大学硕士学位论文如图3 8 所示,群体个性化搜索引擎分为客户端与服务器端两大部分。客户端主要包括用户界面、用户接1 2 1 、用户个性化信息库和智能代理a g e n t 模块,其中智能代理a g e n t 是其中的主要功能模块。用户界面是用户直接接触到的图形化的用户接口,用户接口则负责在后台实现图形化用户接口的各个功能;用户的个性化信息库主要负责存储用户的个性化信息,并根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论