(计算机应用技术专业论文)面向博客的个性化检索系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)面向博客的个性化检索系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)面向博客的个性化检索系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)面向博客的个性化检索系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)面向博客的个性化检索系统的设计与实现.pdf_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 伴随着i n t e m e t 的飞速发展,博客系统作为一种社会性软件,在互联网上得 到了广泛的应用,同时i n t e m e t 上的各类信息资源和博客用户群也在迅速激增, 面对互联网上丰富的信息资源,针对博客用户的个性化信息服务越来越成为信息 检索领域中研究的热点,而博客系统中的数据检索存在两方面不足:一方面基于 简单的关键词匹配来推荐信息,不能准确的挖掘用户的兴趣偏好,另一方面在博 客标签中不提供关键词检索,使个性化标签在博客检索中没有发挥真正作用。因 此基于博客系统的个性化推荐服务技术的设计与开发成为广大博客用户急需的 产品。 本文提出面向博客用户的个性化检索方法,该方法使博客用户在检索信息时 借助于搜索引擎来满足用户的意图,传统搜索引擎是一个面向大众的没有体现个 性化的检索工具,由于博客中的用户标签可以反映用户的兴趣,所以在搜索引擎 中应用博客标签来实现博客用户个性化信息检索。综合利用内容过滤和协作过滤 两种技术的优势,建立了基于博客的个性化搜索引擎系统的体系结构。为此首先 利用博客用户标签建立用户模型,然后为了动态跟踪用户的行为,挖掘用户隐含 兴趣,根据用户聚类的算法计算相似用户群,建立用户群兴趣模型,基于该两种 用户模型本文提出了多级常规索引方法,将模型中的兴趣标签作为搜索引擎的关 键词进行多次反复迭代过滤匹配,从而为博客用户提供个性化的检索服务。 在上述工作的基础上,设计和实现了面向博客的个性化检索系统。该系统很 大程度上克服了目前博客检索中存在的不足,克服了传统搜索引擎技术上的缺 点,使该系统能够深层次挖掘用户兴趣,迎合用户偏好,实现对博客用户在搜索 引擎中的个性化推荐服务。 关键词:推荐系统协同过滤用户偏好个性化服务 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,t h eb l o gs y s t e mi sa p p l i e dw i d e l ya sa k i n do fs o c i a ln e t w o r ks o f t w a r ef o ri n t e m e t a n dw i t h 锄i n c r e a s ei nv a r i o u s i n f o r m a t i o nr e c o u r s e sa n db l o gu s e r s g r o u po fi n t e r n e t ,p e r s o n a li n f o r m a t i o ns e r v i c e s o nb l o gu s e r sa r eb e c o m i n gm o r ea n dm o r ei m p o r t a n ti nt h ei n f o r m a t i o nr e t r i e v a l s y s t e m b u tt h e r ea r et w op r o b l e m so nt h ei n f o r m a t i o nr e t r i e v a lo fb l o gs y s t e m :o nt h e o n eh a n dt h et r a d i t i o n a ls e a r c he n g i n eo ns i m p l ek e y w o r d sc a l ln o tp r o v i d em o s t p r o p e ru s e r s i n t e r e s t st ou s e r o nt h eo t h e rh a n dt h et a go ft h eb l o gs y s t e mc a nn o t p r o v i d et h ek e y w o r dr e t r i e v a l ,a sar e s u l t ,t h et a gk e y w o r dr e t r i e v a li sn o ts a t i s f i e dt o t h eb l o gs y s t e m s ot h ed e s i g na n di m p l e m e n t a t i o no fb l o go r i e n t e dp e r s o n a l i z e d r e c o m m e n d a t i o ns e r v i c et e c h n o l o g ym e e t st h en e e d so f r n a n yb l o gu s e r s i nt h i s p a p e ram e t h o di sp r o p o s e df o rt h eb l o gs y s t e mu s e r - b a s e dp e r s o n a l i n f o r m a t i o ns e r v i c e s ,u s e r s r e a ls e a r c hi n t e n t i o nc a nb ed e d u c e db yt h i sm e t h o d t h r o u g ht h es e a r c he n g i n e b u tt h ep e r s o n a li n t e r e s ti sn o tc o n s i d e r e di nt h et r a d i t i o n a 1 s e a r c he n g i n e u s e r s t a g ss h o wu s e r s i n t e r e s t s ,s ot h eb l o gt a g sa r ea p p l i e dt ot h e s e a r c he n g i n et or e a l i z et h ep e r s o n a l i z e dr e c o m m e n d a t i o ns e r v i c eo nt h eb l o gs y s t e m t h ea d v a n t a g e so fc o n t e n t - b 丞e df i l t e r i n ga n dt h ec o l l a b o r a t i v ef i l t e r i n gt e c h n i q u e a r ec o m b i n e dt oan e wt e c h n o l o g ya p p r o a c h , a n dak i n do fi n t e l l i g e n ta r c h i t e c t u r ef o r p e r s o n a l i z e ds e a r c he n g i n eo nb l o gi sg i v e n o nt h i sb a s i s ,t h eu s e r s m o d e l d e p e n d i n go nt h eu s e r s t a gi sc o n s t r u c t e d t h e nt od y n a m i c a l l yt r a i lt h eu s e r s b e h a v i o r sa n dd i go u tt h eb s e r s i m p l i e di n t e r e s t s ,t h eu s e r sg r o u p si n t e r e s tm o d e li s c o n s t r u c t e dt h r o u g ht h es i m i l a ru s e r sa c c o r d i n gt ot h ea l g o r i t h m so fc l u s t e r i n gb a s e d o nu s e r s t h eh i g h c l a s sr e g u l a ri n d e xo ft h es e a r c he n g i n eo nt w ok i n d so fp a t t e r ni s s u g g e s t e di nt h ep a p e r m a t c h i n gm a n yt i m e sb e t w e e nt h et a gk e y w o r d sa n di n d e x f i l e sa c h i e v et h ef i n a lr e s u l t a n di tp r o v i d e st h ep e r s o n a ls e a r c hs e r v i c et ot h eu s e r s o nt h eb a s i so ft h ea b o v e m e n t i o n e dw o r k , b l o go r i e n t e dp e r s o n a l i z e dr e t r i e v a l s y s t e mi sd e s i g n e da n di m p l e m e n t e d , w h i c ho v e r c o m e st h ed i s a d v a n t a g eo fb l o gt a g a n dt r a d i t i o n a ls e a r c he n g i n e i tc a nm i n eu s e r s i n t e r e s ta n dc a t e rt ot h e i rs p e c i a l i n t e r e s t i n g p e r s o n a l i z e dr e c o m m e n d a t i o ns e r v i c ei ns e a r c he n g i n ef o rt h eb l o gu s e r s i sg i v e nl a s t k e yw o r d s :r e c o m m e n d a t i o ns y s t e m , c o l l a b o r a t i v ef i l t e r i n g ,u s e rp r e f e r e n c e , p e r s o n a l i z e ds e r v i c e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤盗叁堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:味甄翔签字日期:沙7 年罗月 ,日 学位论文版权使用授权书 本学位论文作者完全了解丞壅盘堂有关保留、使用学位论文的规定。 特授权丕鲞盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:物莉导师签名: 签字日期:泖7 年夕月e 1 签字日期:_ 7 年罗月厂日 第一章绪论 1 1 课题的产生背景 第一章绪论 随着i n t e m e t 的飞速发展,w e b 已成为人们获取信息的一个重要的途径。由于 互联网上蕴藏着海量的信息,并且信息正在呈爆炸式增长,因此人们好像是“大 海捞针”一样搜索有用信息,同时也无奈地接受许多无用信息,那么如何在这浩 瀚的信息中有效地、准确地找到用户感兴趣的信息,过滤无关信息早已成为人们 共同关心的问题。面对互联网上丰富的信息资源,搜索引擎是互联网中检索数据 的有效工具,然而在对资源需求更准确更高效的今天,传统的检索技术存在以下 不足,第一简单的基于关键词匹配来推荐信息,传统的搜索引擎没有考虑用户的 偏好,不同的用户输入相同的检索词得到的检索结果是相同的【。第二不能很好 的适应用户兴趣变化,不同的人对事物有无兴趣很大程度上取决于个人的主观 性,当某一用户对某件事情感兴趣时,由于受到周围环境的影响,可能会发生兴 趣的转移、增加或扩展,而传统的检索技术不能满足用户个性化的检索需求【2 】。 第三没有真正解决相关性问题。信息检索就其本身来讲是一项个性化特性很强的 活动,不同的用户有不同的爱好与需求,而传统搜索引擎的检索模型采用“一个 引擎适用所有用户”,这势必会导致检索结果与用户需求存在一定的偏差【3 】,那 么如何增强搜索引擎的功能,提高信息的查全率、查准率,满足不同类型用户群 的个性化信息检索的要求,成为检索技术在未来发展中的重要趋势和特征。 随着社会性软件的产生与发展,作为其中之一的博客( b l o g ) 系统在不断完 善和壮大,突破了基于网页超链接形成的网络关系,形成了信息网络系统之间的 协作关系,系统借助于自由标签来表达用户的兴趣偏好,支持对其他网站的连接 和评论,用户对博客有着高度的自由控制权,这种开放式理念和灵活的操作模式 便于各类人群更个性化的表达观点【4 】。随着网络信息资源和博客用户的激增,越 来越多的各种行业用户利用博客空间进行广泛的交流、协作、共享知识经验,当 今博客系统已经成为人们网络生活中获得资源的重要途径之一,然而面对庞大的 网络资源,博客用户能否高效准确地快速找到需求信息成为广大博客的关注焦 点。目前大多数博客系统都带有自己的检索功能,但存在一些不足,一采用按照 时间或者用户资源发布排序的检索方式,不能满足用户个性化检索要求,二在博 客标签中不提供关键词检索,由于标签( t a g ) 系统有着很强的分类属性,一些博 客系统通过标签聚合的方法给用户提供资源的关联,但是却抹杀了用户使用关键 第一章绪论 字检索的权利,对资源的查阅造成桎梏,所以当务之急是对博客用户的信息检索 采取何种手段来满足用户的个性化检索要求。 博客系统采用标签分类形式来组织信息,标签反映了用户的兴趣偏好,这就 为信息检索提供了极大的方便条件,那么如何将标签运用到检索系统中满足博客 用户检索的需求成为搜索引擎今后发展的方向之一。目前搜索引擎已成为人们用 来检索信息的重要途径,由于它的检索结果单一化,让不同的人输入相同的关键 字看到相同的结果,它不能反映不同人的不同需求,而博客标签恰好反映了不同 的用户对相同的标签的不同的兴趣度,因此在搜索引擎中通过引入标签来解决博 客用户个性化推荐问题是一个很好的解决方案。用户只要登陆自己的博客即可随 时在搜索引擎上查询自己所需个性化内容,所以本文提出建立一种基于博客系统 的个性化检索成为时代的需要。 1 2 个性化检索系统的发展现状 “个性化”一词自被引入计算机领域以来在各个方面都引发了巨大的变革,作 为计算机传统领域的检索技术也有着日新月异的变化【5 】。为了解决传统检索系统 与用户群组需求的矛盾,不同的团体和个人提出了新的理念和模式以实现个性 化,目前有三种主要模式在一定范围内有着相关的应用。第一,垂直主题检索模 式,这种检索方式首先将全部资源分成若干门类【6 j 。用户可以选择在专门的门类 中检索所需资源,这样所获得资源除了包含用户所关心的关键字以外还将附带一 个统一的主题,提高了检索的精度和分类的细化。第二,筛选选择检索模式,该 方式将所有资源的共有特征整理成为一项表单,表单中,各项下面包含许多描述 该特征的小项,用户需要在检索前完成各个小项的选择,然后从数据源中导出与 之匹配最贴切的资源,该资源特征取决于用户的选择,将最大匹配用户的个性特 征【7 】。第三,元检索模式,该检索模式是将用户提交的检索请求提交到多个不同 的检索系统上,并将检索的结果统一处理采用结果自动聚类的方式满足不同类型 客户的需求i 引。三种新式的检索模型都在一定程度上改善了传统系统弊端,在实 现检索系统的个性化服务方面迈出了第一步,但是由于分类及表单项目都由检索 系统本身提供,在很大程度上限定了资源属性的灵活性和自由性,不能完全适应 用户个性化结果的追求,最理想的状况应当是检索的结果与用户的习惯和意愿有 关。为此,本课题提出了一种新的设计理念用来表现检索的结果对用户个性化取 向的体现。 第一章绪论 1 3 研究内容及创新点 为了满足博客用户对信息资源的个性化检索,本课题主要涉及两方面内容, 一、博客系统的标签;二、搜索引擎系统的检索,问题是如何将两者有机的结合 起来构成本课题的主体思想。本课题主要创新点也是基于上面两个方面: 博客系统的标签。虽然博客中可以进行检索,但是在博客标签中存在检索不 足问题,例如博客标签中不能使用关键字进行检索,众所周知标签在博客中的灵 活运用给用户群带来一定的方便,标签( t a g ) 系统有着很强的分类属性,通过标 签聚合的方法使资源关联,但是在标签系统拒绝用户使用关键字检索,所以标签 在博客检索技术领域没有很好的发挥其应有的作用,造成博客系统中检索系统与 标签系统作为两个分立的系统独立操作运行,使得w e b 2 0 所倡导的个性化主题 没能在检索中得到很好体现【9 】。为了解决上述问题,结合w e b 2 0 中博客标签系 统的特点,将标签系统与检索系统有机结合起来,满足博客用户通过标签系统进 行个性化检索。 个性化检索技术。目前博客系统中的检索存在单一化问题,例如检索是依旧 按照特定的顺序将结果显示给用户,不同用户用同一个关键字去查询得到的结果 会完全一样,这种传统的检索方式使用户不能高效的找到自己满意的信息。采用 搜索引擎的信息过滤技术成为解决上述问题的重要手段之一。过滤技术主要有基 于内容过滤和协作过滤技术,基于内容过滤的技术是通过比较资源( 与标签有关) 与用户描述文件( 主要构成对象是博客用户号和标签) 来推荐资源,从中可以发 现和用户已有兴趣相似的资源。协作过滤是根据相似用户群( 博客群) 来推荐资 源,可以发现用户新的兴趣,这里用到一个关键的技术是用户聚类算法。由于内 容过滤的缺点是不能为用户发现新的兴趣,协作过滤的缺点是:一稀疏性问题, 二可扩展性问题。因而本课题针对目前检索系统个性化表现方面的不足,用 w e b 2 0 的理论和产物来对传统的检索系统进行优化,综合运用内容过滤和协作 过滤两者的技术优势,弥补使用单一方法出现的不足问题,提出了一个基于博客 标签系统的个性化检索系统模型,使得博客系统和搜索引擎系统结合起来,以充 分发挥个性化推荐技术的优势,为博客用户高效、准确的推荐信息资源。 该系统通过跟踪博客用户标签行为挖掘用户的兴趣偏好,建立用户兴趣模 型,根据动态协作过滤算法解决用户聚类,利用标签相关性得到相似用户群,并 从中预测用户兴趣和推荐用户信息,从而为博客用户提供个性化的检索服务。 1 4 全文安排 第一章绪论 本课题是针对传统检索系统的不足,借鉴于当今w e b 2 0 的发展成果,提出 了一套个性化检索系统的实现方案。全文介绍如下。第一章绪论,用以阐述课题 产生的背景发展以及本文的研究内容和创新点。第二章综述社会网络背景下的个 性推荐技术。第三章整体上描述本课题的设计思想流程。第四章阐述课题设计过 程中几个关键技术环节。第五章实例验证分析本课题设计思想,并进行结果比较。 第六章在总结全文的基础上,指出该课题未来需改进完善的环节和发展方向。 第二章社会网络背景下的个性化检索技术 第二章社会网络背景下的个性化检索技术 2 1 社会网络概述 社会是随着人类的产生而自然形成的,为实现每个个体的不同需求层次的最 大化而建立的一种相互互利与牵制的复杂关系体系,这种复杂关系体系的实质从 技术的观点上讲就是信息的交流与行为的互动【1 0 1 。随着计算机技术和通信技术的 不断发展,计算机信息网络技术已渗入到社会的各个层面,信息网络的蓬勃兴起, 赋予人们新的生活方式和交往方式,发现彼此间的共同爱好,因而一个庞大的社 区网络系统油然而生。 社会网络的理论基础是“六度分隔理论”。维基百科认为社会网络( s o c i a l n e t w o r k i n g :s n ) 是指个人之间的关系网络。信息与通信技术等多元化的内容, 深化了社会与网络内涵,增加了人们通信和社会交往的新形式,技术与社会的互 动最终会形成新的社会网络。构成社会化网络的三要素【1 l 】有网络结构( n e 锕o r k ) 、 内容( c o n t e n o 和通过网络处理内容的方式( m e t h o d ) 。社会网络涉及到网络时空中 人类社会群体的沟通和互动,网络空间为这种沟通和互动创造了一个新的场域和 新的形式,就其互动的过程效果和最终后果来说并不是“虚拟”的,而是真实的。 网络互动是一种社会互动,网络互动是基于计算机网络相关技术手段,将跨越时 空和距离的网络成员紧紧地联系在一起,不管成员间相识与否都可以彼此传递信 息,分享经验,交换观点,这种跨时空的远距离沟通互动是一般社会沟通手段所 无法做到的,新技术和技术能力将进一步推动人的社会网络驱动和欲望。网络互 动分为网络二元互动、网络媒体传播、网络集体行为、网络侵犯行为和网络团队 建设五种类型【1 2 】。 社会性网络服务用于管理和拓展人际关系网络,通过社会网络服务用户不但 可以管理自己的人际关系网络,也可以借助自己朋友的关系发展新的朋友,同时 还要开放自己的关系网以便朋友共同分享,充分体现集体协作与分享。 2 2 社会性软件概述 2 2 1 社会性软件简介 国夕l - w i l l i a md a v i e s 认为社会性软件是指任何可以促使团体和或者社群沟通 第二章社会网络背景下的个性化检索技术 和写作的软件。国内毛向辉认为社会性软件意味着个人带着软件成为了社会网络 的一部分【1 3 】。社会网络( s o c i a ln e t w o r k ) 与网络软件( n e t w o r ks o t h , c a r e ) 催生了 社会性软件,社会性软件的特征和内涵可以概括为三点【1 4 1 :1 ) 社会性软件首先是 个人软件,它是个人参与社会网络的工具,个人软件突出了个体自主性的参与和 发挥。2 ) 社会性软件构建的是社会网络,这个社会网络包括弱链接、中链接和强 链接。3 ) 社会性软件是个人主体性和社会性的统一。社会性软件充分体现社会性 协作以及信息交换,通过社会性软件能够真正地将学习过程与自由交互融合在一 起,实现了获取各种动态的非正式知识和开展自由的信息沟通。社会性软件是网 络社会化革命进程中出现的一种新生事物,能够反映社会存在和社会关系,使得 互联网应用模式开始从传统的人机对话逐渐转变为人与人对训1 4 1 ,促进了更有效 的集体协作或社会关系网络的发展,软件的社会化在功能上能够反映和促进真实 的社会关系的发展和交往活动的形成,使得人的活动与软件的功能融为一体。 社会性软件的产生与信息技术和社会环境密切相关,目前信息技术与通信技 术已经进入社会主流,渗透到人们的日常生活与工作的方方面面中,社会性软件 要管理和发展个人的社会关系,开放协作环境,使群体进行通信与协作,通过社 群互动充分发挥互联网潜力。社会性软件的目标是让多人协作参与实现需求,所 以社会性软件体现了集体协作。社会性软件发展得非常迅速,而且广泛地被人们 使用着,例如:b l o g 、w i k i 、网页书签分享网站d e l i c i o u s 、图片分享网站f l i c k r 等,它们对人们的工作、学习和生活等产生了巨大的影响,具有开放共享、同创 共用的特点。 2 2 2 b l o g 简介 w e b 2 0 作为万维网络的信息服务平台,其开放协作的服务理念给系统间的 良好协作开辟了新的服务模式,在注重个性化服务的今天,w e b 2 0 的运营方式 给用户更大的自主空间,博客系统作为w e b 2 0 的产物被广泛的应用。b l o g 原意 为网络日志,国内译为“博客”。博客产生于2 0 世纪9 0 年代末的美国,2 0 0 2 年8 月在中国开通。博客是个人出版和聚合类型的社会软件,作为学习和个人知 识管理的工具,通过博客人们可以出版和发布自己的知识和见解,具有共同兴趣 和爱好的群体可以对此发表评论、留言,使各个成员之间的思想交流互通有无、 互相协作,这种交流、合作与分享不仅有助于开阔群体的视野和思路,更有利于 开发个体学习者的思维深度和广度,进一步扩大了对互联网络的影响【”】【1 4 】。博 客具有以下优势: 1 ) 实现了“人人对话”形式,基于博客的交流平台打破了以往的“人机 会话 ,缩短了人们之间的距离感,增强了人人之间的情感交流。 第二章社会网络背景下的个性化检索技术 2 ) 有利于个性化的自我管理,博客具有个体成员工作、学习和生活的个性 化特征。 3 ) 加强了群体之间的协作性,成员间可以就一个话题展开深入的探讨,加 深彼此之间的交流、合作和了解,使个性化的内容在群体问分享,并形成一定的 社会网络关系。 4 ) 通过标签来自由组织信息,给用户带来方便灵活的信息组织手段。 5 ) 可操作性强,操作起点低,简单易学,深受大众的欢迎。 6 ) 以特定时间顺序记录内容,可以有效地反映用户近期或某段时间的关注 点,可以展现用户兴趣及兴趣迁移。 近几年博客用户及资源呈几何数字增长,面对丰富的网络资源,博客系统为 博客用户设计了一个检索功能以满足用户对信息检索的需求,当博客用户需要查 询某内容时,在博客界面输入关键字后点击搜索,于是结果按时间和空间堆叠式 的罗列的方式显示出来。而不同的用户搜索同样的内容,其结果是一样的,这种 检索结果不能满足多数用户的检索目的,检索的需求需要体现不同用户群组的个 性化特征,针对不同的人群,提供与其相匹配的检索结果【1 5 】。所以本文借助个性 化搜索引擎来为用户提供更好的检索服务。 标签( t a g ) 在博客中作为一种信息组织方式充分体现了用户的主体参与, 用户可以根据需要自由的选择并加注标签,通过标签增加用户间的协作,每个人 在博客中都贡献着自己的分类知识,并从中发现兴趣相同的群体。标签( t a g ) 系统采用自由分类法( f o l k s o n o m y ) ,自由分类法作为w e b 2 0 新的数据应用模式, 是用户自发的用标签对感兴趣的资料进行分类,与他人共享标签的过程和结果, 自由分类法具有自由、共享和动态更新的特点,它成为构筑w e b 2 0 的核心要素 之一【16 】【1 7 】。传统的数据分类是通过专业人士和标准化推行,往往使简单的问题 复杂化,不利于资料的组织及查找。自由分类法面向因特网大众,在使用上简单 得多,各个标签之间的关系是一种平行的关系,但可以根据相关性分析,将经常 一起出现的标签关联起来,而产生一种相关性的分类【l 引。基于标签的相关性可以 进行用户群的分类与聚合,弥补了传统检索相关性不足的问题。标签也可以说是 一种关键词标记,利于检索查找【1 9 】,但是标签不同于传统的关键词,传统的检 索系统用关键词进行检索时,只能检索到资源里面所涉及到的关键词,而标签却 可以将文章中根本没有的关键词作为标记【2 0 1 。标签分类汇聚了群体智慧,通过资 源之间的相关性给群体用户增加更广阔的协作空间。在个性化搜索引擎中,系统 需要动态掌握用户的兴趣才能为用户提供准确的检索结果,由于标签可以动态捕 捉用户偏好,挖掘用户隐含兴趣,所以本课题将博客标签应用到搜索引擎中实现 基于博客用户的个性化推荐服务。 第二章社会网络背景下的个性化检索技术 2 3 社会性软件理论基础 社会性软件以社会科学研究理论为指导思想,社会科学理论包括社会网络的 相关理论等,其中六度分割、1 5 0 法则等社会网络理论是社会性软件系统所依据 的社会学理论。 2 3 1 六度分隔理论( s i xd e g r e e so fs e p a r a t i o n ) 美国著名心理学家米尔格伦( s t a n l e ym i l g r a m ) 于2 0 世纪6 0 年代最先提出六 度分隔理论,即你和任何一个陌生人之间所间隔的人不会超过六个,也就是说, 最多通过六个人你就能够认识任何一个陌生人。“六度分隔理论使得构建于信 息技术与互联网络之上的应用软件越来越人性化、社会化。六度分隔理论的发现 和社会性软件的发展向人们表明:社会性软件所构建的“弱链接,正在人们的 生活中扮演越来越重要的作用。“六度分隔”说明了社会中普遍存在的“弱连接”, 发挥着非常强大的作用【1 4 】。 2 3 21 5 0 法则( r u l eo f1 5 0 ) 从欧洲发源的“赫特兄弟会”是一个自给自足的农民自发组织,这些组织在 维持民风上发挥了重要作用。他们有一个不成文的严格规定:每当聚居人数超过 1 5 0 人的规模,他们就把它变成两个,再各自发展。“把人群控制在1 5 0 人以下 似乎是管理人群的一个最佳和最有效的方式。” 1 5 0 成为我们普遍公认的“我们可以与之保持社交关系的人数的最大值。”无 论你曾经认识多少人,或者通过一种社会性网络服务与多少人建立了弱链接,那 些强链接仍然在此时此刻符合15 0 法则。这也符合“- - k ”法则,即8 0 的社会 活动可能被1 5 0 个强链接所占有1 1 4 1 。 2 4 用户偏好 个性化服务的核心内容是了解用户检索需求,让计算机来理解与表示人类偏 好,为用户提供准确的、满意的信息服务。通常搜索用户各种信息的方法有显式 方法和隐式方法两种。显式方法一般是通过用户注册信息或用户询问来获取用户 兴趣偏好,但是用户常常很难清晰地描述自己的兴趣,同时用户还要很好的配合 系统,当用户兴趣变化时要主动修改用户信息,所以用户注册的静态信息往往不 能全面反映用户真实的兴趣。隐式方法一般通过用户对网站的浏览行为来搜集用 第二章社会网络背景下的个性化检索技术 户兴趣,浏览行为包括对页面停留时间、页面点击次数、页面滚动操作等,以此 来跟踪用户行为和兴趣,挖掘出用户隐含信息。 2 4 1 用户偏好提取技术理论 文】2 1 指出用户偏好提取的目标是获得用户偏好构建精确的用户模型,偏好 提取就是要尽可能多的收集偏好数据,从中发现隐藏偏好,给出一个合理的判决。 文中指出用户偏好提取技术理论基础是判决和多属性效用理论,而判决和多属性 效用理论主要是对判决问题或场景的输出和选择作出评估。输出由一系列属性变 量的值来定义,x - - - x 1 ,x n ,判决问题的输出集合0 包含于输出空间q , 0 q ,q = x lx x 2 x x x n 。为了基于输出空间0 作出判决,判决系统经常 要根据用户偏好决定输出的次序,称为偏好关联。效用函数u ( x ) - o 专r 能够在 输出空问0 上推导出偏好关联。效用函数对系统对提取系统非常重要,偏好提取 的主要任务是构建精确的效用函数和用户偏好关联表示,为个性化的服务做好充 分准备。 2 4 2 用户偏好的获取方式 个性化信息检索的任务是根据用户需求找出相关信息,对用户需求分析和表 达是信息检索重要的问题,因而系统如何得到用户全面的、明确的信息将直接影 响系统的个性化推荐效果,下面分析如何得到用户当前的偏好。 注册方式,通过服务器上保存的用户描述文件来获取用户兴趣,用户根据网 站制定的内容进行需求信息或注册信息填写,并根据需要从选择项选择或添加相 关信息和相关兴趣,这种直接获取兴趣的方式给网站带来一定的方便。该方式需 要用户很好的配合起来,但是有些用户由于各种各样的原因未必如实填写或者即 使有了新的兴趣不愿及时修改,这样就导致网站所获取的信息缺乏真实性。 询问方式【2 ,系统通过对用户评价推荐资源的喜好程度,分析用户的动机偏 好,加深系统对用户偏好的理解。次序询问让用户对可能的输出进行比较,它只 能提供用户偏好关联的信息,不能提供用户的值和效用函数。分级询问是次序询 问的一个特殊类型,要求用户给输出分配一个级别,这种询问不总是可行。值询 问提供了一个对输出间偏好程度的定性衡量。如果输出空间大,用户计算每个输 出值很困难。用户要对自身的需求非常清晰,所以用户往往对需求的表达是模糊 的、不明确的。 隐式跟踪方式,通过对用户对网站的浏览行为获取用户兴趣,这种方式跟踪 用户在页面上停留的时间、标记书签、点击次数、访问次数、保存、编辑、修改 第二章社会网络背景下的个性化检索技术 拖动滚动条等动作,分析用户的行为偏好,获取用户的兴趣信息和兴趣度。因为 人们对事物的关一t l , 或关注很大程度上取决于用户个人的主观性,例如a 对音乐 类事物发生兴趣,b 却对体育类事物感兴趣,而当b 对a 谈起体育类事情时,a 可能发生兴趣转移,同时a 有可能同时对多类事物产生兴趣,即用户多兴趣。 该方式可以动态的获取用户新的兴趣,为建立准确的用户兴趣模型提供了依据。 隐式跟踪方式可以加深系统对用户偏好的理解,通过偏好关联可以揭示用户取 向,进一步获得信息的提取精度。 2 4 3 资源描述文件 【文1 2 2 指出资源的描述与用户的描述密切相关,资源描述文件可以用基于内 容的方法和基于分类的方法来表示。 基于内容的方法是从资源本身抽取信息来表示资源,其首要工作是特征选 取,特征选取要达到两个目标:一是选取最好的词:二是选取的词最少。其次是 为每个特征计算权值,使用最广泛的是t f i d f 方法。 基于分类的方法是利用类别来表示资源,对文档资源进行分类有利于将文档 推荐给对该类文档感兴趣的用户。文本分类方法有多种,比如:朴素贝叶斯( n a i v e b a y e s ) ,k 最近邻方法( k n n ) 和支持向量机( s v m ) 等。资源的类别可以预先定 义,也可以利用聚类技术自动产生。 2 4 4 用户兴趣模型 用户兴趣模型是个性化信息服务的基础,模型的准确性、实效性直接决定服 务质量的优劣。兴趣建模的方法很多, 文 2 3 提出了将概念作为用户兴趣的特征 项,利用动态学习算法,挖掘蕴含在用户反馈文档中的概念及其概念关系,建立 加权概念网络( w c n ) 的用户模型,从而捕捉和表述用户兴趣偏好。 文 2 4 以网 页内容为基础,首先对用户的兴趣分类,然后以兴趣子类为单位来发现某一子类 的相似用户群,得到该用户的所有兴趣子类的多组相似用户群,并形成每个子类 的“兴趣子类一子类网页项”矩阵。能有效地解决传统协作过滤中普通存在的数 据稀疏性问题,最近邻更容易获得,能产生更为精确的推荐。 文 2 5 为了学习用 户偏好,检索工具要跟踪并记录用户的历史提问情况,从用户查询的历史记录及 其相关的文献中抽取主题词,计算主题词与历史记录中相关的每个类别的相关 度,建立兴趣模型,导出用户意向,发现用户兴趣。【文1 2 6 将利用自动加注处理 后所获得的网页主题特征,进行兴趣建模,然后利用用户兴趣模型过滤掉无关信 息,并根据兴趣模型中的相关领域关键字作进一步的检索。特点:快速自适应用 第二章社会网络背景下的个性化检索技术 户兴趣的变化和环境的变化:根据用户个体的兴趣特征,自动过滤不相关的文档。 用户兴趣模型结构图如图2 1 所示,主要实现三个功能:是用户信息的搜 集,将用户信息及行为记录到用户模型中;二是兴趣管理模块根据用户访问情况 动态更新用户兴趣模型;三是过滤掉无关信息。 图2 1 用户兴趣模型结构 提取用户信息是一个非常重要的任务,在偏好提取过程中系统要作很多的工 作,因为这直接影响到用户兴趣模型的精确与否,如果信息搜集的精确、准确, 系统建模将反映用户的真实兴趣,否则信息搜集错误,将错误建模,那么系统将 无法为用户提供有效的个性推荐。 2 5 个性推荐技术 目前人们利用搜索引擎从互联网上获取所需信息时,往往会得到数以千计的 结果页面,使人们在查找信息时耗费大量的精力和时间,于是怎样快速、经济、 有效的检索信息以及过滤无用信息,满足人们准确的、高效的查询需求,成为人 们追求个性化检索的目标。由于传统的搜索引擎具有一定的通用性,不能很好的 满足不同背景、不同目的、不同时期的查询请求,所以人们提出个性化服务推荐 技术,以满足用户个性化需求的愿望。个性化搜索引擎根据用户的查询请求,并 结合用户兴趣进行信息推荐,而不是基于简单的查询请求进行推荐。个性化服务 通过搜集和分析用户信息来捕捉和表达用户兴趣偏好,利用动态学习算法进一步 挖掘用户的隐含信息,理解用户意图,通过信息过滤技术实现主动推送的目的。 【文 2 2 指出个性化推荐技术可以采用基于内容过滤的技术和协作过滤技术。 基于内容过滤的技术是通过比较资源与用户描述文件来推荐资源,如图2 2 所示。 第二章社会网络背景下的个性化检索技术 它的关键问题是相似度计算,对于矢量空间模型来说,通常采用的方法是余弦度 量。系统优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能 为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。协作过滤 是根据用户的相似性来推荐资源,如图2 3 所示。其关键问题是用户聚类。由于 它是根据相似用户来推荐资源的,所以有可能为用户推荐出新的感兴趣的内容。 基于近邻用户的协作过滤技术应用比较普遍,它的核心问题是为当前用户寻找k 个最相似的邻居来预测当前用户的兴趣。该方法存在两个问题,一个是稀疏性问 题,另一个是可扩展性问题,因而将基于内容的方法和协作过滤方法结合起来以 弥补使用单一方法出现的问题。 上 朵用户a 用户a 人 , 吴吴 图2 2 基于内容的过滤图2 3 协作过滤 2 6l u c e n e 技术的发展 用户b l u c e n e 是一个高性能纯j a v a 的开源搜索引擎,几乎适用于任何需要的全文 检索应用,尤其是跨平台的应用。做为a p a c h e 基金会j a k a r t a 项目组的子项目, l u c e n e 提供了完整的查询引擎和索引引擎。其目的是为软件开发人员提供一个 简单易用的工具包以方便在目标中建立实现全文检索的功能。作为一个开放源代 码项目,l u c e n e 从问世之后,引发了巨大反响,本系统不仅使用它构建具体的 全文检索应用,而且将之集成到各种系统软件中去,以及构建w e b 应用,甚至 第二章社会网络背景下的个性化检索技术 某些商业软件也采用了l u c e n e 作为其内部全文检索子系统的核心。a p a c h e 软件 基金会的网站使用了l u c e n e 作为全文检索的引擎,i b m 的开源软件e c l i p s e 的2 1 版本中也采用了l u c e n e 作为帮助子系统的全文索引引擎,相应的i b m 的商业软 件w e b s p h e r e 中也采用了l u c e n e 。l u c e n e 以其开放源代码的特性、优异的索引 结构、良好的系统架构获得了越来越多的应用。l u c e n e 作为一个全文检索引擎, 其具有如下突出的优点: 1 ) 索引文件格式独立于应用平台。l u c e n e 定义了一套以8 位字节为基础的 索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。 2 ) 在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对 新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优 化的目的。 3 ) 优秀的面向对象的系统架构,使得对于l u c e n e 扩展的学习难度降低,方 便扩充新功能。 4 ) 设计了独立于语言和文件格式的文本分析接口,索引器通过接受t o k e n 流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的 接口。 5 ) 已经默认实现了一套强大的查询引擎,用户无需自己编写代码即使系统 可获得强大的查询能力,l u c e n e 的查询实现中默认实现了布尔操作、模糊查询、 分组查询等等。 面对已经存在的全文检索引擎,l u c e n e 也具有相当的优势。首先,它的开发 源代码发行方式。在此基础上程序员不仅仅可以充分的利用l u c e n e 所提供的强 大功能,而且可以深入细致的学习到全文检索引擎制作技术和面向对象编程的实 践,进而在此基础上根据应用的实际情况编写出更好的更适合当前应用的全文检 索引擎。在这一点上,其他软件的灵活性远远不及l u c e n e 。其次,l u c e n e 秉承 了开放源代码一贯的架构优良的优势,设计了一个合理而极具扩充能力的面向对 象架构,程序员可以在l u c e n e 的基础上扩充各种功能,比如扩充中文处理能力, 从文本扩充到h t m l 、x m l 等等文本格式的处理,编写这些扩展的功能不仅仅 不复杂,而且由于l u c e n e 恰当合理的对系统设备做了程序上的抽象,扩展的功 能也能轻易的达到跨平台的能力。在遵守l u c e n e 索引文件格式的基础上,使得 l u c e n e 能够运行在各种各样的平台上,我们可以根据当前的平台适合的语言来 合理的选择。 第三章系统构架设计 3 1 总体结构设计 第三章系统构架设计 检索系统并不真正检索互连网,它检索的实际上是预先整理好的索引数据 库。传统的检索系统实现机制,是通过各种途径收集了大量资源信息并对其中的 每一个关键词进行索引,建立索引数据库服务全文搜索引擎。当用户查找某个关 键词的时候,所有内容中包含了该关键词的资源都将作为结果被导出来。在经过 复杂的算法进行排序后,这些结果将按照特定的顺序,依次排列。 本课题在实现检索的机制上依旧采用传统检索系统的原理,以对索引数据库 的操作获得资源,然后采用标签系统的内容对显示排序加以改进,以实现对不同 用户的个性化服务,该系统的设计结构示意图如图3 1 。 本设计采用前台和后台运营的模式,用户只需按照传统检索模式输入关键 字,检索系统将按照传统检索流程,在前台模块中对关键字进行分析匹配,从建 立的索引数据库中导出相应资源的信息,生成新的二级索引库,完成对关键字的 查找工作,而后台模块需要对用户的标签内容信息建立索引表单,并根据对该用 户标签内容的统计为不同的标签赋予权值,用户在检索时,后台可将按照用户对 标签的兴趣度高低先后导出标签内容,并将该内容作为新的关键字对新生成的索 引库进行匹配检索,匹配的资源信息再被导出生成三级索引库,未匹配的资源将 由低一级兴趣度标签内容生成的关键字进行检索,依次类推,若兴趣标签耗尽时 依旧有未匹配的资源,则将剩下的资源全部导

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论