




已阅读5页,还剩101页未读, 继续免费阅读
(计算机软件与理论专业论文)基于信息流的个性化服务研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 科技文档和科研工作者蔻科学研究中最根本的资源,在第一时问准确地得到相关的 科技文档,从科学社区中获得持续的帮助对于科学研究是非常重要的a 然两,信怠技术和网络技术的飞速发展,在给人类交流和信息传播带来了革命性变 化,为人们的生活、工作和科研带来了臣大方便的同时,也导致了“信息过载”和“信 息迷向”。w e b 中霹用科研文档的迅速增长使德科研工作者要想及时、准确地从i n t e m e t 上获得相关文档变得越来越困难。与此同时,同一科研组织中的不同科研人员由于其研 究领域通常存在交叉,他们常常为了获得相同文档而重复搜索和下载,这不但直接增加 了成员负攫、造成组织资源的浪费,还闯接导致了组织工作的效率低下。有效的文档共 享方法能够提高科研团队的工作效率和竞争力。 很多情况下,我们发现有些闷题只有在相关人员一对一的帮助下才能得到较好的释 决。在组织成员遇到自己无法解决的| 、嗣邀时,从组织中寻找合适的人来帮助他,是一个 较好的选择,成员之间的相互帮助构成了组织内部隐性知识的共享。隐性知识的共享能 够辅助科研人员更好地扶事季喜研工作。 个性化服务是一个自动获取用户对信息资源或借助信息形态表征的实物资源的使 用信息,分拆这些信息褥到用户的特定兴趣和需求,然后根据分析结果在合适的时间囱 每一位访问者发送正确信息的过程,其有针对性、自动性特点。本文以信息流为基础, 通过个性化的文档推送和协助者推荐实现知识网格环境下的资源共享。主要工作和成果 如下: 准确地描述用户模型是有效的文档共享的前提,目前用户信息不足是个性化服务 中普遍存在的问题。我l f 】以由各种消息构成的信息流为基础建立用户模型,信患 流相对于用户注册,用户评价,相关反馈等是建立用户模型更为稳定和丰富的数 据来源,使用户兴趣的描述更准确。 提出了以社区结构和信怠流为基础建立g e n e r a l - t o s p e c f , c 的用户模型的方法,即, 根据组织的社区结构建立描述社区共同兴趣的社区模型芳通过信息流的内容挖掘 建立反映牢土区成员区别的个人模型。通过社区结构的发现找到具有共问兴趣的组 织成员,而不是传统地根据用户所填写的注册信息来发现有共同兴趣的用户。 对用户兴趣漂移问题进行了分析,通过时闯因子调整信息漉对用户模型的影响, 使精户模型自适应用户兴趣的改变。 提出了基于信息流的社区发现方法。基本思想是利用组织内各种消息构成的信息 流网,以基于e d g e b e t w e e n n e s s c e n t r a l i t y 思想的社区发现办法找出自组织社会网中 的社区结构。根据信息流网络的特点扩展了基于e d g eb e t w e e n n e s sc e n t r a l i t v 的社区 发现方法,并将该方法应用于船投的社会网络找出缇织内出捐l 有相似兴趣的成员 自发构成的共同兴趣社区。 i 提出了一种基于资源空间模型组织文档资源的方法。资源空间模型是一个能够统 一、规范和离效地定位和管理资源的其有语义的数据模型,镬文档的定位、查询 更准确,更迅速。通过用户元数据、社区元数据、文档元数据等使用户权限管理、 文档推送更简便、更准确。 提出了一种以信患流为萋础为用户推荐合适的协助者帮助其完成相关工作的方 法。不同于以文本分析为基础的传统的自动寻找专家的方法,我们的方法以社会 网的皇组织特点为出发点,根据组织内的享圭区结构找出对当前用户所从事工作感 兴趣的用户,并穰据他们之问的链接分析从中找出专业能力较强的候选人推荐给 用户。 基于上述研究,本文最厢论述了基于信息流的社会网格构建工具,社区发现工具和 协助者候选人排队工具的实现。 关键诃:个性化服务:e - s c i e n c e ;信息流:信息共享;知识网格;e d g eb e t w e e n n e s s ;社 区;协助者 i i r e s e a r c ho ni n f o r m a t i o nf l o w b a s e dp e r s o n a l i z e ds e r v i c e s l i a n h o n gd i n g ( c o m p u t e rs o f t w a r ea n dt h e o r y ) s c i e n t i f i cd o c u m e n t sa n dr e s e a r c h e r sa r ei n s e p a r a b l ep a r t so fs c i e n t i f i cr e s e a r c h k e e p i n g w i t hu p t o d a t es c i e n t i f i cd o c u m e n t sa n do b t a i n i n gc o n s i s t e n th e l pf r o ms c i e n t i f i cc o m m u n i t y a r ei m p o r t a n ti ns c i e n t i f i cr e s e a r c h ,s o m et e a mm e m b e r s r e s e a r c ha c t i v i t i e s ,e g 。,r e p e a t e d l y s e a r c hf o rp a p e r s ,l e a dt ol o we f f i c i e n c yo ft e a m w o r k ,a ne f f i c i e n ta n de f f e c t i v ed o c u m e n t s h a r i n gm e t h o dc a ni m p r o v et h ee f f i c i e n c y a n dc o m p e t i t i v e n e s so fr e s e a r c ht e a m s a p r e c o n d i t i o no fs h a r i n gd o c u m e n t si st h ei d e n t i f i c a t i o no fu s e r s i n t e r e s t s p e r s o n a i i z m i o nm e a n sm a d ef o ro rd i r e c t e do ra d j u s t e dt oap a r t i c u l a ri n d i v i d u a l o na w e bs i t e ,p e r s o n a l i z a t i o ni st h ep r o c e s so ft a i l o r i n gp a g e st oi n d i v i d u a lu s e r s c h a r a c t e r i s t i c s o rp r e f e r e n c e s 。p e r s o n a l i z a t i o ni sam e a n so fm e e t i n gt h ec u s t o m e r sn e e d sm o r ee f f e c t i v e l y a n de f f i c i e n t l y ,m a k i n gi n t e r a c t i o n sf a s t e ra n de a s i e r p e r s o n a l i z a t i o ns h o u l dm a k eu s e r sm o r e e f f e c t i v eb yh e l p i n gt h e mr e a c ht h e i rg o a l s 。t h i sw o r kh a si n f o r m a t i o nf l o wa sb a s i s 。s h a r e s r e s o u r c e si nt h ek n o w l e d g eg r i de n v i r o n m e n tb yp e r s o n a l i z e ds e r v i c e s t h em a i n c o n t r i b u t i o n so f t h i sw o r ka r e : a c c u r a t ed e s c r i p t i o no f u s e ri n t e r e s t si st h ep r e c o n d i t i o n , f o rag o o dp e r s o n a l i z e ds e r v i c e a tp r e s e n t , ap o p u l a rp r o b l e mf o rp e r s o n a l i z a t i o ni st h el a c ko fu s e ri n f o r m a t i o n o u r u s e rp r o f i l ei sc r e a t e df r o mt h ei n f o r m a t i o nf l o wt h a ti sc o m p o s e do f f l o wa se m a i lf l o w , i n s t a n tm e s s a g ef l o w , a n ds oo n i nc o n t r a s tt ou s e r sr e g i s t r a t i o n ,u s e r sr a t i n g ,u s e r s r e l e v a n c ef e e d b a c ka n dw e bl o g , i n f o r m a t i o nf l o wi sar i c h e ra n dm o r ep e r s i s t e n td a t a r e s o u r c eo f u s e ri n f o r m a t i o n b u i l d i n gu s e rp r o f i l ef r o mi n f o r m a t i o nf l o ww i l lm a k et h e d e s c r i p t i o no f u s e ri n t e r e s t sm o r ea c c u r a t e i n t r o d u c et h ec o m m u n i t yd e t e c t i o ni n t ot h ec o n s t r u c t i o no fu s e rp r o f i l ea n dp r o p o s et h e g e n e r a l - t o - s p e c i f i cd e s c r i p t i o no ft i b e ri n t e r e s t s w ec r e a t ec o m m u n i t yp r o f i l eb y a n a l y z i n gs t r u c t u r eo fi n f o r m a t i o nf l o wn e t w o r ka n de x t r a c tp e r s o n a lp r o f i l ef r o mt h e c o n t e n to f i n f o r m a t i o nf l o wb yr e f e r r i n gt ot h ec o m m u n i t ys t r u c t u r e so f t h ei n f o r m a t i o n f l o wn e t w o r k w ef i n do u ts i m i l a ru s e r s a c c o r d i n gt o s t r u c t u r e a n a l y z i n gn o t i n f o r m a t i o nf l l l 穗b yu s e r s 。 d i s c u s st h es h i f tp r o b l e mo fu s e ri n t e r e s ta n da d j u s tt h ei n f o r m a t i o nf l o wi m p a c to nt h e u s e rp r o f i l eb yat i m ef u n c t i o n ,w h i c hm a k e st h eu s e rp r o f i l ea d a p tt ot h ec h a n g e si nt h e u s e ri n t e r e s t s f i n dc o m m u n i t ys t r u c t u r e sf o rt h es e l f - o r g a n i z e do r g a n i z a t i o nb yd e t e c t i n gc o m m o n i n t e r e s tc o m m u n i t i e si n l a r g es o c i a l n e t w o r kb yg r a p ha n a l y s i s o u rc o m m u n i t y d e t e c t i n ga l g o r i t h me x t e n d st h ei d e ao fe d g eb e t w e e n n e s sc e n t r a l i t yb yi n t r o d u c i n g w e i g h tt od i f f e r e n t i a t et h ei m p o r t a n c eo fe d g e s w ea l s op u tf o r w a r das e to fn e wr u l e s h l t od i r e c tt h ea l g o r i t h mt og oo no rs t o p o r g a n i z et h ed o c u m e n tb yt h er s m ( r e s o u r c es p a c em o d e l ) t h a tm a n a g e sr e s o u r c e si n ac l a s s i f i c a t i o n b a s e ds e m a n t i cs p a c e i tm a k e st h ed o c u m e n tl o c a t i n ga c c u r a t e l ya n d r a p i d l y u s e rm e t a d a t a , c o m m u n i t ym e t a d a t aa n dd o c u m e n tm e t a d a t am a k et h e m a n a g e m e n to f u s e rf i g h ta n dd o c u m e n td e l i v e r i n gm o r es i m p l ya n dm o r ea c c u r a t e l y r e c o m m e n dr i g h tp e r s o nt oh e l pu s e rw i t hi n f o r m a t i o nf l o wn e t w o r ka st h eb a s i s u n l i k et h et r a d i t i o n a le x p e r t e x p e r t i s ei d e n t i f i c a t i o ns y s t e m sw h i c hu s et e x ta n a l y s i sa s b a s i s ,w ef i n dt h eh e l p e rc a n d i d a t e sa c c o r d i n gt oc o m m u n i t ys t r u c t u r e sa n dr a n kt h e m b yt h er e l a t i o n s h i pa n a l y s i sb e t w e e nt h e m t h ep r o p o s e da p p r o a c hi sap a r to ft h ek n o w l e d g eg r i de s c i e n c ep l a t f o r m c o m p a r e d w i t hr e l e v a n tw o r k s ,t h ep r o p o s e da p p r o a c hc a nb r i n gg r o u pa w a r e n e s s ,e f f e c t i v ed o c u m e n t s h a r i n ga n dv a l u a b l er e c o m m e n d a t i o n si nl o wc o s t s k e y w o r d s :p e r s o n a l i z e ds e r v i c e s ,e - s c i e n c e ,i n f o r m a t i o nf l o w , i n f o r m a t i o n s h a r i n g , k n o w l e d g eg r i d ,e d g eb e t w e e n n e s s ,c o m m u n i t y , h e l p e r v 图目录 图2 1 从信息流中建立的社会网络实例1 8 图2 2 一个包括4 9 个节点的网络1 9 图2 3 系统树2 l 图2 4 凝聚法找到的社区核心部分。2 2 图2 5 具有社区结构的图2 2 图2 6 社区结构的发现过程2 3 图2 7 包含两个社医的最小组件2 4 图2 8 一个不包含明显的子社区的图2 4 图2 9 遵循最小组件规则和n 1b e t w e e r m e s s 规则的g n 算法结果2 5 图2 1 0 只遵循最小组件规则的g n 算法结果2 6 图2 1 1 遵循新规则的g n 算法结果2 7 图2 1 2 阈值为1 0 的加权社会网络2 8 图3 1 社区模型的构建过程3 2 图3 2 个人模擞的发现过程3 5 图4 1 文档资源空间模型4 8 图5 1 社区恢复过程。5 3 图5 2 协助者候选人关系图的定向、加权和r a n k 计算5 5 图5 3 由消息数定向,消息度加权的协助者候选人头系图5 8 图5 4 非加权( u n w e i g h t e d ) 候选人关系图的排队结果5 9 图5 5 由消息交流数量( m e s s a g ee x c h a n g e d ) 加权的候选人关系图的排队结果+ 6 0 圈5 6 由消息度( m e s s a g ed e g r c e ) 加权的候选人关系图的排队结果6 0 图5 7 由相对重要性( r e l a t i v e i m p o r t a n c e ) 加权的候选人关系图的排队结果+ 6 l 圈5 8 由出边( o u t 1 i n k s ) 加权的候选人关系图的排队结果6 l l x 瘸5 9 由入边( i n 1 i n k s ) 加权的候选人关系图的排队结果6 2 翻5 i o 由出边和入边( o u t 1 i n k sa n di n 1 i n k s ) 共同加权的候选人关系图的排队结果6 2 图5 1 l 协助者候选人关系翔定向方法的比较6 3 强5 1 2 挽助者候选入关系圈加权算法的眈较6 4 躅5 1 3 由消息交流数量( m e s s a g eq u a n t i t y ) 定向的候选人关系图的排队结果6 5 翻5 1 4 由淌惠度( m e s s a g ed e g r e e ) 定向的候选人关系图的排队结果6 6 圈5 1 5 由边度( e d g ed e g r e e ) 定向的候选人关系霾的排队结采6 6 赞5 1 6 由边的稠对重要性( r e l a t i v e i m p o r t a n c e ) 定向的候选人关系图的排队结果6 7 图6 1 基于信息流的个性化推荐系统豹实现架构7 0 圈6 2 社会网络构建工具7 2 黧6 3 社会溺络生成王其及社区发现王具7 3 豳6 a 社会阏络的无岛盈浏览界涵7 4 图6 5 社区发现算法结果7 4 圈6 6 屏幕辕出的社嚣发现过程一7 5 翻6 7 指定摊驮结果输出方式7 6 图6 8 指定排队结果输如文件。7 6 鬻6 9 输出到文l 牛鹃协助者候选人排默结果7 7 x 表目录 表2 1 加权g n 算法与非加权g n 算法之渊的托较 表4 1 用户元数据的定义 表4 2 社区元数据的定义一 表4 3 文档元数据的定义一 表5 + lr a n k 计冀结祭 表6 | 闯卷调查结果 2 9 4 5 ,4 5 4 6 。5 7 7 8 声明 我声明本论文足我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:丁连易2 日期:及,口易牟6 日哆日 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 作者签名:丁连红导师签名:活葛j 扣期:2 么每f 0 ;曰 第一节绪论 1 1 引言 第一章绪论 科技文档和科研工作者是科学研究中最根本的资源,在第一时问准确地获得相关的 科技文档,从科研社区中得到持续的帮助对于科学研究来说是非常重要的。 信息技术和网络技术的飞速发展,给人类交流和信息传播带来了革命性交化,为人 们的生活、工作和科研带来了巨大的方便。随着网络技术的发展,i n t e m e t 已经成为巨 大的知识宝库和信息海洋,信息的指数增长也导致了“信息过载”和“信息迷向”。w e b 中可用科研文档的迅速增长使得科研工作者要想及时、准确地从i n t e r n e t 上获得相关文 档变得越来越困难,他们正在为此做着不懈地努力和斗争。 与此同时,同一科研组织中的不同科研人员由于其研究领域通常存在交叉,一方面, 他们常常为了获得相同文档而重复搜索和下载,这不但直接增加了成员负担、造成组织 资源的浪费,还间接导致了组织工作的效率低下:另一方面,他们又常常通过电子邮件、 留言板、手机短信等交流信息、讨论问题,有时也主动将有价值的文档推荐给其他成员, 这可以在一定程度上实现成员间的文档共享,但仍然存在以下问题: 首先,无法保证每个成员都愿意花费时间和精力向其他成员推荐对方需要的文档, 因此无法从根本上避免组织成员为获得相同文档所做的重复操作。 其次,即使每个成员都愿意向其他成员推荐对方需要的文档。仍然会有如下情况发 生:一是,某个成员的兴趣经常会随时间的推移而发生改变,其他成员可能在未察觉此 交化的情况下,继续向其推荐他现在已不再需要的文档,而他却无法得到其新需要的文 档;二是,一个成员很难完全把握其他所有成员的兴趣,也就是说我们不能期望每个人 都能及时、准确地了解所有人的需求,因而无法将相关文档推荐给所有需要该文档的成 员,也就无法充分实现成员之间的文档共享。 对于知识密集型的科研组织来说,一种在不影响科研工作者j 下常科研工作的前提 下。充分利用组织资源,及时、准确地为科研人员推送相关文档,并为其提供简便、有 效地与他人共享其所拥有科技文档的方法势在必行。它可以在很大程度上将科研人员从 繁杂的资料搜索工作中解放出来。很多情况下,我们发现有些问题只有在相关人员面对 面的帮助下才能得到较好的解决。成员之间的相互帮助构成了组织内部隐性知识的共 享。可见组织内部隐性知识的共享能够辅助科研人员更好地从事科研工作,从而提升整 个组织的工作效率和竞争力。 随着组织成员之间通过电子邮件,聊天室、手机短信等的交流,由各种消息构成的 信息流网络也在他们之日j 建立起来了。各种消息为我们提供了大量的有用信息:就个人 而言,它可以告诉我们自己在何时与谁发生了何种联系,在自己所熟悉的人之间存在何 中目科学院博卜学位论文苹f 信息流的个忤化服务研究 种关联,以及联系人的改变等;对组织而言,可以从中发现哪些人在一起工作,谁在不 同团队之间起着联系作用,并指引新成员如何更快地融入组织等。 大部分组织中部存在许多自组织的社区( c o m m u n i t y ) ,他们大多是由有共同兴趣的 成员构成的,因此发现组织社会网( s o c i a ln e t w o r k ) 中的社区结构不但有助于用户兴趣 的发现,对于协助者的确定也有很大帮助。社会网是人们之日j 的关系网络,从中可以观 察成员的社会活动。社会网络的传统创建方法不但耗时多,而且很大程度上依赖于所调 查对象的合作。组织中的信息流为我们提供了种简单、易行、迅速收集社会网络数掘 的方法 1 3 0 1 。组织内的信息流不仅能够揭示组织中的组织关系,还能像用户的浏览记录 一样,反映出每个成员的兴趣和爱好 个性化信息服务是能够满足用户个人信息需求的一种服务,即通过对用户个性、使 用习惯的分析主动地向用户提供其可能需要的信息服务,其主要特点是“主动式服务”。 本研究的目的是提出一种基于信息流的个性化服务的方法,该方法通过科技文档推送和 协助者推荐有效地实现知识网格环境下显性知识和隐性知识的共享。 本研究通过组织结构发现和对各种消息的内容挖掘建立描述用户兴趣的用户模型, 将一个较大组织中用户兴趣的发现过程简化为多个较小社区中用户兴趣的发现过程:将 时间因素引入到用户兴趣的提取过程中,使用户模型随着消息的积累和时间的推移得到 及时更新;根据用户兴趣主动、定期向用户推送相关文档,确保用户能及时、稳定地获 得所需文档。根据组织结构为成员寻找协助者,并通过他们之日j 的链接分析( l i n k a n a l y s i s ) 对协助者进行排队,确定推荐顺序,从而实现协助者的推荐。 1 2 个性化信息服务概述 个性化信息服务是能够满足用户个人信息需求的一种服务,就是根据用户的知识结 构、信息需求、行为方式和心理倾向等,有的放矢地为具体用户创造符合其个性需求的 信息服务环境,它可以按照特定用户群体和个人的需求定制内容和表现形式,也可以预 测用户的需求。个性化服务的第一个层次是提供一个个性化接口供用户进行个性化定 制,系统根据用户提出的明确要求,向每一个用户提供符合其要求的信息;第二个层次 是通过对用户个性、使用习惯的分析和跟踪,系统不断学习、挖掘用户潜在的兴趣特征, 主动向用户推荐其可能感兴趣的信息,提供智能的信息服务。 个性化信息服务具有如下几个特点: ( 1 ) 针对性:个性化信息服务的根本就是以用户为中心,所有的服务必须以方便 用户、满足用户需求为前提。通过研究用户的行为、兴趣、爱好和习惯来自动组织信息 内容和调整服务模式。以便为用户提供更具针对性的信息服务。 ( 2 ) 可定制性:个性化信息服务允许用户充分表达个性化需求。动念地定制自己 想要的用户界面、信息资源、信息服务种类和服务方式,创造适应个人知识结构、心理 倾向、信息需求和行为方式的信息活动环境,从而获得“量身定制”的信息服务。 2 第一审绪论 ( 3 ) 主动性:个性化信息服务能够主动感知不同用户的个性化信息需求并将用户 所需要的信息及时推送给用户这种“信息找人”的主动服务模式与传统“人找信息” 的被动服务模式截然不同。 ( 4 ) 智能性:个性化信息服务中采用了推理反馈、机器学习和智能代理等人工智 能技术,能够通过跟踪、学习用户的兴趣偏好和使用模式,建立用户模型和信息模型, 不断挖掘用户潜在的兴趣特征,实现信息的智能推荐和智能过滤,从而显著提高信息服 务质量。 收集用户信息的目的是得到描述用户兴趣、角色、权力、购买情况等的用户模型。 收集到的信息质量将会影响到最终的推荐效果用户个性化信息的收集方式有两种。一 种是显性收集方式,即,需要用户参与的方式:另一种是,隐性收集方式,即,跟踪用 户行为的方式。 ( 1 ) 显性收集:这种方式主要是在用户第一次使用系统的时候,要求用户注册自 己的背景信息和所感兴趣的内容,通常是通过用户填表或参与调查问卷得到用户信息。 让用户描述他们想要什么,可以直接获取用户的兴趣和信息需求倾向,简单、易行。但 这种做法存在如下问题:一是,用户的输入可能本身就有误:二是,用户可能不能准确 地表达自己的需求;再就是,无法动态更新用户信息,当用户兴趣改变时,用户必需及 时更新其所填写的信息。 ( 2 ) 隐性收集又分为显式反馈和隐式反馈两种方式 显式反馈 明确地要求用户反馈对资源的喜好程度,如,定期要求用户给一组文档打分。这种 方法真实地反映了用户对资源的喜好,具有准确和可信度高等特点。但它往往要求用户 定期反馈信息,会对用户的日常行为造成一定程度的干扰。 隐式反馈 用户的许多动作都能反映出其偏好。这种方式主要是通过跟踪用户的行为来获得用 户信息的。这种方法最常跟踪的内容是用户的浏览模式和购买模式。特点是不干扰用户 的日常浏览等行为,对于用户来说是透明的,是一种比较可行的方法。其缺点是错误率 较高a m a z o n c o 矗就是跟踪每个客户的购买历史并掘此为用户推荐具体商品的 1 3 个性化信息服务的实现技术 要对通过各种渠道得到的用户信息进行一定的分析和处理j 信2 掘此产生推荐结果。 如何进行推荐是最具挑战的一步现在推荐技术中最主要的是基于规则的技术和过滤技 术。 ( 1 ) 基于规则的技术:基于规则的技术允许系统管理员根掘用户的静态特征和动 态属性来制定若干规则,从本质上讲一条规则就是一个i f t h e n 语句1 1 5 6 1 。规则指导系 统在不同的情况下如何向用户提供不同的服务。相关销售( c r o s s s e l l i n g ) 就是一个例子, 中圃科学院博1 学位论文强十信息洫的个化服务研究 例如,二- 条规则可以具体到当客户购买了产品y 时可以免费向其赠送产品x 。基于规则 的技术,其优点是简单、直接,缺点是规则的质量难以保证,而且无法动态更新。随着 规则数量的增加,系统必将会变得越束越庞大、越柬越难以管理。 ( 2 ) 过滤技术使用各种算法分析元数掘建立用户模型、给出推荐。最常使用的三 种过滤技术包括简单过滤、内容过滤和协同过滤: 简单过滤( s i m p l ef i l t e r i n g ) 简单过滤根据预先定义好的用户分组来决定要向用户显示什么内容或为用户提供 什么样的服务。该方法过于简单、死板,目前很少使用。 基于内容的过滤( c o n t e n t - b a s e df i l t e r i n g ) 此方法来源于信息检索技术( i n f o r m a t i o nr e t r i e v a l ,i r ) ,通过分析用户感兴趣对象 的内容来建立描述用户兴趣的模型,然后寻找符合用户模型特性的对象推荐给用户。在 具有简单、有效等优点的同时,此方法也存在内容局限( c o n t e n tl i m i t a t i o n ) 和过于具 体( o v e rs p e c i a l i z a t i o n ) 等缺点。即,只能分析文本、图像等少数对象和难以发现用户 的新兴趣。 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 显式或隐式地收集用户对某个对象的评价信息,从而形成具有相似兴趣的用户类 群,然后根据用户类群来预测用户对该对象的喜好程度 1 8 1 1 5 7 7 1 9 4 。此方法的优点 是能发现用户感兴趣的新信息,缺点是存在以下几个难以解决的问题:一个是稀疏性 ( s p a r s i t y ) ,亦即在系统使用初期,由于系统资源还未获得足够多的评价,系统很难利 用这些评价信息来发现相似的用户;另一个是可扩展性( s c a l a b i l i t y ) ,亦即随着系统用 户和资源的增多,系统的性能会越来越低,因此,无法支持像a f f l a z o f l c o m o m 一样的大 规模应用;还有一个就是异名性( s y n o n y m y ) ,因为对象内容被完全忽略,也没有考虑 到他们之问潜在的关联,因此,如果还没有用户对新对象做出评价,他们就不能被推荐 给用户,而且,用户越少,有共同兴趣的用户对文档的评价准确性就越低。 ( 3 ) 混合过滤方法:一些个性化服务系统同时采用了基于内容过滤和协同过滤这 两种技术,它们的结合可以克服各自的一些缺点。为了克服协同过滤的稀疏性问题,可 以利用用户浏览过的资源内容预测用户对其他资源的评价,这样就可以增加资源评价的 密度,利用这些评价再进行协同过滤,从而提高协同过滤的性能。混合解决方案比单独 一种方法的使用更有效。 ( 4 ) w e b 挖掘技术:w e b 同志中包含了大量的用户访问信息,通过对这些同志文 件使用各种数掘挖掘技术,如,关联分析、序列模式、分类和聚类等,可以获得相似页 面,相似用户群体和用户访问模式等信息 8 2 8 3 1 1 0 6 】。其主要优点是:不需要用户提 供主观的评价信息:可以处理大规模的数据量;可动态获取用户的访问信息。存在的问 题是当网站的w e b 日志数掘比较少或网站内容变化较频繁时效率较低。 4 第一章绪论 1 4 典型个性化服务系统介绍 i l o g i l o g ( w w w i l o g c o m ) 是基于规则的个性化推荐系统,系统管理员只需定义相关的业 务规则。系统的核心是规则引擎,它用于解释规则,并为站点的访问者产生符合其兴趣 的动态内容。i l o g 是作为一个中间件形式提供的,提供了r u l e s ( c + + ) lj r u l e s ( j a v a ) 两 种组件用于二次开发,此外还提供了一种业务规则定义语言。 w e b s p e r e 和b r o a d v i s i o n 也是基于规则的推荐系统。 w e b w a t c h e r w e b w a t c h e r 2 是典型的基于内容过滤的个性化推荐系统。用户通过描述其目的的关 键词说明其正在寻找什么。其搜索目标严格限定为技术报告,关键词可以是作者、题目 等。用户在w e b w a t c h e r 的指导下通过w e b 使用该系统,w e b w a t c h e r 通过高亮地显示与用 户目的相近的链接来辅助用户,其相关度是通过w i n n o n 7 2 ,w o r d s t a t ,t f i d f 9 6 1 等计 算得到的。 l e t i z a i l e t i z a i 7 0 也是一个基于内容的推荐系统。用户不必输入关于其需求的信息tl e t i z a i 跟踪用户行为,通过一些启发式的学习确定用户对什么感兴趣。例如,用户为一篇文档 建立书签的行为就表明用户对该文档感兴趣。另一启发是如果一个用户分析一篇文档的 链接,那么该文档很可能与其信息需求相关。这里文档表示为关键词的列表。 s y s k i l l 和w e b e r t s y s k i l l 和w e b e r t 9 2 采用基于内容过滤的推荐方法。事先定义了一些可能成为用户 目的的主题,并为每个主题手工创建了索引。当用户对该索引的一些文档做出评价的时 候,系统就能为用户推荐与已给出评价文档最相近的文档。贝叶斯分类方法被用来为用 户选择相关的文档。另外,该系统也能执行l y c o s 查询。 c i t e s e e r 1 2 和w e b m a t e 2 6 也是基于内容过滤的个性化推荐系统。 g r o u p l e n s g r o u p l e n s 5 8 是一个应用于u s e n e t 新闻的协同过滤系统,它的目标是通过用户协 作,共同从大量的u s e n e t 新闻中发现他们感兴趣的内容。系统共分为客户端和服务器端 两部分,由服务器提供协同过滤服务。当用户下载一篇文档时,客户端向服务器端发送 消息,请求对该文档内容的预报,也就是其他用户对该文档的评价。此外,用户也可以 对该文档进行评价,评价信息由客户端发送到服务器端进行处理,以供其他用户参考, g m u p l e n s 会利用这些信息调整该用户和其他用户的相关性。 f a b f a b 3 4 5 1 是一个自适应的协同w 曲推荐系统,它包括各种不同的代理( a g e n t s ) : 收集代理( 搜索与有限数量主题相关的新信息) 、选择代理( 每个拥有自己模型的用户 拥有一个选择代理,目的是为其推送最关心的文档) 和中心路由器( 将收集代理所获得 s 中田科学院博i 。学位论文幕f 竹息流的个竹化j 】l 务研究 的页面推送给用户模型与这些页面内容相近的用户所对应的选择代理) 。用户会定期收 到需要其给出评价的页面,系统用这些信息来更新原始的收集代理和用户的选择代理 选择代理,首先,通过t f i d f 9 6 1 获得文档的关键词;然后,计算用户模型和文档之间 的余弦相似度;最后,将相似度最高的文档推送给有相似模型的其他用户系统的收集 代理负责从w e b 中根掘关键词搜索相关文档并将搜索到的内容传送给中心服务器。 p t v p t v 3 3 通过w w w 和w a p 为用户推荐电视节目。吸引用户的频道、关键词和节目 等共同构成描述其兴趣的用户模型。用户模型可以通过用户的相关反馈得到及时更新。 系统选出个与当前用户最相似的用户和r 个最适合该用户的节目,当用户提出推荐请求 时,系统展示给用户的是一个节目的列表,该列表中的节目一部分来自以上r 个节目, 另一部分则来自内容推荐。 m o v i e l e n s m o v i e l e n s 4 7 根据与用户有相似视频爱好的用户信息和用户之前的评价信息为 用户推荐电影。通过组合不同代理用不同方法收集到的信息获得较好的推荐结果。 c a s p e r j o b f i n d e r c a s p e r j o b f i n d e r 1 6 9 3 的目的是通过推理帮助人们寻找新工作,计算用户已经给出 评价的工作与每份新工作的相似程度,将相似度最高的工作推荐给用户。该系统用工作 类型、薪金、工作经验等作为特征,通过标准的加权和矩阵计算工作之间的相似度。c a s p e r 也是协作的,因为它还会通过相似的用户给出推荐,而用户之问的相似度则是由他们给 出相同评价的工作的数量计算得到的。 c a s s c a s s 6 假设一群有着共同目的的人在w e b 中寻找信息,因此这些信息应该在他们 之间共享。每个用户除了自己的用户模型外,还拥有他们共同的团队模型。 w e b c o b r a w e b c o b r a 1 1 8 根据用户对一组文档给出的评价从这组文档提取关键词向量来标识 该用户。该关键词向量被发送给服务器,服务器使用简单的余弦方法计算用户之j 日j 的相 似程度并将i 幺用户分配到某个团队中当该用户对其他文档做出评价时,这些文档中的 一部分则会成为推送给其所属团队中其他成员的最好选择。团队主题集中在非常具体的 领域以辅助团队完成任务。 w e b w a t c h e r 5 2 和s i t e s e e r 9 8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数据分析与挖掘技术笔试模拟题
- 2025年高级水利工程管理技能进阶指南及模拟题
- 2025年高级炼钢工程师职业发展路径与考试趋势解读
- 眩晕脑血管病课件
- 2025年特岗教师招聘笔试初中音乐试题解析
- 2025年职业技能安全生产主要负责人金属非金属矿山(小型露天采石场)-金属非金属矿山(小型露天采石场)参考题库含答案解析
- 2025年职业技能保险高管财险类-财险类参考题库含答案解析
- 2025年职业技能保安员-保安员(初级)参考题库含答案解析
- 2025年职业技能中式面点师中式面点师(高级)-中式面点师(初级)参考题库含答案解析
- 2025年特种作业类危险化学品安全作业过氧化工艺作业-胺基化工艺作业参考题库含答案解析
- T-CAPC 012-2023 零售药店经营糖尿病、高血压与血脂异常治疗药品药学服务规范
- 康宝莱价值远景-康宝莱公司的价值远景
- 中医经络穴位走向歌
- 铁路桥涵工程施工安全技术规程(TB 10303-2020)
- 《数理经济学讲义》课件
- 医院信息系统瘫痪应急预案
- 工程造价咨询服务方案(技术方案)
- 整体租赁底商运营方案(技术方案)
- 立式气液分离器计算
- 订单采购模板
- 太阳能并网柜施工方案
评论
0/150
提交评论