已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)基于类别相似性和分类方法的个性化推荐方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着互联网和电子商务的发展,个性化推荐系统逐渐成为电子商务i t 技术的一个重要研究内容,得到了研究者越来越多的关注。其中,协同过 滤推荐技术和基于分类的推荐技术是个性化推荐领域重点研究的问题。本 文主要针对以上两个问题展开研究。 在协同过滤推荐技术方面,分析了目前存在的问题,指出随着电子商 务系统用户数目和商品数目的日益增加,整个项目空间上用户评分数据极 端稀疏,传统的相似性度量方法没有考虑项目所属类别对项目相似性的影 响,因而计算结果不够准确。针对目前已有的协同过滤推荐技术存在的问 题,提出了一种新的计算项目相似性的方法,借助于该方法对用户评分数 据进行处理以提高项目相似性计算结果的准确率;在用户初步预测评分阶 段,提出一种新的计算用户初步预测评分的方法以提高用户评分矩阵的数 据密度:在用户最终预测评分阶段,提出一种新的计算用户最终预测评分 的方法以提高用户预测评分的准确性。为了提高协同过滤推荐系统的实时 性,提出一种增量协同过滤推荐算法并用实验验证了新方法的有效性。 在基于分类的推荐技术方面,提出了一种新的用于得到用户序列访问 事务集的算法,应用该算法可以快速获取用户序列访问事务集;根据用户 推荐模型和当前用户输入特征序列得到当前用户相应于推荐模型的初步推 荐集;、同时,提出了页面推荐度的定义及其计算方法,并结合初步推荐集 来确定返回给用户的最终推荐集。最后通过实验验证本文提出方法的正确 性和有效性。 关键词电子商务;个性化;推荐系统:协同过滤;类别相似性;分类 燕山大学工学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n de 。c o m m e r c e t h er e c o m m e n d a t i o n 、 s y s t e mh a sg r a d u a l l yb e c o m ea r ti m p o r t a n tr e s e a r c hf i e l do fe - c o m m e r c e t e c h n o l o g y , a n da t t r a c t sm a n yr e s e a r c h e r s a t t e n t i o n c o l l a b o r a t i v ef i l t e r i n g t e c h n o l o g ya n dc a t e g o r y b a s e dr e c o m m e n d a t i o nt e c h n o l o g ya r e t h em a i n r e s e a r c hi s s u e si nt h ef i e l do fp e r s o n a l i z e dr e c o m m e n d a t i o n ,a n di nt h i sp a p e r w ef o c u so u rr e s e a r c ho nt h e s et w oi s s u e s i nt h ef i e l do fc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o nt e c h n o l o g y , t h e p r o b l e m st h a te x i s ti nt o d a y sc o i l a b o r a t i v ef i l t e r i n gt e c h n o l o g yh a v eb e e n a n a l y z e da n dp o i n t e do u tt h a tw i t ht h ed e v e l o p m e n to fe c o m m e r c e ,t h e m a g n i t u d e sa n dc o m m o d i t i e sg r o wr a p i d l y , w h i c hr e s u l t e di n t h ee x t r e m e s p a r s i t yo fu s e rr a t i o nd a t a f o rn o tb e i n gt a k e nt h ec a t e g o r yo fd i f f e r e n ti t e m s i n t oa c c o u n t ,t h et r a d i t i o n a ls i m i l a r i t ym e a s u r em e t h o d sw o r ki n a c c u r a t e l yi n t h i ss i t u a t i o n a i m i n ga tt h i sp r o b l e m ,an e wm e t h o dh a sb e e nb r o u g h tf o r w a r d t od e a l 丽t hu s e r sr a t i n gd a t ai no r d e rt oi m p r o v et h ev e r a c i t yo f i t e m s s i m i l a r i t y w h e nc o m p u t i n gt h ei n i t i a lf o r e c a s tr a t i n go f i t e m s ,an e wm e t h o di si n t r o d u c e d t oi m p r o v et h ed a t ad e n s i t yo fu s e r sr a t i n gm a t r i x a n da tt h ef i n a lf o r e c a s t r a t i n go ft h ei t e m s ,an e wm e t h o di sp r e s e n t e dt oi m p r o v et h ev e r a c i t yo fu s e r s f o r e c a s tr a t i n g i no r d e rt oi m p r o v et h ec h a r a c t e ro fr e a lt i m e ,a ni n c r e m e n t a l c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na l g o r i t h mb a s e do nc a t e g o r ys i m i l a r i t yi s p r e s e n t e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h en 钾vm e t h o d sc a ne f f i c i e n t l y r e s o l v et h ee x i s t e dp r o b l e mo ft r a d i t i o n a lm e t h o d si nt h ec o n d i t i o no ft h e e x t r e m es p a r s i t yo fu s e rr a t i n gd a t a ,a n dt h eq u a l i t yo ft h er e c o m m e n d e dr e s u l t c a n _ a l s ob ee f f i c i e n t l yi m p r o v e d i nt h ef i e l do fc a t e g o r y b a s e dr e c o m m e n d a t i o nt e c h n o l o g y , an e w a l g o r i f l m ai si n t r o d u c e dw h i c hh a saf h s t e fs p e e dt or e c e i v et h es e q u e n c ea c c e s s t r a n s a c t i o ns e t ,a n dt h e n , t h eu s e rp r e p a r a t o r yr e c o m m e n d a t i o nm o d e la n d i i a b s t r a c t c u r r e n t i n p u ts e q u e n c e w i t hu s e rc h a r a c t e r a r eu s e dt og e tt h eu s e r s r e c o m m e n d a 舡o na g g r e g a t ec o r r e s p o n d st ot h eu s e rr e c o m m e n d a t i o nm o d e l m e a n w h i l e ,i tg i v e st h ed e f i n i t i o no fp a g ei n t e r e s ta n dc a l c u l a t i o nm e t h o da n d b yt h ep r e p a r a t o r yr e c o m m e n d a t i o na g g r e g a t e t h ef i n a lr e c o m m e n d a t i o n a g g r e g a t et ot h ec u r r e n tu s e rc o r r e s p o n dt ot h eu s e r s r e c o m m e n d a t i o nm o d e l c a nb eg o t t e nw i t hb e r e ra c c u r a c y a ti a s t , t h ec o l t e c t n e s sa n d v a l i d i t yo ft h e s e m e t h o d si nt h ep a p e ra r ev a l i d a t e dt h r o u 曲t h ee x p e r i m e n t a t i o n k e y w o r d se - c o m m e r c e ;p e r s o n a l i z a t i o n ;r e c o m m e n d a t i o ns y s t e m ;c o l l a b o m t i r ef i l t e r i n g ;c a t e g o r ys i m i l a r i t y ;c l a s s i f i c a t i o n 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于项目预测评分和分 类方法的个性化推荐方法研究,是本人在导师指导下,在燕山大学攻读硕 士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注 明部分外不包含他人己发表或撰写过的研究成果。对本文的研究工作做出 重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果 将完全由本人承担。 作者签字汤昆日期:。f 年f 2 月? 日 燕山大学硕士学位论文使用授权书 基于项目预测评分和分类方法的个性化推荐方法研究系本人在燕 山大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研 究成果归燕山大学所有,本人如需发表将署名燕山大学为第一完成单位及 相关人员。本人完全了解燕山大学关于保存、使用学位论文的规定,同意 学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和 借阅。本人授权燕山大学,可以采用影印、缩印或其他复制手段保存论文, 可以公布论文的全部或部分内容。 保密口,在 年解密后适用本授权书。 本学位论文属于 不保密曰 ( 请在以上相应方框内打“4 ”) 作者签名: 导师签名: 汤显 日期:o f 年t 2 ) 1 日 却与峄 日期:时年,胡弓日 第1 章绪论 第1 章绪论 1 1个性化推荐技术的研究背景及意义 随着i n t e m e t 的飞速发展,w w w ( w o f l dw i d ew e b ) 上的网页量正在呈 指数的增长。g o o g l e ( h t t p :w w w g o o g l e c o m ) 搜索引擎索引的网页量已经超 过了2 0 亿。根据“天网”( h t t p :e p k u e d u c n ) 搜索引擎得到的数据,目前中 国不重复网页量已超过了30 0 0 万。在网页迅速增长的同时,w e b 用户也得 到了迅猛地增长。根据c n n i c ( c h i n ai n t e m e tn e t w o r ki n f o r m a t i o nc e n t e r ) 的 最新调查统计,中国已有45 8 0 万的网络用户。w e b 已经成为获取信息最重 要的手段之一。海量的网页在为人们提供包罗万象、无比丰富的信息资源 的同时,也向人们提出了如何快速从信息海洋中获取其所需信息的挑战。 由于w e b 信息的f | 益增长,人们不得不花费大量的时间去搜索、浏览自己 需要的信息。搜索引擎( s e a r c he n g i n e ) 是最普遍的辅助人们检索信息的工 具,比如传统的搜索引擎a l t a v i s t a ,y a h o o 和新一代的搜索引擎g o o g l e 等。 信息检索技术满足了人们一定的需要,但由于其通用的性质,仍不能满足 不同背景、不同目的和不同时期的查询请求。同时基于w w w 的w 曲站点 设计、w e b 服务设计、w e b 站点导航设计以及e s e r v i c e 工作也正变得越来 越复杂和繁重。 1 9 9 5 年,卡内基梅隆大学的a r o b e r t 等人在美国人工智能协会上提 出了个性化导航系统w e b w a t c h e r ,标志着个性化服务的开始;1 9 9 7 年3 月, c o m m u n i c a t i o n so f t h e a c m ) ) 组织了个性化推荐系统的专题报道,标志着 个性化服务已经被技术界高度重视;1 9 9 9 年,德国d r e s d e n 技术大学的 j t a n j a 实现了个性化电子商务原型系统t e l l i m ,标志着个性化服务开始 向全球发展;2 0 0 0 年,n e c 研究院的d b k u r t 等人为搜索引擎c i t e s e e r 增加了个性化推荐功能,实现了c i t e s e e r 的个性化;同年,我国也开始了 个性化服务的研究,清华大学的路海明等提出了基于多a g e m 混合智能实 现个性化推荐。到2 0 0 1 年,个性化研究已经在商业领域得到越来越广泛的 燕山大学工学硕士学位论文 应用 2 1 。 w e b 个性化服务,是个性化服务在i n t e m e t 中的拓展,是个性化服务新 的应用和发展领域。个性化服务是针对不同用户提供不同的服务策略和服 务内容的服务模式,与不区分服务的普通服务模式相比,个性化服务显然 具有更高的服务质量。传统的w e b 服务没有考虑用户的差异,无论用户感 兴趣的信息如何不同,总是使每个用户面对同样的信息空间。因此,面对 巨大的、无序的i n t e m e t 信息库,用户要从中找到自己真正感兴趣的信息或 有用的信息,是一个既耗时又费力的过程。在这种情况下,用户迫切需要 一种能够根据用户的特点自动组织和调整信息的服务模式,于是w e b 个性 化服务应运而生。个性化服务技术将传统的数据挖掘( d a t am i n i n g ) 同w e b 结合起来,进行w e b 挖掘【3 1 ,即从w e b 文档和w e b 活动中抽取用户感兴 趣的潜在的有用模式和隐藏的信息。利用这些模式和信息为用户提供“一 对一”的具备自适应性的智能个性化服务1 4 】。 w e b 个性化服务主要指信息系统具有自动学习功能,可通过概括和分 析网络服务器端记载的用户的w e b 日志,自动实现用户的个性化配置。为 用户提供感兴趣的站点、网页及超链。如在t o r f i 系统中网络管理员统计用 户的历史会话记录,制定一定的规则,根据这些规则为用户提供其所感兴 趣的特定内容及网页;同时也可分析用户历史访问记录,挖掘出用户关心 的内容,从而为该用户提供相似的内容;也可根据用户的访问兴趣对其进 行聚类分析,然后根据用户群之间的相似性进行内容推送1 5 】。 所谓w e b 个性化服务推荐其实质就是一种以用户需求为中心的w e b 服 务。图1 1 t 1 1 描述了w e b 个性化服务的实质。 首先,不同w e b 用户通过各种途径访问w e b 资源( 如图1 - l 中的a 所示) 。 其次,系统学 - j 用户的特性,创建用户访问模型( 如图1 - 1 中的b 所示) 。最 后,系统根据得到的知识调整服务,以适应不同用户的个性化需求( 如图l - l 中的c 所示) 。因此创建w e b 个性化服务系统的一般步骤为: n ) 收集用户的各种信息,如注册信息,访问历史等; f 2 1 分析用户数据,创建符合用户特性的访问模式; f 3 1 结合用户特性,向用户提供符合其特殊需求的个性化服务。用户对 2 第1 章绪论 系统提供的服务做出反馈信息,系统根据反馈信息调整服务。 图i - 1w e b 个性化月务的实质 f i g 1 - 1t h en a t u r eo f p e r s o n a l i z e dw e bs e r v i c e 用户对系统提供的服务做出反馈信息,系统根据反馈信息调整服务。 通过用户与系统之间循环往复的交互,系统最终能够为用户提供个性化服 务。从上面的分析可以看出,通过分析用户的各种信息建立用户访问模式 是建立个性化系统的关键。因为只有首先客观地描述了用户的需求,然后 才能根据这些特性向用户提供个性化服务。w e b 挖掘是实现用户建模的基 本技术【1 1 。 w e b 个性化服务通过收集和分析用户信息来学习用户的兴趣和行为, 从而实现主动推荐的目的。 在电子商务中利用w e b 挖掘技术,可以在海量的w e b 访问数据中发现 用户的兴趣爱好和购买习惯等,对用户进行在线推荐;可以发现用户的访 问模式,用来调整网站结构,提供浏览建议,动态地为用户定制个性化的 网站。通过电子商务个性化服务,使用户成为电子商务网站的中心,有利 于将电子商务网站的浏览者转变为购买者,从而提高电子商务网站的交叉 销售能力以及用户对电子商务网站的忠诚度。 个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更 多的访问者。 1 2 国内外研究现状介绍 个性化服务涉及的技术较多,如用户建模技术、个性化推荐技术、个 3 燕山大学工学硕士学位论文 性化信息检索技术、网站自适应技术、用户稳私保护技术等。目前研究较 多、最关键的两项技术是用户建模技术和个性化推荐技术。 个性化推荐是指根据用户的兴趣特点,向用户推荐其感兴趣的信息。 其原理是根据用户模型寻找与其匹配的信息,或者寻找具有相近兴趣的用 户群而后相互推荐浏览过的信息。个性化推荐技术根据实现的途径不同, 可分为基于规则的推荐、基于内容的推荐、协同过滤推荐和混合推荐。 ( 1 ) 基于规则的推荐基于规则的推荐是指根据已经生成的规则向用 户推荐信息方式。该方式较多的应用于电子商务网站,根据用户浏览和购 买的e t 志生成规则,通过规则推算出用户还没有浏览的或未购买的感兴趣 的内容,然后根据规则的支持度( 或重要程度) ,对这些内容排序并展现给用 户。 基于规则的推荐系统,如i b m 的w e b s p h e r e ,b r o a d v i s i o n ,i l o g 等, 允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规则本 质上是一个i f - t h e n 语句,规则决定了在不同的情况下如何提供不同的服务。 规则可以利用用户静态属性来建立,也可以利用用户动态信息来建立。 基于规则的推荐系统的优点是简单、直接,缺点是规则的质量很难保 证,而且不能动态更新,随着规则数量的增多,系统将变得越来越难以管 理。 ( 2 ) 基于内容的推荐基于内容的推荐是指通过比较资源与用户模型 的相似程度向用户推荐信息的方式。由于基于内容的推荐需要进行匹配计 算,因此较多的应用于可计算的文本领域,如浏览页面的推荐、新闻组中 的新闻推荐等。 基于内容过滤的系统如p e r s o n a lw e b w a t e h e r 州,s y s k i l l w e b e r t t “, l e f t z i a 【8 】,c i t e s e e r 9 1 ,i f w e b 1 0 1 ,s i f t e r t n l ,p v a t l 2 】,w e b m a t e 1 3 1 ,w e b a c e 【1 4 1 。 e l f i 1 5 l 和w e b p e r s o n a l i z e r 1 叼等。它们利用资源与用户兴趣的相似性来过滤 信息。 基于内容过滤的系统其优点是简单、有效,缺点是难以区分资源内容 的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户 已有兴趣相似的资源j 。 4 第1 章绪论 ( 3 ) 协同过滤推荐协同过滤推荐是指通过相同或相近兴趣的用户对 资源的评价向用户推荐信息的方式。该方法是通过比较用户之间的相似性 来推荐信息,即先对用户进行分类,他既适用于可计算的文本领域,又可 应用于其它领域,如音乐、电影、书等。 协同过滤推荐的代表系统主要有:w e b w a t c h e r 1 8 】,s i t e s e e r 19 1 , l i k e m i n d s ( w w w m a c r o m e d i a c o r n ) 等。 协同过滤推荐的优点是可发现用户可能感兴趣的新信息,而且对推荐 对象没有特殊要求,能处理非结构化的复杂对象,如音乐、电影。缺点是 存在两个难点,一是稀疏性,即在系统使用初期,由于系统资源还未获得 足够多的评价,系统很难利用这些评价来发现相似的用户:另一个是扩展 性,即随着系统用户和资源的增多,系统的性能会越来越低。 ( 4 ) 混合推荐混合推荐是指既通过比较资源与各个用户模型的相似 度进行基于内容的推荐,又通过相似兴趣的用户群进行协同过滤推荐的 种方式。该方法具有较好的推荐性能,它同时采用了基于内容的推荐和协 同过滤推荐两种技术,结合这两种技术可以克服各自的一些缺点,为了克 服协同过滤推荐的稀疏性问题,可以利用用户浏览过的资源内容预期用户 对其它资源的评价,这样可以增加资源评价的密度。利用这些评价再进行 基于内容的推荐,从而提高协同过滤推荐的性能啪。 提供混合推荐服务的系统有o p e nb o o k m a r k ,w e b s i f t 2 0 ,f a b 2 ”, a n a t a g o n o m y 2 2 1 和d y n a m i cp r o f i l e r 2 3 1 等。 目前,国内在推荐技术方面研究较多的是基于内容的推荐,典型的如 各种搜索引擎的研究。 为方便比较,选择了国内四个在书籍方面有影响的电子商务网站,并 和国外著名电子商务网站进行了比较分析。从分析结果来看,国内主要使 用的推荐策略有: ( 1 ) 分类浏览,按商品类别进行逐层次的查找; ( 2 1 基于关键词的搜索,对要查找内容的关键词进行搜索; ( 3 ) 流行推荐,推荐最畅销的商品; ( 4 ) 基于某一商品的推荐,推荐与该商品有关的商品; s 鎏当查兰三兰堡主堂垡丝苎 ( 5 ) 信函式推荐,系统下线以e m a i l 形式回答用户要查找的商品。 各电子商务网站所采用的推荐技术如表1 1 2 4 1 所示。 表1 - 1 不同电子商务网站推荐策略比较 t a b l e1 1t h ec o m p a r i s o no f r e c o m m e n d a t i o ns t r a t e g yi nd i f f e r e n te - c o m m e r c ew e b s i t e s 超星数中国数 当当网 新浪商亚马逊 相关的推荐方法 字图书字图书 上书店城书店 馆馆 分类浏览 内容搜索 销售最好流行的商品 个性化推荐 最近的浏览历史 编辑修改用户的评价资料 折扣最大的 新书推荐 通过下线信函推荐 书的基本信息 详细信息 基 让用户给出描述性评价 于 用户给出等级评价 本 查看其他用户的评价 书 促销信息 的 买过此商品又购买过的 推 荐按主题寻找相似书的链接 购买过该作者作品的还买过 以下作者作品的 在表1 1 中,“+ ”表示网站提供的相应服务,“”表示网站并未提供 6 第1 章绪论 此项服务。 从表1 1 可以看出,国内电子商务网站的推荐存在的问题有: ( 1 ) 缺乏个性化的推荐不能根据不同用户的兴趣爱好给出不同的产 品推荐; ( 2 ) 推荐的自动化程度低由于所采用的推荐技术主要是基于内容的 搜索和分类浏览技术,用户想要得到相关的信息,必须输入搜索的关键词 或是按商品的所属类别逐层查找: ( 3 ) 推荐的持久性程度低国内绝大多数电子商务网站给出的推荐都 是基于用户一次登录得到的,不能收集用户每次浏览网页时给出的兴趣偏 好信息,并据此信息对用户做出个性化的推荐; ( 4 ) 推荐方法单一大多数电子商务网站基本都是采用分类浏览和基 于内容的检索; ( 5 ) 不能在线推荐因为计算量太大,推荐只能离线进行。 表1 - 1 的比较表明,我国电子商务网站并没有采用真正意义上的个性化 推荐技术,所使用的仅仅是一些查找技术,这些技术的个性化程度和自动 化程度都比较低。 1 3 本文的主要研究工作 本文在广泛调研和对大量中外文献分析的基础上,结合当前个性化服 务推荐技术的前沿,主要进行以下工作: 在引入项目评分预测思想的基础上,考虑到数据稀疏性和项目所属分 类对项目相似性的影响,采用修正的条件概率方法计算项目相似性;在计 算用户初步预测评分和最终预测评分阶段,采用新的预测方法进行预测; 针对系统性能随着用户和资源的增多而不断下降的问题,提出一种优化的 增量协同过滤推荐算法,并通过实验验证该算法可以有效地解决用户评分 数据极端稀疏情况下传统相似性度量方法存在的问题,显著地提高推荐系 统的推荐质量和推荐效率。 另外,本文还提出了种新的用于得到用户序列访问事务集的算法, 7 燕山大学工学硕士学位论文 应用该算法可以快速得到用户序列访问事务集;根据用户推荐模型和当前 用户输入特征序列得到当前用户相应于推荐模型的推荐集:最后给出了页 面推荐度的定义及其计算方法,根据得到的页面推荐度,结合前面的推荐 集最终确定返回给用户的推荐集。并通过实验验证该算法较已有算法从正 确率方面的提高。 i 4 论文结构 本文各章的结构安排如下: 第1 章为绪论,主要介绍本课题的研究背景、国内外研究现状以及介 绍本文研究内容。 第2 章为w e b 个性化服务技术,主要从个性化服务的实现需要具备的 基础知识入手,简单介绍个性化推荐技术及其相关理论。 第3 章为基于类别相似性的增量协同过滤推荐算法研究,介绍了项目 类别相似性的相关概念并给出了改进后的项目相似性计算方法。在此基础 上提出了一种增量计算方法,并用实验对此算法的优越性进行了验证。 第4 章为基于分类方法的个性化推荐算法研究,本章在深入分析基于 分类的个性化推荐方法的基础上,提出了一种面向w e b 站点的个性化推荐 算法。该算法通过将基于分类方法的个性化推荐算法和基于页面的兴趣度 相结合进行推荐,并通过实验验证,它能有力的提高被推荐页面的有效性。 最后是本文结论,总结全文工作并提出迸一步研究的方向。 8 第2 章w e b 个性化服务技术 第2 章w e b 个性化服务技术 2 1 个性化服务的实现 为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设 计一种合适的表达方式。为了把资源推荐给用户,必须组织好资源,选取 资源的特征,并采用合适的推荐方式。此外,还必须考虑系统的体系结构, 考虑在服务器端、客户端和代理端实现的利弊。下面,从用户描述文件的 表达与更新、资源描述文件的表达、个性化推荐以及体系结构这4 个方面 讨论个性化服务的实现。 2 1 1 用户描述文件 对个性化服务系统来说,最重要的是用户的参与,为了跟踪用户的兴 趣与行为,有必要为每个用户建立一个用户描述文件( u s e rp r o f i l e ) 。用户描 述文件刻画用户的特征与用户之间的关系。在制定用户描述文件之前,需 考虑下面几个问题: ( 1 ) 有没有现成的标准? ( 2 ) 收集什么数据? 收集的数据用于什么目的? ( 3 ) 如何收集数据? 根据什么信息源来收集? ( 4 ) 收集的数据如何组织? ( 5 ) 用户信息能否自适应地更新? 用户描述文件还没有一个统一的标准,如w 3 c ( w w w w 3 c o r g ) 有两个涉 及用户描述文件的标准:p i c s ( p l a t f o r mf o ri n t e m e tc o n t e n ts e l e c t i o n ) 和 a p p e l l o ( ap 3 pp r e f e r e n c ee x c h a n g el a n g u a g e1 0 ) ,p i c s 是父母和老师用 来控制孩子的浏览能力的,提供了过滤规则定义语言p i c s r u l e s 。a p p e l l 0 可定义用户感兴趣的站点和过滤规则,这些规则大部分是在p i c s r u l e s 的 基础上发展起来的。此外,n e t s c a p c ,f i r e f l y 和v e r i s i g n 曾向w 3 c 的p 3 p 9 燕山大学工学硕士学位论文 ( p l a t f o r mf o rp r i v a c yp r e f e r e n c e s ) i 作组提交了一个o p s ( o p e np r o f i l i n g s t a n d a r d ) 草案,由于目前p 3 p 版本不打算考虑如何进行数据传输,因此该 草案被搁置一边,o p s 描述了如何表示一个用户描述文件以及用户与w e b 站点交互的问题。 在收集用户的信息之前,首先需分析用户愿意提供什么信息,用户一 般都很注意个人信息的保密性【2 ”,w w w c y b e r d i a l o g u e t o m 的调查显示,8 0 的用户愿意向w e b 站点提供自己的姓名、性别、年龄、教育背景和兴趣, 但大多数用户不愿意提供私有、敏感的信息,比如个人收入和信用卡号等, 该公司另一项调查显示,2 8 的用户愿意w e b 站点向其他w e b 站点共享自 己的信息。为了规范w e b 用户信息的保密性,w 3 c 成立了p 3 p 工作组来解 决这个问题,它允许用户有选择地向w e b 站点提供自己的信息,从而达到 保护用户信息的目的。目前已有一些站点和浏览器支持了p 3 p ,比如 w w w w 3 c o r g ,w w w 。m i c r o s o f t c o r n ,w w w a 0 1 c o r n ,w w w a n c o r n 等站点和 m i c r o s o f l a t & tp 3 p 浏览器等等,但还处于试用阶段。 2 1 1 1 用户描述文件的表达不同个性化服务系统的用户描述文件各有 其特点,用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种 类型1 2 6 j 。基于兴趣的用户描述文件可以表示为加权矢量模型、类型层次结 构模型、加权语义网模型、书签和目录结构等。基于行为的用户描述文件 可以表示为用户浏览模式或访问模式。在具体实现时可以综合基于兴趣和 基于行为这两种表达方式。 用户描述文件可以用文件来组织,也可以用关系数据库或其他数据库 来组织。目前有一些系统采用基于x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 的 r d f ( r e s o u r c ed e f i n i t i o nf r a m e w o r k ) 来表达用户描述文件,并利用支持 订l 的数据库系统来存储用户描述文件,这样,不仅利用了x m l 的优点, 也保持了系统的性能。表2 1 从用户描述文件的表达、学习的信息源两方面 比较了几个典型的个性化服务系统。 2 1 1 2 用户信息的收集与更新在用户第一次使用个性化服务系统的时 候,系统可以要求用户注册自己的基本信息和感兴趣的内容,系统也可以 隐式地收集用户信息。在定制好一个用户描述文件之后,系统可以让用户 第2 章w e b 个性化服务技术 自主修改,也可以由系统自适应地修改,这样,系统就可以随用户兴趣的 变化而变化。系统要自适应修改用户信息,必须根据学习的信息源分析当 前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次结构。根据 学习的信息源,用户跟踪的方法可分为两种:显式跟踪和隐式跟踪。显式 跟踪是指系统要求用户对推荐的资源进行反馈和评价,从而达到学习的目 的。隐式跟踪不要求用户提供什么信息,所有的跟踪都由系统自动完成, 隐式跟踪又可分为行为跟踪和目志挖掘。 表2 - 1 各个原型系统在用户描述文件方面的对比 t a b l e2 - 1c o m p a r i s o no f s e v e r a lp r o t o t y p e si nu s e rp r o f i l e 原型系统用户描述文件的表达学习的信息源 b r o a d v i s i o n用户静态信息用户注册信息 p e r s o n a l 基于加权关键词矢量,穗式包4 建与更新 利用指向文档的超链内容 w c b w a t c h e r 表示为兴趣类,基于加权关键词矢量,隐 s y s k i l l w c b e r t 用户显式反馈的信息 式创建,显式反馈更新 用户隐式反馈的信息,访 l e f t 五a基于加权关键词矢量,隐式创建与更新 问和标记某f 5 9 页等行为 一个文件的集合集合中每个文件可以包 用户行为和对推荐文档的 c i t e s e e r含关键词、u r l s 、引用等允许显式或隐式 反应 创建,允许显式或隐式更新 基于加权语义网,表达关键词和它们间的 l 俐e b上下文关系,考虑用户感兴趣和不感辨趣的 用户的显式和隐式反馈的 信息 内容 表示为个人视图,是一种类型层次结构。 p v ap r o x y 日志信息 表达领域的知识,隐式创建和更新 w 曲s l f t 用户浏览记录,隐式创建与更新w e b 访问日志 用户个性信息是放在数据库中基于关键显式反馈信息和用户在某 g r o u p l e n s 词矢量,显式创建、显式反馈或隐式更新 页所花的时间 燕山大学工学硕士学位论文 续表2 - i 原型系统用户描述文件的表达学习的信息源 从w e b 访问日志和站点文件脱机产生的 w e b p e r s o n a l i z c r用户浏览行为 u r l 聚类 基于加权关键词矢量,显式创建、显式反阅读的文档、阅读文档所 s e l e c t 馈或隐式更新花的时间和添加书签等行为 用户书签和目录结构等信息,显式创建、书签、引用文件的内容、 s i t c s e e r 显式更新 用户定义的目录类型 基于加权关键词矢量,显式创建、显式反 a n a t a g o n o m y 用户行为和显式反馈信息 馈或隐式更新 2 1 2 资源描述文件 个性化服务系统所应用的领域决定了它所处理的资源。a n a t a g o n o m y , s m a r t p u s h 2 7 1 应用的领域是报纸;g r o u p l e n s 应用的领域是u s e n e t 新闻; c i t e s e e r 应用的领域是科技文档;f i r e f l y 应用的领域是音乐和电影; a m a z o n c o r n ,e b a y 应用的领域是电子商务;还有一些个性化服务系统并不 面向特定的领域,它们用于导航、推荐、帮助或搜索,不过它们所处理的 资源不太相同。目前,个性化服务系统所处理的资源都属于文本范畴, f i r e f l y 面向音乐和电影,其实现是通过用户评价喜欢的音乐家和电影来进 行协同过滤的,所以仍然属于文本处理。 资源的描述与用户的描述密切相关,一般的做法是用同样的机制来表 达用户和资源,资源描述文件可以用基于内容的方法和基于分类的方法来 表示,下面从这两方面分析文档资源描述文件的表达。 2 1 2 1基于内容的方法基于内容的方法是从资源本身抽取信息来表示 资源,使用最广泛的方法是用加权关键词矢量。对文档来说,关键的问题 是特征选取,特征选取要达到两个目标:一是选取最好的词;二是选取的 词最少。要抽取特征词条,需要对文档进行词的切分,在切分的同时,利 用停用词列表( s t o pw o r d ) , 扶文档特征集中除去停用词,在完成词切分后, i 2 第2 章w e b 个性化服务技术 接着除去文档集中出现次数过少和过多的词。经过这些处理后,特征数目 一般还很大,还需对特征进行进一步的选取,以降低特征的维数。特征选 取的方法很多,比较简单的做法就是计算每个特征的熵,选取具有最大熵 值的若干个特征;也可以计算每个特征的信息增量( i n f o r m a t i o ng a i n ) ,也就 是计算每个特征在文档中出现前后的信息熵之差;还可以计算每个特征的 互信息( m u t u a li n f o r m a t i o n ) ,也就是计算每个特征和文档的相关性:还可使 用x 2 统计方法。文献 2 8 1 的对比研究表明,信息增量方法和x 2 统计方法表 现较好,但这两种方法的计算量比较大。 2 1 2 2 基于分类的方法基于分类的方法是利用类别来表示资源,对文档 资源进行分类有利于将文档推荐给对该类文档感兴趣的用户。文本分类方 法有多种,比如:朴素贝叶斯f n a i v e b a y e s ) ,七最近邻方法( k n n ,k n e a r e s t n e i g h b o r ) 和支持向量机s v m ( s u p p o r tv e c t o rm a c h i n e ) 等。资源的类别可以 预先定义,也可以利用聚类技术自动产生。 2 1 3 个性化推荐 个性化推荐可以采用基于规则的技术、基于内容过滤的技术和协同过 滤技术,前面已经提到支持这些技术的个性化服务系统,现在从实现角度 分析这几种技术。 2 1 3 1 基于规则的技术规则可以由用户定制,也可以利用基于关联规则 的挖掘技术来发现【2 9 j ,利用规则来推荐信息依赖于规则的质量和数量,基 于规则的技术其缺点是随着规则的数量增多,系统将变得越来越难以管理。 一个规则本质上是一个i f - t h e n 语句,规则可以利用用户静态属性来建立, 也可以利用用户动态信息来建立。为了利用规则来推荐资源,用户描述文 件和资源描述文件需用相同的关键词集合来进行描述。 基于规则的系统一般分为三部分:关键词层、描述层和用户接口层。 关键词层提供上层描述所需的关键词,并定义关键词间的依赖关系,在该 层可以定义静态属性的个性化规则。描述层定义用户描述和资源描述,由 于描述层是针对具体的用户和资源,所以描述层的个性化规则是动态变化 的。用户接口层提供个性化服务,根据下面两层定义的个性化规则将满足 燕山大学工学硕士学位论文 规则的资源推荐给用户。如图2 1 【”i 所示。 用户接口层 l - 个性化 _ i 用 资 厂人描黼。、 7 、:一一至于特定值的规婀、:一,1 户 j 源 关键词层一一! ,、 7 二1 7 、二、 用户描述文件,资镢描述文件。用户属性,资潍属性, 基于属性的静态规则 图2 - 1 基于规则的技术 f i g 2 - 1r u l e - b a s e dt e c h n o l o g y 2 1 3 2 信息过滤技术信息过滤技术可分为基于内容过滤的技术和协同 过滤技术,如图2 - 2 7 j 所示。 ( a ) 基于内容的过滤( b ) 协同过滤 ( a ) c o n t e n t - b a s e df i l t e r i n g ( b ) c o l l a b o r a t i v ef i l t e r i n g 图2 - 2 信息过滤技术 f i g 2 - 2i n f o r m a t i o nf i l t e r i n gt e c h n o l o g y 1 4 第2 章w e b 个性化服务技术 基于内容过滤的技术是通过比较资源与用户描述文件来推荐资源。它 的关键问题是相似度计算,对于矢量空间模型来说,通常采用的方法是余 弦度量。如果用户的描述文件没有正确描述用户的兴趣和行为,那么该方 法推荐的数据可能和用户真正的兴趣根本不相关。 协同过滤是根据用户的相似性来推荐资源。它与基于内容的过滤技术 不同,它基于群体环境,比较的是用户描述文件,而不是资源与用户描述 文件,它能为用户发现新的感兴趣的信息,使得相似用户可以利用其他用 户的结果来扩展所处理信息的广度和精确度,其关键问题是用户聚类。由 于它是根据相似用户来推荐资源的,所以有可能为用户推荐出新的感* 趣 的内容。 基于近邻用户的协同过滤技术应用比较普遍,它的核心问题是为当前 用户寻找k 个最相似的邻居来预测当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/CCAA 91-2024检验检测机构合同评审指南
- 初中英语时态专项练习1
- 产科急症模拟教学在住院医师培训中的课程标准化
- 动力电池回收全产业链分析
- 单位运动会通讯范文53篇
- 初级房地产经济练习题
- 初中数学教学设计15篇
- 二甲双胍与抗癫痫药物相互作用的临床管理
- 乡土变迁议论文800字
- 新冠肺炎疫情下项目管理系统的设计与实践
- 工业传感器课件
- 室内菜窖安全常识培训课件
- 饲料厂管理汇报
- 剪刀生产工艺讲解
- 餐饮客诉培训课件
- 2025新版太原市劳动合同范本
- HJ 25.4-2014:污染场地土壤修复技术导则
- 羽毛球规则课件
- 2025年党章党史党纪知识竞赛试题库及答案
- 就业帮扶车间培训课件
- 森林扑灭火课件
评论
0/150
提交评论