(计算机应用技术专业论文)基于用户兴趣聚类的协同过滤推荐技术的研究.pdf_第1页
(计算机应用技术专业论文)基于用户兴趣聚类的协同过滤推荐技术的研究.pdf_第2页
(计算机应用技术专业论文)基于用户兴趣聚类的协同过滤推荐技术的研究.pdf_第3页
(计算机应用技术专业论文)基于用户兴趣聚类的协同过滤推荐技术的研究.pdf_第4页
(计算机应用技术专业论文)基于用户兴趣聚类的协同过滤推荐技术的研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机应用技术专业论文)基于用户兴趣聚类的协同过滤推荐技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

、 峄 : : i i 囊 t 擎 睡分类号 udc 密级 iylllllllllltll8llllll4ltllltllul3llll3llltlll2llllj 1 9 3 4 1 8 2 学位论文 基于用户兴趣聚类的协同过滤推荐技术的研究 作者姓名:靳立忠 指导教师:王大玲 东北大学计算机软件研究所 申请学位级别:硕士学科类别:工学 学科专业名称:计算机应用技术 论文提交日期:2 0 0 7 年1 2 月2 5 日论文答辩日期:2 0 0 8 年1 月2 8 日 学位授予日期:答懒蝴:审偶隶 评阅人:彳幻梭张统 , 东北大学 2 0 0 8 年1 月 ,、 “矽r 2 r l。 参囊。、。 、 , t_,i ,擎;,:i, 弋j_ i 、 i 一 - i i - at h e s i sf o r t h ed e g r e eo fm a s t e ri nc o m p u t e ra p p l i c a t i o nt e c h n o l o g y s t u d y o nc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n 。 b a s e do nu s e r s i n t e r e s tc l u s t e r i n g b yj i nl i z h o n g s u p e r v i s o r :p r o f e s s o rw a n gd a l i n g n o r t h e a s t e r nu n i v e r s i t y j a n u a r y2 0 0 8 - 一 7 j y i一 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚挚 的谢意。 学位论文作者签名:翻互点 签字e l 期:w 召了 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 学位论文作者签名:静盔岩 导师签名: 孑仑移 签字e t 期 :w 旷v 讨签字日期:沙州多) , 么 ;i i , , 1 矗 一 l k 订_ 1 q l h 仃 l 东北大学硕士学位论文摘要 基于用户兴趣聚类的协同过滤推荐技术的研究 摘要 近年来,电子商务个性化推荐系统在网络上获得了普遍的成功,协同过滤技术是其 中应用最广泛、最成功的个性化推荐技术。随着网上信息的数量和商品的种类的急速增 长对推荐系统提出了严峻挑战,协同过滤推荐中存在的冷启动和稀疏性问题,还有在基 于用户的协同过滤推荐中的用户兴趣的定位问题急待解决。 本文通过分析传统的基于用户的协同过滤算法中存在的问题,提出了一种基于用户 兴趣聚类的协同过滤技术的改进算法。该算法综合考虑了用户项目评分矩阵的稀疏性和 用户兴趣类别的影响。在进行目标用户最近邻查询时,首先对项目进行分类,也即对用 户的兴趣进行分类,然后基于用户兴趣矩阵进行聚类分析,找出目标用户的邻居用户候 选集。最后基于用户项目评分矩阵计算目标用户与邻居用户候选集中用户的相似性, 找出目标用户的最近邻居用户集。 用户的个人兴趣在很大程度上决定着用户的访问习惯。针对用户评分数据的极端稀 疏性问题,本文提出了一种基于用户兴趣聚类的协同过滤推荐算法。该方法通过对用户 兴趣聚类分析来计算用户间的相似性,初步预测用户对未评分项目的评分,对目标用户 产生项目推荐集。 实验结果表明,与传统的基于用户的协同过滤推荐算法相比,本文提出的改进算法 具有更高的准确性和有效性。 关键词:用户兴趣;协同过滤;个性化;聚类;推荐;w e b 挖掘 , 一i i 1 , 一 t l j ,j o _ l 东北大学硕士学位论文 s t u d yo nc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n b a s e do nu s e r s i n t e r e s tc l u s t e r i n g a b s t r a c t r e c e n t l y ,p e r s o n a l i z e d r e c o m m e n d e r s y s t e m s ,e s p e c i a l l y c o l l a b o r a t i v e f i l t e r i n g r e c o m m e n d e rs y s t e m s ,h a v ea c h i e v e dw i d e s p r e a ds u c c e s s e so nt h ew e b t h et r e m e n d o u s g r o w t hi nt h ea m o u n to fa v a i l a b l ei n f o r m a t i o na n dt h ek i n d so fc o m m o d i t i e st ow e bs i t e s p o s e ss o m ek e yc h a l l e n g e sf o rr e c o m m e n d e rs y s t e m s ,s ot h ep r o b l e m so fc o l d - s t a r ta n d s p a r s i t yi n c o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o n , a n dt h e u s e ri n t e r e s t s o r i e n t a t i o n p r o b l e m so fu s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h ma r ei nd i r en e e dt ob es o l v e d b ya n a l y z i n gp r o b l e m so fu s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m ,a ni m p r o v e du s e r i n t e r e s tc l u s t e r i n gb a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mw a sp r o p o s e d t h i sn e wa l g o r i t h m t a k e ss y n t h e t i c a l l yi n t oa c c o u n tt h ei n f l u e n c eo ft h es p a r s i t yo fu s e r - i t e mr a t i n gm a t r i xa n dt h e c l a s so ft h eu s e r si n t e r e s t i nt h en e a r e s tn e i g h b o r sq u e r y ,f i r s t l yc l a s s i f yt h ei t e m sa n dt h e n c l u s t e rt h eu s e r sb yt h eu s e r i t e mr a t i n gm a t r i xt of i n do u tt h et a r g e tu s e r sn e a r e s tn e i g h b o r u s e rs e t a tl a s t ,b yc o m p u t i n gt h es i m i l a r i t yo ft h et a r g e tu s e ra n dt h eu s e ri nt h en e a r e s t n e i g h b o r ss e tt of i n do u tt h en e a r e s tn e i g h b o r ss e t i n d i v i d u a lu s e ri n t e r e s td e t e r m i n e su s e r s v i s i t a t i o ni nac e r t a i ne x t e n t t oa d d r e s st h e p r o b l e mo fe x t r e m es p a r s e n e s so fu s e rr a t i n gd a t a , an o v e lc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m b a s e do nu s e r s i n t e r e s tc l u s t e r i n gi sp r o p o s e d t h em e t h o dp r e d i c t si t e mr m i n g st h a tu s e r s h a v en o tr a t e db yt h es i m i l a r i t yb a s e do nu s e r s i n t e r e s tc l u s t e r i n g ,t h e nu s e san e ws i m i l a r i t y m e a s r r et of i n dt h et a r g e tu s e r s i t e mr e c o m m e n d a t i o ns e t t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ei m p r o v e da l g o r i t h m ,i e t h ec o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o na l g o r i t h mb a s e do nu s e r s i n t e r e s tc l u s t e r i n gi sm o r ea c c u r a t ea n d e f f i c i e n tc o m p a r i n gw i t ht h et r a d i t i o n a lu s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n a l g o r i t h m k e y w o r d s :u s e r s i n t e r e s t ;c o l l a b o r a t i v ef i l t e r i n g ;p e r s o n a l i z a t i o n ;c l u s t e r i n g ;r e c o m m e n d a t i o n ; w e bm i n i n g i i i 一 - j : 0 东北大学硕士学位论文目录 目录 独创性声明i 摘要i i a b s 7 i r a c t 。i i i 第一章绪论1 1 1 研究背景1 1 2 协同过滤技术的国内外研究现状2 1 3 本文的研究意义4 1 4 本文的主要工作5 1 5 本文的组织结构。5 第二章个性化推荐系统的研究7 2 1 个性化推荐系统概述7 2 2 个性化推荐系统的界面表现形式8 2 3 个性化推荐系统的输入输出方式8 2 3 1 电子商务推荐系统的输入方式。9 2 3 2 电子商务推荐系统的输出方式1 0 2 4 个性化推荐系统的分类1 0 2 5 个性化推荐系统面临的主要挑战1 2 2 6 本章小结13 第三章信息过滤技术在个性化推荐中的应用研究1 5 3 1 基于内容的过滤技术。1 5 3 1 1 基干内容的过滤技术概述1 5 3 1 2 基于内容的过滤的优劣分析1 5 3 2 协同过滤技术16 3 2 1 协同过滤技术概述1 6 3 2 2 协同过滤技术的分类。1 9 3 2 3 协同过滤技术的优缺点1 9 3 3 基于用户的协同过滤技术2 1 3 3 1 最近邻查询2 2 3 3 2 相似度计算2 2 3 3 3 预测计算。2 3 3 4 基于项目的协同过滤推荐算法2 3 一 东北大学硕士学位论文 目录 3 5 本章小结2 5 第四章基于用户兴趣聚类的协同过滤算法2 7 4 1 聚类分析概述2 7 4 1 1 聚类的基本概念2 7 4 1 2 主要的聚类方法2 8 4 2 项目资源分类3l 4 3 用户兴趣模型3 3 4 4 用户兴趣聚类3 3 4 5 基于用户兴趣聚类的最近邻查询3 5 4 5 1 查询算法3 5 4 5 2 相似性度量方法分析3 6 4 5 3 算法分析38 4 6 生成推荐:38 4 7 本章小结3 9 第五章算法的实现和评价4 1 5 1 算法的设计与实现4 1 5 1 1 用户兴趣聚类模块的实现4 2 5 1 2 查找最近邻居模块4 5 5 1 3 预测评分并生成推荐4 7 5 2 数据集4 9 5 3 评价标准51 5 4 实验设计和结果分析5 2 5 4 1 数据集的抽取5 2 5 4 2 算法的时间复杂度分析5 2 5 4 3 实验环境5 3 5 4 4 实验结果及其分析。5 3 5 5 实验结论5 4 5 6 本章小结5 5 第六章结束语。5 7 6 1 本文的总结_ 5 7 6 2 未来工作。5 8 参考文献5 9 致 射6 2 攻读硕士期间参加的项目6 4 一v 一 东北大学硕士学位论文第一章绪论 1 1 研究背景 第一章绪论弟一早三百了匕 i n t e m e t 的迅猛发展将人类带入了信息社会和网络经济时代,对人们生活、社会发 展和企业发展都产生了深远的影响。一方面,i n t e m e t 的发展正在极大地改变着我们每 个人的生活,人们不出家门就可得到自己想要的商品,网上购物的经历让我们感受到电 子商务带来的惊喜:另一方面,基于i n t e m e t 的虚拟企业不再需要像传统的物理环境下 企业那样的实体投资,企业与顾客、供应商等建立起更直接的联系,电子商务模式为企 业的发展提供了更多的机会。 预计到2 0 0 9 年,我国全年电子商务交易额将超过1 0 0 0 0 亿元人民币。但事实上, 电子商务的应用还远没有被挖掘出来,这其中固然有硬件设施滞后、用户观念未改变等 原因,而企业服务不到位更是一个重要的原因。电子商务的发展模式对企业服务提出了 许多新的要求,包括商品的质量保证、送货及时、商品选购舒适、退货方便等。其中, 最为突出的一个问题就是商品选购的个性化推荐问题。 目前,几乎所有大型的电子商务系统,如a m a z o n 、c d n o w 、e b a y 、当当网上书 店等,都不同程度的使用了各种形式的推荐系统。电子商务推荐系统的作用主要表现在 以下三个方面: 7 1 ( 1 ) 将电子商务网站的浏览者转变为购买者; ( 2 ) 提高电子商务网站的交叉销售能力( c r o s ss e l l i n g ) ; ( 3 ) 提高客户对电子商务网站的忠诚度。研究表明,电子商务的销售行业使用个性 化推荐系统后,销售额能提高2 8 ,尤其在书籍、电影、c d 音像、日用百货等产品 相对较为低廉且商品种类繁多,用户使用个性化推荐系统程度高的行业,推荐系统能大 大提高企业的销售额。 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ,c f ) 技术是应用最为广泛的个性化推荐技术, 是推荐系统的一个重要组成部分。协同过滤通过参考与活动用户具有相似兴趣和需求的 其他用户的选择来决定如何为该用户进行信息过滤。协同过滤技术是知识获取方式之 ,是从可利用的知识源中抽取形式化知识的过程。用通俗的话来说,协同过滤就是“如 果和我兴趣爱好相同的人喜欢这样东西,那我也会喜欢这样东西的。 东北大学硕士学位论文第一章绪论 1 2 协同过滤技术的国内外研究现状, 协同过滤推荐( c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n ) 是目前研究最多的个性化推 荐技术,著名的系统有g r o u pl e n s n e tp e r c e p t i o n s 1 1 ,r i n g o f i r e f l y 2 1 及t a p e s t r y t 3 】等。协 同过滤的最大优点是对推荐对象没有特殊要求,能处理非结构化的复杂对象,如音乐、 电影。 近年来陆续提出了许多协作过滤的实现算法。协同过滤推荐算法主要分为两类:一 是基于内存的协同过滤( m e m o r y b a s e dc o l l a b o r a t i v ef i l t e n n g ) ,先用相似统计的方法得 到具有相似兴趣爱好的邻居用户,所以该方法也称基于用户的协同过滤( u s e r - b a s e d c o l l a b o r a t i v ef i l t e r i n g ) 或基于邻居的协同过滤( n e i g h b o r - b a s e dc o l l a b o r a t i v e ) 【4 ,5 1 ;二是 基于模型的协同过滤( m o d e l b a s e dc o l l a b o r a t i v ef i l t e r i n g ) ,先用历史数据得到一个模型, 再用此模型进行预测【5 】。基于模型的推荐广泛使用的技术包括神经网络等学习技术,潜 在语义检索( 1 a t e n ts e m a n t i ci n d e x i n g ) 和贝叶斯网络( b a y e s i a nn e t w o r k s ) ,训练一个 样本然后得到模型。b r e e s e 教授认为基于用户的协同过滤推荐比基于模型的协同过滤推 荐方法更好【6 】。 基于用户的协同过滤推荐算法随着用户数量的增多,计算量成线性加大,其性能越 来越差,并且不能对推荐结果提供很好的解释。为此,在2 0 0 1 年有人提出了第三种协 同过滤推荐算法,即基于项目的协同过滤推荐算法( i t e m - b a s e dc o l l a b o r a t i v ef i l t e r i n g a l g o f i t h m s ) 。该算法通过先计算已经评价项目和等待预测项目的相似度,以相似度作为 权重,加权各个已经评价项目的评价分,得到预测项目的预测值,并指出基于项目的推 荐算法比基于用户的推荐算法还要好,且能解决基于用户的协同推荐的两个问题。但 m i l d 教授从批判的角度重新审视了各种推荐算法,指出基于项目的协同推荐并不一定 好,算法准确度与采用的实验规模数据有关 7 1 。虽然协同过滤作为一种典型的推荐技术 有相当的应用,但其仍有许多问题需要解决。目前很多技术都是围绕协同过滤展开研究 的,最典型的有稀疏问题( s p a r s i t y ) 和冷启动问题( c o l d - s t a r t ) 1 8 , 9 ,除此之外,还有新 用户问题和算法扩展性等问题。 除了协同过滤推荐技术外,还有一些其他推荐技术: ( 1 ) 基于内容的推荐技术( c o n t e n t b a s e dr e c o m m e n d a t i o n ) :它是基于用户评价对象 的特征学习用户的兴趣,依据用户资料与待预测项目的匹配程度进行推荐,如新闻组过 滤系统n e w sw e e d e r 【1 0 , 11 】; 一2 一 东北大学硕士学位论文第一章绪论 ( 2 ) 基于用户统计信息的推荐( d e m o g r a p h i c b a s e dr e c o m m e n d a t i o n ) :推荐系统基 于用户个人属性对用户进行分类,再基于该类对类中的用户进行推荐d o 】,不要求有一个 历史的用户数据,而协同过滤和基于内容的推荐技术都需要; ( 3 ) 基于效用的推荐( u t i l i t y - b a s e dr e c o m m e n d a t i o n ) :它是根据对用户使用项目的 效用进行计算的,核心问题是如何为每个用户创建效用函数,并考虑非产品属性,如提 供商的可靠性( v e n d o rr e l i a b i l i t y ) 和产品的可用性( p r o d u c ta v a i l a b i l i t y ) 等; ( 4 ) 基于知识的推荐( 1 ( i l o w l e 起e - b a s e dr e c o m m e n d a t i o n ) :在某种程度上可以看成 是一种推理( i n f e r e n c e ) 技术,各方法因所用的知识不同而有明显区别【1 2 1 3 1 ; ( 5 ) 基于关联规则的推荐( a s s o c i a t i o nr u l e b a s e dr e c o m m e n d a t i o n ) :以关联规则为 基础,把已购商品作为规则头,推荐对象作为规则体,其中关联规则的发现是最关键的 且最耗时的,是算法的瓶颈,但可以离线进行,商品名称的同义性问题也是关联规则的 一个难点。 由于各种推荐方法都有其各自的优缺点,所以在实际应用中常采用组合推荐( h y b r i d r e c o m m e n d a t i o n ) 。研究和应用最多的是内容推荐和协同推荐的组合 g , l l 】。最简单的做 法是分别用基于内容的方法和协同推荐方法,产生一个推荐预测结果,然后用某方法组 合其结果【1 4 1 。文献 1 3 】利用用户评价数据得到的文档词矩阵( t h et e r m - d o c u m e n tm a t r i x ) 产生一个基于内容用户资料的矩阵( c o n t e n t p r o f i l em a t r i x ) 。通过潜在语义索引( l a t e n t s e m a n t i ci n d e x i n g ,l s i ) 计算一个基于内容用户资料的排序形式,在l s i 空间中,加权 用户档案中的词义向量产生推荐;文献 1 1 】用w i n n o w 算法从训练集中导出一个具有权 重的词义向量作为用户资料模型,在此基础上,用协同过滤方法进行预测;f a b 通过构 建个人过滤器和主题过滤器,文档先用主题过滤器排序,再用个人过滤器处理,用户的 反馈可以修改个人代理器和主题代理器【8 】;文献 9 】用协同过滤和多个个人信息过滤代 理,协同过滤基于当前用户的个人代理和其他用户集上。虽然这些研究在一定程度上改 进了协同过滤算法,有效的缓解了协同过滤算法的稀疏性问题和冷启动问题,但是也并 没有从根本上解决数据的稀疏性和推荐的冷启动问题。并且随着电子商务网站规模的不 断扩大,访问网站的顾客与产品的数据大量增多。其协同过滤推荐的效率随之线性下降, 这时协同过滤算法的计算复杂性上便遇到了很多的问题,显示出自身的不足性。 为了产生精确而有效的推荐,保证推荐系统的实时性要求,研究者提出了各种不同 的推荐算法,如协同过滤推荐、基于项目的协同过滤推荐、b a y e s i a n 网络技术、聚类技 术、关联规则技术以及基于图的h o r t i n g 技术等。b a y e s i a n 网络技术利用训练集创建相 一3 一 东北大学硕士学位论文第一章绪论 应的模型【1 5 1 ,模型用决策树来表示,节点和边表示用户信息。训练得到的模型非常小, 所以对模型的应用非常快,这种方法适合用户的兴趣爱好变化比较慢的情况。 1 3 本文的研究意义 基于协同过滤和个性化推荐的研究现状,本文将“基于用户兴趣聚类的协同过滤推 荐技术 作为研究重点。 个性化推荐系统是现代电子商务发展的产物,协同过滤推荐适应了对推荐系统的实 际技术要求。研究个性化推荐系统中的协同过滤推荐具有重要意义。 社会的发展对研究个性化推荐系统提出了需要。信息时代的到来和电子商务的出现 改变了人们的生活,人们对个性化服务和产品产生了迫切的需求。在电子商务的虚拟环 境下,电子商务企业所能提供的商品种类和数量非常多,但是用户不希望也不可能浪费 大量时间在网上寻找商品。这就需要电子商务系统提供个性化服务的功能把用户可能感 兴趣的商品推荐给用户,使用户能够方便、容易的得到自己所需要的商品。从企业方面 来说,要在激烈的市场竞争中赢得存在和发展,除了生产价廉物美的产品之外,还必须 在产品营销上主动的把合适的产品送到合适的用户手中,为用户的网上购物提供便捷的 个性化购物环境。因此,电子商务个性化推荐系统符合现代商务中用户个体、企业和社 会的需要。 同时,研究个性化推荐系统对企业和社会具有很高的经济价值。顾客是利润的来源, 谁能提供给顾客更好、更满意、更具个性化的产品和服务,谁就能赢得市场。应该看到, 电子商务模式使用户从物理购物环境转向虚拟购物环境的同时,也对企业服务提出了许 多新的、更高的要求,包括商品选购便捷、付款方便、质量保证、送货及时、退货容易 等,其中首先遇到的一个重要问题就是如何满足不同顾客对不同商品的个性化需求,提 供给顾客所需要的商品信息,以便顾客选购,而这正是企业价值链的源头和市场营销的 起点。 在理论研究方面,个性化推荐系统具有较高的学术价值。自从1 9 9 2 年以来,电子 商务个性化推荐系统和协同过滤推荐被国际学术界广泛关注,并逐渐被应用于各个行 业。个性化推荐系统中的协同过滤推荐能对非结构化的复杂对象提供准确性较高的个性 化推荐结果。但是传统的协同过滤推荐存在的冷启动和稀疏问题严重影响了推荐性能, 成为国内外研究学者的研究焦点,人们逐渐认识到对个性化推荐系统中协同过滤推荐的 研究在学术研究领域占有重要的地位。 一4 一 东北大学硕士学位论文第一章绪论 1 4 本文的主要工作 尽管协同过滤技术在个性化推荐系统中获得了极大的成功,但随着站点结构、内容 的复杂度和用户人数的不断增加,协同过滤技术的一些缺点逐渐暴露出来,主要有精确 性( a c c u r a c y ) 问题、稀疏性( s p a r s i t y ) 问题、冷启动( c o l ds t a r t ) 问题、扩展性( s c a l a b i l i t y ) 问题。这些问题我们将在第三章详细分析。 本文主要针对协同过滤技术中的稀疏性与实时性问题进行研究,在评分数据稀疏的 情况下使预测的准确性保持较高的水平,本文通过分析传统的基于用户协同过滤算法中 存在的问题,提出了一种基于用户兴趣聚类的协同过滤技术的改进算法。该算法综合考 虑了用户项目评分矩阵的稀疏性和用户兴趣类别的影响。 1 5 本文的组织结构 根据研究内容,本文的组织结构如下: 第一章介绍了个性化推荐系统中协同过滤推荐技术的理论背景和研究意义,协同过 滤推荐技术在国内外的研究现状,简单介绍了我国电子商务系统的快速发展,然后阐述 了本课题研究的主要内容和意义; 第二章介绍个性化推荐系统的一些基本概念、功能、体系结构、应用流程,以及目 前个性化推荐系统的研究内容以及所采用的相关技术等; 第三章介绍信息过滤技术,基于内容的过滤技术和协同过滤技术,其中重点介绍协 同过滤技术以及经典的基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法; 第四章首先介绍本文所用到的聚类技术,重点研究了传统的协同过滤推荐技术中的 用户兴趣变化问题和稀疏性问题,提出一个改进的基于用户兴趣聚类分析的协同过滤算 法,算法的核心就是对用户兴趣聚类分析,也即对项目的聚类或者分类进而对用户一项 目矩阵进行划分,在计算查询目标用户的最近邻居时,分别运用三种相似性计算方法来 计算目标用户和其他用户的相似性,本算法对用户评分矩阵的项目资源分类和用户兴趣 向量的聚类来对传统的协同过滤算法进行优化; 第五章介绍基于用户兴趣聚类的协同过滤推荐算法的实现和评价,针对传统的协同 过滤技术中的稀疏性问题和精确性问题以及可扩展性等问题,对本文提出的基于用户兴 趣聚类的协同过滤推荐算法进行了算法实现,并在所选取的数据集上进行了改进的基于 用户兴趣聚类的协同过滤算法和传统的基于用户的协同过滤算法在推荐精确度上的对 比仿真实验,并对实验结果进行评价和分析; 一5 一 东北大学硕士学位论文第一章绪论 第六章最后对本文进行全面总结,总结目前的个性化推荐技术发展现状和在协同过 滤推荐算法方面所存在的问题,并提出可能的研究方向,并且对解决问题的方法进行简 单的探讨。 一6 一 东北大学硕士学位论文 第二章个性化推荐系统的研究 第二章个性化推荐系统的研究 2 1 个性化推荐系统概述 在现代化信息服务环境下,用户的信息需求日趋多元化和个性化,不同的用户之间 存在着明显的个性差异。随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网 络的依赖性越来越强,然而,要从网络中获取所需的信息并非易事,尽管各种搜索引擎 如b a i d u 、g o o g l e 等发挥着极其重要的作用,但是人们发现,不同的用户使用同一个关 键字利用现有的搜索引擎查询出来的结果是相同的,不能满足用户个性化的需求。可见, 信息及其传播的多样化为个性化信息服务创造了需求,也带来更大的复杂性和难题。关 于个性化服务不少专家都提出了自己的看法,下面是一些具有代表性的观点: ( 1 ) 个性化信息服务是根据客户的特征提供具有针对性的信息内容和系统功能; ( 2 ) 个性化信息服务是基于信息用户的信息使用行为、习惯、偏好和特点,向用户 提供满足其各种个性化需求的一种服务; ( 3 ) 个性化服务是根据用户的不同情况,提供有针对性的服务就是在用户浏览网站 时,尽可能地迎合每个用户的浏览兴趣并且不断调整自身来适应用户浏览兴趣的变化, 使得每个用户都有是该w e b 站点唯一用户的感觉。 这些概念尽管不完全一样,但是含义基本一致,个性化信息服务应该是能够满足用 户的个体信息需求的一种服务,即根据用户提出的明确要求提供信息服务,或者通过对 用户个性、浏览行为、习惯的分析而主动组织信息资源,创建个性化的信息环境,向用 户提供其可能需要的信息服务 2 9 1 。 信息推荐服务是一种根据用户的信息需求、兴趣或行为模式,将用户感兴趣的信息、 产品和服务推荐给用户的个性化信息服务模式,例如热点链接、动态链接生成、文件预 取、信息推送、信息提醒、电子商务网站的产品推荐、查询重构策略推荐等。 一般说来,高效率的个性化信息推荐服务包括如下内涵: ( 1 ) 推荐信息的针对性。个性化信息推荐服务不仅要提供友好界面,而且要方便用 户交互,要能够了解与跟踪用户的偏好、兴趣和需求,为用户提供其个性需求的各种信 息资源,排除不相关信息的干扰,为用户提供“一对一 的个性化信息服务; ( 2 ) 推荐信息的时效性。推荐服务的客户是数以千万计的,面对大量用户的信息需 求,推荐系统要能够保证信息的时效性,实现及时的、适当的信息反馈; 一7 一 东北大学硕士学位论文 第二章个性化推荐系统的研究 ( 3 ) 推荐的智能性和准确性。提供个性化服务的服务器可以提高数据传送的准确性 和权威性,并且使推荐更加智能化,对用户需求的准确把握可以让用户感觉他们是唯一 的。 2 2 个性化推荐系统的界面表现形式 按照个性化推荐系统的界面表现形式主要分为以下几种: ( 1 ) 浏览( b r o w s i n g ) :客户提出对特定商品的查询要求,推荐系统根据查询要求 返回高质量的推荐; ( 2 ) 相似物品( s i m i l a ri t e m ) :推荐系统根据客户购物历史纪录中的商品、客户购 物篮中的商品或客户感兴趣的商品推荐类似的商品,为客户提供个性化的有效推荐; ( 3 ) 电子邮件( e m a i l ) :推荐系统通过电子邮件的方式通知客户可能感兴趣的商品 的信息,使网站与客户保持联系,提高客户对网站的信任度,从而使增加对该网站的访 问量: ( 4 ) 评论信息( t e x tc o m m e n t s ) :推荐系统向客户提供其他客户对相应产品的文本 评论信息或者其他形式的评论信息,客户根据他人对产品好坏的评价,来做出自己的判 断: ( 5 ) 个人评分( a v e r a g er a t i n g :推荐系统向客户提供其他客户对相应产品的个人 评分,而不是产品的评论信息,通过对客户个人评分的相应统计和分析,较直观地表示 出其他客户对产品的观点或者看法,使客户易于接受该种推荐; ( 6 ) t o p - n :推荐系统根据客户的喜好向客户推荐最可能吸引他的件产品,一方面 可以把网站的浏览者转变为客户,另一方面帮助客户决定是否购买自己最初感到犹豫不 决的产品; ( 7 ) 搜索结果排序:推荐系统列出所有的搜索结果,并将搜索结果按照客户的兴趣 度降序排列。 2 3 个性化推荐系统的输入输出方式 目前个性化推荐系统最成功也是最热门的应用是在电子商务网站的构建中。推荐系 统在电子商务系统中向用户提供商品信息和建议,帮助用户决定购买何种商品,模拟销 售人员向用户推荐商品完成购买的过程。以下主要介绍电子商务推荐系统的输入数据形 式和数据输出形式。 一8 一 东北大学硕士学位论文第二章个性化推荐系统的研究 2 3 1 电子商务推荐系统的输入方式 电子商务推荐系统的输入数据表现为以下几种形式: ( 1 ) 用户注册信息输入:用户在注册电子商务站点的时候需要输入一些个人信息, 这些信息包括用户的年龄、性别、职业等,用户也可以明确地表达自己的喜好兴趣。这 类信息是电子商务推荐系统收集到的关于特定用户的最初的信息; ( 2 ) 隐式浏览输入( i m p l i c i tn a v i g a t i o n ) :将用户访问电子商务w e b 站点的浏览行 为作为推荐系统的输入,用户的浏览行为与访问一般的w e b 站点没有区别。并不知道电 子商务推荐系统的存在。用户当前正在浏览的商品、用户购物篮中选择的商品、用户的 浏览路径等都可以作为隐式浏览输入信息; ( 3 ) 显式浏览输入( e x p l i c i tn a v i g a t i o n ) :也是将用户的浏览行为作为电子商务推荐 系统的输入,但与隐式浏览输入不同,用户的显式浏览输入是有目的地向电子商务推荐 系统提供自己的兴趣爱好例如,电子商务系统提供一系列热门商品供用户选择,用户 只选择浏览自己感兴趣的商品列表,电子商务根据用户的浏览行为向用户提供个性化的 推荐服务; ( 4 ) 关键字商品属性输入:用户在搜索引擎中输入关键字作为推荐系统的输入,或 者将用户当前正在浏览的商品类别作为推荐系统的输入。这种类型的输入不同于用户随 意的浏览行为,用户输入的目的就是在电子商务系统中搜索自己需要的商品; ( 5 ) 用户评分输入:将用户对商品的数值评分数据作为推荐系统的输入。电子商务 推荐系统列出一系列商品让用户评分,用户的评分可以是一个数值,数值的大小表示用 户对该商品的喜好程度,也可以是一个布尔值,0 代表不喜欢,1 代表喜欢。通过用户 提供的评分数据,使得电子商务推荐系统可以为用户提供个性化的推荐服务; ( 6 ) 用户文本评价输入:用户对已经购买的商品或自己熟悉的商品以文本的形式进 行个人评价,推荐系统本身并不能判断这些评价的好坏。其他用户浏览该商品时,可以 看到用户对商品的文本评价信息; ( 7 ) 编辑推荐输入:将领域专家对特定商品的评价作为推荐系统的输入,领域专家 对商品的性能特点进行全面详细的介绍,用户通过专家的专业介绍,可以对自己并不熟 悉的商品加深认识,从而决定是否购买该商品; ( 8 ) 用户购买历史输入:推荐系统将用户的购买历史作为隐式评分数据。一旦用户 购买了特定商品,则认为用户喜欢该商品。推荐系统根据用户的购买历史产生相应的推 荐。但是用户购买了某件商品并不代表用户喜欢该商品,所以在精确的推荐系统中,用 一9 一 东北大学硕士学位论文第二章个性化推荐系统的研究 户可以对购买的商品进行重新评分,从而使推荐系统产生更精确的推荐。 2 3 2 电子商务推荐系统的输出方式 不同类型的电子商务推荐系统,其输出也各不相同。大型电子商务系统可以同时向 用户产生多种不同形式的输出【2 5 1 。 电子商务推荐系统的输出形式主要包括: ( 1 ) 相关商品输出:推荐系统根据用户表现出来的行为特征或电子商务系统的销售 情况向用户产生商品推荐,这种方式是电子商务推荐系统中最为普遍的一种输出,相关 商品输出可以基于简单的销售排行向用户推荐热门商品;也可以基于用户的行为特征进 行深入分析,发现用户的购买行为模式,从而产生个性化的推荐; ( 2 ) 个体文本评价输出:电子商务推荐系统向目标用户提供其他用户对商品的文本 评价信息。个体文本评价一般是非个性化的,对每个项目而言,所有用户得到的个体文 本评价都是相同的: ( 3 ) 个体评分输出:向目标用户提供其他用户对商品的数值评分信息。个体评分输 出没有大量的文本描述信息,因此更加简明了。个人评分输出比较适合于个体数值评分 数据比较少的场合; ( 4 ) 平均数值评分输出:电子商务推荐系统向用户提供其他用户对商品数值评分信 息的平均值。这种输出形式具有简洁明了的特点,用户可以立即获得对该商品的总体评 价; ( 5 ) 电子邮件输出:电子商务推荐系统通过电子邮件的形式向用户提供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论