(管理科学与工程专业论文)基于用户聚类的项目多内容协同过滤推荐.pdf_第1页
(管理科学与工程专业论文)基于用户聚类的项目多内容协同过滤推荐.pdf_第2页
(管理科学与工程专业论文)基于用户聚类的项目多内容协同过滤推荐.pdf_第3页
(管理科学与工程专业论文)基于用户聚类的项目多内容协同过滤推荐.pdf_第4页
(管理科学与工程专业论文)基于用户聚类的项目多内容协同过滤推荐.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于用户聚类的项目多内容协同过滤推荐 摘要 近年来,随着互联网的普及和电子商务的蓬勃发展,电子商务个性化推荐 系统逐渐成为电子商务的一个重要研究内容,其中协同过滤推荐是应用的最为 广泛的个性化推荐技术。但是,随着网上有效信息的数量和商品种类的急剧增 长,对推荐系统提出了严峻的挑战,协同过滤推荐中存在的冷开始、稀疏性、 实时性问题等亟待解决。 协同过滤是目前最成功的一种推荐算法,它能够基于其他用户的观点帮助 人们作出选择。但由于传统的协同过滤算法没有考虑项目多内容问题,存在项 目多内容情况时推荐质量较差。为了解决该问题,本文在基于项目协同过滤、 基于用户协同过滤及聚类算法的基础上,研究了冷开始、稀疏性和实时性问题, 提出了一种组合推荐算法。算法先通过基于项目协同过滤得出项目的相似项目, 利用相似项目的相似性预测用户对未评分项目的初始评分从而填充用户一项目 评分矩阵,然后在相似项目的范围内利用聚类技术和基于用户的协同过滤算法 预测目标用户对各未评分项目的最终评分并得出推荐列表。 最后,进行实验设计和分析,结果表明,本文提出的基于用户聚类的项目 多内容协同过滤推荐方法和传统的协同过滤推荐方法相比,能有效提高推荐的 质量,更好的满足用户的需求。 关键词:电子商务推荐系统协同过滤相似项目聚类 c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o nb a s e do nu s e r c l u s t e r i n gf o ri t e m sm u l t i p l ec o n t e n t s a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ep o p u l a r i t yo ft h ei n t e r n e ta n de - c o m m e r c et of l o u r i s h , e - c o m m e r c ep e r s o n a l i z a t i o nr e c o m m e n d a t i o ns y s t e m s , e s p e c i a l l yc o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d e rs y s t e m s ,h a v eg r a d u a l l yb e c o m ea ni m p o r t a n te - c o m m e r c e r e s e a r c h t h et r e m e n d o u sg r o w t hi nt h ea m o u n to fa v a i l a b l ei n f o r m a t i o na n dt h e k i n d so fc o m m o d i t i e st ow e bs i t e sp o s e ss o m ek e yc h a l l e n g e sf o rr e c o m m e n d e r s y s t e m s ,s ot h ep r o b l e m so fc o l d - s t a r ta n ds p a r s i t y i nc o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o na r en e e d e dt ob es o l v e d c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na l g o r i t h mc a nm a k ec h o i c e sb a s e do n t h eo p i n i o n so fo t h e rp e o p l e i ti st h em o s ts u c c e s s f u lt e c h n o l o g yf o rb u i l d i n g r e c o m m e n d e rs y s t e m st od a t e u n f o r t u n a t e l y , t r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h md o e sn o tc o n s i d e rt h ep r o b l e mo fi t e m sm u l t i p l ec o n t e n t sa n do f t e nl e a d s t ob a dr e c o m m e n d a t i o nw h e ni t e mh a sm u l t i p l ec o n t e n t s t os o l v et h i sp r o b l e m ,a n o r g a n i cc o m b i n a t i o no ft h er e c o m m e n d a t i o na l g o r i t h m ,w h i c hb a s e do nu s e r sa n d r e c o m m e n d a t i o na l g o r i t h mb a s e do ni t e m sa n dc l u s t e r i n ga l g o r i t h mi sp r o p o s e d , w h i c hc a ng r e a t l yi m p r o v et h ei s s u e s ,w h i c ha r ec o l d s t a r t ,s p a r s e ,r e a l - t i m e f i r s t , o b t a i ns i m i l a ri t e m sb yi t e m - b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h ma n dp r e d i c t u s e r s i n i t i a lr a t i n g so fi t e m sw h i c ht h e s eu s e r sd i dn o tr a t eb yu s i n gs i m i l a r i t yo f s i m i l a ri t e m s ,i no r d e rt of i l lt h eu s e r i t e mr a t i n gm a t r i x s e c o n d ,o nt h es c o p eo f t h es i m i l a ri t e m s ,w i t hu s i n gc l u s t e r i n gt e c h n o l o g ya n du s e r b a s e dc o l l a b o r a t i v e f i l t e r i n ga l g o r i t h m ,p r e d i c tt h ea c t i v eu s e r sf i n a lr a t i n gs c o r e sf o ri t e m sa n dc o m e t ot h er e c o m m e n d e dl i s t f i n a l l y , f r o mt h er e l e v a n te x p e r i m e n t sa n da n a l y s e s ,t h ec o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o nb a s e do nu s e rc l u s t e r i n gf o ri t e m sm u l t i p l ec o n t e n t si sm o r e e f f e c t i v ea n da d v a n c e dt h a nt r a d i t i o nt e c h n o l o g yi nq u a l i t yo fr e c o m m e n d a t i o n ;i t c a nm e e tu s e r s d e m a n d sb e t t e r k e yw o r d s :e c o m m e r c e ;r e c o m m e n d a t i o ns y s t e m ;c o l l a b o r a t i v ef i l t e r i n g ; s i m i l a ri t e m s ;c l u s t e r i n g l i 插图清单 线性组合模型21 顺序组合模型2 1 算法的总体框架图2 4 阈值r 对推荐质量的影响( u 1 5 0 m 2 5 0 ) 3 1 阈值r 对推荐质量的影响( u 2 5 0 m 2 5 0 ) 3 2 阈值r 对推荐质量的影响( u 4 5 0 m 2 5 0 ) 3 2 阈值s 对推荐质量的影响( u 2 5 0 m 1 5 0 ) 3 3 阈值s 对推荐质量的影响( u 2 5 0 m 2 0 0 ) 3 3 阈值s 对推荐质量的影响( u 2 5 0 m 3 0 0 ) 。3 4 c f u ,c f i ,u c c f i m c 在6 个数据集下m a e 的比较3 5 u c c f ,c f i u ,u c c f i m c 在6 个数据集下m a e 的比较3 5 v l l 2 3 1 2 3 4 5 6 7 8 一 一 一 一 一 一 一 一 一 一 一 3 3 3 4 4 4 4 4 4 4 4 图图图图图图图图图图图 表2 1 表2 - 2 表3 - i 表4 - i 表4 - 2 表4 - 3 表4 - 4 表格清单 推荐技术优缺点比较1 4 用户一项目评分矩阵1 7 用户对电影的评分2 2 电影数据表( m o v i e s ) 。2 8 评分数据表( r a t i n g s ) 2 8 实验数据集2 9 c f u ,c f i ,u c c f i m c 在不同数据集下的平均m a e 3 4 v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得金胆王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 , 学位论文作者签字:碴圣垮签字日期:2 d 6 7 年斗月f 7 日 学位论文版权使用授权书 本学位论文作者完全了解佥目巴王些太堂有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金目墨工些盔 ! l 可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者毕业后去向: 工作单位: 通讯地址: 每:名芳多 签字日期:加叩年中月- 罗日 电话: 邮编 玖,吖 轰 月 支理 斗 : 年 名寸= 吖 签 獬 榭 沙 文 期 沧 日 位 字 学 签 致谢 本论文的撰写是在我的导师梁昌勇教授的指导下进行的。在近三年的硕士 研究生期间,梁老师不仅为我们营造了一个轻松和谐、积极进取、求真务实的 学术氛围,还给我们提供了很多动手实践的实习机会。在我的毕业论文写作阶 段,梁老师付出了大量的心血和宝贵的时间,从论文材料收集到选题、开题、 定期汇报直到完成论文的每个阶段,都严格要求、仔细审阅。梁老师渊博的学 识、严谨的治学态度、创新的科研精神、敏锐的学术思想以及开创的科研精神 是我始终学习的楷模,激励着我不断培养自己踏实、严谨、创新的学术作风。 梁老师在整个项目和论文期间给与了我悉心指导! 三年中我的进步是在他的指 导下取得的。论文从选题到最后定稿倾注了梁老师大量的心血,他独到的见解 常常使我在论文中得到启发。他热情的为人,实干的精神和敏捷的才思给我留 下了深刻的印象。谨向梁老师致以衷心的感谢和深深的敬意! 感谢蒋翠清、俞家文等老师的指导和帮助,他们严谨求实的治学态度、诲 人不倦的指导作风令人敬佩,在此表示衷心感谢! 还要感谢在研究生学习阶段 全体任课老师,教给我们丰富的专业理论知识和方法,感谢合肥工业大学管理 学院的领导和老师们对我的培养、指导和帮助。 感谢曾同在一个研究所的师兄李聪、张俊岭、张恩桥,以及朝夕相处的曹 清玮、戚筱雯、黄艳同学等,你们给了我很多的关心和帮助,并创造了一个轻 松愉快、团结和睦、奋发向上的工作环境,让我学到了很多东西,真的感谢你 们! 感谢研2 7 班的同班同学及远在各地的好友,有了你们的支持和鼓励,我 的论文才得以顺利完成。 最后要特别感谢我远在家乡的父母,你们的支持是我顺利完成学业不可或 缺的巨大动力l 以后将尽自己最大的努力来回报你们对我的爱! i i i 作者查文琴 2 0 0 9 年3 月 1 1 研究背景和意义 1 1 1 研究的背景 第一章绪论 i n t e r n e t 的普及和迅猛发展将人类带入了信息社会和网络经济时代,对个人 和企业发展都产生了深远的影响。对用户而言,他们在拥有越来越大的产品选 择空间的同时,信息超载问题也变得日益严重。大量的产品信息增加了用户购 买所需物品的难度,消费者很难快速且有效的作出决策。用户不得不用越来越 多的时间浏览网络以发现他们所需要的产品。对企业来说,电子商务在为其提 供了更多的商业机会的同时也使得竞争日益加剧。企业要在激烈的竞争中生存 下来并获得长期竞争优势,关键是要提高用户的满意度和忠诚度。企业要在电 子商务网站上有效地提高产品的吸引力,提高电子商务网站的交叉销售能力, 分析用户的购物偏好以帮助用户购买到满足各自兴趣的产品。只有充分满足和 适应用户的需求,企业才能在电子商务竞争中立于不败之地。 h a r v a r d 商学院j o ep i n e 教授在大规模定制一书中提出:现代企业应该 从大规模生产( 以标准化的产品、统一的市场规划、长时间的产品生命期和开发 周期为特征) 向大规模定制( 为不同用户的不同需求提供不同的产品) 转化【1 】。 p i n e 指出:公司必须跳出产品化陷阱,方式之一就是根据个人需求定制产品。 这就是说,企业至少应该提供多类产品以满足不同用户的不同需求。但是在电 子商务环境下,实施大规模定制时不能仅仅是提供更多的产品选择,而且同样 重要的是以怎样的方式来提供这些选择。 解决方案就是电子商务推荐系统( r e c o m m e n d e rs y s t e mi ne c o m m e r c e ) 。电 子商务推荐系统根据用户的兴趣爱好向他们推荐感兴趣的产品或服务,有利于 促进交易的进行和提高服务的质量。推荐系统帮助用户节省了寻找信息的时间, 企业也可以利用推荐系统收集和反馈的信息改进企业的营销策略,对用户进行 个性化服务,吸引更多的忠实用户。 目前,几乎所有大型的电子商务系统,如a m a z o n 、e b a y 、m o v i e f i n d e r 、 当当网上书店等,都不同程度的使用了各种形式的推荐系统【2 】。 电子商务个性化推荐系统的关键在于推荐技术和推荐算法的研究。推荐算 法是整个推荐系统的核心,它的性能决定了最终推荐结果的好坏。为了提高推 荐结果的质量和准确性,保证不同用户对实时性、推荐方式等的要求,产生了 一系列的推荐技术和算法,如协同过滤技术。 1 1 2 目的和意义 首先,在理论研究方面,电子商务推荐系统具有较高的学术价值。自从1 9 9 2 年以来,电子商务个性化推荐系统和协同过滤推荐被国际学术界广泛关注,并 逐渐被应用于各个行业。电子商务个性化推荐系统中的协同过滤推荐能对非结 构化的复杂对象提供准确性较高的个性化推荐结果。但是传统的协同过滤存在 的稀疏性、扩展性、实时性和精确性等问题也成为国内外学者的研究焦点,尤 其电子商务推荐系统中协同过滤算法的改进更是热点。 其次,在实际应用方面,对于用户来说,电子商务推荐服务使得用户从无 限的网络信息资源和产品世界中解脱出来,提供给用户所需要的商品信息,大 大节省了用户在产品搜索上花费的时间和精力,满足了不同用户对不同商品的 个性化需求;对于服务的提供者一一企业来说,电子商务推荐服务提高了用户 对电子商务网站的忠诚度,增加了用户的访问次数,实现了将更多电子商务网 站的浏览者转变为产品的购买者,提高了电子商务网站的交叉销售能力,为电 子商务企业提供更多的盈利机会。 电子商务推荐系统具有良好的发展前景,成功的推荐系统将会带来巨大的 经济效益,加强对电子商务推荐系统的研究具有非常重要的现实意义。目前, 怎样构建一个推荐系统,并使它能够实时、准确和高效的向访问网站的不同用 户提供更有针对性的个性化服务己经成为一个热点问题。鉴于此,本论文提出 一种基于用户聚类的项目多内容协同过滤的个性化推荐技术,首先通过预测各 用户对未评分项目的初始预测评分,填充用户项目评分集。在此基础上进行用 户聚类并得出对目标用户的推荐,这样用户的数据稀疏性问题可以被缓解,同 时冷启动问题也得到了一定解决。对照实验表明,该方法对提升推荐系统的效 率和性能都有较大的意义。 1 2 电子商务个性化推荐系统的国内外研究现状 推荐系统是信息检索和信息过滤领域的研究热点,得到了许多著名研究机 构和学者的关注和研究。1 9 9 7 年以前,推荐系统一直被称作协作式过滤,主要 用于信息过滤,主要用于解决信息过载( i n f o r m a t i o no v e r l o a d ) 的问题。如电 子邮件的过滤、新闻组文章的过滤等,代表系统如g r o u p l e n s i s l ,r i n g o f i r e f l y 【4 j , t a p e s t r y 5 】等。19 9 7 年以后,推荐系统被引入一个新的应用领域一一电子商务。 在引入推荐系统以后,电子商务系统可以预测用户的喜好,仅仅把用户可能有 兴趣的产品形成列表推荐给用户。由于这种推荐列表往往很小,用户可以很容 易的找到自己感兴趣的产品,这样不仅极大的方便了用户,而且潜在的增加了 电子商务的交易量,为商家带来了可观的收益。因此,电子商务商家纷纷开始 把推荐系统嵌入到他们的电子商务系统中,引发了推荐系统研究和应用的热潮。 2 到目前为止,很多国外商业公司开展了推荐系统的研究,出现了大量研究型推 荐系统实例:m o v i e l e n s ,a m a z o n ,e b a y ,v i d e or e c o m m e n d e r 等。美国几乎 所有知名的大学都有专门从事推荐系统的研究组,如u cb e r k e l e y 大学的 b e r k e l e yw o r k s h o po nc o l l a b o r a t i v ef i l t e r i n g 。世界上几乎所有的大的电子商务 商都为用户提供个性化推荐服务,有的商家甚至同时提供几种推荐服务。例如 a m a z o n 书店同时提供了c u s t o m e rw h ob o u g h te y e sa m a z o n c o r nd e l i v e r s ,b o o k m a t e h e r ,c u s t o m e rc o m m e n t s 等个性化推荐服务。除了可以应用于信息过滤领 域和电子商务领域之外,推荐系统还可以应用到许多其他领域,如社会网,大 众传媒等。 对于推荐系统的研究可分为三个种类:技术系统开发研究,用户行为研究 以及隐私问题研究。其中,技术系统开发研究是重点。目前各种推荐技术,如 数据挖掘,代理和推理,都已经应用到了推荐系统中。广义上现存的推荐系统 可以划分为基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容 过滤的系统和协同过滤系统两种。 基于规则的系统,如:i b m 的w e b s p h e r e ,b r o a d v i s i o n ,i l o g 等。允许 系统管理员根据用户的静态特征和动态属性来制定规则,一个规则本质上是一 个i g t h e n 语句,规则决定了在不同的情况下提供不同的服务。基于规则的系统, 优点是简单、直接,缺点是规则质量很难保证,而且不能动态更新。另外,随 着规则的数量增多,系统将变得越来越难以管理。 基于内容过滤的系统,如:p e r s o n a lw e b w a t h e r ,s y s k i l l & w e b e r t ,l e t i z i a , c i t e s e e r ,i fw e b 和w e b m a t e 等。他们利用资源与用户兴趣的相似性来过滤信 息。基于内容的推荐系统通过将用户的偏好与产品内容自动匹配来给用户提供 建议,例如网页和消息条目的推荐。在基于内容的系统中,产品由其普通属性 描述。用户偏好通过分析产品比率以及相应的产品属性来预测。基于内容过滤 的系统,其优点是简单、有效。缺点是难以区分资源内容的品质和风格,而且 不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。在 基于内容的推荐系统中,一个核心问题是识别关键属性集合。如果该集合太小, 显然,这对于识别用户是不充分的。因此,基于内容的推荐系统不能用于仅仅 实施一次购买行为的新用户,或者访问了该网站却没有实施任何购买行为的潜 在用户,以及购买他不是特别经常购买的产品的用户。 协同过滤系统如:l e t s b r o w s e ,t a p e s t r y ,g r o u p l e n s 等。他们利用用户之 间的相似性来过滤信息。协同过滤推荐系统评估用户对特定产品的偏好是根据 用户对该产品的偏好率以及其他用户对同一产品的偏好率的比较来实现的。协 同过滤推荐系统与基于内容的推荐系统之间的主要区别是协同过滤推荐系统通 过跟踪一组用户过去的行为来给该组中的个别用户提供建议。使用该方法,用 户现在就可以接受建议,而在基于内容的推荐系统中,只要具有相似意向的其 3 他用户的偏好,用户就已经具有先前预测了。协同过滤推荐系统的优点是能够 进行w e b 数据挖掘的研究及在个性化推荐中发现的新的感兴趣的信息,缺点是 存在两个很难解决的问题,稀疏性和可扩展性。协同过滤推荐方法用来识别与 既定用户具有相似兴趣的用户,所推荐的产品也是这些既定用户喜欢的产品。 还有一些个性化服务系统如:w e bs i f t ,f a b ,d y n a m i cp r o f i l e r 等,同时 采用了基于内容过滤和协同过滤这两种技术。结合这两种过滤技术可以克服各 自的一些缺点,为了克服协同过滤的稀疏性问题,可以利用用户浏览过的资源 内容预测用户对其他资源的评价,这样可以增加资源评价的密度,利用这些评 价再进行协作过滤,从而提高协同过滤的性能。 推荐系统在我国的电子商务领域开始得到了初步应用,但目前我国在电子 商务个性化推荐方面的理论研究及协同过滤在推荐系统中的应用研究较少。目 前国内的电子商务网站的推荐主要存在以下几个问题: 大部分网站缺乏个性化的推荐,不能根据不同用户的兴趣爱好给出不同 的产品推荐。 推荐的自动化程度低,由于所采用的推荐技术主要是基于内容的搜索和 分类浏览技术,用户想要得到相关的信息,必须输入搜索的关键词或是按产品 的所属类别逐层查找。 推荐的持久性程度低,国内绝大多数电子商务网站给出的推荐都是基于 用户一次登录得到的,不能收集用户以往浏览网页时给出的历史兴趣偏好信息。 推荐方法单一,大多数所用的推荐策略基本就是分类浏览和基于内容的 检索,缺乏多种推荐策略的混合使用,尤其是缺少个性化与非个性化推荐策略 的混合使用。 实时性差,不能在线推荐,使推荐不能及时。 目前国内的电子商务网站在个性化推荐方面做得较好的如淘宝,当当网上 书店等。 事实上,随着我国电子商务的蓬勃发展,对个性化推荐技术需求不断急剧 增加,谁先使用个性化的推荐技术,谁就可能获得更多的用户。 1 3 电子商务个性化推荐系统面临的挑战 个性化推荐系统在研究领域获得了广泛关注,在实际的电子商务系统中也 得到了广泛应用。但随着电子商务系统规模越来越大,推荐系统也面临着一系 列挑战,主要包括以下几点【2 j : ( 1 ) 实时性与推荐质量之间的平衡。推荐系统的推荐精度和实时性是对矛 盾。大部分推荐技术在保证实时性要求的同时,是以牺牲推荐系统的推荐质量 为前提的。在提供实时推荐服务的同时,如何有效提高推荐系统的推荐质量, 需要做进一步深入的研究。 4 ( 2 ) 新型推荐系统体系结构的研究。当前大部分的推荐系统都只是一个单一 的工具,只能提供一种推荐模型。但由于电子商务系统本身的复杂性,不同场 合需要不同类型的推荐。需要研究新型推荐系统体系结构,收集多种类型的数 据,提供多种推荐模型,满足不同类型的推荐需求。 ( 3 ) 推荐结果解释的研究。电子商务推荐系统为了让用户产生购买兴趣,需 要向用户解释推荐项目的原因。目前的推荐系统在这方面做得还不够,需要采 用有效、合理的方法来向用户解释推荐结果产生的原因,从而增加用户对推荐 系统的信任度,提高推荐系统的使用价值。 1 4 论文的研究内容 本文研究的对象是电子商务个性化推荐系统中的协同过滤推荐方法。主要 是指在电子商务网络购物环境下,以商品为主要推荐对象的个性化推荐系统及 个性化推荐算法。本文对协同过滤技术和推荐系统面临的问题和挑战进行了详 细的分析与研究,提出了基于用户聚类的项目多内容协同过滤推荐算法来解决 协同过滤中稀疏性、实时性及新项目问题。 本文的研究内容主要包括: ( 1 ) 分析了电子商务环境下的个性化推荐系统的应用现状,对不同的推荐技 术进行分类比较。 ( 2 ) 研究了个性化推荐算法中的传统协同过滤算法的推荐过程,以及在应用 中所面对的问题和挑战。 ( 3 ) 针对个性化推荐中的项目多内容情况以及冷开始问题中的新项目问题和 稀疏性问题,本文在用户聚类的协同过滤算法的基础上结合基于项目的协同过 滤算法,提出了一种基于用户聚类的项目多内容协同过滤算法。 本文先利用用户对项目的评分和项目自身的属性,求出项目的相似项目集, 并根据相似项目来得出各用户对未评分项目的初始预测评分,并填充在用户 项目评分集中。然后通过基于用户聚类的协同过滤算法得出对目标用户的推荐。 经实验分析,该算法可以有效地解决传统推荐方法的不足,使推荐质量比传统 协同过滤要好。 1 5 论文的结构及章节安排 论文共分为五章,文章结构及各章内容简介如下: 第一章绪论。介绍及探讨论文研究的背景、目的和意义,以及协同过滤 推荐技术在国内外的研究现状。最后,介绍了论文的主要研究内容,并给出本 文的整体组织结构。 第二章主要介绍个性化信息推荐的理论及电子商务推荐技术。包括什么 是电子商务推荐系统和个性化信息推荐服务、推荐系统的相关技术并详细介绍 了协同过滤技术以及经典的基于用户和基于项目的协同过滤推荐算法。 第三章研究了项目多内容问题以及新项目和稀疏性问题,提出了一个基 于用户聚类的项目多内容协同过滤推荐算法,并给出算法的原理和具体步骤。 第四章设计基于用户聚类的项目多内容协同过滤算法的实例验证。实现 本文提出的这一算法,给出了实验结果分析,并比较该算法和传统协同过滤算 法的推荐质量。 第五章总结与展望。对全文的工作进行总结,指出本文研究成果,并给 出进一步的研究方向。 6 第二章电子商务推荐系统及推荐技术 2 1 电子商务推荐系统概述 电子商务推荐系统( r e c o m m e n d e rs y s t e mi ne c o m m e r c e ) 正式的定义是 r e s n i c k & v a r i a n 在19 9 7 年给出的:“它是利用电子商务网站向用户提供产品信 息和相关建议,直接与用户进行交互,帮助用户决定购买什么产品,模拟销售 人员帮助用户完成购物过程的系统”【6 】。这个定义现已被广泛的应用。推荐系统 的使用者是用户( 电子商务活动中的用户) ,推荐的对象是项目( i t e m ) 。项目是推 荐系统提供给用户的产品和服务,也即最终的推荐内容。 2 1 1 电子商务推荐系统的研究内容 电子商务推荐系统的研究内容主要包括以下几点 1 , 8 1 : ( 1 ) 电子商务个性化推荐系统的信息来源问题。 电子商务个性化推荐系统的基础是用户信息的收集。如何在电子商务环境 下尽可能获得更多的用户相关信息,并以合适的形式表示,是进行个性化推荐 的前提。根据当前在电子商务环境中对用户信息收集情况的研究来看,主要着 眼于收集能反映用户兴趣偏好的信息,以及如何通过网络数据挖掘等方法更自 动化的收集用户的隐式信息,解决用户信息收集过多的依赖于显式评价数据的 问题。 ( 2 ) 设计准确高效的个性化推荐算法。 要实现被用户接受和认可的电子商务个性化推荐系统,设计准确、高效率 的个性化推荐算法是个性化推荐的核心问题。目前使用的推荐技术主要有协同 过滤推荐、基于内容的推荐、基于规则的推荐、基于数据挖掘技术的推荐等。 其中协同过滤推荐是个性化推荐中研究和应用最多的方法之一,被广泛的应用 于电子商务网站、数字图书馆、网页搜索、新闻过滤等。 ( 3 ) 电子商务个性化推荐系统的评价问题。 要让电子商务个性化推荐系统被广大用户所接受,必须对推荐系统做出客 观、综合的评价。对推荐系统总体性能的评价是个性化推荐系统研究的重要组 成部分,但目前大都只是采用准确率、召回率等评价尺度对推荐算法进行评价, 并没有真正意义上的、提升到对整个推荐系统进行的评价,尤其缺乏从个性化 程度、自动化程度、持久性程度、系统的安全性以及用户接受程度等多方面的 对推荐系统综合的评价。 ( 4 ) 推荐质量和实时性的研究。 在大型电子商务推荐系统中,推荐系统的伸缩能力和实时性要求越来越难 以保证。如何有效满足推荐系统的实时性要求得到了越来越多研究者的关注。 同时,由于大型电子商务系统中一般用户的评分矩阵都极端稀疏,用户评分数 据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量难以 保证。 ( 5 ) 数据挖掘技术在推荐系统中的应用。 随着研究的深入,各种数据挖掘技术( 主要包括关联规则挖掘、序列模式 挖掘、聚类分析、b a y e s i a n 分类等) 在推荐系统中得到了广泛的应用。基于 w e b 挖掘的推荐系统研究得到了越来越多学者的广泛关注。 ( 6 ) 用户隐私保护的研究。 由于推荐系统需要收集用户的购物信息,分析用户的购物习惯和兴趣爱好, 这些都涉及用户的隐私问题。推荐系统收集的很多关于用户的信息在得到用户 许可之前,是不能随便泄露给他人的。因此电子商务系统中用户隐私的保护研 究是十分必要的和紧迫的。 ( 7 ) 推荐系统可视化的研究。 推荐系统的目的是为用户提供服务,因此必须为用户提供友好的可视化服 务界面。主要包括推荐结果可视化研究和推荐结果解释研究等方面的内容。 2 1 2 电子商务推荐系统的作用 电子商务推荐系统的最重要的优点在于它能收集用户的兴趣资料,通过分 析这些资料,针对用户的兴趣偏好主动为其做出个性化的推荐。这样,当用户 登录电子商务网站后,推荐系统就会自动按照用户偏好程度的高低推荐给用户 最喜爱的n 个产品,而且系统给出的推荐是实时更新的,即当系统中的产品库 和用户的兴趣资料发生改变时,给出的推荐序列会自动改变,这意味着用户每 次登录网站系统所给出的推荐是动态变化的,大大方便了用户对产品信息的浏 览,也提高了企业的服务水平。 总体说来,电子商务推荐系统的作用主要表现在以下三个方面【l 8 】: ( 1 ) 将电子商务网站的浏览者转变为购买者; 一个没有明确购物目的的浏览者通常只是对网站进行浏览而不进行购买。 推荐系统通过合适的推荐,往往可以将一个浏览者转变成为购买者或使其成为 潜在的购买用户。 ( 2 ) 提高电子商务网站的交叉销售能力( c r o s s s e l l i n g ) ; 一个网站可能会基于用户所购买的产品向其推荐其它有价值的产品,用户 可以从推荐列表中发现自己需要的但在购买之前没有留意的产品,从而促进交 叉销售。如客户刚购买了面包,网站会推荐客户购买牛奶。 ( 3 ) 提高用户对电子商务网站的忠诚度。 8 研究表明,电子商务的销售行业使用个性化推荐系统后,销售额能提高 2 8 嘣9 1 ,尤其在书籍、电影、c d 音像、日用百货等产品相对较为低廉且产 品种类繁多、用户使用个性化推荐系统程度高的行业,推荐系统能大大提高企 业的销售额。 2 1 3 电子商务推荐系统的分类 根据推荐对象的特点,目前存在的推荐系统可以大致分为两类: 一类是以网页为主要推荐对象的推荐系统,这种推荐系统主要采用w e b 数 据挖掘,尤其是利用w e b 日志挖掘的方法和技术来分析用户的兴趣,向用户推 荐符合其兴趣爱好的网页链接。 另一类推荐系统的推荐对象主要是产品,这种推荐系统主要在电子商务网 络购物环境中使用,帮助用户找出他真正想要的产品,为用户推荐满足其需要 又符合用户兴趣爱好的产品,这些产品除了是在实体商店中出售的产品以外, 还包括文章、新闻、音乐、电影等“无形 的产品,这种推荐系统就是通常所 说的电子商务个性化推荐系统。 另外,不同的推荐方法也形成了不同种类的推荐系统。可根据技术的自动 化程度( d e g r e eo fa u t o m a t i o n ) 和持久性程度( d e g r e eo fp e r s i s t e n c e ) 两个标准对 推荐系统进行分类【l j : ( 1 ) 自动化程度。是指用户为了得到推荐系统的推荐需要显性的输入信息的 程度。自动化程度范围从完全的自动推荐到完全的手工推荐。 ( 2 ) 持久性程度。是指推荐系统产生的推荐是基于用户当前的单个会话还是 基于用户的多个会话,是暂时性的还是持久的。暂时的推荐只考虑当前用户的 会话,不考虑该用户以前的任何信息。持久的推荐通过对当前用户的识别,根 据他的偏好进行建议。持久性程度范围从完全的暂时性推荐到完全的持久性推 荐。 也有一些研究者认为,除以上两个特征外,个性化程度( d e g r e eo f p e r s o n a l i z a t i o n ) 也是评价个性化推荐系统的重要指标,来反映推荐结果符合用 户兴趣爱好的程度,它包括服务内容的个性化( 为消费者推荐其真正需要的产品) 和服务方式的个性化( 尽量减少用户寻找产品的时间,能直接把信息推荐给用户) 1 0 ,1 1 】 0 根据这三个标准,电子商务推荐系统可以分为以下几类j : ( 1 ) 非个性化电子商务推荐系统( n o n p e r s o n a l i z e dr e c o m m e n d a t i o n s ) :推荐系 统的推荐主要基于其他用户对该产品的平均评价,这种推荐系统独立于用户, 所有的用户得到的推荐都是相同的,是非个性化的推荐。这种推荐的产生是自 动的,用户参与很少,而且基于用户当前单个会话,对用户不予区分,是暂时 的。 9 ( 2 ) 基于产品属性的电子商务推荐系统( a t t r i b u t e d b a s e dr e c o m m e n d a t i o n s ) : 推荐系统的推荐主要基于产品的属性特征。该推荐系统首先要求用户输入他所 感兴趣的产品的特征,种类等信息,每次用户登录网站时推荐满足其偏好的产 品特征的最新产品。该推荐系统需要人工协助。产生的推荐可能是暂时的,也 可能是持久的,这取决于电子商务网站是否保存有用户偏好的记录。 ( 3 ) 相关性产品推荐系统( i t e m t o i t e mc o r r e l a t i o n ) :推荐系统根据产品之间 的相关性向用户产生相应的推荐。相关性产品推荐系统如果基于用户长期的较 少改变的购买模式产生推荐,可以被认为是全自动化推荐系统,如果需要用户 明确输入一些感兴趣的产品后再产生推荐,那也可以认为是全手工式,一般基 于用户的单个会话。 ( 4 ) 相关性用户推荐系统( p e o p l e t o p e o p l ec o r r e l a t i o n ) :又称为协同过滤推荐 系统。该推荐系统先根据用户对产品的评价找到有相似偏好的用户,再使用相 似用户的观点对目标用户产生推荐。它基于这样一个假设:如果用户对一些产 品的偏好比较相似,则他们对其他产品的偏好也比较相似。这种推荐是基于用 户的多个会话产生,是持久的。不同的用户所得到的推荐是根据其个人的具体 情况分析得出的,因此个性化程度较高,是目前最成功的个性化推荐系统。 2 1 4 电子商务推荐系统的组成 整个电子商务推荐系统的组成主要分成三个模块:输入功能( i n p u t f u n c t i o n a l ) 模块、推荐方法( r e c o m m e n d a t i o nm e t h o d ) 模块、输出功能( o u t p u t f u n c t i o n a l ) 模块。 ( 1 ) 输入功能模块 输入可来自用户个人和群体两部分。用户个人输入( t a r g e t e dc u s t o m e r i n p u t s ) 主要指目标用户,即要求获得推荐的人为得到推荐而必须对一些项目进 行评价,以表达自己的兴趣偏好,包括隐式浏览输入、显式浏览输入、关键词 和项目属性输入以及用户购买历史等。群体输入( c o m m u n i t yi n p u t s ) 主要指集体 形式的评价数据,包括项目属性、群体购买历史、文本评价、评分。 ( 2 ) 输出模块 输出模块负责将推荐结果输出给用户。输出形式主要包括【i 卜1 3 】: 建议( s u g g e s t i o n ) :分为单个建议( s i n g l ei t e m ) 、未排序建议列表( u n o r d e r e d l i s t ) 和排序建议列表( o r d e r e dl i s t ) ,排序建议列表最常用的是t o p n 排序。 预测( p r e d i c t i o n ) :即预测评分,作为对推荐商品的一个评价尺度,是系 统对给定项目的总体评分。 个体评分( i n d i v i d u a lr a t i n g ) :个体评分即输出其他客户对商品的单独评 分,它用在社区用户群相对比较少的场合。 评论( r e v i e w ) :评论是其他用户对推荐商品的文本评价。 1 0 推荐的界面表现形式主要有: 浏览( b r o w s i n g ) :用户提出对特定产品的查询要求,推荐系统根据查询要 求返回高质量的推荐; 相似项目( s i m i l a ri t e m ) :推荐系统根据用户购物篮中的产品或用户感兴 趣的产品推荐类似的产品,为用户提供个性化的推荐; 电子邮件( e m a i l l :推荐系统通过电子邮件的方式通知用户可能感兴趣的 产品信息,使网站与用户保持联系,提高用户对网站的信任度,从而增加对该 网站的访问量; 评论信息( t e x tc o m m e n t s ) :推荐系统向用户提供其他用户对相应产品的 评论信息,用户根据他人对产品好坏的评价,来做出自己的判断; 等级评价( a v e r a g er a t i n g ) 推荐系统向用户提供其他用户对相应产品的 等级评价; t o p n 推荐:推荐系统根据用户的喜好向用户推荐最可能吸引他的n 件 产品,一方面把网站的浏览者转变为用户,另一方面帮助用户决定是否购买自 己最初感到犹豫不决的产品; 搜索结果排列( o r d e r e ds e a r t hr e s u l t s ) :推荐系统列出所有的搜索结果, 并将搜索结果按照用户的兴趣度降序排列。 ( 3 ) 推荐方法模块 推荐方法模块是推荐系统的核心部分,直接决定着推荐系统的性能优劣。 推荐方法模块以推荐技术和推荐算法为技术支持。 2 2 电子商务推荐系统的相关技术 电子商务个性化推荐系统是一个多模块、多功能的大型智能系统,汇集了 信息检索、信息过滤、数据挖掘和数据仓库等技术。这些技术相互支持、相互 融合,电子商务个性化推荐系统才能高效地运作。可以说,这些技术是构成整 个电子商务个性化推荐系统的基石。 2 2 1 信息检索与信息过滤技术 电子商务个性化推荐系统的关键技术包括信息检索( i n f o r m a t i o nr e t r i e v a l ) 技术与信息过滤( i n f o r m a t i o nf i l t e r i n g ) 技术。信息检索与信息过滤实现技术相 似,但两者所完成的任务完全不同f l 引。 信息检索技术一般是指根据用户需求,从大规模相对静止的数据库或数据 仓库中检索用户需要的信息,主要满足用户瞬时的信息需求【l 引。例如,当用户 在数字图书馆中进行检索时,用户提交的关键字反映了用户当前的信息需求, 数字图书馆中的搜索引擎根据预先建立好的内容索引,检索出用户需要的信息。 信息检索技术是实现电子商务个性化推荐系统的关键技术。推荐系统根据 用户需求,运用信息检索技术搜索产品类别数据库,然后返回用户需要的信息。 其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论