(管理科学与工程专业论文)电子商务推荐系统研究——新用户和用户兴趣变化问题研究.pdf_第1页
(管理科学与工程专业论文)电子商务推荐系统研究——新用户和用户兴趣变化问题研究.pdf_第2页
(管理科学与工程专业论文)电子商务推荐系统研究——新用户和用户兴趣变化问题研究.pdf_第3页
(管理科学与工程专业论文)电子商务推荐系统研究——新用户和用户兴趣变化问题研究.pdf_第4页
(管理科学与工程专业论文)电子商务推荐系统研究——新用户和用户兴趣变化问题研究.pdf_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士学位论文 摘要 为解决由i n t e r n e t 的普及和迅速发展所带来的信息超载问题,电子商务 推荐系统应运而生。它与用户进行交互,对用户的兴趣爱好进行预测,从而推 荐用户所感兴趣的产品,以保证用户对企业的满意度和忠诚度。 现存的推荐系统在取得了一定成功的同时也显示出相当多的弱点,如个性 化程度低。推荐效率低等。针对上述问题,本文首先对电子商务推荐系统的基 本概念和算法,尤其是协同过滤算法进行了介绍及比较分析。然后分别针对目 前推荐系统中研究较少的新用户问题和用户兴趣随时间而变化的问题进行了算 法研究。分别提出了基于模糊聚类的推荐算法和基于客户行为序列的推荐算法。 基于模糊聚类的推荐算法利用模糊聚类计算目标用户对产品的评分,利用 产品相似性对相似产品进行过滤,从而选择合适的产品进行推荐。 基于客户行为序列的推荐算法将客户历史记录时间进行分段,并在各时间 段对用户进行聚类,从而挖掘出客户行为序列规则。将目标客户的行为序列与 行为序列关联规则进行对比,并根据规则进行推荐。 最后,通过仿真实验对两个算法分别进行了比较研究,证明了两个算法的 推荐性能。 关键词:推荐系统,数据挖掘,协同过滤,模糊聚类,行为序列 中国科学技术大学硕士学位论文 a b s t r a c t r e c o m m e n d a t i o ns y s t e me m e r g e df o r t h es a k eo fs o l v i n gi n f o r m a t i o no v e r l o a d p r o b l e m , w h i c hf o l l o w st h ep r o s p e r i t yo fi n t e r n e ta n de l e c t r o n i cc o m m e r c e i t i n t e r a c t sw i t hc u s t o m e r s , p r e d i c t st h e i ri n t e r e s ta n dh o b b i e s ,a n dr e c o m m e n d s p r o d u c t sc u s t o m e ri n t e r e s t e di n s oc u s t o m e r s s a t i s f a c t i o na n dl o y a l t yc a l lb e m a i n t a i n e d0 1 i m p r o v e d t h o s ee x i s t i n gr e c o m m e n d a t i o ns y s t e m sh a v em a d eg r e a ts u c c e s s ,b u ta tt h e s a m et i m e ,t h e ya l s os h o wl o t so fw e a k n e s s e s ,s u c ha sl a c ko fi n d i v i d u a l i t y , l o w r e c o m m e n d a t i o ne 街e i e n c y , e r e t oa d d r e s st h e s ei s s u e s ,t h i st h e s i sf i r s t l yi n t r o d u c e s a n da n a l y s e st h eb a s i cc o n c e p t sa n da l g o r i t h m si nr e c o m m e n d a t i o ns y s t e m , t h e n p r o p o s e st w oa l g o r i t h m s ,t h ef i r s ti sr e c o m m e n d a t i o na l g o r i t h mb a s e do nf i l z 巧 c l u s t e r i n g ,w h i c h , i su s e dt os o l v en e w u s e rp r o b l e m t h es e c o n di sr e c o m m e n d a t i o n a l g o r i t h mb a s e do nc u s t o m e rb e h a v i o rl o c u s ,w h i c hi su s e df o rc u s t o n l a s c h a n g e d i n t e r e s t s r e c o m m e n d a t i o na l g o r i t h mb a s e do nf u z z yc l u s t e r i n gu s e sf u z z yc l u s t e r i n gt o c o m p u t ea c t i v e1 1 s g - r sr a t i n gs e o r 笛f o rp r o d u c t s ;u s e sp r o d u c ts m x i l a r i 够t of i l _ t e r s i m i l a rp r o d u c t s t h e nn l a k er e c o m m e n d a t i o nt on e wc u s t o m e r s r e c o m m e n d a t i o na l g o r i t h mb a s e do nc u s t o m e rb e h a v i o rl o c u si n c o r p o r a t e s c u s t o m e r s c h a n g e di n t e r e s t s ,u s e s c u s t o m e rb e h a v i o rl o c u st o p r e d i c t a c t i v e c u f f t o m e r sb u y i n ga c t i v i t y , a n dm a k er e c o m m e n d a t i o nt oc u s t o m e r s f i n a l 畋as i m u l a t i o ne x p e r i m e n tw a sd e s i 舀l e d t ot e s tt h et w oa l g o r i t h m s s e p a r a t e l y a n dt h e r e s u l t ss h o wt h a tb o t ho ft h e a l g o r i t h m s h a v e h i g h e r r e c o m m e n d a t i o ne f f i c i e n c yt h a nt h e i rc o n t r a s t e da l g o r i t h m s k e y w o r d s :r e c o m m e n d a t i o ns y s t e m , d a t am i n i n g ,c o l l a b o r a t i v ef i l t e r i n g , f u z z y c l u s t e r i n g ,b e h a v i o rl o c u s 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究 工作所取得的成果。除已特别加以标注和致谢的地方外,论文中 不包含任何他人已经发表或撰写过的研究成果。与我一同工作的 同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权, 即:学校有权按有关规定向国家有关部门或机构送交论文的复印 件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 划颍 御年嵋月o f 目 中国科学技术大学硕士学位论文 1 1 研究背景与意义 第1 章绪论 i n t e m e t 的普及和迅猛发展带动了电子商务的发展,对用户和企业都产生了 深远的影响。对用户而言,他们在拥有越来越大的产品选择空间的同时,信息 超载问题也变得日益严重。用户不得不用越来越多的时间浏览网络以发现他们 所需要的产品。对企业而言,电子商务在为其提供了更多的商业机会的同时也 使得竞争日益加剧。企业要在激烈的竞争中生存下来并获得长期竞争优势,提 高用户的满意度和忠诚度是其关键。在这种情况下,电子商务推荐系统应运而 生。它对用户的兴趣爱好进行预测,从而推荐用户所感兴趣的产品。 推荐系统是数据挖掘系统的一类,但它又是一种较为特殊的数据挖掘系统, 这主要是体现在推荐系统的实时性和交互性上。推荐系统不但根据用户以往的 历史记录,更需要结合当前一段时间的行为动作做出实时的反应,并根据与用 户交互的反馈结果修正和优化其推荐结果。另外与其他数据挖掘系统的不同点 是,推荐系统主要面向的对象是用户,而不是企业管理、市场营销人员,当然 推荐系统收集到的很多数据、信息对管理人员的决策,市场营销人员的营销策 略都会提供很大的帮助。 根据推荐对象的特点,目前存在的推荐系统可以大致分为两类:类是以 网页为主要推荐对象的推荐系统,这种推荐系统主要采用w e b 数据挖掘方法和 技术来向用户推荐符合其兴趣爱好的网页链接。另一类推荐系统的推荐对象主 要是产品,这种推荐系统主要在电子商务网络购物环境中使用,帮助用户找出 他真正想要的产品。第二种推荐系统是本文研究的重点。 推荐系统从以下三个方面增加了电子商务网站的销售【l , 2 , 3 1 : ( 1 ) 将浏览者转变为购买者:一个没有明确购物目的的浏览者通常只是 对网页进行浏览而不进行购买。推荐系统通过合适的推荐,往往可 以将一个浏览者转变成购买者或使其成为潜在的客户。 ( 2 ) 促进交叉销售:一个站点可能会基于客户所购买的产品向其推荐其 它有价值的产品,客户可以从推荐列表中发现自己需要但在购买之 前没有留意的产品,从而促进交叉销售。 ( 3 ) 提高顾客忠诚度;:与传统的商务模式相比,电子商务使得用户拥有 越来越多的选择,用户更换商家极其方便,只需要点击几次鼠标就 中国科学技术大学硕士学位论文 可以在不同电子商务商家之间跳转。电子商务推荐系统分析用户的 购买习惯,根据用户需求向用户提供有价值的商品推荐。如果电子 商务推荐系统的推荐质量很高,那么用户会对该电子商务推荐系统 产生信赖。因此,一个好的电子商务推荐系统不仅可以为用户提供 个性化的推荐服务,而且能与用户建立长期稳定的关系,从而能有 效提高客户的忠诚度,防止用户流失。 1 2 论文的研究对象和所做工作 本文的研究的对象是电子商务个性化推荐系统,主要是指在电子商务网络 购物环境下,以产品为主要推荐对象的个性化推荐系统及个性化推荐算法。 本文中主要做了如下工作: ( 1 ) 介绍了推荐系统的基本知识 对现有推荐系统的分类,研究内容及框架结构进行了介绍,并介绍了推荐 系统中使用的相关技术。 ( 2 ) 分析了已有的推荐技术和算法,介绍了电子商务推荐策略 对已有的推荐技术和算法进行分析介绍,分析其优缺点及适用范围。介绍 了目前电子商务个性化推荐技术的研究热点,并在最后对电子商务推荐策略进 行了介绍。 ( 3 ) 提出了基于模糊聚类的推荐算法 针对目前冷开始问题中的新用户问题,提出了一个基于模糊聚类的推荐算 法。算法中使用模糊聚类对用户进行聚类,以便发现新用户的邻居集;使用了 评分相似性和特征相似性过滤掉备选推荐集中相似性过高的产品,然后再向新 用户进行推荐。经过实验分析,该算法比常见的用于处理新用户问题的推荐最 流行的n 个产品的算法在f l 值、个性化、获取用户偏好信息方面都有了一定 程度的提高。 ( 4 ) 提出了基于客户行为序列的推荐算法 针对目前大多数推荐算法未考虑用户兴趣随时间而变化的情况,提出了一 个基于客户行为序列的推荐算法。算法首先使用关联规则和概念分层降低用户 一项矩阵的稀疏性,然后根据用户的评分情况对用户在各个购买时段进行聚类, 挖掘出用户的行为序列关联规则,然后对目标用户进行规则匹配,并根据目标 用户在最后时段所在的类对其进行推荐。经过实验分析,可见当选取合适的用 户类别个数时,基于客户行为序列的推荐算法比传统的协同过滤算法有着更好 2 中国科学技术大学硕士学位论文 的性能。 1 3 论文结构安排 本文在绪论部分介绍了电子商务个性化推荐系统的研究背景和意义,并介 绍了本文所做的工作。第二章研究了电子商务个性化推荐系统的概念、分类、 研究内容、框架结构以及所采用的主要相关技术。第三章主要研究电子商务个 性化推荐系统中主要采用的推荐算法,研究比较其原理、优缺点及其适用范围 等一些相关性问题,然后介绍了目前电子商务个性化推荐技术的主要研究热点。 第四章研究了针对冷开始中的新用户问题所提出的基于模糊聚类的推荐算法, 详细介绍了该算法的原理和具体步骤。第五章研究了为解决客户兴趣爱好随时 问而变化的情况所提出的基于客户行为序列的推荐算法,并对该算法的原理和 具体步骤进行了详细介绍。第六章对基于模糊聚类的推荐算法和基于客户行为 序列的推荐算法进行了实验设计和结果分析。第七章为本文做最后的总结,提 出将来的工作。 1 4 小结 本章介绍了论文的研究背景和意义,提出了论文的研究对象和所做工作, 并对论文的结构安排进行了简要的说明。 中国科学技术大学硕士学位论文 第2 章电子商务推荐系统及相关技术 r e s n i c k & v a r i a n 在1 9 9 7 年给出了电子商务推荐系统的正式定义:“它是利 用电子商务网站向用户提供产品信息和相关建议,帮助用户决定购买什么产品, 通过模拟销售人员帮助用户完成购物过程的系统”1 1 1 。其最大的优点在于可以 收集用户资料,并据此推断用户的兴趣偏好,从而为用户主动做出个性化的商 品推荐。目前,电子商务推荐系统在亚马逊等电子商务网站已得到很好的应用。 有研究表明,在基于电子商务的销售行业使用个性化推荐系统后,销售额能提 高2 一8 ,尤其在书籍、电影、c d 音像、日用百货等产品相对较为低廉并 且商品种类繁多的行业,以及用户使用个性化推荐系统的程度较高的行业,推 荐系统能够大大提高企业的销售额。 2 1 电子商务推荐系统的分类 不同的推荐方法形成了不同种类的推荐系统。可根据技术的自动化程度 ( d e g r e eo f a u t o m a t i o n ) 和持久性程度( d e g r e eo f p e r s i s t e n c e ) 两个标准对推荐系统 进行分类【1 】: ( 1 ) 自动化程度:自动化程度是指客户为了得到推荐系统的推荐需要显式 地输入信息的程度。自动方式意味着推荐的产生不需要客户任何明显的操作,例 如当客户与网站进行交互时,系统会自动记录客户的相关信息,并对其进行推 荐。手工方式意味着客户在得到符合自己兴趣的推荐前需要进行一些显式的操 作,如对产品进行评价等。 ( 2 ) 持久性程度:持久性程度指推荐系统产生的推荐是基于客户当前的单 个会话( s e s s i o n ) 还是基于客户的多个会话,是瞬时还是持久。瞬时推荐只考虑当 前客户的会话。不考虑该客户以前的任何信息。持久推荐考虑客户的多个会话, 通过对当前客户的识别,根据他的偏好进行建议。 以上的技术分类标准表明了客户对电子商务网站推荐系统最重视或关心的 特性,电子商务推荐系统逐濒向能够自动地、持久地向用户进行个性化推荐方 向发展。 根据以上两个标准,推荐系统可分为以下几类【1 4 】: ( 1 ) 非个性化推荐( n o n - p e r s o n a l i z e dr e c o m m e n d a t i o n ) :推荐系统的推荐 主要基于其他客户对该产品的平均评价,这种推荐系统独立于客户,所有的客 4 中国科学技术大学硕士学位论文 户得到的推荐都是相同的,是非个性化的推荐。这种推荐的产生是自动的,客户 参与很少,而且基于客户当前单个会话,对客户不予区分,是瞬时的。 ( 2 ) 基于产品属性的推荐( a t t r i b u t e d - b a s e dr e e o m m e n d a t i o n ) :推荐系统 的推荐主要基于产品的属性特征。该推荐系统由于需要客户输入他所需要的产 品属性特征,因此推荐往往是手工产生。基于产品属性的推荐可以是瞬时的或个 性化的,这取决于电子商务网站是否保存有客户偏好的记录。 ( 3 ) 相关产品推荐( i t e m t o i t e mc o r r e l a t i o n ) :推荐系统根据客户感兴趣 的产品推荐相关的产品,由于它不需要客户购买产品的历史纪录,只需了解客 户当前选择的产品,因此是瞬时的。如果推荐系统产生的推荐是基于客户长期的 未曾改变的购买模式,可以认为它是自动的;如果需要客户明确输入一些感兴趣 的产品后产生推荐,则可认为它是手工的。 ( 4 ) 相关客户推荐( p e o p l e t o p e o p l ec o r r e l a t i o n ) :又称协同过滤,推荐 系统根据客户与其他已经购买了商品的客户之间的相关性进行推荐,此种推荐 是自动产生的,而且是持久的。 2 。2 电子商务推荐系统的研究内容 电子商务推荐系统的研究内容和研究方向主要包括【1 工3 】: ( 1 ) 电子商务推荐系统的信息来源和数据集成问题 在电子商务环境下,用户信息收集是电子商务个性化推荐的基础。根据当 前对电子商务环境下用户信息收集情况的研究来看,主要着眼于研究如何有效 的收集能反映用户兴趣偏好的信息,以及如何通过网络数据挖掘等方法更自动 化的收集用户的隐式信息,解决用户信息收集过多地依赖于显式评价数据的问 题。 当前大部分的电子商务推荐系统都只利用了一部分可用信息来产生推荐。 随着研究的深入,新型电子商务推荐系统应该利用尽可能多的信息,收集多种 类型的数据,有效集成多种推荐技术,从而提供更加有效的推荐服务。 ( 2 ) 设计准确、高效的个性化推荐算法 要实现被用户接受和认可的电子商务个性化推荐系统,设计准确、高效率 的个性化推荐算法是个性化推荐的核心问题。目前主要的推荐技术主要包括基 于内容的过滤和协同过滤两种。由于基于内容的过滤自身的局限性,协同过滤 推荐技术是当前研究的主流。其前提假设是存在具有相似兴趣爱好的用户群, 每个用户都有与其兴趣爱好相似的邻居用户。预测用户对某一项目的偏好是根 中国科学技术大学硕士学位论文 据邻居用户对该项目的偏好程度计算的,也就是说如果其邻居用户喜欢某一项 目,则该用户也很可能会喜欢这个项目。协同过滤最大的优点是不需要分析对 象的属性。所以对推荐对象没有特殊的要求,能处理非结构化的复杂对象,例 如音乐、电影等。 推荐算法的研究中还包括对推荐系统的实时性,用户评分矩阵的稀疏性研 究,数据挖掘技术在推荐系统中的应用研究等等。 ( 3 ) 电子商务推荐系统性能的评价问题 要让电子商务个性化推荐系统被广大用户所接受,必须对推荐系统做出客 观、综合的评价对推荐系统总体性能的评价是个性化推荐系统研究的重要组 成部分,但目前大都只是采用准确率、召回率等评价尺度对推荐算法进行评价, 并没有真正意义上的、提升到对整个推荐系统进行的评价,尤其缺乏从个性化 程度、自动化程度、持久性程度、系统的安全性以及用户接受程度等多方面的 对推荐系统综合的评价。 ( 4 )电子商务推荐系统的应用问题 推荐系统的应用研究主要包括推荐系统的可视化研究,对用户的隐私保护 研究,以及在企业中的应用研究等。 可视化研究方面,由于推荐系统的目的是为用户提供服务,因此必须为用 户提供友好的可视化服务界面,主要包括推荐结果可视化研究和推荐结果解释 研究等方面的内容。 推荐系统需要分析用户的购买习惯和兴趣爱好,涉及到用户隐私问题,如 何在提供推荐服务的同时有效保护用户隐私值得作进一步深入的研究。 推荐系统在企业中的应用是最终研究的落脚点,推荐系统不仅能为用户提 供完全个性化购物环境,更应为企业的销售决策和客户关系管理提供支持。由 于目前从事电子商务个性化推荐系统研究的人员主要是来自计算机科学领域的 专家学者,研究主要集中于个性化推荐技术,还很少有管理学界的专家学者, 从更广阔的范围和更深入的专门领域,比如从营销决策、市场分析、客户管理 以及系统集成的角度去研究电子商务个性化推荐的应用。 2 3 电子商务推荐系统的框架结构 整个电子商务个性化推荐系统可以分为三个模块:输入模块,推荐方法模 块和输出模块。 6 中国科学技术大学硕士学位论文 ( 1 ) 输入模块 输入模块主要负责对客户信息的收集和更新。不同类型的电子商务推荐系 统,其所收集的输入信息也不相同,从而产生的推荐也不同。电子商务推荐系 统的输入可以是用户当前的行为,也可以是用户访问过程中的历史行为;可以 是用户个人输入( t a r g e t e dc u s t o m e ri n p u t s ) ,也可以是群体输入( c o m m u n i t y i n p u t s ) 。在大型的电子商务系统中,为了产生高质量的推荐,推荐系统可能需 要多种类型的输入信息。推荐系统所收集的输入信息主要有以下几种形式 2 1 : ( a ) 隐式浏览输入:将用户访问电子商务w e b 站点的浏览行为作为推荐系统 的输入,用户的浏览行为与访问一般的w e b 站点没有区别,并不知道电子商务 推荐系统的存在。用户当前正在浏览的商品、用户购物篮中选择的商品、用户 的浏览路径等都可以作为隐式浏览的输入信息。 ( b ) 显式浏览输入:也是将用户的浏览行为作为电子商务推荐系统的输入, 但与隐式浏览输入不同,用户的显式浏览输入是有目的的向电子商务推荐系统 提供自己的兴趣爱好。例如,电子商务系统提供一系列热门商品供用户选择, 用户只选择浏览自己感兴趣的商品列表,电子商务根据用户的浏览行为向用户 提供个性化的推荐服务。 ( c ) 用户注册信息输入:用户在注册电子商务站点的时候需要输入一些个人 信息,这些信息可以是用户的年龄、性别、职业等,也可以是用户所表明的兴 趣爱好。这类信息是电子商务推荐系统收集到的关于特定用户的最初的信息。 ( d ) 关键字商品属性输入:用户在搜索引擎中输入关键字作为推荐系统的输 入,或者将用户当前正在浏览的商品类别作为推荐系统的输入。这种类型的输 入不同于用户随意的浏览行为,用户输入的目的就是在电子商务系统中搜索自 己需要的商品。 ( e ) 用户评分输入:将用户对商品的数值评分数据作为推荐系统的输入。电 子商务推荐系统列出一系列商品让用户评分,用户的评分可以是一个数值,数 值大小表示用户对商品的喜好程度,也可以是一个布尔值,0 代表不喜欢,1 代 表喜欢。用户提供的评分数据使得电子商务推荐系统可以为用户提供个性化的 推荐服务。 用户文本评价输入:用户对已经购买的商品或自己熟悉的商品以文本的 形式进行个人评价,推荐系统本身并不能判断这些评价的好坏。其他用户浏览 该商品时,可以看到用户对商品的文本评价信息。 ( g ) 用户购买历史输入:推荐系统将用户的购买历史作为隐式评分数据。一 7 中国科学技术大学硕士学位论文 旦用户购买了特定商品,则认为用户喜欢该商品。推荐系统根据用户的购买历 史产生相应的推荐。但是用户购买了某件商品并不代表用户喜欢该商品,所以 在精确的推荐系统中,用户可以对购买的商品进行重新评分,从而使推荐系统 产生更精确的推荐。 编辑推荐输入:将领域专家对特定商品的评价作为推荐系统的输入,领 域专家对商品的性能特点进行全面详细的介绍,用户通过专家的专业介绍,可 以对自己并不熟悉的商品加深认识,从而决定是否购买该商品。 ( 2 ) 推荐方法模块 推荐方法模块是整个电子商务个性化推荐系统的核心部分,它直接决定着 推荐系统的性能优劣。推荐方法模块以推荐技术和推荐算法为技术支撑,具体 推荐技术和推荐算法将在后续章节中进行介绍。 ( 3 ) 输出模块 主要负责在系统获得输入信息并经过推荐方法模块进行处理后,向用户进 行推荐输出。不同的推荐系统有着不同的输出。一个大型的推荐系统可能向用 户提供多种输出形式。目前,电予商务推荐系统的输出形式主要有f 2 】: ( a ) 相关商品输出:这种方式是电子商务推荐系统中最为普遍的一种输出。 推荐系统根据用户表现出来的行为特征或电子商务系统的销售情况向用户产生 商品推荐。它可以基于简单的销售排行向用户推荐热门商品:也可以基于对用 户的行为特征进行深入分析,发现用户的购买行为模式,从而产生个性化的推 荐。 个体文本评价输出:电子商务推荐系统向目标用户提供其他用户对商品 的文本评价。信息个体文本评价一般是非个性化的,对每个项而言,所有用户 得到的个体文本评价均相同。 ( c ) 评分输出:主要包括个体评分输出和平均数值评分输出两种。个体评分 输出是向目标用户提供其他用户对商品的数值评分信息。它没有大量的文本描 述信息,因此更加简洁明了,比较适合于个体数值评分数据比较少的场合。平 均数值评分输出是指电子商务推荐系统向用户提供其他用户对商品数值评分信 息的平均值。这种输出形式具有简洁明了的优点,用户可以立即获得对该商品 的总体评价。 ( d ) 电子邮件输出:电子商务推荐系统通过电子邮件的形式向用户提供商品 的最新信息。这种输出形式可以吸引用户再次访问电子商务系统,从而达到保 留用户,防止用户流失的目的。这种形式的输出内容既可以是产品输出,也可 s 中国科学技术大学硕士学位论文 以是评价或评分输出。 ( e ) 编辑推荐输出:向用户提供领域专家对商品的专业介绍,用户通过专家 的专业介绍可以对自己并不熟悉的商品加深认识,了解商品的性能特点,从而 决定是否购买该商品。这种形式的输出主要用于一些非经常购买的产品,如电 脑,家具等。 2 。4 电子商务推荐系统中采用的相关技术 2 。4 ,1 信息检索与信息过滤技术 信息检索( i n f o r m a t i o nr e t r i e v a l ) 技术与信息过滤( i n f o r m a t i o nf i l t e r i n g ) 技术是电子商务个性化推荐系统的关键技术。信息检索与信息过滤实现技术有 其相似性,但两者所完成的任务完全不同【5 】。 信息检索技术一般是根据用户需求,从大规模相对静止的数据库或数据仓 库中检索用户需要的信息,主要满足用户瞬时的信息需求【6 1 。信息检索技术主 要用于相对静止的信息存储领域。 电子商务个性化推荐系统根据用户需求,运用信息检索技术搜索产品类别 数据库,然后返回用户需要的信息。其检索过程可以实时进行,也可以定期周 期执行。在亚马逊等著名电子商务网站的推荐系统都采用了信息检索技术。 信息过滤对动态信息进行筛选,着重排除不希望得到的信息,带有即时性。 信息过滤技术一般用于用户需求相对不变,但信息动态更新比较频繁的情况, 主要面对的是半结构化和非结构化的数据,它为用户的长期信息需求提供服务。 信息过滤技术可分为基于内容过滤的技术( c o n t e n t - b a s e df i l t e r i n g ) 和协同过滤 技术( c o l l a b o r a t i v ef i l t e r i n g ) 【”。这两项技术将在后面章节中进行详细描述。 邮件系统信息过滤和新闻组信息服务是信息过滤技术的典型应用。在新闻 组信息服务中,通过用户自己输入的一组关键词建立用户档案,当新闻组中加 入新信息时,信息过滤系统对新信息进行过滤,将满足用户需求的新信息反馈 给用户。 2 4 2 数据仓库 数据仓库( d a t a w a r e h o u s e ) i s 9 1 是一个面向主题的、集成的、时变的、非易 失的数据集合,支持管理部门的决策过程。数据仓库的查询通常是复杂的,涉 9 中国科学技术大学硕士学位论文 及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维 视图的实现方法。数据仓库与操作数据库在功能、数据类型等方面有很大区别。 在电子商务个性化推荐系统中不但涉及到大量对操作数据库的操作,例如产品 的添加,用户属性的更改,销售的进行,还涉及到很多用户历史信息,这些信 息包含了用户潜藏的兴趣,但操作数据库并不维护历史信息,这时就需要建立 数据仓库来存放这类结构复杂的多维数据。 2 4 3 数据挖掘 数据挖掘是数据库中的知识发现( k d d ) 过程中的一个重要步骤,它是从 存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程【9 j 。 一个典型的数据挖掘系统具有以下主要成分:数据库、数据仓库或其他信息库; 数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块:图形用户 界面。 数据挖掘是一个多学科领域,其采用的技术来自各个不同的领域,主要的 数据挖掘方法包括以下几种阴:统计分析方法( s t a t i s t i ca n a l y s i s ) 、人工神经网 络( n e u r a ln e t w o r k ) 、决策树( d e c i s i o nn e e ) 、遗传算法( g e n e t i ca l g o r i t h m ) 、 粗糙集( r o u g hs e t s ) 、模糊逻辑( f u z z yl o g i c ) 、最近邻技术( n e a r e s tn e i g h b o r ) 、 规则归纳( n i l ei n d u c t i o n ) 等等。 到目前为止,数据挖掘技术在理论和应用上都已经得到了巨大的发展 9 1 。 目前数据挖掘能够从关系数据、对象关系数据、文本数据、多媒体数据、时间 序列、空间数据、异质数据等多种数据源中挖掘知识。数据挖掘知识包括特征、 区分,关联、分类、聚类、趋势、偏差、异常监测等多种类型,采用的技术包 括数据库、数据仓库和o l a p 、统计、机器学习、可视化、神经元网络等不同 领域的技术,在诸如零售、通信、银行、保险、基因分析、股票市场分析、w 曲 挖掘等不同行业得到了应用。 电子商务推荐系统是数据挖掘应用于电子商务领域的范例。随着电子商务 的应用,数据库中可以收集到大量的用户数据,包括用户交易数据、注册数据、 评分评价数据、投票数据等,w e b 服务器中也保存着用户访问电子商务系统的 日志数据、购物篮数据等,这些数据中蕴涵着丰富的知识,基于数据挖掘的推 荐系统通过数据挖掘技术对用户行为和属性进行学习,从中获取有价值的知识, 根据得到的知识产生推荐。 1 0 中国科学技术大学硕士学位论文 2 5 小结 本章首先对电子商务推荐系统进行了介绍,依次介绍了电子商务推荐系统 的概念、分类、研究内容以及框架结构。然后对电子商务推荐系统中所采用的 相关技术进行了介绍,从而为后面的推荐技术和算法的研究和分析做好了准备。 中国科学技术大学硕士学位论文 第3 章电子商务个性化推荐技术及推荐策略 3 1 电子商务个性化推荐技术概述 个性化推荐技术是电子商务推荐系统中最核心的部分,在很大程度上关系 着电子商务推荐系统的好坏。根据做出推荐所需要的数据和这些数据的使用方 法,可以把推荐技术分为六种,如下表所示【1 0 】: 表3 - 1 推荐技术的分类 推荐技术背景条件 输入主要步骤 协同过滤推荐u 对i 的评价u 对i 的评价等级识别u 的邻居用户。 据其生成i 的评价得 分 基于内容推荐i 的特征属性u 对l 的评价等级根据u 的评价得分生 成项目的分类器 基于人口统计信息推u 的人口统计信息及关于u 的人口统计信识别u 的相似用户, 荐对i 的评价 息据其生成i 的评价得 分 基于效用推荐i 的特征描述u 对i 偏好的效把效用函数用于各项 用函数目,生成各项目的排 序 基于知识推荐i 的特征,i 如何满足 对u 的需要和兴趣的计算各项目i 和用户 用户的知识 描述需要的匹配程度 基于规则推荐 u 对i 的浏览或购买浏览购买记录生成关联规则,根据 历史关联规则生成推荐 注:u 表示用户的集合;i 表示所有项目的集合;u 表示当前要预测的用户;i 表 示当前要预测的项目。 在以上六种推荐技术中,基于内容的推荐和协同过滤推荐是电子商务推荐 系统中两种最常用的推荐算法。因此,在本章中将着重对这两个算法进行介绍。 3 2 基于内容的推荐算法 基于内容的推荐来源于信息检索,其中采用了许多信息检索中的技术。系 中国科学技术大学硕士学位论文 统对目标用户所购买过的产品的特性进行分析,从而得到对该用户的兴趣描述。 并据此向该用户进行产品推荐。其核心在于对产品特征的分析。基于内容的推 荐算法的优点是f l l t l 习; ( 1 ) 它可以根据用户本身的兴趣爱好向其推荐其它用户并不感兴趣的产 品。 ( 2 ) 容易对推荐某个产品的原因做出解释。 该推荐算法的缺点是: ( 1 ) 多媒体信息,如声音和图像,由于其内容特征比较难以定义,不易进 行推荐。 ( 2 ) 由于系统仅依据客户本人过去的购买记录推荐产品,故对于客户未曾 购买过的产品类,系统不会主动进行推荐。 ( 3 ) 与协同过滤算法相比,推荐效率较低。 3 ,3 协同过滤算法 3 3 1 协同过滤算法概述 协同过滤算法基于以下考虑:兴趣相近的用户可能对同样的东西感兴趣。 因此,只要对客户的兴趣爱好进行分析,找出有相似兴趣爱好的客户,就可以 根据相似客户的意见来对目标客户推荐产品。协同过滤算法可以分为基于内存 的推荐算法和基于模型的推荐算法两种。 基于内存的推荐算法在运行期间需要将整个用户一项数据库调入内存,因 此可以利用最新的用户数据产生推荐。但是在大型的电子商务系统中,用户数 据库非常庞大,在整个用户数据库的基础上产生推荐非常耗时,这使得整个电 子商务推荐系统的实时性难以保证。基于用户关系的删s e t - b a s e d ) 协同过滤推荐 算法,基于项目关系的( i t e m b a s e d ) 协同过滤推荐算法以及基于h o r t i n g 图的推荐 算法【1 4 】都属于该类算法。 基于模型的推荐算法首先根据用户数据建立模型,在算法运行期间将预先 建立的模型调入内存。这类算法可以通过各种机器学习算法建立模型。由于基 于模型的推荐算法建立的模型相对于原始数据集要小得多,因此能够有效的缓 解推荐算法的实时性问题。但是由于模型无法使用到最新的数据而具有滞后效 应,必须周期性的对模型进行更新。基于聚类,b a y e s i a n 网络,以及关联规则 等的推荐方法都属于基于模型的推荐算法。 中国科学技术大学硕士学位论文 协同过滤算法的优点是【i l 】: ( 1 ) 只根据目标客户的相似客户群的兴趣爱好进行产品推荐,无需对产品 特性进行分析,对于多媒体信息产品容易做出推荐 ( 2 ) 可以跨领域迸行推荐,即推荐目标客户以前没有显示过购买兴趣的产 品。 ( 3 ) 自适应好,随着时间的推移,推荐的质量会提高。 该算法的缺点是: ( 1 ) 系统必须处理大量的信息以获得目标客户的相似客户群。 ( 2 ) 未曾被任何客户购买或评分过的新产品无法得到推荐。 ( 3 ) 不能向一个没有任何购买或评分信息的新用户推荐产品。 3 3 2 协同过滤算法中数据的收集 协同过滤推荐算法根据用户的行为,如用户注册信息、用户评分数据、用 户购买行为、用户敢 览行为等,建立用户的行为模型,然后利用建立的行为模 型向用户推荐有价值的商品。因此,用户数据的收集在协同过滤推荐算法中占 有重要地位,如何有效收集高质量的用户数据直接关系到推荐算法的推荐效果。 目前许多协同过滤推荐算法使用用户对商品的评分数据作为推荐基础。用 户评分数据分为显式评分( e x p l i c i t 勋曲g ) 和隐式评分( i m p l i c i t r a t i n g ) 两类。显式 评分通过专门的网页直接请求用户显式输入对某些商品的数值评分;而隐式评 分则不需要用户直接提供对商品的评分,而是根据用户浏览网页时的行为特征 预溺用户对该网页信息的评分。 显式评分方式存在明显的缺陷,因为用户必须暂停当前的浏览或阅读行为, 转而输入对商品的评分,从而导致用户评分数据的极端稀疏性。研究表明,只 有当每一种商品都有相当数量的评分数据时,推荐系统才能产生比较精确的推 荐结果,用户评分数据的极端稀疏性直接导致推荐系统推荐质量的下降。 协同过滤推荐系统通过对系统可以捕获的操作进行分析以获取隐式评分, 这些操作称为隐含兴趣指示操作。隐含兴趣指示操作主要分为如下几类i l : ( 1 ) 标记网页操作:包括将网页添加到收藏夹、从收藏夹删除网页、将网 页另存为本地文件、打印网页、以及将网页以电子邮件的方式发送给好友等。 ( 2 ) 编辑网页操作:包括剪切、复制、粘贴等编辑操作,还包括在新窗口 中打开链接,在网页中搜索文本、下拉滚动条等操作。 ( 3 ) 重复行为:如果用户在某个网页上重复某些操作行为,可能暗示用户 1 4 中国科学技术大学硕士学位论文 对该网页有更多兴趣。如某网页的打开时间比较长,反复上下左右拉动滚动条, 重复访问某以网页等行为。 相比较而言,隐式评分具有如下优点: ( 1 ) 不需要用户输入对商品的评分,用户使用上更方便。 ( 2 ) 可以对用户访问的任何网页以及网页上包含的商品做出评分预测,大 大减轻了用户评分数据的极端稀疏性。 需要指出的是,隐式评分是通过一些启发式规则获取的,有时候并不准确。 同时,不同隐含兴趣指示操作的组合可能导致互相矛盾的兴趣倾向。 3 3 3 基于内存的推荐算法 按照算法出发点不同,基于内存的推荐算法可以分为两种:基于用户关系 的协同过滤推荐算法和基于项目关系的协同过滤推荐算法。 ( 1 ) 基于用户关系的协同过滤推荐算法 基于用户关系的协同过滤推荐算法是目前应用广泛且效率较高的一种个性 化推荐算法。该算法是协同过滤算法中最早提出的一种算法。一般情况下如果 单独提起协同过滤推荐,则指的是基于用户关系的协同过滤推荐算法。 算法采用一个用户一项评分矩阵来表示用户输入的评分数据,使用统计技 术寻找与目标用户有相同喜好的邻居,然后根据目标用户的邻居的喜好产生向 目标用户推荐的产品。 算法假设有m 个用户u = u l ,u 2 ,l i t l l ) 和n 个项目的列表i ; i l ,i 2 , 。 算法分为以下三个步骤【”j : ( a ) 数据表示( r e p r e s e n t a t i o n ) :对用户已经购买过的产品进行建模,从 而有效度量用户间的相似性。在一个典型的基于客户客户关系的协同过滤推荐 系统中,用户对产品的评分数据用一个m n 阶的用户一项评分矩阵r 来表示。 m 代表用户数,n 代表产品数,矩阵中的元素r i 。表示用户i 对产品j 的评分。评 分可以是是用二进制的0 ,1 来表示用户是否购买,也可以是等级制的数据表示 用户对该项产品的喜好程度。 ( b ) 邻居形成( n e i g h b o r h o o df o r m a t i o n ) :这是整个算法中最关键的步骤。 在该步骤中,要对用户的相似性进行计算,从而确定目标用户的邻居集。即: 对目标用户a ,要产生一个根据相似度大小排列的邻居集合n = n 1 j 也, n , , 其中a 不属于n ,且n 中的元素从n l 到n 。是按相似度由大到小排列的。最近 邻居查找的效果和效率很大程度上决定了基于用户关系的协同过滤推荐算法的 中国科学技术大学硕士学位论文 效果和效率。 用户之间相似性的度量主要有以下几种: 令余弦相似性( c o s i n e - b a s e ds i m i l a r i t y ) :也称向量相似性。将用户评分看 作n 维项目空间上的向量,用户i 和用户i 之间的相似性通过向量间的 余弦夹角度量。值越大说明用户之间的相似性越高。设用户i 和用户j 在n 维项目空间上的评分向量分别为: ,7 ,则用户i 和用户j 的相似 鼬一州切堋酊j ) _ 赫濮粉韵阶胪鼢瞧的 内积,分母为两个用户模的乘积。 p e a r s o n 相似性( p e a r s o nc o r r e l a t i o n - b a s e ds i m i l a r i t y ) :也称相关相似性。 设用户i 和用户j 共同评分过的项目集合为i i j ,则用户i 和用户j 之间的 相似度为:s砌c“,2了夏三鼍薏兰篙乒赫,其中n,c表 示用户i 对项目c 的评分,磊和歹,分别表示用户i 和用户j 的平均评分。 修正的余弦相似性( a d j u s t e dc o s i n es i m i l a r i t y ) :在余弦相似性方法中 没有考虑不同用户的评分尺度问题,修正的余弦相似度方法通过减去用 户对项目的平均评分来改善这一缺陷。设用户i 和用户j 共同评分过的 项目集合为k ,i i 和l 分别表示用户i 和用户j 评分过的项目集合,则用 户 i 和 用 户 j 之间的相似度为 : 咖( f ,d :1 暑兰筌垒! 丝! ;罢彗:丝一_ ,其中p j ,c 表示用户i 对项 豇删u 2 了夏i 霖丢:翥尹了要:而兵甲n 一霰不用尸“9 坝 目c 的评分,霸和元分别表示用户i 和用户j 的平均评分 ( c ) 推荐产生( g e n e n a i o no fr e c o m m e n d a t i o n ) :该步骤中,根据目标客 户的邻居的爱好产生对目标客户的推荐。可以计算两种结果:用户对任意项的 兴趣度和t o p - n 推荐。 计算用户对预测项目的兴趣度 设用户u 和相应的已选项集i l i 。则对任意项t ( t 叠k ) 的兴趣度按下式计算; ( 一) f 鸭一- f ) p r e d i c t i o n = 万+ 型百一 ( c 吖) 1 6 中国科学技术大学硕士学位论文 其中万是用户u 对项的平均评估值,i 是最近邻居集中的用户,c o r r i 是用户 和用户之间的相似度, r a t i n g i 是用户i 对项目t 的评估值,丁是用户i 对项目的 平均评估值。 产生t o p - n 推荐 通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论