




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容摘要 随着互联网的普及与电子商务的快速发展,用户在选择商品时,面临着越来越严重的 信息超载的f q 题。因此,许多电子商务网站研究开发了推荐系统为用户进行个性化信息推 荐服务推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而 顺利完成购买过程。随着推荐系统的广泛应用,出现许多问题与挑战,主要包括:推荐质 量、推荐实时性、数据稀疏性、冷启动等问题为了解决以上问题,本文着重对推荐系统 及其核心的推荐方法进行研究 首先,研究推荐系统。针对推荐质量和实时性要求,构建合理的推荐系统。将推荐系 统划分为在线实时推荐和模型处理两部分用户在线浏览电子商务网站时,在线部分实时 输出反映用户兴趣的个性化推荐列表模型处理部分主要根据所收集的数据以及不同的模 型算法,得到模型输出,作为在线推荐的依据特另0 提出对于新用户和新商品采用结合不 同方法的推荐机制,在一定程度上解决冷启动问题,提高推荐质量。 其次,研究推荐方法。推荐方法主要包括:基于内容推荐、协同过滤推荐、混合推荐、 数据挖掘等方法其中,协同过滤算法是比较成功的推荐方法而针对基于聚类的协同过 滤推荐算法的效率和质量方面的不足,提出使用f u z z ya r t 算法,发挥其学习性与适应性 的特点。建立基于f u z z ya r t 的推荐算法,进行实验分析,并与传统方法进行比较,证明 f u z z ya r t 算法有助于提高推荐质量 再次,针对f u z z ya r t 算法存在的数据稀疏性问题和冷启动问题,提出使用f u z z ya r t 结合基于内容的改进推荐方法将商品特征信息与用户的偏好结合,得到用户偏好模型 根据用户偏好模型利用f u z z ya r t 分类,预测用户的推荐结果比较分析结果显示结合基 于内容的推荐方法在一定程度上解决稀疏性问题,提高推荐效果此外,结合基于内容的 推荐方法可以促进对新商品的推荐。 最后,考虑用户信息对推荐质量的影响,进行改进得到混合算法用户购买商品可能 不仅仅与商品特征及偏好有关,用户的基本信息如年龄、职业、性别等也具有一定的相关 性考虑将用户信息作为调整加入到分类的结果中,形成混合算法,实验分析得出其推荐 质量是以上算法中最好的另外,对于新用户,即只有用户基本信息没有偏好数据的情况 下,可以根据用户信息找到相似用户,解决冷启动问题 关键字:推荐系统,f u z z ya r t ,基于内容的推荐,基于用户的推荐,混合算法 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n de - c o m m e r c e ,c o n s u m e r sm a yb ec o n f r o n t e dw i t ht h e s e r i o u sp r o b l e mo fi n f o r m a t i o no v e r l o a d i n gw h e nt h e yc h o o s ec o m m o d i t i e s t h e r e f o r e ,m a n y e c o m m e r c ew e bs i t e sr e s e a r c ha n dd e v e l o pr e c o m m e n d a t i o ns y s t e mt op r o v i d ec o n s u m e r s i n d i v i d u a lr e c o m m e n d a t i o ns e r v i c e s 1 1 l er e c o m m e n d a t i o ns y s t e mw o r k sl i k es a l e s m a nw h o g i v e sc o n s u m e r sa d v i c e sa n dh e l p st h e mt o f i n dw h a tt h e yn e e d w i t ht h ew i d eu s i n go ft h e s y s t e m s ,m a n yp r o b l e m sa n dc h a l l e n g e sc o m eo u t f o re x a m p l e s ,t h ec o n f l i c to fr e c o m m e n d a t i o n q u a l i t ya n dr e a lt i m e ,s p a r s i t y o fd a t a ,c o l ds t a r ta n de t c t h i sp a p e rr e s e a r c h e so nt h e r e c o m m e n d a t i o ns y s t e m sa n dr e c o m m e n d a t i o nm e t h o dw h i c hi st h eh e a r to ft h es y s t e m st os o l v e t h e s ep r o b l e m s f i r s t l y , t h ep a p e rr e s e a r c h e so nt h er e c o m m e n d a t i o ns y s t e m s a c c o r d i n gt ot h ep r o b l e m so f r e c o m m e n d a t i o nq u a l i t ya n dr e a lt i m er e q u i r e m e n t ,t h es y s t e mm u s tb eb u i l tm o r er e a s o n a b l y i t i sc o m p o s e do ft w op a r t s ,t h eo n l i n er e a lt i m er e c o m m e n d a t i o np a r ta n dt h em o d e lp r o c e s s i n g p a r t t h ef i r s to n ep r e s e n t st h er e c o m m e n d a t i o nl i s tt o t h eu s e r sw h e nt h e yb r o w s et h e e c o m m e r c ew e bs i t e s t h em o d e lp r o c e s s i n gp a r tc o l l e c t sd a t aa n du s c sd i f f e r e n tm o d e l st o h a v et h eo u t p u t so fm o d e l sw h i c ha r et h eb a s e so ft h eo n l i n ep a r t e s p e c i a l l bt h es y s t e mh a st h e m e t h o d st or e c o m m e n dt h en e wu s e r sa n dn e wc o m m o d i t i e s 砀es t r u c t u r eo ft h es y s t e mc a l l h e l pt os o l v et h ec o l ds t a r tp r o b l e m sa n di m p r o v e st h er e c o m m e n dq u a l i t y s e c o n d l y ,t h ep a p e rr e s e a r c h e so nt h er e c o m m e n d a t i o nm e t h o d s e x i s t i n gm e t h o d si n c l u d e c o n t e n tb a s e dr e c o m m e n d a t i o n ,c o l l a b o r a t i v ef i l t e r , m i x e dm e t h o d ,d a t am i n i n ga n de t c a m o n g t h ea b o v e ,c o l l a b o r a t i v ef i l t e ri su s e dm o r ef r e q u e n t l ya n ds u c c e s s f u l t h e r e f o r e ,t h ep a p e ru s e s t h ef u z z ya i 盯a l g o r i t h mb a s e do nc o l l a b o r a t i v ef i l t e ra n dd a t am i n i n g t h ee x p e r i m e n t a lr e s u l t s s h o wt h ea l g o r i t h mh a sb e r e rr e c o m m e n d a t i o nq u a l i t yt h a nt h eo l dm e t h o d t h i r d l y , a c c o r d i n gt ot h es p a r s i t yo fd a t aa n dc o l ds t a r tp r o b l e m ,t h ep a p e ra d v a n c e st h e f u z z ya r ta l g o r i t h mw i t ht h ec o n t e n tb a s e dr e c o m m e n d a t i o nm e t h o d t h en e w m e t h o du s e st h e i n f o r m a t i o no fc o m m o d i t yc h a r a c t e r sa n di n t e r e s to fu s e r st op r o c e s st h ei n t e r e s t e dm o d e l 1 1 l c m o d e l i sc l a s s i f i e db yf u z z ya r ta n dt h e ni tp r e d i c t st h er e s u l to fr e c o m m e n d a t i o n c o m p a r e w i t hf u z z ya r t , t h en e wm e t h o dh e l p st os o l v et h es p a r s i t yo fd a t a o t h e r w i s e ,i ti m p r o v e st h e r e c o m m e n d a t i o no fn e wc o m m o d i t i e s f i n a l l y , c o n s i d e rt h ei n f l u e n c eo fu s e ri n f o r m a t i o nt ot h er e c o m m e n d a t i o nq u a l i t y , t h em i x e d m e t h o di sa d v a n c e df u r t h e r t h eb a s i ci n f o r m a t i o no fu s e r sl i k ea g e o c c u p a t i o na n dg e n d e ra r e r e l a t e dt ot h eb e h a v i o r so fp u r c h a s e t h em i x e dm e t h o du s e st h ei n f o r m a t i o nt oa d j u s tt h er e s u l t o fc l a s s i f y t h ee x p e r i m e n t a ls h o wt h a tt h em i x e dm e t h o di st h eb e s to ft h eo t h e ro n e s m e a n w h i l e ,t h em e t h o dc a ns o l v et h ec o l ds t a r tp r o b l e ma b o u tn e wu s e r sw h oh a v en o ta n y i n t e r e s t i n gd a t a t h em e t h o do n l yu s e st h ei n f o r m a t i o no fu s e r st of i n dt h e i rs i m i l a rn e i g h b o r si n o r d e rt og i v et h e ma d v i c e s k e yw o l :d s :r e c o m m e n d a t i o ns y s t e m ;f u z z ya r t ;c o n t e n tb a s e d 心c o m m e n d a t i o n ;u s e r b a s e dr e c o m m e n d a t i o n ;m i x e da l g o r i t h m i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不 包含其他人己经发表或撰写过的研究成果,也不包含为获得天津财经大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:歹勃狰 签字日期:w 诱耵月如日 学位论文版权使用授权书 本学位论文作者完全了解天津财经大学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权天津财经大学可以将学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位 论文, ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:槲 导师签名:学位论文作者签名:,鸽阿玎导师签名: 签字日期:耐年j 月砌日 签字日期:蜥j 。月易日 学位论文作者毕业后去向: 一 工作单位:托布彩砍通黼砺够镭k :j 多衫秒殄乞冶吖 通讯地址:托互葬衣区翻奶扬卟智礁邮编: - 循卅 第1 章引言 1 1 问题提出 随着互联网的普及和信息技术的日新月异,网络信息不断膨胀,电子商务规模不断扩 大,为用户提供越来越多的商品选择。然而用户面对大量的商品信息往往会束手无策,经 常迷失在大量的商品信息空间中。信息超载增加了用户购买所需商品的难度,用户在找到 自己需要的商品之前,必须浏览大量的无关信息。因此,用户对个性化信息服务的要求越 来越高。为了满足用户需求,电子商务推荐系统应运而生。 推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利 完成购买过程,因此可以有效保留用户,提高电子商务系统的销售。个性化的推荐可以将 浏览者变成购买者。依据客户的偏好或兴趣,适时的提供客户可能有所需求的潜在信息, 可能引起浏览者的购买欲望,进而成为购买者。同时透过对客户推荐额外的产品来产生交 叉销售的效益,若所推荐的产品符合客户的需求,便可以提高交叉购买的机会。此外,个 性化推荐服务可以改善企业与消费者的关系,透过与客户良好的互动关系,以了解客户的 需求,提高客户的忠诚度,降低客户流失率。从纽约c y b e rd i a l o g u e 调查中可发现接受 个性化服务的网络消费者的消费金额比未使用个性化服务的网络消费者的消费金额要高。 在2 0 0 2 年,接受个性化服务的客户的消费在2 0 0 0 美元以上的比例为2 8 ,高于未接受 个性化服务的客户的1 7 ,且有2 1 的接受个性化服务的客户愿意为线上的订阅付费,高 于未接受个性化服务的客户l l 恻。 由于推荐系统能够促进消费,赢得客户,许多大型电子商务网站开始提供各种推荐服 务,如e b a y ,a m a z o n 等。然而电子商务推荐系统在实际应用过程中,出现许多问题与挑战。 因此,推荐系统的研究受到广泛关注。其中实时性与推荐质量之间的平衡是推荐系统中存 在的一对矛盾问题。大部分推荐方法在保证实时性要求的同时,是以牺牲推荐系统的推荐 质量为前提的。在提供实时推荐服务的同时,如何有效提高推荐系统的推荐质量,需要做 进一步深入的研究。同时,对于推荐系统的核心部分推荐方法,面临稀疏性与冷启动问题。 在许多推荐系统中,每个用户涉及的信息量相当有限,造成评估矩阵数据相当稀疏,难以 找到相似用户集,导致推荐效果大大降低。冷启动问题分为新项目问题和新用户问题。如 果一个新项目没有人去评价它,则这个项目肯定得不到推荐,推荐系统就失去了作用。同 样,如果一个新用户从未对系统中的项目进行评价,则系统无法获知他的兴趣点,也就无 法对他进行推荐。 为了解决以上问题,增强电子商务推荐系统的适用性,本文对推荐系统和推荐算法进 行研究。在一定程度上克服数据稀疏性和冷启动问题,提高推荐质量与效率,从而进一步 促进电子商务推荐系统的发展与应用。 1 2 研究现状 1 2 1 推荐系统 随着互联网的普及和电子商务的发展,推荐系统逐渐成为电子商务i t 技术的一个重 要研究内容,得到越了来越多研究者的关注。电子商务推荐系统( r e c o m m e n d e rs y s t e mi n e - c o m m e r c e ) 正式的定义是r e s n i c k & v a r i a n 在1 9 9 7 年给出的。a c m 从1 9 9 9 年开始每年召 开一次电子商务的研讨会,其中关于电子商务推荐系统的研究文章占据了很大比重。第7 届国际人工智能联合会议则把e - b u s i n e s s t h ei n t e l l i g e n tw e b 作为一个独立的研讨 小组。第十五届人工智能会议、第一届知识管理应用会议等也纷纷开始将电子商务推荐系 统作为研究主题。近年来我国也比较重视i n t e r n e t 智能推荐方面的研究工作,自然科学 基金也曾资助过“面向电子商务的客户偏好分析与个性化分析系统 、“电子商务个性推荐 系统及应用研究 。 推荐系统是一种为了减少使用者在搜寻信息过程中所附加的额外成本而提出的信息 过滤( i n f o r m a t i o nf il t e r i n g ,i f ) 机制。r e s n i c k 认为一般信息过滤系统也泛称为推荐系 统,它不仅可以依据使用者的偏好、兴趣、行为或需求,推荐出使用者可能有所需求的潜 在信息、服务或产品,还可以将推荐系统与企业电子商务的营运架构整合,将为企业带来 许多潜在的利益。 1 2 2 推荐方法 推荐方法是推荐系统的核心部分,许多国内外学者对于推荐技术进行深入的研究,提 出了多种方法。典型的电子商务推荐技术如下: ( 1 ) 基于规则的推荐 基于规则的推荐方法允许系统管理员根据用户的静态特征和动态属性来制定规则,一 个规则本质上是一个i f t h e n 语句,规则决定了在不同的情况下提供不同的服务1 。基 于规则的推荐,其优点是简单、直接,缺点是规则质量很难保证,而且不能动态更新。此 外,随着规则的数量增多,系统将变得越来越难以管理。 ( 2 ) 基于内容过滤的推荐 基于内容过滤的推荐方法,利用资源与用户兴趣的相似性来过滤信息。基于内容的推 荐系统通过将客户的偏好与产品内容自动匹配来给客户提供建议,在基于内容的系统中, 产品由其普通属性描述。客户偏好通过分析产品比率以及相应的产品属性来预测。b y e s i a n 概率模型、遗传算法以及其它机器学习技术也被广泛应用于用户档案的建立和更新嘲m 1 。 基于内容过滤的系统,其优点是简单、有效。缺点是难以区分资源内容的品质和风格,而 且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。基于内容的 推荐系统不能用于仅仅实施一次购买行为新客户,或者访问了该网站,却没有实施任何购 买行为的潜在客户,以及不是特别经常购买的一种产品的客户。 ( 3 ) 协同过滤推荐 协同过滤推荐方法利用用户之间的相似性来过滤信息,是当今推荐技术的主流。协同 性的推荐系统估计客户对特定产品的偏好是根据客户对该产品的偏好率以及其他客户对 同一产品的偏好率的比较来实现的。基于协同过滤推荐的优点是能为用户发现的新的感兴 趣的信息。协同过滤推荐技术也存在自身的不足,一是稀疏性,即在推荐系统使用初期, 由于系统资源还未获得足够多的评价,系统很难利用这此评价来发现相似的用户。另一个 是可扩展性,亦即随着系统用户和资源的增多,系统的性能会越来越低。 k a r y p i s 等人提出根据项之间的相似性提供推荐服务,从而有效提高推荐质量口儿钔。许 多研究学者也提出不同的改进算法包括通过图搜索计算用户最近邻居的优化算法。对用户 最近邻居和项均采用不同权重的方法改进推荐质量口刀。对各种用户间相似性度量方法进行 了分析,提出了各种改进方法旬。随着电子商务规模的扩大,推荐系统的实时性研究逐 渐成为研究热点,数据挖掘技术被广泛使用。s a r w a r 等人提出了基于关联规则挖掘的推荐 系统。聚类分析将用户划分为不同的组,从而有效减小搜索空间,提高最近邻居搜索速度 哳儿川。遗传算法、神经网络等机器学习技术也在推荐系统中得到应用,并且以其良好的适 应性和学习能力越来越受到重视。提出基于自组织特征映射s o m 神经网络的协同过滤推荐 系统口们。 此外,由于结合不同的推荐过滤技术可以克服各自的一些缺点,提高推荐质量,许多 混合推荐技术被研究者所关注。b a l a b a n o v i c 等人提出通过基于内容的过滤和协同过滤的 复合型推荐系统n 1 ,知识工程与协同过滤结合n 1 ,基于用户与项目的协同过滤推荐系统等喳1 。 由于推荐系统在实际应用中存在各种问题,现有的推荐方法在解决不同问题方面发挥 作用不同,存在各自的优缺点。本文针对推荐质量与效率、数据稀疏性和冷启动问题进行 研究。在原有技术基础上,提出改进方法,完善与发展推荐系统。 1 3 本文主要工作 1 3 1 本文主要研究内容 3 针对电子商务推荐系统面临的各种问题,本文对电子商务推荐系统以及其核心的推荐 方法进行探索与研究。由于电子商务系统本身的复杂性,商品和用户信息众多,为保证推 荐质量和实时性,要求构建合理的推荐系统并界定推荐系统的适用范围。明确推荐系统需 要管理商品信息、用户注册信息、评分信息等数据以及推荐方法、模型、结果等内容。考 虑到推荐方法运行效率和推荐实时性的要求,将系统分为在线实时推荐和模型处理两部 分。模型处理部分根据推荐方法处理数据得到模型,当用户浏览网页时,在线推荐根据模 型结果实时输出推荐列表,反馈给用户。由于模型处理可以不实时进行,从而提高推荐系 统的执行效率。在线实时推荐部分根据不同的情况,执行不同的推荐策略。特别是对于新 用户和新商品采用不同推荐方法,在一定程度上解决冷启动问题,提高推荐质量。 推荐系统的核心部分是推荐方法。提出基于混合算法的推荐方法,对于推荐方法的研 究主要分为三个步骤,不断的改进与完善算法。 ( 1 ) 采用基于f u z z ya r t 的推荐方法 通常基于聚类的协同过滤推荐方法是对给定的样本集进行分析,构成聚类簇。当样本 集发生变化时,则需要重新进行分析,构造新的簇类,不能只用新加样本进行补充。由于 电子商务系统中数据变化频繁,这种不适应性限制了聚类方法应用。自适应共振理论a r t 在一定程度上提高了聚类的适应性。它可以实时学习,对已学习的对象具有稳定的快速识 别能力,同时又适应未学习对象。因此,使用基于f u z z ya r t 聚类的协同推荐技术,提高 推荐质量和实时性。 ( 2 ) 将f u z z ya r t 算法与基于内容的推荐方法相结合 基于f u z z ya r t 的推荐技术是依据协同过滤技术的原理进行的推荐,其适用范围有一 定局限性,推荐只适用于具有某些特征的商品,对于不同类型商品推荐质量较低且不能克 服稀疏性问题。为扩大协同过滤的适用性范围。需要利用基于内容的推荐技术。将商品特 征信息与用户的偏好结合,商品分为不同特征属性,汇总每个用户在不同的特性上偏好值, 得到用户偏好模型。根据用户偏好模型利用f u z z ya r t 分类,在不同特征上具有相似偏好 的用户将成为邻居,以便于进行实时推荐。此外,结合基于内容的推荐技术可以促进对新 商品的推荐,是解决冷启动问题的有效推荐方法。 ( 3 ) 结合用户信息的推荐方法形成混合算法 在电子商务中,用户购买商品可能不仅仅与商品特征及偏好有关,用户的基本信息如 年龄、职业、地区等也具有一定的相关性。考虑将用户信息作为调整加入到聚类的结果中, 从丽提高推荐质量。研究将用户的基本信息统一处理,便于进行比较。利用结合基于内容 的f u z z ya r t 算法得到的聚类簇,根据每个簇中的用户信息进行比较得到相似性比较矩阵, 在进行推荐时,选择最近邻时,将用户相似性比较结果作为加权,调整推荐结果。特别是 对于新用户,即只有用户基本信息没有偏好数据的情况下,根据用户信息找到相似用户, 解决冷启动问题。 在研究推荐方法时,每一部实现算法分别进行比较测试,评价分析推荐结果,验证推 荐方法的有效性。 1 3 2 本文结构 图1 1 本文结构图 第一章引言部分提出电子商务推荐系统研究中存在问题,对推荐系统的一些基本概念 和研究现状进行了简单介绍,并说明本文的主要工作。 第二章对电子商务推荐系统进行综述,包括推荐系统的概念、分类、组成模块。并且 详细介绍了作为推荐系统核心的各种推荐方法。此外,介绍了电子商务推荐系统实例。 第三章主要是构建基于混合算法的个性化电子商务推荐系统。针对推荐实时性和推荐 质量要求,合理的构建推荐系统基本框架。明确系统的适用范围,详细描述推荐系统中的 数据的管理。分析说明推荐系统的主要组成部分,模型处理和在线实时推荐。 第四章主要利用f u z z ya r t 算法进行推荐。首先介绍f u z z ya r t 算法结构和步骤,然 后利用该算法推荐。详细介绍推荐过程中数据描述、模型处理和预测推荐。最后进行实验 分析并评价推荐结果,与传统方法比较,说明f u z z ya r t 算法改善推荐质量。 第五章改进推荐方法,利用f u z z ya r t 结合基于内容的推荐算法。分析f u z z ya r t 算 法结合基于内容的推荐方法的优势,建立相应的模型。详细描述模型处理的步骤,进行实 验分析,比较结果,验证改进方法对稀疏性问题和新商品问题的有效推荐。 第六章进一步改进推荐方法,结合基于用户信息的混合推荐算法。分析说明基于用户 信息的推荐方法的作用,解决新用户推荐问题。建立混合算法的模型,进行实验分析比较 结果。说明混合算法有利于提高推荐质量。 第七章总结本文创新之处并提出后续工作。 第2 章电子商务推荐系统综述 2 1 电子商务推荐系统介绍 2 1 1 电子商务推荐系统概念 r e s n i c k v a r i a n 在1 9 9 7 年给出了电子商务推荐系统正式的定义,指利用电子商务 网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客 户完成购买过程n 引。推荐系统的最大优点在于它能收集用户兴趣资料并根据用户偏好为用 户主动做出个性化的推荐,这样,当用户每次输入用户名和密码登录网站后,推荐系统就 会自动按照用户偏好程度的高低推荐给用户可能最感兴趣的信息,而且系统给出的推荐是 动态更新的,也就是说当系统中信息和用户兴趣资料发生变化时,给出的推荐序列会自动 改变,这就意味着用户登陆网站时,系统给出的推荐是动态变化的,大大方便了用户对商 品信息的浏览,也提高了企业的服务水平。 2 1 2 电子商务推荐系统分类 推荐系统使得电子商务网站可以主动适应每一个用户的特定需求,为每一个用户提供 完全不同的个性化服务。所谓个性化服务,就是在用户浏览网站时,尽可能迎合每个用户 的浏览兴趣并不断调整自己来适应用户浏览兴趣的变化,使得每个用户都是该站点唯一用 户的感觉。不同的推荐系统的个性化程度各不相同,从推荐系统的个性化程度上,可以将 推荐系统分为如下三类嘲: ( 1 ) 非个性化推荐系统:推荐系统对每个用户产生的推荐都是相同的。这种推荐系统可 以基于网站工作人员的手工推荐,可以基于统计分析技术等等。电子商务网站的编辑推荐、 销售排行、平均数值评分、个体文本评价、个体数值评分等推荐形式对所有的用户而言都 是一样的,都是属于非个性化的推荐系统。 ( 2 ) 半个性化推荐系统:推荐系统根据用户当前的行为产生相应的推荐。这种推荐系统 根据用户当前的浏览行为或用户当前的购物记录产生推荐结果,不同用户得到的推荐结果 各不相同。半个性化推荐系统的个性化程度比非个性化推荐系统要高。 ( 3 ) 完全个性化推荐系统:推荐系统保存用户的各种历史信息,如:历史浏览信息、历 史数值评分信息、用户注册信息等。然后根据用户的历史信息,结合用户的当前行为为用 户产生完全个性化的推荐服务。这种推荐系统一般只能对注册用户提供服务,个性化程度 最高。 本文研究的电子商务推荐系统属于完全个性化推荐系统,利用用户评分历史信息、用 户注册信息以及商品信息进行个性化推荐服务。 2 2 推荐系统组成 整个推荐系统的组成主要可以分为三个模块:输入模块、推荐方法模块、输出模块。 下面主要介绍输入与输出部分。 ( 1 ) 推荐系统的输入 不同类型的推荐系统,其输入信息也不同。推荐系统的输入可以是用户当前的行为, 也可以是用户访问过程中的历史行为。在大型推荐系统中,为了产生高质量的推荐,推荐 系统可能需要多种输入信息,主要包括: 隐式浏览输入:将当前用户访问网站的浏览行为作为推荐系统的输入,用户的浏览行 为与访问普通网站没有区别,并不知道推荐系统的存在。用户当前正在浏览的网页、用户 选购的商品、用户的浏览路径等都可以作为隐式浏览输入的信息。 显式浏览输入:也是将用户的浏览行为作为推荐系统的输入,但与隐式浏览输入不同, 用户的显式浏览输入是有目的的向推荐系统提供自己的兴趣爱好。例如,网站提供一系列 热门信息供用户选择,用户只选择自己感兴趣的信息列表,推荐系统根据用户的选择向用 户提供个性化推荐服务。 关键字物品属性输入:用户在搜索引擎中输入关键字作为推荐系统的输入,或者将用 户当前正在浏览的信息类别作为推荐系统的输入。这种类型的输入不同于用户随意浏览的 行为,用户输入的目的就是网站上搜索自己需要的信息。 用户评分输入:将用户对信息的数值评分数据作为推荐系统的输入。推荐商务系统列 出一系列信息让用户评分,用户的评分可以是一个数值,数值大小表示用户对信息的感兴 趣程度,也可以是一个布尔值,0 表示不感兴趣,l 表示感兴趣。用户提供的评分数据使 得推荐系统可以为用户提供个性化的推荐服务。 用户文本评价输入:用户对自己已经知道的信息以文本形式进行个人评价,推荐系统 本身并不能判断这些评价的好坏。其他用户浏览该信息时,可以看到该用户对信息的文本 评价信息。 ( 2 ) 推荐系统的输出 不同类型的推荐系统,其输出也各不相同。大型推荐系统可以同时向用户产生多种不 同类型的输出,主要包括: 相关信息输出:推荐系统根据用户表现出来的行为特征或网站的热门信息排行情况向 用户产生信息推荐,这种方式是推荐系统中最为普通的一种输出。相关信息输出可以基于 7 简单的信息排行向用户推荐热门信息,也可以基于对用户的行为特征进行深入分析,发现 用户的浏览行为模式,从而产生个性化的推荐。 个体文本评价输出:推荐系统向目标用户提供其他用户对信息的文本评价一般是非个 性化的,对每个项而言,所有用户得到的个体文本评价均相同。 个体评分输出:向目标用户提供其他用户对信息的数值评分。评分输出没有大量的文 本描述,因此更加简洁明了。 电子邮件输出:推荐系统通过电子邮件的形式向用户提供最新信息。这种输出形式可 以吸引用户再次访问网站,从而达到保护用户,防止用户流失的目的。 2 3 推荐方法 推荐方法是推荐系统的核心,是其重要的组成部分。不同类型的推荐系统应用各种推 荐方法实现个性化的推荐服务口。 2 3 1 基于内容的推荐方法 基于内容的方法利用信息检索技术来分析项目的内容,通常应用邻居函数和分类技术 来分析和聚类项目的文本内容,并基于项目特征与用户档案产生推荐。基于内容的信息推 荐主要集中在文本信息推荐领域虽然使用基于内容的过滤方法,可以依据使用者过去的偏 好,推荐出符合使用者偏好的项目,但是s h a r d a n a n de ta 1 指出此方法有以下限制: ( 1 ) 特征提取的能力有限。通常只能对资源进行比较简单的特征提取,在一些特定领域 如图形、图像、视频、音乐等媒体,目前还没有有效的特征提取方法。即使文本资源,其 特征提取方法也只能反映资源的内容,但是难以提取资源的质量、风格等信息。所能分析 的项目内容仅限于能够用一系列的特征集合来表示的信息,而无法有效处理声音、图片、 艺术品、影像等多媒体信息。 ( 2 ) 推荐的资源过于狭窄。系统尽可能向用户推荐最符合用户档案的信息,因此,推荐 将局限于跟用户以前浏览的资料类似的信息。用户仅仅能够接收到与过去类似的推荐项 目,而无法找出与过去体验有所不同而具有潜在意义的潜在性推荐。 ( 3 ) 无法处理品质、风格或观点。以文章为例,若两篇文章的主题相同,但其内容品质 有所差别的时候,此方法无法有效分辨。 2 3 2 协同过滤推荐方法 ( 1 ) 协同过滤推荐方法介绍 协同过滤由g o l d b e r ge ta 1 在1 9 9 2 年首先提出,是目前最广泛采用的推荐技术。 该方法首先必须找出一群具有相同兴趣的用户,形成用户群,也就是某些行为或偏好上有 禽 类似特性的成员集合,通过分析成员的共同兴趣或爱好,来产生相关的关联推荐。协同过 滤可以有效解决基于内容的过滤存在的问题。在协同过滤中,用户通过相互协作来选择信 息,它依据其他用户对信息作出的评价来挑选信息。协同过滤方法对用户的行为进行分析, 并不关心信息的实际内容。自动化协同过滤系统通过收集用户对信息的评价,搜索具有相 同兴趣喜好的用户,然后根据具有相同兴趣喜好的用户对信息的评价产生推荐结果。主要 是利用群体的观点来产生推荐项目给特定的用户,强调一种人与人之间的合作,借助过去 的历史记录,计算各个使用者之间偏好行为的相似度,找出与自己偏好接近的邻居用户, 并通过这些邻居用户组成的邻近用户群的意见或建议来产生使用者之前未曾体验过却可 能感兴趣的推荐信息给特定的使用者作为参考。 ( 2 ) 协同过滤推荐优缺点 协同过滤技术是目前使用最成功的推荐系统技术,它可以解决基于内容过滤的一些问 题,使用此方式不用分析项目内容,因而系统会根据与使用者有相同兴趣的用户群成员曾 经购买的产品来作为推荐的参考对象,也就是说它是依据其他顾客的意见来为其目标用户 推荐产品,故推荐的产品可能与使用者从前的喜好大不相同,但是却挖掘出消费者的潜在 需求,甚至是将浏览者变成购买者。此方式的推荐系统使用统计技术来找出一群与目标顾 客对过去的历史有着相同看法的顾客,借助对产品的评分相似,或者是他们可能购买相似 的产品,将这些顾客视为目标顾客的邻近用户,一旦顾客群建立完成,就可以使用各种算 法来产生推荐。 协同过滤式的决策基础是“人一,而不是“内容的分析 ,即:偏重于由一群偏好相似 的人来决定推荐的资讯项目,此方式能针对任何形态的信息进行推荐,更能够处理难以表 现的概念,因此能够取得较好的推荐效果。和基于内容的过滤方法相比,协同过滤方法具 有如下优点: 适合于过滤难以分析内容的资源:协同过滤不关心资源的具体内容,因此,在难以分 析资源内容情况下,如图形、图像、视频、音乐等,协同过滤是很好的选择。 新奇的推荐:协同过滤可以发现内容上完全不相似的资源,用户对推荐信息的内容事 先是预料不到的。 虽然协同过滤技术是目前使用最成功的推荐系统技术,但它仍存在一些潜在限制,s a r w a r 认为协同过滤的方法的限制包括下列各项: 稀疏性( s p a r s i t y ) :由于顾客交易所涉及的交易产品往往不及厂商所售产品的百分之 一,因此在进行处理时,无法找出最适当的邻居用户以进行产品的推荐。 扩充性( s c a l a b i l i t y ) :最近邻居算法的计算复杂度通常与交易数目或产品数目大小 成正比,因而当用户与产品逐渐增加时,将严重影响推荐系统的效果。 同义( s y n o n y m y ) :即当项目的标题有所不同,但是其本质相同的情况下,系统无法有 效分辨其中所隐含的意义,而判断这两个项目是不相似的。 ( 3 ) 协同过滤方法分类 g e o r g ek a r y p i s 依据协同过滤技术所使用的事物的关联性,将其分为以下两类: u s e r - - b a s e dc f :其核心思想是假设人与人之间的行为具有某种程度的相似性,即购 买行为类似的顾客,会购买类似的产品。 i t e m - - b a s e dc f :其主要思想是假设项目间具有某种程度的相关性,即顾客在购买时, 其所购买的产品通常具有关联性,如顾客在购买电子游戏机时,通常会购买电池及游戏卡 盒。 2 3 3 混合推荐方法 由于基于内容的过滤和协同过滤都有各自的优缺点,因而有许多学者提出混合式的推 荐模型。混合式的推荐模型不仅可以保留以上两种类别推荐模式的优点,且其推荐效果也 比单独使用基于内容的过滤或协同过滤要好。它合并了基于内容的方法和协同过滤方法, 提高推荐的质量。使用混合方法的推荐可分为三种类型: 通过简单地合并两种方法独自产生的推荐结果来整合两种方法。 系统合并两种方法在表示层,将项目信息与交易信息合并成为单一的表示。这些系统 是基于协同过滤,用户的表示中添加项目内容信息或者添加基于项目内容的评分。例如: f a b 系统基于用户已经评分的文档内容分析保存用户档案,然后比较用户档案识别相似用 户来产生一个协同推荐。其它的系统应用基于内容的分析和在项目表示中添加用户信息。 还有一些推荐系统建立了一个综合的模型,该模型合并了不同的信息源,最近a n s a r i ( 2 0 0 0 ) 采用正式的统计方法建立用户评分模型作为项目属性的函数、用户特征和专家评 价,使用这种方法中将考虑在用户喜好上没有观察到的异质源和项目结构。 第三种混合方法使用知识工程加上协同过滤。例如,b u r k e 提出一个混合推荐框架, 协同过滤通常利用基于知识过滤方法获得推荐结果过滤邮件。 2 3 4 数据挖掘方法 数据挖掘( d a t am i n i n g ) ,也称数据库中的知识发现,是从大量的数据中抽取出潜在 的、不为人知的有用信息、模式和趋势。数据挖掘技术可以提高市场决策能力、检测异常 模式、在过去的经验基础上预言未来趋势等。数据挖掘综合运用了机器学习、模式识别、 统计学、人工智能等众多学科的知识。从1 9 8 9 年数据挖掘概念提出到目前为止,数据挖 掘技术在理论和应用上都己经得到了巨大的发展,应用在各个不同的领域,例如:电信、 银行、保险、证券、医疗、零销等。如今,数据挖掘的许多方法也成功运用到电子商务推 荐系统当中。 ( 1 ) 数据挖掘方法介绍 数据挖掘过程一般有三个主要的阶段组成:数据准备、数据挖掘、结果表达和解释。 数据挖掘可以描述为上述三个阶段的反复过程。数据挖掘是一个多学科领域,其采用的技 术来自各个不同的领域,主要的数据挖掘方法包括: 统计分析方法:利用统计学和概率论对关系中各个属性进行统计分析,找出它们之间 存在的关联。 人工神经网络:模仿生物神经网络,通过训练进行学习的非线性预测模型,可以完成 分类,聚类等多种数据挖掘任务。 决策树:用树型结构表示决策集合,决策集合通过对数据集分析产生。电典型的决策 数方法如分类回归树,主要用于分类挖掘。 遗传算法:一种新的优化技术,基于生物进化的概念设计了一系列过程来达到优化的 目的,包括基因组合,交又,变异和自然选择。 粗糙集:粗糙集是一种处理模糊和不确定性问题的新型数学工具,粗糙集可以用于数 据挖掘中的数据简化、关联规则挖掘等。 模糊逻辑:模糊逻辑融合了模糊集合二值逻辑概念。在数据挖掘中,模糊逻辑可以用 来进行证据合成、置信度计算等。 最近邻技术:这种技术通过k 个最相似的历史纪录的组合来辨别新的纪录。可以用于 聚类分析、偏差分析等。 规则归纳:通过统计方法归纳,提取有价值的i f - t h e n 规则,用于关联规则挖掘。 可视化:采用直观的图形方式将信息模式、数据关联或趋势呈现给决策者,决策者可 以通过可视化技术交互式分析数据关系。 ( 2 ) 基于数据挖掘的推荐方法 髓着电子商务的应用;数据库中可以收集到大量的用户数据,如用户交易数据,用户 注册数据、用户评分评价数据、用户投票数据等。同时,服务器中也保存着用户访问电子 商务系统的日志数据、用户购物篮信息等,这些数据中蕴含着丰富的知识,基于数据挖掘 的推荐是通过数据挖掘技术对用户行为和用户属性进行学习,从中获取有价值的知识,根 据得到的知识产生推荐。电子商务推荐系统中的数据挖掘主要包括关联规则挖掘和分类挖 掘两类: 关联规则:关联规则挖掘发现大量数据中项目之间有趣的关联或相互联系。基于关联 规则的推荐算法根据生成的关联规则推荐模型和用户的购买行为向用户产生推荐。关联规 则推荐模型的建立是离线进行,因此可以保证有效推荐算法的实时性要求。关联规则挖掘 的一个典型例子就是购物篮分析。 分类:分类挖掘模型根据用户的输入信息将之划分为相应类别。分类挖掘模型可以通 过多种机器学习方法实现,如聚类、b a y e s i a n 网络等。聚类帮助分析人员从用户基本库 中发现不同的用户群,并且用购买模式来刻画不同的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育的文化差异和多元性
- 创意与艺术教学展示课件
- 甲功五项检查原理
- 田间单对角线取样法课件
- 中职护理教学课件模板
- 新解读《GB-T 36797-2018装修防开裂用环氧树脂接缝胶》
- 用电安全知识培训课件通讯
- 新解读《GB-T 35030 - 2018烟花发射高度、发射偏斜角、辐射半径测定方法》
- 生鲜超市基本知识培训
- 急性上呼吸道感染咳嗽护理查房
- 电梯安全培训课件内容
- 2025年事业单位招聘职业能力倾向测验考试题库附参考答案满分必刷
- 应聘副研究员汇报
- 2025年中考历史(河南卷)真题评析
- 2025年登高证考试试题(附答案)
- 手术室时间管理课件
- 2025版线上直播场推广服务合同模板
- 高一上学期数学学法指导课件2024.9.14
- GB/T 45845.1-2025智慧城市基础设施整合运营框架第1部分:全生命周期业务协同管理指南
- 2025至2030ABF(Ajinomoto积膜)基质行业市场占有率及投资前景评估规划报告
- 呼吸科考试试题及答案
评论
0/150
提交评论