(管理科学与工程专业论文)基于内容和协同过滤的混合模式推荐技术研究.pdf_第1页
(管理科学与工程专业论文)基于内容和协同过滤的混合模式推荐技术研究.pdf_第2页
(管理科学与工程专业论文)基于内容和协同过滤的混合模式推荐技术研究.pdf_第3页
(管理科学与工程专业论文)基于内容和协同过滤的混合模式推荐技术研究.pdf_第4页
(管理科学与工程专业论文)基于内容和协同过滤的混合模式推荐技术研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(管理科学与工程专业论文)基于内容和协同过滤的混合模式推荐技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网的普及和电子商务的发展,电子商务推荐系统越来越 受到重视,它能够直接与用户交互,模拟商店销售人员向用户提供商 品推荐,帮助用户找到所需商品,从而顺利完成购买过程。在日趋激 烈的竞争环境下,电子商务推荐系统能有效保留用户、防止用户流失, 提高电子商务系统的服务质量,增强企业竞争能力。 推荐系统在电子商务系统中具有良好的发展和应用前景,逐渐成 为电子商务技术的一个重要研究内容,得到了越来越多研究者的关 注。内容过滤和协同过滤是目前在电子商务推荐系统中应用较为成功 的个性化推荐技术,但随着电子商务应用的深入和系统规模的进一步 扩大,电子商务推荐系统也面临着一系列挑战。 针对现行电子商务推荐系统出现的问题和面临的挑战,本文对基 于内容过滤和基于用户协同过滤的电子商务推荐技术进行了有益的 探索和研究,提出了一种基于内容和用户协同过滤的混合模式推荐算 法。该方法既利用了内容过滤的优点,能够对所有项目进行相似度匹 配过滤,尤其当项目在没有任何用户进行评价的特殊情况下也能够被 过滤出来推荐给用户,这就避免了早期级别问题;同时,该方法也利 用了协同过滤的优点,当用户数和评价级别很多时,会使得协同过滤 预测时用户评分数据矩阵变得较稠密,可以减少矩阵的稀疏性,协同 过滤更准确,这样通过两者的整合大大提高了系统的性能。 实验结果表明,混合模式推荐算法在平均绝对偏差m a e 性能指 标要优于基于用户协同过滤的推荐算法,在精确率p r e c i s i o n 、召回率 r e c a l l 和综合评价指标f - m e a s u r e 等性能指标要优于基于内容过滤的 推荐算法。 关键词电子商务,推荐系统,内容过滤,协同过滤,向量空间 模型 a b s t r a c t w i t ht h e p o p u l a r i z a t i o n o fi n t e m e ta n dt h e d e v e l o p m e n t o f e c o m m e r c e ,t h er e c o m m e n d a t i o ns y s t e m so fe c o m m e r c ea r eb e i n g p a i dm o r ea n dm o r ea t t e n t i o n t oa d d r e s st h i si s s u e ,r e c o m m e n d a t i o n s y s t e m sw e r ep r o p o s e dt os u g g e s tp r o d u c t sa n dt op r o v i d ec o n s u m e r s w i t hi n f o r m a t i o nt oh e l pt h e md e c i d ew h i c hp r o d u c t st op u r c h a s e u n d e r t h e i n c r e a s i n g l y f i e r c e c o m p e t i t i o n ,e - c o m m e r c er e c o m m e n d a t i o n s y s t e m sc a ne n h a n c ee - c o m m e r c es a l e sb yc o n v e r t i n gb r o w s e r s i n t o b u y e r s ,i n c r e a s i n gc r o s s s e l l sa n db u i l d i n gl o y a l t yt op r e v e n tu s e r sl o s i n g e f f e c t i v e l y p r e s e n t l y t h er e c o m m e n d a t i o n s y s t e m sg r a d u a l l y b e c o m ea n i m p o r t a n tp a r ti ne - c o m m e r c es y s t e m ,a n dm o r ea n dm o r er e l a t e dp a p e r s a p p e a r e di nm a n yc o n f e r e n c e sa n dj o u m a l s c o n t e n t b a s e df i l t e r i n ga n d c o l l a b o r a t i v ef i l t e r i n ga r et w oo ft h o s es u c c e s s f u l a p p l i c a t i o n 。o f r e c o m m e n d a t i o n t e c h n o l o g y h o w e v e r w i t ht h ew i d e p r a c t i c e o f e c o m m e r c ea n d g r o w i n gs y s t e m s ,t h e r e c o m m e n d a t i o n s y s t e m s e n c o u n t e rc h a l l e n g e s a i m e da tt h e s ep r o b l e m sa n dc h a l l e n g e s ,t h i sp a p e re x p l o r e da n d r e s e a r c h e dt h ee c o m m e r c e r e c o m m e n d a t i o n s y s t e m s b a s e do n c o n t e n t b a s e df i l t e r i n ga n du s e r s b a s e dc o l l a b o r a t i v ef i l t e r i n g i tp r o p o s e d am i x e dr e c o m m e n d a t i o nb a s e do nc o n t e n ta n du s e r sc o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o na l g o r i t h m o nt h eo n eh a n dt h i si n v o l v e dt h e a d v a n t a g e so fc o n t e n t b a s e df i l t e r i n gw h i c he n a b l e da l li t e m sb ef i l t e r e d a c c o r d i n gt ot h es i m i l a r i t i e s ,e s p e c i a l l yt h ei t e m sc a nb ef i l t e r e da n d r e c o m m e n d e dt ot h eu s e r se v e nw i t h o u ta n yu s e r s e v a l u a t i o n a n dt h e p r o b l e m sc a nb ea v o i d e da tt h eb e g i n n i n g o nt h eo t h e rh a n d ,i ta l s o i n v o l v e dt h ea d v a n t a g e so fc o l l a b o r a t i v ef i l t e r i n gw h i c he n s u r e dt h e d e n s i t yo fu s e r s g r a d i n gn u m b e rm a t r i xa n dt h ea c c u r a c yo ft h ef i l t e r i n g w h e nt h e r ei st o om a n yu s e r sa n de v a l u a t i o n ,c o l l a b o r a t i v ef i l t e r i n g f o r e c a s t i n g ,s ot h ec o m b i n a t i o no ft h et w oc a ni m p r o v et h e p e r f o r m a n c eo fs y s t e m t h ee x p e r i m e n t a lr e s u l ts h o w st h a tt h em i x e dr e c o m m e n d a t i o n a l g o r i t h mi sp r i o rt ot h a tb a s e do nu s e r sc o l l a b o r a t i v ef i l t e r i n gi nm a e w h i l ew h e nc o n s i d e r e do t h e rp e r f o r m a n c ei n d e x e ss u c ha st h ep r e c i s i o n , r e c a l la n df m e a s u r e ,e t ci ti sa l s op r i o rt ot h er e c o m m e n d a t i o na l g o r i t h m b a s e do nc o n t e n tf i l t e r i n g k e yw o r d s e - c o m m e r c e , r e c o m m e n d a t i o n s y s t e m s , c o n t e n t b a s e df i l t e r i n g ,c o l l a b o r a t i v ef i l t e r i n g ,v e c t o rs p a c em o d e l i v 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的 学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论 文中作了明确的说明。 作者签名:盗煎同期:盟年生月兰日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学 位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容, 可以采用复印、缩印或其它手段保存学位论文;学校可根据国家或湖南省有关部 门规定送交学位论文。 作者躲垃新签龇隅盟年二月当 中南大学硕士学位论文 第1 章绪论 1 1 选题背景 第1 章绪论 i n t e m e t 的迅猛发展将人类带入了信息社会和网络经济时代,对企业发展和 个人生活都产生了深刻的影响。随着企业电子商务规模的进一步扩大,为用户提 供越来越多选择的同时,电子商务系统的结构也变得更加复杂。一方面,用户面 对大量的商品信息束手无策,用户经常会迷失在大量的商品信息中,无法顺利找 到自己需要的商品;另一方面,商家也失去了与消费者的联系。事实上,电子商 务的应用远没有挖掘出来,其中固然有硬件设施滞后、用户观念未改变的原因, 但更多的是企业服务不到位。电子商务的发展模式对企业服务提出了许多新要 求,包括商品的质量保证、送货及时、商品选购舒适、退货方便等,其中,最为 突出的问题就是商品选购。因此,用户很希望电子商务系统具有一种类似采购助 手的功能来帮助其选购商品,并能根据用户的兴趣爱好自动地推荐给每个用户可 能感兴趣且满意的商品。 在这种背景下,推荐系统( r e c o m m e n d e rs y s t e m s ) 应运而生,它是根据用 户的兴趣爱好,推荐符合用户兴趣爱好的对象,也称个性化推荐系统 ( p e r s o n a l i z e dr e c o m m e n d e rs y s t e m s ) 【l 】。推荐系统模拟商店销售人员向用户提 供商品推荐,帮助用户快速找到所需商品,从而顺利完成购买过程,因此可以有 效保留用户,提高电子商务系统的销售能力;商家也可以通过推荐系统保持与客 户的联系,重建客户关系【2 】【3 】【4 】。根据推荐对象的特点,目前主要有两种类型的 推荐系统,一种是以网页为推荐对象的搜索系统,主要采用w e b 数据挖掘的方 法与技术,为用户推荐符合其兴趣爱好的网页,如g o o g e 、百度等;另一种是 网上购物环境下、以商品为推荐对象的个性化推荐系统,为用户推荐符合兴趣爱 好的商品,如书籍、音像等,称这种推荐系统为电子商务个性化推荐系统,简称 电子商务推荐系统( r e c o m m e n d e rs y s t e mi ne c o m m e r c e ) 。 一方面,电子商务系统需要推荐系统的大力支持帮助用户找到所需商品;另 一方面,电子商务系统自身的特点也有利于推荐系统的顺利实施,主要原因包括 以下几个方面【5 1 。 中南人学硕十学位论文第1 章绪论 ( 1 ) 丰富的数据:电子商务环境收集的各种数据比较丰富,如用户注册数 据、用户交易数据、用户评价数据、用户浏览数据等。丰富的数据为建立多种推 荐模型,产生高质量的推荐提供了可能。 ( 2 ) 电子化的数据收集:电子商务环境中的各种数据通过电子化方式收集, 减少了手工方式收集数据可能出现的人工误差,噪音数据大大减少,各种数据的 可信度比较高,数据预处理相对简单。 ( 3 ) 易于对推荐效果进行评价:在电子商务中实施推荐系统的投资回报率 易于通过电子商务w e b 站点访问量的增加、电子商务系统销售额的增加等指标 直接进行评估。 推荐系统主要通过如下三种途径提高电子商务系统的销售能力【2 】【”。 ( 1 ) 将电子商务系统的浏览者转变为购买者:电子商务系统的访问者在浏 览过程中经常并没有购买欲望,电子商务推荐系统能够向访问者推荐他们感兴趣 的商品,从而完成购买过程。 ( 2 ) 提高电子商务系统的交叉销售:电子商务推荐系统在用户购买过程中 向用户提供其它有价值的商品推荐,用户能够从提供的推荐列表中购买自己确实 需要但在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。 ( 3 ) 保留用户:与传统的商务模式相比,电子商务系统使得用户拥有越来 越多的选择,用户更换商家极其方便,只需要一两次鼠标的点击就可以在不同的 电子商务系统之间跳转。电子商务推荐系统分析用户的购买习惯,根据用户需求 向用户提供有价值的商品推荐。如果电子商务推荐系统的推荐质量很高,那么用 户会对该推荐系统产生信赖。因此电子商务推荐系统不仅能为用户提供个性化推 荐服务,而且能与用户建立长期稳定的关系,从而能有效地保留用户,防止用户 流失。 1 2 国内外研究现状及存在的问题 目前国内外特别是在国外有相当多的电子商务系统利用推荐技术来提高企 业的收益。电子商务推荐系统根据其所采用的推荐技术可以分为两种:基于规则 的推荐系统和信息过滤推荐系统信息过滤推荐系统又可分为基于内容过滤的推 荐系统和协同过滤推荐系统。 2 中南大学硕十学位论文第l 章绪论 基于规则的推荐系统如:i b m 的w e bs p h e r c ( w w w i b m c o m w e b s p h e r e ) 、b r o a d v i s i o n ( w w w b r o a d v i s i o n c o r n ) ,i l o g ( w w w i l o g c o m ) 等,它们允许系统管理员根 据用户的静态特征和动态属性来制定规则,一个规则本质上是一个i f - t h e n 语句, 规则决定了在不同的情况下如何提供不同的推荐服务。基于规则的系统其优点是 简单、直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的 数量增多,系统将变得越来越难以管理。 基于内容过滤的系统如:p e r s o n a lw e b w a t c h e r 6 1 ,s y s k i l l & w e b e r 7 1 , l e t i z i a 8 1 ,c i t e s e e r t 9 1 ,i f w e b 1 0 1 ,s i f t e r z i ,p v a 1 2 ,w e b m a t e f | 3 】,w e b a c e 1 4 】, e l f l f l 5 1 和w e b p e r s o n a l i z e r l l 6 】等,它们利用资源与用户兴趣的相似性来过滤信息。 基于内容过滤的系统其优点是简单、有效,缺点是难以区分资源内容的品质和风 格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资 源。 协同过滤系统如:w e b w a t c h e r i m ,l e t sb r o w s e 1 引,g r o u p l e n s 1 9 1 ,f i r e f l y f 2 0 1 , s e l e c t t 2 1 1 ,l i k e m i n d s ( w w w m a e r o m e d i a c o m ) 和s i t e s e e r 2 2 】等,它们利用用户之 间的相似性来过滤信息。基于协同过滤系统的优点是能为用户发现新的感兴趣的 信息:缺点是存在两个很难解决的问题,一个是稀疏性,亦即在系统使用初期,。 由于系统资源还未获得足够多的评价,系统很难利用这些评价来发现相似的用 户,另一个是可扩展性,亦即随着系统用户和资源的增多,系统的性能会越来越 低。 在国内,复旦大学吴立德教授和黄萱菁博士等人参加了t r e c 9 会议的 f i l t e r i n g 子项目,利用t r e c 提供的规范语料库,他们从主题描述和正例文档中 抽取特征向量作为用户的初始需求模型,在与训练集的交互中获取关于每一个主。 题的初始阈值,之后再与测试集进行交互,判断测试集中的文档是否大于某主题 的阈值条件,如果满足条件,则将其归入正例文档集,否则归入反例文档集,然 后从正、反例文档集中抽取特征向量以更新初始模型,建立了一个基于向量模型 的过滤系统【2 3 1 。 东北大学的姚天顺教授和林鸿飞博士等人进行了中文文本过滤技术的研究, 在他们提出的中文文本过滤模型中,用户需求采用基于实例文本的主题词表示, 文本表示采用向量空间模型,需求与文本的匹配技术采用向量央角余弦作为相似 中南人学硕十学位论文第1 章绪论 系数,引进文本结构分析技术,从文本中获取逻辑层次信息,以提高文本片段检 索时文档与查询的匹配效率【2 4 】f 2 5 】。另外,他们将基于内容过滤方法与协同过滤 方法结合起来,建立了混合模式的文本过滤模型,以便更好的运用用户的评价信 息。 中国科学院软件研究所的阮彤、冯东雷等博士提出了基于贝叶斯网络的信息 过滤模型b m i f t 2 6 1 ,描述了信息过滤的基本结构,提供了6 种节点用于描述影响 信息过滤的事件之白j 的关系,在此基础上,提供了b m i f 的各种使用方法,将词 法知识用b m i f 表示,以及将自动学习与手工交互结合,将协同过滤与内容过滤 结合。 目前已有的电子商务系统在推荐技术方面有一定的应用,无论是基于内容过 滤技术还是基于协同过滤技术,主要存在以下问题: ( 1 ) 没有考虑专家和分析员对客户推荐的作用; ( 2 ) 提供推荐的客户几乎都是注册客户,没有注册的客户( 包括浏览客户) 几乎无推荐; ( 3 ) 推荐技术不成熟,基本基于“关键字 的推荐,或者简单的等同于搜 索引擎技术; ( 4 ) 即使对注册客户推荐也没有考虑时间漂移因素。 1 3 研究目的与意义 内容过滤根据信息资源与用户兴趣相似性来推荐商品,通过计算用户兴趣模 型和商品特征向量之白j 的向量相似性,主动将相似度高的商品发送给该模型的客 户。内容过滤技术对商品流中所有基于向量相似性进行推荐,每个客户都独立操 作,不需要考虑别的用户兴趣,不存在评价级别多少的问题,只要相似度高就能 推荐给客户,舍得许多商品有可能在没有任何客户购买或评价之前过滤出推荐给 客户,并且客户可以对推荐的结果进行评价,增加系统的评价数目级别,这些优 点使得基于内容过滤的推荐系统不受早期级别问题和稀疏性问题的影响,使它们 得到较好的解决。 在协同过滤中,用户通过相互协作来选择信息,在用户群中找到指定用户的 兴趣相同或相似的用户,综合这些相同或相似用户对某一信息的评价,形成系统 4 中南大学硕士学位论文第1 章绪论 对该用户对此信息的喜好程度的预测,从而作出推荐。协同过滤充分利用客户的 评价信息,当客户购买或评价过商品后,他们对同一主题的高质量商品给予高的 评价级别,对低质量商品给予低的或很低的评价级别,在下一次协同推荐时,使 客户较容易区分同一主题的商品的好坏。 针对现行推荐系统存在的问题,结合内容过滤和协同过滤的优缺点,本文提 出一种基于内容过滤和基于协同过滤相结合的混合模式推荐技术,充分利用两种 推荐技术的优点,相互弥补其不足,使得推荐系统的性能得到提高,帮助企业改 善客户服务质量,增强电子商务系统的交叉销售能力,提高企业的竞争能力,为 客户提供更好、更准确的个性化服务。 1 4 研究内容与论文结构 1 4 1 主要研究内容 论文的主要研究内容包括: ( 1 ) 研究和总结基于内容过滤的推荐技术和基于协同过滤的推荐技术的实 现和存在的问题。 ( 2 ) 研究和分析基于内容过滤和协同过滤相结合的混合模式推荐技术的算 法,着重分析推荐算法的工作流程、用户特征描述、数据处理算法和推荐策略。 ( 3 ) 利用一个被广泛使用和认可的实验数据集对算法进行实验验证,并对 混合模式推荐技术算法和原算法进行性能对比与评价。 1 4 2 论文结构 本文共分为五章,文章结构及各章内容简介如下。 第l 章探讨了推荐系统的背景及其研究意义,介绍了推荐系统的研究现状及 存在的问题,引出了基于内容和协同过滤相结合的混合模式推荐技术,最后给出 了论文的主要研究内容和整体组织结构。 第2 章介绍了现行的推荐技术,对基于内容过滤的推荐技术和基于协同过滤 的推荐技术进行了详细的研究,介绍了现行推荐技术面临的挑战。 第3 章详细介绍了基于内容和协同过滤的混合模式推荐技术的基本思想和 5 中南人学硕十学位论文第1 章绪论 整合的方法,详细分析了混合模式推荐技术的工作流程、用户特征描述、数据处 理算法和推荐策略。 第4 章是本文的实验部分,利用一个被广泛使用和认可的实验数据集对基于 内容和协同过滤的混合模式推荐技术作了实验数据对比分析。 第5 章总结全文,指出了论文的研究成果和不足之处,提出了今后继续研究 的方向。 6 中南大学硕士学位论文 第2 章推荐系统关键技术研究综述 第2 章推荐系统关键技术研究综述 2 1 相关技术 2 1 1 信息检索与信息过滤 推荐系统的关键技术主要包括信息检索( i r ,i n f o r m a t i o nr e t r i e v a l ) 技术和 信息过滤( i f ,i n f o r m a t i o nf i l t e r i n g ) 技术【2 7 1 。信息检索技术一般是指根据用户 的需求,从大规模的相对静止的数据库中检索用户需要的信息,主要满足用户瞬 时的信息需求【2 引。信息检索技术主要用于相对静止的信息存储领域。例如,当 用户在数字图书馆中进行检索时,用户提交的关键字反映了用户当前的信息需 求,数字图书馆中的搜索引擎根据预先建立好的内容索引,检索出用户需要的信 息。 信息检索的研究内容主要包括索引技术和查询技术。索引技术是对资源内容 进行分析,从而将资源内容表示为计算机可处理的数据结构的过程。查询技术根 据用户需求,查询用户需要的资源信息,其主要研究内容包括查询语言设计研究、 可视化查询接口研究、用户请求与资源信息的匹配研究等,在很多情况下,索引 技术和查询技术依赖资源信息所采用的索引结构。 信息过滤是指从大量的信息流中寻找满足特定用户需求的信息的过程。与信 息检索不同,信息过滤对动态信息进行筛选,着重排除不希望得到的信息,带有 即时性。虽然实现技术与信息检索极其相似,但信息检索和信息过滤所完成的任 务完全不同【2 9 1 。信息过滤技术一般用于用户需求相对不变,但信息动态更新比 较频繁的情况。信息过滤系统主要面对的是半结构化和非结构化的数据,它为用 户的长期信息需求提供信息过滤服务。用户的兴趣模型可用用户档案文件的形式 表示。信息过滤系统将动态信息与用户档案文件进行匹配,根据结果返回用户需 要的信息。 信息过滤技术是推荐系统的关键。例如,a m a z o n c o m 提供的e y e s 推荐就是 一个典型的基于关键词检索的信息过滤系统。用户输入基于作者、标题、主题、 i s b n 和出版日期的关键词,e y e s 推荐根据用户输入的关键词,建立用户档案。 7 中南人学硕+ 学位论文第2 章推荐系统关键技术研究综述 当产品目录中加入新书时,e y e s 推荐根据用户输入的关键词和新书提供的相关 信息,选择用户感兴趣的新书作为推荐结果,通过e - m a i l 的方式推荐给用户。 由于目i j i 在i n t e m e t 上大量的信息载体为文本形式,而且文本也是广大用户 习惯接受的信息形式,并且随着i n t e m e t 的迅速普及,网上文本信息以前所未有 的速度递增,所以文本过滤技术首先成为研究的焦点。 2 1 2 数据挖掘 数据挖掘( d a t am i n i n g ) ,也叫数据库中发现知识( k d d ,k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) ,就是从大量的数据中,半自动地提出隐含在其中、事先 未知的、但又是潜在有用的知识的过程【3 0 】。k d d 一词首次出现在1 9 8 9 年8 月举 行的第1 1 届国际联合人工智能学术会议上,1 9 9 5 年在加拿大蒙特利尔召开了第 一届k d d 国际会议。随着研究的深入,数据挖掘技术研究逐渐成为计算机领域 的一个热门课题,得到了越来越多研究者的关注,许多数据挖掘专题会议纷纷涌 现如p a k d d ,p k d d ,s l a m - d a t am i n i n g 等。 目i j 数据挖掘能够从关系数据、对象关系数据、文本数据、多媒体数据、时 间序列、空间数据、异质数据等多种数据源中挖掘知识。数据挖掘知识包括特征、 区分、关联、分类、聚集、趋势、偏差和异常检测等多种类型。数据挖掘采用的 技术包括数据库、数据仓库和o l a p 、统计、机器学习、可视化、神经网络等不 同领域的技术,并且在诸如零售、通信、银行、保险、基因分析、股票市场分析、 w e b 挖掘等不同行业得到了应用。 电子商务推荐系统是将数据挖掘技术应用于电子商务领域的范例,随着电子 商务的应用,数据库中可以收集到大量的用户数据,如用户交易数据、用户注册 数据、用户评分评价数据、用户投票数据等;同时,w e b 服务器中也保存着用户 访问电子商务系统的同志数据、用户购物数据等,这些数据中蕴含有丰富的知识, 基于数据挖掘的推荐系统通过数据挖掘技术对用户行为和用户属性进行学习,从 中获得有价值知识,根据获得的知识产生推荐【3 i 】。 基于数据挖掘的推荐系统根据数据挖掘技术建立用户档案。用户档案的建立 可以基于对用户长期行为分析,如用户的浏览记录、购买历史、性别、职业、收 入、年龄等,也可以基于用户的当自订行为,如用户当前的会话行为、当前购物篮 中南大学硕士学位论文 第2 章推荐系统关键技术研究综述 信息、当前浏览商品等【4 1 。 电子商务推荐系统中的数据挖掘主要包括关联规则挖掘和分类挖掘两类,关 联规则挖掘是数据挖掘中的一个重要研究内容。在电子商务领域,关联规则挖掘 根据销售数据发现不同商品在销售过程中的相关性,其应用主要包括定点广告投 放和商品推荐。分类挖掘模型根据用户的输入信息将之划分为相应类别,通过对 训练集进行学习,训练出对应的分类器,然后利用该分类器对新用户进行分类, 再根据用户输入信息和项的特征信息,预测是否向用户推荐该项。分类挖掘可以 通过多种机器学习方法实现,如聚类3 2 1 ,b a y e s i a n 网络【3 3 1 ,神经网络【3 4 】等。 2 1 3 协同过滤 协同过滤技术是推荐系统技术中应用最早和最为成功的技术之一。它一般采 用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用 户的最近邻对商品评价的加权平均值来预测他对特定项( 商品) 的喜好程度,系 统从而根据这一喜好程度来对目标用户进行推荐。由于最近邻对项( 电子商务中 的商品,电影,音乐等) 的评分与目标用户非常相似,因此目标用户对未评分项 的评分可以通过最近邻对项评分的加权平均值逼近【3 5 】。协同过滤推荐技术的一 般过程如图2 1 所示。 当 前 用 户 目标项e l r 1 1 马 i n u i 4 l3 u i 2 5 u m 32 弓( 预测当前用户对项目l j 的偏好) 正,正,瓦) ( 为当前用户作t o p n 推荐) 输入( 评价数据矩阵)协删过滤算法输 形式 图2 - 1协同过滤推荐的一般过程 基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而且是 自动的。所谓自动,即用户获得的推荐是系统从用户购买模式或点击行为等隐式 获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格 等【2 1 。目前有许多网站采用了该技术的推荐系统,如a m a z 0 1 1 c o m 、c d n o w t o m 、 9 中南人学硕十学位论文第2 章推荐系统关键技术研究综述 m o v i e f i n d e r e o m 等。由微软研究院丌发的协同过滤工具已被集成在微软的 c o m m e r c es e r v e r 产品中,并被许多站点使用。 基于信息过滤的电子商务推荐系统可分为基于内容过滤的推荐系统和协同 过滤推荐系统,下面详细介绍这两种技术。 2 2 内容过滤技术 2 2 i 内容过滤的含义 内容过滤是信息过滤中最基本的一种方法。内容过滤主要采用了自然语言处 理、人工智能、概率统计和机器学习等技术进行过滤,把每个用户的信息需求表 示成一个用户兴趣模型,即表示成向量空间中的一个用户向量,并通过对文本集 内的文本进行分词、标引、词频统计加权等过程来生成一个文本向量,然后计算 用户向量和文本向量之间的相似度,将相似度高的文档发送给该用户模型的注册 用户【3 6 】。 在内容过滤中,是对信息流中所有的信息项进行过滤,并且每个用户是相互 独立操作的。当系统收集到新的与用户兴趣相符合的信息时,系统主动通知用户; 用户在收集到新信息的同时,可以反馈系统自己对新信息的兴趣评价,比如可以 评价为相关和不相关,或者直接进行操作( 购买或浏览等) 。在此基础上,系统 可以利用这些反馈信息对用户模板进行修改和维护,在用户与系统的互动中来提 高用户获取信息的效率和质量。另外,内容过滤还可以对用户的情趣倾向进行跟 踪记录并从中抽取其兴趣的特征。 内容过滤的关键在于对文本信息的理解,其关键在于对文本的结构进行分 析,只有充分地了解文本的各个组成部分,才能了解文本表达的主题,从而抽取 出代表文本主题的特征词或生成文本摘要等可视化表示。文本过滤的另一个关键 是用户模型的构造,即用户建模技术,只有准确描述用户的信息需求,才能进行 更好的过滤服务,下面主要介绍用户模型构造技术。 2 2 2 用户兴趣模型的含义 用户兴趣模型是在信息过滤系统中提出的,是对用户信息需求的一种描述形 1 0 中南大学硕士学位论文 第2 章推荐系统关键技术研究综述 式,其作用相当于信息检索中的查询请求。但用户兴趣模型与检索时用户提交的 查询请求并不相同,因为在信息过滤系统中,用户的需求信息需要长期驻留在系 统服务器端,该需求信息随着用户兴趣的调整细化而及时更新;在信息检索系统 或搜索引擎中,用户的需求信息就是用户当前提交的查询关键词,对检索系统来 讲两次查询之间互不相关,检索系统服务器对此类信息不做专门保留,因而是一 次性的。 用户兴趣模型用来表示用户对特定信息相对稳定的兴趣需求,它能够反映出 某用户在相当长的一段时期内对信息需求的主要倾向,随着对用户反馈信息的收 集和对用户行为的跟踪,信息过滤系统将利用机器学习、人工智能等方法对当前 用户的兴趣模型进行及时调整,以使其更好地反映用户的兴趣,符合用户的真正 需求。 2 2 3 用户兴趣模型的建立 信息过滤系统中的用户兴趣模型是用户的信息需求自提交到注销这段时间 内,对某一兴趣需求的一体化描述,其中包括用户兴趣模型随着需求调整进行动 态更新的过程,以达到及时、准确地反映用户的兴趣信息需求的目的【3 7 1 。 用户兴趣模型的形式可描述为三元组p :p = ( ,f ,少) ,其中 ( 公式2 1 ) f = f n ,f 舶,f n ,f “) ( 公式2 2 ) 沙:i xf 呻i ,川= ( ,n ,f “+ ) ,f = 0 l ,刀)( 公式2 3 ) 这里,? 为该用户兴趣模型在刷新过程中产生的全部状态集;,为系统为该用户 兴趣模型采集到的全部反馈信息集,其作用是驱动刷新过程;沙表示用户兴趣模 型的刷新函数:,o 为该用户兴趣模型的初始状态:j r ( n 为经过f 次刷新后的用户 兴趣模型;f 。表示对系统第i 次反馈的用以刷新j 件”的评价信息:而 ,n ,( 孙,i ”) 则表示用户兴趣模型的终结状念集。 用户兴趣模型主要依据用户感兴趣的文本以及用户对于文档的关注程度,也 就是说,文本的内容体现了用户的基本兴趣,而文本内容通过文本包含的词汇来 l l 中南人学硕十学位论文 第2 章推荐系统关键技术研究综述 表现。用户对于文本内容感兴趣的程度不同( 兴趣强度) ,所以这些文本对于用 户兴趣模型的贡献也就不同。因此用户兴趣模型应该是感兴趣的文本( 也称示例 文本) 以及兴趣强度的函数 2 5 】,即: m o d e l u s e = 厂( , , ) ( 公式2 - 4 ) 其中d ,表示示例文本集,g ,是对d ,的兴趣强度,3 是文本数,f = 1 , 2 ,3 ,j 。 用户兴趣模型的基础是示例文本的特征表示,示例文本的特征表示可以通过 潜在语义索引的方式获得,每个文本表示为一个k 维向量,每一个分量是一个 潜在语义概念。用户对于文本的关注,可以大致地归结为对于概念的关注,兴趣 强度越大,说明该文本所体现的概念对于用户的兴趣相关程度越大。而用户对于 文本的关注强度可以根据显式方式获得,即通过用户明确的反馈获得,也可以通 过隐式方式获得,即收集用户的访问模式来确定。对于显式方式,需要用户给予 明确的反馈,其好处是非常明确的反馈有助于采用比较精细的模型加以刻画,缺 点是获取比较困难,加重用户的负担,很难收到实效,依赖于用户的主观态度以 及合作态度。而采用隐式方式获取用户的反馈,可以自动地记录和跟踪用户的兴 趣,可以随着用户兴趣的改变而变化,具体的做法是行为跟踪,收集用户的浏览 页面、拖动滚动条、标记书签、下载( 保存) 、浏览的耗时和查询等行为,分析 用户的兴趣。收集缺点是获碍的信息可能不明确,造成构造用户兴趣模型时确定 性的因素减少。 兴趣强度设定为如下函数: g ,= g ( d ,b ,u ) ( 公式2 5 ) 其中o g ,i ,u 表示用户:d ,表示访问的h t m l 页面或者文本;f 表示 文本编号;b i 表示访问模式的类型;i = 1 , 2 ,s :g ;表示用户关注强度。 且 b o o k m a r k ,s a v e ,b r o w s e e m e ,b r o w s e p a g e ,f e e d b a c k , ) ,b o o k m a r k 表 示将页面加入书签的动作;s a v e 表示保存页面;b r o w s e t i m e 表示浏览的时间因 素:b r o w s e p a g e 浏览指定页面的动作。如滚动或点击;f e e d b a c k 表示对于给定 的要求,用户给予的反馈。这些不同的操作体现为关注的程度不同,例如s a v e 操作的表示其关注程度往往大于浏览中的滚动操作。兴趣强度就是为每一种访问 1 2 中南大学硕士学位论文第2 章推荐系统关键技术研究综述 模式定义相对应的强度,发生复合操作时,取其最大值为最终的强度值。 设用户的示例文本的特征向量为d ,= ( f :,f :i ,f :) ,这里是潜在语义空间的 k 维向量;用户【,对于示例文本d ,的兴趣强度为g ,= g ( d i ,b i ,u ) ,刀是示例文 本数目,则用户兴趣模型为: n府n u s e r v e c t o r = g ,d ,= ( g ,f :,g ,f 2 i ,g ,) - ( u l ,“2 ,“i ) ( 公式2 - 6 ) i = l1 = 1 i = 1 i = 1 用户兴趣模型的表示称之为用户特征向量,通过比较两个用户的特征向量可 以获取用户之间的兴趣相似程度。 根据用户兴趣模型表示方法的不同,可将用户兴趣模型分为两类。 ( 1 ) 基于关键词的用户兴趣模型,这种用户兴趣模型使用一系列关键词来 描述用户的兴趣爱好,在向量空间模型中,每一个关键词都对应一个权重。这种 方法使用简单,而且用户模型的更新也比较容易,但它要求这些关键词之间是正 交关系,没有描述出关键词之间的真正联系。 ( 2 ) 基于概念的用户兴趣模型,这种方法从本质上讲也是使用一些关键词 来描述用户的兴趣,但是它同时还描述这些关键词之间的联系,可以使用语义网 ( s e m a n t i cn e t w o r k ) 、联想网( a s s o c i a t i v en e t w o r k ) 、推理网( i n f e r e n c en e t w o r k ) 来描述这些关键词之间的联系。 基于概念的用户兴趣模型,从词汇所表达的概念意义层次来认识用户的兴趣 主题,在一定程度上表达了用户的兴趣主题语义信息,可以提高系统的查全率和 查准率,但是这种模型实现起来复杂,尤其是概念的构造,如果无法比较准确地 构造概念,那么这种模型也就无法达到应有的效果。 在本论文中,我们使用的是向量空间模型,使用基于关键词的用户兴趣模型 能够比较容易、快速地实现用户兴趣模型的构建,并且用户兴趣模型的修改和细 分算法的复杂度比较小。 2 2 4 向量空间模型 向量空间模型3 引( v e c t o rs p a c em o d e l s ,v s m ) 是近几年来在信息检索方法 的一个分支,在上世纪6 0 年代术由s a l t o ng 等人提出的。由于向量空间模型是 建立在规范的数学模型上,所以该模型在信息检索领域中的应用最为广泛,其中 中南人学硕十学位论文 第2 章推荐系统关键技术研究综述 最为著名的应用模型是s m a r t 检索系统。向量空间模型用特征项及其相应权值代 表文档信息,所以其应用前提是一篇文档的中心涵义能通过其中的词汇信息( 即 特征项) 体现出来。在进行信息检索时,文档与查询请求之间的相关程度是通过 向量运算来描述的。如果将文献过滤中的新文档和用户兴趣模型也用向量形式表 示出来,那么向量空间模型将同样适用于信息过滤领域。 向量空间模型的基本概念如下: ( 1 ) 文档( d o c u m e n t ) :泛指一般的文献或文献中的片断,一般指一篇文 章或一个h t m l 页面。 ( 2 ) 特征项( i t e m ) 当文档的内容被简单地看成是它含有的基本语言单位 ( 字、词、词组、短语等) 组成的集合时,这些基本的语言单位统称为特征项, 即文档可以用特征项集( i t e ml i s t ) 表示d ( ,f 2 ,f 。) ,其中t ,是第f 个特 征项,1 f n 。 ( 3 ) 特征项的权值( i t e mw r e i 曲t ) :对含有刀个项的文档d ( t 1 ,f 2 ,f 。) , 特征项t ,常常被赋予一定的权值w f ,表示它们在文档中的重要程度,即 d = ( , , , ) 为描述方便,将文档简记为 d = ( w i ,w 2 ,w l ,) ;同理,用户的信息需求q 也可以用向量形式表示出来, 即q = ( g 。,9 2 ,g ,一,q 。) ,其中q i 是用户查询请求中的第f 个特征项的权值, 1 f 疗。 ( 4 ) v s m 给定一个文档d = ( , , , ) , 由于t ;在文档中既可以重复出现又应该有先后次序的关系,所以分析起来有一定 的难度,为简化分析,可以暂不考虑t ,在文档中出现的先后顺序并要求互异( 即 没有重复) ,这时可把,f 2 ,”,t 。看成一个刀维的坐标系,w l ,w 2 ,w t , 为相应的坐标值,n o = ( ,w 2 ,) 可以看成是玎维空间( 特征项空间, 即t d 空间) 中的一个向量,可称为( ,w 2 ,w ,) 为文档d 的向量表示。 ( 5 ) 相似度( s i m i l a r i t y ) :用来度量文档之间或用户信息需求q 之间的相 1 4 中南大学硕+ 学位论文第2 章推荐系统犬键技术研究综述 关程度,文档与查询向量之间的相似度使用下面的公式来计算: j 拥( d ,q ) = e n w , 留 ( 公式2 7 ) 或用向量的夹角余弦值来表示: ( 公式2 8 ) 利用向量空间模型进行信息检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论