(计算机软件与理论专业论文)结合用户背景信息的协同过滤推荐算法研究.pdf_第1页
(计算机软件与理论专业论文)结合用户背景信息的协同过滤推荐算法研究.pdf_第2页
(计算机软件与理论专业论文)结合用户背景信息的协同过滤推荐算法研究.pdf_第3页
(计算机软件与理论专业论文)结合用户背景信息的协同过滤推荐算法研究.pdf_第4页
(计算机软件与理论专业论文)结合用户背景信息的协同过滤推荐算法研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)结合用户背景信息的协同过滤推荐算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

萄射虫乎 兰州大学硕士学位论文 摘要 随着网络的普及和信息技术的日新月异,信息膨胀与冗余给人们的社会活动 和商务活动带来了信息选择的困惑,因此为每个用户提供快捷准确,满足个人实 际需要的个性化信息服务成为当前的应用和研究热点。个性化信息服务包括个性 化信息搜索服务、个性化信息推荐服务和个性化信息代理服务等。 协同过滤算法是其中应用最为广泛的个性化推荐技术。但是,网上信息的数 量和种类的急速增长,协同过滤推荐算法面临诸多挑战:推荐质量、可扩展性、 数据稀疏性、冷启动问题等等。协同过滤需要建立在拥有大量的用户数据的基础 上。虽然在不同的应用中,数据会有很大的不同,但当前提供个性化推荐服务的系 统大都保存了用户基本的背景信息。这驱使我们考虑利用已有的用户信息来对传 统的协同过滤方法进行改进。 因此,本文提出一种改进算法一一结合用户背景信息的协同过滤推荐算法。 它首先根据项目的属性相似度对用户一项评分矩阵中的零值进行预测和填充,然 后再基于用户的背景信息计算用户间的相似度,进行协同过滤。这样不仅提高了 用户相似性计算的准确度,而且提高了推荐精度和用户最终预测评分的准确性。 本文的实验采用m o v i e l e n s 数据集,并与传统的协同过滤算法和基于项目评分预 测的协同过滤推荐算法的m a e 结果相比较,来验证本文所提出的算法。实验结 果表明,本文提出方法的可行、正确、有效,能够有效解决数据稀疏问题。 关键词:个性化信息服务,推荐系统,协同过滤,用户背景信息,u s e r - b a s e d 协 同过滤 蔺婀虫害 兰州大学硕士学位论文 a b s t r a c t a st h ei n t e m e ta n di n f o r m a t i o nt e c h n o l o g yr a p i d l yd e v e l o p s ,i n f o r m a t i o no v e r l o a d m a d ei th a r df o ru s e r st of m dt h ep r o d u c t s ;s e r v i c e s ;a n ds oo nt h e yw a n t e dw i t h i na m a s so fp r o d u c ti n f o r m a t i o n ,e s p e c i a l l yi ne - c o m m e r c e t h e r e f o r e ,t h eu s e rw o u l d l i k ep e r s o n a l i z e d ,t a r g e t e ds e r v i c e s m a n yi n s i d e r sa r eb e c o m i n gc o n c e r n e da b o u t h o wt op r o v i d em o r ea c c u r a t ei n d i v i d u a li n f o r m a t i o ni nl e s st i m et om e e tt h ea c t u a l n e e d sf o re a c hu s e r p e r s o n a l i z e di n f o r m a t i o ns e r v i c ei n c l u d e s p e r s o n a l i z e d i n f o r m a t i o ns e a r c h s e r v i c e ,p e r s o n a l i z e di n f o r m a t i o n s e a r c ha n d p e r s o n a l i z e d i n f o r m a t i o na g e n ts e r v i c e r e c e n t l y , c o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o n s y s t e m s h a v ea c h i e v e d w i d e s p r e a ds u c c e s s e so nt h ew e b h o w e v e r , t h et r e m e n d o u sg r o w t hi nt h ea m o u n t a n d v a r i e t y o fa v a i l a b l ei n f o r m a t i o n p o s e s s o m ea u s t e r e c h a l l e n g e s t o r e c o m m e n d a t i o ns y s t e m s ,t h ep r o b l e m so fr e c o m m e n da c c u r a c y , s c a l a b i l i t y , s p a r s i t y a n dc o l d - s t a r ta r ei nd i r en e e dt ob es o l v e d c o l l a b o r a t i v ef i l t e r i n gr e q u i r e sam a s so f t h eb a s a lu s e rd a t a a l t h o u g hi nd i f f e r e n ta p p l i c a t i o n s ,t h ed a t aw i l lb ev e r yd i f f e r e n t , b u tt h ec u r r e n tp e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mt op r o v i d ep e r s o n a l i z e ds e r v i c e s k e p tm o s to ft h eb a s i cb a c k g r o u n di n f o r m a t i o no nt h eu s e r d r i v e nb yt h e s ef a c t s ,w e m a k eu s eo ft h ee x i s t i n gu s e ri n f o r m a t i o nt o i m p r o v et h et r a d i t i o n a lc o l l a b o r a t i v e f i l t e r i n g t h e r e f o r e ,w eg i v e a n i m p r o v e da l g o r i t h m - 一c o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o na l g o r i t h mc o m b i n i n gt h eu s e rb a c k g r o u n di n f o r m a t i o n f i r s t l y , t h e a l g o r i t h mu s i n gt h es i m i l a r i t yo ft h ea t t r i b u t e so fi t e m sp r e d i c t st h ez e r ov a l u ea n d f i l l si ti nt h eu s e r - i t e mr a t i n gm a t r i x ,s e c o n d l y , w i t ht h eu s e r sb a c k g r o u n di n f o r m a t i o n t h ea l g o r i t h mc o m p u t e st h es i m i l a r i t yb e t w e e nu s e r s ,f i n a l l y , t h en e i g h b o ru s e r sa r e c o m p u t e db yu s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na n dt h ef i n a lr a t eo f f o r e c a s ti sp r e s e n t e d i tn o to n l yc a ni m p r o v et h ea c c u r a c yo ft h eu s e rs i m i l a r i t yb u t a l s oi n c r e a s et h er e c o m m e n d a t i o na c c u r a c ya n dt h ep r e d i c t i o na c c u r a c yo ft h ef i n a l 麓埘虫害兰州大学硕士学位论文 r a t i n g w ec o n d u c tas e r i e so fe x p e r i m e n t st oe x a m i n et h ee f f e c t i v e n e s so fo u ru e w a l g o r i t h m s ;t h e s ee x p e r i m e n t sa r e a l lb a s e do nt h em o v i e l e n sd a t a s e t c o m p a r i n gt h e m a eo ft h eu e wa l g o r i t h m st oc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na l g o r i t h m b a s e do hi t e mr a t i n gr r e d i c t i o na n dt r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m s ,s u c h a s :u s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m ,t h ee x p e r i m e n t a lr e s u l t ss h o wt h a t n e wa l g o r i t h m sc o u l de f f e c t i v e l ya l l e v i a t et h ed a t as p a r s i t yp r o b l e ma n dr e d u c et h e m a e ,a n di m p r o vi m p r o v et h er e c o m m e n d a t i o na c c u r a c ye f f i c i e n t l y k e yw o r d s :p e r s o n a l i z e d i n f o r m a t i o n s e r v i c e ,r e c o m m e n d a t i o ns y s t e m s , c o l l a b o r a t i v ef i l t e r i n g , u s e rb a c k g r o u n di n f o r m a t i o n ,u s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n g i h , t i 喇文窘 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下 独立进行研究所取得的成果。学位论文中凡引用他人已经发表或 未发表的成果、数据、观点等,均已明确注明出处。除文中已经 注明引用的内容外,不包含任何其他个人或集体已经发表或撰写 过的科研成果。对本文的研究成果做出重要贡献的个人和集体, 均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名:毒;出 e l 期:上巫蝉 t i 料虫害 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产 权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论 文的规定,同意学校保存或向国家有关部门或机构送交论文的纸 质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以 将本学位论文的全部或部分内容编入有关数据库进行检索,可以 采用任何复制手段保存和汇编本学位论文。本人离校后发表、使 用学位论文或与该论文直接相关的学术论文或成果时,第一署名 单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 艨= :习8 ,互“瑁 论文作者躲石昌抄师躲坦名期:m 反 蔺埘虫乎 兰州大学硕士学位论文 第一章绪论 1 1 研究工作背景及意义 随着电子商务的迅速发展,人们能够获得的商品信息越来越多,这一方面为 我们的决策提供了更多的信息参考,但由于太多的信息量,用户花费在检索信息 上的时间也更多了,同时用户既不愿意花太多时间在漫无边际的网上寻找商品, 也不可能像在物理环境下那样检查商品的质量。在这样背景下,用户就急需要电 子商务系统提供一种来帮助其选购商品的功能,它能够根据用户的兴趣爱好自动 地推荐给每个用户其可能感兴趣并且满意的商品,这样做的根本目的是使用户在 这种虚拟购物环境下能够更方便、更容易地得到自己所需要的商品。 i n t e r a c t 的迅猛发展将人类带入了信息社会和网络经济时代,对个人生活和 企业发展都产生了深远的影响。但是,互联网的信息量呈爆炸趋势增长,海量数 据的增加带来的是传统综合搜索引擎( 又称为水平搜索引擎) ,如百度和g o o g l e 的搜索品质的下降。搜索引擎在搜集网络信息方面远远赶不上网络信息的增长速 度,庞大的网络信息资源使得搜索变得越来越难以控制。目前,尽管搜索引擎技 术的发展日益成熟,但是要准确、快速地查找到所需要的信息却越来越困难。一 是查询的结果集是海量的,经常是几十万笔的资料,在这些庞大的信息群中,有 用的信息只是其中一小部分,可谓“冰山一角 ,而且,这些搜索结果中存在着 大量的重复信息和垃圾信息,用户很难在短时间内准确地筛选出需要的内容,出 现所谓的“认知过载【1 1 。二是目前的搜索引擎都是要求用户严格按照所规定的 格式输入查询词,但种种限制使用户不知道如何确切地表达自己的信息需求,即 所谓的“迷航 闭。这些用户需求和市场服务之间的巨大反差所产生的问题使 人们开始呼唤更有针对性的搜索引擎的出现。 远程教育也称为远距离( d i s t a n c el e a r n i n g ) 教育,是指师生凭借媒体所进 行的非面对面的教育。它的优点在于使学生在时间和空间并不统一的情况下,能 与教师进行交互并完成学习任务。因此,伴随着互联网技术的发展,远程教育的 得到了迅猛发展,但同时其交互的地域间隔、资料多样选择时提示信息缺乏等缺 点日益显现。目前,远程教育网络平台对技术的最大需求在于整合教育教学资源 和整合个性化的推荐服务。整合教育教学资源的目的是通过一个门户入口提供知 蔺埘矢乎 兰州大学硕士学位论文 识学习导航,整合个性化推荐服务的目的则是利用计算机、网络技术为用户学生 提供全方位的、个性化的服务。现代远程教育教学网络的建设过程中,怎样将教 育教学资源和个性化的推荐服务合理地整合,是一项值得研究和解决的问题。 总之,在这些背景下推荐系统( r e c o m m e n d e rs y s t e m s ) 应运而生,它是根据 用户的兴趣爱好,推荐符合用户兴趣爱好的对象,也称个性化推荐系统 ( p e r s o n a l i z e dr e c o m m e n d e rs y s t e m s ) d i ,而协同过滤算法是其中的关键技术,也 是目前应用最广泛的一种个性化推荐的方法。 1 2 推荐系统研究现状 推荐系统在1 9 9 7 年之前被称为协同式过滤( c o l l a b o r a t i v ef i l t e r i n g 简称c f ) 。 c f 的概念是由d a v i dg o l d b e r g 等人在1 9 9 2 年构造邮件系统t a p e s t r y 时第一次提 出的1 3 1 。1 9 9 7 年,c o m m u n i c a t i o no ft h ea c m 杂志组织了关于c f 的专刊,第一 次使用了推荐系统这个名称。协同过滤作为一种减小信息过载的技术,在互联网 上得到了广泛的应用,如互联网上最大的在线书店a m z o n c o m 。 由于传统的协同过滤技术根据用户显式评分产生推荐结果,用户使用不方 便,许多研究者提出可以通过挖掘技术获取用户隐式评分 4 1 ( s l 。由此,各种数据 挖掘技术也开始应用到推荐系统中。s a r w a r 等人【6 l 提出了基于关联规则挖掘的推 荐系统。文献【7 】中提出了基于b a y e s i a n 分类挖掘的推荐系统。文献【8 】将w e b 挖 掘、关联规则挖掘和决策树技术应用到电子商务推荐系统中,为网上商店的顾客 推荐适合他们需要的产品。文献【9 】提出了一种通过用户购物的历史记录生成用 户模型,并通过用户模型来进行书籍和的推荐。文献【1 0 】提出可以通过对日志的 挖掘来提供推荐服务。各种挖掘技术如关联规则挖掘、聚类挖掘等被应用于日志 的分析中,以提高推荐系统的精度。k a r y p i s 等人l l l l 提出根据项之间的相似性提 供推荐服务,从而有效提高推荐质量。文献 1 2 1 对各种用户间相似性度量方法进 行了分析,提出了各种改进方法。文献 1 3 1 中提出使用奇异值分解技术减少项空 间的维数,从而有效改善用户评分数据的稀疏性。 推荐系统得到了许多著名研究机构和研究者的关注,出现了大量研究型推荐 系统实例:1 ) a c f :a c t i v ec o l l a b o r a t i v ef i l t e r i n g 系统是c a r n e g i e m e l l o n 大学开 发的主动协同过滤推荐协同l 蚓,用于电子文档推荐;2 ) m o v i e l e n s :是m i n n e s o t a 大学开发的研究型协同过滤推荐系统【1 5 i ,用于推荐电影;3 ) g r o u p l e n s :是由m i t 2 蔺研矢乎 兰州大学硕七学位论文 开发的协同过滤推荐系统【1 6 i 用于新闻推荐。另外还有p h o a k s 、r i n g o 、j e s t e r 等。 虽然协同过滤技术在推荐系统中取得了极大的成功,但随着站点结构、内容 的复杂度和用户人数的不断增加,协同过滤技术的一些缺点逐渐暴露出来,主要 有【1 7 1 : 1 ) 精确性问题,即提高对用户的推荐质量的挑战,用户需要一个可以让他 们感到信任的推荐系统来给他们提供项目的推荐,如果一个推荐系统推荐的项目 经常不符合用户的要求,用户是不会使用它的。 2 ) 稀疏性问题,在许多推荐系统中,每个用户评分或涉及的信息量相当有 限,造成评分矩阵数据相当稀疏,难以找至i j 相似用户集,导致推荐效果大大降低。 3 ) 冷启动问题,分为新项目问题和新用户问题。如果一个新项目刚加入而 没有人去评价它,则这个项目肯定得不到推荐,推荐系统就失去了作用,这在运 用协同推荐技术的系统中最为突出【墙i 。同样,如果对于一个新加入的用户,系统 无法获知他的兴趣点,也就无法对他进行推荐。 4 ) 扩展性问题,即协同过滤算法的计算量随着用户和项目的增加而大大增 加,因此算法有效处理问题的能力。可扩展性问题相对于前面几个问题来说不是 特别严重。 1 3 论文的主要内容和组织结构 1 3 1 论文的主要内容 在本文中,首先介绍论文的选题背景、意义和当前研究状况,并介绍个性 化推荐系统的一些基础知识,随后介绍协同过滤推荐技术的相关知识及其常见算 法,通过分析基本算法原理、优缺点,提出一种基于用户背景信息的协同过滤推 荐算法。并通过实验,评估算法的各个参数的选取。在模拟实验中,证明了这种 算法很好地实现个性化推荐功能。 1 3 2 论文的组织结构 本文的章节组织如下: 第一章:绪论,介绍了课题的选择背景和意义以及论文的主要内容与组织 结构。 3 蕊埘虫害 兰州大学硕士学位论文 第二章:介绍个性化推荐系统的概念、研究内容和主要技术以及协同过滤 算法。 第三章:在分析协同过滤算法的基础上,提出相应的改进算法:结合用户 背景信息的协同过滤算法。 第四章:进行改进算法的仿真实验及结果分析。 第五章:总结本文,并对下一步工作做出展望。 1 4 本章小结 本章介绍了个性化推荐系统以及个性化推荐技术的研究背景、研究意义和 研究现状,阐明了论文的研究对象和所做的主要工作,并对论文的结构安排进行 了简要说明。 4 萄研矢雩 兰州大学硕十学位论文 第二章个性化推荐系统及其相应技术 2 1 个性化的概念和个性化服务 2 1 1 个性化的概念 个性是个性心理学、社会心理学等学科的一个研究内容,是指一个人在其 生活、实践活动中经常表现出来的、比较稳定的、带有一定倾向性的个体心理特 征的总和,指一个人区别于其他人的独特的精神面貌和心理特征。个性结构包括 个性倾向性、个性心理特征、心理过程、心理状态和自我调节机制。个性化是使 事物具有个性,或者凸显个性。这里包含了两层含义,其一,个性是需要经过培 养而逐步形成的。这个过程我们可以称之为使个体个性化的一个过程。其二,个 体总是具有一定的个性,让这种个性得到别人的了解、认可,并在一定的空间得 以体现、展示,是每个个体都拥有的潜在需求,这个过程也称之为个性化的过程。 2 1 2 个性化服务 个性化服务的根本就是以用户为本,研究用户的行为习惯与兴趣,为用户选 择更准确的资源,提供更好的服务。它是以满足顾客个性化需求为目的的活动, 要求一切从顾客的需求和需要出发用户不仅可以有自己的个性化服务界面,还可 以自由选择他所需要的内容服务,定义自己的兴趣属性文档等等,通过对每一位 用户开展差异性服务,最大限度的满足用户所提出的服务要求,使用户感受到更 加周到细致服务,同时进行主动性的服务,即不需要用户做什么,系统自动按照 用户的信息需求提供相应的服务。在网络环境下,个性化服务更注重的是一种网 络信息服务的方式,这种服务方式的实现主要是根据用户的设定,借助于计算机 及网络技术,对信息资源进行收集、整理和分类,向用户提供和推荐相关信息, 以满足用户对信息的需求。它的实质是o n e t o o n es e r v i c e 。 因此,我们可以知道个性化信息服务既是一种个性化服务,又是一种信息服 务。个性化信息服务首先应该是能够满足用户的个人信息需求的一种服务,即根 据用户的现实和将来需求提供信息服务,或通过对用户个性、使用习惯和惯例、 兴趣的分析而主动地向用户提供其可能需要的信息服务。其次,个性化信息服务 应能够根据用户的知识结构、心理倾向、信息需求和行为方式等来充分激发用户 5 麓埘虫旁 兰州大学硕: 学位论文 需求、促进用户有效检索和获取信息,促进用户对信息的有效利用并在此基础上 进行知识创新。 2 2 个性化推荐系统概述 2 2 1 个性化推荐系统的概念 个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d e rs y s t e m sf o re c o m m e r c e ) 正式 的定义是r e s n i c k v a r i a n 在1 9 9 7 年给出的“它是利用电子商务网站向客户提供 商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成 购买过程 1 9 1 ,现在这个定义己被广泛引用。目前,个性化推荐系统己广泛运 用到商业、银行等行业中,推荐对象包括书籍、音像、网页、文章、新闻等。 根据推荐对象的特点,目前主要有两种类型的个性化推荐系统,一种是以网 页为对象的个性化推荐系统,主要采用w e b 数据挖掘的方法与技术,为用户推荐 符合其兴趣爱好的网页;另一种是网上购物环境下的以商品为推荐对象的个性化 推荐系统,为用户推荐符合其兴趣爱好和需求的各类产品,如各种书籍、音像等, 这种推荐系统是一般意义上的推荐系统。目前国内外对前者的研究和应用较多, 后者则很少,尤其是没有把个性化推荐与企业营销决策、企业资源计划管理 ( e r p ) 、客户关系管理( c r m ) 等结合起来研究。 2 2 2 个性化推荐系统的研究内容 个性化推荐的研究有四方面的问题刚:首先,要解决推荐系统的信息来源和 收集问题,推荐系统的基础是用户兴趣资料信息,如何在电子商务环境下尽可能 获得更多的用户相关信息,并以恰当、合适的形式表示,是进行个性化推荐的前 提;其次,要实现被用户接受和认可的个性化推荐,设计准确、高效率的个性化 推荐算法是个性化推荐的核心和基础问题;另外,要让推荐系统为众多用户所接 受,必须对推荐系统作出客观、综合、系统的评价,尤其要注意从准确性、个性 化、安全性、用户满意度等多角度进行评价;推荐系统的实现和应用是最终研究 的落脚点,推荐系统不仅能为用户提供完全个性化购物环境,更应为企业的销售 决策和客户关系管理提供支持。 用户信息的收集表示是个性化推荐的基础。根据当前对用户信息收集表示的 研究来看,主要着眼于研究如何有效地收集能反映用户兴趣偏好、习惯等信息, 6 两埘矢害 兰州大学硕士学位论文 以及如何通过网络数据挖掘等方法更自动化地收集用户的隐式信息,解决用户信 息收集过多的依赖于显式评价数据的问题。 个性化推荐技术是个性化推荐系统的核心问题。目前的推荐技术有协同过滤 推荐、基于用户统计信息的推荐、基于内容的推荐、基于效用的推荐、基于知识 的推荐、基于规则的推荐等等。协同过滤推荐是个性化推荐中研究和应用最多的 方法,被广泛的应用于电子商务网站、数字图书馆、网页搜索、新闻过滤等,其 著名的推荐系统有t a p e s t r y 、g r o u p l e n s n e t p e r e e p t i o n s 、r i n g o f i r e f l y 等,其前提 假设是存在具有相似兴趣爱好的用户群,每个用户都有与其兴趣爱好相似的邻居 用户。预测用户对某一项目的偏好是根据邻居用户对该项目的偏好程度计算的, 也就是说如果其邻居用户喜爱某项目,则该用户也很可能会喜爱该项目。协同过 滤最大的优点是不需要分析对象的特征属性,所以对推荐对象没有特殊的要求, 能处理非结构化的复杂对象,如音乐、电影等。 对推荐系统总体性能的评价是个性化推荐系统研究的重要组成部分。目前大 都只是采用准确率、召回率等评判尺度对推荐算法进行评价,并没有完整意义上 对整个推荐系统进行的评价,尤其缺乏从个性化程度、持久性程度、系统的安全 性以及用户接受程度等多角度对推荐系统进行综合的系统的评价。 在实现和应用研究方面,由于目前从事个性化推荐系统研究的人员主要是来 自计算机科学领域的专家学者,研究主要集中于个性化推荐技术,还很少有管理 学界、心理学界的专家学者,从更广阔的范围和更综合或交叉的专门领域去研究 电子商务个性化推荐的应用。 2 2 3 个性化推荐系统的分类 个性化推荐系统以用户为中心,为用户提供服务,可以根据用户获得推荐系 统推荐的自动化程度和持久性程度对电子商务推荐系统进行分类f 2 l 】: 1 ) 自动化程度:用户为了得到推荐系统的推荐是否需要显式的输入信息, 自动化程度分为自动化方式和手工方式。 2 ) 持久性程度:电子商务推荐系统产生推荐是基于用户当前的单个会话还 是基于用户的多个会话。 根据用户获得推荐的自动化程度和持久性程度,可以将电子商务个性化推荐 系统分为基于属性的电子商务推荐系统、商品相关性推荐系统和用户相关性推荐 7 鞠埘虫拿 兰州大学硕士学位论文 系统。( 1 ) 基于属性的电子商务推荐系统:根据商品的属性特征向用户产生推 荐列表,这种推荐系统类似于搜索引擎,用户需要手工输入所需商品的属性特征。 基于属性的电子商务推荐系统需要用户显式输入商品的属性特征,因此属于手工 方式推荐。产生的推荐可以基于用户的单个会话,也可以基于用户的多个会话。 典型例子包括a m a z o n 提供的d e l i v e r s 推荐,r e e l 提供的m o v i em a p 推荐。( 2 ) 商 品相关性推荐系统根据商品之间的相关性向用户产生相应的推荐的推荐系统。商 品相关性推荐系统可以是全自动化推荐系统,也可以是全手工方式推荐系统。这 种推荐技术一般是基于用户的单个会话。典型例子如a m a z o n 提供的c u s t o m e r s w h o b o u g h tt h i sb o o ka l s ob o u g l l t 推荐,c d n o w 提供的a l b u ma d v i s 0 r 推荐。 ( 3 ) 用户相关性推荐系统又称为协同过滤推荐系统,这种推荐系统首先搜索当前用户 的最近邻居,然后根据最近邻居的购买历史或评分信息向当前用户产生推荐。用 户相关推荐一般不需要用户显式输入信息。产生的推荐一般是基于用户的多个会 话。典型例子包括a m a z o n 提供的b o o km a t c h e r 推荐,m o v i ef i n d e r 提供的w e b p r e d i c t 推荐 2 3 个性化推荐系统的架构 个性化推荐系统主要分为三个模块( 如图1 ) :用户界面模块、推荐方法模 块、数据处理清洗模块。用户界面模块包括用户输入功能模块、用户输出功能模 块、管理员模块、用户个性化描述模块等具有u l 功能的模块。推荐方法模块是系 统的核心,它实现各种推荐算法以及按照一定的策略把各种算法结果呈现给用 户。数据处理清洗模块是系统赖以运行的基础,把各种不规则、错误、残缺的数 据预处理,以便给推荐算法模块提供可靠的数据。 8 蔺埘虫亭兰州大学硕士学位论文 图1 2 3 1 用户界面模块的输入 不同类型的推荐系统,其输入信息也不相同。推荐系统的输入可以是用户当 前的行为,也可以是用户访问过程中的历史行为。为了产生高质量的推荐,推荐 系统可能需要多种类型的输入信息。推荐系统的输入包括多种形式,主要包括: 1 ) 隐式浏览输入:将用户访问电子商务w e b 站点的浏览行为作为推荐系统的输 入,用户的浏览行为与访问其他的w e b 站点无区别。推荐系统的存在对用户是透 明的。用户当前正在浏览的商品、用户购物篮中选择的商品、用户的浏览路径等 都可以作为隐式浏览输入信息。2 ) 显式浏览输入:即将用户的浏览行为作为电 子商务推荐系统的输入,但与隐式浏览输入不同,用户的显式浏览输入是有目的 的向电子商务推荐系统提供自己的兴趣爱好、习惯等个人信息。例如,电子商务 系统提供一系列热门商品供用户选择,用户只选择浏览自己感兴趣的商品列表, 电子商务根据用户的浏览行为向用户提供个性化的推荐服务。3 ) 关键字商品属 性输入:用户在搜索引擎中输入关键字作为推荐系统的输入,或者将用户当前正 在浏览的商品类别作为推荐系统的输入。这种类型的输入不同于用户随意的浏览 行为,用户输入的目的就是在电子商务系统中搜索自己需要的商品。4 ) 用户评 分输入:将用户对商品的数值评分数据作为推荐系统的输入。电子商务推荐系统 列出一系列商品让用户评分,用户的评分可以是一个数值,数值大小表示用户对 商品的喜好程度,也可以是一个布尔值。用户提供的评分数据使得电子商务推荐 9 麓埘虫雩 兰州大学硕士学位论文 系统可以为用户提供个性化的推荐服务。5 ) 用户文本评价输入:用户对已经购 买的商品或自己熟悉的商品以文本的形式进行个人评价,推荐系统本身并不能判 断这些评价的好坏。其他用户浏览该商品时,可以看到用户对商品的文本评价信 息。6 ) 编辑推荐输入:将领域专家对特定商品的评价作为推荐系统的输入,领 域专家对商品的性能特点进行全面详细的介绍,用户通过专家的专业介绍,可以 对自己并不熟悉的商品加深认识,从而决定是否购买该商品。7 ) 用户购买历史 输入:推荐系统将用户的购买历史作为隐式评分数据。用户购买了特定商品,则 表示用户喜欢该商品。推荐系统根据用户的购买历史产生相应的推荐。但是用户 购买了某件商品并不代表用户喜欢该商品,而是基于对商品的感性认识做出的结 果,所以在精确的推荐系统中,用户可以对购买的商品进行重新评分,从而使推 荐系统产生更精确的推荐。 , 2 3 2 用户界面模块的输出 一般的,个性化推荐的形式有推荐产品、个人学习辅助、提供对个性化的信 息检索需求的支持和社会团体评价等。不同类型的推荐系统,其推荐结果的输出 形式也各不相同。推荐系统的输出形式主要包括:1 ) 相关商品输出:推荐系统 根据用户表现出来的行为特征或系统的销售情况向用户产生商品推荐,这种方式 是推荐系统中最为普遍的一种输出。相关商品输出可以基于简单的销售排行向用 户推荐热门商品,也可以基于对用户的行为特征进行深入分析,发现用户的购买 行为模式,从而产生个性化的推荐。2 ) 个体文本评价输出:推荐系统向目标用 户提供其他用户对商品的文本评价信息个体文本评价一般是非个性化的,对每个 商品、检索信息或者学习资料而言,所有用户得到的个体信息均相同。3 ) 个体 评分输出:向目标用户提供其他用户对商品的数值评分信息。个体评分输出没有 大量的文本描述信息,因此更加简洁明了。个体评分输出比较适合于个体数值评 分数据比较少的场合。4 ) 平均数值评分输出:推荐系统向用户提供其他用户对 商品数值评分信息的平均值。这种输出形式具有简洁明了的优点,用户可以立即 获得对该商品的总体评价。5 ) 电子邮件输出:推荐系统通过电子邮件的形式向 用户提供商品的最新信息、检索信息、个人学习资料等。这种输出形式可以吸引 用户再次访问推荐系统,从而达到保留用户,防止用户流失的目的。6 ) 编辑推 荐输出:向用户提供领域专家的专业介绍,用户通过专家的专业介绍可以对自己 l o 麓埘虫害 兰州大学硕:l 学位论文 并不熟悉的商品、检索信息、个人学习资料等加深认识,从而决定是否是自己所 e 昏 向o 2 3 3 用户个性化描述 对个性化服务系统来说,为了跟踪用户的兴趣与行为j 有必要为每个用户建 立一个用户描述文件( u s e r p r o f i l e ) 。用户描述文件刻画用户的特征与用户之间的 关系。不同个性化服务系统的用户描述文件各有其特点,用户描述文件从内容上 可以划分为基于兴趣的和基于行为的两种类型。基于兴趣的用户描述文件可以表 示为加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等。 基于行为的用户描述文件可以表示为用户浏览模式或访问模式。在具体实现时可 以综合基于兴趣和基于行为这两种表达方式。用户描述文件可以用文件来组织, 也可以用关系数据库或其他数据库来组织。其中用户建模和用户描述文件表示、 动态更新是研究的重点。 在个性化推荐系统研究的早期,用户建模技术并没有得到应有的重视。大量 的研究集中在实现个性化服务的具体技术上,如推荐技术、信息检索技术、用户 聚类技术等,用户建模技术只是这些研究中辅助技术。然而随着个性化服务的发 展和研究的深入,研究者逐渐意识到,个性化服务的质量不仅仅取决于具体的推 荐技术、检索技术等,还取决于用户兴趣和偏好等特点的可计算描述,而后者尤 其重要。个性化推荐都首先需要建立对用户的描述,只有当用户的兴趣、偏好和 访问模式等用户信息可以很好地被系统“理解”的时候,才可能实现理想的个性 化服务。从用户信息中构建用户模型,即用户建模,也就成为了个性化服务的核 心和关键技术脚,用户模型的质量直接关系到个性化服务的质量。用户建模不仅 仅是对于用户兴趣的准确描述,作为以计算机平台为依托的个性化服务系统,可 计算性是它对用户模型的基本要求。也就是说,个性化服务系统中的用户模型不 是对用户个体的一般性描途,而是一种面向算法的、具有特定数据结构的、形式 化的用户描述。因此,用户建模是指从有关用户兴趣和行为的信息如浏览内容、 浏览行为、背景知识等中归纳出可计算的用户模型的过程。 因此,用户兴趣模型就是个性化智能推荐系统中所建立的针对用户兴趣偏 好、兴趣内容特征的用户模型描述和表达。对于用户兴趣模型,可以定义如下用 户兴趣模型是推荐系统中的一个模块,是在计算机中建立的对用户兴趣特征的描 两埘虫乎 兰州大学硕:e 学位论文 述,能获取、表示、存储和修改用户兴趣偏好,能进行推理,对用户进行分类和 识别,帮助系统更好的理解用户特征和类别,理解用户的需求和任务,从而更好 的实现用户所需要的功能。也就是说用户兴趣建模是从有关用户兴趣和行为的信 息如访问内容、浏览行为、下载行为、背景知识等中归纳出可计算的用户兴趣表 示的过程。 从具体实现和应用的角度来看,用户兴趣建模可以有不同的分类。国内外学 者在文献 2 2 2 3 1 中均对此作出了阐述和研究。归纳起来,用户兴趣建模可以作 如下划分:1 ) 按照建模的对象和组成,可以分为群组组用户集合建模和单个用 户兴趣建模。前者主要从用户聚类和分类的角度考虑,后者则针对单个用户进行 观察。2 ) 按照建模的信息来源,可以分为显式模型和隐式模型。前者基于用户 主动提交示例或用户显式的标注、评价行为,后者则由系统来捕捉、积累用户的 行为和信息内容。3 ) 按照时间尺度,可以分为长期兴趣建模和短期兴趣建模, 前者描述用户较长时间的、比较稳定的兴趣偏好,后者描述用户近期的、短期的 兴趣偏好。4 ) 按照更新方式,可以分为静态建模和动态建模,前者构建的兴趣 模型长期不变、保持稳定,后者考虑了用户原有兴趣的衰减、变化和新兴趣的生 成等。5 ) 按照表现形式,可以分为基于属性的兴趣建模和基于知识的兴趣模型。 前者从用户的社会、自然属性特征建立用户兴趣和属性特征之问的对应关系,后 者则侧重于从知识内容的角度描述用户的兴趣,而不考虑其属性如何。 个性化推荐系统中用户兴趣特征的表示方法和技术涵盖范围很广,从简单的 主题关键词列表、用户一项目评价矩阵到复杂的基于人工智能的表示方法都可以 被应用。从目前的研究和应用来看,比较典型的用户兴趣模型表示方式有主题关 键词列表、加权关键词向量、用户一项目评价矩阵、基于案例的表示、基于本体 论的表示等【2 4 1 【2 5 1 。 2 4 个性化推荐系统相关技术 目前,推荐技术中广泛使用的技术主要有信息过滤推荐、数据挖掘、知识工 程技术等。因此推荐算法主要分为协同过滤推荐、基于关联规则的推荐、基于用 户统计信息的推荐、基于内容的推荐、基于效用的技术和基于知识的技术等。下 面将分别阐述。 鹄埘矢乎 兰州大学硕士学位论文 2 4 1 常用技术简介 2 4 1 1 信息过滤技术 有两种信息过滤技术:基于内容的过滤和合作过滤。基于过滤技术的推荐系 统是在信息检索技术中逐步发展起来的,目前主要应用于文本信息、网页以及娱 乐产品等的推荐。 ( 1 ) 基于内容的过滤 通过相关特征的属性来定义项目或对象,系统基于用户评价对象的特征学习 用户的兴趣,依据用户资料与待预测项目的匹配程度进行推荐,努力向客户推荐 与其以前喜欢的产品相似的产品。 基于内容过滤的系统其优点是简单、有效。其缺点是特征提取的能力有限、 过分细化,完全只基于内容的推荐系统不能为客户发现新的感兴趣的资源,只能 发现和客户已有兴趣相似的资源。这种方法通常被限制在容易分析内容的商品的 推荐,而对于一些较难提取出内容的商品,如音乐c d 、电影等就不能产生满意 的推荐效果。 ( 2 ) 协同过滤 协同过滤技术是推荐系统技术中应用最早和最为成功的技术之一。协同过滤 ( c o l l a b o r a t i v ef i l t e r i n g ) 可以有效解决基于内容的过滤存在的问题。在协同过 滤中,客户通过相互合作来选择信息,依据其他客户对信息作出的评价来挑选信 息。协同过滤方法对客户的行为进行分析,并不关心信息的实际内容。其过程一 般是通过收集客户对信息的评价,搜索具有相同兴趣喜好的客户,然后根据具有 相同兴趣喜好的客户对信息的评价产生推荐结果 2 4 1 2 数据挖掘技术 在最初,电子商务网站向顾客出售商品,交易信息被记录下来。日积月累, 海量的历史交易信息中蕴涵有价值的信息。为了从交易数据库、用户数据库中提 取知识,数据挖掘技术被广泛使用。 ( 1 ) 关联规则 在知识发现( k d d ) 领域,在电子商务中常用的数据挖掘( d a t am i n i n g ) 技术就是在客户购买的不同商品集之间发现关联规则,产生推荐。关联规则挖掘 的典型例子是购物篮分析。该过程通过发现客户放入其购物篮中不同商品之间的 1 3 两埘虫害 兰州大学硕士学位论文 联系,分析客户的购买习惯。通过了解哪些商品频繁地被客户同时购买,这种关 联的发现可以帮助零售商制定营销策略。关联规则的发现算法很多, :a p r i o r i 2 6 1 1 2 7 1 ,a p r i o r i t i d ,d i i p 删,f p t r e e 2 9 l 等。 关联规则挖掘在电子商务推荐系统中的应用主要包括定点广告投放和商品 推荐。所谓定点广告投放,就是通过关联规则挖掘,将特定广告投放给可能感兴 趣的客户。基于关联规则的商品推荐根据生成的关联规则模型和客户的购买行为 产生推荐结果。该算法常被用于产生t o p n 推荐。在关联规则推荐技术中,关 联规则的发现是最耗时的,也是算法的瓶颈,因此可以考虑离线进行。 ( 2 ) 分类 分类( c l a s s i f i c a t i o n ) 挖掘模型根据客户的输入信息将之划分为相应类别, 基于分类挖掘的推荐系统根据客户输入信息和项的特征信息,预测是否向客户推 荐该项。分类挖掘通过对训练集进行学习,训练出对应的分类器,然后利用该分 类器对新客户进行分类。当训练集发生变化时,需要重新进行训练以得到新的分 类器。 ( 3 ) 聚类 聚类( c l u s t e r i n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论