(计算机应用技术专业论文)电子商务个性化推荐系统研究.pdf_第1页
(计算机应用技术专业论文)电子商务个性化推荐系统研究.pdf_第2页
(计算机应用技术专业论文)电子商务个性化推荐系统研究.pdf_第3页
(计算机应用技术专业论文)电子商务个性化推荐系统研究.pdf_第4页
(计算机应用技术专业论文)电子商务个性化推荐系统研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)电子商务个性化推荐系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着电子商务相关技术的日益完善,越来越多的人们接受了网络购 物这一新兴消费方式,但个人相对稳定的购买需求与网站所提供纷繁庞 杂商品之间存在矛盾,如何解决这一矛盾成为各国研究人员和电子商务 参与者关注的问题。本文主要研究应用个性化技术的推荐系统,着力于 探讨如何更好的利用用户有意识或无意识反映出的偏好信息,为个性化 推荐原型系统服务。 分析了目前普遍采用的显式和隐式两种用户偏好获取方式的优缺 点,提出了一种混合用户偏好获取模式。在客户端利用嵌入浏览器的脚 本语言获取用户浏览行为信息,并通过评分转化规则得到大量反映用户 偏好的隐式评分,弥补显式评分数据稀疏的缺陷。将隐式评分和相对准 确的显式评分作为用户兴趣模型更新的数据来源。同时,针对电子商务 参与者兴趣变化异常频繁的特点,提出了基于线性衰减的用户兴趣模型。 根据注册信息和浏览行为建立初始兴趣模型,考虑到用户兴趣项目经常 变化的特点,构建了链式向量空间模型表示的兴趣模型。兴趣模型中的 用户评分在固定时间间隔t 进行自然衰减直至变为0 而被淘汰,若在衰 减过程中产生了新的访问记录和显式反馈,评分将更新为新的评分并继 续参与到衰减过程,构成了用户兴趣模型的主要更新过程。 基于协作过滤算法的推荐系统原型对相似度计算、邻居集体积大小 和协作过滤推荐算法进行了评估测试,验证了系统的可行性。利用嵌入 了特殊脚本的浏览器对用户页面停留时间、鼠标点击次数和页面滚动时 间三种可能反映用户偏好的行为进行了相关性测试,结果表明页面停留 时间和滚动时间与用户偏好度关联紧密,鼠标点击次数并未表现出明显 关联。 关键词个性化服务,混合用户偏好获取,线性衰减,协作过滤 a bs t r a c t w i t ht h ep o p u l a r i t yo fe - c o m m e r c ea n dr e l a t e dt e c h n o l o g i e si m p r o v i n g , m o r ea n dm o r ep e o p l ea c c e p tt h ec o n s u m p t i o np a t t e r n so fn e tp u r c h a s e s ,b u t t h ec o n t r a d i c t i o nb e t w e e nt h er e l a t i v es t a b i l i t yo fp e r s o n a ln e e d sa n dt h e n u m e r o u sa n dc o m p l e xg o o d sb e c o m e si n c r e a s i n g l ys h a r p ,a n dh o wt or e s o l v e t h i sp r o b l e mb e c o m eah o ts p o t si nr e s e a r c h t h ep e r s o n a l i z e dr e c o m m e n d e r s y s t e m sa r er e g a r d e da st h es t u d yo b j e c t t h ef o c u si st h ew a y st ob e t t e ru s e o fp r e f e r e n c et h a tt h eu s e rh a sc o n s c i o u s l yo ru n c o n s c i o u s l yr e f l e c t ,f o rt h e p e r s o n a l i z e dr e c o m m e n d a t i o n s e r v i c ep r o t o t y p es y s t e m t h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h e e x p l i c i t a n di m p l i c i tu s e r p r e f e r e n c e sa c c e s sa r ea n a l y z e da n dam i x e d m o d ep r e f e r e n c ea c c e s sp a t t e m i sp r o p o s e d u s e r s b r o w s i n gb e h a v i o ri sc o l l e c t e db yt h ec l i e n tb r o w s e ra n d i sc o n v e r t e dt ot h er a t i n g sb yt r a n s f o r m a t i o nr u l e s ,w h i c hc a nm a k eu pf o r s p a r s ee x p l i c i td a t a t h em i x e d m o d e lc o m b i n e st h ei m p l i c i ta n de x p l i c i t r a t i n g st oe x p r e s su s e rp r o f i l e f o rs u c he x t r e m e l yf r e q u e n tc h a n g e si nu s e r i n t e r e s t ,al i n e a r - a t t e n u a t i o nb a s e du s e rp r o f i l ei sp r o p o s e d t h er e g i s t e r e d i n f o r m a t i o na n db r o w s i n gb e h a v i o r sa r eu s e dt os e tu pt h ei n i t i a lu s e rp r o f i l e b e c a u s eo ft h ef r e q u e n tc h a n g eo fu s e ri n t e r e s t s ,u s ep r o f i l ei sr e p r e s e n t e db y ac h a i nv e c t o rs p a c em o d e l u s e rr a t i n g sd e c r e a s ea taf i x e dt i m ei n t e r v a lt u n t i lt h er a t i n gh a sb e e ne l i m i n a t e dt oz e r o u s e rp r o f i l eu p d a t e sr a t i n gb ya n e wr e c o r do fv i s i t sa n de x p l i c i tr a t i n g a n dt h e nc o n t i n u e st ob ei n v o l v e di n t h ea t t e n u a t i o np r o c e s s t h e s ec o n s t i t u t eam o d e lo fu s e rp r o f il ei nt h em a i n u p d a t ep r o c e s s c o l l a b o r a t i v ef i l t e r i n gb a s e dr e c o m m e n d a t i o np r o t o t y p es y s t e mt e s tt h e s i m i l a r i t ya l g o r i t h m s ,t h en e i g h b o r s e ts i z ea n dc o l l a b o r a t i v e f i l t e r i n g a l g o r i t h m s ,w h i c hv e r i f yt h ef e a s i b i l i t yo ft h es y s t e m 。砀es p e c i a ls c r i p t e m b e d d e db r o w s e rt e s tt h eu s e rr e s i d e n c et i m e ,m o u s ec l i c k sa n dp a g e s c r o l l i n gt i m et h a tm a yr e f l e c tu s e rp r e f e r e n c e s t h et e s tr e s u l t ss h o wt h a tt h e r e s i d e n c et i m ea n ds c r o l lt h ep a g eo ft i m ea s s o c i a t e dw i t ht h eu s e rp r e f e r e n c e c l o s e ra n dm o u s ec 】i c k sd o n ts h o wa no b v i o u sc o r r e l a t i o n k e y w o r d s :p e r s o n a lr e c o m m e n d a t i o n ,m i x e d m o d ep r e f e r e n c ea c c e s s ,l i n e a r a t t e n u a t i o n ,c o l l a b o r a t i v ef i l t e r i n g 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了论文中特另, lj m 以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获 得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的 同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:蔓生日期:吐年上月址日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学 位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以 采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 作者签名:翊导师签名 期:4 年月;上日 硕士学位论文第一章绪论 1 1 研究背景 第一章绪论弟一早三百比 互联网的飞速发展正逐步改变着人们的生产生活方式,并且成为人们获取和交流 信息的重要途径。因为互联网的开放性,网络信息量正以惊人的速度增长,万维网庞 大且无序的海量信息与用户狭窄专一需求之间的矛盾日益凸显,大部分网络行为参与 者经常感到自己处于“数据爆炸但知识贫乏”的境地之中n 吲。 据c n n i c ( 中国互联网络信息中- t , ) 2 0 0 7 年1 2 月统计数据显示,中国网民规模己 达到2 1 亿,其中5 8 8 的用户通过网络购买商品,随着国家对信息化建设的重视和 投入,网络购物环境的不断成熟和完善,这些数据一直保持着高增长的态势。艾瑞咨 询预测,2 0 11 年中国网络购物市场规模将达到4 0 6 0 亿元,总体网络购物用户将达到 2 亿h 3 。在网络购物行业急速发展的今天,诸多矛盾也随之而来,特别是网站提供的 林林总总的商品与用户相对单一需求之间的矛盾。网络购物参与者很容易被网站浩如 烟海的商品信息所淹没,面对比传统购物方式多几倍甚至几十倍的候选商品变得无所 适从,网络购物带来的消费便利也大打折扣。 作为网络购物平台的电子商务网站,希望通过应用了个性化技术的推荐系统较准 确地预测用户可能购买的产品,提高网站的销售额和利润率,具体来说主要有以下三 方面的作用悔1 : ( 1 ) 将浏览者转化为购买者。由于网络购物环境的复杂性,大多数用户只是抱 着随便看看的态度浏览网站,推荐系统能够模拟真实购物环境中的导购人员,有针对 性地推荐符合用户兴趣爱好的商品,激发用户的购买欲望,最终将浏览者转变为购买 者。 ( 2 ) 增强交叉销售能力。推荐系统可以根据用户购物车内的商品来推荐相关联 的商品,这个过程一般发生在用户选购商品完毕和付款之前。如果推荐是合理的,将 大幅增加网站的销售额。 ( 3 ) 提升用户的忠诚度。对于电子商务网站来说,提升用户忠诚度是重要的商 业策略。推荐系统通过显式或隐式方式获取反映用户兴趣的原始数据信息,借此来为 用户提供满足其需求的商品。因为网站对用户详细而精准的了解,使其在付出尽可能 少的时间、精力和金钱的情况下,购买到称心如意的商品。因此,用户对网站的忠诚 度也随之越来越高,也更愿意将自己的兴趣变化通过显式或隐式方式提交给网站,进 而形成一个良性循环。 个性化推荐技术是解决电子商务网站中信息过载问题的重要方法,通常与用户输 硕士学位论文第一章绪论 入输出接口和电子商务网站相结合形成个性化推荐系统。通过个性化推荐系统的应 用,可以让每一个用户体会到网站所提供的独具个性的服务,同时也能让网站根据用 户行为规律和购买记录等信息及时做出合理的调整,正如亚马逊的创始人j e f fb e z o s 所说,当我的网站有三百万个客户的时候,我就应该有三百万家店铺1 。 1 2 个性化推荐系统的研究现状 1 2 1 国外研究现状 上个世纪9 0 年代初,电子信息时代悄然来临,信息开始出现爆炸式增长,人们 开始寻求一些外力的帮助来处理信息过载问题,推荐系统这一新兴工具也就应运而 生。最早的具有代表性的推荐系统是由m i t 的p a u lr e s n i c k 和u n i v e r s i t yo f m i n n e s o t a 的n e o p h y t o si a c o v o u 等人在1 9 9 4 年开发的g r o u p l e n s 口1 ,这是一个采用 最近邻协作过滤算法对网络新闻进行推荐的系统,系统评分服务器b e t t e rb i t b u r e a u s 根据人们之前的阅读历史试探性地预测某篇文章的评分,以此作为其他读者 下次选择阅读的参考。r i n g o 是与g r o u p l e n s 同时期出现的个性化音乐推荐系统1 , 由m i tm e d i a l a b 的s h a r d a n a n d 等人开发完成,该系统根据用户概貌的相似性进行 个性化推荐。上个世纪末本世纪初,随着亚马逊,e b a y ,c d n o w 等电子商务网站的迅 速崛起,个性化推荐系统迎来了历史上最大的发展机遇b 1 。基于协作过滤、贝叶斯网 络、聚类和关联规则等技术的个性化推荐系统相继被应用到电子商务网站,取得了一 定的成效,但也出现了个性化程度低,无法真正对每一位客户做到差异化服务,数据 稀疏和高维度影响推荐质量等问题n 0 l 。 近年来,各国学者针对个性化推荐系统的研究也取得了一些新的进展。 a m a z o n c o m 推荐系统是由g e r gl i n d e n ,b r e n ts m it h 和j e r e m y y o r k 主导开发 的集研究与应用于一体的推荐系统,采用项目一项目协作过滤算法,根据用户已购买 和己评分项目寻找相似项目,将相似度高的项目列入到推荐列表中。为了找到与给定 项目最为匹配的目标项目,算法通过寻找顾客会同时购买的产品创建相似项目表,采 用余弦相似性计算项目之间的相似性,考虑到时间和空间的开销,这一过程采用的是 一种基于给定项目和购买了给定项目顾客的迭代算法。通过比较相似项目表与每个用 户己购买和己评分的项目,系统整合比较结果将关联度最高和最畅销的项目推荐给用 户。创建相似项目表需要考虑所有用户和商品项目,是非常费时的一个计算过程,采 用离线方式进行。根据用户已购买和己评分项目寻找相似项目的计算较快,它只依赖 于用户己购买和己评分的项目数量,采用在线方式进行。因此,即使是面对大规模数 2 硕士学位论文第一章绪论 据集也有较快的运行速度n k l 2 1 。由于基于项目协作过滤推荐算法高度的关联性,推荐 质量也比较高n 引。 m o v i e l e n s 是由美国明尼苏达大学计算机科学与工程系的g r o u p l e n sr e s e a r c h 研究开发的电影推荐网站。用户对网站提供的电影进行评分,用户可在n o ts e e n 和 0 5 - 5 0 共1 1 个选项中进行选择,网站根据每个用户的评分信息获取用户喜好,并 据此产生个性化推荐结果。系统采用基于用户的协作过滤和关联规则相结合的技术, 每个用户都有一个由若干用户组成具有相似兴趣爱好的“邻居区”,“邻居”们对电影 的评分数据被用来为目标用户生成个性化推荐项目。该系统既是一个个性化推荐研究 的实验平台,也是一个能够帮助人们找到自己感兴趣电影的应用系统,其不定期推出 的用户评分数据集为世界各国相关领域研究人员提供了原始的实验数据引。 r a c o f i 是由加拿大国家研究委员会电子商务信息技术学院m i c h e l l ea n d e r s o n 等人开发的多维评分推荐系统,系统基于一个在线协作推荐代理r a c o f im u s i c ,用 户可以从感觉、歌词、曲调、独特性和制作五个方面对加拿大现代音乐进行评价,并 由此获得推荐。系统将协作过滤推荐算法s t ip e r s o n 、s t i n 2 、p e ri t e ma v e r a g e 和基于r u l e m l ( 规则标记语言) 的规则相结合,产生符合用户需求的推荐。由于系 统灵活的面向对象框架,可以很容易的转化为对电影和旅游等其他项目的推荐n 驯。 g o o g l en e w s 是一个专门针对用户群体庞大和更新异常频繁的新闻领域而开发的 个性化资讯平台。该平台采用基于m i n h a s h 聚类的协作过滤、统计隐含语义标引 ( p r o b a b i l i s t i cl a t e n t s e m a n t i ci n d e x i n g ,p l s i ) 和访问计数三种方法来产生推荐, 使用一个线性模型将不同算法产生的推荐结合起来。其中系统将基于访问计数产生的 推荐视为用户短期行为特性,将基于用户产生的推荐( m i n h a s h 和p l s i ) 看做是用户 长期行为特点n 6 1 。 m y s t r a n d s 专注于个性化音乐推荐,主要采用基于项目的协作过滤推荐技术,并 逐步结合基于用户的协作过滤技术,致力于开发更好的理解用户兴趣和根据己经获知 的信息发现用户新爱好的推荐技术n7 | 。a c mc o n f e r e n c eo nr e c o m m e n d e rs y s t e m s 正 是在m y s t r a n d s 2 0 0 6 暑期推荐系统培训学校的基础上发展而来,至今已举办了两届。 在a c mc o n f e r e n c eo nr e c o m m e n d e rs y s t e m s2 0 0 8 上,由与会的学术界和业界享有 盛誉的专家评出了g r a v i t yr & d 、r e c c o o n 、i l e t k e n 、s e n t i m e t r i x 和p l u r i b o 五个 具有代表性的新锐推荐系统项目,其中g r a v i t yr & d 提出的个性化t v 节目解决方案, r e c c o o n 采用的基于活动的推荐以及s e n t i m e t r i x 拥有专利的s e n t i g r a d e t m 技术备 受评委的肯定n 引。 3 硕士学位论文第一章绪论 1 2 2 国内研究现状 国家自然科学基金委员会2 0 0 8 项目指南将新兴电子商务重大基础问题与关键技 术研究列为重大项目,其主要科学问题包括电子商务参与者行为规律研究、面向服务 的商务智能与知识管理方法等。个性化推荐系统通过显式或隐式方式获取用户信息, 采用协作过滤、关联规则和基于内容推荐等技术向用户推荐可能满足其需求的商品, 是解决电子商务重大基础问题的重要方式,是目前国内学者研究的热点问题,在电子 商务、网上社区、新闻网站和数字图书馆等领域得到了初步应用,下面是一些具有代 表性的团队及所取得的成果: 清华大学的邢春晓和高凤荣等人针对传统协作过滤算法不能及时反映用户兴趣 变化的问题,提出了两种改进度量:基于时间的数据权重和基于资源相似度的数据权 重,在此基础上将它们有机结合,将这两种权重引入基于资源的协作过滤算法的生成 推荐过程中,通过实验证明改进后的算法比传统协作过滤算法在推荐准确度上有明显 提高n 9 1 。 北京航空航天大学的张光卫等人针对传统相似性度量方法存在的不足,利用云模 型在定性知识表示以及定性、定量知识转化时的桥梁作用,提出一种在知识层面比较 用户相似度的方法,克服了传统基于向量的相似度比较方法严格匹配对象属性的不 足。以该方法为核心,在全面分析传统方法的基础上,提出一种新的协同过滤推荐算 法,并通过实验证明了算法的有效性啪1 。 复旦大学的张守志和许彦设计与实现了一个个性化服务系统,通过对用户行为轨 迹的统计数据进行分析实现了用户兴趣焦点的动态演变,在用户兴趣衰减模型中引入 了菲波拉契数列有效的提高了用户兴趣衰减的灵敏度,对相似用户的兴趣分析实现了 预测用户的潜在兴趣焦点的功能乜。 1 2 3 面临的挑战 随着个性化推荐系统在电子商务、在线社区和数字图书馆等领域的应用,系统本 身的一些局限性也慢慢显露出来,主要表现在以下几个方面: ( 1 ) 数据集。推荐系统是根据用户的购买记录、评分记录和访问记录等信息产 生推荐,一般来说,候选推荐项目都在百万以上,在推荐系统运营初期阶段,因为用 户参与少,数据相对稀疏,系统产生的推荐质量也很低。随着用户日益活跃,数据集 越来越庞大,表示用户与项目关系的矩阵维度越来越高,将会为系统带来可扩展性和 4 硕士学位论文第一章绪论 运行速度等问题,严重影响推荐质量但引。 ( 2 ) 用户参与。就目前来说,绝大多数个性化推荐系统依赖于用户的主动参与, 例如对己购买或未购买但有兴趣的项目进行评分,对其他用户或项目进行文字评价, 但这恰好是推荐系统发展的瓶颈,在没有任何激励机制的情况下,8 0 以上用户都不 愿参与这个过程乜3 j 。也有学者提出采用隐式方式获取用户点击流数据,但目前还处在 研究阶段,部分电子商务网站通过j s p 或a j a x 等技术将用户浏览情况记录下来,但 并未做到据此进行个性化推荐。 ( 3 ) 安全问题。推荐系统正面临着严峻的安全问题,一些人员通过特殊途径采 用欺骗手段致使推荐系统频繁地推荐某些特定商品,修改用户概貌来改变正常的推荐 结果,获取推荐系统记录的有关用户个人隐私的信息,这些问题相对于前面两点更大 程度是由人员管理不善造成,但能够通过推荐技术的更新来改善和解决心4 1 。 尽管存在着诸多难以解决的问题,但网络信息持续以指数级增长,人们对电子信 息的依赖也日渐紧密,个性化推荐系统是帮助人们在网络环境中快速准确的寻找满足 个性兴趣喜好的有效途径之一,随着传统推荐算法的不断改进,用户兴趣描述的日益 完善,个性化推荐系统将成为人们网络活动中不可或缺的有力助手。 1 3 本文的工作与组织结构 个性化推荐系统主要是依据系统已知的用户兴趣偏好,利用个性化推荐技术和相 关算法预测符合用户兴趣的资源,并通过用户接口提交给用户,同时用户对推荐的资 源项目做出反馈的网络平台。推荐系统的质量与表示用户偏好的兴趣模型和推荐系统 引擎有着密切的联系,本文立足于电子商务环境,进行了以下三个方面的研究工作: ( 1 ) 隐式获取用户偏好的研究 分析了显式和隐式获取用户偏好的优缺点,提出了混合用户偏好获取模式,在客 户端利用嵌入浏览器的脚本语言获取用户浏览行为信息,并通过评分转化规则获取隐 式评分,得到大量反映用户偏好的隐式评分,弥补显式评分数据稀疏的缺陷,结合相 对准确的显式反馈评分,用以表示用户兴趣模型,并对页面停留时间、鼠标点击次数 和页面滚动时间三种可能反映用户偏好的行为进行了相关性测试。 ( 2 ) 基于线性衰减的用户兴趣模型研究 分析了电子商务参与者行为模式,针对该类用户兴趣变化异常频繁的特点,提出 了基于线性衰减的用户兴趣模型,根据注册信息和浏览行为建立初始兴趣模型,考虑 到用户偏好项目经常变化的特点,采用链式向量空间模型表示;兴趣模型中用户偏好 项目的评分值在固定时间间隔t 进行自然衰减直至变为0 而被淘汰,若在衰减过程中 产生了新的访问记录和显式反馈,评分将更新为新值并继续参与到衰减过程。 5 硕士学位论文第一章绪论 ( 3 ) 基于协作过滤的推荐系统原型实现 针对电子商务数据集特点,采用基于线性衰减的兴趣模型表示用户兴趣,实现了 基于协作过滤算法的推荐系统原型,对相似度计算、邻居集体积大小和协作过滤推荐 算法进行评估测试,验证了系统的可行性,并发现了系统的不足之处,确立了今后改 进的方向。 本文共分为5 章,每章主要内容概述如下: 第一章是绪论部分,主要介绍了本文的研究背景、国内外研究现状、研究内容和 组织结构,通过对个性化推荐系统的发展状况、应用现状和应用领域的介绍,论述了 其巨大的发展潜力和较高的研究价值。 第二章介绍了个性化推荐系统的概念、类型、整体框架、推荐流程和关键技术。 主要是对各种个性化推荐系统中应用的技术进行阐述。 第三章阐述如何获取用户偏好和建立用户兴趣模型。介绍了显式和隐式获取用户 偏好的方式,提出了以隐式为主和显式为辅的混合用户偏好获取模式。根据电子商务 参与者偏好变动相对频繁的特点,构建了基于线性衰减的用户兴趣模型,提出了该兴 趣模型建立和更新算法。 第四章根据电子商务环境的应用特点,提出了基于协作过滤的推荐系统原型。分 别介绍了系统设计、总体框架、数据模型、相关性算法模块设计和推荐算法设计,并 对基于线性衰减的用户兴趣模型在数据模型中的设计与实现进行了重点阐述。 第五章是系统实现与结果分析。在基于协作过滤的推荐系统原型对相关性算法、 最近邻体积大小、基于线性衰减的用户兴趣模型和两种典型的推荐算法进行了测试; 利用嵌入了脚本语言的浏览器对隐式反馈评分进行测试,通过实验证明了与用户偏好 关联度高的页面停留时间和页面滚动时间两种用户行为。 第六章总结和展望。对本文开展的工作进行了总结,针对工作中的不足提出了今 后努力的方向,探讨了本课题的研究方向和趋势。 6 硕士学位论文第二章个性化推荐系统 第二章个性化推荐系统 2 1 个,陛化推荐系统概述 2 1 1 个性化推荐系统的概念 虽然谷歌、百度和雅虎搜索等优秀的全方位搜索引擎在一定程度上能够缓解网络 信息过载所带来的信息迷失问题,但随着网路上充斥的信息继续爆炸式地增长,人们 对信息个性化的需求也愈发迫切。自最早的基于协作过滤的推荐系统t a p e s t r y 陋卅诞 生之后,国内外许多学者和软件开发人员进行了大量推荐系统方面的研究工作。 r e s n i c k 和v a r i a n 在文献 2 6 3 中对个性化推荐系统给出了如下定义: 定义2 1 个性化推荐系统是利用电子商务网站向客户提供商品信息和建议,帮 助用户决定购买何种产品,模拟销售人员帮助客户完成购买过程的系统。 随着个性化推荐技术的不断发展和各种网络社区的逐渐成熟,个性化推荐系统的 应用已经从最早在电子商务领域的应用扩展到数字图书馆、新闻、在线社区等领域, 例如雅虎关系、百度空间和豆瓣都是比较成功的应用典型。广义来说,个性化推荐系 统是根据己知的用户信息( 注册信息、历史访问记录、评分记录和订单等) ,利用信 息过滤相关技术和算法,为用户推荐符合其当前兴趣的产品、内容和信息( 电影、音 乐、书籍、新闻、图片、网页和网友等) 的系统。个性化强调的是为每个个体用户提 供一种差异化的服务【2 引。 2 1 2 个性化推荐系统的基本架构 个性化推荐系统遵循i p o ( i n p u t p r o c e s s o u t p u t ,输入一处理一输出) 模式,用 户通过与系统接口输入注册信息,网站访问记录和评分记录等信息,系统根据用户输 入采用推荐算法得到具体的推荐项目,最后通过输出接口将产生的推荐结果以网页、 电子杂志和e - m a i l 等形式呈现给用户,如图2 1 所示。 7 硕士学位论文第二章个性化推荐系统 图2 1 个性化推荐系统的基本架构 输入阶段的用户输入信息是构建用户兴趣模型的重要信息来源,直接关系到最终 的推荐质量,所以必须先离线进行数据清洗,去除噪声,并选取适当的数据结构来表 示。推荐结果产生过程中,根据选取算法的不同可离线进行规则抽取、最近邻查找, 项目相似度计算和降维等操作,最后进行在线推荐泌8 2 9 | 。用户可以对接收到的推荐项 目进行评价,主要是进行评分,也可以通过选择“我已经拥有 、“不感兴趣”,“收藏” 等选项来表示比较明确的喜好态度。用户反馈对推荐系统的质量提升非常重要,反馈 信息能够反映用户兴趣的动态变化,获取用户新的兴趣点,对用户兴趣模型进行更新, 提高推荐算法产生结果的准确度,进而形成良性循环。m 3 1 1 。值得一提的是,并不是所 有的推荐都遵循图1 所示的流程,目前很多电子商务网站所提供的首页推荐就是直接 根据用户历史浏览记录而产生的,通常是向用户推荐最近浏览商品的同类型或同规格 的产品,这种推荐方式的优点是算法简单,计算速度快,但缺点也很明显,推荐质量 不高,一般都会被用户所忽视。 2 1 3 个性化推荐系统的类型 电子商务领域应用个性化推荐系统的目是为参与者提供更高效的网络购物体验, 本节将从用户的角度,参考自动化程度、持久性和个性化程度三个度量标准,分析电 子商务网站的分类模型,并结合目前在线的一些推荐系统进行阐述。其中,自动化程 度是对用户主动参与系统运作程度的度量,如果用户需要频繁的中断自己的浏览行 为,为系统提供有关个人兴趣的信息,表示系统的自动化程度低,反之表示系统的自 动化程度高;持久性根据系统是否记录用户历史兴趣信息来判断,如果系统只是根据 用户本次行为记录或浏览兴趣对用户产生推荐,不考虑之前的任何用户信息,不记录 用户兴趣,表示系统是瞬时的,反之表示推荐系统是持久的。个性化程度主要是指系 统能否真正为用户提供差异化的,区别于其他用户的服务,具体的分类表示如下。讫1 : ( 1 ) 基于属性的推荐。该类推荐己知用户对某些种类的商品具有一定兴趣,选 8 硕士学位论文 第二章个性化推荐系统 取相应种类的具有代表性的产品作为对用户的推荐项目。例如卓越亚马逊在手机类商 品主页上所呈现的“热卖手机和“分类推荐”项目;太平洋电脑网的“选机中心 也属于该类,用户在“选机中心”页面输入需要搜索商品的详细参数,系统根据用户 的需求返回相应的推荐结果。该类推荐系统自动化程度较低且是瞬时的,因为用户必 须主动告诉系统自己感兴趣的类型,需要用户显式输入相关信息,而系统不会记录单 个用户在某一次推荐中的兴趣种类。基于属性的推荐个性化程度较低,是传统推荐系 统在个性化发展道路上的过渡产物,但因为其实现技术简单,目前仍被一些网站所采 用。 ( 2 ) 基于项目相似性的推荐。根据用户喜欢或已经选择的项目进行相似项目的 推荐是该类推荐的主要特点。例如在网上购物时,用户在选购完所有商品进行支付之 前,通常网站会根据购物篮内的商品对用户进行商品推荐,这是典型的基于项目相似 性的推荐方式。在用户浏览商品时,在页面的某部分会显示“购买了该商品的客户还 购买了”,“浏览了该商品的用户还浏览了和“店铺推荐”,这些都属于此类推荐。 这类推荐自动化程度较高,不需要用户额外输入信息,但通常是瞬时的,因为用户每 次购买和浏览的商品都是有一定的差别,每次推荐也有较大差异。该类推荐已基本具 备个性化推荐系统特点,也是目前应用比较广泛的方式,但该类推荐结果仅由用户浏 览的单个资源得出,个性化程度低。在基于项目相似性推荐发展而来的基于项目协作 过滤推荐,主要是根据用户喜好的若干项目产生推荐,具备算法运算速度快,推荐准 确率高和个性化程度高等特点,是本文个性化推荐原型系统研究的技术之一。 ( 3 ) 基于用户相似性的推荐。要实现该类推荐,首先要寻找参与电子商务网站 活动的相似用户,根据相似用户的兴趣模型进行推荐,一般是采用协作过滤技术实现 此类推荐。相对于前两种推荐,基于用户相似性的推荐时间和空间上的开销都比较大。 此类推荐很大程度依赖于用户项目的显式评分,所以自动化程度还有待提高,但一般 都是持久性的,因为会将用户兴趣模型记录下来,以此作为寻找邻居用户的依据。该 类推荐能够为用户发现新的兴趣点,个性化程度高,是本文个性化推荐原型系统研究 的技术之一,但可扩展性和冷开始等问题始终未找到好的解决方案。 除了从用户角度对推荐系统进行分类,根据个性化推荐系统所采用的技术,可以 分为基于规则的系统和信息过滤系统,信息过滤系统又可分为基于内容过滤的系统和 协作过滤系统盼引。 2 2 个性化推荐系统的关键技术 2 2 1c o o kie 技术 c o o k i e 是w e b 站点在用户访问该网站时将少量数据信息以文本文件的形式存储 9 硕士学位论文第二章个性化推荐系统 在用户客户端本地硬盘或内存里的一种技术,由n e t s c a p e 公司前员工l o um o n t u l l i 在1 9 9 3 年3 月提出。c o o k i e 文件主要记录与用户有关的信息,如身份识别i d 、密码、 浏览过的页面、停留时间、用户在w e b 站点购物方式和用户访问站点的次数等信息, 记录的信息都已经过加密处理。当用户再次访问网站时,浏览器将读取c o o k i e 信息 并发送给w e b 站点。在不同的操作系统和浏览器环境下,c o o k i e 的存储和操作方式 都不一样。目前广泛采用的w i n d o w sx p 和i e 的组合环境下,c o o k i e 的存放目录为 c :d o c u m e n t sa n ds e t t i n g s w i n d o w s 用户 c o o k i e s ,文件名是w i n d o w s 用户 域 名i p 数字 t x t b 引。 由于c o o k i e 的应用涉及到个人隐私及安全、垃圾广告和脚本攻击等问题,近年 来也出现了很多c o o k i e 反对者,他们希望找到既具备c o o k i e 优点又能避免其缺陷的 替代品。但对普通用户来说,c o o k i e 带来的便利要远大于其潜在的危害,基本上所 有的大型网站都应用了c o o k i e 技术,用户可以根据自身的需求选择启用或禁用 c o o k i e 。对电子商务网站参与者而言,c o o k i e 的作用主要体现在两个方面,一个是 根据c o o k i e 记录的个人信息自动识别注册用户,简化登录过程,进而根据用户兴趣 模型对用户进行项目推荐;另一方面可以协助记录用户购物车内的商品,简化购买的 支付程序,让网上购物更接近现实购物流程b 5 蒯。 2 2 2 用户兴趣建模 用户兴趣模型是个性化推荐系统的基础和核心。州,直接关系到个性化推荐系统的 推荐质量。为了准确的创建用户兴趣模型,就需要从用户感兴趣的信息中提取兴趣特 征,应用建模技术建立用户兴趣模型进行兴趣记录和管理。用户兴趣建模主要包括模 型的建立和更新两个过程。 在建立模型时,需要根据推荐资源的类别选取一个合适的表示方式。由于个性化 推荐系统是以网络平台为依托,所以用户兴趣模型并不是一般性的描述,而是一种面 向算法的、具有特定数据结构的,形式化的描述一州。目前比较常用的用户兴趣模型表 示法有:加权矢量模型、类型层次结构模型、加权语义网模型、目录结构、基于本体 论和基于向量空间模型的表示法等,其中基于向量空间模型表示法是目前为止最为流 行的表示法9 。 每个人的兴趣喜好不是一成不变的,所以用户兴趣模型也必须进行更新,这样才 能持续地为用户提供高质量的推荐。模型的更新分为显式更新和隐式更新两种方式。 显式更新主要是指系统要求用户对推荐的项目进行反馈和评价,这是最有效也是最直 接的方式,但会影响用户的正常浏览行为,为用户带来额外的负担,所以参与者非常 有限。目前部分研究人员努力通过各种方式来提高用户的参与度,亚马逊为每位用户 提供专门的推荐板块,不仅为用户提供推荐,而且告知客户为什么会得到该项推荐, l o 硕士学位论文 第二章个性化推荐系统 以及如何提高系统的推荐准确度和质量,让用户知其然也知其所以然,提高了用户参 与的积极性h 们。文献 4 1 提出“评分激励机制”,只有当用户对所购买的商品进行评 分以后,购物所获得的积分才能生效,让用户在一定压力之下参与反馈过程。隐式更 新只要是通过跟踪用户浏览行为和挖掘w e b 日志信息来实现。用户的一些浏览行为, 如查询、访问页面、标记书签和页面收藏能够揭示用户兴趣。基于w e b 日志的挖掘技 术也发展迅速,利用w e b 日志可以获得页面的点击次数、页面停留时间和页面访问顺 序等信息,分析后可获得相关页面、相似用户群体和用户访问模式等信息,这些资源 可被用来更新用户兴趣模型h 2 | 。 2 2 3 关联规则 关联规则是传统的数据挖掘技术之一,可以用来发现项目集合之间的关联。在电 子商务应用中,发现两个项目集合之间有关联关系,也就预示两个集合中的商品可能 同时出现在一次交易中 4 4 3 。 具体来说,先定义一个由m 个项目组成的集合p = p 。,p 。,o oe le 9p m ) ,t 表示在一次 交易中的所有项目集合,t p ,x 和y 表示两个项目集合,满足条件x c p ,y c p ,x n y = o ,规则x j y 表示如果在一次交易中出现了集合x 中的项目,那么集合y 中的项 目也极有可能出现在这次交易中。利用关联规则的这一规律,可以向用户推荐出现在 集合y 中而并未出现在顾客购物车中的商品。幅3 。 一般来说,通过支持度和置信度对关联规则进行评估。支持度s 表示规则所定义 模式的发生频率,对于规则x 专y ,表示如下: 包括uj ,) 的交易数 所有交易数 置信度c 是规则的预测强度的一个度量,表示如下: 包括x u ,的交易数 包括】,的交易数 公式( 2 - 1 ) 公式( 2 - 2 ) 容易看出,c 是交易中己经包含项目集合x 的条件下,同时还包含项目集合y 的 条件概率。一个规则的高置信度非常重要,因为它表示根据规则产生预测的准确度。 支持度同样是一个很重要的指标,支持度低的规则往往利用率不高,存在意义不大n 6 | 。 2 2 4 基于内容的过滤 基于内容的过滤是信息过滤技术的一种,主要是通过比较候选资源与用户兴趣的 相似性,选取若干相似度高的资源推荐给用户h 7 1 。基于内容的过滤主要用于文本信息 过滤,候选资源和用户兴趣的数据结构采用特征抽取得到的特征值表示,不同的特征 值被赋予不同的权重。当某个文档或页面被选出推荐给用户,用户可以通过反馈来表 硕士学位论文第二章个性化推荐系统 达对该资源的喜好,表示该文档的特征值在用户兴趣描述中的权重也会有相应的变 化,这个过程被称作相关性反馈n8 。基于内容的过滤如图2 2 所示。 用户 图2 2 基于内容的过滤 简单、有效是基于内容过滤系统的优点,它的缺点也很明显,难以区分资源内容 的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相 似的资源3 。 2 2 5 协作过滤 协作过滤是迄今为止应用最为广泛和成功的个性化推荐技术之一,它的基本思想 是根据用户的兴趣描述寻找具有相同喜好的用户,也就是“邻居”,根据用户之间的 相似性来推荐资源删,如图2 3 所示。 用户a用户b其他用户 图2 3 协作过滤 典型的协作过滤算法是基于用户的,可分为数据表示、最近邻形成和产生推荐三 个阶段。对于当前用户u ,系统通过其历史活动记录( 浏览行为、购买商品和评分记 录等) 及相似度函数,为用户寻找k 个最为相似的用户作为u 的最近邻居集,将u 1 2 硕士学位论文第二章个性化推荐系统 的最近邻居感兴趣而u 未表示出兴趣的项目列为候选推荐集,计算候选推荐集中项目 对用户u 的推荐度,选取推荐度最高的n 个项目为对用户u 的t o p - n 推荐集,或者据 此预测u 对可能感兴趣项目的评分。传统协作过滤算法的缺陷主要是系统开始运行时 的数据稀疏问题,以及系统数据规模日趋庞大导致的可扩展性问题埽1 5 2 1 。文献 5 3 提 出了基于项目协作过滤推荐算法,其主要思想是通过“用户一项目”矩阵来识别不同 项目之间的关联,利用这一关联计算用户对特定项目的评分,产生推荐集。该算法比 较好的解决了传统协作过滤算法的可扩展性问题,但由于无法动态更新用户兴趣,影 响到了推荐质量嘲3 。 2 3 本章小结 本章介绍了个性化推荐系统的概念、通用基本架构和从不同角度进行的分类,阐 述了系统中可能应用到的关键技术,包括c o o k i e 技术、用户兴趣建模、关联规则、 基于内容过滤和两种典型的协作过滤技术,分析了各种技术的原理和在推荐系统中的 应用状况。 硕士学位论文第三章用户偏好获取与兴趣建模 第三章用户偏好获取与兴趣建模 3 1 用户偏好信息的获取 个性化推荐系统的质量不仅依赖于优秀的推荐技术,而且与大量可用且准确的用 户数据密切相关,所以如何高效率地获得优质的体现用户偏好的数据是个性化推荐系 统的核心问题之一。目前,获取用户偏好信息主要有两种基本方法,一种是隐式获取, 主要是通过数据挖掘和一些应用技术从用户浏览行为中获取偏好和兴趣信息;另一种 是显式反馈,主要是通过用户对资源项目评分和填写各种形式的反馈表来实现引。这 两种方式各有优缺点,将它们加以结合形成的混合用户偏好获取模式是比较理想的方 式。 3 1 1 隐式获取用户偏好 隐式获取主要是以w 曲使用挖掘、人工智能和知识发现等理论为基础,利用 a j a x 、j a v a s c r i p t 等应用技术分析用户浏览网页时的行为,获取用户偏好信息并转化 为结构化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论