




已阅读5页,还剩56页未读, 继续免费阅读
(计算机科学与技术专业论文)基于混合模式的个性化推荐系统的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理丁人学硕士学位论文 摘要 随着互联网的普及和全球信息化进程的发展,网络已经成为人们获取信息 的主要途径,网络上的资源开始呈现爆炸式增长,而用户往往很难发现真正对 自己有价值的信息,同时一些很少被用户关注的信息很容易成为孤岛信息。个 性化推荐系统的出现可以有效的解决这些问题,它分析用户的兴趣特点和购买 行为,向用户推荐可能感兴趣和满意的信息,帮助用户做出正确的选择。但是 当下的电子商务推荐系统并不成熟,推荐效率低、推荐质量差和自动化程度低 等问题普遍存在。 本文研究主流的个性化推荐技术,重点对基于内容的过滤技术与协同过滤 技术进行探讨,比较两者的优劣并采用结合两种推荐技术进行混合推荐的方法, 提出一个混合推荐引擎工作的框架模型。 众所周知,在推荐系统的研究中,兴趣模型和用户聚类一直是人们研讨的 热点,而本文特别关注用户兴趣模型。调查表明,大多数网民都愿意对网站提 供姓名,性别,职业等不太敏感的个人信息,而具有相似背景的用户通常都具 有相同的兴趣,另外用户对项目的评分和用户查询时输入的关键词都能有效的 代表用户的兴趣,因此,我们将三者进行结合,共同完成用户兴趣模型的建立, 并据此提出了相应的用户相似度计算方法,根据此结果在离线时间里完成对用 户的聚类,从而极大的缩短了在线推荐的时间,提高了推荐系统的实时性。 另外,针对目前个性化推荐系统中普遍存在的推荐质量差的问题,本文利 用内容属性标注的手段,并结合特定领域内的概念知识库,充分利用到项目本 身的属性进行相似度计算,由此解决新项目的冷开始问题,并能够根据项目的 相似值结合内容过滤技术预测用户一项目矩阵中的零值,从而解决数据稀疏的问 题,提高推荐质量。 最后,本文设计和实现一个基于混合模式的简单的个性化旅游推荐原型系 统。该原型系统基于多模型的推荐引擎,提供个性化推荐、热门推荐和新项目 推荐等多方面的推荐结果,并综合了关键词检索和用户评分的功能,从不同层 面帮助用户获取个性化信息,提升用户体验。 关键词:个性化推荐,兴趣模型,混合推荐,相似性,协同过滤 武汉理工大学硕七学位论文 a b s t r a c t w i t ht h ep o p u l 撕t yo ft h ei n t e m e ta i l dm ed e v e l o p m e n to fg l o b a li n 硒咖a t i o n p r o c e s s ,t h en 嘶o r kh a sb e c o m et h em a i nw a yo fp e o p l eg e t t i n gi n f o 彻a t i o n ;a tt h e s 锄et i m e ,r e s o u r c e sa r eb e c o m i n gg r o w ne x p l o s i v e l y t h e l ll l s e r so r e nf e e li ti s v e 巧d i m c u l tt of i n di n f o r n l a t i o nw h i c hi sr e a l l yv a l u a b l ef o rt h e m ,a n ds o m e i n f o 咖a t i o nw h i c hi sr a r e l yc o n c e m e da b o u tw i l lb ee a s i l yb e c o m ei s 0 1 a t e d t h e p e r s o n a l i z e dr e c o 舢e n d a t i o ns y s t 锄c 觚 s 0 1 v et h e s ep r o b l 跚se f f t i v e l y , i t a 1 1 a l y z e st h eu s e r sc h a r a c t 嘶s t i c s 锄di n t e r e s t si nb u y i n gb e h a v i o r a i l dt h 锄 r e c o m m e n d st h e i l li n f o 姗a t i o nt h a tt h e ya r ei n t e r e s t e di na 1 1 ds “s f i e dw i t l li no r d e r t oh e l pt h e mm a 薹【et h er i g h td e c i s i o n b u tt h ec u 艄1 te c o m m e r c er e c o m m e l l d a t i o n s y s t 锄i sn o tm a h h ew i ms o m eg e i l e r a ld r a w b a c k se x s i s t i n gi nr e c o m m e l l d i n g e m c i e n c y ,q u a l i t y ,a u t o m a t i o na n ds oo n f o u ra s p e c t sw i l lb ed i s c u s s e d 觚d r e s e a r c h e di nt h ef o l l o w i n gt h e s i s t h i sm e s i ss t l l d i e sm em a i n l yp e r s o n a l i z e dr e c o m m e i l d a t i o nt e c h n o l o g y ,锄d e l l l p h a s i s0 nc o n t e n t - b a s e d 矗l t 舐n g 锄dc o l l a b o r a t i v ef i l t 甜n gt e c h n o l o g yt o 咖d y a i l dc o m p a r et h e i rs 仃e i l 舀h sa n dw e a k i l e s s e sa n dt oe x p l o r et h ec o m b i n a t i o no f 伽o r e c o m m e n d e dt e c h i q u e sf o rm i x e d r e 瑚n m e n d e di d e a s ,o nt k sb a s i sp u tf o 刑a r da c o m b i n a t i o nr e c o m m e i l d a t i o ne n 西n e su n d e rt h e 仔锄e w o r km o d e l t h er e s e a r c ho fi n t e r e s t i n gm o d e l s 锄dt h ec l u s t e n go f u s e r sh a sb e e nt h ef o c u s , 锄dm i st h e s i sw i l lp u ts p e c i a la t t e n t i o nt ot l l ei n t e r e s t i n gm o d e l s u r v e ys h o w st h a t m o s tu s e r sa r ew i l l i n gt op r o v i d et h e i rn 锄e ,g e n d e r ,o c 伽i p a t i o n 锄do m e r1 e s s s e l l s i t i v ep e r s o n a li n 向咖a t i o nt ot h ew e b s i t e ,a n du s e r sw i ms i m i l a rb a c k 鲫d s a l w a y sh a v et h es 锄ei n t e r e s t s i na d d i t i 彻t ot h i s ,u s e r s s c o r ea i l dq u e 珂k e y w o r d s c 觚e f i f e c t i v e l yr 印r e s e l l tt h em e i ri i l t e r e s t ,t h e r e f o r e ,w ec 锄c o m b i n em el l m 玲 t o g e m e rt oe s t a b l i s ht h eu s e f s i n t 凹e s tm o d e l ,t h e nc a l c u l a t em es i m i l 撕t vb e 咐e e n t h e m ,a 1 1 dc l u s t e i u s e r si nt h eo 群t i m e ,t l l u sg r e a t l ys h o r t e i l i n gt h eo n l i n er e c o m m e l l d t i m e 锄di m p r o v et l l er e c o m m e l l d a t i o ns y s t 锄li nr e a l t i m e r e s p o n dt ot h eq u a l i t yd r a w b a c k so fc u 玎e n tp e r s o n a l i z 酣r e c o m m e l l d a t i o n s y s t e i i l ,m i st h e s i sw i l lu s et a g st om a s kt l l ec o n t e n tp r o p e n i e s 锄dc o m b i n ew i t ht h e c o n c 印t1 ( 1 1 0 w l e d g eb a s e do ns p e c i f i cd o m a i n ,t oc a l c u l a t et h ei t e m s s i m i l 撕t ym l y 武汉理l 大学硕士学位论文 u t i l i z et h e i rp r o p e n i e s ,t :h u ss o l v et h ep r o b l e n lo fc o l d s t a r t ,t h 锄c o m b i n e dw i t h c o n t e n t6 l t e r i n gt e c h n 0 1 0 9 yt of o r e c a s tt h em i s s i n gv a l u e si nu s e r i t e i l lm 撕x ,s oa s t os o l v et h ed a t as p a r s ep r o b l e n la n di m p r o v et h eq u a l i t yo f r e c o m m e n d a t i o n l a s t l y ,d e s i 印a n di m p l 锄饥tap e r s o n a l i z e dr e c o m m e n d a t i o ns y s t 锄b a s e do n m i x e dm o d e l t l h ep r o t o t y p es y s t 锄w h i d hb a s e do nm u l t i m o d e lr e c o m m e l l d a t i o n e n 舀n e w i l l p r 0 v i d ep e r s o n a l i z e d ,t o pp i c k s ,n e wi t e i n s , e t c r e c o m m e l l d a t i o n , i n t e 伊a t e dt l l ek e y w o r ds e 鲫c h i n ga 1 1 du s e rr a t i n g s 如n c t i o n st oh e l pu s e r sg e ta c c e s s t op e r s o n a l i z e di n f o n n a t i o n 啊ad i 琢:r e n tl e v e l s ,i no r d e rt oe n h a i l c en l eu s e r e x p e n e n c e k e yw o r d s :p e r s o n a l i z e dr e c o m m e l l d a t i o n ,i n t e r e s tm o d e l ,m i x e dr e c o m m e n d a t i o n , s i m i l 撕t y c o l l a b o r a i i v ef i l t 耐n g l l i 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生( 签名) :一丕聱一 日期:赳 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向围家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或沦文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :五牟导师( 签名 日期:呈出! 土 武汉理工- 丈学硕士学位论文 第1 章绪论 本章主要论述个性化推荐系统的研究背景、意义以及发展历程,对个性化 推荐技术的研究现状进行说明,介绍了论文所要做的工作和论文的组织结构。 1 1 研究背景和意义 随着因特网的高速发展,网络上的资源以指数级的速度迅猛增加,“信息过 载 现象随之发生,这一现象产生的根本原因在于传统的搜索算法无法适应当 前这个信息爆炸的时代。也就是说,互联网的迅速发展使得因特网上的服务器 数量以及万维网上的网页数量以指数级的态势在增长,呈现在用户面前的信息 迅速增加。举例来说,亚马逊上有百万级数量的书本信息,上十亿的网页被收 藏在d d i c i o u s 等等。然而对于用户来说只是想在这众多的信息中找到自己感 兴趣的那一部分,但一般的搜索算法并不能针对用户的特征显示相应的排序结 果,用户只能在千篇一律的搜索结果信息中寻找自己需要的信息,也就直接导 致了信息利用率下降这一结果【l j 。 1 1 1 个性化推荐系统的产生 在信息过载的环境里,用户为了从海量的资源中找到自己真正需要的信息 需要花费大量的时间,而结果却往往并不令人满意,这无疑会使淹没在信息海 洋罩的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。 个性化推荐,其中包括个性化搜索,被认为是目前解决信息过载最有效的 工具之一【l 】。个性化推荐系统是基于海量数据挖掘的个高层次的商业智能平 台,使用数据挖掘技术来分析电子商务网站的用户访问行为【2 】,准确识别用户 的喜好,根据用户的兴趣推荐诸如电影、图书、网页、音乐等产品,从而避免 用户浏览大量不相关的信息,帮助用户节约时间,以此提高用户的满意度和忠 诚度【3 】。商家也可以借此提高电子商务系统的销售或访问量,从而产生可观的 利润【4 1 。 1 1 2 研究意义 2 0 世纪9 0 年代中期,个性化推荐研究作为一个独立的概念被提出来,由 武汉理t 大学硕士学位论文 于巨大的应用需求,推荐系统自提出以来得到了广泛的关注【5 l 。作为现代电子 商务发展的产物,个性化推荐系统的研究在理论和实际应用两个方面都具有非 常重要的现实意义。 ( 1 ) 理论意义 个性化推荐系统的理论研究价值被学术界广为关注,而推荐技术作为其中 的核心部分一直以来都是国内外学者研究的热点。 美国计算机协会多次把推荐系统作为研讨主题,众多国内外期刊业纷纷将 推荐系统作为研究专题。在我国,学术界也开始逐渐重视推荐系统的研究,国 家自然科学基金曾资助过“面向电子商务的顾客偏好分析与个性化分析系统 、 “电子商务个性推荐系统及应用研究 等项卧6 1 。 s 仃觚d s 推荐引擎的首席科学家里克汉加特纳博士认为,搜索引擎将在短期 内逐渐加入简单的推荐技术,以处理接近的查询词【_ 7 1 。但从长期来说,比起搜 索行业和搜索技术,推荐技术会更加无孔不入。明尼苏达大学教授j o h n e d l 说:“推荐系统将成为未来十年晕最重要的变革,社会化网站将由推荐系统所驱 动。【7 】” ( 2 ) 应用价值 个性化推荐系统主要通过以下途径为企业增加经济价值f 3 】:1 ) 增加单个商 品被访问的机会;2 ) 增加网站的访问量,提升销售额;3 ) 增加用户在网页上 的停留时间;4 ) 主动帮助用户发现感兴趣的商品,提高用户满意度;5 ) 发掘 潜在用户;6 ) 提高网站的交叉销售能力。 自从2 0 0 3 年w e b 2 0 技术推出以来,个性化推荐系统的研究进入了一个新 的阶段,推荐系统在电子商务网站中的应用水平有了不同程度的提高。在竞争 日趋激烈的环境下,企业在推荐技术方面不断追求完善和进步【引。在国内有一个 例子就是当当网在推出个性化推荐功能三年之后,对推荐系统进行了全面升级, 升级后的系统添加了更为灵活多样的交互方式,可以根据用户的购买、暂存架、 书架、浏览历史以及相似用户购买行为等信息【4 】,为用户提供更为准确和全面的 商品推荐【9 】。而在国外一个典型的例子就是n e t n i x 设置了1 0 0 万美元的奖金, 作为给那些能把他们网站的商品推荐精确度提高l o 的人的奖励。 据v 衄t u r e b e a t 统计,亚马逊网站自从使用推荐系统后,其商品销售额提高 了3 5 嘣9 1 。另外,来自c h o i c e s t r e 锄的调查表明,4 5 的用户更加喜欢到有推荐 功能的网站上购物,而对于在过去半年时间里购物支出超过l 0 0 0 美元的用户, 2 武汉理工大学硕士学位论文 这个比例高达6 9 。同一个调查显示,4 1 的用户更加愿意关注符合他们兴趣的 个性化广告【i o 】。 1 1 3 研究现状 电子商务推荐系统可以分为三大部分:输入模块、推荐引擎与输出模块】。 对整个推荐系统的性能优劣起决定性作用的是推荐引擎模块所采用的个性化推 荐技术。 目前个性化推荐技术主要包括协同过滤推荐技术、基于内容过滤的推荐技 术、基于关联规则的推荐技术、基于效用的推荐技术以及最近兴起的基于用户 产品二部图网络结构的推荐技术等。 协同过滤技术是迄今为止应用最成功的技术,目前国内外互联网上已经有 许多大型网站使用这项技术为用户提供更加智能的推荐内容【1 2 1 。在目前的研究 中,协同过滤技术分为基于用户的协同过滤和基于项目的协同过滤两大类别【i3 1 , 前者通过用户项目评分矩阵计算用户之间的相似度,在用户数量巨大的情况下 存在严重的实时性问题,而后者则通过该评分矩阵计算项目之间的相似度,在 项目数量相对稳定的情况下能够得到很好的实时性能。然而,这两种协同过滤 技术都不可避免的存在着新项目新用户问题,稀疏性问题和可扩展性问趔引。 基于内容的推荐技术,不依赖用户对项目的评分数据,其根本在于信息的 获取和过滤,根据用户的浏览历史和评价历史为用户建立配置文件【1 2 1 ,同时对 项目也建立相应的配置文件,通过计算配置文件之间的相似度达到推荐的目的。 由于在文本信息采集与过滤方面的研究较为成熟,目前很多基于内容的推荐系 统都是通过分析项目的文本信息进行推荐。在信息获取中,表征文本最常用的 方法就是t f i d f ( t e 彻f r e q u e l l c y h e r s ed o c l 蛐e n tf r e q u e n c y ) 方、法1 6 j 。基于 内容的推荐算法不可避免的受到文本获取技术的约束,例如自动提取多媒体数 据的内容特征具有技术上的困难,另外当用户兴趣发生变化时,配置文件的更 新要付出很大的代价【7 】。这些问题是基于内容的推荐技术的研究热点和难点。 基于用户产品的二部图网络结构推荐算法是由刘建国【l 】等人提出的,这个 算法不考虑用户和产品的内容特征,而将m 个用户和n 个产品都当成节点,如 果一个用户曾经选择了某个产品,则用一条线将这个用户和产品连接起来,代 表它们之间具有关联关系。刘建国等提出资源分配的算法,假设用户已经选择 3 武汉理: 大学硕十学位论文 的产品具有向用户推荐其他产品的能力,这些抽象的能力称为产品的资源,每 个产品的资源都可以分配给其它的产品,但是分给其它每个产品的配额是不同 的,该算法通过一个公式计算某个产品可以分配给另外一个产品的资源配额, 从而可以形成一个n 阶矩阵,同时又假设每个用户初始拥有的资源是一个1 唪n 的矩阵,通过这两个矩阵的乘积得到的新矩阵就代表了用户对每个资源的偏爱 程度,通过对他们的排序列出前n 个产品作为推荐。此算法可以不受数据挖掘 技术的制约,并且解决了稀疏性和可扩展性问题,但是却同样面临着新用户和 新项目的冷启动问题f l j 。 基于关联规则分析的推荐、基于效用的推荐和基于知识的推荐等其它推荐 技术也不同程度的得到了很多研究者的关注,经典的啤酒尿布的促销策略就是 基于关联规则的推荐。 每一种推荐技术存在着自身优点的同时,都不可避免的存在着某些弱点, 在实际应用中,电子商务个性化推荐一般采用多种推荐技术的组合,即混合推 荐技术,尽量利用各推荐技术的优点而避免其缺点。针对实际数据的研究显示, 采用混合推荐技术的系统比独立的推荐系统具有更好的准确掣引。目前主流的 混合推荐系统包括基于内容与协同过滤的混合推荐技术,将领域本体技术加入 到协同过滤系统中进行w 曲推荐,基于知识和协同过滤的混合推荐,将协同过 滤算法和音频分析技术进行音乐推荐等【l0 1 。如何将各个推荐技术进行有效的组 合,是现在主流的研究方向。 1 2 论文研究内容和工作 本文通过对电子商务系统面临的问题进行分析,研究主流个性化推荐技术 各自的特点和面临的问题,研究建模技术,将标签、概念知识库和向量空间模 型等应用到用户兴趣建模中,并根据该模型提出相应的相似性计算方法,为混 合推荐技术做基础;通过基于内容的过滤技术和改进的协同过滤技术的混合推 荐技术来解决推荐系统目前存在的稀疏性、冷启动和扩展性问题。 本论文所做的主要工作如下: ( 1 ) 介绍电子商务推荐系统,分析电子商务推荐技术出现的必然性,并对 其面临的问题进行阐述。 ( 2 ) 对现有主流推荐技术进行研究,重点研究基于内容过滤和基于协同过 4 武汉理l 丁大学硕士学位论文 滤的推荐技术的实现过程,并总结两者各自的优势和劣势。 ( 3 ) 研究用户兴趣模型的建立,根据建立的模型提出用户相似度计算方法, 然后根据相似度的计算结果在离线时间里完成用户聚类,从而缩短在线推荐时 的响应时间,提高系统的可扩展性。 ( 4 ) 从目前推荐系统普遍存在的稀疏性、冷启动和准确性问题出发,研究 内容过滤和协同过滤技术的改进,并将两者结合形成混合推荐系统,其核心思 想是采用多种模式的推荐算法以实现优劣势互补。提出混合推荐系统的模型和 框架,并着重分析混合推荐算法的工作流程和推荐策略。 1 3 论文的结构安排 论文共分6 章,文章结构及各章内容简介如下: 第l 章:介绍电子商务推荐系统,对其产生背景和国内外研究现状进行分 析,在此基础上阐述电子商务推荐系统的社会经济价值和理论研究意义。最后, 介绍了论文的研究内容和工作,并给出论文的整体组织结构。 第2 章:介绍电子商务推荐系统的组成和框架结构;重点介绍现有的主流 的推荐技术,包括基于内容的推荐,基于协同过滤的推荐和基于用户一网络二部 分图的推荐技术等,分析和总结各种推荐技术的优缺点、存在的问题以及个性 化推荐系统未来的研究方向。 第3 章:对基于混合模式的推荐技术进行研究,在对基于内容过滤的过滤 和协同过滤技术对比分析的基础上,分析混合推荐技术的可行性,介绍混合推 荐算法的基本思想和现有组合思路,并提出混合推荐系统的框架,对其工作流 程和其中的数据采集以及兴趣模型建立部分进行重点说明。 第4 章:对基于混合模式的推荐算法进行研究。从目前推荐系统中存在的 稀疏性,冷启动和扩展性问题着手,分析混合推荐的数据处理算法和具体的推 荐策略,在此基础上总结出混合推荐系统的模型。 第5 章:综合上述几章的研究,实现一个基于混合推荐算法的原型系统, 并对系统的设计结构和实现进行详细说明。 第6 章:对本文内容进行总结,指出研究的成果和存在的不足,对后续工 作进行展望。 5 武汉理: 人学硕士学位论文 第2 章个性化推荐系统相关理论 本章将介绍个性化推荐系统的组成和框架结构,并对目前现有的主流个性 化推荐技术进行研究,在分析它们的优势和劣势的基础上,总结个性化推荐系 统面临的挑战和未来的研究方向。 2 1 个性化推荐系统的组成 个性化推荐系统由三个部分组成:输入模块,输出模块和推荐模块【9 】。 输入模块是获取用户兴趣信息的接口,获取信息的方式有两种:显示输入 和隐式输入。前者获取的信息主要包括用户在注册系统时提交的个人背景资料, 用户在访问网站时提交的评分数据和评价文本,以及系统要求用户填写的调查 问卷等【s 】。这些信息的获得需要用户和系统进行互动,但是对于表达用户的兴 趣起着关键性的作用。隐式输入是由系统自动记录的用户浏览行为,包括用户 的购买历史以及收藏记录、鼠标点击次数等浏览历史,这些信息可以从日志文 件中得到,不需要中断用户的当前操作,易用性较高。 输出模块主要负责将经过推荐模块运算得到的推荐结果显示给用户。输出 的形式有很多,主要分为【9 】:建议,包括排序建议列表、未排序建议列表和 单个建议,其中比较常见的是t 0 p n 推荐,系统根据用户的喜好向用户推荐最 可能吸引他们的前n 件产品;评分,包括系统对目标项目的预测评分、其他 用户对该项目的个体评分与平均评分;评论,主要是将其他用户对目标项目 的文本评价信息显示给目标用户。 推荐模块是个性化推荐系统的核心模块,负责由输入信息得到输出结果的 整个过程,从根本上决定了推荐系统的性能优劣。该模块以推荐技术和推荐算 法为技术支撑【10 1 ,下面将对主流的推荐技术和对应的推荐算法进行具体的介绍。 2 2 个性化推荐技术概述 在目前的电子商务推荐系统中,使用比较广泛的个性化推荐技术包括协同 过滤、基于内容的过滤、基于关联规则的推荐、基于用户产品二部图网络结构 的推荐和基于知识的推荐等。 6 武汉理t :人学硕士学位论文 2 2 1 协同过滤推荐技术 协同过滤推荐技术是目前研究较多的个性化推荐技术,也是电子商务推荐 系统中广泛使用的最成功的推荐算法【1 4 1 。目前对于该技术的研究分为基于用户 的协同过滤和基于项目的协同过滤两大类【l5 1 ,一般情况下,在用户数量相对稳 定的情况下使用前者,在项目数量相对稳定的情况下使用后者。 ( 1 ) 基于用户的协同过滤技术 基于用户的协同过滤技术是基于这样的假设:如果用户对一些资源的评分 比较相似,那么他们对其它资源的评分也比较相似。其基本思想就是将兴趣相 近的用户的经验与建议作为提供个性化推荐的基础,对目标用户产生推荐,以 满足人们通常在决策之前参考他人意见的心态【j 。 假设有m 个用户和n 个项目,对应形成一个m 宰n 的二阶矩阵,矩阵的值用 用户对项目的评分填充。设u 表示用户,i 表示项目,评分数据用r 表示,则 用户项目评分矩阵如表2 1 所示。 表2 1用户项目评分矩阵 项目 用户 i l1 2 巧 h l u l r l lr 1 2 r l j r l n u 2 r 2 lr 2 2 r 2 j u i r 订 r 日 r i 。 u m r m lr i i l 2 r 喇 尺m 根据上文的介绍,协同过滤推荐的过程分为两步: 1 ) 寻找邻居 基于用户的协同过滤推荐系统使用统计技术寻找与目标用户有相同或相似 兴趣偏好的邻居用户,对于用户之间相似度的计算,目前比较常见的算法主要 包括p e a r s o n 相关系数、夹角余弦相似度和改进的夹角余弦相似度三种【l 。7 1 。 p e a r s o n 相关系数:如果用,。,表示用户让和用户 ,共同评分过的项目的集 合,r ,和r ,表示用户“和用户1 ,对项目f 的评分,r 。和欠,分别表示用户”和 用户,的平均评分,则相似度5 砌( “,v ) 通过p e a r s o n 相关系数计纠1 7 】女口式( 2 1 ) 。 7 武汉理= 人学硕十学位论文 砌咖矗畿一 协。 余弦相似性:某个用户对项目的评分可以看作,z 维项目空间上的向量,如果 用户在某个项目上没有评分,则将该项的值置为0 ,如果用户“和用户1 ,在刀维 -+ 项目空问上的评分分别表示为向量“,1 ,则用户间的相似度s f 聊( “,v ) 通过评 分向量的夹角余弦公式1 8 1 计算如式( 2 2 ) 。 一c o s 赫斋2 一 协2 , 修正的余弦相似性:在上面的余弦相似性度量方法中,并没有考虑用户评 分尺度的问题,因为不同的用户表达自己喜好的程度是不一样的,例如有的用 户会将不喜欢的项目评为2 分,很喜欢的评为4 分,而另外一些用户则会对不喜 欢的项目评为1 分,很喜欢的评为5 分。修正的余弦相似性度量方法的提出正是 考虑到此问题,它在原有的余弦相似性度量公式基础上增加了对用户平均评分 的计算,用平均评分来代表用户的评分尺度i l9 j 。用,。,表示用户甜和用户1 ,共同 评分过的项目的集合,r ,i 和足。表示用户材和用户,对项目f 的评分,r 。和r ,分 别表示用户“和用户,的平均评分,。,和,分别表示用户材和用户y 评过分的 项目集合,则相似度s 砌( “,v ) 通过修正的余弦相似性公式【1 。7 】计算如式( 2 3 ) 。 咖“归高毪卷斋 协3 ) 通过上式进行相似度计算之后,对一个活动用户a ,会产生一个相似度从 大到小排列的邻居集合n = n l ,n 2 ,n k ) ,k 的大小通常有两种方法确定, 一是预先设定一个相似度阈值,将相关度大于阈值的所有用户全部作为邻居;二是 预先设定最近邻居个数k ,将相似度最大的前k 个用户作为最近邻居用户【1 9 1 。 2 ) 评分预测 当前活动用户对商品项目的评分将根据上一步得到的邻居用户集合的评分 值进行预测,选择预测评分最高的前n 个项目作为结果推荐给目标用户,产生 对应的推荐列表。 武汉理一 人学硕士学位论文 假设当前的目标用户为口,其邻居用户集合为u ,则它对项目f 的评分的 预测值尸“是其最近邻居用户对该项目的评分加权和,如公式( 2 - 4 ) 。 s 砌( 口,) 幸( 尺。,一r 。) 只州a + 而可习矿一 q 舢 其中r 其是当前活动用户口的评分均值,j 咖( 口,“) 是用户口与邻居用户“ 的相似度,尺“是邻居用户甜对项目f 的评分值,尺。是邻居用户“的平均评分。 ( 2 ) 基于项目的协同过滤算法 基于项目的协同过滤推荐算法的步骤也分为两个: 1 ) 相似项目集合的寻找 不同于基于用户的协同过滤,该推荐算法为项目寻找邻居项目,而不是为 用户寻找邻居用户。寻找邻居项目的过程,即是项目相似度计算的过程,它涉 及的算法也主要包括p e a r s o n 相关系数、夹角余弦相似度和改进的夹角余弦相 似度三种,只不过需要将每种算法中的两个用户共同评分的项目集合变换为对 两个项目共同评过分的用户集合,同样是基于评分数据对相似度进行计算,然 后经过排序得到靠前的项目作为邻居项目集合。具体过程在此不再一一赘述。 2 ) 预测评分的产生 在得到邻居项目集合后,就可以根据目标用户对邻居项目的评分来预测用 户对目标项目的评分值,选择预测评分最高的前n 个项目作为推荐集反馈给目 标用户,产生对应的推荐列表。 假设当前的活动用户为”,目标项目为口,经过1 ) 得到的口的邻居项目 集合为i ,则用户“对项目口的评分的预测值p 。是口的邻居项目集合得到的 评分值的加权和,具体见公式( 2 5 ) 。 尸。口= 尺。+ s 砌( 口,f ) 书( r 一可) 1 面t j 矿一 q - 5 其中瓦其是当前目标项目口得到的评分均值,s f 所( 口,f ) 是项目为口与邻居 项目f 的相似度,凡,是当前用户甜对项目f 的评分值,r 是邻居项目f 得到的评 分均值。 9 武汉理t 大学硕士学位论文 2 2 2 基于内容过滤的推荐技术 内容过滤是一种最基本的信息过滤方法,它结合自然语言处理、人工智能、 概率统计和机器学习等技术对用户的信息需求进行过滤,然后将其表示成一个 向量空间中的用户模型来代表用户兴趣【1 0 】,同时通过对项目的特征进行标引、 词频统计加权等,生成一个项目特征向量来代表资源模型。基于内容的推荐通 过比较用户兴趣模型与资源模型之间、资源模型与资源模型之间的相似度来推 荐信息j 。 内容过滤的一个关键在于对文本信息的理解,只有对文本的结构进行分析, 并且充分了解了文本的各个组成部分,才能理解文本表达的主题,从而抽取出 代表文本主题的特征词或生成文本摘要等可视化表示【1 2 1 。文本过滤的另一个关 键是用户模型的构造,即用户建模技术,只有准确描述用户的信息需求,才能 进行更好的过滤服掣1 2 j 。 基于以上分析,基于内容过滤的推荐技术可以表达成如下过程: 1 ) 分析项目集合的特征,对项目进行属性标注 2 ) 根据项目的特征属性值对项目分类 3 )根据当前用户的访问历史为其建立兴趣模型 4 )根据当前用户的兴趣模型为其过滤感兴趣的项目内容 2 2 3 其他推荐技术 ( 1 ) 基于网络结构的推荐技术 刘建引l 】等人根据用户产品二部分图建立用户和产品之间的关联关系,并 据此提出了基于网络结构的推荐算法。该算法无需考虑用户和产品的内容特征, 而将它们都看作抽象的节点。对于一个有m 个用户n 个产品的系统,可以被表 示成一个具有m + n 个节点的二部分图,当某个用户选择某个产品时就在这两个 节点之间连线,而且用户曾经选择的产品具有向用户推荐其它产品的能力,根 据给定的公式可以计算某个产品推荐其它产品的能力。 由于用户和产品都被看成抽象的节点,不必考虑用户和产品的内容特征, 也不必依赖用户对产品的评价数据,所以该算法不会受到文本获取等技术的制 约,也不存在数据稀疏性的问题,但是该算法也面临着新用户和新产品等问趔1 1 。 ( 2 ) 基于关联规则的推荐技术 基于关联规则的推荐技术是以关联规则为基础,把已购商品作为规则头, l o 武汉理= 人学硕士学位论文 产生的推荐对象即为规则体,它可以发现不同商品在销售过程中的相关性,在 零售业中已经得到了成功的应用,比如沃尔玛超市的啤酒尿布销售案例。该推 荐技术最为关键的步骤是关联规则的挖掘,其直观的意义在于判断一个用户在 购买某些商品的同时购买另外一些商品的倾向,而它的原理依靠于统计在一个 交易数据库中,购买了商品集x 的记录中,同时购买了商品集y 的比例【2 0 j 。 关联规则的发现是算法的瓶颈,最为关键且最为耗时,但可以离线进行, 另外,商品名称的同义性问题也是关联规则的一个难点。 经过以上对各个推荐技术的介绍,我们得知每种推荐技术都存在自身的优 点和缺点,表2 2 列出了对目前主流推荐技术的对比总纠1 。7 1 。 表2 2 推荐技术主要优缺点对比 推荐技术优点缺点 基于协同过滤的 能处理复杂的非结构化对 象;能够发现新兴趣;推荐存在冷启动,可扩展性和稀疏性问题 推荐技术 个性化、自动化程度高 基于内容过滤的不依赖评分矩阵,推荐结果 难以跨类型推荐;自我学习能力差; 配置文件更新困难;对于非结构化对 推荐技术直观,容易解释 象无能为力 基r 网络结构的不受文本获取技术的制约, 推荐技术不存在数据稀疏性问题 存在新用户新项目的冷启动问题 无冷开始和稀疏性问题;用户必须输入效用函数; 基于效用的推荐对用户偏好变化敏感;推荐是静态的,灵活性差; 能考虑非产品特性属性重叠问题; 规则抽取难、耗时且质量很难保证: 能发现新兴趣点;产品名同义性问题; 基丁规则的推荐不需要领域知识;个性化程度低; 简单、直接;随着规则数量的增多,系统将越来越 难以管理; 能把用户需求映射剑产品知识雉获得; 基于知识的推荐 上;能考虑1 f 产品属性推荐是静态的: 2 3 个性化推荐系统的结构框架 为了能够主动且全面的为用户提供所需要的信息,个性化推荐系统般需 要提供用户接口模块、需求分析模块、信息检索模块、用户分析模块、信息过 武汉理:r 大学硕士学位论文 滤模块和信息推送模块6 部分【13 1 ,对应的基本框架结构如图2 2 所示。 图2 2 个性化推荐系统框架结构图 ( 1 ) 用户接口模块:负责接收用户注册登记时提交的个人信息,并将其保 存到用户数据库中;接收用户登录时输入的验证信息,与用户数据库中的个人 资料进行对比,以完成用户身份验证;接收用户的检索需求;将用户提交的评 价数据以及其他反应用户兴趣偏好的信息提交给需求分析模块;接收推荐模块 传回的信息,将其呈现给用户。 ( 2 ) 需求分析模块:负责分析用户接口模块传来的用户兴趣偏好信息,并 在此基础上建立用户特征模型,并且能够根据用户的反馈实时的修改用户特征 模型。 ( 3 ) 信息查询模块:根据用户接口模块传送过来的信息查询要求,在数据 库中进行相应搜索,并将搜索结果传递给信息过滤模块。 ( 4 ) 信息过滤模块:基于用户兴趣模型对信息检索模块的检索结果进行过 滤并将过滤得到的结果传递给信息推荐模块;此外,该模块还负责将用户分析 模块产生的邻居用户集合的个性化信息推送给信息推荐模块。 ( 5 ) 用户分析模块:通过比较不同用户的兴趣模型,计算用户之间的相似 度,为目标用户形成邻居用户集合,为信息推荐和信息共享做准备。 ( 6 ) 信息推荐模块:负责实现主动推荐服务,根据用户信息库中对于信息 推荐的时间、数量等设置,将经过信息过滤模块过滤的信息传递到用户接口模块。 1 2 武汉理工大学硕士学位论文 2 4 面临的挑战和研究方向 尽管个性化推荐技术已经在最大的网上书店a m a z o n c o m 、最大的网上音乐 商店c d n o w c o m 以及最大的购物网站e ba y c o m 等实际的电子商务系统中成功 应用【2 ,但是站点和业务规模不断扩大、注册用户不断增加,商品复杂度不断 上升等现实情况给电子商务推荐技术带来了极大的考验,具体表现为: ( 1 ) 评分矩阵的极端稀疏性:电子商务系统规模的不断扩大,一方面导致 用户数目和项目数目呈指数级增长,另一方面由于用户对项目迸行评价的过程 是独立于浏览和购物等其它过程之外的瞄】,很少有用户愿意专门花时间去评价 产品,因而导致商品评价率非常低,一般来说,用户购买或者评价的产品数量 只占产品总数的1 。对于拥有2 0 0 万本书的电子商务系统来说,被购买或者评 分的书籍最多只有两万本【2 3 1 。在这种情况下,用户项目评分矩阵极其稀疏,在 进行协同过滤计算相似度时很容易将原本兴趣不致的用户划为相似邻居,往 往导致推荐准确度急剧下降。 ( 2 ) 推荐算法的实时性要求:随着用户数量和项目数量的日益增加,用户 项目评分矩阵变得非常庞大,当用户数量与项目数量都数以万计时,协同过滤 推荐算法需要同时为数以万计的用户同时提供实时的推荐服务,最近邻搜索将 耗费很大的时间代价,系统响应时间延迟,系统性能越来越差,数据量超过一 定程度时甚至将崩溃。在w 曲应用中,响应速度是影响用户体验的最重要因素 之一,这在很大程度上限制了协同过滤技术在实际系统中的应用【2 4 1 。 ( 3 ) 自动化推荐的能力:目前大部分的协同过滤推荐系统需要依赖于用户 显式对项目给予的评分,这种方式需要中断用户的操作,对系统的易用性造成 一定程度的影响,同时此方式数据来源单一,忽略了项目的内容属性,造成推 荐结果并不全面。如何根据用户的行为向用户提供完全自动化的推荐需要进一 步深入的研究。 面对这些日益突出的问题,未来电子商务推荐技术研究的方向将主要集中 在以下几个方面1 1 2 j : 1 ) 混合推荐技术的研究 众所周知,现有的推荐技术已经得到广泛的推广和应用,但各种技术都存 在一些缺陷,因此如何将各种推荐技术融合起来做到取长补短是未来电子商务 推荐技术研究的重要课题。 1 3 武汉理_ t 大学硕士学位论文 2 ) 推荐技术准确度的研究 目前的推荐技术推荐的准确性还得不到保证,准确性的度量仅仅局限于手 工实验阶段,因此,自动化的准确性验证理论模型的研究变得非常重要。 3 ) 数据获取研究 目前,个性化推荐技术的主要数据来源仍然依赖于用户的显式评价,在自 动获取用户的隐含信息方面做得不够。 4 ) 集成应用研究 目前,大多数的推荐算法都集中于提高推荐算法的性能,而对于推荐系统 与其它系统的集成开发与应用,企业商务智能和客户关系管理,以及辅助市场 决策等方面缺乏研究。 1 4 武汉理工大学硕士学位论文 第3 章基于混合模式的推荐技术 为了提高推荐质量,需要将独立的推荐技术进行结合,本章通过对基于内 容的过滤技术与协同过滤技术的比较,探讨基于混合模式的推荐技术的可行性, 并总结混合推荐的基本思想和结构框架,最后对推荐过程中离线部分的兴趣模 型建立以及相似度计算进行分析,为下一步的在线推荐做好准备。 3 1 混合推荐的可行性 3 1 1 混合思路 由上面的分析我们可以得知,每一种独立的推荐算法都存在自身的缺陷, 因此,在实际的推荐系统中,可以将各种推荐算法结合使用形成混合推荐算法, 以提高推荐精度和覆盖率。针对实际数据的研究显示,这些混合推荐系统具有 比独立的推荐系统更好的准确率【2 5 1 。目前使用混合方法的推荐系统可分为以下 几种类型: ( 1 ) 将每种推荐技术独立运行得到的推荐结果取并集,共同推荐给用户。 ( 2 ) 系统中存在多种推荐技术,但是根据特定条件或者场合,显示给用户 使用特定推荐
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025国家基础地理中心招聘工作人员(北京)考前自测高频考点模拟试题及完整答案详解1套
- 2025建融金服(河南)科技服务有限公司甘肃分公司招聘30人考前自测高频考点模拟试题及答案详解(历年真题)
- 2025贵州黔东南州台江县民族中医院第二次长期招聘备案制专业技术人员1人模拟试卷及答案详解(历年真题)
- 2025内蒙古能源集团所属单位招聘30人模拟试卷完整答案详解
- 档案证考试题库及答案
- 动物生物考试题库及答案
- 师范认定考试题库及答案
- 安全教育培训云平台课件
- 电焊工考试题及答案题库
- 2025年新疆汽车销售奖励合同范本
- NB-T+35056-2015-水电站压力钢管设计规范
- 2024年垃圾分类知识考试题库及答案
- 集成电路制造工艺原理集成电路制造工艺原理模板
- 访学归来讲座课件
- 平行四边形的面积集体备课发言稿
- 大学美育(第二版) 课件 第八单元:建筑艺术
- 《肠造口术后并发症护理研究进展综述》7400字
- 学校食堂食品安全主体责任
- 建设用地报批服务投标方案(技术方案)
- 压力容器制造(A2、D级)许可鉴定评审细则
- 2023年诗词诵读技能比赛考试题库(500题版)
评论
0/150
提交评论