




已阅读5页,还剩46页未读, 继续免费阅读
(产业经济学专业论文)个性化推荐系统推荐引擎原型系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
对外经济贸易大学硕士学位论文 摘要 个性化推荐系统是电子商务领域中出现的非常重要的新技术,它的主要作用就是 利用电子商务网站向用户提供产品信息和相关建议,帮助用户决定购买什么产品,通 过模拟销售人员帮助用户完成购物过程,推荐系统在帮助了客户的同时也会提高顾客 对商务活动的满意度。 目前国内电子商务网站在这方面的实践处于较简单的阶段,缺乏个性化,推荐方 法单一的自动化程度低,虽然个性化推荐系统在电子商务中占有相当重要的地位,但 推荐系统还有很多不足。制约推荐系统发展的很大一个因素就是随着产品数量、客户 数量、交易数量增加而激增的信息量,由此产生的稀疏性、扩展性、实时性、精确性 问题。 本文就研究了推荐系统中存在的精确性和智能性问题,通过对推荐系统中规则库 的约束和过滤,改进推荐引擎的推荐机制,进而提高推荐系统的精确性和智能性,文 章重点研究了c a p 算法和f p - t r e e 算法,对其进行了改进和应用。并且把用这两种算法 改进后的个性化推荐系统应用到了保险业中,提出了保险业电子商务的新思路,得到 了有实践价值和理论价值的成果。 这篇论文是基于对关联规则推荐系统的研究的。研究了基于关联规则的推荐系统 及其a p r i o r i 算法,以及系统流程中的推荐引擎,剖析了引擎结构,寻找到了规则库这 一改进突破点。论证了应用c a p 算法和f p t r e e 算法进行规则约束的可行性,并应用c a p 算法和f p - t r e e 算法设计了对规则库进行二次过滤的机制,还对改进机制的可行性和正 确性设计了合理的实验进行了验证。文章还对系统的实现做出了设计。本文采用了有 发展前途的方法解决了当今电子商务领域存在的热点问题。 该研究有助于在其他行业中应用电子商务个性化推荐系统,帮助企业提高工作效 率、盈利水平和核心竞争力。 关键词:个性化推荐引擎系统关联规则 对外经济贸易大学硕士学位论文 p e r s o n a l i z e dr e c o m m e n d e rs y s t e mi so n eo ft h em o s tp o p u l a rt e c h n o l o g i e si n e - b 憾i n e s sa r e a i t sm a i nf u n c t i o ni sp r o v i d i n gp r o d u c t i o ni n f o r m a t i o na n ds u g g e s t i o nb y u s i n ge b u s i n e s sw e b s i t e i tc a nh e l pc u s t o m e r st od e c i d ew h i c ht ob u ya n dh e l pt h e mf i n i s h t h es h o p p i n gp r o g r a ma sar o l eo fm i l e r s p e r s o n a l i z e dr e c o m m e n d e rs y s t e mc a nn o to n l y h e l pt h ec u s t o m e r s , b u ta l s op r o m o t et h ec u s t o m e r s s a t i s f a c t i o nd e g r e et ot h eb u s i n e s s a c t i v i t i e s i nt o d a y sn a t i o n , t h ep r a c t i c es t a n d a r do fe - b u s i n e s st e c h n o l o g yi nt h i sa r e ai sn o th i g h e n o u g h , l a c ko fp e r s o n a l i z a t i o n , m e t h o do fr e c o m m e n d i n gb e i n gs i m p l e ,n o ta u t o m a t i c a l l y h s p i t eo ft h ei m p o r t a n c eo fr e c o m m e n d e rs y s t e m ,i ts t i l lc o n t a i n sl o t so fw e a k n e s s o n eo f t h ef a c t o r si st h em a t t e ro fs p m s e n e s s ,e x t e n t s ,r e a l - t i m ea n de x a c t n e s sw h i c ha r i s ew i t ht h e r a p i di u c r c s s eo fi n f o r m a t i o n t h i sr e s e a r c hf o c u s e so f fe x a c t n e s sa n di m e l l i g c n e ep r o b l e mi nr e c o m m e n d i n gs y s t e m , i m p r o v e s t h er e c o m m e n d i n ge n g i n eb yr e g u l a t i n ga n df i l t e r i n gr u l e si nr e c o m m e n d i n g s y s t e m ,a sar e s u l ti ts o l v e st h ee x a c t n e s sa n di n t e l l i g e n c ep r o b l e m t h i ss t u d y sk e yp o i n ti s d o i n gr e s e a r c ho nc a pa n df p t r e ea r i t h m e t i c , i m p r o v i n gi ta sw e l la si m p l y i n gi t t h i s p a p e ra l s op u ti m p r o v e ds y s t e mi n t op r a c t i c a lu s ei na g s u r a n e ea r e a , g o tv a l u a b l er e s u l t s t h i sp a p e r sr e s e a r c hi sb a s e do nr e l a t i o na r i t h m e t i cr e c o m m e n d i n gs y s t e m ,s t o d i e dt h e s y s t e ma n da v r i o r ia r i t h m e t i ca sw e l la st h er e c o m m e n d i n ge n g i n e p a p e ra l s os t u d i e d s t r u c t u r eo fr e c o m m e n d i n ge n g i n e ,f o u n dr u l eb a s ea sa ni m p r o v e dp o i n t ,t e s t i f i e dt h e f e a s i b i l i t yo fu s i n gc a pa n df p - t r e ea r i t h m e t i c ,d e s i g n e da p p l i c a t i o ne n v i r o n m e n t t h i s r e s e a r c hi su s i n gan e wm e t h o dt os o l v ea p o p u l a rp r o b l e m t h i ss t u d yc o u l dh e l pe c o m m e r c er e c o m m e n d i n g s y s t e ma p p l i e dj no t h e ri n d u s t r ya r e a b e s i d e sr e t a i ls e c t i o n i tc o u l di m p r o v et h ee f f i c i e n c y , p r o f i ta n dc o r ec o m p e t e n c eo fa n e n t e r p r i s e k e yw o r d s :p e r s o n a l i z e dr e c o m m e n d ,e n g i n es y s t e m ,a f f i l i a t ea r i t h m e t i c 2 对外经济贸易大学硕士学位论文 第一章电子商务个性化推荐系统国内外研究现状分析 1 1 电子商务个性化推荐系统综述 随着电子商务以前所未有的速度发展,电子商务网站不断涌现,电子商务网站的 用户数目和商品数目日益增加。在竞争日趋激烈的今天,如何将电子商务网站的浏览 者变为购买者;如何在电子商务网站上有效地提高产品的吸引力,使企业获得尽可能 多的效益;如何使用户面对电子商务网站提供的上万甚至上百万种产品时,更好地选 择到自己满意的商品;进而提高电子商务网站的交叉销售能力和客户对电子商务网站 的忠诚度,成为电子商务企业进行客户关系管理的重要挑战,也是在新的竞争环境中 成败的关键。而电子商务推荐系统就可以有效地解决这个问题。 1 1 1 电子商务个性化推荐系统的概念 推荐系统( r e c o m m e n d e rs y s t e m s ) 1 是为解决h t e m c t 上的信息过载问题而提出的一 种智能代理系统2 3 4 ,能从i n t e r n e t 的大量信息中向用户自动推荐出符合其兴趣偏好或需 求的资源。应用于电子商务网站,推荐系统可以根据用户兴趣、爱好、习惯,以及各 个用户之间的相关性向用户在线推荐商品,提供浏览建议,通过不定期调整网站的结 构方便用户访问,动态地为用户定制个性化的网站,对用户进行个性化服务。电子商 务推荐系统作为有利的分析工具和促销手段,将电子商务网站的中心由网站转为用户。 在许多大型电子商务网站中,如淘宝网、卓越网、当当网等,推荐系统已经得到不同程 度的使用。 推荐系统有非个性化系统和个性化系统之分5 。非个性化推荐系统向所有用户提供 具有同样内容的推荐,如电子商务站点的畅销排行,这属于早期的推荐系统。而个性 化推荐系统则区分不同的用户或用户群,根据他们的偏好定制推荐。由于个性化推荐 系统的信息过滤效果及推荐被用户接受的程度都远胜于非个性化推荐系统,因而在电 影、音乐、产品、新闻和w e b 页面推荐等方面得到了越来越广泛的研究与应用。 s a r w a r , b m ,k a r y p i s ,g ,k o n s t e n ,j 丸a n d r i e d l ,j a n a l y s i s o f r e c o m m e n d e r a l g o r i t h m s f o r e - c o m m e r c e i n p r o e o f t h e a c m e c o l n l r l e r c c 2 0 0 0 c o n o c t 1 7 2 0 2 0 0 0 ,p p 1 5 8 - 1 6 7 2k i m ,b d ,k i i n , s o a n e wr e c o m m e n d e rs y s t e m t o c o m b i n ec o n t e n t - b a s e d a n d c o l l a b o r a t i v e f i l t e r i n gs y s t e m s j o u r n a l o f d a t a b a s em a r k e t i n g 2 0 0 1 6 ( 3 ) :2 4 4 2 5 2 m u j ( j i e g c e ,r ,s j ja ,n s e n a m o v i er e c o m m e n d a t i o ns y s t e ma p p f i c a t i o a o f v o t i n g t h e o r y i n n s c r m o d e l i n g u s e r m o d e l i n ga n du s e r - a d a p t e di n t e r a c t i o n 2 0 0 3 。1 3 :5 3 3 z a i a n s ,0 r b u i l d i n ga r e c o m m e n d e ra g e n tf o re - l e a r n i n gs y s t e m 2 0 0 2i n t e r n a t i o n a lc o n f e r e n c eo nc o m p u t e r si n e d u c a t i o n 2 0 0 2 ,5 5 5 9 吴日花、刘鲁,个性化推荐系统用户建模技术综述,2 0 0 6 ,2 5 ( 1 ) 。p p , 5 5 6 2 。 对外经济贸易大学硕士学位论文 电子商务个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m sf o re - c o m m e r c e ) 的正式定义由r e s n i c k & i r i 柚在1 9 9 r 7 年给出:“电子商务个性化推荐系统是利用电子商 务网站向用户提供产品信息和相关建议,帮助用户决定购买什么产品,通过模拟销售 人员帮助用户完成购物过程的系统”6 。这个定义现在已经被广泛引用。推荐系统的使 用者是用户( u s e r ) ,推荐的对象是项目( i t e m s ) 。项目是推荐系统提供给用户的最终 推荐内容,表现为产品或服务。根据推荐对象的特点,目前存在的个性化推荐系统可 以大致分为两类:一类是以网页为主要推荐对象的推荐系统,这种推荐系统主要采用 w e b 数据挖掘,尤其是w e b 使用日志挖掘的方法和技术来分析用户的兴趣,向用户推荐 符合其兴趣爱好的网页链接。另一类推荐系统的推荐对象主要是产品,这种推荐系统 主要在电子商务网络购物环境中使用,帮助用户找出真正需要的产品,为用户推荐满 足其需要又符合用户兴趣爱好的产品。这些产品除了实体产品外,还包括文章、新闻、 音乐、电影等产品。 1 1 2 电子商务个性化推荐系统的作用 由电子商务个性化推荐系统的定义,不难看出它的作用:“利用电子商务网站向用 户提供产品信息和相关建议,帮助用户决定购买什么产品,通过模拟销售人员帮助用 户完成购物过程”。推荐系统还可以根据其他客户的信息或是此客户的信息,根据客户 的购买频率、消费金额和购买模式预测未来的购买行为,为客户提供个性化服务。根 据挖掘的客户行为模式和购买组合来获取新客户、保持老客户、细分客户和实现交叉 销售。推荐系统在电子商务网站中的作用主要有三方面:( 1 ) 将电子商务网站浏览者 转变为购买者。电子商务个性化推荐系统最主要的功能在于它能够收集用户资料,通 过分析这些资料根据用户兴趣偏好主动的为其作出个性化的推荐。当用户登录到电子 商务网站后,电子商务推荐系统就会按照当前用户属性和偏好推荐其可能感兴趣很可 能购买的产品。而且当系统中的产品库和用户资料发生改变时,推荐系统给出的推荐 序列会自动改变。( 2 ) 提高电子商务网站交叉销售能力。( 3 ) 提高顾客对电子商务网 站忠诚度。电子商务个性化推荐系统具有显著的经济效益,可以大大降低企业的总体 拥有成本。 1 2 电子商务个性化推荐系统主要存在的四个问题 个性化推荐系统在电子商务中占有相当重要的地位,但目前的推荐系统还有很多不 足。制约其发展的很大一个因素就是随着产品数量、客户数量、交易数量增加而激增 的信息量,由此产生的稀疏性、扩展性、实时性、精确性问题。稀疏性问题主要是指 每个客户评价或购买的产品占产品总数中很小一部分,使算法准确率降低,甚至无法 工作。解决这一问题通常有两种途径,一是对原始数据的维数简化,这虽然可以提高 6 r e s n i c k ,v a r i a n r e c o m m e n d a t i o ns y s t e m s ,c o m m u n i c a t i o n so ft h ea c m ,4 0 ( 3 ) ,5 6 - c 5 8 ,1 9 9 7 2 对外经济贸易大学硕士学位论文 算法效率,但在压缩原始数据的过程中不可避免地会损失信息。另一种途径是预先对 客户聚类,将处理对象限制在最相近的类中,这种方法虽然提高了推荐速度,却是以 牺牲推荐质量为代价的。扩展性问题是指随着客户和产品的增加,计算量也大大增加。 在大数据量的情况下,算法的处理时间可能增加到无法忍受的程度,处理能力也变得 十分低下。针对这一问题,改进算法使之更适应大规模计算是研究的重点之一,数据 挖掘正是为了此目的,所以数据挖掘算法大量应用于推荐系统中是未来的发展方向。 实时性问题在于电子商务网站需要在线为大量客户同时提供服务,且数据计算量大, 客户等待时间不可能很长。至于精确性问题,它广泛地存在于各类推荐系统中,个人 信息类似的客户兴趣可能差别很大,客户的偏好也不可能一成不变,基于原有信息做 出的推荐结果和真正的客户需求必然出现偏差。多角度地分析客户需求,多种方法的 互补是提高推荐精确性的对策之一。 1 3 电子商务个性化推荐系统研究热点和方向 针对以上状况,形成了以下四种电子商务推荐系统研究热点和方向7 :一是对当前 的电子商务推荐系统进行改进,使得推荐系统能产生更加精确的推荐;二是将数据挖掘 技术及w e b 挖掘技术应用到电子商务推荐系统中,产生完全自动化的推荐,使客户感 受到完全个性化的购物体验;三是将电子商务推荐系统由虚拟的销售人员转变为市场 分析工具;四是开发销售方的电子商务推荐系统,为商家的产品定价、促销活动及交叉 销售等提供推荐等。总之,随着对推荐系统功能需求特别是实时性及准确性上的需求水 平的不断提高,其实现技术也都面临着严峻的挑战,需要不断的完善。 7 余力、刘鲁,电子商务个性化推荐研究。计算机集成制造系统,2 0 0 4 ,1 0 ( 1 0 ) ,p p 1 3 0 6 - 1 3 1 3 对外经济贸易大学硕士学位论文 第二章个性化推荐在保险业的可行性问题研究 2 1我国保险电子商务发展状况研究 保险电子商务在我国的发展已有五六年的时间了。2 0 0 5 年我国电子商务保费收入 达到5 7 亿元人民币,占全年保费收入的1 1 6 。虽然这一比例还很低,但通过保险电 子商务实现的保险销售,正逐渐成为未来保险业务重要的营销渠道和新的保险业务增 长点。特别是目前在支持保险电子商务保险发展的政策环境、技术状况、市场需求和 供给能力等方面都发生着深刻的变化,为我国的电子商务保险能够得到进一步发展创 造了新的发展机遇。 2 2 推荐系统应用的可行性分析 首先是技术问题得到了改善。网上交易的身份认证问题、在线保费支付问题以及 电子保单问题是拦在网上交易推广普及过程中的三座大山。目前,这些问题已经得到 了有效解决。5 其次,网上保险需求持续增加。我国网民人数持续增加,居民的保险意识也在不 断增强。截止到2 0 0 6 年7 月,我国网民总数己达到1 2 3 亿,上网计算机总数约为5 4 5 0 万台。同时经过保险业界的培育和宣传,我国居民的保险意识不断增强,保险需求进 一步增加。庞大的网民人数和增加了的保险需求将会产生强有力的网上保险需求,推 动保险电子商务快速发展。另外,交强险的推动也为发展保险电子商务创造了无限商 机,汽车保险是适合网上销售的主要保险品种之一,自然会为保险电子商务的发展提 供巨大的市场发展空间。 随着保险业电子商务的快速发展,应用于该行业的个性化推荐系统必然会应运而 生。和一般电子商务网站应用推荐系统的目的一样,保险业应用推荐系统,将会把更 合适的保险产品和险种展现在最合适的人群面前,提高其销售额和销售质量。同时为 有意向投保却又不了解各个险种特点的目标客户提供最直接的建议。 。赛迪网报道 4 对外经济贸易大学硕士学位论文 2 3 应用于保险业的个性化推荐系统系统描述 2 3 1 问题的提出 一个完整的推荐系统需要考虑4 个方面的内容: ( 1 ) 推荐给谁:是对网站的所有用户进行推荐,还是按照某种条件有选择的进行; ( 2 ) 推荐什么:这取决于推荐的目的,是为了预测一个用户对一个项目的喜好程度, 还是为了找出用户可能感兴趣的项目:( 3 ) 何时推荐:是随机或连续的推荐,还是选 择“合适”的时间进行推荐;( 4 ) 以何种方式推荐:是离线推荐,还是在线推荐。这 里的离线与在线是指推荐系统的用户是否正在访问该系统进而做出实时推荐,离线推 荐是指用户处于离线状态时,推荐系统将产生的推荐结果通过某一种渠道主动发送给 用户。 而本文研究的推荐系统,用户群体主要是保险往业中从事市场开发的工作人员。裁 文提到,保险业应用推荐系统,将会把更合适的保险产品和险种展现在最合适的人群 面前,提高其销售额和销售质量。同时为有意向投保却又不了解各个险种特点的目标 客户提供最直接的建议。可是,推荐结果产生的数据,某种程度上说也可以是大量的, 而推荐系统本身就存在精确性这一问题,推荐结果数据中会含有一些噪音,并不是 1 0 0 有效的,或是说,1 0 0 符合实际需求的。所以,本文的研究目的就是怎样对保险 行业的推荐系统进行改进,使其推荐结果更有效、更符合实际。本文主要针对的是推 荐系统生成的规则库( 或模式库) ,对这些规则通过改进算法或根据实际情况设置一定 约束条件进行过滤,得到更精简的规则结果。改进后的推荐系统,其最直接的用户, 应该是是保险行业的营销人员。改进后的推荐系统相当于一个决策支持系统,根据其 所产生的结果,营销人员可以找到更理想的客户,并针对该客户,进行最符合实际需 求的营销。 2 3 2 问题的解决思路 要想达到上述理想结果,提高精确度,一个解决的方法就是对规则库使用再处理技 术提升性能,比如标准化和大量过滤。本研究就是针对保险行业进行调研,根据其实 际的业务种类和产品特点,和对算法的一些改进,设计出一些约束条件,对规则进行 约束。再将这些约束条件集中到推荐系统的一个功能模块中不妨称其为规则约束 管理模块,这样,推荐引擎的规则库经过过滤,得到更精简的规则库,进而能产生更 精简的推荐结果,提升推荐的精确性。经过过滤后的推荐结果,推荐产品从数量上能 得到减少,可以让营销人员得到更直观的结果,进而可以筛选出更精确的推荐险种列 表。这样,当保险营销人员在针对某一位或某一类客户进行营销时,可以更有针对性, 向客户推荐的险种更符合需求。该过程可以通过以下两图的比较直观的表述出。( 图 2 1 、2 2 ) 对外经济贸易大学硕士学位论文 图2 1 原始个性化推荐系统的系统结构 本研究整理 6 对外经济贸易大学硬士学位论文 图2 2 改进后个性化推荐系统的系统结构 本研究整理 目前的一些研究考虑了在推荐系统中使用关联规则9 。然而大部分研究发现所有的 关联规则比生成推荐页面( 接荐阶段需要搜寻所有规则) 或在特定用户邻居的子集中 关联规则的实时生成的优先级要高。本文的在对系统进行分析和设计的时候,是以关 联算法作为思考的出发点的。本文系统设计中有专门的算法管理模块,可以针对不同 的数据特点选用不同的算法。 我们对规则库继续使用关联规则,为推荐规则库提出了一个约束框架,精简冗余 的推荐结果。其实,现实中可以根据不同的数据的特点,使用不同的规则,比如,贝 叶斯网络、聚类、分类、遗传、神经系统等等。而高一级的推荐引擎及其约束条件, 往往是综合使用多个规则的产物。 9 a c m $ i g m o dw o r k s h o po rr e * c a t c hi s s l l c si ad a t am i t r i n ga n dk n o w l e d g ed i s c o v e r y2 0 0 1 对外经济贸易大学硕士学位论文 2 3 3 本文的组织结构 本文首先对推荐系统的研究现状及存在的问题进行了初步的调查,并对保险行业 应用电子商务现状进行了调查,针对上述问题进行了问题分析、需求分析和决定分析, 论证了研究的可行性。接着,对问题的解决方式进行了设计,并介绍了问题解决所依 据的理论,提出了解决方法,并对方法的核心,进行了详细的描述与设计,即第四章 的规则约束模块。之后进行了验证。文章最后对重点模块的实施给出了建议,并对个 性化推荐及推荐引擎的后续研究进行了总结。结构图如图2 2 。 图2 2 文章组织结构 对外经济贸易大学硕士学位论文 第三章个性化推荐系统工作原理分析 3 1 电子商务个性化推荐的主要技术 目前存在着许多个性化服务系统,根据其所采用的推荐技术可以分为两种m :一种 是协同过滤技术( c f ,c o l l a b o r a t i v e f i l t e r i n g ) ,例如g m u p k 璐,w e b w a t c h e r 。另一种是 数搪挖掘技术( d m ,d a t am i n i n g ) 。 3 1 1 协同过滤 协同过滤是推荐系统技术中应用最早和最为成功的技术之一。它们利用用户之间 的相似性来过滤信息,它是基于这样的假设:为一用户找到他真正感兴趣内容的好方 法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用 户。协同过滤推荐系统就是基于其他用户对某一信息的评价来向用户进行推荐,用户 获得推荐是系统从用户购买模式或点击行为等隐式获得的,不需要用户努力地找到适 合自己兴趣的推荐信息。互联网上最大的电子商务网站,亚马逊( a m a z o n c o r n ) 就是 使用的这种技术。该技术的优点是能为用户发现新的感兴趣的信息,缺点是需要用户 提供主观的评价信息,而用户的评价信息可能会过时,使用不方便。同时随着系统用 户和资源的增多,系统的性能会越来越低,不能处理大规模的数据量。因此,协同过 滤技术主要需要考虑的就是前面提到的,数据的稀疏性和可扩展性问题。 3 1 2 数据挖掘 数据挖掘( d a t am i n i n g ) 的定义非常模糊,对它的定义取决于定义者的观点和背 景。如下是一些d m 文献中的定义”:数据挖掘是一个从大型数据库中提取以前未知的, 可理解的,可执行的信息并用它来进行关键的商业决策的过程。z e k u l i n ;数据挖 掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。 f e r r u z z a ;数据挖掘是发现数据中有益模式的过程。j o 蛐;数据挖掘是我们为那些 未知的信息模式而研究大型数据集的一个决策支持过程。p a 娼a y c 。在这里,可以 把数据挖掘看作是基于关联规则( a s s o c i a t i o nr u l e s ) 发现、序列模式( s e q u e n c ep a t t e r n ) 发现、聚类( c l u s t e r i n g ) 技术、w e b 挖掘( w e bm i n i n g ) 技术等,动态获取用户访问 模式,不需要用户提供主观的评价信息,可以处理大规模的数据量,使用方便。其中 1 0 复_ 日大学数据挖掘讨论组。基于w 曲的个性化服务( o n l i n e ) 。h t t p :w w w d m g r o u p ,o r g c a 。 “来源于甄坦佛大学统计系及线性加速中心。 9 对外经济贸易大学硕士学位论文 w e b 挖掘就是指利用数据挖掘技术从w e b 文档和服务中自动发现和抽取信息。 3 2 电子商务个性化推荐的工作原理分析 推荐系统的工作步骤通常大致可以分为以下三步“: 首先,收集客户的信息作为数据源:个性化推荐系统中重要的信息来源于用户的 参与。其中包括了w e b 页面浏览记录、购买的历史记录以及个人属性等。页面浏览记 录储存于服务器的日志文件中,它可以记录下来用户曾经访问过那些网页,访问的次 数和频率,访问了那些内容和用户的信息来源是什么。购买的历史记录主要存储于电 子商务网站的后台交易数据库中,它包含了每位用户以前历次购物的详细情况,包括 购物时间、商品名称、价格、数量、折扣等,同时也可以采集用户通过上网行为经常 关注的,或是过去点击过的商品的连接以及放入购物篮而未购买的商品信息等。对于 电子商务网站来说,可以根据自己的经营策略,通过一定的算法,设计合适的模型, 通过对这些记录信息的运算和分析,可以帮助企业得到目标用户偏好,进而推出和适 合用户的产品和相应的措施,改进在线营销系统的结构和性能,提高产品点击率。个 人属性可以从用户注册表单中获得前提是用户已注册,并且提供的是真实有效的 信息。 其次,分析数据。分析数据的目的是建立客户行为模型,形成客户档案,按照推 荐算法的需要,这些模式可以是客户的分类或聚类情况,也可以是一些规则。这些模 式应该能回答诸如各类小分者具有哪些特征,他们各自喜欢什么样的产品,有哪些方 面的需求以及他们各自的购买习惯和行为特性等问题。协同过滤、数据挖掘、神经元 网络、模型化算法和其他信息处理手段在数据分析中都得到了广泛的应用,聚类技术 将具有相似兴趣、相似属性的客户聚集到相同的簇中,根据簇中其他客户的行为和评 价对目标客户产生推荐。贝叶斯网络技术用训练集创建相应的模型,模型用决策树表 示关联规则用来分析产品问的关联模式用于提高交叉销售能力,最近邻居技术利用客 户历史信息计算客户之间的距离,目标客户对产品的评价则根据最近邻居对该产品的 评价加权产生。这些方法各有优劣,推荐系统需要兼顾准确性和实时性,一个好的系 统很可能是多种方法或技术的结合。 最后,生成产品推荐列表。一般对目标客户可以有两类推荐结果,一是“最好的 几个”推荐集,二是客户对任意项的兴趣度。个性化推荐系统的工作流程可以简单的 用下图来表示。( 图3 1 ) 1 2 熊馨、王卫平、叶跃祥,电子商务产品个性化推荐策略研究,网络与信息化2 0 0 5 ,7 ,p p 1 6 3 1 6 6 。 对外经济贸易大学硕士学位论文 图3 1 个性化推荐系统工作流程 本研究整理 对外经济贸易大学硕士学位论文 3 3 个性化推荐系统描述 3 3 i 系统体系结构 推荐系统一般分为三层体系结构1 3 ,由客户机、应用服务器、数据库服务器组成。 客户机是客户与应用服务器交互的媒介,包括挖掘任务提交、规则筛选、调整算法参 数、结果显示等;应用服务器的作用是解决各种数据挖掘算法问题,并可以从数据库 服务器获得数据。由于数据挖掘的用户是复杂多样的,这就要求系统对于决策者、客 户端能做到灵活易用;还要做到应用服务器能实现功能共享和系统开放性并实现高效 的数据挖掘算法,能够方便地更新算法以及维护方便。而上述结构能够很好的满足这 些要求。 应用服务器也包含三个部分,分别是数据收集子系统、预处理予系统和推荐子系 统。数据收集子系统完成从不同的数据源提取出与个性化推荐相关的源信息。推荐予 系统即完成推荐服务。当用户当前会话访问序列在经过分类子系统辨别出该访问序列 所属类别后,推荐服务结合用户的注册属性对用户本次访问目的进行分析,并将其可 能会浏览或购买的产品作为推荐结果返回到用户界面。 数据库服务器端的数据主要包括:服务器日志文件、o l 【i 嚣、用户显示数据输入 和外部统计数据等。客户端数据记录了单用户访问多服务器的模式,客户端数据需要 有专门的程序收集。这个体系结构可以通过图3 2 直观表示出来。 图3 2 推荐系统体系结构 本研究整理 n 赵艳霞、粱昌勇基于关联规则的推荐系统在电予商务中的应用价值工程,2 0 0 6 年5 月,p p 8 2 - - 8 5 。 对外经济贸易大学硕士学位论文 3 3 2 数据源 电子商务推荐系统,根据数据源选取大致可以分为基于顾客评分,评价和基于顾客 购买历史两类。客户登录公司网站后首先需要注册,形成顾客注册信息表。客户浏览、 发言移对商品感受( 应用服务器层丑志) 也将被保存。这些数据在进入数据痒前必须 清洗、集成和转换。通过数据转换,将源数据转换进挖掘库,为挖掘关联规则提供符 合要求的数据。本文采用了关联规则作为说明工具,一般关联规则的挖掘数据是交易 型数据,最常见的格式如下: u s e r i d ,t r a n s a c t i o n l d , c o m m o d i t i e s l i s t ,p r i c e ,q u a n t i t y , 分别表示用户号, 交易号,交易商品列表,价格,数量等等。 对这些数据先建模,再做商品推荐是通用的方式。 3 3 3 推荐流程模型 以上节所提到的交易型数据源,通过数据预处理转换成标准的顾客交易数据。在 以一定的规则模型为基本算法,寻找用户交易中包含的购买模式和购买兴趣,以规则 的形式保存在规则库中。通常,这一步是最费时的,但是可以通过离线方式进行。即 在获得用户查询或购买信息后,根据规则,产生最优产品t o p n 推荐,实时的向用户推 荐其可能感兴趣的商品。该过程可以细分成九个步骤来完成: ( 1 ) 根据交易数据库中每个用户购买过的所有商品的历史交易数据创建每个用户的事 务记录,构造事务数据库; ( 2 ) 数据标准化。形成标准事务数据库; ( 3 ) 使用如关联规则等挖掘算法对构造的标准事务数据库进行关联规则挖掘,记为关 联规则集合r ; ( 4 ) 对每个当前用户u 设置一个候选推荐集s 。,并将候选推荐集s 。初始化为空; ( 5 ) 对每个当前用户u ,搜索关联规则集合r ,找出该用户支持的所有关联规则集合 r ,鄢关联规则前件所有商品出现在用户1 1 的当前购买数据和历史交易记录中; ( 6 ) 将关联规则集合r ;后件的所有商品加入候选推荐集s 。; ( 7 ) 从候选推荐集s 。删除用户己经购买过的商品; ( 8 ) 根据关联规则集合r ,的置信度对候选推荐集p l l 中所有候选项进行排序,如果一个 项在多条关联规则中出现,则选择置信度晟高的关联规则作为排序标准。 ( 9 ) 从候选推荐集s 。中选择置信度最高的前n 个项作为推荐结果返回给当前用户u 。 对外经济贸易大学硕士学位论文 第四章推荐引擎原型系统结构剖析与研究 4 1 推荐引擎工作原理剖析 4 1 1 推荐引擎的产生 目前的推荐系统都是基于w e b 挖掘的,因为传统的基于内容和基于规则的个性化技 术有很多的缺点和不足,输入一般都是客户个人主观描述,因此不可避免的有较大偏 差,些特征是通过客户注册来获得的,他们是静态的,但随着客户年龄的增大,其 兴趣爱好也会改变。协作过滤系统会随着产品或页面数量的增加,其精度也会下降。 对那些比较单一的内容,协作过滤系统的处理效果比较好,当产品或页面之间关系错 综复杂时,就很差。w e b 挖掘技术可以克服这些传统的个性化服务技术的缺陷从系统的 体系结构上讲,它通常包括离线和在线两大模块,如图4 1 所示。 图4 1w e t ) 挖掘推荐系统结构 本文研究整理 离线模块有两个功能,一是总体使用特征获取,另一个是数据预处理。所谓总体使 用特征是指通过一定的算法产生频繁项集,这些频繁项集以规则的形式存储在数据库 中,它为在线推荐模块提供基础支持,所以如上图表示,离线模块是在线模块的基础 模块口。在线模块主要就是推荐引擎的实现。 4 1 2 推荐引擎的本质 推荐引擎是一个实时处理过程,它主要的功能是识别当前用户事务,然后根据当前 用户事务的部分数据,例如,基本属性、w e b 浏览路径等,从规则库中搜寻所有匹配 规则,提取匹配规则右件作为推荐集,并将相应的推荐集连接到推荐结果输出处,完 成推荐过程。它是动态实时过程,同时推荐引擎产生的频繁项集也会动态添加到离线 模块中,作为离线模块的一部分。 对外经济贸易大学硕士学位论文 离线模块和在线模块具有相似的处理过程,通过两模块的相互作用,此系统可以 保证最后呈现给客户的推荐集是实时的,最新的,也是合理的。从w e b 使用挖掘的一般 处理流程来看,离线模块的处理流程通常包括四个基本的部分1 4 :源数据采集、数据预 处理、模式发现、模式分析。源数据采集主要作用是对客户机上系统日志文件进行搜 集和整理;数据预处理部分包括对原始粗糙的数据进行消洗、处理等步骤,这是数据 挖掘必经阶段,预处理结果的好坏直接影响着下一步工作是否可以顺利进行,该部分 具体包括数据清洗,用户鉴定,会话鉴定,路径整合和序列鉴定5 个步骤;第三部分是 模式发现,系统使用一定的算法对序列集进行挖掘,产生关联规则;第四部分则是模 式分析部分,此部分是利用各种各样的模式分析工具进行处理。这一过程可由图4 2 表 示出来。 图4 2 离线模块处理流程 本研究整理 赵家伟,智能电子商务个性化服务推荐引擎技术的研究与实现,南京航空航天大学硕士学位论文,2 0 0 4 年。 对外经济贸易大学硕士学位论文 4 2 数据来源 4 2 1 用户行为 客户浏览行为就是指客户在某个网站上浏览页面的顺序和时闻的总称。我们可以 把网站的浏览者可以分成两群:一是浏览者有较明确的消费目的,他们的做法是直接 奔向自己的目的,在包含有所需商品的不同页面上进行比较浏览,最后下达电子订单; 第二类浏览者没有较明确的购物目的,多数都是在感兴趣的页面随机依据个人的兴趣 喜好浏览各种商品。相对于第一类客户而言,第二类浏览者就是电子商务企业潜在的 市场客户。作为一个电子商务网站,了解客户最喜欢的网页或商品,了解客户的浏览 顺序,根据这些知识来安排自己的网站结构和推销自己的商品都是至关重要的。客户 以点击超链接的方式来访问电子商务网站,寻找它们感兴趣的主题,所有客户行为的 电子化,可以抽象的用点击流来表示,这些数据被记录在服务器日志里,我们大量收 集每个客户的每一个行为数据、深入研究客户行为,从这些表面化的繁琐数据中得到 更直观的。有价值的信息和知识。 我们可以总结出基本思路:就是从分析客户的浏览行为开始,具体来说就是分析 w 曲日志数据,利用数据挖掘方法发现客户的使用模式,从而向客户提供个性化的推荐。 4 2 2 日志文件 w e b 日志文件经常是以扩展的普通日志文件形式来提供信息的,w e b 日志文件中 包含口地址、期时间、返回码、传送的字节数、方法、u r l 、h t f p 、引用页u r l 和 浏览器类型等。个性化推荐系统的数据源是服务器端w e b 日志文件。w e b 日志文件记 录着客户浏览行为,对于基于w e b 的电子商务服务器,保存了大量的w e b 访问日志记 录,这些日志记录提供了有关w e b 动态的丰富信息,可以通过这些日志文件对用户的 访问行为、频度、内容等进行分析,得到关于用户的行为和方式模式。每当有获取资 源的请求至4 来时,w e b 服务器都将记录和积累这些关于用户交互作用的数据。分析不 同的w e b 站点和w e b 访问日志可帮助人们理解用户行为和w e b 的结构,从而为用户 提供个性化的服务。w e b 使用挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。 一般访问模式跟踪通过分析w e b 日志来理解用户的访问模式和倾向,以给出较好的 w e b 结构及资源提供者的分组情况;定制使用跟踪则分析单个用户的偏好,根据其访 问模式为每个用户定制符合其个人特色的w e b 站点服务。w e b 使用挖掘所挖掘的数据 除了来自w e b 日志文件,还有其他的数据来源,例如:代理服务器日志、浏览器日志、 用户数据、注册数据、用户会话或交易、c o o k i e s 、书签数据以及任何人同w e b 进行交 互所产生的其他数据。这些数据来源是w e b 日志文件的很好补充,对于提高基于w e b 使用挖掘个性化服务的质量也具有很重要的作用。 目前有很多的日志分析器可以使用,例如w e b a l i z e r ,l o g c l e a n e r 等,对日志的分析 1 6 对外经济贸易大学硕士学位论文 是实现系统的第一步。通常电子商务系统使用的w 曲服务器是m i c r o s o f ti n t e r n e t i n f o r m a t i o ns c r v i c c s ( 1 l s ) 6 0 。它的日志项可以在i n t e r n e ts e r v i c e sm a n a g e r 中设定,表4 1 列出了i i s 中的日志项。 表4 1 ( n s l 5 o w 3 c 格式的日志文件中的日志项 字段名中文名说明选择 d a t a 日期访问日期必选 t i m e 时间访问时间必选 客户i p 地址访问者的i p 地址必选c - l p c s u s e r n a m e 客户名访问服务器的客户名 可选 s - s it e n a m e 服务名客户计算机上正在运行的i n t e r n e t 服务可选 s - c o m p u t e r n a m e服务器名生成日志条目的服务器名称可选 服务器i p 地 生成日志条目的服务器i p 地址可选 s - l p 址 s p o r t服务器端口客户连接到的端口号可选 e s - m e t h o d 方法客户试图执行的操作可选 c s u r i - s t e mu r i 资源 已访问过的资源必选 a s u r i 。q u e r y u r i 查询客户试图执行的查询必选 s o - s t a t u s h t t p 状态按h t t p 术语表达的操作状态必选 s e - w i n 3 2 - s t a t u s w i n 3 2 状态以w i n d o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论