(计算机科学与技术专业论文)基于商品类目结构的自适应推荐系统.pdf_第1页
(计算机科学与技术专业论文)基于商品类目结构的自适应推荐系统.pdf_第2页
(计算机科学与技术专业论文)基于商品类目结构的自适应推荐系统.pdf_第3页
(计算机科学与技术专业论文)基于商品类目结构的自适应推荐系统.pdf_第4页
(计算机科学与技术专业论文)基于商品类目结构的自适应推荐系统.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机科学与技术专业论文)基于商品类目结构的自适应推荐系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 摘要 随着互联网和电子商务的蓬勃发展,电子商务平台在为用户提供越来越多选 择的同时,其结构复杂化,存储的数据庞大化,用户经常在平台上无法找到自己 感兴趣的商品。作为电子商务平台上必不可少的推荐系统,模拟线下的销售员和 用户面对面沟通,向用户推荐商品,通过和用户的交互让用户最终完成购买等这 一连串在销售行为中最为核心的过程。随着电子商务平台的细分,逐渐发展成综 合性b 2 c 电子商务平台和垂直b 2 c 电子商务平台。垂直b 2 c 电子商务平台和综合 性b 2 c 电子商务平台不同,它具有它自己所独特的特点:商品品类不多、商品间 存在固有的关联关系。 本文将提出一种适合垂直b 2 c 电子商务平台上的推荐系统,它会利用电子商 务平台上既有的商品类目结构来优化推荐结果,并针对垂直b 2 c 电子商务平台所 独有的特点来完善推荐系统的效果,还会把b 2 c 电子商务平台一些基于知识或经 验的规则应用到这个推荐系统里面。 在第五章,实验和验证章节中,本文从四个不同的角度设计了四个实验,并 在真实的电子商务平台上验证本文所提出的算法。实验结果表明本文所提出的推 荐算法比基于纯统计的推荐算法的“附属商品比主商品销量占比”高8 左右。 关键诃:推荐系统,b 2 c 电子商务平台,自适应,内容过滤推荐,混合推荐, 基于知识推荐 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e m e ta n d e c o r n m e r c e 。e c o m m e r c e p l a t f o r m sp r o v i d eu s e r sw i t hm o r ea n dm o r ec h o i c e s ;a tt h es a m et i m e ,i t ss t r u c n i r eh a s b e c o m em o r ec o m p l e x ,t h es t o r e dd a t aa r ei n c r e a s i n g l yl a r g e ,u s e r so f t e nc a nn o tf i n d w h a tt h e yn e e do nt h ep l a t f o r m a nr e c o m m e n d a t i o ns y s t e m ,w h i c hi se s s e n t i a lf o ra e 。c o m m e r c ep l a t f o r m ,r e c o m m e n dp r o d u c t st oc u s t o m e r s ,t h r o u g ha n du s e ri n t e m c t i o n w i t ht h es y s t e m ,l i k es a l e si n t e r a c t i n gw i t hc u s t o m e r sf a c et of a c e b 2 ce - c o m m e r c e p l a t f o r m sc a nn o wb ed i v i d e di n t ot w ot y p e s :i n t e g r a t e db 2 ce c o m m e r c ep l a t f o m l , a n dv e r t i c a lb 2 ce c o m m e r c ep l a t f o r m v e r t i c a lb 2 c e - c o m m e r c ep l a t f o r mi sd i 绿:r e n t f r o mi n t e g r a t e db 2 ce - c o m m e r c ep l a t f o r m ,a n dh a si t s o w nu n i q u ec h 副a c t e r i s t i c s s u c ha s :t h en u m b e ro f c o m m o d i t i e s ,a s s o c i a t i o nb e t w e e nc o m m o d i t i e s f l a i s p a p e rp r o p o s e das u i t a b l er e c o m m e n d a t i o n s y s t e mo nav e r t i c a lb 2 c e 。c o m m e r c e p l a t f o r m , w h i c hw i l lt a k ea d v a n t a g eo ft h e e x i s t i n gs t r u c t u r eo f c o m m o d i t yc a t e g o r i e so nt h ee - c o m m e r c ep l a t f o r mt oo p t i m i z et h er e c o m m e n d a t i o n s o m eu n i q u ec h a r a c t e r i s t i c so fv e r t i c a lb 2 ce c o m m e r c ep l a t f o r m w i l lb eu s e dt o p e r f e c tr e c o m m e n d a t i o ne f f e c t i v e n e s s ;b u s i n e s sk n o w l e d g ea n de x p e r i e n c er u l e sw i l l b ea l s oa p p l i e di n t h i sr e c o m m e n d a t i o n s y s t e m 1 nt h e e x p e r i m e n ta n dv a l i d a t i o n s e c t i o n s ,t h i sa r t i c l ew a sv e r i f i e dt h e e f f e c t i v e n e s so ft h e a l g o r i t h mi nt h er e a le c o m m e r c ep l a t f o r mi nt w o w a y s e x p e r i m e n tr e s u l t si n d i c a t et h a tt h er e c o m m e n d a t i o nm a d eb yo u rm e t h o dc a n i m p r o v e t h ep e r c e n t a g eo f s u b s i d i a r yc o m m o d i t i e sp u r c h a s ea b o u t8 m o r et h a nt h a tb a s e d0 n p u r es t a t i s t i c a la l g o r i t h m s k e y w o r d s :r e c o m m e n d e rs y s t e m ,b 2 ce - c o m m e n c e s y s t e m ,a d a p t i v e ,c o n t e n t - b a s e d f i l t e r i n g ,h y b r i dr e c o m m e n d e r s y s t e m ,k n o w l e d g e b a s e dr e c o m m e n d e rs y s t e m 浙江人学硕士学位论文图目录 图目录 图2 1 推荐系统结构图5 图2 2 推荐系统丰要的应用领域6 图2 3 电子商务推荐系统体系结构7 图3 1 权重性混合算法模型15 图3 2 转化型混合算法模型16 图3 3 组合型混合算法模型17 图3 4 特征混合型混合算法模型18 图3 5 层级型混合算法模型。19 图3 - 6 扩充特性型混合算法模型。2 0 图3 7 原始层型混合算法模型21 图4 1 主商品( m a i ni t e m ) 详细页面的推荐一2 3 图4 2 方案流程图一2 6 图4 3 算法流程图2 9 图4 4c 、c a 矩阵数据库表结构3 0 图4 5p 、p a 矩阵数据库表结构一3l 图4 6v a 矩阵数据库表结构3 2 图4 7u a 矩阵数据库表结构3 2 图4 8p p 矩阵数据库表结构3 3 图4 9 算法函数表示图3 4 图4 1 0 推荐系统的窗口模型3 6 图5 1 商品类目的树状结构图。4 0 图5 2 商品类目结构e r 图。4 l 图5 3 三种彳i 同算法在历史数据环境下的c 。值比较4 8 图5 - 4 不同m a x w i n d o w l e n 下不同组差异比较的t 值图5 0 图5 - 5 基于商品类目结构的自适应推荐系统在p e r c e n t c 。值比较5 1 图5 - 6 不同时间段内不同算法的“附属商品比主商品销量占比”5 3 图5 7 不同推荐算法在实际平台中的附属商品比丰商品销售占比5 5 图5 8 自适应算法在不同时间段的附属商品比主商品销售占比变化图5 6 浙江人学硕十学位论文表f 1 录 表目录 表3 1 内容过滤算法和协同过滤算法的优缺点比较1 3 表5 1 三种不同推荐算法的c t 值对比( m a x w i n d o w l e n = 5 ) 4 5 表5 2 三种不同推荐算法的c t 值对比( m a x w i n d o w l e n = 6 ) 4 6 表5 3 三种不同推荐算法的c t 值对比( m a x w i n d o w l e n = 4 ) 4 7 表5 4 不同m a x w i n d o w l e n 下不同组差异比较的t 值4 9 表5 5 真实平台上各种算法的结果5 2 表5 - 6 不同推荐算法在实际平台中的推荐结果5 4 表5 7 自适应算法在不同时间段的附属商品比主商品销售占比5 6 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得迸姿盘鲎或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名:签字日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解逝婆盘堂有权保留并向国家有关部门或机构 送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权滥江盘堂可 以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:导师签名: 签字日期:年月日签字日期:年月日 浙江大学硕士学位论文第l 章绪论 第1 章绪论 1 1 课题背景 近年来,随着互联网的快速发展,信息超载( i n f o r m a t i o no v e r l o a d ) 问题让 用户无法快速地获取自己感兴趣的信息。互联网用户开始越来越多地使用搜索引 擎、推荐系统或门户网站,来达到更快更准确获取自己所需信息的目的。搜索引 擎和推荐系统在互联网用户的工作生活中起着越来越重要的作用。搜索引擎和推 荐系统这两者之间最大的区别是推荐系统还研究用户,包括用户的个性特点、用 户的行为,而搜索引擎更多地依赖于用户输入的关键字。 在推荐系统的各项应用中,电子商务购物推荐是一个非常重要的方面。随着 物流、支付等之前一直遏制电子商务发展的环节在近些年被疏通和解决,越来越 多的电子商务平台蓬勃发展起来了。不同于以往传统地面销售渠道,促销员可以 通过和终端顾客间面对面的沟通来获取顾客已有或潜在的购物需求。电子商务平 台虽然直接面对终端顾客,如若没有后台强有力的数据分析和人工智能,电子商 品平台是无法得知此时此刻正在浏览页面的顾客潜在的购物需求。在这种情况下, 拥有大量数据分析和人工智能的推荐系统就变得必不可少了。几乎所有大型的电 子商务平台,例如a m a z o n ,e b a y ,国内的t a o b a o ,都不同程度地使用了各种彤 式的推荐系统。随着综合性b 2 c 网站的发展和推动( 类似于a l i l l a z o n ) ,各种垂直 b 2 c 网站也渐渐发展起来了,例如专门卖钻石却仍有着很多忠实用户的b l u e n i l e , 专门卖鞋子的z a p p o s 等。因为这些垂直b 2 c 网站可以根据它们所销售的特有品 类给用户提供更为专业、更加个性化的服务,它们也有了自己的生存空间和活跃 舞台。随着这些垂直b 2 c 电子商务平台的发展,特别是销量、用户和商品数量增 大到一定程度的时候,推荐系统对它们的重要性也就体现出来了。应用在这些垂 直的b 2 平台上的推荐系统跟综合性b 2 c 电子商务平台的会有一些不同的地方, 例如:垂直的b 2 c 网站不像综合类网站有庞大的商品数量,而且推荐结果的对象 和对象之间可能会存在互斥性问题。如果垂直的b 2 c 平台完全袭用综合性b 2 c 平 浙江人学硕十学位论文第l 章绪论 台的推荐算法,就不能利用垂直b 2 c 平台所特有的属性,对应用在它上面的推荐 系统做出相应的优化,也就不可能有更好的推荐效果了。 本文将会提出一种适合垂直b 2 c 电子商务平台的推荐系统。此推荐系统将会 利用b 2 c 电子商务平台自身就已经维护有的一套商品类目结构来优化推荐结果, 也会结合垂直b 2 c 电子商务平台不同于综合性b 2 c 电子商务平台的特点来使推荐 系统的结果能做到更优,同时,此推荐系统还会随着电子商务平台的用户数据不 断积累,推荐的效果会越来越好。 1 2 本文的工作 本文结合垂直b 2 c 电子商务平台的特性,其中包括:1 ) 维护有一套商品类目 结构;2 ) 有主商品、附属商品的关联关系;3 ) 商品种类不多;4 ) 推荐列表并 不是序列,而是有固定窗口大小的集合;5 ) 附属商品之间存在互斥性,提出一 种适合垂直b 2 c 电子商务平台上的推荐算法。并依托一个真实的专业做手机的垂 直b 2 c 电子商务平台做实验,验证本文所提出的算法的效果。 1 3 研究的意义 电子商务的蓬勃发展,让推荐系统拥有了不可限量的商业价值,特别是在中 国,c 2 c 、b 2 c 、b 2 b 各类形式的电子商务都涌现出来了。调查显示:中国的电子 商务交易额,自2 0 0 6 年突破万亿元大关以来,每年以高于7 0 的速度持续增长, 预计2 0 1 0 年将达1 5 万亿元,电子商务已经成为我国社会经济的重要组成部分。 b 2 c 电子商务平台作为电子商务中最被关注的形式,近年也有了高速地发展。不 仅仅是类似于a m a z o n 的综合性b 2 c 电子商务平台,很多专业的垂直b 2 c 电子商 务平台也发展起来了。最近一次的电子商务会议上,我们发现有成千上万家垂直 b 2 c 电子商务平台发展起来了。 如何让用户在浏览垂直b 2 c 电子商务平台上,能快速找到自己需要购买的商 品,并能发掘出用户潜在的购买欲望,给平台带来更高的商业价值。这是本文想 要解决的问题。 2 浙江大学硕士学位论文 第1 章绪论 1 4 论文结构 本文共六章,说明如下: 第1 章,绪论,介绍论文工作。 第2 章,介绍推荐系统的概述,尤其是推荐系统在电子商务上的应用。 第3 章,详细介绍了推荐系统现下较为流行的算法。 第4 章,提出了基于商品类目结构的自适应推荐算法。 第5 章,通过四组实验米验证本文提出的算法的效果。 第6 章,讨论了电子商务平台上的推荐系统的发展方向,以及本文总结。 1 5 本章小结 本章作为绪论,简要介绍了本文研究内容的背景,同时简要说明了本文的研 究工作,并介绍了这些研究的实际意义。同时,还介绍了本文各个章节的大概内 容。 浙江犬学硕:十:学位论文 第2 章推荐系统概述 第2 章推荐系统概述 2 1 推荐系统的概念 推荐系统( r e c o m m e n d e rs y s t e m ) 是一种为了减少使用者在搜寻信息过程中所 附加的额外成本而提出的信息过滤( i n f o r m a t i o nf i l t e r i n g ,i f ) 机制。r e s n i c k 认为一般信息过滤系统也泛称为推荐系统,它可以依据使用者的偏好、兴趣、行 为或需求,推荐出使用者可能有所需求的潜在信息、服务或产品。 在有关推荐系统的研究论文中,“推荐”有时又被称为“导航”或“过滤”。 一般认为,个性化导航侧重于指在用户访问系统的过程中进行前瞻搜索,找出用 户感兴趣的信息,提示用户下一步的浏览方向。与推荐系统类似,面向个性化服 务的信息过滤技术是通过对用户兴趣和行为的学习来选取相关信息,推荐处理与 信息过滤一个是择取所需,一个是摒弃无关,两者的目标和方法是一致的。 在开放的互联网环境下,网上用户需要一种类似采购助手的功能来帮助其进 行信息、资源的选择。推荐系统需要根据用户的兴趣爱好推荐用户可能感兴趣或 是满意的资源。如果推荐系统能把满足用户模糊需求的资源推荐给用户,则就可 以把用户的潜在需求转化为现实的需求,从而提高用户对网络应用系统的满意度 和忠诚度,提升用户的使用体验,从而扩大网络应用系统的访问量。为了实现个 性化推荐服务,首先需要跟踪和学习用广的兴趣和行为,并设计一种合适的表达 方式。为了把资源推荐给用户,必须组织好资源,选取资源的特征,并采用合适 的推荐方式。 综上所述,本文尝试从系统的角度,将推荐系统概念界定如下:推荐系统, 是一种收集各个用户对资源的推荐反馈意见、资源内容、用户特征等信息,用特 定的知识表示方法进行处理存储然后利用推荐算法分析所获得的知识,针对特定 用户的需求偏好为其推荐相应资源,帮助用户作出决策的智能决策支持系统。 从系统流程的角度讲,可以将推荐系统分为输入模块、推荐处理模块和输出 模块,如图2 1 所示: 4 浙江大学硕十学位论文第2 章推荐系统概述 2 2 推荐系统的应用 分解用户需求为推 荐任务 上 利用推荐算法求解 推荐资源库 图2 1 推荐系统结构图 目前,推荐系统已经运用到多个行业中,推荐对象包括书籍、音像、网页、 文章、新闻等,请看图2 2 。事实上大多数的推荐系统主要应用在电子商务和w e b 中,其中己应用到商业中的推荐系统主要有电子商务、电影和音乐等领域,其中 以电子商务为最有代表性。 电子商务和推荐系统的发展是相辅相成的。一方面,电子商务系统需要推荐 系统的大力支持帮助用户找到所需商品,提升客户的购物体验。另一方面,电子 商务系统自身的特点也有利于推荐系统的顺利实施。主要原因包括: 1 ) 丰富的数据:电子商务环境收集的各种数据比较丰富,如用户注册数据、 用户交易数据、用户评分数据、用户购物信息、用户浏览数据等。丰富的 数据为建立多种推荐模型,产生高质量的推荐提供了可能。 2 ) 电子化的数据收集:电子商务环境中的各种数据通过电子化方式收集,减 小了手工方式收集数据可能出现的人工误差,噪音数据大大减少,各种数 据的可信度比较高,数据预处理比较简单。 3 ) 易于对推荐效果进行评估:在电子商务中实施推荐系统的投资回报率易于 浙江大学硕士学位论文第2 章推荐系统概述 通过电子商务w e b 站点访问量的增加、电子商务系统销售额的增加等指标 直接进行评估。 图2 2 推荐系统主要的应用领域 2 3 电子商务推荐系统的组成 电子商务推荐系统作为一个系统,有它自己与外界交互的部分,主要可分为 输入功能( i n p u tf u n c t i o n a l ) 模块、推荐方法( r e c o m m e n d a t i o nm e t h o d ) 模块和 输出功能( o u t p u tf u n c t i o n a l ) 模块( 具体体系结构见图2 3 ) 。 6 浙江人学顶士学位论文第2 章推荐系统概述 图2 3 电子商务推荐系统体系结构 2 3 1 推荐系统的输入 推荐系统的输入包括多种形式,不同类型的推荐系统,其输入信息也不相同。 推荐系统的输入可以是用户当前的行为,也可以是用户访问过程中的历史行为。 在大型的电子商务系统中,为了产生高质量的推荐,推荐系统可能需要多种类型 的输入信息,主要包括: 1 ) 隐式浏览输入:将用户访问电子商务站点的浏览行为作为推荐系统的输 入,用户的浏览行为与一般的常规站点没有区别,因为他并不知道推荐 系统的存在。用户当前正在浏览的商品、用户购物篮中选择的商品以及 用户的浏览路径等都可以作为隐式浏览输入信息。 2 ) 显式浏览输入:也是将用户的浏览行为作为推荐系统的输入,但与隐式 浏览输入不同,用户的显式浏览输入是有目的向推荐系统提供自己的兴 趣爱好。例如,电子商务系统提供一系列热门商品供用户选择,用户只 选择浏览自己感兴趣的商品列表,推荐系统根据用户的浏览行为向用户 提供个性化的服务。 3 ) 关键字商品属性输入:用户在搜索引擎中输入关键字作为推荐系统的输 7 浙江大学硕士学位论文第2 章推荐系统概述 入,或者将用户当前正在浏览的商品类别作为推荐系统的输入。这种类 型的输入不同于用户随意的浏览行为,用户输入的目的就是在电子商务 系统中搜索自己需要的商品。 4 ) 用户评分输入:将用户对商品的数值评分数据作为推荐系统的输入。推 荐系统列出一系列商品让用户评分,用户的评分可以是一个数值,数值 大小表示用户对商品的喜好程度,也可以是一个布尔值,0 代表不喜欢, 1 代表喜欢。用户提供的评分数据使得推荐系统可以为用户提供个性化的 服务。 5 ) 用户文本评价输入:用户对已经购买的商品或自己熟悉的商品以文本的 形式进行个性评价。推荐系统本身并不能判断这些评价的好坏,其他用 户浏览该商品时,可以看到该用户对商品的文本评价信息。 6 ) 编辑推荐输入:将领域专家对特定商品的评价作为推荐系统的输入。领 域专家对商品的性能特点进行全面详细的介绍,用户通过专家的专业介 绍,可以对自己并不熟悉的商品加深认识,从而决定是否购买该商品。 7 ) 用户购买历史输入:推荐系统将用户的购买历史作为隐式评分数据。一 旦用户购买了特定商品,则认为用户喜欢该商品。推荐系统根据用户的 购买历史产生相应的推荐。但是用户购买了某件商品并不代表用户喜欢 该商品,所以在精确的推荐系统中,用户可以对购买的商品进行重新评 分,从而使推荐系统产生更精确的推荐。 2 3 2 推荐系统的输出 不同类型的推荐系统,其输出也各不相同。大型电子商务系统可以同时向用 户产生多种不同形式的输出。 推荐系统的输出形式主要包括: 1 ) 相关商品输出:推荐系统根据用户表现出来的行为特征或电子商务销售 情况向用户产生商品推荐。这种形式是推荐系统使用最为普遍的种输 出。相关商品输出可以基于简单的销售排行向用户推荐热门商品,也可 以基于对用户的行为特征进行深入分析,发现用户的购买行为模式,从 8 浙江大学硕十学位论文 第2 章推荐系统概述 而产生个性化的推荐。 2 ) 个体文本评价输出:推荐系统向目标用户提供其他用户对商品的文本评 价信息。个体文本评价一般是非个性化的,对每个项而言,所有用户得 到的个体文本评价均相同。 3 ) 个体评分输出:向目标用户提供其他用户对商品的数值评分信息。个体 评分输出没有大量的文本描述信息,因此更加简洁明了。个体评分输出 比较适合个体数值评分数据比较少的场合。 4 ) 平均数值评分输出:推荐系统向用户提供其他用户对商品数值评分信息 的平均值。这种输出形式具有简洁明了的优点,用户可以立即获得对该 商品的总体评价。 5 ) 电子邮件输出:推荐系统可以通过电子邮件的形式向用户提供商品的最 新信息。这种输出方式可以吸引用户再次访问电子商务系统,从而达到 保留用户,防止用户流失的目的。 6 ) 编辑推荐输出:向用户提供领域专家对商品的专业介绍。用户通过专家 的专业介绍可以对自己并不熟悉的商品加深认识,了解商品的性能特点, 从而决定是否购买该商品。 2 4 本章小结 本章第一部分主要介绍了推荐系统的概念、定义、组成以及现在主要的应用 领域,其中,较详细地介绍了推荐系统在电子商务所承担的重要作用。本章第二 部分针对电子商务平台上的推荐系统,详细介绍了它的结构,输入输出。 9 浙江人学硕士学位论文 第2 章电子商务推荐算法分析 第3 章电子商务推荐算法分析 推荐系统能够帮助用户快速地找到他们感兴趣的东西,在9 0 年代中后期当协 同过滤( c o l l a b o r a t i v ef i i t e r i n g ) 推荐技术出现的时候,推荐系统开始大量地 被应用到实际的项目中,也就变得越来越流行和重要。于是有了根据商品的历史 销量,或者消费者本身的特性( d e m o g r a p h i c s ) ,或者用户之前的购买行为或者浏 览行为的来猜测用户感兴趣的或者有购买欲望的商品,并做出推荐。在推荐系统 中,推荐算法是最核心和关键的部分,在很多程度上决定了推荐系统的性能和结 果。一般来说,现在主要是两种最基础的推荐算法:【1 】 3 1 内容过滤推荐( c o n t e n t - b a s e df i l t e r i n g ) 内容过滤推荐的基本思想是:根据用户选择的对象,推荐跟用户选择的最为 相似的对象。这类算法源于一般的信息检索算法( i n f o r m a t i o nr e t r i e v a l ) 【2 】【3 】。 它关注的是对象和对象本身的属性。例如:对于推荐电影的推荐系统来说,如果 用户对张艺谋导演的电影给的评分比较高,推荐系统就会再推荐张艺谋导演的电 影给用户。导演对电影来说就是一个属性。 这种推荐一般在文本推荐中应用比较广泛,比如:推荐新闻,原因是新闻的 大部分内容都是纯文本,纯文本的对象属性容易被计算机自动地抽取出来,可以 把对象中的关键字相关性作为对象的相关性。但是,非文本的对象的属性不好被 计算机自动地抽取,因此不适合使用基于内容的推荐系统。 在内容过滤推荐算法中,最常用的,效果也最好的是词频一倒排文档频率 ( t e r m - f r e q u e n c y i n v e r s ed o c u m e n tf r e q u e n c y ,简称t f i d f ) 【4 1 ,朴素的 贝叶斯分类器( n a i v eb a y e s i a nc l a s s i f i e r ) 【5 ,倒,决策树( d e c is i o nt r e e ) 、神经 网络( a r t i f i c i a ln e t w o r k s ) 、基于向量的算法等。 它的想法是抽取出对象的特性,计算出对象的特性之间的相似度,然后选取 跟用户之前选择的对象最相似的对象推荐给用户。 l o 浙江大学硕士学位论文第2 章 l l 子商务推荐算法分析 3 2 协同过滤推荐( c o l l a b o r a t i v ef i l t e r i n 9 1 它的基本思想是:找到与该用户最相似的其他用户,用其他用户的行为来预 测这个用户的行为。是这种算法的提出和完善,让推荐系统开始广泛被应用起来, 在网上租赁d v d 的n e t f i x 系统用的就是这种算法。协同过滤是基于用户本身的, 但它又不需要用户显式告诉推荐系统用户的兴趣爱好( 比如通过让用户填写用户 调查问卷来获得) ,它能自动从用户的购买或者浏览行为中隐式获得。它主要有 两种方法:启发式( m e m o r y b a s e do rh e u r i s t i c - b a s e d ) 和基于模型的 ( m o d e l b a s e d ) 【1 1 。 3 2 1 启发式方法( h e u r i s t i e b a s e d ) 和基于模型方法最大的区别是:启发式方法需要根据之前所有与目标用户的 相似用户对对象的评价才能进行预测,也就是说它需要对所有与目标用户相似的 用户进行聚合计算,以得到目标用户对某个对象的预测【7 ,8 1 。最基本的两种计算两 个用户间的相似度的算法是基于关联的( c o r r e l a t i o n b a s e d ) 【9 ,1 川和基于余弦距 离( c o s i n e b a s e d ) 的方法7 ,1 。不管是在内容过滤推荐中还是在协同过滤推荐 中,都用到了余弦距离的方法,只不过,在内容过滤中,余弦距离方法计算的是 对象和对象之间的相似度,而在协同过滤中,它计算的是用户和用户之间的相似 度。有一些用来提高启发式方式的性能的方法,例如:缺省投票( d e f a u l tv o t i n g ) 、 用户倒排评分( i n v e r s eu s e rf r e q u e n c y ) 、实例扩展( c a s ea m p l i f i c a t i o n ) 【7 】 和加权预测( w e i g h t e d - m a j o r i t yp r e d i c t i o n ) 【8 ,1 2 1 等。近年来也有不少研究学 者对这些提高性能的方法做了不少研究。 3 2 2 基于模型方法( m o d e l b a s e d ) 基于模型的方法是根据过去用户对对象评分的数据来学习得出一个模型,然 后使用概率的方法进行预测。最常见的是皮尔森相关系数( p e a r s o np r o d u c t m o m e n tc o r r e l a t i o n ,简称:p e a r s o n sc o r r e l a t i o n ) 来计算相似度1 7 l 。其他的 还有k 一均值聚类算法( k - m e a n sc l u s t e r i n g ) i 1 3 、g i b b s 抽样算法( g i b b s s a m p l i n g ) 【14 1 、贝叶斯模型( b a y e s i a n ) 【15 1 、概率相关模型( p r o b a b i1i s t i c r e l a t i o n a lm o d e l ) d 6 1 、线性回归模型( 1 i n e a rr e g r e s s i o n ) 【川、最大熵模型 浙江大学硕士学位论文 第2 章电子商务推荐算法分析 ( m a x i m u me n t r o p ym o d e l ) d 7 1 ,还有马尔可大决策过程方法( m a r k o vd e c i s i o n p r o c e s s e s ) 1 8 1 也被用在推荐系统中。 以上两种方法,每一种都有它自己的优点和缺点,以下表格2 - 1 是内容过滤 算法和协同过滤算法的比较: 1 2 浙江大学硕十学位论文 第2 章电子商务推荐算法分析 表3 1 内容过滤算法和协同过滤算法的优缺点比较 方法优点缺点 内容1 不需要其他用户的数1 对象的特性很难被提取和抽象出来,所 过滤 据,所以它没有协同过以它的适用范围非常有限,一般只用于 推荐滤推荐中会经常碰到的 文字性的推荐系统,像新闻或者论文等; 稀疏矩阵( s p a r s i t y ) 的2 很难给用户推荐一些新奇的但用户感兴 问题; 趣的对象,比如:用户给张艺谋导演电 2 不会有第一个评分影比较高的分数,它就会一直给用户推 ( f i r s tr a t e r ) 的问题, 荐张艺谋的电影; 它会把很冷门的对象推3 也有新用户问题( n e wu s e r ) ,只有当一 荐给用户。个用户选择过一定数量的对象之后,推 荐系统才能根据他选择过的对象对他进 行推荐。 协同 1 应用范围比内容过滤推1 会有冷启动( c o l ds t a r t ) 和稀疏矩阵 过滤荐算法要广很多,它不 ( s p a r s i t y ) 问题,当系统还没有足够 推荐 会受到对象本身的属性的用户对对象评分的数据,它的推荐效 限制;果就很不好; 2 也可以避免在内容过滤2 有长尾( l o n gt a i l ) 问题,当某一个用户 算法中固定给一个用户 的兴趣很奇怪,没有跟他类似的用户的 推荐某一个特性的对时候,对他的推荐就会很不好。 象; 3 会随着用户对对象评分 数据的越来越多,它的 推荐效果会越来越好。 综合以上两大类最常用的算法,我们会发现有一些问题始终没有办法被解决: 新用户问题。于是就有了基于人口统计学的过滤方法( d e m o g r a p h i cf i l t e r i n g ) 1 9 】, 这种方法会使用一些人口统计学上的信息,像年龄、性别、教育背景等来对这个 浙江大学硕士学位论文第2 章电子商务推荐算法分析 新用户进行粗略的推荐。 还有一大类可能在实际项目中会有不错效果的是:基于知识的推荐 ( k n o w l e d g e 咄a s e d ) | 2 0 l ,它是根据某个特定的领域有一些既定的能被大家很容 易接受的正确的规则来进行规则和实例的推理( c a s eb a s e dr e a s o n i n g ) 。例如: 上电子产品类的b 2 c 网站买东西的一般都是男性。推荐系统就把这个大多数用户 是男性用户这个规则应用在推荐系统里面,让推荐的结果更好。 上面提到的人口统计学过滤方法和基于知识的推荐方法一般都不会单独使用 在推荐系统,它们总是会混合着内容过滤方法或者协同过滤方法一起出现的。 3 3 混合算法( h y b r i dr e c o m m e n d a t i o n ) 因为内容过滤算法和协同过滤算法都有各自的优点和缺点,所以近段时间来 很多混合算法( h y b r i dr e c o m m e n d a t i o n ) 被广泛地研究和应用【2 1 之4 1 。最常见的混 合算法是:将内容过滤算法和协同过滤算法混用,这使推荐系统能更广泛地应用 到各个领域,也使协同推荐算法自有的冷启动、稀疏矩阵问题能得到解决。下面 根据混合方式不同把混合算法分成以下几类 2 3 1 : 3 3 1 权重型( w e i g h t e d ) 权重型混合算法的过程大致是这样的:分别用几种不同的推荐算法算出来各 自的结果,然后通过权重的方式把各种推荐算法的结果组合在一起,作为权重性 混合推荐系统的最终结果。比如:用内容过滤推荐和协同过滤推荐各自分别计算 一遍结果,然后把这两个结果以线性叠加的方式组合在一起,得到最终的结果, 做为这个混合推荐系统的推荐结果。p - t a n g o 2 2 】系统用的就是权重的混合算法。 这个系统初始化设置的是:内容过滤和协同过滤享有一样的权重,然后通过学习 来调整内容过滤算法和协同过滤算法的权重。这种混合方式非常直接,并且权重 调整起来也会非常方便。但这种混合方式有个潜在的假设前提是:几种推荐算法 在混合推荐系统中都是同等对待的。其实,我们知道协同过滤算法在某些情况下 ( 稀疏矩阵、冷启动) ,效果会不太好,在这些情况下,单纯用内容过滤算法会 比权重型混合算法的效果来得好。 1 4 浙江大学硕士学位论文第2 章电子商务推荐算法分析 将这种混合方式抽象出来,算法和算法之间的混合方式请看下图3 1 。从图 中,我们可以看出来,采用这种混合方式的核心问题是确定常数a 和b 。 图3 1 权重性混合算法模型 3 3 2 转化型( s w i t c h i n g ) 转化型的混合方式就是确定一些规则,规则规定在哪些条件下用哪个推荐算 法的结果。d a i l y l e a r n e r 2 4 1 使用的是用转化型的把内容过滤和协同过滤混合起来 的算法。这个系统开始使用的是内容过滤算法,等系统数据开始充足的时候,开 始换成协同过滤算法。d a i l y l e a r n e r 这个推荐系统依然没办法彻底解决新用户 ( n e wu s e r ) 问题,因为内容过滤算法和协同过滤算法都有新用户问题。但 d a il y l e a r n e r 使用的是最近邻,这种方法是不需要很大的数据集来达到准确分类 的工作之后才能进行推荐的。 在这种混合方式中,最难的是如何定规则:确定在哪些条件下用哪种推荐算 法。所以t r a n c o h e n 2 5 1 提出了另一种更为直接的转化型的混合推荐,根据历史 上用户对各种推荐算法计算出来的推荐结果的评分来选择下次推荐给该用户的 要用什么推荐算法。 将这种混合方式抽象出来,算法和算法之间的混合方式请看下图3 2 。同样, 从图3 2 ,我们会发现如何确定转化条件是比较难的,但却是直接影响最终的推 荐效果的。 浙江人学硕士学位论文 第2 章电子商务推荐算法分析 图3 - 2 转化型混合算法模型 3 3 - 3 组合型( m i x e d ) 如果实际环境中允许同时用多种推荐方法计算出结果,我们倒是可以用这种 组合型混合方式。这种组合型混合方式就是把多种推荐方法计算出来的结果分别 罗列出来让用户自己选择。p t v f 2 6 系统就是用这样的方法来做电视节目的推荐。 它根据文本描述的电视内容用内容过滤方法来做推荐,根据其他用户的点播喜好 用协同过滤方法来推荐。这两个推荐列表会同时显示给用户,让用户自行选择。 p t v 系统是一种比较特殊的系统,因为它允许同时推荐给用户两个或更多的列表。 很多推荐系统只允许给用户一个推荐列表,那当冲突发生的时候,就需要给各种 不同的推荐方法定优先级。在p t v 系统中,内容过滤算法的优先级是高于协同过 滤算法的。 这种组合型的混合推荐在实际应用中比较广泛,a m a z o n 的商品详细页面就同 时呈现了用各种不同的推荐方法计算出来的推荐列表。 将这种混合方式抽象出来,算法和算法之间的混合方式请看下图3 3 。这种 算法有其固有的限制条件:系统的展示需要允许能给用户同时展示多个推荐结果。 随着人机交互领域的发展,越来越多的实际应用系统中能支持同时给用户多个不 1 6 浙江大学硕士学位论文第2 章电子商务推荐算法分析 同的推荐列表。正因如此,虽然这种混合方式有它的限制条件,但并没有阻挡它 在实际的电子商务平台中的大量应用。 算法1 函数是:f 1 ( x ) 其中,x 是对象 给用户 l 算法2 函数是:f 2 ( x ) 其中,x 是对象 薛列表 一 用户 图3 - 3 组合型混合算法模型 3 3 4 特征混合型( f e a t u r ec o m b i n a t i o n ) 另外一种达到内容过滤算法和协同过滤算法混合的方法是把协同过滤中用 户对对象的打分做为对象的一种附加的特征,然后使用内容过滤算法来对混合有 用户对对象打分的特征数据和对象本身内容的数据进行计算,并给出推荐结果。 例如:b a s u ,h i r s h & c o h e n 2 3 】在他们的实验中发现使用了用户对电影的评分数 据和电影本身的内容特征,得到的推荐效果比单纯使用协同过滤算法来得好。但 b a s u ,h ir s h & c o h e n 也同时发现要达到这种比较好的推荐效果,需要人工来选 择基于内容的特征。如果把所有可用的基于内容的特征都用上,反而效果会不好。 将这种混合方式抽象出来,算法和算法之间的混合方式请看下图3 4 。比较 难的是如何提取出具有代表性的特征向量v 。 浙江大学硕士学位论文第2 章电子商务推荐算法分析 图3 - 4 特征混合型混合算法模型 3 3 5 层级型( c a s c a d e ) 不像前面所提到的混合方式,层级型的混合方式是一个阶段性的过程。它的 流程一般是这样的:先用某一种推荐方法来过滤掉一些对象,然后再用另一种推 荐方法对剩下的候选对象进行提炼和推荐。餐馆推荐系统e n t r e e c 就是一个把基 于知识算法和协同过滤算法用层级型混合的推荐系统。e n t r e e c 系统会首先利用 基于知识的推荐算法根据用户选择的爱好进行对对象的初步筛选,然后再用协同 过滤算法来进行最终的推荐。 这种算法最大的作用就是大大提高了推荐系统的效率,在用第一层推荐方法 过滤的时候,过滤掉那些不可能被推荐的对象,这使得在第二层用另外一种推荐 方法的时候,只需要对那些还剩余的候选对象进行计算就可以了。这样第二层推 荐算法的效果就被提高了。 将这种混合方式抽象出来,算法和算法之问的混合方式请看下图3 5 。算法 1 只是过滤掉不可能被推荐的对象,让算法2 计算的对象集变小,来提高效率, 降低复杂度。 1 8 浙江大学硕士学位论文第2 章电子商务推荐算法分析 图3 5 层级型混合算法模型 3 3 6 特性扩充型( f e a t u r ea u g m e n t a t i o n ) 用一种推荐算法生成关于对象的特性,然后把这些对象的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论