(设计艺术学专业论文)基于粗糙集的电子商务推荐及可视化研究与实现.pdf_第1页
(设计艺术学专业论文)基于粗糙集的电子商务推荐及可视化研究与实现.pdf_第2页
(设计艺术学专业论文)基于粗糙集的电子商务推荐及可视化研究与实现.pdf_第3页
(设计艺术学专业论文)基于粗糙集的电子商务推荐及可视化研究与实现.pdf_第4页
(设计艺术学专业论文)基于粗糙集的电子商务推荐及可视化研究与实现.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(设计艺术学专业论文)基于粗糙集的电子商务推荐及可视化研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

璇 拼 i l j ,- l 甜 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:毒殇巧搴舅耻 日期:二坦也二三二上之一 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期:趁:圭:z2 二 日期: 笾翌:墨! f 兰 0 。_ 产 l_, 竹fa ;岭r j _ 书 “ l i 北京邮电大学硕士生毕业学位论文 基于粗糙集的电子商务推荐及可视化研究与实现 摘要 随着计算机的普及和互联网的发展,电子商务逐渐兴起并已经在 当今社会零售业中占有较多的比重。围绕电子商务进行的各种研究方 兴未艾,推荐系统便是其中一个重要的研究方向,对于电子商务的发 展具有很大的现实意义。 目前,几乎所有大型的电子商务网站,如a m a z o n ,e b a y ,当当, 卓越,京东商城等,都不同程度的使用了各种形式的推荐系统。但当 前对电子商务系统的研究主要侧重在各种推荐技术上面。对于电子商 务网站推荐的可视化并没有太多的研究。 本文首先研究了电子商务网站推荐技术的现状。对当前的推荐技 术做了分析比较,同时提出一种基于粗糙集的用户购买倾向推荐机制, 对推荐机制及算法做了研究和设计。通过对用户浏览行为记录的数据 经过粗糙集理论中的约简,得出了用户行为与购买倾向之间的联系算 法。 其次本文通过对现有研究现状的分析,对当前主流电子商务网站 做了以可用性测试技术为基础的分析和测试。得出了当前网站推荐可 视化系统的不足之处。并设计了一个新的电子商务网站推荐系统。同 时做了系统的高保真原型并进行了可用性评估测试,对新设计的推荐 系统进行了验证。 论文中做了大量的可用性测试,为系统的设计提供了从用户那里 得到的许多建议和方法,最后的验证也说明了新系统的可用性更加出 色,但论文中对于算法的验证没有进行过多的研究,也是后续需要进 行改进的工作。 关键词:电子商务推荐粗糙集理论可用性评估可用性测试 北京邮电人学硕士生毕业学位论文 l;。k 一;f 尽 奄10弋辩j o - l v 北京邮电大学硕士生毕业学位论文 r e s e a r c ha n di m p l e m e n t a t i o no fe c o m m e r c er e c o m m e n d a t i o n a n dv i s u a l i z a t i o ns y s t e mb a s e do nr o u g hs e t a b s t r a c t w i t ht h ep r o l i f e r a t i o no fc o m p u t e r sa n dt h ed e v e l o p m e n to ft h e i n t e m e t ,e c o m m e r c eg r a d u a l l yo nt h er i s ea n do c c u p ya l a r g e r p r o p o r t i o no fr e t a i l i nt o d a y ss o c i e t y v a r i o u ss t u d i e si nt h ea s c e n d a n t a r o u n dt h ee c o m m e r c e r e c o m m e n d a t i o ns y s t e mi so n eo ft h e i m p o r t a n tr e s e a r c hd i r e c t i o n ,t h i sf o rt h ed e v e l o p m e n to fe l e c t r o n i c c o m m e r c eh a sg r e a tp r a c t i c a ls i g n i f i c a n c e a t p r e s e n t , a l m o s t a l l l a r g e e - c o m m e r c e w e b s i t e , s u c h a s a m a z o n c o m ,e b a bd a n g d a n g ,a m a z o n c n ,3 6 0 b u be t c t h o s ew e b s i t e a r eu s eo fv a r i o u sf o r m so fr e c o m m e n d e rs y s t e mi nd i f f e r e n tl e v e l s b u t t o d a y sr e s e a r c hi sf o c u s e do nav a r i e t yo fr e c o m m e n d e dt e c h n i q u e s ,t h e r e i sn o tm u c hr e s e a r c ha b o u tt h ev i s u a l i z a t i o no fe - c o m m e r c e s y s t e m a tf i r s t ,t h i s p a p e re x a m i n e dt h e s t a t u so fe c o m m e r c es i t e s r e c o m m e n d e d t e c h n i q u e s ,c o m p a r e d t h ec u r r e n t t e c h n o l o g y o f e c o m m e r c er e c o m m e n d e dt e c h n i q u e s p r o p o s eam e c h a n i s ma b o u t t e n d e n c yo fu s e rt ob u yb a s e do nr o u g hs e t r e s e a r c ha n dd e s i g n r e c o m m e n d a t i o na l g o r i t h m s d e s i g nt h ea l g o r i t h mb e t w e e nt h eu s e r b e h a v i o ra n db u y i n gp r e f e r e n c e sb yr e d u c e dt h ed a t ao fu s e r 、sb e h a v i o r s e c o n d , t h i s p a p c ra n a l y z e d a n dt e s t e dt h em a i n s t r e a m e - c o m m e r c es i t eb a s e du s a b i l i t yt e s t i n gt e c h n o l o g y g e tt h ec u r r e n ts i t e r e c o m m e n d e dv i s u a l i z a t i o ns y s t e ms h o r t c o m i n g s ,a n dd e s i g n e dan e w e c o m m e r c er e c o m m e n d a t i o ns y s t e m a n ds o o nw et e s t e dt h en e w s y s t e m ,a n dv e r i f i e dt h en e ws y s t e m t h ep a p e rh a sd o n eal o to fu s a b i l i t y t e s t i n g ,g e tm a n yo ft h e r e c o m m e n d a t i o n sa n dm e t h o d sf o r mu s e r sf o rd e s i g n i n gt h en e ws y s t e m w r ek n o wt h en e ws y s t e mi sm o r er e m a r k a b l eb yt h eu s a b i l i t yt e s t i n g b u t a l g o r i t h mv a l i d a t i o ns t u d i e sn o tc a r r i e do u tt o om u c ho nt h ep a p e r t h i s i st h ef o l l o w u pt ot h en e e df o ri m p r o v e dw o r k i n g 北京邮电大学硕士生毕业学位论文 k e yw o r d s :e - c o m m e r c er e c o m m e n d a t i o n r o u g hs e t u s a b i l i t y e v a l u a t i o n u s a b i l i t yt e s t i n g 一l;- 一0 0 态 毫媾、嗲 c n , ” p 北京邮电大学硕士生毕业学位论文 目录 第一章绪论1 1 1 研究背景1 1 2 电子商务推荐系统概述1 1 2 1 系统的输入输出2 1 2 2 常用推荐方法3 1 2 3 推荐可视化4 1 3 电子商务推荐系统的研究内容与研究现状4 1 3 1 研究内容5 1 3 2 研究现状5 1 4 文章结构7 第二章电子商务网站推荐技术8 2 1 常用推荐技术简介8 2 1 1 信息过滤技术8 2 1 2 数据挖掘技术9 2 1 3 其他技术1 0 2 2 推荐技术比较1 l 2 2 1 基本技术方法1 l 2 2 2 各个技术方法优缺点儿 2 3 本章小结1 2 第三章基于粗糙集的以用户购买倾向为主导的推荐机制1 3 3 1 研究的出发点1 3 3 2 粗糙集基本概念1 3 3 2 1 信息系统与决策表1 3 3 2 2 不可分辨关系1 4 3 2 3 属性约简1 4 3 3 利用粗糙集进行用户购买倾向规则获取1 4 3 3 1 数据准备1 4 3 3 2 构建信息系统:1 4 3 3 3 属性简约,1 5 3 3 4 值简约1 6 3 3 5 属性权重1 6 3 4 方法验证1 7 3 5 推荐方法:1 8 第四章现有电子商务网站推荐可视化的可用性研究2 0 4 1 可用性评测2 0 4 1 1 可用性的定义2 0 4 1 2w e b 可用性2 l 北京邮电大学硕士生毕业学位论文 4 1 3 可用性评测2 3 4 1 4 可用性评测指标2 3 4 1 5 可用性评测方法2 4 4 2 竞品分析2 6 4 2 1 分析方法2 6 4 2 2 分析结果2 7 4 2 3 分析总结3 0 4 2 4 存在问题3 2 4 3 可用性测试3 2 4 3 1 测试用户3 3 4 3 2 用户访谈3 3 4 3 3 用户测试3 7 4 3 4 测试结果4 0 4 4 本章小结4 1 第五章电子商务网站推荐及可视化系统实现及验证4 3 5 1 推荐可视化系统设计4 3 5 1 1 系统需求4 3 5 1 2 系统设计4 3 5 2 系统验证4 9 5 2 1 测试用户4 9 5 2 2 可用性测试5 0 5 2 3 结果分析5 2 5 3 本章小结5 3 第六章总结与展望5 4 6 1 工作总结5 4 6 2 研究的局限5 4 6 3 展望5 5 参考文献5 6 附录5 9 致谢6 3 作者攻读学位期间发表的学术论文目录6 4 卜 捌 0 专 爻3 ;够蠢懂f , , : 留 北京邮电大学硕士生毕业学位论文 1 1 研究背景 第一章绪论帚一早瑁 下匕 随着计算机的普及和互联网的发展,电子商务逐渐兴起,发展到现在互联网 电子商务的在发达国家已近到达社会零售业总额的1 0 左右,而我国也已经达到 2 - 3 的份额。国内外围绕电子商务进行了各种研究,推荐系统便是其中一个重 要的研究方向,其具有很大的现实意义。 在电子商务的虚拟环境下,商家能够在网上提供的商品种类和数量非常多, 但是随着电子商务网站商品数量激增的同时也增加了顾客信息处理的负担。用户 不可能方便地发现自己感兴趣的需要的商品,他们既不愿意花太多时间在网上寻 找自己想要的商品,也不可能像在日常生活中那样实际检查商品的质量。因此, 就要求电子商务系统能够提供一种能帮助用户选购商品的功能,并能根据每个用 户不同的兴趣爱好以及网络行为智能地推荐给每个用户他可能感兴趣的可能喜 欢的商品。 在这种背景下,推荐系统应运而生。电子商务推荐系统不仅为客户提供了便 利的交易方式和广泛的选择,同时也为商家提供了更加深入了解顾客需求信息和 购物行为特征的可能性。推荐系统向电子商务企业提出了新的营销观念,为实施 “一对一营销 提供技术上的可能的同时,也向企业提出了更高的要求。 电子商务推荐系统具有良好的发展和应用前景。目前,几乎所有大型的电子 商务系统,如a m a z o n ,e b a y ,当当、卓越、京东商城等,都不同程度的使用了各 种形式的推荐系统n 1 。各种提供个性化服务的网站也需要推荐系统的大力支持 在互联网产品日趋激烈的竞争环境下,电子商务推荐系统能有效保留用户,增加 用的的黏性,提高用户体验,同时提高电子商务商城的销售。成功的电子商务推 荐系统将会为电子商务商城带来巨大的经济效益。 1 2 电子商务推荐系统概述 r e s n i c k & v a r i a n 在1 9 9 7 年给出了电子商务推荐系统( r e c o m m e n d e rs y s t e m s ) 正式的定义,指利用电子商务网站向客户提供商品信息和建议,帮助用户决定应 该购买什么产品,模拟销售人员帮助客户完成购买过程。其作用主要表现在三个 方面: 北京邮电大学硕士生毕业学位论文 1 将电子商务网站的浏览者转变为购买者( c o n v e r t i n gb r o w s e r s i n t o b u y e r s ) ; 2 提高电子商务网站的交叉销售能力( c r o s s s e l l ) ; 3 提高客户对电子商务网站的忠诚度( b u i l d i n gl o y a l t y ) 昭1 。 目前,推荐系统已广泛运用到各行业中,推荐对象包括书籍、音像、网页、文 章和新闻等。研究表明,电子商务的销售行业使用个性化推荐系统后,销售额能提 高2 8 ,尤其在书籍电影、cd 音像、日用百货等产品相对较为低廉且商品种 类繁多、用户使用个性化推荐系统程度高的行业,推荐系统能大大提高企业的销 售额3 1 。 总的来讲,电子商务推荐系统主要由三大部分构成h 1 :输入输出模块、推荐 方法模块和可视化模块。输入模块用来接受用户的输入信息,用户的输入信息中 最重要的是用户对商品的评价数据,用户在浏览网站时产生的日志数据等;推荐 方法模块用来根据一定算法,依据用户数据,得出对目标用户的推荐,该模块是 整个推荐系统的核心部分。当前比较流行的个性化推荐方面的研究中的很大一部 分,都集中在找到好的推荐方法即推荐算法上面;可视化模块是整个系统的输出 模块,主要指的是得到的推荐结果在什么时间、地点以何种形式展示给用户。 电子商务推荐系统简单来讲就是在网上购物环境下的、以商品为推荐对象的 个性化推荐系统,为用户推荐符合其兴趣爱好的各类产品,如各种书籍,音像日 用百货等,这种推荐系统也称电子商务个性化推荐系统。 1 2 1 系统的输入输出 电子商务推荐系统在产生推荐之前必须接收相应的输入信息,输入的信息可 以是客户当前的行为,也可以是客户访问电子商务系统过程中的历史行为,同样 也可以是用户个人基本信息。 电子商务推荐系统的输入方式有以下几种畸1 : 1 隐式浏览输入:将客户的浏览行为作为推荐系统的输入,但他们并不知道 推荐系统的存在,如顾客在网页上的浏览点击情况。 2 显式浏览输入:同样是将客户的浏览行为作为推荐系统的输入,但用户是 有目的的向推荐系统输入自己的喜好。 3 关键词和商品属性输入:将客户输入的关键词、商品的有关属性或是用户 正在浏览的商品类别作为推荐系统的输入。 4 用户数值评分输入:将用户对商品的数值评分数据作为推荐系统的输入。 5 客户文本评价输入:将用户对已经购买的商品或自己熟悉的商品以文本的 形式进行个人评价,其他用户浏览该商品时,可以看到用户对商品的客观文本评 一 _ 甓 墨 一 , 弩 北京邮电大学硕士生毕业学位论文 价信息,从而帮助自己决定是否购买该商品。 6 顾客的购买历史:推荐系统将客户的购买历史作为隐式评分数据。 除了以个人为单位的输入方式以外,推荐系统还接受群体输入。如群体过去 的购买记录;群体的共同爱好兴趣;群体对商品的文本评论信息或评分等。 不同的电子商务推荐系统,其输出也各不相同。大型电子商务推荐系统可以 同时采用多种输出形式向客户产生各种不同形式的输出。如:根据客户购物篮中 的商品或其感兴趣的商品而向其进行个性化地推荐类似的商品的相似项方式;推 荐系统向顾客提供其他顾客对相应商品的等级评价或评论信息,让顾客作出自己 的判断;此外推荐系统还通过电子邮件的方式提供客户可能感兴趣的商品信息, 使网站与客户保持联系等。 电子商务推荐系统的输出方式有如下几种嘲: 1 相关商品输出:电子商务推荐系统中最为普遍的一种输出,推荐系统根据 用户表现出来的行为特征或电子商务系统的销售情况向客户产生一系列的商品 推荐。 2 个体文本评价输出:电子商务推荐系统向目标客户提供其他用户对商品的 文本评价信息,目标用户通过这种输出形式了解其他用户对商品的各种评价。 3 个体数值评分输出:电子商务推荐系统向目标客户提供其他用户对商品 的数值评分信息,目标用户通过这种输出形式了解其他用户对商品的数值评分。j 4 电子邮件输出:电子商务推荐系统通过电子邮件的形式向客户提供商品 的最新信息,用户通过电子邮件可以及时了解感兴趣的新商品的最新情况。 5 销售排行榜输出:电子商务推荐系统通过排行榜的形式向用户提供特定类 型或是特定商铺中的热销及折扣活动信息。 除了以上的几种输出方式以外,电子商务网站还有一些其他的并不常用的推 荐输出形式,如关键词输出等形式。 1 2 2 常用推荐方法 推荐方法是一个电子商务推荐系统能否成功的关键环节,是系统的核心部分。 根据商品属性特点的不同、技术实现的能力以及对顾客信息的多少及客户信息处 理度的不同,不同的系统利用不同的方法来实现电子商务网站的推荐任务,常见 的一些方法有: 1 非个性化推荐:推荐系统推荐的机制主要是基于商品或是商城本身的数据, 或是其他用户对于商品的评价反馈。如销售排行榜,商品评分排行榜,促销推荐, 商城活动推荐等。这种推荐系统独立于用户,对所有用户推荐的都是相同的,他 脱离于用户所以有较好的实时性及推荐统计简单等优点,故在现有的主流电子商 3 北京邮电大学硕士生毕业学位论文 务网站中都会应用此种推荐方法。典型例子包括a m a z o n 提供的a v e r a g e c u s t o m e rr a tin g 推荐,e b a y 提供的c u s t o m e rc o m m e n t s 推荐。 2 基于属性的推荐:基于用户输入的商品属性或用户正在浏览的商品的相同 属性或者顾客对这些属性的兴趣度进行推荐。比如一个顾客正在浏览“乡村音乐一, 而且他的购物车内有“优惠套装,就可以给他推荐打折的“乡村音乐;典型例 子包括a m a z o n 提供的d e l i v e r s 推荐,r e e l 提供的m o v i em a p 推荐。 3 商品相关性推荐:根据商品之间的相关性向用户产生相应的推荐。利用关 联规则发现顾客感兴趣商品中的频繁项集。比如为购买面包的顾客推荐一些黄油。 典型例子如a m a z o n 提供的c u s t o m e r sw h ob o u g h tt h isb o o ka ls ob o u g h t 推荐, c d n o w 提供的a l b u ma d v i s o r 推荐。基于商品项的关联通常是根据顾客当前的购 买情况或兴趣进行推荐,而与该顾客长期的购买历史无关,这样就能更灵活地实 时推荐恰当的商品给顾客。 4 用户群关联推荐:推荐系统根据客户与其他已经购买商品的客户之间的相 关性进行推荐。这种技术又称合作过滤,它的核心原则是与该顾客相关的用户群 中的大多数顾客都喜欢并拥有同一种商品时,就形成推荐。典型例子包括a m a z o n 提供的b o o km a t c h e r 推荐,m o v i ef i n d e r 提供的w ep r e d i c t 推荐。在实现中, 合作过滤技术需要对商品一用户的二维稀疏矩阵进行数据挖掘,实时性不好。 推荐的方法是多种多样的,对于一个规模大、商品丰富的电子商务网站来说, 最好能同时提供多种推荐方式,以满足不同顾客的需求 1 2 3 推荐可视化 电子商务网站推荐系统的目的是为用户提供服务,给用户提供以更好的购物 体验,因此必须为用户提供友好的可视化服务界面主要包括推荐结果可视化研 究和推荐结果解释研究等方面的内容h 1 。 推荐结果可是化主要是指推荐结果以什么样的表现形式,什么样的界面形式 展现给用户,如是以排行榜的形式还是以关键词的形式或是以数字等级符号的形 式表现。关于这方面,目前为止还没有一个系统的研究,一般都是技术人员和界 面设计人员按照惯例或是随便按照某种形式展现,对于展现内容的设计表现没有 一个系统的指导。 推荐结果解释研究主要是研究如何将推荐方法即推荐算法得出的数据转变 为用户或设计人员可理解的商品或商城信息。 1 3 电子商务推荐系统的研究内容与研究现状 4 鼍 _v爹蛰盘爹 f 一 , 北京邮电大学硕士生毕业学位论文 1 3 1 研究内容 电子商务推荐系统的研究内容和研究方向主要包括: 1 推荐技术研究:目前主要的推荐技术主要包括基于内容的过滤和协同过滤 两种。由于基于内容的过滤自身的局限性,协同过滤推荐技术是当前研究的主流。 2 实时性研究:在大型电子商务推荐系统中,推荐系统的伸缩能力和实时性 要求越来越难以保证。如何有效满足推荐系统的实时性要求得到了越来越多研究 者的关注。 3 推荐质量研究:在大型电子商务系统中,用户评分数据极端稀疏。用户评 分数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量难 以保证。 4 多种数据多种技术的集成:当前大部分的电子商务推荐系统都只利用了一 部分可用信息来产生推荐。随着研究的深入,新型电子商务推荐系统应该利用尽 可能多的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有 效的推荐服务。 5 数据挖掘技术在推荐系统中的应用:随着研究的深入,各种数据挖掘技术 ( 主要包括关联规则挖掘、序列模式挖掘、聚类分析、b a y e s i a n 分类等) 在推荐 系统中得到了广泛的应用基于w e b 挖掘的推荐系统得到了越来越多研究者的关 注。 6 用户隐私保护研究:由于推荐系统需要分析用户的购买习惯和兴趣爱好, 涉及到用户隐私问题,如何在提供推荐服务的同时有效保护用户隐私值得作进一 步深入的研究。 7 推荐系统可视化研究:推荐系统的目的是为用户提供服务,因此必须为用 户提供友好的可视化服务界面主要包括推荐结果可视化研究和推荐结果解释研 究等方面的内容。 1 3 2 研究现状 推荐系统中的推荐技术主要包括基于内容的过滤和协同过滤两种。基于内容 的过滤是信息检索领域的重要研究内容嘲口1 。基于内容过滤的推荐系统需要分析 资源内容信息,根据用户兴趣建立用户档案( p r o f i l e ) ,然后根据资源内容与用 户档案之间的相似性向用户提供推荐服务眵1 。s a l t o n 等人提出根据用户反馈自动 更新用户档案阻1 、b a y e s i a n 概率模型陋1 、遗传算法n 们以及其它机器学习技术也被 广泛应用于用户档案的建立和更新基于内容过滤的实验型推荐系统主要包括 m a l o n e 等人提出的电子邮件信息过滤系统n 1 1 。s t a n f o r d 大学提出的信息过滤工 5 北京邮电大学硕士生毕业学位论文 具s i f t n 副、音乐过滤系统l y r i c t i m e n 3 1 、s i f t e r 原形系统n 铂等。 下面对目前推荐的研究方向及其存在的问题归纳如下: 1 实时性研究:推荐系统的推荐精度和实时性是一对矛盾。大部分推荐技术 在保证实时性的同时,是以牺牲推荐系统的质量为前提的。在大型电子商务推荐 系统中,推荐系统的伸缩能力和实时性要求越来越难以保证。如何有效满足推荐 系统的实时性要求得到越来越多的研究者关注。 2 推荐质量研究:在大型电子商务系统中,客户评分数据极端稀疏。客户评 价数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量难 以保证。c y r u ss h a h a b i ,等人综合基于内容的过滤和协同过程过滤两种推荐技 术的优点,设计出了离线训练模型、在线使用模型进行推荐的一种可调谐模式一 y o d a ,提高了基于w e b 的推荐商务系统的质量和规模性n 习。 3 多种数据集成性研究:当前大部分电子商务推荐系统都只利用了一部分可 用信息来产生推荐。随着研究的深入,新型电子商务推荐系统应该利用尽可能多 的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效的推 荐服务。这方面以研究基于多文档的电子商务推荐技术。d r a g o m i rr r a d e v 采 用以句子信息量来产生文件摘要之模式,开发出了多文档信息摘要和推荐系统 w e b l n e s s e n c e 1 6 】。 4 与商业系统的接口多采用紧耦合的方式,由于推荐需求和应用系统之间的 差别,推荐系统需要根据具体w e b 站点进行定制开发,集成代价高,系统移植性 差。难以动态有效管理和维护多个推荐工具和大量数据。随着推荐系统在电子商 务系统中的广泛应用,带来了大量推荐工具、数据、应用接口等如何有效管理和 维护的问题。 5 推荐系统规模性研究:到目前为止,绝大多数电子商务推荐技术及系统研 究都是基于特定网站或电子商务虚拟社区的,不能满足大规模网站推荐应用。文 献n 7 1 提出了一种“电子商务虚拟社区推荐系统”,它是假设在某一电子商务社区, 存在相近商品和相近客户群的虚拟电子商务网站社区,提出了基于“基于智能代 理的社区推荐系统 。 6 推荐系统可视化研究:到目前为止,绝大多数的电子商务网站都在应用推 荐技术。不管是应用的何种技术实现推荐,但大家的关注点都在推荐的算法,技 术方面,有一个重要的方面被忽略掉,推荐的展示。如何将推荐的东西展示出来, 在什么地方展示,什么时候展示,这些都是需要很好的考虑的,否则我们花费很 多时间得出来的推荐系统将失去其意义。 6 一 咚 够 j , 北京邮电大学硕士生毕业学位论文 1 4 文章结构 面对电子商务网站存在的一些问题,尤其是关于电子商务网站推荐机制以及 推荐可视化的问题,本文将提出一种新的基于用户行为信息的,以用户购买倾向 为主导的简单推荐体系,同时应用了用户研究,交互设计的各种方法,对于电子 商务网站推荐的可视化系统做了深入的研究,设计了一个系统的电子商务网站推 荐可视化系统并通过可用性测试加以验证。 第一章,阐明本文课题的选题背景和研究现状,并说明本文的主要内容结构。 第二章,介绍了现有的电子商务网站推荐系统的推荐技术并分析了现有技术 的一些优缺点。 第三章,详细阐述了基于用户日志的以用户购买倾向为主导的推荐系统的算 法设计。 第四章,通过对现有电子商务网站的研究,采用可用性评测的方法,获得了 现有电子商务网站可视化系统的不足之处以及用户对于电子商务网站推荐可视 化展示的需求。 第五章,根据第三章的算法和第四章得到的设计指导,设计了一个系统的电 子商务网站可视化系统,并通过可用性测评的方法验证设计原型的可用性指标。 第六章,对本文的研究工作进行总结,提出存在问题,并对未来该领域研究 前景做出展望。 7 北京邮电大学硕士生毕业学位论文 第二章电子商务网站推荐技术 以电子商务为基础,以数据挖掘为手段,以个性化服务为特色的网络经济, 在国内外己渐成潮流,成为推动电子商务发展的加速器。电子商务推荐系统直接 与用户交互,模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品, 从而顺利完成购买过程。电子商务推荐系统产生的推荐可以基于电子商务系统的 销售排行,可以基于用户以前的购买行为,也可以基于用户表现出来的兴趣爱好 等。在当今的研究中电子商务推荐系统主要集中在推荐技术即推荐算法的研究上 边,本章将详细介绍电子商务网站的推荐技术。 2 1 常用推荐技术简介 个性化推荐技术是电子商务自动化推荐系统的核心问题。各种各样的技术都 被用于电子商务网站的推荐中,其中包括信息过滤技术、数据挖掘技术及一些其 他方面的技术。 2 1 1 信息过滤技术 信息过滤技术主要分为两种:基于内容的过滤和协作过滤。基于过滤技术的 推荐系统是在信息检索技术中逐步发展起来的,目前主要应用于文本信息、网页 以及娱乐产品等的推荐。 1 基于内容的过滤:通过相关特征的属性来定义项目或对象,系统基于用户 评价对象的特征学习用户的兴趣,依据用户资料与待预测项目的匹配程度进行推 荐,努力向用户推荐与其以前喜欢的产品相似的产品。如新闻组过滤系统 n e w s w e e d e r 。 基于内容过滤的系统,其优点是简单、有效。缺点是难以区分资源内容的品 质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相 似的资源。在基于内容的推荐系统中,一个核心问题是识别关键属性集合。如果 该集合太小,显然,这对于识别用户剖面是不充分的。因此,基于内容的推荐系 统不能用于仅仅实施一次购买行为新顾客,或者访问了该网站,却没有实施任何 购买行为的潜在顾客,以及购买他不是特别经常购买的一种产品的顾客。 基于内容过滤的实验型推荐系统主要包括m a l o n e 等人提出的电子邮件信 息过滤系统、s t a n f o r d 大学提出的信息过滤工具s i f t 、音乐过滤系统 l y r i c t i m e 、s i f t e r 原形系统。 8 e ;: t 6 r 北京邮电大学硕士生毕业学位论文 2 协同过滤:协同过滤技术是推荐系统技术中应用最早和最为成功的技术之 一。协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 可以有效解决基于内容的过滤存在 的问题。在协同过滤中,用户通过相互合作来选择信息,依据其他用户对信息作 出的评价来挑选信息。合作过滤方法对客户的行为进行分析,并不关心信息的实 际内容。 协同过滤的基本出发点是: a 用户是可以按兴趣分类的; b 用户对不同的信息评价包含了用户的兴趣信息; c 用户对一未知信息的评价将和其相似( 兴趣) 用户的评价相似。 协同性的推荐系统估计顾客对特定产品的偏好是根据顾客对该产品的偏好 率以及其他顾客对同一产品的偏好率的比较来实现的。协作性的推荐系统与基于 内容的推荐系统之间的主要区别是协作性的推荐系统通过跟踪一组顾客过去的 行为来给该组中的个别顾客提供建议。 基于协同过滤系统的优点是能为用w e b 数据挖掘的研究及其在网络学习个 性化推荐中的应用发现的新的感兴趣的信息,缺点是存在两个很难解决的问题, 一个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够多的评价,系 统很难利用这些评价来发现相似的用户;另一个是可扩展性,亦即随着系统用户 和资源的增多,系统的性能会越来越低。 协同过滤技术应用的主要系统有:c a r n e n g i e - m e l l o n 大学开发的用于电子 文档推荐的主动合作过滤推荐系统a c f ( a c t i v ec o l l a b o r a t i v ef i l t e r i n g ) ;m i t 开发的用于新闻组信息推荐的自动合作过滤推荐系统g r o u p l e n s ;m i n n e s o t a 大 学开发的用于推荐电影的自动合作过滤推荐系统m o v i e l e n s ;m i t 媒体实验室开 发的用于提供个性化音乐推荐服务的合作过滤推荐系统r i n g o ;b e l l c o r e 开发 的用于电影推荐的合作过滤推荐系统v i d e or e c o m m e n d e r ;推荐笑话的系统 j e s t e r 。 2 1 2 数据挖掘技术 数据挖掘技术在电子商务网站推荐系统的应用中也扮演着重要的角色,随着 信息的激增,需要将有用的信息提取整合,将关联的信息统一。所以数据挖掘技 术就在推荐中大量应用开来。常用的数据挖掘技术如下。 1 关联规则 电子商务中常用的数据挖掘技术就是在客户购买的不同商品集之间发现关 联规则,产生推荐。关联规则挖掘的典型例子是购物篮分析。通过发现用户放入 其购物篮中不同商品之间的联系,分析客户的购买习惯。 9 北京邮电大学硕士生毕业学位论文 关联规则挖掘在电子商务推荐系统中的应用主要包括精准广告营销和商品 推荐。基于关联规则的商品推荐根据生成的关联规则模型和客户的购买行为产生 推荐结果。关联规则的缺点是发现规则需要一定的时间,实时性较差。 2 分类 分类挖掘技术是根据客户的输入信息将之划分为相应类别,基于分类挖掘的 推荐系统根据客户输入信息和商品的特征信息,预测是否向客户推荐该商品。分 类挖掘技术的缺点是当训练集发生变化时,需要重新进行训练以得到新的分类标 准。 3 聚类 聚类技术是通过分析,将数据集划分为多个类或簇,使得同一簇中的对象具 有较高的相似度,而不同簇中的对象差别较大。通过聚类,人们能够识别数据对 象密集的和稀疏的区域,因而发现全局的对象分布模式,以及数据属性之间的相 互关系。在电子商务推荐系统中通过将用户人群分类来确定每一个类别人群所喜 好的商品而进行推荐。 聚类技术的缺点是预测准确率不如协作过滤算法,但是将客户事先分类可以 大大减少所需的计算量,不失为正确率和效率之间一种较好的折衷方法 2 1 3 其他技术 1 贝叶斯网络 贝叶斯网络是基于概率分析、图论的一种不确定性知识的表达和推理模型。 从直观上讲,在贝叶斯网络中,用每一个节点表示一个变量,即一个事件:各变 量之间的弧表示事件发生的直接因果关系。 贝叶斯网络技术利用训练集创建相应的模型n 引,模型用决策树表示,节点和 边表示客户信息。模型的建立可以离线进行,一般需要数小时或数天。训练得到 的模型非常小,所以对模型的应用非常快,能够满足推荐系统的实时性要求。这种 方法适合客户的兴趣爱好变化比较慢的场合,其推荐精度和最近邻协同过滤技术 差不多。但随着客户的不断增多以及客户兴趣爱好的变化,即数据集的变化,贝 叶斯网络的学习过程也要重新进行,因此这种方法适合客户的兴趣爱好变化比较 慢的场合。 2 h o r t i n g 图 电子商务推荐系统中的h o r t i n g 图技术是一种基于图的方法,节点代表客 户,边代表两个客户之间的相似度。在图中寻找近邻节点,然后综合近邻节点的 观点形成最后的推荐。h o r t i n g 图技术可以跳过中间节点寻找最近邻居,考虑了 l o - , 北京邮电大学硕士生毕业学位论文 节点之间的传递相似关系。因此推荐精度优于最近邻协同过滤技术。这种推荐系 统存在与最近邻协同过滤技术相同的问题,就是推荐系统的实时性难以保证。 2 2 推荐技术比较 在电子商务网站上广泛使用的推荐技术主要有协同过滤推荐、基于关联规则 的推荐、基于用户统计信息的推荐、基于内容的推荐、基于效用的技术和基于知 识的技术等。 2 2 1 基本技术方法 各种推荐技术都有自己不同的技术方法,我们将不同的常用推荐技术的简明 算法总结如表2 一l n 钔。 表2 - i 推荐技术方法比较 推荐技术背景条件输入主要步骤 u 对i 的评价等识别u 的邻居用户;根 协同过滤推荐u 对i 的评价 级据其生成i 的评价分 u 对i 的评价等根据u 的评价分生成项 基于内容推荐i 的特征属性 级目的分类器 基于人口统计u 的人口统计信关于u 的人口统识别u 的相似用户根据 信息推荐息及对i 的评价计信息其生成i 的评价分 描述u 对i 偏好把效用函数用于各项 基于效用推荐i 的特征 的效用函数目;生成各项目的排序 i 的特征i 如何对u 需要和兴趣计算各项目i 和用户需 基于知识推荐 满足用户的知识 的描述要的匹配程度 u 对i 的浏览或生成关联规则;根据规 基于规则推荐浏览购买记录 购买历史则生成推荐 2 2 2 各个技术方法优缺点 各种各样的方法都可以用在电子商务网站推荐系统上,但每一种方法都有自 己的优势,同时也有自己的缺点,各个推荐技术的优缺点总结如表2 - 2 n 引。 表2 - 2 推荐技术优缺点比较 推荐技术优点缺点 新异兴趣发现、不需要领域知识;冷开始问题、稀疏问题;新 随着时间推移性能提高;推荐个性用户问题;质量取决历史数 协同过滤推荐 化、自动化程度高:处理复杂非结据集;系统开始时推荐质量 构化对像 差 北京邮电大学硕士生毕业学位论文 推荐结果直观,容易解释;不需要 稀疏问题;新用户问题;复 基于内容推荐杂属性不好处理;要有足够 领域知识 数据构造分类器 基于用户统计信新异兴趣发现;没有新用户问题;用户的人口信息统计资料难 息推荐不要领域知识得到 无冷开始和稀疏问题;对用户偏好 用户必须输入效用函数;推 基于效用推荐荐是静态的,灵活性差;属 变化敏感;考虑非产品特性 件萤窨问题 把用户需求映射到产品上;考虑非 基于知识推荐 知识难获得;推荐是静态的 产品属性 基于关联规则推 关联规则抽取难、耗时; 荐 发现新兴趣点:不要领域知识产品名同义性问题;个性 化程度低 由于各个技术都有自己的优缺点,所以研究和应用最多的是内容推荐和协同 推荐的组合乜。最简单的做法是分别用基于内容的方法和协同推荐方法,产生 一个推荐预测结果,然后用某方法组合其结果。 文献眩妇用w i n n o w 算法从训练集中导出一个具有权重的词义向量作为用户资 料模型。在此基础上,用协同过滤方法进行预测;f a b 通过构建个人过滤器和主 题过滤器,文档先用主题过滤器排序,再用个人过滤器处理,用户的反馈可以修 改个人代理器和主题代理器。在组合方式上, 文献瞳2 1 提出了加权、变换、混合、特征组合、层叠、特征扩充、m e t a l e v e l 等7 种组合思路。尽管理论上有很多种推荐组合方法,但在某一具体问题中并不 见得都有效,组合推荐一个最重要的原则,就是通过组合后要能避免或弥补各自 推荐技术的弱点。 2 3 本章小结 本章主要介绍的常用的电子商务技术,如信息过滤技术、数据挖掘技术、贝 叶斯网络等。同时介绍了常用推荐技术的基本方法原理以及各个技术方法的优缺

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论