(管理科学与工程专业论文)基于web挖掘算法的电子商务推荐系统研究与实现.pdf_第1页
(管理科学与工程专业论文)基于web挖掘算法的电子商务推荐系统研究与实现.pdf_第2页
(管理科学与工程专业论文)基于web挖掘算法的电子商务推荐系统研究与实现.pdf_第3页
(管理科学与工程专业论文)基于web挖掘算法的电子商务推荐系统研究与实现.pdf_第4页
(管理科学与工程专业论文)基于web挖掘算法的电子商务推荐系统研究与实现.pdf_第5页
已阅读5页,还剩129页未读 继续免费阅读

(管理科学与工程专业论文)基于web挖掘算法的电子商务推荐系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 w 曲已成为人们获取信息的一个重要途径,由于w 曲信息的日益增长, 人们不得不花费大量的时间去搜索,浏览自己需要的信息。搜索引擎( s e 鲫c h e n g i n e ) 已不能满足不同背景、不同目的和不同时期的查询请求,w 曲个性化 服务技术就是针对这个问题而提出的。w r e b 个性化是指不断学习站点的经验, 改进站点的信息组织方式和提供方式,以更好地向用户提供信息的技术。 为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设计一 种合适的表达方式,然后把网上用户感兴趣的资源推荐给用户。 本文首先从应用的角度综述了基于w e b 挖掘的w 曲个性化技术的发展过 程,介绍了一些优秀的基于w r e b 挖掘的w r e b 个性化系统。然后,本文详细介 绍了基于w 曲挖掘的w | e b 个性化的处理过程,并从聚类分析、关联规则和序 列模式等几个方向分析比较了w r e b 挖掘在w r e b 个性化领域应用的技术现状, 从w r e b 内容挖掘技术融合和多特征使用两个方面描述了相应技术的发展趋势。 基于对w r e b 个性化技术的研究,本文提出了一种基于d m x 分析的个性化 推荐系统框架p r m d ( p e r s o n a l i z a t i o nr e c o m m e n d a t i o nb a u s em i c r o s o rd m x ) 。 p i m m 是综合了信息的使用、内容和主观兴趣特性等三个方面特征的推荐系统。 它共包含有四个过程:数据采集、数据预处理、数据分析和实现推荐。 然后,本文将采用理论研究与软件应用相结合,进行多角度实践的模式, 以一个连锁超市的客户数据与销售数据为研究事务数据,进行超市的客户分类 以及客户群所对应的消费行为分析作为分析目的,在实践中发现问题,总结经 验,验证模型。 本文从推荐系统的核心内容入手,介绍了数据预处理、数据挖掘的研究内 t 广东工业大学管理学硕士学位论文 容、发展现状和未来趋势。并且应用数据挖掘工具对实际的事务数据进行了模 型建立、联机分析和聚类分析等操作,旨在分析推荐系统功能的同时,提出一 种电子商务决策分析解决方案,为决策者提供快速、准确和全面的决策支持。 同时,应用先进的推荐系统平台通过信息分析、信息共享来为企业的客户增值。 推荐系统解决方案能迅速组织数据并促成分析以产生相关信息,然后从这些信 息提取有意义的规则,以提高决策质量和缩短解决问题的时间。 最后,本文对数据挖掘的发展做了展望。随着研究和应用的不断发展以及 需求的驱动之下,数据挖掘产品和解决方案也将更加智能化,决策也会更轻松。 关键词:w 曲挖掘、w e b 个性化、p i u m d 、电子商务,推荐系统 a b s t m c t a b s t r a c t w - e bh 嬲b e c o m ea ni m p o r t a n tw a yt oa c c e s si n f o m a t i o n ,s i i l c e 廿l e 罂d w i n g w r e bi i l f o m a t i o n ,p e o p l el l a _ v et 0s p e n da1 0 to ft i m et 0 a r c l l ,b 、s et h e i i l f 0 咖a t i o nt l l e yn c e d s e a r c he n g i i l e ( a r c he n 西n e ) s t i l lc a nn o ts a t i s 矽m en e e d so f d i 腩r e n tb a c k g r o u n d s ,d i 硫i n tp 唧o s 孤di nd i 妇f e r e n tp 耐o d sf o rt l l er e q u e s t p 的i l a l i z e dw i e b r y i c e st e c l l l l o l o g ) ri sm a d eo nt h i si s s u e ,w l l i c hp r 0 v i d e d 五泔 d i 丘i e r e n tu s e r so fd i a e r e n ts e r v i c e st ( ,i n e e td i 丘e r e n tn e e d s p e r s o i l a l i z e dw e bi ss u c hl 【i i l do ft e c h n o l o 舒r e f e r st 0t 1 1 es i t eo fc o n t i i l u o u s l e 锄i n ge x p e r i e n c e ,a i l di m p r o 、,e st l l es i t e so 玛孤i z a t i o n 锄dt l l ep r 0 v i s i o no f i 1 1 白咖a t i o n ,i i lo r d e rt ob e t t e rp r o v i d ei 1 1 】f o n n a t i o nt ou r s i i lo r d e rt oa c l l i e v ep e r s o i 谢i z e ds e r v i c e ,f i r s to fa l l ,w en e e d st om l c ka n dl e 锄 璐e r s i n t e 陀s t e d 锄db e h a v i o r ,锄dd e s i 驴距a p p r o p r i a t em e 觚so f e x p r e s s i o n ,a n d 玲nr e c o m m e i l d l er e s o u i c e su s e r si n t e r e s t e di l lt ot h eu s e ro i l l i n e i no r d e rt o r e c o m m e n dt l l e mm o r ee 岱o c t i v e l ya n da c c u r a t e l y ,、em u s to 玛枷z et l l er e s o u r c e s , m ec k i r a c t e r i s t i c so f l e c t e dr e s o u r c e s ,觚dr c c o m m e i l d e dt l l eu s eo fa p 怔。面a t e i nt l l i sp 印e r 丘0 mt l l ep e r s p e c t i v eo fa p p l i c a t i o i l w es i m p l yi n t m d l l c ea p e r s o i l a l i z a t i o nt e c l l l l o l o g yd e v e l o p m e mp r o c e s so fm ew e b b 嬲e dm i n i i l gw 曲, p r e s e n t i i l gam 蛐b e ro fe x c e l l e mw - e b b 鹤e dm “n gw 曲p e r s o n a l i z a t i o ns y s t e m n l 呱t l l i sp a p e rd e s c r i b e saw e b - b a s e dp e r s o l l a l i z e dw e bm i 血gp r o c e s s 堍,觚d 丘o m l ed i r e c t i o no fc l u s t e r 觚a l y s i s ,嬲s o c i a t i o nr u l e sa i l ds e q u e n c ea l l a l y s i sm o d e l , i tc o m p a r e dp e r s o n a l i z e dw e bm i m n gi i l 龇f i e l do fw e b a p p l i c a t i o nt e c l l i l o l o g y i n 广东丁业大学管理学硕士学位论文 蛐s ,丘o mw e bc o n t e n tm i i l i n gt e c l l i l o l o g yi n t e 群a t i o na n dm em u l t i f - e a t u r e su s e t od e s c r i b em ec h 戤i c t 耐s t i c so ft l l ec o 仃e s l ) o n d i n gt e c h n o l o g y 仃e n d s b 嬲e do nt l l er c s e a r c hw c e bp e r s o i l a l i z a t i o nt e c h i l o l o g y ,t l l i sp 印e rp r e s e n t e da 丘锄e w o r ko fp 心仍( p e r s o l l a l i z a l i o nr c c o m m e n 缸i o nb 投m i c r o s o rd m x ) b 勰e do nt l 圮锄a l y s i so ft h cp e r s o n a l 时o fd m xr e c o 伽n e i l d e ds y s t e m p 砌订di s s u c har e c o m m e n d a t i o ns y s t e mt l l a ti n t e 蝉t e di i l f o r m a t i o nu ,c o n t e m ,趾dt l l e s u 场e c t i v ei n t e r e s t so ft 1 1 et l l r c e 唧e c t s nc o n t 撕n sf o u rp r o c e s s e s :d a t aa c q u i s i t i o i l , d a t ap r e - p r o c e s s i n 舀d a t aa n a l y s i s 锄do i l l i n er e c o 删:i l e n d a t i o n t h e i l i i l “sp a p e r ,c 0 i i l b i l l i n g 廿l e o 哆r e s e a r c ha n ds o 行w a r ea p p l i c a t i o mt 0n l e p m c t i c eo fm u l t i - 锄舀em o d e ,b a s e di l lc 咖m e rd 呦a n ds a l ed a t ao fas u 岬獭 c h a i n ,r e s e a r c hi 1 1c 1 戚o m e rc l 嬲s i 矽o fs w i e i m a r k e t ,a l l dp u r p o s e do nc u s t o m b e h a v i o r 觚a l y s i so fc u s t o m e r f i n d i n gp r o b l e mi np 豫c t i c e ,a n dc o n c l u d e e x p e r i e i l c e s ,a i l dv e r i 鸟m em o d e l i l lt h ep a p e r 幽d u c et l l er e a r c hc o m e n t ,d e v e l o p m e ms t 咖sa n d 如t i l r e 慨i l l d so fd a :t a 、d l a :t am i i l i n gs t a r t i n gw i t l lt l l ec o r ec o n t e n to fr c c o m 埘【e i l d e ds y s t e m b u i l d 龇i n o d e l ,o l a p 勰dc l l l s t e 血go f 位d a t au s 吣d 嘲m i n i n g 础ma t a l i a l l y s i st 1 1 em n c t i o no fr e c o m m e n ds y s t e m ,觚dm e a n t i m ep 加i d i n gae c o m m e r c e d e c i s i o na i l a l y s i ss o l u t i o n ,t 0s u p p o r tt l l ed e c i s i o nm 疵r sr a p i d l y ,c u r a t e l y 锄d c o m p r e h e n s i v e a tt l l es a l n et i 】m e ,i n c r e 私i n gc u s t o m e rv a l u eu s i i l gi n f o m a t i o n 觚反l y s i s ,s h a r i n gi n l 0 m a t i o nb y 印p i y i n ga d v a n c e df e c :o 胁e n d e ds y s t e mp l a t f o m r e c o 瑚m e n ds y s t e ms o l u t i q i l sc 觚o r g a i l i z ec l a :t a 粕df a c i l i t a t c 孤a l y s i st 0p r o d i u c e r e l e w m ti n 幻m 撕o n 瑚l p i d l y a i 以t l l e n 鼢【t m c tm e 砒i i l i g f h lm i e s 丘0 mt l 圮i i l f o m a t i o n , t 0i i l l p r 0 v et h eq u a l i t yo fd e c i s i o n - m 批g 趾dg h o r t e nt l l et 曲eo fs o i n gt l l e a b s 仃a c t p r o b l e m a tl 戤p r o s p e :c tn l ed e v e l o p m e n to fd a :t am i n i i l gi i lt 1 1 i sp a p e r a s 恤 d e v e l o p m e n to fr e s e a r c ha n d 印p l i c a t i o n ,a n dd e m 锄d - “v e 也讹i l l j 曲l gp r o d u c t 锄d p r o b l e m - s o v l i i l gp r 0 孕砒m i l e 、 ,i 1 1b em o r ei n t e l l i g e n t ,铀da l s 0 ,t l l e d e c i s i o n - m a l 【i n g 、) l ,i l lb em o r ee 硒i l y k e o r d :w e bm i i l i n g ,w e bp e r s o i l a l i 刎。玛p r 仍,e 啪l m n e r c i a l , r e c o m m e n d a t i o ns y s t e m v 独创性声明 独创性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人 在导师指导下进行的研究工作及取得的研究成果尽我所知,除了文中特别加以 标注和致谢的地方外,论文中不包含其他人已经发表或者撰写过的研究成果, 不包含本人或者其他用途使用过的成果。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明,并表示了感谢。 本学位论文成果是本人在广东工业大学读书期间在导师的指导下取得的, 论文成果归广东工业大学所有。 申请学位论文和资料若有不实之处,本人承担一切相关责任,特此声明。 弋酣啪尘 濒魄么 第一章绪论 1 1 研究背景 第一章绪论 随着i n t e m e t 的进一步发展与用户需求的专门化、垂直化,激发了i n t e m e t 中信息的多样化且无序性与用户需求的专一性之间的矛盾。由于这一矛盾的存 在,一方面造成了信息资源的巨大浪费,另一方面为用户查询所需要的信息造 成了极大的困难。于是寻找一种快捷有效的方式,引导人们在信息海洋中确认 正确的方向,充分利用i n t e n l e t 网上的宝贵资源是解决这一矛盾的关键。个性 化服务理念的引入,为i n t e m e t 信息服务的理论与技术提供了一种全新的思路, 开拓了一种新的服务模式。 为了解决这个问题,人们提出了很多技术解决方案,w - e b 个性化即为其中 之一。近年来,随着w r c b 挖掘( 特别是w r e b 使用挖掘) 技术的发展,应用了 w ,e b 挖掘的w r e b 个性化技术更是被看作相关技术中最有发展前景的一项。 1 2 论文的选题及研究意义 w r e b 个性化是一项涉及到w 曲、数据库、数据挖掘、机器学习、信息学、 统计学等多个领域的交叉新技术。它的主要目的是更好地连接信息的提供者和 信息的使用者,一方面帮助信息使用者尽快的发现他们所需要的信息,另一方 面也帮助信息提供者将信息更好的提供给信息使用者。 近来,随着w e b 挖掘技术的发展,w | e b 挖掘技术在w 曲个性化当中得到 了越来越广泛的应用,w r e b 使用挖掘技术在w r e b 个性化数据分析过程中越来越 具有统治地位。究其原因,主要是在以下几个方面: 1 巨量数据。各种传统技术大多是实时处理技术,所以在处理大量数据 广东工业大学管理学硕士学位论文 时,往往伴随着低效率。 2 稀疏数据。各种传统技术适用性较小,难以处理稀疏数据,例如寻找 最近邻居集是协作过滤的关键技术,但在数据过于稀疏的情况下,最 近邻居集的寻找是困难和不可靠的。 3 传统技术所提供信息的质量不高。传统技术往往需要有充足正确的历 史数据,而且其技术本身无法消除错误数据的影响。相对应的是w r e b 具有动态特性,信息更新较为频繁,所以它们往往会产生低质量的结 果,例如遗漏了用户感兴趣的信息,或者提供了用户不感兴趣的信息。 w r e b 挖掘技术的应用为解决以上难题带来了曙光,这是因为:w r e b 挖掘 是数据挖掘的发展,所以能够很好的处理大量数据;数据挖掘技术能够通过 阀值灵活调整它的行为捕捉粒度,所以w r e b 挖掘能够解决稀疏数据问题; w 曲挖掘技术通过数据预处理能够消除错误数据的影响,而且它可以依靠w ,e b 内容挖掘技术为新信息提供足够可靠的参照数据。 所以,近来学术界越来越关注w 曲挖掘技术的个性化应用,其中尤以w r e b 使用挖掘技术为甚,它在几个方向上( 关联规则、聚类分析、序列模式等) 都 得到了广泛的个性化应用,产生了一系列优秀的应用系统。但是,因为w r e b 所 特有的复杂性和w r e b 挖掘技术自身的不断发展,所以基于w r e b 挖掘的w e b 个 性化技术在语义知识和多技术融合方面还有很大的发展空间,尤其是当前正在 不断壮大的电子商务使得这方面的发展要求更加迫切。 1 3 研究现状和发展 1 3 1 推荐系统的研究现状 因特网的普及和电子商务的发展,个性化推荐系统逐渐成为电子商务i r r 2 第一章绪论 技术的一个重要研究内容,越来越多地得到研究者的关注。目前,几乎所有大 型的电子商务系统,如a m a z o n ,c d n o w ,e b a y ,当当网上书店等,都不同程 度地使用了各种形式的商品推荐系统。 构建个性化推荐系统的关键是建立用户模型,建立用户模型就需要为推荐 确定算法。为了产生合理的推荐,保证推荐系统的实时性和在不同领域中的应 用要求,现在的研究人员提出了各种不同的推荐算法,如协同过滤算法、 b a y e s i 孤网络技术、聚类技术、关联规则技术以及基于图的h o r t i n g 图技术等。 聊e s 姆是最早提出来的基于协同过滤的推荐系统,目标用户需要明确指出与 自己。 行为比较类似的其他用户。觚u p l e 瑚是基于用户评分的自动化协同过滤 推荐系统,用于推荐电影和新闻。m n g o 推荐系统和d e o 推荐系统通过电子 邮件的方式分别推荐音乐和电影。b r e e s e 等人对各种协同过滤推荐算法及其改 进进行了深入分析。 1 协同过滤推荐通过用户的最近邻居产生最终的推荐,基于项目的协同 过滤推荐首先计算项目之间的相关性,然后通过用户对相关项目的评 分预测用户对未评分项目的评分。b a y e s i 觚网络技术利用训练集创建相 应的模型,模型用决策树表示,节点和边表示用户信息。训练得到的 模型非常小,所以对模型的应用非常快。这种方法适合于用户的兴趣 爱好变化比较慢的场合。 2 聚类技术将具有相似兴趣爱好的用户分配到相同的簇中,聚类产生之 后,根据簇中其他用户对商品的评价预测目标用户对该商品的评价。 由于聚类过程离线进行,所以在线的推荐算法产生推荐的速度比较快。 3 关联规则技术在零售业得到了广泛的应用,关联规则挖掘可以发现不 3 广东工业大学管理学硕七学位论文 同商品在销售过程中的相关性。基于关联规则的推荐算法根据生成的 关联规则模型和用户当前的购买行为向用户产生推荐。关联规则模型 的生成可以离线进行,因此可以保证有效地推荐系统的实时性要求。 1 3 2 电子商务推荐的国内外应用现状 电子商务个性化在国内外已渐成潮流,成为推动电子商务发展的加速器。 在国外,利用个性化推动企业电子商务开展的事例不胜枚举。列维斯特劳 斯是美国一家著名的牛仔服装生产厂商。由于人们的身材千姿百态和审美的差 异,使服装成为个性化程度最高的一种商品。现在它采用顾客定义技术,顾客 只需在公司互联网网页上输入自己需求的尺寸、颜色、面料等信息,该公司便 可在3 周内送货上门。因此,公司既没有库存也没有销售成本,其经济效益可 想而知。又如,当今i t 界炙手可热的d e l l 公司,自1 9 9 0 年以来,股票增长 了8 7 0 0 0 ! 其实,把该公司引向巅峰的理念就是个性化:按照客户的要求生 产计算机,并向客户直接发货。如d e l l 公司为福特公司不同部门的员工设计 了各种不同的配置,当通过福特公司内联网接到订货时,d e l l 公司马上就知 道订货的是哪个工种的员工,他需要哪种计算机,d e l l 公司便组装合适的硬 件和软件,很快送到客户手中。这种电子商务的个性化是推动d e l l 发展的原 动力。 在国内,开展电子商务个性化的典型莫过于海尔集团了,海尔的成功很大 程度上归功于服务,而个性化服务是其制胜的“杀手锏 ,该公司建立了具有个 性化的电子商务网站,更重要的是通过网站来满足客户个性化的需求。目前海 尔公司有冰箱、空调、洗衣机等5 8 个门类的9 2 0 0 多个基本产品类型和2 万多 个基本功能模块,经销商和消费者可以在海尔提供的电子商务平台上,有针对 4 第一章绪论 性地将这些“素材 和“佐料 进行组合,并生产出独具个性的产品。 1 3 3 推荐系统的发展趋势 1 趋向b s 结构的推荐架构 目前大部分的电子商务推荐系统采用的是嵌入式构架,如a m a z o n 、 c d n o w 、e b a y 、当当等。推荐引擎作为商务系统的一部分,特点是实施简单, 一般通过函数库、类库或软件组件等形式实现。在嵌入式推荐构架中,推荐系 统强烈依赖于应用系统,要求采用和应用系统相同的运行环境,如相同的应用 服务器软件平台。 而b s 结构的推荐构架有这自身的优势。推荐引擎作为提供推荐服务的服 务器端,独立于商务系统;商务系统则作为请求推荐的客户端。它们之间用某种 应用接口( 例如t c p 口,h w 阻或者i p 等) 交互。此构架的特点是推荐系统的 运行环境不需要和应用系统相同,对应用环境的适应性好。一个的例子是本文 提出的基于w e b 使用挖掘的个性化推荐服务体系结构。 2 向多算法发展 现有的推荐系统多以某个或某种推荐算法为核心,推荐功能单一,不能灵 活提供多种推荐。而未来的推荐系统会采用多种算法,算法之间进行互相协调, 从而使推荐结果更准确。 3 注重文本分析 对于推荐的产生,现阶段较少用到文本的分析。而对文本的分析却对推荐 的产生起着重大的作用。举个例子,在客户服务中心,把同客户的谈话转化为 文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的 需求以及客户之间的相互关系等信息,从而作出准确的推荐。但是文本的分析 广东工业大学管理学硕士学位论文 并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。 目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地 计算一下某些词汇的出现频率,并没有真正的分析功能。 1 4 研究的内容及方法 本文在综述了基于w r e b 挖掘的w c b 个性化技术的基础上,提出了基于 d m x 分析的个性化推荐系统框架p i 洲d ( p e r s o r “i z a t i o nr e c o i i l i i l e n d a t i o nb 嬲e m i c r o s o rd m x ) 。p i t m d 的工作主要体现在两个方面:一是把日志文件,站点 文件和用户访问信息作为基础数据,通过个性化推荐系统的使用,使得电子商 务网站可以更好地适应客户的需求,更好地展开商务营销;二是使用s q ls e m 2 0 0 5d m x 来实现w r e b 数据挖掘。 本文的具体工作主要如下: 1 基于一些优秀的应用系统,从应用的角度综述了基于w r e b 挖掘的w e b 个性化技术的研究和发展过程。 2 分析比较了w r e b 挖掘在w - e b 个性化领域应用的技术状况,并从几个方 面描述了相应技术的发展趋势。 3 提出了基于w e b 站点数据挖掘的w r e b 个性化,综合了信息的使用特征、 内容特征和主观兴趣特性,在实现个性化的同时有效地处理了w e b 站 点的动态性问题。 4 利用实验证明s q ls e r v e r2 0 0 5a n a l y s i ss e i c e 处理动态网站数据的有 效性。 6 第一章绪论 1 5 本文的组织结构 本文的组织结构如下: 第一章绪论。简要论述研究w r e b 个性化和基于w r e b 挖掘的w 曲个性化技 术的必要性,介绍本文的工作与组织结构。 第二章介绍w r e b 个性化技术。综述基于w 曲挖掘的w e b 个性化技术的发 展和应用。 第三章介绍d 似语言,描述d 懈在w e b 挖掘上的应用。 第四章电子商务基础数据的预处理。对数据挖掘的前期准备工作一数据预 处理进行了阐述,介绍了常用的数据预处理方法,并结合现有系统实际给出前 期预处理方案。 第五章模型构建及评估。提出框架p r m d ,在进行个性化服务的同时处 理站点的动态性问题。 第六章d 凇在推荐系统上的应用,描述电子商务推荐系统的实现。 第七章结束语总结本文工作,展望下一步的工作方向。 7 广东t 业大学管理学硕士学位论文 第二章基于w - e b 挖掘的w ,e b 个性化技术 2 1w e b 个性化技术 1 9 9 1 年,s t o t t s 【1 】首先提出了一个基于超文本的推荐系统( r e c o 舢n e n d a t i o n s y s t e m s ) 。开始了w 曲个性化的探索。此后,统计、数据库、贝叶斯分析、信 息过滤和信息抽取等传统技术都在w r e b 个性化方面得到了大量的应用,出现了 l e t i z i a 【2 】、w 曲w j a t c h e 一等一系列成熟可用的w 曲个性化系统,w 曲个性化技 术本身也在可适应站点( a d a 毗i v es i t e s ) 、推荐系统( r e c o 删n e n d a t i o ns y s t e m s ) 、 协作过滤( c o l la b o m t i v ef i l t e r i n g ) 、用户特征抽取( u s e rp r o f i l i n g ) 甚至数据预 取( w b b - p r e 矗北h ) 等多个应用方向上独立发展。 一般认为w e b 个性化技术是指不断学习站点的经验,改进站点的信息组织 方式和提供方式,以更好地向用户提供信息的技术。 站点的经验主要包括站点的拓扑结构、用户登记信息、用户访问日志、网 页信息内容等,对于电子商务站点,还要包括产品的交易信息。w r e b 个性化技 术处理、分析这些信息,然后采用一些方法,建立处理模型,来预测用户将来 的行为,改进站点的信息组织方式或响应方式。 w 曲个性化技术主要通过两种方法来改进站点的信息组织方式:一是提供 个性化链接一将个性化信息组织为链接,对不同的用户提供不同的链接;二是 提供个性化内容一在用户访问个性化信息时,根据用户的不同而改变信息的相 应内容。 它的信息提供方式改进也主要有两种方法:一是建立可适应站点,又称静 态方式,在这种方式下,站点的拓扑结构会周期性的根据用户需要进行重构, 8 第二章基于w 曲挖掘的w 曲个性化技术 但在访问点上面对用户的是不发生变化的站点;二是提供推荐系统,又称动态 方式,在这种方式下,站点的拓扑结构并不发生改变,但在用户访问时,会动 态的根据情况向用户提供变化的展现。 站点最终向用户提供的信息根据个性化程度的不同可以划分为三类:一是 非个性化信息,在同一个点上站点提供给所有用户的信息都是相同的( 但它也 是w 曲个性化技术处理的结果,有别于通常的信息网页) ;二是浅度个性化信 息,站点根据浏览路径和浏览行为的不同而在同一点向不同用户提供不同的信 息;三是深度个性化信息,既使不同用户具有相同的浏览路径和浏览行为,站 点也会根据历史兴趣的不同在同一点向他们提供不同的信息。可适应站点提供 的一般是非个性化信息,推荐系统提供的多是浅度个性化和深度个性化信息。 近来,随着基于w 曲挖掘的w r e b 个性化技术获得关注,w e b 挖掘技术成 了w | e b 个性化技术的主体,很多的w | e b 挖掘技术都在w 曲个性化当中得到了 应用,它的三类方法( w r e b 使用挖掘、w r e b 内容挖掘和w r e b 结构挖掘) 都有涉 及。应用较多的具体技术有关联规则、聚类分析、序列模式、分类分析、贝叶 斯网络、马尔可夫模型和其它一些数据挖掘相关技术。在这些技术当中,w r e b 使用挖掘一直是应用的主体,w 曲内容挖掘虽然也得到了越来越多的应用,但 它还是更多的被看作一种辅助技术,一种能够弥补w r e b 使用挖掘语义缺陷的技 术。但近来,一些新的方法和思想也被逐渐加入到w e b 个性化主流技术当中来。 2 2 基于w e b 挖掘的w e b 个性化技术的发展和应用 基于w | e b 挖掘的w | e b 个性化技术从产生之初就一直被人们广泛关注,至 今为止,该方面技术获得了极大发展,同时也出现了一系列具有鲜明技术特征 的优秀应用系统。 9 广东工业大学管理学硕士学位论文 l e t i z i a 【2 1 是最早将w 曲挖掘技术引入w e b 个性化的系统之一。l e t i z i a 闭是 一个客户端a g e n t ,它监护用户浏览行为,使用b e s t - f i r s t 启发式规则( 用户在很 多个连接当中首先选择的总是更能体现用户兴趣的) 获得用户兴趣,然后以此 为根据向用户提供下一步的推荐。 1 9 9 6 年,y 抽【4 】在站点用户访问日志的基础上建立了一个推荐系统,较早 的开始了w 曲使用挖掘技术的个性化应用。该系统由在线和离线两个部分组 成:离线部分以用户浏览行为为粒度对日志文件进行聚类分析,并为分析结果 的子聚类寻找特征页面集:在线部分判定当前浏览行为所属的聚类,然后使用 该聚类的特征页面集为用户动态生成推荐链接。 在早期基于w r e b 使用挖掘的w r e b 个性化系统当中,w r e b m e r 网是较为 流行的一个。它在开始时会要求用户描述个人兴趣,形成用户特征,然后结合 当前访问点上历史用户的浏览走向( w e b 使用挖掘方法) 和针对当前用户兴趣 的最大效益链接( 强化学习方法) 给出用户当前的推荐链接。它构建的是一个 导航a g e n t 系统。与w 曲w 甄c h e 一相似的p e r s o n a lw e b w 缸c h e 一1 是w - e b w 缸c h 一3 1 的一个改进系统,它被构造成为对某个特殊用户做个性化,它不再要求用户自 己输入关键词描述兴趣,而是通过处理用户访问过的网页为用户建立兴趣模型。 1 9 9 6 年,c h e n 【5 蚧绍了“最大前向链接 的概念来划分用户浏览模式间隔, w u 嗍就在此基础上建立了s p e e d t r a c e 【6 1 系统。s p d t r a c e r l 6 】系统应用“最大前 向链接”概念来处理日志文件,将用户行为切分成一个一个的事务 ( 1 h n s a c t i o n ) ,然后对事务集应用数据挖掘技术,寻找用户的频繁浏览路径集 和频繁访问页面组集。 在同一时期,z a i 撇【啊另外一种方法建立了w r e b l o g m i 一7 】系统。z a i 黜【7 】 将o l a p 、数据挖掘和多维数据立方体三种技术结合起来,以交互的方式发现 1 0 第二章基于w 曲挖掘的w 曲个性化技术 潜在的知识。w 曲l o g m i 一刀系统将站点日志加以处理后形成一个关系数据库, 然后在此基础上建立多维数据立方体,最后结合o l a - p 技术和数据挖掘技术实 现网页的预测、分类和日志数据的时间序列分析。 s p i l i o p o u l o u ( 由 8 】, 9 卜【1 2 】) 也采用了数据整合再处理的思想,通过建 立聚集树( a g g r e g a t e dt r e e ) 和设计针对聚集树的查询语言m i n t ,实现了系统 w u m 【9 】。s p i l i o p o u l o u 认为每个用户访问会话都对应一条路迹( 1 试1 ) ,通过将 具有相同前缀的路迹合并,就可以得到被称为“聚集日志的“聚集树 ,再利 用在此数据结构基础上构造的查询语言m i n t ,就可以得到用户感兴趣的浏览 路径集。b e r e n d t 【1 3 】【1 4 1 拓展了s p i l i 叩o u l o u 的思想,在w u m 嗍的基础上建立了 s t r a t d y n 系统。b e r e n d t 根据页面内容和服务请求将用户访问的网页和路 径抽象成较高级别的概念,然后利用概念的层次关系作为依据进行页面聚集。 p e r k o 谢t z ( 由【1 5 卜【1 9 】) 首次提出了可适应站点的概念,并且提出了实现 可适应站点的p a g e g a t h e r 算法。p a g e g a 吐l e r 使用聚集算法来发现那些具有访问 相关性却没有相互间可达链接的页面组集并为各页面组创建新的链接页面。在 进一步的工作中,p e 凼o 、 ,i t z 将统计性的聚类方法和页面的逻辑信息融合了起 来,提出了s c 池算法。s c 胤在对页面进行统计聚类的基础上,进一步进行 概念紧缩,以期发现紧密一致的页面链接集,并依此调整索引页面。 在1 9 9 6 年,m a s s e g l i a 【2 0 】【2 1 】瞄1 建立了原型系统w 曲t o o l 。w 曲t o o l 采用数 据挖掘技术处理站点的日志文件,在发现的序列模式和关联规则的基础上生成 规则集。如果用户浏览情况符合了某个规则,就根据该规则生成相应的动态链 接。 m o b a u s h e r 则基于w 曲使用挖掘的另外一种技术一一聚类分析建立了 w 曲p e 硌o n a l i z e r 系统。m o b 嬲h e r 将用户访问会话聚类后提取聚类的群体使用特 广东工业大学管理学硕+ 学位论文 征,然后结合访问用户和各群体使用特征间的匹配度和群体的行为取向为用户 提供网页推荐。后来m o b d l e r 又进一步扩展了这种思想,将信息内容也考虑在 内,提出了一种能够将网页的使用情况和内容语义同时加以考虑为用户提供网 页推荐的工作框架( 由【8 】,【2 3 卜【3 0 】) 。 在2 0 0 0 年,c i n g i l 【3 1 1 通过使用几种不同的w 3 c 标准,在一个大的视觉范 围内描述了一个具有对外可解释性的个性化系统b r o a d w a y 。该系统使用 ) a l 文件来保存客户端a g e n t 收集的用户浏览历史数据,对历史数据的处理形 成用户的兴趣特征模型,并使用p 3 p 来保存用户兴趣特征模型的个人隐私部分。 发生访问时服务器分析用户兴趣特征模型和推荐信息源,以决定向用户推荐哪 些信息。这些信息源都是用i f 进行描述的。 在2 0 0 1 年,加l d e r s o n ( 由【3 2 卜【3 5 】) 将p d a 等移动用户考虑在内,实现 了服务移动用户的站点个性化系统r p o t e u s 和m 矾删。p r o t e u s 将用户 每次访问时的站点展示都视为一个状态,在用户访问时它计算从当前状态进行 各种移动的期望价值,然后从期望价值较大的移动当中提取对用户的推荐网页。 p r o t e u s 建立的是一种描述用户行为和兴趣的模型,而m 矾p 枷建立的却 是预澳! 用户行为的模型。m i n p a t h 在用户聚类的基础上,通过处理日志文件 建立网页间转移的贝叶斯混合模型和马尔可夫混合模型,然后在发生访问时将 计算出的从当前页面出发最有可能到达的页面集推荐给用户。后来在2 0 0 2 年, a n d e r s o n 又提出了一种可以将信息内容考虑在内的r m m 模型,对m i n 栅 进行了扩展。 网上搜索的个性化问题也逐渐获得关注:c h a u 【3 6 】通过结合名词析取和 s o m 两种技术实现了系统c is p i d e r 和m c t as p i d e r ;灿1 l l w e e 将用户兴趣倾向 融入信息聚类技术当中实现了对引擎搜索结果进行个性化的系统f o c i 。c i 1 2 第二章基于w 曲挖掘的w 曲个性化技术 s p i d e r 从用户指定的站点采集实时数据,然后进行名词析取和归类,以最终向 用户提供关于该站点倾向的深刻理解。m e t as p i d e r 在功能上和c is p i d e r 类似, 但是它数据获得的手段是整合其它搜索引擎的结果。f o c i 为每个用户建立一 个信息公事包,在其中以自动生成的目录结构收集和组织在线数据。搜索后系 统会根据用户的倾向和兴趣对信息进行聚类,并将聚类情况形成目录结构置入 信息公事包,同时还允许用户进一步处理聚类的结果以更好的对下一次搜索进 行个性化。 h e e r 【3 8 l 【3 9 1 综合考虑信息的多种特征,建立了l 啪b e r j k 系统。网页的信 息内容、链接结构、使用情况等都是网页的特征,l 啪b e r j a c k 将它们同时考虑 在内,建立网页的多极特征模型,然后利用m m c 算法进行聚类分析,实现用 户行为预测。 在2 0 0 3 年,s h a l l a b i 【柏】考虑的更加全面,建立了特征模型f m ( f e a n 鹏 m o d e l ) 。s l l a l l a b i 认为信息的任一方面特征都可以用某个n 维向量矩阵来加以 表示,在我们需要考虑信息的多方面特征时,一个由各特征的表示矩阵组成的 一维向量就是对信息的准确描述,为这些描述考虑一个相近度的衡量标准 ( p p e d ) 就可以对其进行聚类分析,进而达到个性化的目的。 整个的基于w | e b 挖掘的w e b 个性化技术的发展和应用情况见表2 1 1 3 广东工业大学管理学硕士学位论文 表2 1 基于w 曲挖掘的w e b 个性化技术的发展和应用 1 a b l e2 1w | e bp e 瑙o n a l i z e dd e v e l o p m e n t 锄da p p l i c a t i o no f t e c l l l l o l o g ) ,b 嬲ew 曲m i n i n g 鬟黧“7 * 。j 乎,? j j z ”一。 j 。| + + i t i + ? “一? i 豫 爹项目组应用系统涉及技术 ;i :l i 曲e m 捌 1 , l c t i z i &统计学、w c b 挖掘,首次应用w 曲挖。 多、名 聱 ;1 9 9 5 v i 掘进行个性化锈 i m ,1 9 9 6删o g聚类分析( 使用) ,首次用w e b 使用挖j 臻磊 彩一 巍 掘进行个性化 “ ? 多 够 ,# i 一j 曼j o 徼毯m s ,缪两缪静幽w e b 使用挖掘、枧器学习、统计学纛 碜 参j ,1 1 一 章1 9 9 7 , 。冬譬 磐 笏 ”, ! ! i w 钮,1 9 9 8 s 掣蛾i t r e r ? w 曲使用挖掘 秀 :, : , ;z a i a l l e ,1 9 9 8w 曲l o g m i n c r0 l a p 、数据挖掘( w 拍) 、多维数据立“j 彩 。 囊 ;# “ 。一 贺侮 。秀 孝 ;。 多s p i l i o p o u l o w u 泰震” 一 数据重整( 聚集树) 、序列模式( 使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论