




已阅读5页,还剩91页未读, 继续免费阅读
(计算机应用技术专业论文)基于领域本体的电子商务推荐技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n c t 的不断发展,电子商务系统给商家和客户带来了越来越多的信 息,如何及时地在网上的海量信息中发现所需要的信息变得越来越困难。于是 电子商务诸多的推荐系统应运而生,推荐技术成为一个研究的热点,引起人们 的广泛关注。 近年来,电子商务推荐技术在理论和实践中均得到了较快的发展,与此同 时,电子商务推荐系统面临着严峻挑战。针对现有电子商务推荐系统存在的阀 题,本文在电子商务推荐系统中引入领域本体,对电子商务推荐系统中的推荐 算法及推荐模型等关键技术进行了深入的研究,以期通过引入领域本体和w e b 挖掘提高电子商务推荐的准确率和实时性。其主要工作与创新体现在: ( 1 ) 在探讨和分析比较各种本体构建方法基础上,借鉴软件工程学中的基 于软件生命周期模型的方法论,并利用现有的本体构建工具,提出了一种新的 基于原型迭代的领域本体构建方法,并构建个性化推荐所需的领域本体。 ( 2 ) 稀疏性问题是协同过滤推荐所面临的最重要问题之一。针对用户评分 数据的稀疏性问题,本文提出一个基于领域本体和用户偏好变化的协同过滤推 荐算法。利用领域本体中项目的类型及属性计算项目之间的语义相似度,采用 k n n ( kn e a r e s tn e i g h b o r ,k 最近邻居) 的思想根据用户对项目的评分,预测 用户未评分项目的评分,填充用户评分矩阵的缺失值,而后在填充后的用户一项 目评分矩阵基础上进行推荐。利用用户的特征因素对用户进行聚类,缩小最近 邻居的选择范围。本算法还考虑到用户偏好的变化,引入遗忘函数,根据评价 时间调整评分权重。实验结果表明:所提出的算法能够有效地解决稀疏性问题, 改善了推荐的质量。 ( 3 ) 传统的w e b 使用挖掘在个性化推荐过程中没有考虑相关领域的语义知 识,不能利用对象的语义进行推荐,从而导致推荐的准确率比较低。针对上述 问题,提出一种基于领域本体和w e b 使用挖掘的个性化推荐模型,将领域本体 集成到w e b 挖掘和个性化推荐中。针对这一模型,本文提出一种基于语义聚类 的个性化推荐算法,利用领域本体对w e b 数据进行预处理,并采用k m e a n s 层 次凝聚算法对交易事务进行聚类分析。而后利用各个聚类的质心点矢量柬表征 每个聚类,生成准确的用户访问偏好和推荐集。 ( 4 ) 提出了多模型的电子商务推荐系统模型,该模型支持非个性化、协同 过滤和基于w e b 使用挖掘的多种推荐。通过挖掘w e b 使用数据和用户项目评分 数据,分析用户属性信息和用户评分记录等信息,挖掘用户潜在兴趣偏好,在 不断的学习中为用户提供准确实时的个性化推荐服务。以此模型为基础,设计 并实现了基于电影领域本体的个性化推荐原型系统,验证了其正确性。 关键词:领域本体、协同过滤、个性化推荐、w e b 挖掘、w e b 使用挖掘 i i a b s t r a c t 、矾mt h ep o p u l a r i z a t i o no ft h e n t e m e t ,e - c o m m e r c es y s t e m sb r i n gm o r ea n d m o r ei n f o r m a t i o nf o rb u s i n e s s e sa n dc u s t o m e r s ,a n di tb e c o m e sm u c hm o r ed i f f i c u l t f o rc o n s u m e r st of i n ds e r v i c e st l l e yw a n ti nat i m e l ym a n n e rf r o mt h em a s s i v eo n l i n e s o u r c e s t oa d d r e s st h i si s s u e ,av a r i e t yo fr e c o m m e n d a t i o ns y s t e m sw e r ep r o p o s e d a n dg r e a ta t t e n t i o n sh a v eb e e np a i do nt h i sn e wt e c h n o l o g y , w h i c hh a sb e c o m ea h o t s p o t i nr e c e n tr e s e a r c h e s a l t h o u g ht h er e c o m m e n d a t i o ns y s t e m s i ne c o m m e r c eh a v eb e e nv e r y s u c c e s s f u li nb o t hr e s e a r c ha n dp r a c t i c e ,c h a l l e n g i n gp r o b l e m ss t i l lr e m a i n a i m e da t s o l v i n gt h em a i nc h a l l e n g e so fr e c o m m e n d a t i o ns y s t e m si ne c o m m e r c e , t h i s d i s s e r t a t i o na t t e m p t st o i n t e g r a t ed o m a i no n t o l o g yw i t hw e bu s a g em i m n gf o r r e c o m m e n d a t i o np e r s o n a l i z a t i o na n dg i v e sar e w a r d i n gr e s e a r c ho nr e c o m m e n d a t i o n a l g o r i t h m sa n dr e l a t e dm o d e l si ne c o m m e r c er e c o m m e n d a t i o ns y s t e m si no r d e rt o i m p r o v et h ea c c u r a c ya n dt h ei n s t a n t a n e i t yo ft h es y s t e m s t h em a i nr e s e a r c hw o r k a n di n n o v a t i v ep o i n t sd i s c u s s e di nt h i sd i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) b a s e do na n a l y z i n gd i f f e r e n tm e a n so fd o m a i no n t o l o g yc o n s t r u c t i o n ,an e w m e t h o di sp r o p o s e dt oc o n s t r u c td o m a i no n t o l o g yf o rp e r s o n a l i z e dr e c o m m e n d a t i o n ( 2 ) s p a r s i t yi s o n eo ft h em o s ti m p o r t a n ti s s u e si nc o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o n t od e a lw i t ht h es p a r i s t yo fu s e r - i t e mr a t i n g , an e wc o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o na l g o r i t h mw h i c hi sb a s e do nd o m a i no n t o l o g ya n di n t e r e s t d r i f th a sb e e nd e v e l o p e d i nt h en e wa l g o r i t h m ,t h es e m a n t i cs i m i l a r i t yb e t w e e nt y p e s a n dv a l u e sc a nb ec o m p u t e da c c o r d i n gt ot h ed o m a i no n t o l o g y , t h ep r e d i c t i n gr a t i n g o fi t e m su n f i l l e db yu s e r sc a l lb ep r e d i c t e dw i t ht h es e m a n t i cs i m i l a r i t ya n df i l l e d a c c o r d i n gt ot h ek n e a r e s tn e i g h b o r s ( k n n ) ,t h e nt h er e c o m m e n d a t i o n sc a nb em a d e u s i n gt h ef i l l e du s e r - i t e mr a t i n gm a t r i x b e s i d e s ,t h eu s e r sf e a t u r e sc a nb eu s e df o r u s e rc l u s t e r i n gt or e d u c et h es e l e c t i o ns c o p eo fn e a r e s tn e i g h b o r s t a k i n gt h ec h a n g e s i nu s e r s p r e f e r e n c e si n t oa c c o u n t ,af o r g e t f u l n e s sf u n c t i o n 坟t ) i si n t r o d u c e dt oa d j u s t t h ei m p o r t a n c eo fr a t i n gc o n s i d e r i n gt h er a t i n gt i m e t h ee x p e r i m e n tr e s u l t ss h o wt h a t t h en e wa l g o r i t h mc a ns o l v et h e s p a r s ep r o b l e me f f e c t i v e l ya n dh a sb e t t e r t l t r e c o m m e n d a t i o nq u a l i t yt h a nt h et r a d i t i o n a la l g o r i t h m ( 3 ) w i t h o u tu s i n gt h es e m a n t i c so fo b j e c t s ,t h et r a d i t i o n a lw e bu s a g em i m n gi n p e r s o n a l i z e dr e c o m m e n d a t i o nd o e sn o tc o n s i d e rr e l a t i v es e m a n t i ck n o w l e d g e ,8 0t h e a c c u r a c yo fr e c o m m e n d a t i o ni sl o w i no r d e rt os o l v et h i sp r o b l e m ,ap e r s o n a l i z e d r e c o m m e n d a t i o nm o d e lw h i c hi n t e g r a t i n gd o m a i no n t o l o g yw i t hw e bu s a g em i n i n g f o r p e r s o n a l i z a t i o n i s p r e s e n t e d a ni n n o v a t i v e p e r s o n a l i z e dr e c o m m e n d a t i o n a l g o r i t h mb a s e do ns e m a n t i cc l u s t e r i n gi sd e v i s e di nt h i sm o d e l a no n t o l o g y - b a s e d v e c t o rs p a c em o d e li s s e t t i n gu pa f t e rt h ep r e p r o c e s s i n go nw e bu s a g ed a t aw i t h d o m a i no n t o l o g y t h et r a n s a c t i o nd a t aa r ec l u s t e r e dw i t hk m e a n sa g g l o m e r a t i v e n e s t i n ga l g o r i t h m t h ec a n c r o i d so fc l u s t e r sc a l lb eu s e dt og e n e r a t eu s e rp r e f e r e n c e a n dr e c o m m e n d a t i o nd a t as e t s ( 4 )an e wm u l t i p l er e c o m m e n d a t i o np r o t o t y p es y s t e mi sd e s i g n e da n d i m p l e m e n t e d t h en e ws y s t e mc a ns u p p o r td i f f e r e n tm u l t i p l er e c o m m e n d a t i o nm o d e l s s u c ha s n o n p e r s o n a l i z e dr e c o m m e n d a t i o n ,p e r s o n a l i z e dr e c o m m e n d a t i o nf o r r e g i s t e r e du s e r sa n dp e r s o n a l i z e dr e c o m m e n d a t i o nf o ru n r e g i s t e r e di i s e l s b ym i m n g o nt h ew e bu s a g ed a t aa n du s e ri t e m r a t i n g d a t a , a n a l y z i n gt h eu s e ra t t r i b u t e i n f o r m a t i o na n du s e rr a t i n gr e c o r d s ,t h em o d e ll e a r n st h ep o t e n t i a li n t e r e s t so ft h e u s e r s ,a n dp r o v i d e si n s t a n ta n da c c u r a t ep e r s o n a l i z e dr e c o m m e n d a t i o ns e r v i c e s t h e e f f e c t i v e n e s so ft h em o d e li sv e r i f i e dt h r o u g ht h ed e v e l o p m e n to fap e r s o n a l i z e d r e c o m m e n d a t i o np r o t o t y p es y s t e mb a s e do naf i l md o m a i n o n t o l o g y k e yw o r d s :d o m a i n o n t o l o g y , c o l l a b o r a t i v e f i l t e r i n g , p e r s o n a l i z e d r e c o m m e n d a t i o n ,w e bu s a g em i n i n g i v 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方以外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究的任何贡 献均已在论文中作了明确的说明并表示了谢意。 研究生( 签名) : 亚坠日期:兰竺皇:f 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印和其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的有关机构或论文数据库使用或收录本学位论文,并 向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :墨塾导师( 签名日期:鱼! 艺:多 武汉理丁大学博士学位论文 1 1 研究背景与意义 第1 章绪论 随着互联网的普及,电子商务得到了前所未有的发展,给商家和客户带来 了越来越多的信息。但是,随着信息增多,信息产品过载现象同益严峻,给客 户和商家都带来了诸多不便,主要表现在:客户经常会淹没在海量信息中,无 法快速找到自己需要的商品;而商家会面临失去顾客导致销售困难等难题【l , 2 1 。 因此,在电子商务环境中,需要一种具有推荐功能的电子商务系统来帮助客户 选购客户所需要的商品,该系统可以动态捕获客户的爱好,预测其购买偏好, 并向其推荐可能感兴趣的商品,同时对推荐结果进行解释,最后实现产品的销 售,达到商家和客户的“双赢”。正因如此,电子商务推荐系统( r e c o m m e n d a t i o n s y s t e m ) 应运而生。推荐系统直接与客户交互,模拟商店销售人员向客户提供商 品推荐,帮助客户找到所需商品,从而顺利完成购买过程。电子商务推荐系统 能够协助将浏览者转变为购买者、提高电子商务的交叉销售、有效保留客户、 防止客户流失,提高电子商务系统的销售【2 3 】。因此电子商务推荐技术具有良好 的发展和应用前景,逐渐成为目前一个重要研究内容,得到了研究者的广泛关 注【4 1 。 目前,几乎所有大型电子商务系统,如亚马逊、易趣、当当等,都在不同 程度上使用了个性化的推荐技术【5 】。电子商务个性化推荐技术在理论和实践中都 得到了迅速发展。但是,随着应用规模的扩大,个性化推荐技术也面临着一系 列挑战,主要表现在:客户和商品数目呈现指数级增长,而通常情况下每个客 户一般只对很少自己所关心的商品项目进行评分,整个用户项目评分矩阵非常 稀疏,从而使得传统的协同过滤推荐中寻找最近邻居用户变得非常困难,导致 推荐准确率降低,难以满足客户需要。此外,大规模的电子商务应用中,推荐 系统的可伸缩性和实时性要求难以保证。 与此同时,i n t e r n e t 已经发展为世界上规模最大的信息资源库,为了实现从 海量的数据信息中,查找自己所需要的数据和有用的信息,提出了w e b 挖掘的 概念i 6 j 。w e b 挖掘是一项具有挑战性的任务,它搜索w e b 结构,依次确定w e b 武汉理:【大学博士学位论文 内容的重要性,发现w e b 内容的规律性和动态性,挖掘w e b 的访问模式。一般 来说,w e b 挖掘任务可以分为3 类:w e b 内容挖掘,w e b 结构挖掘和w e b 使用 挖掘。w e b 挖掘将传统数据挖掘技术应用到w e b 页面上,综合运用数据挖掘、 统计学、计算机网络、数据库与数据仓库、可视化等众多领域技术。w e b 挖掘 可以从w 曲页面和用户访问活动中发现和抽取潜在的、有意义的模式和知识。 w 曲使用挖掘是w e b 挖掘中最重要的一种,被广泛应用于电子商务个性化推荐 技术中。w e b 使用挖掘通过挖掘w e br 志记录,发现用户访问w 曲页面的模式, 分析和探索w e b 日志记录中的规律,可以识别电子商务潜在客户,挖掘的结果 通常是用户群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯和模 式等【6 - 3 1 。 由于w e b 使用挖掘能够发现用户群体的共同兴趣以及个体用户的习惯和模 式,将其应用于电子商务推荐系统中能够有效提高推荐质量,w e b 使用挖掘已 经成为当前电子商务个性化推荐的主流方法。基于w 曲使用挖掘的电子商务个 性化推荐技术已经成为当前电子商务技术的一个热点问题【9 1 。一方面,w e b 使用 挖掘在一定程度上能够改善推荐质量;但是,这种方法还存在许多不足,例如: 推荐质量低下,归根结底是因为推荐系统不能很好地理解商品的语义。在当前 的i n t e m e t 环境下,网页内容主要是呈现给用户阅读,机器并不能理解这些信息 的含义。计算机能熟练地解析网页的版面,有效区分网页的标题和链接。但是, 它无法分辨页面的内容,比如:难以辨别出个人页面和天气预报页面的区别, 因为没有可靠的方法来处理其中的语义,无法理解网页内容和进行操作 1 0 , 1 1 】。 语义w e b 的出现正是为了解决这一问题。语义w 曲是2 0 0 0 年由t i m b e m e r s l e e 在世界x m l 大会上提出的,“语义w e b 是对当前w e b 的扩展,语 义w e b 上的信息具有良好的含义,使得计算机之间以及与人机之间能够更好地 协作”【1 2 1 。在语义w e b 中,各种资源被人为地赋予了明确的语义,计算机可以 识别并理解资源的含义,并对其自动进行解释、交换和处理【l3 1 。本体是构成应 用领域中词汇的基本术语和关系,以及结合这些术语和关系扩展新词汇基本规 则的有机组合体【1 4 】。从物理含义上说,本体是某一应用领域中概念的显式说明, 即领域知识的概念化表达。本体是语义w e b 的基石,它通过对概念的严格定义 和概念之间的关系来确定概念精确含义,提供了对特定领域知识的共享、普遍 的理解l l 引。因此利用w e b 领域本体指导基于w e b 挖掘的电子商务推荐技术,能 够使得电子商务个性化推荐的实际效能得到进一步提高。 2 武汉理工大学博十学位论文 论文研究基于领域本体的电子商务推荐技术,主要根据推荐系统的研究现 状和应用发展的需要,通过引入领域本体和w e b 挖掘提高电子商务推荐算法的 准确率和实时性。 1 2 国内外研究现状与分析 1 2 1 电子商务推荐算法 美国计算机学会从1 9 9 9 年开始召开的电子商务研讨会中,电子商务推荐系 统方面的研究文章占了很大的比重。美国计算机学会的数据挖掘特别兴趣组小 组设立w e b 数据挖掘研讨组,研究主题主要集中在w e b 挖掘技术和个性化推 荐上。美国计算机学会下属的信息检索特别兴趣组也开始专门把电子商务推荐 作为一个研讨主题。 此外,国外很多著名大学、实验室和研究所致力于电子商务个性化推荐技 术的研究,在理论和应用方面取得了系列的研究成果。当前影响比较大的个 性化推荐系统有【3 5 】:施乐帕克研究中心开发的t y p e s t r y 系统,卡耐基梅隆 大学开发的主动协同过滤( a c t i v ec o l l a b o r a t i v ef i l t e r i n g ,a c f ) 系统,麻省理工学 院开发的g r o u p l e n s 自动协同过滤系统,明尼苏达州大学开发的m o v i e l e n s 研 究型自动协同过滤推荐系统,麻省理工大学媒体实验室开发的r i n g o 研究型协同 过滤推荐系统,贝尔通信研究所开发了v i d e or e c o m m e n d e r 协同过滤推荐系统, 斯坦福大学数字图书馆项目组开发的基于内容的过滤和协同过滤的复合型推荐 系统。 常用的电子商务推荐算法包括:基于内容的推荐算法( c o n t e n t b a s e d r e c o m m e n d a t i o n ,c b r ) 、协同过滤推荐算法( c o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o n ,c f r ) 、基于关联规则的推荐算法( a s s o c i a t i o nr u l e - b a s e d r e c o m m e n d a t i o n ,a r s r ) ,以及组合推荐算法。由于各种推荐方法都有优缺点, 所以在实际中常采用组合推荐的方式,研究和应用最多的是基于内容的推荐和 协同过滤推荐的组合【2 7 2 8 1 。 ( 1 ) 基于内容的推荐算法 基于内容的推荐算法来源于信息检索和信息过滤,该算法根据项目之间的 相似度进行推荐。基于内容的推荐算法首先分析用户已经评分项目的内容,建 立用户的访问偏好文件,然后从所有项目中选择与用户偏好文件匹配的项目, 3 武汉理工大学博十学位论文 并将评分较高的项目推荐给客户【2 9 3 0 1 ,最后根据用户的反馈对推荐进行修正,以 其得到更加准确的推荐结果。其中:用户u 对项i 的评分8 ( u ,f ) 是根据用户u 对 与项舛目似的项i 的评分r ( u ,i ) 来估计的,其中i 。i t e m s 。基于内容的推荐算法 流程如图1 1 所示【3 1 1 。 图1 1 基于内容的推荐算法流程 通过提取项目f 的特征值,计算出它的属性集合p r o p e r t y ( i ) ,属性集用于确 定一个项目与被推荐项目的匹配程度 3 2 】。用户访问偏好文件 p r o p e r t y b a s e dp r o f i l e ( u ) 根据关键词的权重来定义。p r o p e r t y b a s e dp r o f i l e ( u ) 是 一个权重向量睨= ,:,坛) ,w u i 表示关键词岛对用户u 的重要程度。在 基于内容的推荐系统中评分函数r ( u ,f ) 被定义为: r ( u ,f ) = s c o r e ( p ro p e r t y b a s e d p r o f i l e ( u ) ,c o n t e n t ( i ) )( 1 - 1 ) 其中:s c o r e 为属性集合p r o p e r t y ( i ) 在用户偏好文件中的评分。 基于内容的推荐技术具有一定的局限性【3 3 ,3 4 1 。首先,被推荐对象的内容必须 表示为机器可理解的形式,不能推荐例如音乐、图像、视频等多媒体信息,因 此应用范围有限;其次,推荐技术对于被推荐对象内容的分析范围较少,不能 提供较多的推荐建议;第三,基于内容的推荐不能对被推荐项目进行过滤。文 献【3 5 3 6 】认为基于内容的过滤推荐算法无法分析被推荐对象的质量,难以提供新颖 的推荐。 ( 2 ) 协同过滤推荐算法 传统的协同过滤推荐技术利用用户和项目来处理推荐事务【3 7 1 。1 i s e r 表示客 户,i t e m 表示项目。根据用户项目评分矩阵u s e r xi t e m 推荐算法通过评分函数 4 武汉理工大学博士学位论文 对未评分项目i t e m 进行评分,如下式所示: r :r i s e r i t e m r a t i n g s ( 1 2 ) 其中r 表示映射函数,r a t i n g 表示项目评分。映射函数r 作用于整个用户 项目评分矩阵淞盯i t e m ,能够根据用户的一个或者多个邻居用户的评分,来对 未评分项目进行预测评分,而后从中选取出预测评分最高的项目,推荐给用户, 如下式所示: v u u s e r s ,i := a r gr ( u ,f ) i 乍l t e m s ( 1 3 ) 其中艺为用户u 对项目f 的预测评分,a r g 为聚集函数,常用形式是均值函数。 r ( u ,订表示用户材对项目f 的评分。 随着用户和项目数量的急剧增加,评分矩阵可能非常巨大,预测用户项 目评分矩阵中的未评分项目将花费大量的计算资源【3 8 , 3 9 1 ,因此,如何提高协 同过滤推荐算法的实时性是一个重要的研究内容。 ( 3 ) 基于关联规则的推荐 基于关联规则的推荐算法首先对用户数据进行挖掘,生成关联规则,建立 推荐模型,而后将用户和推荐模型进行匹配,根据匹配结果产生推荐1 4 0 , 4 。基于 关联规则的推荐算法可以分为两个阶段:推荐模型建立阶段和推荐模型应用阶 段【4 2 4 3 】。离线阶段使用数据挖掘算法发现关联规则,建立推荐模型,模型建立阶 段非常耗时,但可以离线进行;在线阶段根据关联规则和用户的状态向用户提 供实时的推荐服务【4 4 4 5 1 。 在上述各种推荐算法中,协同过滤推荐算法是当前电子商务推荐技术研究 的一个热点。根据协同过滤技术中所考虑对象的差异,将其分为如下两类f 1 , 2 1 : ( 1 ) 基于用户的协同过滤推荐算法:该类推荐算法首先计算用户之问的相似度, 寻找当前用户的最近邻居,并以相似度作为权重,加权邻居用户的项目评分, 得到当前用户未评分项目的评分预测值,选择预测评分高的项目,将其推荐给 当前用户。( 2 ) 基于项目的协同过滤算法:计算目标项目和未评分项目之间的 相似度,寻找目标项目的最近邻居项目,加权各邻居项目的评分,预测目标项 目的预测值,并将预测评分最高的项目推荐给当前用户。 协同过滤推荐技术存在一些缺陷,因为传统的协同过滤推荐技术根据用户 5 武汉理工人学博士学位论文 项目评分矩阵产生推荐结果,用户项目评分数据来自用户的显式评分。一方面, 用户通常不愿意中断正在进行的操作进行显式评分,从而导致用户项目评分矩 阵非常稀疏;另外一方面,用户显式评分难以保证评分数据能够如实反映用户 的真实想法。为了解决上述问题,基于w e b 挖掘的推荐算法成为电子商务推荐 技术中的又一个研究热点。 1 2 2w 曲挖掘技术 基于w e b 挖掘的推荐技术是利用数据挖掘算法,对w e b 数据进行挖掘,寻 找用户访问w e b 页面的模式,分析和探索w e b 数据中的规律,识别电子商务的 潜在客户,并产生对客户的推荐结果。许多研究者提出基于w e b 挖掘获取用户 隐式评分的方法。m o b a s h e r 和t a kw y 等人提出挖掘w e b 数据,跟根据挖掘的 结果向客户提供推荐服务f 1 6 1 。此后,m o b a s h e r 提出基于w e b 数据聚类产生推荐 的方法,该方法结合w e b 使用挖掘和w e b 内容挖掘进行推荐【1 7 , 1 8 1 。各种数据挖 掘方法如关联规则获取、聚类分析等被广泛应用于w e b 挖掘中以提高推荐精度 6 2 1 【6 3 】。 w e b 挖掘通常被分为三类:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构 挖掘( w 曲s t r u c t u r em i n i n g ) 和w e b 使用挖掘( w 曲u s a g em i n i n g ) 【6 】,如图l 一2 所示。作为选择,w e b 结构也可以认为是w e b 内容的一部分。 w e b 搠b w e b 内容挖掘w e b 结构挖掘 w e b 使用挖掘 j 一j 点| l l 去f 二 w e b 文多媒体 嚣”禁 本挖掘 挖掘 掘 l i n l :掘 l1 图1 - 2w e b 挖掘的分类 6 武汉理工大学博士学位论文 ( 1 ) w e b 内容挖掘 w e b 内容挖掘是指从w 曲数据的内容( 包括文本、超文本、图像、音视频、 元数据等多媒体信息) 中发现和获取模式,w e b 数据通常是无结构或半结构化 的 6 4 , 6 5 】。w 曲内容挖掘可用于协助用户收集有用信息或过滤掉无用信息。w e b 页面中存在各类标签,这些标签隐含了w e b 页面内容的重要性,合理利用这些 标签有助于w e b 文本挖掘性能的提高。 w e b 内容挖掘根据挖掘对象的不同,可以分为w e b 文本挖掘和w e b 多媒体 挖掘,其中研究最多的w e b 内容挖掘。w e b 内容挖掘从w e b 文本集合中挖掘出 隐藏模式的过程。w e b 文本挖掘的具体步骤如下【9 】: 建立w 曲文档集的特征表示。 w e b 文本挖掘的对象通常是h t m l 格式的文档集。由于w e b 文本是无结构的 或半结构化的。因此,需要将这些w e b 文本文档转化为基于文档内容的特征表 示。常用的特征表示方法有:向量空问模型( v e c t o rs p a c em o d e l ) 、布尔模型 ( b o o l e a nm o d e l ) 、聚类模型( c l u s t e rm o d e l ) 、概率模型( p r o b a b i l i s t i em o d e l ) 和基于知识模型( k n o w l e d g e b a s e dm o d e l ) 等。 文档特征的维数缩减。 特征向量维数过高是文档特征表示所存在的问题。因此,w e b 文本挖掘的 一种重要环节就是w e b 文档特征子集的选取与缩减。目f i f ,常用的特征提取与 缩减方法有:信息增益、互信息、文本证据权、x 2 统计法、特征频度、文本频 度、特征熵、特征权、期望交叉熵以及几率比等等。 模式发现及模式评价。 ,对文档特征进行维数缩减后,可以利用各种数据挖掘算法( 例如:分类算 法、聚类分析、关联规则挖掘等) 挖掘隐藏在w e b 文档中的知识模式。而后对 挖掘出的模式进行评价,若评价结果满足要求则进行输出。 ( 2 ) w 曲结构挖掘 相对于纯文本文件,w e b 页面具有一定的结构性。此外,w e b 页面中还包 含了网页之间的链接关系,因此w e b 结构挖掘中主要目标是w e b 挖掘w e b 链接 结构,识别权威w e b 页面。w e b 页面包含了页面之间的超链接,而在超链接中 隐含了大量关于w e b 页面的注释信息【6 3 】。w e b 结构挖掘的结果能够提供关于 w e b 页面内容相关性、质量和结构方面的信息。引用文档有助于推断出w e b 页 面的权威性。所谓权威页面是在一个主题内被高度引用或参考的网页【6 6 1 。与其 7 武汉理工大学博七学位论文 相关的另一个概念是中心页面指向许多权威页的页面。权威页面和中心页 面具有相互增强的左右,中心页面起到隐式地确立所关注的主题的权威页面的 作用【6 】。一般地说,一个好的中心页面指向了多个好的权威;一个好的权威页面 被多个好的中心页面所指。在信息检索中可以将具有高权威和高中心分的网页 视为高质量的网页,优先提供给用户。可以通过分析网页之间的超链节结构发 现i n t e m e t 上的超链社区。 ( 3 ) w 曲使用挖掘 w e b 使用挖掘是w e b 挖掘中最重要的一种,它通过挖掘w e b 日志记录,发 现用户访问w e b 页面的模式 6 1 。w e b 服务器记录了每次访问的日志项,它包括 所请求的u r l 、发出请求的i p 地址和访问的时间戳。w e b 服务器日志是w e b 使用挖掘中的一个重要数据源。此外w e b 使用数据还包括代理服务器同志、浏 览器端同志、注册信息、用户会话信息、交易信息、c o o k i e 中的信息、用户查 询、鼠标点击流等 9 , 6 3 】。 w e b 使用挖掘通常包括三个阶段:数据预处理、数据挖掘、模式分析及可 视化。 数据预处理 对原始的w e b 日志数据进行数据集成、数据清理和数据变换,将其转变为 适合挖掘的数据格式,以用户会话文件的格式保存到数据库中,作为挖掘算法 的输入。 数据挖掘 利用数据挖掘算法对预处理后的w e b 同志数据进行挖掘,找出关联规则、 序列模式和w e b 访问偏好等。对于w e b 访问偏好的挖掘,通常需要获得用户访 问时的附加信息,包括用户浏览w e b 页面的序列等。 模式分析及可视化 模式分析阶段主要是利用领域专家的知识以及其它一些可用的标准来分析 这些模式,并过滤掉那些没有应用价值以及有偏差的模式。将发现的模式以表 格、饼图、曲线图、趋势图、直方图或者其它特殊表现形式显示出来。 在电子商务个性化推荐技术中,利用w e b 使用挖掘能够在一定程度上改善 推荐质量,并取得了一定的效果。但是,由于传统的w e b 使用挖掘在个性化推 荐过程中没有考虑相关领域的语义知识,从而导致这些个性化推荐系统不能利 用复杂对象自身的属性进行推荐,也不能对用户模型或者用户推荐进行自动的 8 武汉理工大学博士学位论文 解释或者推理。 针对上述闯题,m o b a s h e r 等人提出的通过整合w e b 使用数据与w e b 内容数 据,获取站点的语义,并进行个性化推荐。此外,j i n - x i n 等人提出了一种基于 最大熵的协同过滤推荐技术,并与基于内容特征的个性化推荐方法相结合【1 9 2 0 1 。 其中,通过站点的一系列属性来描述w e b 站点的内容特征,并利用l d a ( l a t e n t d i r i c h l e ta l l o c a t i o n ) 来获取w e b 站点属性之间的语义关系。m o o n e y 和r o y 提出 了一种基于文本内容分类的个性化推荐方法,该方法利用信息抽取和朴素贝叶 斯分类器来实现【2 。b a s u 等人提出了整合用户评价信息和站点内容特征的个性 化推荐方法【2 2 1 。r 嘶dg h a n i 和a n d r e wf a n o 提出了基于复杂对象自身语义特征 的个性化推荐方法【2 3 】等。 语义w e b 旨在使w e b 上的文本信息具有计算机可以理解的语义【1 3 】。w e b 领 域本体确定了该领域内共同认可的概念的明确定义,通过概念之间的关系描述 了概念的语义,这使得人们之间以及与机器之间的交互基于语义层次。也正是 因为w e b 领域本体具有揭示w e b 领域概念所固有的属性以及概念之间复杂关系 的功能,所以在电子商务个性化推荐中利用w 曲领域本体能够有效改善推荐的 质量。 伴随着语义w e b 的迅速发展,将领域本体应用到w e b 挖掘和个性化推荐过 程是目前研究的前沿,其核心在于集成领域本体到个性化推荐过程中。d a i 和 m o b a s h e r 等首先提出一种集成领域本体到个性化推荐过程中的实现思路【2 4 】,该 方法从w e b 页面中抽取领域层次的结构化对象,获取w e b 页面的语义实体,而 后生成表示用户访问偏好的语义向量,并将用户当前会话转换为向量形式表示, 通过计算用户当前会话和用户访问偏好之间相似性,找出用户语义层面的潜在 访问兴趣,并根据用户会话和访问偏好之间的匹配结果进行推荐。此后,d a i 和 m o b a s h e r 对所先前所提出的方法进行改进,提出了在数据预处理、模式发现、 推荐阶段整合语义知识的推荐框架【2 5 2 6 1 。 国内电子商务推荐技术的相关研究滞后于国外。主要表现【5 】: 个性化程度低,目前很多推荐系统采用的是“o n e f i t s a l l 的非个性化 推荐,推荐准确率比较低。 推荐的自动化程度低,大多数的推荐技术需要用户显式输入自己的偏好 信息,客户与计算机的交互之后才能获取推荐结果。电子商务系统不能 保存客户的显式输入信息,不能捕获用户的隐式访问偏好信息。 9 武汉理工大学博士学位论文 推荐的持久性比较低,目前的推荐建立在当前用户会话基础上,不能利 用历史会话进行推荐。 推荐策略单一,常用的推荐策略是基于分类的推荐和基于内容的检索, 缺乏多种推荐策略的混合使用,缺少各种推荐策略的混合使用。 实时性差,目前国内在推荐技术方面主要利用查找或检索技术,通常是 基于查找目标内容的推荐。该方法实时性差。 近年来,我国开始重视电子商务推荐技术方面的研究工作,国家自然科学 基金连续三年资助了“电子商务个性化推荐系统及应用研究、“面向电子商务 的顾客偏好分析与个性化分析系统 、“基于知识网格的电子商务智能推荐系统 研究 等课题,取得了一些成果。 1 3 论文主要研究内容 本论文主要探讨在w e b 挖掘和电子商务个性化推荐过程中引入领域本体的 方法,对基于领域本体和w e b 挖掘的电子商务个性化推荐技术中的关键技术进 行了有益的探索和研究。主要研究内容如下: ( 1 ) 研究领域本体的构建方法,并综合各种领域本体构建方法的优势,构 建领域本体。目前领域本体的构建还缺乏系统的、工程化的方法。当前构建本 体大部分还是采用手工编辑方式,每个本体开发组都有自己的原则、设计标准 和定义方法。本文在分析、比较各种本体构建方法的基础上,遵循本体构建的 一般原则,归纳出构建领域本体的步骤,并应用现有的领域本体构建工具,构 建了电影领域的本体。 ( 2 ) 提出一个基于领域本体和用户偏好变化的协同过滤推荐算法。利用所 建立的领域本体为项目进行语义标注,而后利用语义相似性度量来计算项目之 间的语义相似度,而后根据用户评分项目预测对未评分项目的评分,填充用户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年儿童内裤行业研究报告及未来行业发展趋势预测
- 2025年教育行业职业教育培训市场投资机会与风险分析报告
- 气胸护理题库及答案解析
- 护理考试笔试题库及答案解析
- 高级母婴护理员考试题库及答案解析
- 旅行车安全驾驶培训试题及答案解析
- 2025年机械安全操作规范考试题库(机械工程师专用)
- 2025年护士执业资格考试题库-护理科研方法与实践经典试题
- 2025年征信行业自律管理企业信用报告编制试题卷
- 山西乡村安全员考试题库及答案解析
- 商超类企业抖音代运营方案(综合)
- 海上保险法课堂笔记(国航上课版)
- 培智三年级上册生活数学全册教案
- 精选文档大跨度梁板混凝土浇筑方案
- 数学算24点题目
- 顾问式销售培训(PPT46页)
- 高考作文卷面书写
- 船舶驾驶台资源管理bridge team management
- 心律失常介入培训教材课后练习及答案
- 云因发行管理系统用户手册
- 北邮课程设计实用低频放大电路课件
评论
0/150
提交评论