已阅读5页,还剩58页未读, 继续免费阅读
(计算机系统结构专业论文)web个性化向导及推荐技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 近年来,随着电子商务和计算机技术的发展,把智能计算技术和数据挖掘技 术应用到电子商务,解决现有电子商务技术在个性化服务及商品信息推荐等方面 的种种不足,为电子商务网站在提高竞争力和吸引力方面提供了解决方案,成为 当前电子商务应用研究的一个热点,这些技术将推动电子商务活动持续不断地向 更高更深层次发展。 许多著名的电子商务网站都提供个性化服务,根据用户的习惯或者偏好,为 用户贴身定制服务或者向他们提供可能感兴趣的信息以帮助他们决定购买什么商 品。目前的w e b 个性化服务系统存在着内容单一、需要用户显式提供资料及需要 在客户端安装插件等问题,应用w e b 挖掘技术可以为这些问题提供一种新的解决 方案。 本文首先介绍了国内外个性化服务的研究现状,强调提供个性化服务的重要 性。然后在已有的w e b 模型基础上,提出实现智能个性化w e b 向导及推荐系统 的策略,并结合w e b 挖掘技术对w e b 用户的访问模式发现、个性化推荐进行深 入研究和探讨。接着重点介绍了用户连续访问序列算法u c a p ,其可以为用户提 供在线w e b 向导服务,结合多层关联推荐算法m l a r u 实现的个性化商品推荐, 获得了智能个性化w e b 向导及推荐系统。本文最后阐述了智能个性化服务系统的 整体架构及其主要子系统。 本文有以下创新: ( 1 ) 提出了基于用户的连续访问序列算法u c a p ,其主要思想是通过数据参 考库和w e b 日志构建基于用户的连续u w a p 挖掘树,挖掘出每个用户的连续频 繁访问序列,建立规则,放入模式库。新算法不仅能有效地应用于电子商务的个 性化服务系统,而且能方便地推广到其它相关应用,把智能技术和数据挖掘技术 实用化。 ( 2 ) 在u c a p 算法的基础上结合m l a r u 算法,实现了智能个性化w e b 向导 及推荐模块,并将此模块应用到广东省科技攻关项目“商品信息智能搜索、分析 与决策系统”的关键部分智能个性化服务系统。系统通过隐式获取方法取得用户 访问序列,按用户识别会话,在服务器端后台定时挖掘并将结果存入模式库,当 用户在线访问时实时进行匹配,解决了前面提到的当前w e b 个性化服务系统所存 在的问题。 关键宇:w e b 挖掘;个性化服务:访问序列挖掘;u c a p 算法: a b s t r a c t r e c e n t l y ,w i t ht h ed e v e l o p m e n to fe l e c t r i cc o m m e r c ea n dc o m p u t e r ,a p p l y i n g i n t e l l i g e n c ec a l c u l a t e a n dd a t am i n i n gt e c h n o l o g yt oe - c o m m e r c ei st or e s o l v e p e r s o n a l i z e ds e r v i c ea n dr e c o m m e n d a t i o n sp r o b l e m s ,a n dp r o v i d eas o l u t i o nt o i n c r e a s ee - c o m m e r c es i t e sc o m p e t i t i v ec a p a c i t ya n da t t r a c t i o n i tb e c o m e sah o ts p o t o ne c o m m e r c e sa p p l i c a t i o nr e s e a r c h i n g t h o s et e c h n o l o g i e sw i l lp u s he c o m m e r c e t ob eh i g h e ra n d m o r ee f f e c t i v e m a n yf a m o u so - c o m m e r c es i t e sp r o v i d ew e bp e r s o n a l i z e d s e r v i c es y s t e m st o h e l pt h ec u s t o m e r st om a k et h ep u r c h a s ed e c i s i o n s ,b yr e c o m m e n d i n gc o m m o d i t i e so r p r o v i d i n gi m p o r t a n ti n f o r m a t i o nt ot h e ma c c o r d i n gt o t h e i ri n t e r e s tb u tm a n yw e b p e r s o n a l i z e ds e r v i c e s t i l lh a v es o m ed e f i c i e n c i e s ,s u c ha sf l a tc o n t e n t s ,r e s u l t s i n f l u e n c e d b yc u s t o m e r p r o v i d e d d a t a ,i n s t a l la c t i v e xp l u g g i n gb y c u s t o m e r a u t h o r i z a t i o nn e c e s s i t y ,e t c w e bm i n i n gt e c h n o l o g yp r o v i d e san e ws o l u t i o nt ot h e s e p r o b l e m s t h et h e s i sg i v e sab r i e fi n t r o d u c e st oc u r r e n tr e s e a r c hc o n d i t i o n ,a n dp o i n t so u t t h ei m p o r t a n to fw e bp e r s o n a l i z e ds e r v i c e t h e nc o n s i d e r i n ge x i s t e dw e bs i t e s c h a r a c t e r i s t i c s ,t h ep a p e rd e s c r i b et h ek e ym e t h o dt ob u i l di n t e l l i g e n c ew e bw i z a r d a n dr e c o m m e n ds y s t e m sb yu s i n gw e bm i n i n gt e c h n o l o g yt oa n a l y s eu s e ra c c e s s p a t t e r n sa n di n d i v i d u a ls e r v i c e a n dt h e nw ep r o v i d ea ne f f i c i e n ta n de f f e c t i v e u s e r - b a s e dc o n s e c u t i o na c c e s sp a t t e r na l g o r i t h m ,a b b r e v i a t e da su c a p i tc a ng i v e u s e ro n l i n ew e bw i z a r ds e r v i c e i ta n dm u l t i l e v e la s s o c i a t i o nr u l e su p d a t e ( m l a r u ) a l g o r i t h mi sk e ya l g o r i t h mo fi n t e l l i g e n c ew e bw i z a r da n dr e c o m m e n ds y s t e m s a t l a s t ,t h ep a p e rg i v ead e t a i li n t r o d u c et ot h ei n t e l l i g e n c ep e r s o n a l i z e ds e r v i c es y s t e m t b et h e s i s si a n o v a t i o n sa r e : ( 1 ) p r o v i d i n gan e wa l g o r i t h m u s e r b a s e dc o n s e c u t i o na c c e s sp a t t e r na l g o r i t h m , a b b r e v i a t e da su c a ei tf i r s t l yb u i l d sau s e r b a s e dc o n s e c u t i o nt r e ef r o mt h ed a t a b a s e a n dw e bl o g s ,a n dt h e nm i n e st h ea c c e s sp a t t e r nf r o mt h et r e eb ye a c hu s e r ;f i n a l l y s t o r et h er e s u l t si n t op a t t e r nd a t a b a s e n e wa l g o r i t h mc a nn o to n l ye f f i c i e n t l ya n d e f f e c t i v e l ya p p l yt oe c o m m e r c ep e r s o n a l i z e ds e r v i c es y s t e m ,b u ta l s oe x p a n dt o o t h e rr e l a t i v e a p p l i c a t i o n ,m a k i n gi n t e l l i g e n c ea n dd a t am i n i n gt e c h n o l o g ym o r e u t i l i t a r i a n - i i i 兰直耋王盔兰三兰堡圭兰笙鎏苎 ( 2 ) b a s e do nu c a pa l g o r i t h ma n dm l a r ua l g o r i t h m ,w ed e v e l o pa i n t e l l i g e n c e w e bw i z a r da n dr e c o m m e n ds y s t e mm o d u l e ,a n da p p l yt h i sm o d u l e t og u a n g d o n gp r o v i n c et e c h - r e s e a r c hp r o j e c t 一c o m m o d i t yi n f o r m a t i o n i n t e l l i g e n c es e a r c h i n g ,a n a l y s i sa n dd e c i s i o na s s i s ts y s t e m ”c o r ep a r t i n t e l l i g e n c ep e r s o n a l i z e ds e r v i c es y s t e m t h i ss y s t e mg e tu s e r a c c e s sp a t t e r nb y u n o b v i o u sm e t h o d ,r e c o g n i z i n gs e s s i o n s b yu s e rg r o u p ,p e r f o r m i n gr e g u l a r m i n i n go ns e r v e rt o s t o r er e s u l tt or u l ep a t t e r nd a t a b a s e ,a n dt h e nm a t c h i n g t h eu s e ri n d i v i d u a li n f o r m a t i o nf r o mr u l e p a t t e r nd a t a b a s ew h e nu s e rl o gi no r a c c e s sw e b u n d o u b t e d l y ,t h i ss y s t e mh a sr e s o l v e dt h ep r o b l e m si nw e b p e r s o n a l i z e ds e r v i c e k e y w o r d s :w e bm i n i n g ;p e r s o n a l i z e ds e r v i c e ;a c c e s sp a t t e r nm i n i n g ;u c a p - i v 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名: 骘山日期:s 年s 月王fw 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密囱。 ( 请在以上相应方框内打“、,”) 作者签名:崔山 导师签名: 日期:孙一咕年箩月上f 日 日期:、帅婀9 月1 1 日 第一章绪论 第一章绪论弟一旱珀下匕 1 1 国内外研究领域及现状 1 ,1 1 概述 当今,随着互联网技术及应用的发展,电子商务技术以其营运成本低、用户 范围广、无时空限制、多媒体手段1 1 等方面的优势迅速发展起来,在这种新的商 务模式下,如何吸引和留住客户变得更为重要。对实行电子商务的网站来说,建 立良好的客户关系,提高用户忠诚度,留住老顾客将会给企业带来极大的益处。 尽可能地迎合每个用户的浏览兴趣、不断调整自己来适应用户浏览兴趣的变 化以及根据网站用户的访问情况,为用户提供个性化服务是许多互联网应用,尤 其是互联网信息服务或电子商务网站所追求的目标。 如何镪助顾客直接她在网上接受令性化信息服务,使客户不出门就可以买到 称心如意商品或得到满意服务的同时提高网站对顾客的吸引力,建立良好的客户 关系,这是一个极其实际意义的课题,有着良好的应用发展前景, 1 1 ,2 国内外研究 1 1 2 1 个性化服务的发展 1 9 9 5 年,卡内基梅隆大学的a r o b e r t 等人在美国人工智能协会上提出了 个性化导航系统w e b 2 w a t c h e r ,标志着个性化服务的开始: 1 9 9 7 年3 月, c o m m u n i c a t i o r l so ft h ea c m ) 组织了个性化推荐系统的专 题报道,标志着个性化服务已经为技术界高度重视; 1 9 9 9 年,德国d r e s d e n 技术大学的j t a n j a 实现了个性化电子商务原型系统 t e l ll m ,标志着个性化服务开始向全球发展; 2 0 0 0 年,n e c 研究院的d b k u r t 等人为搜索引擎c i t e s e e r 增加了个性化推荐 功能,实现c i t e s e e r 的个性化; 同年,我国也开始了个性化服务的研究,清华大学的路海明等提出了基于多 a g e n t 混合智能实现个性化推荐口j ; 到2 0 0 4 年,个性化研究已经在商业领域得到越来越广泛的应用。g o o g l e ( h t t p :w w w g o o g l e c o m ) 推出新闻个性化定制服务国内出现了当当网 ( h t t p :w w w d a n g d a n g c o m ) ,淘宝网( h t t p :w w w t a o b a o c o m ) 等也提供了个人 定制服务类的个性化服务。 华南理工大学工学硕士学位论文 1 1 2 2 国内外研究概况 在国外已经有比较多的电子商务系统使用了w e b 数据挖掘技术来提供个性 化服务,这些应用主要体现在客户分析,交叉销售策略,站点结构调整及自适应 等方面 3j ,目前,大多数的此类网站都是采用向消费者推荐商品,提供个性化产 品信息的形式进行个性化服务,根据用户的喜好,为用户推荐商品或者向他们提 供可能感兴趣的信息以帮助他们决定购买什么商品或者接受某种服务。下面是一 些系统及工具的介绍: 1 w e bu t i l i z a t i o nm i n e r w u m 是一个s e q u e n c em i n e r ,主要的目的在分析网站中使用者的浏览行为, 它可以支援任何型态的日志纪录,并可以针对特定的使用者,发现不相连事件的 关系和模型。其提供的整合工具包含了日志的准备,查询,以及视觉化的工具。 在查询上,利用它的挖掘查询语言m i n t ,就可以描述在统计上罕见的模式,以 及其详细的特征。而透过视觉化的工具,则可以显示包含特殊样式的节点【3 】。可 以很方便的知道网站是如何被浏览的。 2 ,斯坦福大学k w o n gh i uy u n g 等人研究开发的在线售书推荐系统【4 】,运用 到了多种数据挖掘技术。 3 i b m :s p e e d t r a c e r 从日志文件中重建u s e r t r a v e r s a lp a t h ,然后识别出u s e rs e s s i o n ;在此基础上, 利用数据挖掘算法发现m o s tc o m m o nt r a v e r s a lp a t h 和f r e q u e n t l yv i s i t e dp a g e g r o u p 【5 1 ,从而提供个性化服务。 4 一些以搜索引擎为主的网站,例如y a h o o ,m s n 等。 5 我国国内的淘宝网,易趣网等。 1 1 3 电子商务的现状 美国专业市场调研机构e m a r k e t e r 的一份调查报告指出,网上零售商们生机勃 勃,美国b 2 c 营业收入到2 0 0 5 年将达到1 5 6 0 亿美元,上网购物的网民数量也在 逐步增加,亚太地区2 0 0 4 年b 2 c 的网上交易收入约达t 4 0 亿美元,比上年同期 翻了一番,但是目前中国2 0 0 4 年b 2 c 类电子商务网站去年平均每家的交易额仅 为5 8 4 7 0 元,中国的网民数超过2 2 0 0 万,电子商务类网站1 5 0 0 余家,其中仅b 2 c 类网站就有6 6 7 家【6 1 。这表明,在我国,电子商务并没有完全发展起来,明显改 变人们的消费方式和消费心理。 这主要是由于每个用户的目标和需要不同,其关注的信息内容也不尽相同。 2 第一章绪论 然而,目前大多数电子商务的服务模式没有考虑用户的差异,使得每个用户面对 同样的信息空间。难以提高用户对网站的兴趣,所以电子商务网站就迫切需要一 种能够根据用户这种带有个性化特点而自动组织和调整信息的服务模式,这种服 务方式正是电子商务个性化服务,是个性化在电子商务中的拓展,也是个性化服 务新的应用和发展领域。 1 1 4 当前w e b 个性化服务存在的问题 当前的现状是大多数的电子商务网站在提供着各种各样信息的同时通常是采 用同样的服务方式来应对不同的用户,基本上没有考虑到用户的个人需求,偏好 及购买习惯。这样的运作方式使得用户可能需要一些繁复的操作才能找到自己感 兴趣的东西,不容易提高客户的忠诚度,从而使得客户流失到竞争对手那里去的 可能性大大增加。即使有一部分电子商务网站提供了用户个人定制服务的功能, 但是第一新用户对网站了解不够,难以做出选择。第二这种定制服务是静态的, 基本上由商家设置,不一定能契合用户的需要。基于上述原因,电子商务技术中 的个性化服务就变得重要起来,其中个性化的向导系统可以引导用户快捷的按照 用户个人的习惯对站点进行访问,个性化推荐可以根据用户的偏好推荐相关的商 品。 总的来说,目前的w e b 个性化服务系统基本都存在以下问题: ( 1 ) 有的系统将处理都是在线的,交互速度比较低,而且由于时间性能的关系, 所采用的算法也受到一定的限制。 ( 2 ) 需要根据用户主动提供一些资料来协助,对用户的主动性要求比较高。 f 3 1 部分系统是以a c t i v e x 插件的形式运行在客户端,需要用户安装,影响推广 工作。 1 2 本课题研究的内容及所做工作 本课题受广东省科技攻关项目“商品信息智能搜索、分析与决策系统”的资 助。本人主要负责进行个性化向导及推荐服务和辅助决策分析的研究,把研究结 果应用到系统的关键部分智能个性化服务。 该系统结合了选定的移动科技和i t 商品的特点,通过建立大规模的商品信息 模型,以及智能化的搜索引擎,为网上的客户提供一个比现有电子商务网站更具 人性化特色和成功率更高的搜索,同时还提供了比较、分析和辅助网站所有者决 策的服务。目前已将多个已有的智能算法实现于智能商务网,进行系统的整合, 3 华南理工大学工学硕士学位论文 逐步改良算法和提出新的应用方式,并产生新的高性能智能算法。 本次研究的主要目标是在已有的系统及模型基础上,采用w e b 挖掘技术对 w e b 用户访问模式、个性化服务等方面进行深入研究和探讨,并实现一个基于研 究成果( 算法、挖掘模型等) 的智能个性化w e b 向导及推荐系统。 1 3 本课题研究的意义 从学术角度来说:采用数据挖掘技术来处理电子商务应用中所表现出来的各 种问题,可以把智能技术和数据挖掘技术实用化。同时,各种智能算法通过实际 的数据可以得到检验。有利于通过真实的数据实验来检验算法的正确性和可扩展 性。特别是海量而又繁复的电子商务数据面前。传统的机器学习方法无能为力, 研究出性能高的数据挖掘算法,有着重大的研究意义。 从实用角度来说:网站提供贴切的个性化的服务能够更好地保持顾客的忠诚 度。电子商务企业与顾客间可保持“一对一”充分交流,了解每个顾客的想法、 需求和偏好,用更好的产品和服务来满足他们的偏好,通过为商家服务的分析决 策部分,可以为商家发现客户的兴趣模式和商品信息模式,随着时间的推移,双 方的联系更广泛和深入,顾客越不易被竞争对手夺走,忠诚度越高,从而直接保 障了企业未来的发展。此外,通过与电子商务商家合作,可以取得更精确的数据 来源,避免只从w e b 网站提取信息的单一性和不完全性。这对客户和商家都是很 有益的研究工作。 1 4 本文组织结构 在余下章节中,将在第二章中给出相关理论的支持;在第三章分析了智能网 站向导及推荐系统的策略,介绍了模式的动态获取方式和商品间多层关联模式及 相关算法,接着重点阐述了基于用户的连续频繁访问序列算法的原理;在第四章 给出了智能个性化w e b 向导及推荐系统的设计框架,并介绍了各部分的功能模 块;晟后给出了论文的总结。 4 第二章w e b 挖掘相关理论 2 1 电子商务 第二章w e b 挖掘相关理论 2 1 1 电子商务的定义 联合国经济合作和发展组织( o e c d ) 在有关电子商务的报告中对电子商务的 定义: 电子商务是发生在开放网络上的包含企业之间、企业与消费者之间的商业交 易 7 1 。 2 1 2 电子商务的优势 电子商务提供了企业虚拟的全球性贸易环境,有利于大大提高人类活动的水 平和服务质量f 8 1 。其优越性具体表现在以下几个方面。 1 提高了通信速度 电子商务大大提高了通信速度,扩大了通信信道的功能。过去需要几天才能 到达的商务信件,现在通过i n t e r n e t 只需几分钟,甚至几秒钟就能收到。 2 加强了信息交流 网上分布式的信息发布和访问,具有表现力强、更新速度快、内容全面丰富 的特点,可使企业、客户掌握他们需要的最新信息。任何企业都可将其经营、产 品或服务信息通过建立网站或网页上网,供客户进行随时随地的查询,克服传统 商务手段,例如电话查询信息不全面、不直观和不灵活的不足。另外,客户的信 息也可通过网上交互功能得到及时的反馈和登记。 3 有效地降低成本 电子商务可以降低通信费用、管理费用和人员开销。例如电子邮件节省通信 费用,而e d i 则大大节省企业在管理过程和人员环节上的开支。 例如波音公司1 9 9 6 年以前只应用e d i 与合作伙伴交换订单、发票等商务文 件,并将人工过程自动化,但局限于同样使用e d i 的伙伴。为了克服这一局限性, 1 9 9 6 年,波音公司建立了一个基于w e b 技术的名为p a r t ( p a r ta n a l y s i sa n d r e q u i r e m e n t st r a c k i r i g ) 的网上信息服务系统,面向6 0 0 多家没有使用e d i 的航 5 华南理工大学工学硕士学位论文 空公司,以使他们方便地从波音公司在网上订购零部件和整机。到1 9 9 7 年底,已 经有3 5 0 家航空公司通过该站点订货,每天有4 0 0 0 笔交易,与原来传真、电话、 人工记录形式的订货方式相比,成本减少了7 5 。 又如c i s c o ( 思科) 公司1 9 9 7 年的网上零售商订单达4 0 亿美元,同时在技 术支持、营销、配送方面却节省了3 6 3 亿美元,其中的1 3 是由于相关人员的减 少。 据f o r r e s t e r 估计,网上商务节省的费用占销售额的5 1 0 。 4 改善和增强供应商和客户之间的关系,提高服务质量和客户满意度 供应商可以缩短交货期,帮助销售商从繁琐的事务中解脱出来,更好地为客 户解决实际问题。另外,客户可以通过网站跟踪订货情况,供应商还可以通过网 站及时收集市场的反馈信息,更好地满足客户需要。 5 提供了交互式销售渠道 使商家能及时得到各种反馈信息,改进工作。 6 服务时问无限制 提供2 4 7 小时服务方式。即可提供每年3 6 5 天,每天2 4 小时的全天候的服 务。 7 增强了企业的竞争力 电子商务改变了以往的市场准入条件,使小企业和大企业在一个较为公平的 基础上进行竞争。因为对任何一个企业而言,无论其大小,在网络环境下,企业 形象都是种网站或页面,面对的是相同的市场,处于相对平等的竞争条件之下 1 8 , 9 。 2 2 数据挖掘 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程【l 引。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也 可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控 制等,还可以用于数据自身的维护,因此,数据挖掘是一门交叉学科,它把人们 对数据的应用从低层次的简单查询,提升到从数据中挖掘知t ,提供决策支持。 6 第二章w e b 挖掘相关理论 数据挖掘技术可以提高市场决策能力;检测异常模式;在过去的经验基础上预言 未来趋势等【l 。数据挖掘综合运用了机器学习、模式识别、统计学、人工智能等 众多学科的知识。 数据挖掘的基本步骤包括:1 ) 定义问题。2 ) 建立数据挖掘模型。3 ) 分析数 据。4 ) 准备数据。5 ) 建立模型。6 ) 评价模型。6 ) 实施。 数据挖掘的核心技术是人工智能、机器学习和统计。结合人工智能中的一些 成熟的算法和技术,数据挖掘中有了几种常用的方法: ( 1 ) 人工神经网络:它从结构上模仿生物神经网络,是一种通过训练来学习 的非线性预测模型,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。 ( 2 ) 决策树:用树形结构来表示决策集合,这些决策集合通过对数据集的分 类产生规则。典型的决策方法有分类回归树( c a r t ) ,一般用于分类规则的挖掘。 ( 3 ) 遗传算法:基于生物进化的概念设计一系列的过程来达到优化的目的。 这些过程有基因组合、交叉、变异和自然选择。为了应用遗传算法,需要把数据 挖掘任务表达为一种搜索问题而发挥遗传算法的优化搜索能力。 ( 4 ) 最近邻技术:通过k 个最与之相近的历史记录的组合来辨别新记录,有 时也称这种技术为k 一最近邻方法。这种技术可以用作聚类、偏差分析等挖掘任务。 ( 5 ) 规则归纳:通过统计方法归纳、提取有价值的i f t h e n 规则。规则 归纳技术在数据挖掘中广泛使用,例如关联规则的挖掘。 ( 6 ) 可视化;采用直观的图形方式将信息模式、数据关联或趋势呈现给决策 者,决策者可以通过可视化技术直观地分析数据关系【 。 数据挖掘可以应用在各个不同的领域。数据挖掘可以用来预测外科手术、医 疗试验和药物治疗的效果,医疗应用是另一个前景广阔的产业;保险公司和证券 公司也开始采用数据挖掘来减少欺诈【1 们。电讯公司和信用卡公司是用数据挖掘检 测欺诈行为的先行者。零销商更多的使用数据挖掘来决定每种商品在不同地点的 库存,通过数据挖掘更灵活的使用促销和优惠卷手段。制药公司通过挖掘巨大的 化学物质和基因对疾病的影响的数据库来判断哪些物质可能对治疗某种疾病产生 效果。 特别是在商业领域,数据挖掘能处理很多难题,比如基于顾客的年龄、性别 和其他相关特性,对顾客购买某一具体货物的可能性做出预测;识别出具有相似 浏览习惯的顾客特征;辨别出被频繁访问的网页顺序中所涉及到的日期和时间, 或顾客打电话的频繁时间段;找出经常被组合在一起购买的所有产品组。 一7 华南理工大学工学硕士学位论文 数据挖掘所能解决的典型商业问题包括:数据库营销、客户群体划分、背景 分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发 现等 1 0 。 现有的商用产品包括i b m 公司的i n t e l l i g e n tm i n e r 1 2 1 , m i c r o s o f t 的 0 l e m i f i e f ,d b m i n e r 等,自由软件w e k a 1 3 1 等。 2 3w e b 挖掘技术 w e b 挖掘是面向互联网的数据挖掘应用。它包括:w e b 内容挖掘和w e b 用法 挖掘。前者用于自动搜索网页信息,描述了自动地从数以百万计的w e b 站点和在 线数据库中搜索和获取信息和资料。后者,又叫w e b 日志挖掘,主要用于发现用 户访问模式,从而改善网站性能,识别潜在的客户群以及为终端用户提供个性化 服务等。 随着i n t e r n e t 的不断发展,w w w 的广泛应用,数据挖掘出现了新的研究热点。 那就是w e b 挖掘( w e bm i n i n g ) 。w e b 挖掘是对w e b 文档的内容、w e b 上可利用 资源的使用情况以及资源之间的关系进行分析,从中发现有效的、新颖的、潜在 有用的、并且最终可理解的模式【1 0 , 1 4 , 1 5 。w e b 挖掘的目的是通过w e b 挖掘分析提 取出其中的有用模式,用于使w w w 更有效,提供更多的信息,并且更容易使用【1 6 l 。 w e b 挖掘面临着一些困难,包括异构数据库环境、半结构化的数据结构、解 决半结构化的数据源问题等。 根据w e b 挖掘的数据对象可以将w e b 挖掘分为三类:w e b 内容挖掘( w e b c o n t e n tm i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) ,w e b 使用挖掘( w e bu s a g e m i n i n g ,也称为w e b 日志挖掘) 【1 4 17 1 。如图所示: 图2 1w e b 挖掘分类 w e b 内容挖掘是对网站内容提取知识的过程,其重要应用有智能代理搜索、 8 第二章w e b 挖掘相关理论 网站架构重组等。w e b 结构挖掘是对网站框架结构的挖掘,主要是网络流量分析, 链接分布情况分析,用于改善网络结构,增强网站性能。w e b 使用挖掘是研究的 重点,也称为w e b 日志挖掘,是从w e b 日志中提取有用的模式,它可以用于研 究用户访问行为,分类用户和为用户提供个性化服务等。表2 1 对w e b 内容挖 掘、w e b 结构挖掘和w e b 日志挖掘中的数据特征、表现形式、挖掘方法以及应用 领域等方面进行了比较 1 4 , 1 6 】。 表2 1w e b 内容挖掘、结构挖掘和日志挖掘比较 w 曲挖掘 w e b 内容挖掘 w e b 结构挖掘w e b 日志挖掘 信息检索领域数据库领域 文本文档超文本文档链接结构w e b 服务器日志 数据超文本文档 一p r o x y 日志 浏览器日志 非结构化半结构化一链接结构一交互式数据 数据特征 半结构化一w e b 站点看 作一个数据库 无序有序的单对象交换模图一关系表 词集合型( o e m ) 图 数据 术语和短语关系曲线 表示形式 概念实体 关系蓝线 t f i d e f 及变形专利算法一专利算法机器学习 机器学习 一i l p 统计 方法统计( n l p )关联规则一关联规则 一聚类 序列模式 - 9 兰皇墨王盔兰二兰堡圭主垡鎏銮 分类发现频繁子分类站点结构管理 结构及优化 一聚类 聚类 提取w e b 站网络销售 应用领域寻找抽取规则 点大纲 寻找文本模式 用户建模 推荐系统 用户建模 2 3 1w e b 内容挖掘 w e b 内容挖掘是从文档内容或其描述中抽取知识的过程。w e b 文档文本内容 的挖掘,基于概念索引的资源发现,以及基于代理的技术都属于这一类。w e b 内 容挖掘有两种策略:直接挖掘文档的内容,或在其它工具搜索的基础上进行改进a 采用第1 种策略的有针对w e b 的查询语言w e b l o g ,w e b o q l 等,利用启发式规 则来寻找个人主页信息的a h o y 等等。采用第2 种策略的方法主要是对搜索引擎 的查询结果进行进一步的处理,得到更为精确和有用的信息。属于该类的有 w e b s q l ,及对搜索引擎的返回结果进行聚类的技术等。 w e b 内容挖掘是通过分析一些网页的静态内容来获取知识模式。由于网站建 设的异构性严重。互联网搜索用到了w e b 内容挖掘技术。i n t e r n e t 是一个巨大的 信息源。各种各样的信息存放在形式各异的网页中。通过对w e b 的内容进行分析, 可以得到许多有用的规律。文【1 4 把w e b 内容挖掘的方法分为两大类:智能搜索 代理方法和数据库方法。文 1 7 将h t m l 网页看成一个属性向量,利用特征提取获 取网页的特征向量,再利用简单贝叶斯算法来进行文本分类。搜索引擎的研究需 要用到w e b 内容挖掘技术。由于搜索引擎需要分析h t m l 网页来获取信息,就涉 及到网页内容的提取。但w e b 挖掘与文本挖掘又有所区别。由于i n t e r n e t 是一个 互相联系的网状图,一些新的特性需要引入。需要结合w e b 结构挖掘才能使搜索 更加准确。 2 3 2w e b 结构挖掘 w e b 结构挖掘是从w w w 的组织结构和链接关系中推导知识,通过对w e b 站点的超链接结构进行分析、变形和归纳,将w e b 页面进行分类,以利于信息的 搜索。由于文档之间的互连,w w w 能够提供除文档内容之外的有用信息。利用 这些信息,可以对页面进行排序,发现重要的页面。这方面工作的代表有 p a g e r a n k 1 8 1 和c l e v e r 1 9 】。此外,在多层次w e b 数据仓库( m l d b ) 中也利用了页 面的链接结构。 一l o 第二章w e b 挖掘相关理论 一个网站是由许多网页和其他资源组成的,包括h t m l x m l ,j p g ,b m p ,p d f 等等。网页是一种比较特殊的资源。他利用超链接将资源联系在一起。用户可以 通过h t m l 网页中的链接到达另外一个网页,也可以获取某个资源,例如下载一 首m p 3 歌曲。整个网站的拓扑结构可以描述为一个有向图。在搜索中经常需要发 现权威网页。由于互联网不仅包含网页,还包含网页间的链接,这些链接包含大 量的隐含信息,可以帮助发现权威页面。7 0 年代就有人提出使用论文引用来评价 论文质量相似的分析方法来进行w e b 结构挖掘。但是文【1 7 】中指出了他的一些缺 点。例如链接是为了其他目的而创建的,如浏览导航或付费广告;还有由于商业 或竞争的目的,m i c r o s o f t 公司的。n e t 版本是不会提供任何j a v a 信息的链接的。 最后是权威网页很少是描述性的。y a h o o 网站就很少涉及他的自我描述,如“s e a r c h e n g i n e ”。文【1 8 ,1 9 提出了一种h i t s 算法,用于计算权威页面和好的h u b 。它对 一些检索能提供非常好的搜索结果。但是在枢纽包含多个主题时就会偏移。i b m c l e v e r 1 9 1 系统采用了此类算法作为核心算法。g o o g l e 2 0 】系统的核心算法p a g e r a n k 算法【2 ”。搜索引擎的研究和w 曲内容挖掘以及w e b 结构挖掘都有重要的联系, 商品信息主题搜索将成为热点。 2 3 3w e b 使用挖掘 w e b 使用挖掘又称为w e b 日志挖掘,就是利用数据挖掘技术对网站大量的( 用 户访问) 使用数据及其他相关数据所组成的数据集进行分析挖掘,并从中获得有 价值的有关网站访问使用情况的模式知识【2 2 1 。通过分析和探究w e b 日志记录中 的规律,可以识别电子商务的潜在客户,增强对最终用户的因特网信息服务的质 量和交付,并改进w e b 服务器系统的性能和结构。目前研究较多的w e b 使用记 录挖掘技术和工具可分为两大类;模式发现和模式分析。 w e b 使用挖掘的主要目标是从w e b 的访问记录中抽取感兴趣的模式。w w w 中的每个服务器都保留了访问日志( w e b a c c e s sl o g ) , 记录了关于用户访问和交 互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为 用户提供个性化的服务。这方面的研究主要有两个方向:一般的访问模式追踪和 个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了解用户的访 问模式和倾向,以改进站点的组织结构。而个性化的使用记录追踪则倾向于分析 单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站 点【2 们。 商务网站上积累着大量的用户访问日志数据。商家可以利用这些数据为用户 提供个性化服务,以提高客户的信任度。因此,w e b 使用挖掘可以应用到电子商 务系统中。目前比较成功的应用产品包括w e b m i n e r 和w e b s i f t 等 2 0 1 。 华南理工大学工学硕士学位论文 w e b 使用挖掘的过程分为预处理、模式发现、模式分析这几大部分。图2 2 显示了w e b 使用挖掘的过程。w e b 使用挖掘主要涉及的两个关键问题,一是如何 进行数据的预处理,二是如何挖掘出有价值的知识 1 1 , 1 4 , 1 6 】。 原始日志文件用户会话文件规则和模式 ( 感兴趣的) 规则和模式 图2 2w e b 使用挖掘的过程 2 3 3 1 预处理 在w e b 服务器上囤积了大量的用户访问的记录,都存储在日志文件里面。这 些数据给我们提供了大量的用户访问信息。由于原始的w e b 日志不利于关联规则 挖掘,所以要先对w e b 目志进行预处理。预处理主要完成将原始的日志文件经过 过滤、筛选以及重组后,将之转变为适合挖掘的数据格式,通常以用户会话文件 的形式保存到数据库中,后续的挖掘过程可以直接在此上进行各种挖掘操作。预 处理包括数据清洗、用户识别、会话识别以及转换为挖掘算法需要的形式【1 4 , 1 6 。 挖掘算法需要的数据通常是事务数据库。它储存着各个用户各次会话的访问信息。 预处理是一个非常复杂但又必须完成的步骤,也是w 曲使用挖掘主要涉及的 两个关键问题之一。文 2 3 1 指出了预处理的基本步骤,首先是需要对w e b 服务器 日志进行预处理。w e b 服务器日志包括了基本的访问信息:客户端i p 、客户端机 器名、访问时问、访问的资源u r l 和用户浏览器等等。介绍了预处理的步骤和常 用的技术。 第1 步是清洗数据。把目志里面的j p g ,h m p ,g i 浮图片过滤掉,因为这些记 录都是在用户下载网页的时候由h t t p 协议附带下载的,而不是用户主动想看的。 其次,要把不成功的请求删除。识别一个请求成功与否可以通过状态字s c s t a t u s 判别。s c - s t a t u s 表示客户端请求的执行结果的返回码,可用于删除不成功请求, 1 2 第二章w e b 挖掘相关理论 包括客户端出错和服务器端出错【23 1 。 第2 步是识别用户和会话。由于h t t p 是无状态的,所以要从w e b 日志中提 取出用户信息和识别会话是非常困难的。用户识别一种方法是根据i p 来判断用 户,但是单i p 多会话,多i p 单会话,多i p 单用户,多会话单用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑结构优化设计与施工实施方案
- 高原地区给水工程建设技术方案
- 精密压铸技术改进与升级方案
- 隧道交通疏导与应急预案方案
- 人防工程环境影响评估方案
- 桥梁施工人员培训与管理方案
- 草莓棚转租合同协议书
- 产品付费推广协议书
- 建筑工程认证机构数字化转型路径研究
- 与医院共建位协议书
- 手外伤急诊处理原则
- 2025年深圳市盐田区(中小学、幼儿园)教师招聘考试模拟试题及答案解析
- 国际压力性损伤-溃疡预防和治疗临床指南(2025年版)解读
- 幕墙预埋件施工合同
- 2025年银联商务面试题及答案
- 高中数学复习 导数压轴大题归类 (原卷版)
- 安徽省历年中考语文现代文阅读之非连续性文本阅读6篇(截至2024年)
- 2024年危险化学品驾驶员劳动合同职业禁忌与健康管理3篇
- 机器学习在金融领域的应用与风险控制
- 微专题图示法突破质子守恒-2024高考化学一轮考点击破
- 【MOOC】航天推进理论基础-西北工业大学 中国大学慕课MOOC答案
评论
0/150
提交评论