




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)基于web日志挖掘的个性化推荐系统模型研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士学位论文基于w e b 日志挖掘的个性他推荐系统模型研究与实现 论文题目:基于w e b 日志挖掘的个性化推荐系统模型研究与实现 专业;计算机应用技术 硕士生:张红钰 指导教师:郭清顺高级工程师 摘要 w e b 技术的日益成熟为互联网注入了活力,但是越来越多的数据让人们迷失 在信息的海洋中,对人们有用的只是其中少之又少的一小部分。不同的用户面对 的都是千篇一律的w e b 页面。自1 9 9 7 年个性化首次被提出来,立即得到了积极 的响应。研究w e b 个性化方面的技术非常多,目前非常热门的w e b 挖掘技术是 个性化技术中一颗耀眼的星星,其中w e b 日志挖掘通过挖掘w e b 日志记录,来 发现用户访问w e b 页面的模式,通过分析和探究w e b 日志挖掘记录中的规律, 增强对用户的信息服务的质量,提高用户的满意度,并改进w e b 服务器系统的 性能,w e b 日志挖掘具有很高的研究价值。 本论文针对现有的个性化方案的不足,提出了了一个基于w e b 日志挖掘的 个性化推荐系统模型。该系统分为w e b 日志记录与预处理模块,模式生成模块 以及推荐模块三个部分。日志记录和预处理模块完成用于实施挖掘算法的事务数 据库的生成。模式生成模块对事务数据库实施挖掘算法,更新模式库。推荐模块 根据当前用户的活动会话和配置访闯模式库,生成针对该用户的推荐页面。论文 提出了在w e b 日志挖掘数据预处理过程中采用帧过滤预处理的算法,提高了w e b 日志挖掘时候挖掘结果的兴趣度。这个结果也间接表明了,帧页面过滤技术可以 提高基于w e b 日志挖掘技术的个性化推荐系统所生成的推荐结果的质量。 论文首先对个性化概念,数据挖掘及w e b 挖掘相关领域的知识和技术傲了 介绍,然后给出了各个模块的详细设计和功能模块的具体实现。并对一般的w e b 日志处理过程的结果和通过帧页面过滤w e b 日志数据预处理结果进行实验比较, 得出加入帧页面过滤的数据预处理过程会得到更优结果的结论。最后探讨了该推 荐系统模型的现实意义,存在的问题和下一步的发展。 关键字w e b 挖掘个性化主帧子帧兴趣度 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 t i t i e ; m a j o r n a m e : s u p e r v i s o r : a p e r s o n a l i z a t i o a r e c o m m e n d a t i o n s y s t e m b a s e d o n w e b u s a g e m i n i n g c o m p u t e r a p p l i c a t i o n t e c h n o l o g y z h a n gh o n g y u g u oq i n g s h u n ( a d v a n c e d e n g i n e e r ) a b s t r a c t m u c he n e r g yh a sb e e ni n j e c t e di n t ot h ei n t e r a c tb e c a u s eo ft h em a t u r i t yo ft h ew e b t e c h n o l o g y b u ta l s op e o p l ea r el o s ti nt h ei n f o r m a t i o no c e a n sb e c a u s eo f t h em o r e a n dm o r ed a t a w h e np e o p l ef a c ec o u n t l e s sd a t a ,t h e y r eo n l yl i t t l eu s e f u lt ot h e ma n d a l lt h eu s e r sf a c et h es a m ew e bp a g e s s i n c ep e r s o n a l i z a t i o nw a sf i r s tc a l l e do u ti n 1 9 9 7 ,t h e r ew e r em a n ya c t i v ee c h o e s t h e r ea r em a n yt e c h n o l o g i e s i nw e b p e r s o n a l i z a t l o nr e s e a r c h e s ,a n dt h eh o t t e s tp e r s o n a l i _ _ z a t i o nt e c h n o l o g yb a s e do nw e b d a t am i n i n gi sas h i n i n gs t a r a n dw e bu s a g em i n i n g 缸d st h eu s e ra c c e s sm o d e t h r o u 【g hm i n i n g t h ew e bu s a g er e c o r d s w ec a l ls t r e n g t ht h eq u a l i t yo fu s e r i n f o r m a t i o ns e r v i c e s ,i n c r e a s et h es a t i s f a c t i o no fu s e r s ,a n da l s o i m p r o v et h e p e r f o r m a n c eo fw e bs e r v e b ya n a l y s i sa n ds t u d yt h er u l e si nw e bu s a g em i n i n g r e c o r d s a l li na l l ,w e bu s a g em i n i n gh a sa h i g l lv a l u ei nr e s e a r c h a p e r s o n a l i z a t i o nr e c o m m e n d a t i o ns y s t e mb a s e do uw e bu s a g em i n i n gi sg i v e n a i m e d a tt h ew e a k n e s so ft h ee x i s t e dp e r s o n a l i z a t i o np r o j e c t s t h i ss y s t e mi sd i v i d e dt h r e e p a r t sw ec a l lt h e m :t h em o d eo fw e bl o 萨r e c o r d e da n dp r e - p r o c e s d , t h em o d eo f m o d ec r e a t e d , a n dt h em o d eo fr e c o m m e n d i n g t h em o d eo fw e bl o g sr e c o r d e da n d p r e - p m c e s s e dj su s e dt ob u i l dt h ea f f a i rd a t a b a s e t h em o d eo fm o d ec r e a t e dr e n e w s t h em o d eb a s ea n dt h em o d eo fr e c o m m e n d i n gc r e a t e st h er e c o m m e n d e dp a g e s a c c o r d i n gt h eu s e r s a c t i v i t i e s a n da l s oa ni m p r o v e da l g o r i t h m ,w h i c hi m p r o v e st h e e x i s t e df r a m ef i l t r a t i n ga l g o r i t h m , i sg i v e ni nt h i sp a p e r t h i si m p r o v e da l g o r i t h mc a n i n c r e a s et h es a t i s f a c t i o na b o u tt h ew e bu s a g em i n i n gt e c h n o l o g y , a n dt h er e s u l tc a n a l s op r o v et h a t t h i s a l g o r i t h mc a na l s oi m p r o v et h eq u a l i t yo fp e r s o n a l i z a t i o n r e c o m m e n ds y s t e mm o d e lb a s e do uw e bu s a g em i n i n gi n d k e c t l y t h ep a p e ri n t r o d u c e st h ec o n c e p t sa n df i e l d sa n dt e c h n o l o g i e sa b o u tp e r s o n a l i z a t i o n a n dd a t am i n i n ga n dw e b m i n i n gf i r s t l y a n di tp u tt h ek e y s t o n ei nd e s c r i b i n gh o w t o 中山大学硬士学位论文 基于w e b 日志挖掘的个性化推荐系统模型研究与实现 d e s i g na n dr e a l i z eap e r s o n a l i z a t i o nr e c o m m e n ds y s t e mm o d e lb a s e do nw e bu s a g e m i n i n g a n da l s ot h ec o m p a r e dr e s u l t sb e t w e e nt h eo r d i n a r ya 培o r i t h ma n dt h e i m p r o v e da l g o r i t h ma b o u tt h ef r a m ef i l t r a t i n ga r eg i v e n w ec a ne a s i l yf i n do u tt h e i m p r o v e da l g o r i t h mh a st h eb e t t e rr e s u l t i nt h el a s t ,t h i sp a p e rd i s c u s s e st h er e a l m e a n i n go ft h em o d e ,a n dt h ee x i s t i n gp r o b l e ma n dt h en e x tr e s e a r c h k e yw o r d s w e bm i n i n gp e r s o n a l i z a t i o nf r a m e s u b - f r a m es a t i s f a c t i o n 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 第1 章引言 1 1 个性化概念的提出 当今时代无疑是一个信息和网络化的时代。越来越多的人依靠网络来发布信 息和获取信息。i n t e r n e t 使得世界变成一个小小的舞台,人们之间的距离变得天 涯咫尺。 经过了短暂而沉闷的静态h t m l 页面时代之后,w e b 应用由于其功能和性能 日益增强,极大地丰富了人们的网络使用效率。现实生活中的一切都可以在网络 上找到相应的模拟。 w e b 应用比起现实生活中的应用有着明显的优势,诸如人力资源成本减低, 操作效率提高,信息量极大地丰富,跨越了时间和空间的限制等等优点不言而喻。 但是,在w e b 应用不够完善的今天,伴随着这些优势,它带来的弊端也越来越 明显。 首先最突出的问题就是网络用户面对着如此丰富的资源时,往往感到无所适 从,找不到适合自己的信息和服务。就如一个读者,被要求在一千座图书馆里查 找一本书,相比较一个读者被要求在一座图书馆查找一本书来说,用同样的操作 方式,前者的工作量无疑大大的增加了。而在现实生活中,人们在商场购物时候, 往往就有售货员先了解你的购物需求,以及其他的一些个性化特征,从而根据你 的需要搭配合适的商品,甚至在你购买了需要的商品以后推荐相关的商品给你。 然而在i n t e r a c t 站点上,没有这些人性化的售货员,没有人知道你是谁,来自哪 里,想要傲什么。 网络上的信息越丰富,这样的问题就越来越严重。w e b 应用既然服务于用户, 就应该增强自己的功能,智能的分析总结用户特征,为用户提供合适的信息和服 务,让用户感到满意,从而紧紧抓住用户的心。所以,当“个性化”这个概念被 提出来以后,得到了积极的响应。w e b 应用需要进一步贴近现实生活中人们获取 信息的模式,最大限度地发挥网络的优势,打破传统的千篇一律的用户界面和服 务方式。 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 1 2 个性化技术国内外研究和应用现状 什么是个性化? 虽然目前没有一个统一公认的说法【1 1 ,没有一个规范性的标 准,但对于个性化系统的大致框架结构,必要功能组成和系统评价等方面已经达 成了共识。简单概括来说就是这样一个过程:收集并存储关于站点访问者的信息, 分析这些信息,根据用户的不同身份,把他们必须使用或者感兴趣的信息在恰当 的时间提供给用户。并能根据单个用户的特殊喜好,允许他们自行定制资源。这 些资源可以是他们需要信息,应用程序的访问;或者是网站的管理人员根据想要 为用户提供的服务推荐给用户的信息和应用等。 随着网络的不断膨胀,寻找信息的难度急剧增加,针对不同人提供不同服务 的要求变得尤其迫切。所以,在1 9 9 7 年,当个性化信息与服务【2 l 的概念在互联 网领域正式被提出,立即得到了广泛的重视和肯定,随后有关个性化的各方面工 作迅速的开展起来,到今天已经可以看到很多有价值的研究和应用成果。下面我 们从几个方面介绍一下个性化方面的情况: 1 2 1 国外研究和应用现状 现有的个性化方面的技术有好几种类型i 埘: 基于用户概要文件的个性化( u s e rp r o f i l e b a s e d ) : 基于用户概要文件的个性化技术被用于显示根据事先定义好的组或者用户 概要文件所相关的内容。例如,当某用户登陆迸中山大学网站,点击提供给他的 新闻或者其他所能见到的信息。这些信息就是根据用户提供的概要文件假设其所 感兴趣的内容而推荐的绘该用户的,用户的概要文件是用户在注册的时候提供的 一些个人的相关信息,诸如:姓名,年龄,职业,兴趣爱好等等。这是一种静态 的个性化技术,而且需要用户的合作的态度之下才可以帮助应用提供适合的信息 和服务。这种技术容易过时,而且由于只是根据用户的概要文 牛进行分析,忽略 了同类身份用户的不同喜好,用户的满意程度低。 基于规则的个性化( r u e s - b a s e d ) : 基于规则的个性化技术被用于显示根据事先定义好的规则所产生出来的内 容。这一规则可以由网站管理员制定,也可以由业务管理器定义一组业务规则, 2 中山大学硕士学位论文 基于w e b 日志挖掘的个性化推荐系统模型研究与实现 用来确定为特定的用户显示哪些w e b 内容;虽然基于规则的个性化能够一定程 度上满足同类用户的不同喜好,但是也是一种静态的技术,规则的定义由管理员 或业务管理器来负责,简单,所阻用户满意程度较低,而且容易过时。 协同过滤技术( c o l l a b o r a t i v ef i l t e r i n g - b a s e d ) : 协同过滤技术【4 1 包括烈n 技术【5 1 ( k n e a r c s tn e i g h b o r i n g ) ,基于聚类1 6 1 ( o u s t e r i n g b a s e d ) 协同过滤和基于项 7 ( i t e m - b a s e d ) 的协同过滤三种协同过 滤技术。基于协同过滤的个性化技术比起前两种技术能够为用户提供更加满意的 服务。但也存在着一定的不足嘲,首先需要用户提供主观的评价信息不能处理大 规模的数据量;最后,用户的评价信息可能会过时而且使用不方便。 数据挖掘技术1 9 l ( d a t am i n i n gt e c h n o l o g y ) : 数据挖掘技术包括关联规则 1 0 1 ( a s s o c i a t i o nr u l e s ) 发现、序列模式 1 1 ( s e q u e n c ep a t t e r n ) 发现、聚判1 2 ( c l u s t e r i n g ) 技术及w e b 挖掘【1 3 1 ( w e bm i n i n g ) 技术。这几种技术都被运用到个性化技术中。w e b 挖掘技术不需要用户提供主观 的评价信息可以处理大规模的数据量,用户访阎模式动态获取,所以不会过时, 丽且使用方便。 四种个性化技术相比较,基于用户概要文件和基于规则的个性化技术实行和 应用起来较容易,被大部分大大小小的w e bs i t e s 所采用。当大型网站实施个性化 设计的时候,基于协同过滤技术的个性化技术和数据挖掘技术相对来说比较有效 的;相比来说数据挖掘更加适合时代的发展。其中w e b 挖掘技术得到了广泛的应 用,取得了不错的效果。 下面以几家国外著名的软件提供商为例对国外的个性化方面的应用成果作 一个简单的介绍。 v i g n e t t e v i g n e t t e 1 4 1 公司主要从事包含电子商务应用在内的w e b 应用开发,配置,管 理平台系统软件的研究开放业务。由于其良好的内容管理,数据挖掘功能及其多 渠道信怠服务方式。得到些用户的青睐。该公司提出的c a m e o ( c u s t o m e r - d r i v e n a p p l i c a t i o n m o d e l f o r e - b u s i n e s s o r g a n i z a t i o n ) 一电子商务组织 中的客户驱动应用模型。该模型实现了管理分析,和内容的有效组织等功能。从 个性化角度来看,该产品的关键部分l p s ( l f f e c y c l ep e r s o n a l i z a t i o ns e l n e r ) 实现 3 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 了基于规则和基于推荐引擎的个性化信息服务。其主要是根据用户显示提供数据 和隐含的个性化信息,为用户提供适应性的个性化服务。除了根据用户的兴趣爱 好浏览习惯等用户的递交信息,该产品还根据用户的连接设备,操作系统,浏览 器类型等情况,通过合适的方式向用户递交合适的信息。产品采用统计预测模型 算法,根据用户群总结出来的结果,对具有相似行为的用户推荐针对性的信息和 服务。该产品分析功能强。 m i c r o s o f tc o m m e r c es e r v e r2 0 0 0 微软作为全球最大的综合软件提供商之一,在互联网应用领域也不甘入下。 在网站建设,w e b 应用组织的完整解决方案中,侧重电子商务应用,微软推出了 c o m m e r c es e r v e r2 0 0 0 1 5 l 平台系统。平台包括b u s i n e s sp r o c e s s i n gp i p e l i n e ( 业务 处理流水线) ,p r o f i l es y s t e m ( 配置系统) ,t a r g e t i n gs y s t e m ( 目标系统) ,p r o d u c t c a t a l o gs y s t e m ( 产品分类系统) ,b u s i n e s sa n a l y s i ss y s t e m ( 商务分析系统) 五 个组成部分。各个子系统对立而密切相关,实现对网站信息有效的组织和递交。 该商务分析系统收集w e b 日志和用户交易等方面的信息,分析网上内容的 组织和交流情况,用户的站点访问情况,用户之间的内在关系,个性化的反馈情 况,用动态页面,电子邮件,专门的p u s h 频道三种方式向不同用户提供针对性 的信息和服务。该系统还在分析的结果基础上建立数据仓库并进行有效管理,进 行联机分析和数据挖掘,将结果报表作为制定目标系统的行为依据。这套系统有 很强的竞争实力。 o r a c l e 9 i 平台 o r a c l e9 i 拍】【1 7 】平台是开发电子商务应用的软件平台,该平台在o r a c l e8 i 的基 础上改进和完善了其结构和功能。该平台强调自身的数据仓库和商务智能特性, 可以向用户动态实时攉荐个性化产品信息和服务。o r a c l e 声称自己的产品及时在 超大用户群的情况下,仍然可以区别每一个用户的个性特征,尽量满足用户的需 要,最终将浏览者变成真正的购买者。该产品采用了数据挖掘的相关技术,作为 为用户提供个性化信息服务的基础。该平台完整性很强,效率高,极为方便用户 的使用。 通过以上三家具有代表性的公司的产品介绍,我们可以得到以下的结论: 首先。国外的产品大多数都是通过提供完整的开发和应用平台给用户,具 4 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 体实现个性化的功能模块内嵌其中,是整个平台系统的有机组成部分,涉及内容 管理,用户管理,站点管理等各个方面,与平台其他部件紧密相关。其次,通过 对这些代表性的产品进行研究和性能考察说明,很多产品在个性化方面都能提供 优质和丰富的功能,能够做到实时准确的为网站用户提供一对一的个性化服务。 最后,由于电子商务能够为商家带来直接有效的利益,所以软件供应商在实现自 己产品的时候,即将电子商务应用作为一个至关重要的因素来考虑。 1 2 2 国内研究和应用现状 迄今为止,国内市场上还没有出现具有个性化功能的w e b 应用平台系统软 件。虽然有一些软件提供商表示可以为用户建立具有良好的个性化功能的网站, 但实际上他们基本上都是依靠国外的系统进行改进和调整,也有可能重薪开发一 套系统。目前我国的如多公司,也有自己的软件技术人员自己写程序来建设自己 的w e b 应用,随时进行站点的管理维护,但是他们设计的个性化功能代码分散, 无法方便的进行重用。 基于上面所说的情况,我国c o m 网站都已经实现了基本的个性化功能,尤 其是以m y s i t e 形式出现的个性化定制页面,浏览者主动提供对站点内容形式上 的要求,喜好,从而得到个性化的信息服务。但进步的个性化服务我们看不到 很好的表现。其实,国内电子商务应用方面的网站建设,实现个性化的信息服务 已经是一个默认的要求,否则无从在竞争中站住脚,但是国内个性化领域方面的 研究和应用还有很多工作需要傲。 1 3 项目背景 本论文基于中山大学校务管理信息系统项目中的门户项目。中山大学管理信 息系统建设经过多年的发展,具有一定的基础,发挥了积极的作用。但随着信息 技术的发展以及教育改革的不断深入,管理信息系统的现状已远远不能满足学校 发展的需要,无论在建设理念、建设模式还是技术方面,都需要站在一个新的高 度上来审视和全盘设计。校务管理系统的建设不是原有系统的简单重复或升级, 而是在更高起点上的发展和创新。这个更高的起点,就是五个统一:统一数据库、 统一标准、统一开发平台、统一用户管理、统- - f 户。在这个大统一的基础上, 5 中山大学硕士学位论文 基于w e b 日志挖掘的个性化推荐系统模型研究与实现 实现应用集中、信息共享,消除信息孤岛。 校务管理系统的概念结构是校、院、系分层管理。校务管理系统的建设原则 是统一规划,分步实施。校务管理系统由两大部分组成:o a 和m i s 。其框架结构 如下图( 图卜1 ) 所示: | | _ 薯萋臻誊。f 孽毒囊份认鼙蓦蔓i 羹j 誓一攀! j i i三二!二:i ! i ! i二i 薹i ! ! :i 耋j 曼薹翌 _ _ _ _ _ i 一_ _ _ _ _ _ _ _ _ ,_ | 曩_ i c _ _ | _ _ _ _ o 曩j 下7 7 _ 1 k i 薯j ;,公共稀意雕棼薯j i ;一i 誉1 l 一,一;二= r ,上蚓 l 兰羔羹q 篓! 1 曩垒塑到 图1 - 1 校务管理系统 校务管理系统是在统一的门户与身份认证平台下,整合o a 与m i s 应用,提 供尽可能丰富的公共信息服务,具有信息共享功能、综台分析功能、决策支持功 能。 个性化与门户之间的关系如下图i - 2 。简单的来讲,过程就是用户访问门户 网站,门户服务器经过认证管理和内容管理,根据每个用户身份的不同和兴趣爱 好的不同,提供不同的个性化服务。 图i - 2 个性化与门户的关系 众所周知,随着w e b 的应用越来越多,人们能够从网上获取的信息也就越 6 中山大学硕士学位论文基于w 出日志挖掘的个性化推荐系统模型研究与实现 来越多。然而,面对海量的数据,用户反而不知所措,面临着数据丰富信息贫乏 的困境。每一个用户,无论他是学生,教工,校友还是随意的访问者,所看到的 内容都是千篇一律的,而学校网站的内容链接时常变更,用户所感兴趣的内容往 往需要很多的时间才能够找到,而不相关的信息却大量的堆到用户面前让用户无 所适从,工作效率低,用户时间极大浪费。而采用个性化p e r s o n a l i z a t i o n ) 策 略可以通过搜集存储w e bs i t e 访问者的访问信息,对这些信息进行分析,然后 根据这些信息把恰当的资源推荐给恰当的访问者。这样就能简化对信息和应用程 序的访问,提高用户的工作效率,增加用户的满意度和信任度。通过对校务系统 用户进行个性化推荐,能够实现对各种资源的有效集成,整合和优化,实现对资 源的有效配置和充分利用,实现教育和校务管理过程的优化,协调,从而提高各 项工作的效率,效果和效益。 1 4 本文所做的工作和篇章布局 针对前面对国内外个性化领域的应用和研究情况的介绍,以及充分考虑到中 山大学现有的情况,为了更有效的满足各类用户对网站的需求和提高用户对网站 的满意度和忠诚度,确实需要对校务系统个性化方面做一定的工作。w c b 日志挖 掘技术是为中山大学网站的用户提供个性化服务的理论基础。 第一章和第二章首先就个性化推荐系统模型实现涉及的相关领域和技术做 了相应的介绍;并对本个性化推荐模型基于的项目背景做了介绍。然后在第三章 和第四章,重点论述了本推荐模型系统的数据记录和预处理模块,模式库生成模 块,及推荐模块进行了模块设计和功能模块的具体实现,并重点提出了一个对现 有的w c b 日志数据预处理的算法进行了改进的算法,增加了帧页面过滤的算法 提高了w e b 日志挖掘时候挖掘结果的兴趣度。这个结果也间接表明了,帧页面 过滤技术可以提高基于w e b 日志挖掘技术的个性化推荐系统所生成的推荐结果 的质量。最后在第五章,我们探讨了该推荐系统模型的现实意义,存在的问题和 下一步的发展。 7 中山大学硕士学位论文基于w e br q 志挖掘的个性化推荐系统模型研究与实现 第2 章数据挖掘和w e b 挖掘技术 2 1 数据挖掘技术 人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时 购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪 些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的 共同特征,从而为治愈这种疾病提供一些帮助。 对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无 论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理, 而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和 数据量激增,人们希望能够提供更高层次的数据分析功能,从而更好地对决策或 科研工作提供支持。 与此同时,数据库技术从二十世纪8 0 年代开始,已经得到广泛的普及和应 用。在关系型数据库的研究和产品提升过程中,人们一直在探索组织大型数据和 快速访问的相关技术。高性能关系数据库引擎以及相关的分布式查询、并发控制 等技术的使用,已经提升了数据库的应用能力。在数据的快速访问、集成与抽取 等问题的解决上积累了经验。数据仓库【墙l 作为一种新型的数据存储和处理手段, 被数据库厂商普遍接受并且相关辅助建模和管理工具快速推向市场,成为多数据 源集成的一种有效的技术支撑环境。另外,i n t e m e t 的普及也为人们提供了丰富 的数据源。据说,在美国电视达到5 0 0 0 万户大约用了1 5 年,而i n t e r n e t 上网达 到5 0 0 0 万户仅用了4 年。而且i n t e r n e t 技术本身的发展,已经不光是简单的信 息浏览,以w e b 计算为核心的信息处理技术可以处理i n t e r a c t 环境下的多种信息 源。因此,人们已经具备利用多种方式存储海量数据的能力。只有这样,数据挖 掘技术才能有它的用武之地。这些丰富多彩的数据存储、管理以及访问技术的发 展,为数据挖掘技术的研究和应用提供了丰富的土壤。计算机芯片技术的发展, 使计算机的处理和存储能力日益提高。大家熟知的摩尔定律告诉我们,计算机硬 件竹关键指标大约以每1 8 个月翻一番的速度在增长,而且现在看来仍有日益加 8 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 速的趋势。随之而来的是硬盘、c p u 等关键部件的价格大幅度下降,使得人们 收集、存储和处理数据的能力和欲望不断提高。经过几十年的发展,计算机的体 系结构,特别是并行处理技术已经逐渐成熟和普遍应用,并成为支持大型数据处 理应用的基础。计算机性能的提高和先进的体系结构的发展使数据挖掘技术的研 究和应用成为可能。 历经了十几年的发展,包括基于统计学【1 9 l 、人工智能 2 0 l 等在内的理论与技 术性成果已经被成功地应用到商业处理和分析中。这些应用扶某种程度上为数据 挖掘技术的提出和发展起到了极大地推动作用。数据挖掘系统【2 1 】块技术和算法 都离不开这些理论和技术的支持。从某种意义讲,这些理论本身发展和应用为数 据挖掘提供了有价值的理论和应用积累。数理统计是一个有几百年发展历史的应 用数学学科1 2 2 l 。然丽它和数据库技术的结合性研究应该说最近十几年才被重视。 以前的基于数理统计方法的应用大多都是通过专用程序来实现的。我们知道,大 多数的统计分析技术是基于严格的数学理论和高超的应用技巧的,这使得一般豹 用户很难从容地驾驭它。数据挖掘技术是数理统计分析应用的延伸和发展,假如 人们利用数据库的方式从被动地查询变成了主动发现知识的话,那么概率论和数 理统计这一古老的学科可以为我们从数据归纳知识一一数据挖掘技术提供理论 基础删。人工智能是计算机科学研究中争议最多但是仍始终保持强大生命的研 究领域。机器学习应该说是得到了充分的研究和发展,并且数据挖掘技术继承了 机器学习解决问题的思想。专家系统( e x p e r ts y s t e m ) 曾经被认为人工智能向着 实用性方向发展的最有希望的技术,但是,这种技术也逐渐表现出投资大、 主观性强、应用面窄等致命弱点。例如,知识获取被普遍认为是专家系统研究中 的瓶颈问题。另外,由于专家系统是主观整理知识,因此这种杌制不可避免地带 有偏见和错误。数据挖掘继承了专家系统的高度实用性特点,并且以数据为基本 出发点,客观地挖掘知识。因此,可以说,数据挖掘研究在继承已有的人工智能 相关领域的研究成果的基础上,摆脱了以前象牙塔式研究模式,真正开始客观地 从数据集中发现蕴藏的知识。 商业上的迫切需求和技术上的逐渐成熟,数据挖掘( d a t am i n i n g ) 技术应运 而生。 数据挖掘( d a t am i n i n g ) 是一个多学科交叉研究领域,它融合了数据库 9 中山大学硕士学位论文基于w 曲日志挖掘的个性化推荐系统模型研究与实现 ( d a t a b a s e ) 技术瞄l 、人工智能( a r t i f i c i a li n t e l l i g e n c e ) 、机器学习( m a c h i n e l e a r n i n g ) 、统计学( s t a t i s t i c s ) 、知识工程【2 6 】( k n o w l e d g ee n g i n e e r i n g ) 、 面向对象方法【2 刀( o b j e c t o r i e n t e dm e t h o d ) 、信息检索】( i n f o r m a t i o n r e t r i e v a l ) 、高性能计掣冽( h i g h - p e r f o r m a n c ec o m p u t i n g ) 以及数据可视化f 3 0 l ( d a t av i s u a l i z a t i o n ) 等最新技术的研究成果。经过十几年的研究,产生了许 多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究芷 向着更深入的方向发展。数据挖掘之所以被称为未来信息处理的骨干技术之一, 主要在于它以一种全新的概念改变着人类利用数据的方式。 2 1 1 k d d 和数据挖掘 数据挖掘,也可以称为数据库中的知识发现( k n o w l e d g ed i s c o v e rd a t a b a s e , k d d ) ,是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理 过程。 数据库中的知识发现是一个多步骤的处理过程【3 1 l ( 如图2 - 1 ) 。一般分为: 问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户要求。 数据提取根据要求从数据库中提取相关的数据。 数据预处理主要对前一阶段产生的数据进行再加工,检查数据的完整性及数 据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。 数据挖掘运用选定的知识发现算法,从数据中提取出用户所需要的知识,这 些知识可以用种特定的方式表示或使用些常用的表示方式。 知识评估将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程 中的某些处理阶段进行优化,直到满足要求。 由此可见,数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一 步。因此,往往可以不加区别地使用k i ) d 和数据挖掘。一般在研究领域被称作数 据库中知识发现的,在工程领域则称之为数据挖掘。 中山大学硕士学位论文 基于w e b 日志挖掘的个性化推荐系统模型研究与实现 数据库 图2 - 1 数据挖掘与知识发现 在“知识发现9 6 国际会议”上,许多学者建议对这两个名词加以区分。核 心恩想是:k d d 是从数据库中发现知识的全部过程,而d a t a ) 矗王a i a g 烈是此全部 过程的一个特定的、关键步骤。这种观点有它的合理性。虽然我们可以从数据仓 库、w e b 等源数据中挖掘知识,但是这些数据源都是和数据库技术相关的。数据 仓库是由源数据库集成而来的,即使是像w e b 这样的数据源恐怕也离不开数据库 技术来组织和存储抽取的信息。因此k d d 是一个更广义的范畴,它包括数据清洗、 数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。这 样,我们可以把k d d 看作是些基本功能构件的系统化协同工作系统,而数据挖 掘则是这个系统中的一个关键的部分。源数据经过清洗和转换等成为适合于挖掘 的数据集,数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合 适的知识模式用于进一步分析决策工作。从这种狭义韵观点上,我们可以定义数 据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘作为k d d 的一个重 要步骤看待,可以使我们更容易聚焦研究重点,有效解决问题。目前,人们在数 据挖掘算法的研究上,基本属于这样的范畴。 l l 中山大学硕士学位论文 基于w e b 日志挖掘的个性化推荐系统模型研究与实现 2 1 2 数据挖掘系统的分类 数据挖掘是一个交叉性的学科,受到多个学科的影响,包括数据库系统,统 计学,可视化,信息科学和机器学习( 图2 2 ) 。 图2 - 2 数据挖掘受多学科的影响 此外,依赖于所用的应用领域,涉及到的学科范围更是非常的广泛。由于数 据挖掘源于多个学科,嚣此数据挖掘研究就产生了大量的,各种不同类型的数据 挖掘系统。这样,就需要对数据挖掘系统给出一个清楚的分类。根据不同的标准, 数据挖掘系统可以有以下分类p 2 】( 图2 3 ) : 图2 - 3 数据挖掘系统分类 1 2 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 按照挖掘的数据库类型分类:数据挖掘系统可以根据挖掘的数据库类型分 类,而数据库系统本身也可以根据不同的标准分类,每一类可能需要自身的数据 挖掘技术。比如,根据数据模型分类,我们可以有关系型的,事务型的,面向对 象型的,对象关系型的或者数据仓库型的数据挖掘系统。如果根据所处理的数 据的特定类型分类,我们有空间的,时问序列的。文本的或多媒体的数据挖掘系 统,或者w w w 数据挖掘系统。 按照挖掘的知识类型分类:数据挖掘系统可以根据所挖掘的知识类型分类。 即是根据数据挖掘的功能,如特征化、区分、关联、分类聚类、孤立点分析和演 变分析,偏差分析,类似性分析等分类。 此外,数据挖掘紫铜可以根据所挖掘的知识的力度或者抽象层进行区分,包 括概化知识,原始层知识,或多层知识,一个高级数据挖掘系统应当支持多抽象 层的知识发现。 数据挖掘系统还可以分类为挖掘数据规则性和数据的不规则性。一般情况 下,概念描述,关联分析,分类,预测和聚类挖掘数据规律,将孤立点作为噪声 排除。这些方法能够帮助监测孤立点。 按照所用技术分类:数据挖掘系统也可以根据所用的数据挖掘技术分类。这 些技术可以根据用户交互程度( 例如自动系统,交互探查系统,查询驱动系统) , 或所用的数据分析方法( 例如面向数据库或者数据仓库的技术,机器学习,统计 学,可视化,模式识别,神经网络等) 描述。复杂的数据挖掘系统通常采用多种 数据挖掘技术,或采用有效的,集成的技术,结合一些方法盼优点。 按照应用分类:数据挖掘系统可以根据其应用分类。例如,可能有些数据挖 掘系统特别适合金融,电信,d n a ,股票市场,e m a i l ,等等。不同的应用通常 需要集成对于该应用特别有效的方法。因此,普通的,全能酶数据挖掘系统可能 并不适合特定领域的挖掘任务。 2 1 3w e b 挖掘 随着w e b 技术的发展,企业网络正在面临信息时代的挑战新的企业网会更 加紧密地与互联网结合起来,i n t e r n c t i n t r a n e t 架构取代传统的客户机,服务器架构 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 技术的出现导致各类基于i n t c m e t i n t r a n e t 的教育网站风起云涌。建立一个教育网 站并不困难,困难的是如何让网站有特色。网站的内容和层次,布局,用词,标 题,服务等任何一个地方都能成为吸引用户,同时也成为失去用户的因素。另一 方面,随着我国教育产业进程的进一步深入,成功的教育网站每天都可能有上百 万次的用户请求,生成大量的记录文件( l o gf i l e s ) 和登记表,如何对这些数据 进行分析和挖掘,充分了解用户的喜好,需求,设计出满足不同用户群体需要的 个性化网站,几乎变得势在必行。 另一方面,所有用户行为的可记录性和数据量的快速增长促成了把数据挖掘 技术应用到网上数据的过程,使得大量收集每个用的每一个行为数据,输入研究 客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到有 价值的信息和知识正是我们所面临的问题。 w e b 挖掘是从与w w w 相关的资源和行为中抽取感兴趣的,有用的模式和隐 含信息的过程。w e b 包含了丰富和动态的超链接信息,以及w e b 页面的访问和 使用信息,这为数据挖掘提供了丰富的资源。但是,对w e b 进行有效的资源和 知识发现面临着极大的挑战性。首先,对于有效的数据仓库和数据挖掘来说, w e b 太过于庞大。w e b 数据目前以兆兆字节计算,而且仍然迅速的增长,因此我 们不可能构造一个数据仓库来存储或者继承w e b 上的所有数据。其次,w e b 的复 杂性也远远高于传统的文本文档。w e b 页面缺乏统一结构,具有过多的风格和内 容。所以在这些页面中,通过搜索得到希望得到的信息是极具挑战性的。再次, w e b 是一个动态性极强的信息源。他不仅快速的增长,信息也在不断的更新,链 接和访问记录都在频繁的增长和更新之中。w e b 面对的是一个广泛的用户群体, 每个用户都有不同的背景,兴趣和使用目的。很多用户并不了解信息网络结构, 很容易在复杂的网络中迷失方向,也容易在跳跃式的访问中和漫长的等待过程中 失去信息,而w e b 上的信息只有- 4 , 部分对于用户来说是有用的,据资料显示: 9 9 的w e b 信息对于9 9 的用户是无用的。这表明,一个人只是关心w e b 上很 小的一部分信息。所以,以上面临的挑战推动了如何高效的发现和利用i n t e r n e t 上的资源的研究工作。w e b 挖掘是一个具有挑战性的课题。 1 4 中山大学硕士学位论文基于w e b 日志挖掘的个性化推荐系统模型研究与实现 图2 _ 4 w e b 挖掘分类 w e b 挖掘1 3 3 】主要分为如上图( 2 - 4 ) 所示三类:w e b 内容的挖掘,根据w e b 页面内容
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 矿上招工考试题及答案
- 肯德基考试题目及答案
- 解析卷-青岛版9年级数学下册期末试题含完整答案详解(全优)
- 考试题及答案普工
- 2025年教师招聘之《幼儿教师招聘》通关练习试题附参考答案详解【基础题】
- 静止运动考试题及答案
- 水解蒸煮工标准化作业考核试卷及答案
- 押题宝典教师招聘之《小学教师招聘》通关考试题库(精练)附答案详解
- 经验护航考试题及答案
- 积材工职业技能考核试卷及答案
- 地毯更换简易施工合同协议书
- 实验小学二年级体育集体备课教案
- 西方文化概论(第二版)课件全套 曹顺庆 第0-6章 绪论 西方文化的渊源与流变、西方文学 -西方社会生活与习俗
- 李白课件教学课件
- 百年郎酒试题专项测试题及答案
- 托管中心学生托管合同协议书
- 高中生物近5年生物高考真题分类和解析(神经调节)
- 押金管理制度
- 人教版(2024) 七年级上册英语培优补差教学工作计划
- 职业素养提升第2版(大学生职业素养指导课程)全套教学课件
- JJF 1033-2023 计量标准考核规范
评论
0/150
提交评论