




已阅读5页,还剩47页未读, 继续免费阅读
(计算机软件与理论专业论文)web挖掘技术及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士掌位论文 摘要 数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘己 成为数据库技术和机器学习方面的重要的研究课题。当前,w o r l dw i d ew e b 正向应 用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用至u w e b 上。解决w w w 中 遇到的一些问题,从而形成了w e b 数据挖掘( w e bm i n i n g ) 这样一个新的研究方向。 w e b 数据挖掘是指针对包括w e b 页面内容、页面之间的结构、用户访问信息、电 子商务信息在内的各种w e b 数据,应用传统数据挖掘方法以发现有用的知识,帮助人 们从w w w 中提取知识,改进站点设计,更好地开展电子商务。 本文的工作是在“w e b 访问信息挖掘软件包”的开发过程中,对w w w 上用户访问 信息的挖掘技术进行了较为深入的研究,包括数据清洗,事务识别,w e b 播出中的聚 类算法,关联规则发现等工作,并将w e b 数据挖掘技术应用于基于c a b l e 的w e b 页面广 播中。本文的主要工作如下: 1 通过数据预处理技术,将i n t e r n e t 上非结构化或半结构化的信息组织成逻辑单 元,以表示事务或用户会话,并将所有事务组成一个自定义的事务数据库,这样就 可以利用对传统数据挖掘的方法( 如关联规则和序列模式的发现等) 对w e b 数据进行 挖掘;另外,采用数据清洗技术从用户访问信息中去除大量无用或与当前挖掘无关 的数据,有效地提高了挖掘效率。 2 将传统数据挖掘技术中的关联规则发现技术引入w e b 数据挖掘,求高频物品集是 关联规则发现的核心,也是计算量最大的部分,我们采用了一种快速算法a p r i o r i , 并针对在w e b 应用的特点进行了改进,有效地提高了求高频站点集的效率。通过分析 w e b 访问信息,可以发现用户访问站点之间的一些关联规则,以及站点中页面之间的 一些访问规则。关联规则发现可以在网站构造、w e b 广播等活动中得到广泛应用。 3 宽带网进行w e b 广播时,其播出的内容是一个大的w e b 页面集合。针对如何得到这 个w e b 页面集合,以及如何组织这个w e b 页面集合以利于用户浏览这两个问题,本文 提出一种新的聚类方法w e b c l u s t e r i n g ,通过聚类得出聚类中心和聚类集,通过关联 规则算法得出可信度,据此构造出一个有价值的w e b 页面播出集合:并且根据挖掘到 的用户访问兴趣,通过形成索引页面集来帮助用户访问这个w e b 页面集合。这种方法 较好地解决了w e b 广播中的内容选择及页面组织问题,取得了较为理想的效果。 4 论述了w e b 访问信息挖掘的一般过程,将传统数据挖掘过程中的各种关键技术, 如数据预处理,聚类算法,关联规则、序列模式发现等引入到对于w e b 信息的挖掘活 动中,并通过一系列的实验进行验证及评价:在以上工作的基础上,设计并实现了一 个w e b 访问信息挖掘原型系统( w w w m i n e r ) 。 关键词:w e b 数据挖掘,数据预处理,宽带广播,聚类,关联规则发现 山东大掌硕士学位论文 a b s t r a c t d a t am i n i n gm e a n se x t r a c t i n gu s e f u lk n o w l e d g ea n di n f o r m a t i o n a u t o m a t i c a l l yf r o mt h em a s so fd a t a d a t am i n i n gh a sb e c o m ea ni m p o r t a n tf i e l d i nt h es t u d yo fd a t a b a s ea n dm a c h i n el e a r n i n g c u r r e n t l yw o r l dw i d ew e bi s d e v e l o p i n gr a p i d l yi nb r o a d n e s sa n dd e p t h b ya p p l y i n gt h ea p p r o a c h e so f d a t a m i n i n gi n t ow e bt os o l v es o m ep r o b l e m s ,an e wf i e l d “w e bm i n i n g ”i s p r e s e n t e d t h eo b j e c t so fw e bm i n i n gi n c l u d ea l1k i n d so fw e bd a t a :c o n t e n to fw e b p a g e s ,s t r u c t u r eb e t w e e np a g e s ,u s a g ei n f o r m a t i o no fu s e r s w i t hd a t am i n i n g w ec a nf i n du s e f u lk n o w l e d g e ,e x t r a c tk n o w l e d g ef r o mw w w ,i m p r o v ew e bsit e d e s i g n i n g ,a n dd e v e l o pe - c o m m e r c em o r ee f f e c t i v e l y i nt h ep r o c e s so f b u i l d i n g ”w e bu s a g ei n f o r m a t i o nm i n i n gs y s t e m ”,w eh a v em a d eat h o r o u g hs t u d y o nt h ea p p r o a c h e so fw e bm i n i n g ,i n c l u d i n g :d a t ac l e a n i n g ,t r a n s a c t i o n r e c o g n i z a t i o n ,c l u s t e r i n ga l g o r i t h mi nw e bb r o a d c a s t i n g ,a s s o c i a t i o nr u l e s d i s c o v e r y ,a n de t c t h ef o l l o w i n gi sm ym a i nw o r k : 1 b yd a t ap r e p r o c e s s i n g ,n o n s t r u c t u r e di n f o r m a t i o ni so r g a n i z e di n t o s o m et r a n s a c t i o n so rs e s s i o n si nad a t a b a s e t h e nt h ew e bd a t ac a nb e p r o c e s s e db yt h ec l a s s i c a lm e t h o d so fd a t am i n i n g i na d d i t i o n ,w ec a nu s e d a t ac l e a n i n gt oe x c l u d ea o ro fu s e l e s sd a t a ,a n di m p r o v et h ee f f i c i e n c y o fm i n i n ga c t i v i t y 2 w eb r i n ga s s o c i a t i o nr u l e sd i s c o v e r yi n t ow e bm i n i n g f i n d i n gf r e q u e n t i t e m s e ti st h ef u n d a m e n t a lp a r to fa s s o c i a t i o nr u l e sd i s c o v e r y w ee m p l o y ar a p i da l g o r i t h m ( a p r i o r ia l g o r i t h m ) ,t op r o d u c et h ef r e q u e n ti t e m s e t b y a n a l y z i n gw e bu s a g ei n f o r m a t i o n ,w ec a nf i n ds o m er u l e so fu s e r s u s a g e a s s o c i a t i o nr u l e sd i s c o v e r yc a nb eu s e di no r g a n i z i n gw e bs i t e ,w e b b r o a d c a s tin g ,a n de t c 3 w h e nw eb r o a d c a s tw e bp a g e st h r o u g hb r o a db a n db r o a d c a s t i n gn e t w o r k , w h a tt ob r o a d c a s t a n dh o wt ob r o a d c a s ta r et w op r o b l e m s i nt h i sp a p e rw e p r o v i d ea n e ww e bm i n i n gm e t h o d ( w e b c l u s t e r i n g ) t os o l v et h e s ep r o b l e m s t h i s m e t h o dc o m b i n e st h ei d e ao fc l u s t e ra n da s s o c i a t i o nr u l e s t h em i n i n go b j e c t i sw e bp a g e so fc a c h ea n dl o gi nw w wp r o x ys e r v e r b yt h i sm e t h o dw ec a nf i n d av a l u a b l ew e bb r o a d c a s ts e ta n dc r e a t es o m ei n d e xh t m lp a g e st oi n d i c a t e t h eu s e r st on a v i g a t e 4 w ei n t r o d u c et h eg e n e r a ls t e p sf o rw e bu s a g em i n i n g ,b r i n gs o m ek e y t e c h n i q u eo fd a t am i n i n g ,s u c ha sd a t ap r e p r o c e s s i n g ,c l u s t e r i n ga l g o r i t h m , a s s o c i a t i o nr u l e s ,e t c ,i n t ow e bu s a g em i n i n g w eg i v ee v a l u a t i o na n d v e r i f i c a t i o nt oa b o v et e c h n i q u eb yas e r i e so fe x p e r i m e n t s f i n a l l yw eb u i l t t h ep r o t o t y p eo faw e bu s a g em i n i n gs y s t e m k e y w o r d s :w e bm i n i n g ,d a t ap r e p r o c e s s i n ga s s o c i a t i o nr u l e sd i s c o v e r y w e b c l u s t e r i n g 2 山东大学硕士学位论文 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成 果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的 科研成果。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本声明 的法律责任由本人承担。 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部 门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:亟f 芝导师签名: 山东大学硕士学位论文 第一章绪论 本章主要概述数据挖掘和w e b 数据挖掘,以及它们的发展背景。并介绍本文在w e b 访问信息挖掘方面所进行的一些工作,最后给出论文的内容安排。 1 1 数据挖掘与w e b 数据挖掘 随着数据库技术和数据库管理系统的广泛应用,全球范围内数据库中存储的数 据量急剧增大,有的商业数据目前己经超过几百万条记录。有些面向科学研究数据 库的数据量也非常惊人。庞大的数据对人工处理来说是非常困难的,人们需要对数 据进行较高层次处理的技术,从中找出规律,以帮助人们更好地进行决策和研究。 数据挖掘是指从大量数据中智能地、自动地提取出有价值的知识和信息。数据挖掘 已成为数据库系统和人工智能方面的一个重要的研究课题。 w o r l dw i d ew e b 当前正在深度和广度方面飞速地发展着。i n t e r n e t 正在前所未 有地改变我们的生活,目前已有两万多个w w w 服务器,且每天还在以两百个以上的速 度增加,其蕴藏的数据已无法计量。w w w 上的一些主要的工作,例如w e b 站点设计、 w e b n 务设计、w e b 站点的导航设计、电子商务等工作正变得越来越复杂和越来越繁 重。从站点经营方来说,他们需要好的自动辅助设计工具,可以根据用户的访问兴 趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商 务以更好地满足访问者的需求。从访问者来说,他们希望看到的是个性化的页面, 希望得到更好的满足各自需求的服务。这种需求从某种意义上说,访问者本身也未 必清楚。 将数据挖掘的思想和方法应用至l j w e b 上,解决了w w w 中遇到的一些问题,从而形 成了w e b 数据挖掘( w e bm i n i n g ) 这样一个新的研究方向。w e b 数据挖掘指的是针对w e b 页面内容,页面之间的结构,用户访问信息,电子商务信息等各种w e b 数据,应用传 统数据挖掘方法来发现有用的知识,以帮助人们从w w w 中提取知识,改进站点设计, 更好地开展电子商务。w e b 数据挖掘可以分类为 6 :( 1 ) 对w e b 内容的挖掘:( 2 ) 对w e b 访问信息的挖掘:( 3 ) 对w e b 结构的挖掘。w e b 数据挖掘是数据挖掘领域里的一个重要 的分支,随着i n t e r n e t 的广泛深入的发展,w e bm i n i n g 正吸引着越来越多研究者的 兴趣。 在w e bm i n i n g 中,通过对总的用户访问行为、频度、内容等的分析,可以得到 关于群体用户访问行为和方式的普遍知识,用以改进的w e b 服务方设计,而更重要的 是,通过对这些用户特征的理解和分析,可以有助于开展有针对性的电子商务活动。 可以通过对每个用户访问行为、频度、内容等的分析,提取出每个用户的特征,给 每个用户个性化的界面,提供个性化的电子商务服务。 1 2 论文工作 本文主要对w w w 上用户访问信息的挖掘技术进行了较为深入的研究,包括数据清 洗,事务识别,w e b 播出中的聚类算法,关联规则发现等工作,并将w e b 数据挖掘技 术应用于基于c a b l e 的w e b 页面广播中。本文主要完成了以下几方面工作: 山东大掌硕士学位论文 l _ 数据预处理是w e bm i n i n g 技术中的重要阶段,通过数据预处理技术,我们从 用户访问信息中去除了大量无用、无关的数据,并将i n t e r n e t 上非结构化或半结构 化的信息结构化,以事务或用户会话的形式组织为数据库;对于这样一个自定义的 事务数据库,我们就可以利用传统数据挖掘的方法( 如关联规则和序列模式的发现等) 对w e b 数据进行挖掘: 2 将关联规则发现技术引入至u w e b 数据挖掘中,求高频物品集是关联规则发现 的核心,计算量最大,我们采用了一种快速算法a p r i o r i 7 ,并针对在w e b 应用的特 点进行了改进,有效地提高了求高频物品集的效率。通过分析w e b 访问信息,可以发 现用户访问站点之间的一些关联规则,以及站点中页面之间的一些访问规则。关联 规则发现可以在网站构造、w e b 广播等活动中得到广泛应用。 3 针对宽带网进行w e b 广播时的内容选择及页面组织问题。我们提出一种新的 聚类方法w e b c l u s t e r i n g 6 ,通过聚类得出聚类中心和聚类集,通过关联规则算法 得出可信度,据此构造出一个有价值的w e b 页面播出集合。进一步可以根据挖掘到的 用户访问兴趣,通过形成索引页面集来帮助用户访问这个w e b 页面集合。这种方法取 到了较为理想的效果。 4 论述 w e b 访问信息挖掘的一般过程,将传统数据挖掘过程中的各种关键技 术,如数据预处理,聚类算法,关联规则、序列模式发现等引入到对w e b 信息的挖掘 活动中,并通过一系列的实验进行验证及评价:在以上工作的基础上,设计并实现了 一个w e b 访问信息挖掘原型系统( w w w m i n e r ) 1 3 论文的组织结构 全文共七章,组织如下:第一章为绪论,主要概述了数据挖掘与w e b 数据挖掘的 引入及其发展背景。并介绍本文所做的工作及全文的内容安排。第二章对w e bm i n i n g 技术进行概述,论述了w e bm i n i n g 技术的定义、过程、分类等,以及各种挖掘技术 在电子商务,w e b 播出等工作中的应用。第三章以关系数据库为平台,建立了一个w e b 访问信息挖掘系统。第四章论述了在w e b 访问信息挖掘中的数据预处理阶段,如何通 过数据清洗从用户访问信息中去除无用或无关的数据,有效地提高了挖掘效率,以 及如何通过事务识别技术,将非结构化的信息组成一个结构化事务数据库。第五章 介绍了w e b 访问信息挖掘中的关联规则发现技术,以及快速算法a p r i o r i 。第六章提 出一种新的聚类方法,w e b c l u s t e r i n g 算法,通过这种算法与关联规则发现算法结合, 构造出一个有价值的w e b 页面播出集合,由此解决了宽带网进行w e b 广播时的内容选 择及页面组织问题。第七章将对全文的工作进行总结,并提出进一步研究工作的方 向。 l i j 东大掌硕士掌位论文 第二章w e b 数据挖掘技术 本章对w e b 数据挖掘技术进行概述,论述t w e b 数据挖掘技术的定义、过程、分 类等,以及各种挖掘技术在电子商务,w e b 播出等工作中的应用。 2 1w e b 数据挖掘 i n t e r n e t 正在前所未有地改变我们的生活。因特网上的各种信息缺乏结构化、 组织性,随意地散布在这个网络的各个角落,这已成为这座世界性图书馆的一大缺 憾:而今天因特网的规模在急剧地扩大,其上的信息量也在爆炸性地增长,如何在因 特网上有效地对信息分类,发现利用是一个重要的课题。数据挖掘是指从大量的数 据中智能地、自动地提取出有价值的知识和信息。数据挖掘己成为数据库系统和机 器学习方面的重要的研究课题。最近将数据挖掘的思想和方法应用到w e b 上,解决w 删 中遇到的些问题,从而形成了w e b 数据挖掘( w e bm i n i n g ) 这样一个新的研究方向。 w e b 数据挖掘是数据库、计算机网络与人工智能等相结合的一种新兴的技术,在 解决同一问题时将不同学科的技术结合起来,可以提供更好的解决方法。w e b 数据挖 掘己成为数据挖掘领域的一个重要的分支。随着因特网的广泛深入发展,它正吸引 着越来越多研究者的必趣。 w e b 数据挖掘可以定义为( 4 :针对包括w e b 页面内容,页面之间的结构,用户访 问信息、电子商务信息在内的各种w e b 数据,应用数据挖掘方法以发现有用的知识, 帮助人们从w w w 中提取知识,改进站点设计,更好地开展电子商务。 2 2w e b 数据挖掘的分类 w e b 数据挖掘根据挖掘的对象可以分为三种 1 1 :w e bc o n t e n tm i n i n g ,w e b u s a g em i n i n g ,w e bs t r u c t u r em i n i n g 。同时我们针对每一种挖掘讨论了最新的相 关工作及新技术。 2 2 1w e bc o n t e n tm i n i n g 即对w e b 页面内容的挖掘。m 信息资源的非结构性使得我们自动发现w e b 数据时 遇到了一些困难。传统的从w w 上提取信息的搜索引擎,包括:l y c o s ,v i s t a , w e b c r a w l e r ,a l i w e b ,m e t a c r a w l e r 等 1 6 ,它们给用户带来了一些方便。但是它们 仍然无法提供结构信息,也无法进行分类、过滤,以及理解文档。最近一项研究对 这些最流行的搜索引擎做了综合、全面的评价 1 7 。 新近产生了一些从w w w 上更智能地提取信息的搜索工具,比如用w e ba g e n t 来进 行信息的检索,为w e b 上的半结构化的数据提供更高层的数据组织等。我们总结如下。 基= = a g e n t 的内容挖掘系统:基于a g e n t 的w e b 内容挖掘系统可以分为三类 1 6 : 1 基于智能搜索a g e n t 。搜索相关信息,并通过领域特点和用户特征对得到的 信息进行组织和理解。如f a of i n d e r ,i n f o r m a t i o nm a n i f o l d ,s h o p b o t 等。 2 基于信息过滤、分类,使用一系列信息检索技术,超文本的特点来自动检索, 2 基于信息过滤、分类,使用一系列信息检索技术,超文本的特点来自动检索, 山东大掌硕士学位论文 第二章w e b 数据挖掘技术 本章对w e b 数据挖掘技术进行概述,论述t w e b 数据挖掘技术的定义、过程、分 类等,以及各种挖掘技术在电子商务,w e b 播出等工作中的应用。 2 1w e b 数据挖掘 i n t e r n e t 正在前所未有地改变我们的生活。因特网上的各种信息缺乏结构化、 组织性,随意地散布在这个网络的各个角落,这已成为这座世界性图书馆的一大缺 憾:而今天因特网的规模在急剧地扩大,其上的信息量也在爆炸性地增长,如何在因 特网上有效地对信息分类,发现利用是一个重要的课题。数据挖掘是指从大量的数 据中智能地、自动地提取出有价值的知识和信息。数据挖掘己成为数据库系统和机 器学习方面的重要的研究课题。最近将数据挖掘的思想和方法应用到w e b 上,解决w w w 中遇到的一些问题,从而形成了w e b 数据挖掘( w e bm i n i n g ) 这样一个新的研究方向。 w e b 数据挖掘是数据库、计算机网络与人工智能等相结合的一种新兴的技术,在 解决同一问题时将不同学科的技术结合起来,可以提供更好的解决方法。w e b 数据挖 掘己成为数据挖掘领域的一个重要的分支。随着因特网的广泛深入发展,它正吸引 着越来越多研究者的兴趣。 w e b 数据挖掘可以定义为( 4 :针对包括w e b 页面内容,页面之间的结构,用户访 问信息、电子商务信息在内的各种w e b 数据,应用数据挖掘方法以发现有用的知识, 帮助人们从w w w 中提取知识,改进站点设计,更好地开展电子商务。 2 2w e b 数据挖掘的分类 w e b 数据挖掘根据挖掘的对象可以分为三种 i i :w e bc o n t e n tm i n i n g ,w e b u s a g em i n i n g ,w e bs t r u c t u r em i n i n g 。同时我们针对每一种挖掘讨论了最新的相 关工作及新技术。 2 2 1w e bc o n t e n tm i n i n g 即对w e b 页面内容的挖掘。w w w 信息资源的非结构性使得我们自动发现w e b 数据时 遇到了一些困难。传统的从w 1 1 1 v 上提取信息的搜索引擎,包括:l y c o s ,v i s t a , w e b c r a w l e r ,a l i w e b ,m e t a c r a w l e r 等 1 6 ,它们给用户带来了一些方便。但是它们 仍然无法提供结构信息,也无法进行分类、过滤,以及理解文档。最近一项研究对 这些最流行的搜索引擎做了综合、全面的评价 1 7 。 新近产生了一些从w w w 上更智能地提取信息的搜索工具,比如用w e ba g e n t 来进 行信息的检索,为w e b 上的半结构化的数据提供更高层的数据组织等。我们总结如下。 基于a g e n t 的内容挖掘系统:基于a g e n t 的w e b 内容挖掘系统可以分为三类 1 6 : 1 基于智能搜索a g e n t ,搜索相关信息,并通过领域特点和用户特征对得到的 信息进行组织和理解。如f a q f i n d e r ,i n f o r m a t i o nm a n i f o l d ,s h o p b o t 等。 2 基于信息过滤、分类,使用一系列信息检索技术,超文本的特点来自动检索, 山东大学硕士学位论文 并对信息过滤、分类,进行组织或分层等。如h y p u r s u i t ,b o o k m a r ko r g a n i z e r 3 基于个性化w e ba g e n t ,通过学习得到用户的喜好,并基于此发现信息资源。 如w e b w a t c h e r ,g r o u p l e n s 等。基于数据库方法的内容挖掘系统,将半结构化的w e b 页面信息重构,使其更结构化一些,然后就可以使用标准化的数据库查询机制和数 据挖掘方法进行分析。 4 多层次数据库:主要思想是将半结构化的w e b 信息存放在数据库的最底层,比 如超文本:较高层存放的是从底层抽取至4 的结构化的元数据。比如a r a n e u s 系统c 1 8 5 w e b 查询系统:基于w e b 的查询系统及语言使用标准数据库查询语言。如s q l , 关于w e b 文档的结构信息,甚至自然语言来处理w w w 中的查询问题。女d l o r e l ,u n q l , t s i 删i s 系统 1 1 。 2 。2 。2w e bu s a g em i n i n g w e bu s a g em i n i n g 是指对w e b 服务器的访问日志等数据进行挖掘,以发现用户访 问模式。对于一个组织在日常工作我们可以通过w e b b 艮务器的访问日志来获得大量的 用户访问信息,其他用户信息来源还包括r e f e r r e rl o g s 和通过c g i 脚本获得的用户 注册、调查数据。分析这些数据可以帮助一个组织分析顾客、市场策略、产品等: 也可以提供关于如何重建w e b 站点的信息,使站点建设更加有效,同时还可以使广告 更准确地定位于特定的用户群。现存的w e b 访问信息分析工具主要是提供服务器中用 户行为的报告,以及进行各种形式的数据过滤。使用这些工具可以得到对某一服务 器或某一特定文件的访问量,访问次数,以及用户的u r l 。但是这些工具只能用于缓 解服务器的流量,通常很少对w e b 空间中被访问站点,页面间关系进行分析。 新近产生了一些更先进的模式的挖掘、分析工具,这些工具主要可以分为以下 两类,模式发现工具与模式分析工具。 模式发现工具:这一类工具使用人工智能、数据挖掘,以及信息科学的知识从收集到 的数据中挖掘知识,比如w e b m i n e r 系统从服务器访闯日志中发掘出关联规则、序列 模式。p i r o l l i 1 1 结合访问路径模式、w e b 页面类型,和站点拓扑结构信息来对页 面进行分类,以方便用户访问。 模式分析工具:当访问模式被发掘后,我们就需要合适的工具与技术来理解、描述这 些模式。有人提出用o l a p 技术来简化对服务器访问日志的使用统计w e b m i n e r 系统 1 1 提出一种类s q l 查询机制来查询已发现的知识( 表现形式为关联规则和序列模 式) 。 2 2 3w e bs t r u c t u r em i n i n g 在整个w e b 空间里,有用的知识不仅包含在w e b 页面的内容之中,而且也包含在 页面的结构之中。例如,如果我们发现一个论文页面经常被其它页面引用,那么, 这个页面一定是非常重要的。相比较而言,结构信息挖掘工具没有内容及访问信息 挖掘普遍,现有的工具有p a g e r a n k ,c l e v e r 儿 等。 2 3w e b 数据挖掘的对象 阻上关于w e b 数据挖掘的对象分类是以挖掘的对象为依据的,w e b 数据挖掘对象 包括曰志数据,电子商务数据,页面数据,以及其他一些数据等。 4 山东大掌硕士掌位论文 1 服务器日志数据:个人浏览w e b n 务器时,服务器方将会产生几种类型的日志 文件:s e r v e rl o g s ,e r r o rl o g s 等,以记录用户访问的基本情况。其中s e r v e rl o g 记录了用户的各种访问信息:e r r o rl o g 存取请求失败的数据,如:丢失连接,授权失 败,或超时。可以通过对这几种日志的分析和挖掘开展w e b 访问信息挖掘。 2 市场数据:这种数据就是传统的关系数据库中存储的结构数据,用于存储日常 商务活动中的电子商务信息。 3 w e b 页面数据:即满足h t m l 标准的w e b 页面。现有的w e b 数据挖掘方法很多都是 针对w e b 页面开展的。 由于h t m l 页面包含文本和多媒体信息( 图片,语音,图像) ,所以涉及到文本挖 掘和多媒体挖掘。h t m l 页面内容缺乏标准的描述方式,难以挖掘。为了解决这个问 题,1 9 9 8 年w w w 社团提出了x m l 语言标准( e x t e n s i b l em a r k u pl a n g u a g e ) 。该标准通过 把一些描述页面内容的标记( t a g ) 添加至u h t m l 页面中,用于对h t m l 页面内容进行自描 述,例如对一个内容为科技论文的页面添加相关标记描述其作者,关键字等。x m l 的标记并不是限制死的,是由页面的创立者自己安排给出和定义的,但要遵循一定 的规范。对w e b 页面的挖掘还包括对页面超链接、锚地址等的挖掘。 4 其它信息:这些信息主要包括用户注册、调查信息等一系列信息。为了更好 地实现挖掘任务,适当的附加信息( 如描述用户的基本情况和特征的信息) 是有必要 的。 2 4w e bm i n i n g 的方法 由于w e b 页面空间的非结构性,在用传统的数据挖掘方法对w e b 进行挖掘时,在 数据预处理阶段需要把w e b 页面空间需要挖掘的特征组织到关系数据库二维表中,然 后就可以用通用的数据挖掘方法进行处理。 2 4 1w e bc o n t e n tm i n i n g 方法 w e b 页面信息主要包括文本信息和多媒体信息。所以w e bc o n t e n tm i n i n g 的方法 可以分为对w e b 页面文本信息的挖掘,以及对w e b 页面多媒体信息的挖掘。 1 对w e b 页面内文本信息挖掘:文本信息挖掘任务的输入是一个w e b 页面的集合, 其主要任务是摘要和分类,我们需要对每一个页面进行摘要,根据页面文本信息内 容,对整个页面集进行分类和聚类。 对摘要挖掘而言,我们对每一个页面应用传统的文本摘要方法可以得到相应的 摘要信息。对分类挖掘而言,在预处理阶段要做的事情就是把这个w e b 页面集合文本 信息转化成一个二维的数据库表,其中每一列是一个特征,每一行为一个w e b 页面的 特征集合。在文本学习中常用的方法是t f i d f 向量表示法,它是一种文档的词集 ( b a g o f w o r d s ) 表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本 的结构。构造这种二维表的方法是:每一列为一个词,列集( 特征集) 为辞典中的所有 有区分价值的词,所以整个列集可能有几十万列之多。每一行存储一个页面内词的 信息,这时,该页面中的所有词对应到列集( 特征集) 上。列集中的每一个列( 词) , 如果在该页面中不出现,则其值为0 :如果出现k 次那么其值就为k 。这样就可以表征 出页面中词的频度。这样构造的二维表表示的是w e b 页面集合的词的统计信息,最终 就可以采用n a i v eb a y e s i a n 方法或k n e a r e s tn e i g h b o r 方法进行分类挖掘。 2 对w e b 页面内多媒体信息挖掘:对于多媒体信息的挖掘来说,总的挖掘过程是 先要应用多媒体信息特征提取工具,形成特征2 维表,然后就可以采用传统的数据挖 山东大掌硕- 2 r 学位论文 掘方法进行挖掘。在特征提取阶段,可以利用多媒体信息提取工具进行特征提取。 当前一些信息提取工具能够抽取出i m a g e 和v i d e o 的文件名,u r l ,父u r l ,类型,键 值表,颜色向量等。对这些特征可以进行一系列的挖掘操作,如关联规则发现、分 类等,举例如下: 关联规则发现:如果图像是“大”的而且与关键字“天空”有关,那么它是蓝色 的概率为6 8 。 分类:根据提供的某种类标,利用决策树可以进行分类。 2 4 2w e bu s a g em i n i n g 方法 本文的工作将w e bu s a g em i n i n g 分为两个阶段,第一阶段指将w e b 数据转化为合 适的事务形式,即数据预处理与事务识别阶段。包括数据清洗,数据集成,事务识 别等:第二阶段包括普通的各种数据挖掘( 如关联规则、序列模式发现) 和模式匹配技 术。 2 4 2 1 数据预处理的方法 w e bu s a g em i n i n g 在预处理阶段主要的工作是从服务器日志数据中识别事务。 识别出事务后就可以利用对传统数据库进行挖掘的方法,如关联规则和序列模式的 发现等挖掘技术进行数据挖掘。首先我们要对原始数据进行数据预处理,消除一些 无用或与当前挖掘任务不相关的项,同时一些底层的数据集成也在这个阶段完成。 在对w e b 日志数据进行数据挖掘之前,需要把页访问序列组织成逻辑单元以表示 事务或用户会话。每一个访问者的每一次访问记录集就构成了一个访问事务,在一 个用户会话中,事务的定义依赖于识别事务的标准,事务可以是一页,也可以是全 部页。我们使用事务识别将日志分为逻辑簇,事务识别的任务还包括将大事务分为 几个较小的事务、将几个较小的事务合并为大事务。最终所有的事务构成我们进行 挖掘活动的基础,我们可以在这些事务基础上进行关联规则和序列模式的发现。当 数据转换阶段结束后,结果事务必须根据不同的挖掘任务来进行格式化。比如说, 用于关联规则发现的数据形式,与用于序列模式发现的数据形式必然不同。最后, 应该有一个查询机制允许使用者通过各种限制条件对挖掘过程进行控制。 2 4 2 2 各种w e b 挖掘方法 数据挖掘作为k d d ( 知识发现) 的核心部分,它被研究得最多。目前存在很多的数 据挖掘方法,如分类,聚类,关联规则发现,神经网络,粗糙集方法等,其中很多 也可以在w e b 访问信息挖掘中得到应用,在数据预处理的工作基础上,用户会话和事 务已经被识别出来,我们就可以用如下的一些挖掘技术 6 进行挖掘活动。 路径分析:路径分析可以被用于判定在一个w e b 站点中最频繁访问的路径。同时还有 一些其他的有关路径的信息通过路径分析也可以得出,以下是一些例子 7 0 的客户端在存取c o m p 8 n y p r o d u c t 2 时,是从c o m p a n y 开始,经过 c o m p a n y n e w ,c o m p a n y p r o d u c t s ,c o m p a n y p r o d u c tl 。 8 0 的客户存取这个站点是从c o m p a n y p r o d u c t s 开始的。 6 5 的客户在浏览4 个或更少的页面后就离开了。 利用这些信息可以改进站点的设计结构。 6 山东大学硕士学位论文 关联规则发现:在w e b 访问信息挖掘中,关联规则是指在一个服务器上,被同一个客 户访问的多个页面之间的关系:或对于同一个客户来说,他访问不同站点之间的关 系。使用关联规则发现方法从w e b 访问事务中可以找到如下一些相关性: 4 0 的用户访问w e b 页面c o m p a n y p r o d u c t l 时,也访问了c o m p a n y p r o d u c t 2 。 3 0 的客户在访a c o m p 8 n y s p e c i a l 时,在c o m p a n y p r o d u c t l 进行了在线定购。 利用这些相关性,我们可以更好地组织w e b 空间,实行有效的市场战略。 序列模式发现:在时间戳有序的事务集中,序列模式的发现就是指找到那些如同“一 些项跟随另一个项”这样的内部事务模式。例如: 在访问c o m p a n y ”o d u c t s 的顾客中,有3 0 的人曾在过去的一星期里用关键字w 在y a h o o 上做过查询。 在c o m p a n y p r o d u c t l 上进行过在线定购的顾客中,有6 0 的人在过去1 5 天内也 在c o m p a n y p r o d u c t 4 处下过订单。 发现序列模式,能够便于预测用户的访问模式,有助于开展针对这种模式的有 针对性的广告服务。依赖于发现的关联规则和序列模式,能够在服务器方动态地创 立特定的有针对性的页面,以满足访问者的特定需求。 分类:发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用 于分类新的项。例如: 政府机关的顾客一般感兴趣的页面是c o m p a n y p r o d u c t l : 在c o m p a n y p r o d u c t 2 进行过在线定购的顾客中有5 0 是2 0 2 5 岁生活在西城区 的年轻人。 聚类:聚类是把一组个体按照相似性归为若干类别,即“物以类聚”。其目的是使得 属于同一类别的个体之间的差异尽可能的小而不同类别上的个体问的差异尽可能的 大。对于w e b 访问信息,聚类分析可以从中聚集出具有相似特性的那些客户。在w e b 事务日志中对顾客信息或数据项聚类,就能够便于开发和执行未来的市场战略。这 种市场战略包括:自动给一个特定的顾客聚类发送销售邮件,为一个顾客聚类动态地 改变一个特殊的站点等。 2 4 3w e bs t r u c t u r em i n i n g 方法 在设计搜索引擎时,一种新的方法p a g e r a n k 对w e b 页面的连接结构进行挖掘得出 有用的知识。w e b 页面的链接类似学术上的引用,因此一个重要的页面可能会有很多 页面的链接指向它,也就是说,如果有很多链接指向一个页面,那么它一定是很重 要的。 在搜索引擎中存贮了数以亿计的页面,很容易得到它们的链接结构。需要做到 的是寻找一种好的利用链接结构来评价页面重要性的方法。在p a g e r a n k 方法中, p a g e r a n k 被定义为: 设u 为一个w e b 页。f u 为所有的u 指向的页面的集合,b u 为所有的指向u 的页面的 集合。设n u = f u ) 为从u 发出的链接的个数,。c ( = 9 6 0 1 0 1 a n dd o m a i n = e d ua n d s u p p o r t = 1 0a n dc o n f i d e n c e = 9 0 0 通过这一查询得到的信息可以用来限制挖掘活动的范围,减少挖掘过程的代价。 建立一个好的查询机制也是建立一个w e b 数据挖掘系统的一个重要方面。 3 2 一个w e b 访问信息挖掘系统唧删i n e r 的实现 3 2 1 系统设计的考虑 我们根据上一节提出的w e b 访问信息挖掘一般过程,设计了一个w e b 挖掘系统 一删i n e r ,实现 w e b 访问信息挖掘过程的主要功能。研$ 0 w e b 数据挖掘系统的主 要目的是把现有的一些通用数据挖掘技术集成起来,提供了一个通用的w e b 访问信息 挖掘平台。 山东大学硕士学位论文 w w w m i n e r 目前仍只是一个原型系统,通过这个系统可以方便地进行各种挖掘活 动,以帮助使用者进行科研活动等。我们的下一步工作是在这个原型系统的基础上 进行扩展,使其实用化,以期望在电子商
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《中国画的技法与鉴赏:大学美术教案》
- 八月销售活动方案
- 公交公司亲子活动方案
- 公交年底活动方案
- 状物作文我发现蜗牛是害虫350字12篇范文
- 公会郊游活动方案
- 公关公司庆典活动方案
- 公办院校校庆活动方案
- 公司diy圣诞活动方案
- 公司PK大赛庆功宴策划方案
- 2024年《风力发电原理》基础技能及理论知识考试题库与答案
- 2024秋国家开放大学《外国文学》形考任务1-4答案
- 机械原理课程设计20篇
- 房颤的规范化治疗
- 登高车高空作业施工方案
- 家具厂客户投诉处理手册
- 二位数乘二位数的计算题50道
- 2024年化学水处理工(技师)技能鉴定理论考试题库(含答案)
- 贵州省贵阳市2024年小升初语文模拟考试试卷(含答案)
- 2024高速养护工区标准化建设指南
- 湖北省随州市随县2023-2024学年七年级下学期语文期末考试卷
评论
0/150
提交评论