(管理科学与工程专业论文)基于web的用户访问信息挖掘研究.pdf_第1页
(管理科学与工程专业论文)基于web的用户访问信息挖掘研究.pdf_第2页
(管理科学与工程专业论文)基于web的用户访问信息挖掘研究.pdf_第3页
(管理科学与工程专业论文)基于web的用户访问信息挖掘研究.pdf_第4页
(管理科学与工程专业论文)基于web的用户访问信息挖掘研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(管理科学与工程专业论文)基于web的用户访问信息挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于w e b 的用户访问信息挖掘研究 摘要 数据挖掘作为一种知识发现的手段,得到了广泛的应用,是数据 库最活跃的领域之一。w e b 挖掘就是将传统数据挖掘技术应用到w e b 环境中,从w e b 中抽取信息或知识的过程。在w e b 挖掘中,基于 w e b 的用户访问信息挖掘应用最为广泛,应用领域涉及电子商务、网 络广告、智能推荐系统、网络营销、智能决策领域。一个好的挖掘模 型和相应的数据表示及数据库设计是w e b 访问信息挖掘成功的关键, 为此本文进行了相关的研究。 本文在对w e b 用户访问信息挖掘的相关理论和最新成果的研究 的基础上,对数据预处理阶段和模式发现阶段的几个问题和方法进行 了研究,并提出了一些改进方法和算法实现,针对具体的问题建立了 相应的数据表示和数据库系统设计,并且在此基础上提出了一个基于 数据库的w e b 用户访问信息挖掘系统,并初步实现了其中的几个功 能模块。 数据预处理阶段是w e b 挖掘的数据准备阶段。本文通过 s q l s e r v e r 2 0 0 0 实现了基于数据库的数据清洗任务,并提出了一种网 络蜘蛛的字符匹配模式的清除方法。用户识别提出了基于c o o k i e 。i p 和a g e n t 三个属性的识别算法,并且给出了会话识别和事务识别的具 体算法,采用基于最大前向访问的事务识别。 模式发现阶段是w e b 挖掘的关键。本文首先创建了用户访问兴 趣度的数据表示方法,利用概念分层的方式将页面数据进行归纳,并 在此基础上导出了适合b p 神经网络的数据集,将神经网络应用到用 户分类中,构造了一个分类器;其次是在关联规则和序列算法研究的 基础上提出并实现了一个频繁访问路径的算法;最后用m a t l a b 实现 了一个计算页面类别关联矩阵和统计分析的算法,实现较高概念层次 的统计分析和关联规则挖掘,具有较好的扩展性和易用性。 本文最后在前面工作的基础上提出了一个基于数据库的w e b 用 户访问信息挖掘系统的原型,并就原型的各模块进行了分析,该原型 允许所有操作基于数据库,得到的模式及规则也存储在数据库中,更 易于管理和应用。本文将w e b 用户访问信息挖掘应用到上海市农业 信息网,并且从中得到了一些有用的模式,实验数据证明系统是可行 的和有效的。 本文采用的数据库是s q l $ e r v e r2 0 0 0 ,通过数据库来实现数据预 处理,本文中的函数使用c + + 和m a t l a b 来实现。w e b 用户访问信息 挖掘是目前应用最为广泛的w e b 挖掘技术,可以理解用户的浏览兴 趣行为,以便进一步改善网站结构或为用户提供个性化服务,帮助改 善市场营销决策,实现用户推荐和预测。本文的系统具有一定的适用 性,本文的研究对于网站的用户访问信息挖掘具有一定的理论意义和 实际意义。 关键词:数据挖掘,w e b 挖掘,日志挖掘,神经网络,关联规则,数 据库 r e s e a r c ho nw e b b a s e du s e r a c c e s s i n f o r m a t i o nm i n i n i g a b s t r a c t a sam e t h o do fk n o w l e d g ed i s c o v e r y , d a t am i n i n gh a sb e e nw i d e l y u s e d , a n dw a st h em o s ta c t i v ed o m a i no fd a t a b a s e w e bm i n i n gi st ou s e t h et r a d i t i o n a ld a t am i n i n gt e c h n o l o g i e st oe x t r a c ti n f o r m a t i o na n d k n o w l e d g ei nt h ew 曲e n v i r o n m e n t t h ew e bu s a g em i n i n gi st h em o s t 研d eu s e dm e t h o d , w h i c hi su s e di nt h ef i e l do fe - c o n l r n c r c e ,i n t e m e ta d s , i n t e l l i g e n tr e c o m m e n d a t i o ns y s t e m , i n t e m e tm a r k e t i n g , a n di n t e l l i g e n t d e c i s i o ns u p p o r t ag o o dm o d e lo fw e bm i n i n gi st h ek e yt ot h es u c c e s s o f w e b u s a g em i n i n g , t h i sd i s s e r t a t i o nw i l ld os o m e r e s e a r c h 1 1 1 ed i s s e r t a t i o nw i l li m p r o v ea n di m p l e m e n ts e v e r a lm e t h o d sa n d a r i t h m e t i cb a s e do nt h er e s e a r c ho ft h et h e o r ya n da c h i e v e m e n t , w h i c hi s a b o u tw e bu s e ra c c e s si n f o r m a t i o nm i n i n g t h i sd i s s e r t a t i o nw i l ld e s i g n t h ed a t a b a s et op r e s e n tc o r r e s p o n d i n gd a t a t h e nc o n s t r u c taw e bu s e r a c c e s si n f o r m a t i o nm i n i n gs y s t e mm o d e lb a d eo nd a t a b a s e ,a n dr e a l i z e s e v e r a lf u n c t i o n a lm o d u l e d a t a p r e p r o c e s s i n g i st h e p r e p a r a t i o n o fw e bm i n i n g t h i s d i s s e r t a t i o nw i l lr e a l i z ed a t ac l e a n i n gi ns q l s e r v e r 2 0 0 0 ,a n di n t r o d u c e m e t h o do fd a t ac l e a n i n gb a s e do nt h ec h a r a c t e rm a t c h i n go ft h ec r a w l e r i nt h ep h a s eo fu s e ri d e n t i f y i n g ,m e t h o db a s e do nc o o k i e ,i p ,a n d a g e n ti s u s e d t h i sd i s s e r t a t i o n g i v e s t h ec o n c r e t ea r i t h m e t i co fs e s s i o n i d e n t i f i c a t i o na n dt r a n s a c t i o ni d e n t i f i c a t i o n w h i c hu s e sm a x i m u m f o r w a r d p a t h p a t t e r nd i s c o v e r yi st h ek e yt ow e bm i n i n g t h j sd i s s e r t a t i o nf i r s t c o n s t r u c t sd a t ap r e s e n t a t i o no f t h eu s e ra c c e s si n t e r e s t i n gd i m e n s i o n ,u s e s c o n c e p th i e r a r c h yt oi n d u c tt h ep a g ed a t a , t h e ne d u c e st h ed a t as e t s u i t a b l et ob pn e t w o r k s ,f m a l l yu s e sb pn e t w o r k st oc o n s t r u c t sa c l a s s i f i e r t h e nt h i sd i s s e r t a t i o ni n t r o d u c e sa n dr e a l i z e sa r i t h m e t i co f f r e q u e n ta c c e s sp a t hb a s e d0 1 1a s s o c i a t i o nr u l e sa n ds e q u e n t i a lm o d e a t l a s t , t h i sd i s s e r t a t i o nc r e a t e sam a t l a ba r i t h m e t i c w h i c hi se x t e n s i b l ea n d p r a c t i c a b l e ,t oc a l c u l a t et h er e l a t i o nm a t r i xa n d s t a t i s t i ca n a l y s i s o nt h eg r o u n do fw o r ka b o v e ,t h i sd i s s e r t a t i o np r e s e n t saw - e b m i n i n gs y s t e mm o d e lb a d eo nd a t a b a s e ,a n dd e s c r i b e sa n da n a l y s e se v e r y m o d u l e t 1 1 i sm o d e la l l o w st h a ta l lt h eo p e r a t i o nb eb a s e do nd a t a b a s e 。 a l lp a t t e md i s c o v e r e ds h o u l db ei n v o l v e di nd a t a b a s es ot h a tw ec a n m a n a g ea n da p p l yp a t t e r nd i s c o v e r e de a s i l y 眦sd i s s e r t a t i o na p p l i e sw e b u s e ra c c e s si n f o r m a t i o nm i n kt os h a n g h a ia g r i c u l t u r ei n f o r m a t i o n ,a n d f i n d ss e v e r a lu s e f u lp a t t e r n s ,髓ee x p e r i e n c ed a t ap r o v e st h a tw e bu s e r a c c e s si n f o r m a t i o nm i n i n gs y s t e mi sp r a c t i c a la n de f f e c t i v e t h ed i s s e r t a t i o nu $ e ss q ls o r v e r2 0 0 0a sd a t a b a s es y s t e m ,a n du s e s s q ls e n t e n c et oi m p l e m e n td a t ap r e p r o c e s s t h ed i s s e r t a t i o nu s e sc + + a n dm a t l a bt od e v e l o pa l lt h ef u n c t i o n w e bu s e ra c c e s si n f o r m a t i o n m i n i n gi st h ew i d e l yu s e dw e bm i n i n gt e c h n i q u e i tc a n k n o wt h ei n t e r e s t o fu s e r s ,i m p r o v es i t e s t r u c t u r e ,p r o v i d ec u s t o m i z e ds e r v i c e ,b e t t e r m a r k e t i n gp o l i c y , r e c o m m e n da n dp r e d i c tt h eu s e r sb e h a v i o r 1 1 1 em o d e l g i v e ni nt h i sd i s s e r t a t i o ni sa p p l i c a b l e r e s e a r c ho ft h i sd i s s e r t a t i o nh a s t h e o r e t i c a li m p o r t a n c ea n dp r a c t i c a lv a l u et ow e bu s e ra c c e s si n f o r m a t i o n m i n i n g m d c a n d i d a t e :z h a np e n g ( m a n a g e m e n ts c i e n c e & e n g i n e e r ) s u p e r v i s e db y :p r o f y a n gb a o a n k e yw o r d s :d a t am i n i n g , w e bm i n i n g , l o gm i n i n g ,n e u r a ln e t w o r k , a s s o c i a t i o nr u l e s ,d a t a b a s e 附件一: 东华大学学位论文原创性声明 本人郑重声明;我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的 指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包 含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:建胃建 日期:”艿年f 月 日 附件二: 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可 以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存和汇编本学位论文。 保密口,在年解密后适用本版权书 本学位论文属于 不保密d 学位论文作者签名:起同同 日期:工9 蠢事f 月石日 指导教师签名劾争哆r 日期:舞丑日 基于w e b 的用户访问信息挖掘研究 第一章绪论 1 1 课题研究的背景 随着计算机技术和信息技术的发展,信息资源呈现指数增长,最近几十年产 生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、行政办公、科 学研究等社会经济系统。面对海量数据,如何从中发现有价值的信息或知识,传 统的数据库应用已经不能胜任。人们急切的需要在数据和信息之间建立一种联 系,能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。 从技术角度来定义,数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有 噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程【1 1 。从商业角度的定义是,数据挖掘是一种新的 商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转 换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 互联网现在已经成为人们生活的一部分,它已经涉及到了娱乐、新闻、经济、 政府、军事、广告、消费、金融、教育、商务、服务等社会生活的各个方面。伴 随着互联网的飞速发展,网络上的资源也在空前膨胀,人们陷入了一个信息爆炸 的时代。由于w e b 的无结构性、动态性、异构性、复杂性等特点,其中的信息 和知识有很多都是隐藏的,不能很好的利用;同时,对于个体来说,只有部分信 息是有价值的。如何利用和发掘w e b 上的资源和隐藏的信息和知识,成为人们 研究的重点,将数据挖掘技术与w e b 结合起来,成为解决问题的一种方式,这 就是w e b 挖掘。 w e b 挖掘就是从w e b 数据挖掘,简称w e b 挖掘,是数据挖掘技术在w e b 环 境下的应用,是从因特网及其相关资源和行为中提取有用的模式和隐含信息。涉 及w e b 技术、数据挖掘、信息学、计算机语言学等多个领域,是一门综合技术。 从数据库角度出发,w e b 可以看作是一个数据库,每个站点就是一个数据源,每 个数据源都是异构的,这样就组成了一个巨大的异构数据库环境。w e b 中的数据 同时又是半结构化的,有一定的结构性,但却没有固定的模型,动态性极强。与 w e b 信息检索技术相比,w e b 挖掘是一个更具挑战性的课题,它实现对w e b 存取 模式、w e b 结构和规则,以及动态的w e b 内容的查找。一般来说,可以将w e b 基于w e b 的用户访问信息挖掘研究 挖掘分为三类:内容挖掘( w e b c o n t e n t m i n i n g ) 、结构挖掘( w e bs t r u c t u r e m i n i n g ) 和访问信息挖掘( w e bu s a g em i n i n g ) 【2 】。 1 2 课题研究动态和应用现状 简单的说,互联网是由许多链接联系起来的网页组成研。每个单独的网页都 有许多成分组成,例如文本、图片、动画以及指向其他网页的链接等;网络服务 器提供了对这些成分的访问权限。另外,一个网页可能是由一些称为框架的结构 组成的,可以把框架与网页等同起来。进行结构挖掘的原材料就是一套将文档联 系起来的超级链接。而内容挖掘的对象是则是阿页中的文本、多媒体等。结构挖 掘和内容挖掘需要一种理想化的静态网络,就是说链接和网页要像静止在某个特 定的时刻。t 日是,内容和关联性都是不断变化的,所以这样的静态的“快照” ( s n a p s h o t ) 不会很精确,也不会很新。 对结构挖掘的理想的表达方式是用图形的方式,实际上是有向图【3 】。这种理 想的图可以映射整个网络中链接所有文档的全部链接。而内容挖掘的理想表达方 式是一个索引。这个理想化的索引链接网络上每个网页中的每一个字符串、单词、 短语、声音和图像。对于访问信息挖掘来说,理想的数据表现形式应该是一个关 于客户的知识库,并且可以不断地更新网络上每一个客户的记录【3 】。每个记录应 当会记录或描述某个单独的客户与网络的交互情况,包括所访问的站点、访问的 路线、提出的问题、阅读的文档和购买的物品等。 发现用户访问信息的方法有两种。一种方法是通过对日志文件进行分析,包 含两种方式:一是先进行预处理,即将日志数据映射为关系表并采用相应的数据 挖掘技术来访问日志数据;二是直接访问日志数据以获取用户的导航信息。另一 种方法是通过对用户点击事件的搜集和分析发现用户导航行为。 w e b 访问信息挖掘一般分为三个阶段:数据预处理、模式发现、模式分析。 数据预处理阶段要把从各种数据源得到的使用信息、内容信息和结构信息转换成 模式发现阶段需要的数据模型。可以用于w e b 应用挖掘的数据包括:使用数据、 用户概貌、内容数据,结构数据。可以从w e b 服务器、客户端,w e b 代理服务 器。w 3 cw e bc h a r a c t e r i z a t i o na c t i v i t y ( w c a ) 定义抽取出的数据类型为用户、 页面文件,页面视图、点击流、一次访问用户、用户访问会话、服务器用户访问 会话、最大前向引用【4 】。 2 基于w e b 的用户访问信息挖掘研究 目前w e bu s a g em i n i n g 的研究重点主要集中于数据预处理、日志挖掘算法、 模式分析与可视化技术。在文献 5 中,b a m s h a dm o b a s h e r ,h o n g h u ad a i 等人采 用基于交易数据和基于页面试图的聚类算法,给出了用户的概貌,并给出了一个 实时个性化的模型。在文献 6 中,a j i t ha b r a h a m 和v i t o r i n or a m o s 采用了聚 类算法和遗传算法相结合的方法进行使用模式的挖掘在文献 7 中o e o r g i o s p a l i o u r a s 等利用聚类算法为大型的w e b 站点创建社区模型。邢东山,沈钧毅等在 文献 8 中给出了一种从web 日志中挖掘用户浏览偏爱路径的方法。在文献 9 中,周则顺,水俊峰等人给出了一个基于web 日志挖掘的智能站点体系模型。 在文献 1 0 中,杨炳儒给出了一个基于内在机理的w e b 访问信息挖掘系统的结构 模型。 另外值得关注的是,隐私问题在w e bu s a g em i n i n g 中也是不可回避的问题。 一方面,绝大多数的w e b 用户希望在w e b 上保证严格的匿名;另一方面,网站管 理者想方设法地对网站各方面使用情况进行统计分析,希望能够识别每一位访问 者。因此w 3 c 制定了p 3 p ( p l a t f o r mf o r p r i v a c yp r e f e r e n c e s ) ,提供了用于解决隐 私问题的一些准则。 目前应用到w e b 中的将数据挖掘方法,主要有统计方法、机器学习方法、 神经网络方法和数据库方法。统计方法中主要是贝叶斯判别方法、聚类分析( 系 统聚类、动态聚类等) 、探索性分析( 主元分析法、相关分析法等) 等。机器学习 中,决策树和遗传算法最为常用。神经网络方法具有处理非线性数据和含噪声数 据的能力,常用算法包括前向神经网络0 3 p 算法等) 、自组织神经网络( 自组织特 征映射、竞争学习等) 等,可以用于分类、聚类、特征挖掘等任务。数据库方法 主要是多维数据分析或联机分析处理( o l a p ) 方法,o l a p 系统的数据库为高 效存储静态数据构建,其存储结构的设计是为了高效检索数据,尤其是聚合数据, 比如求总和或是其他运算。 1 3 课题研究的意义 数据挖掘技术从一开始就是面向应用的,它不仅可用于特定数据库的简单检 索查询调用,而且要对这些数据进行统计、分析、综合和推理,以指导实际问题 的求解,发现事件间相互关联关系和进行预测。在商业领域中存在着大量的业务 数据,而其中有价值的信息却是隐含的,需要经过分析,才能从中提炼出支持商 基于w e b 的用户访问信息挖掘研究 业决策、提高竞争力的数据。 随着越来越多的组织、企业、政府部门加入互联网,互联网的影响已经越来 越深入到各种组织、企业和政府部门的实际业务中w e b 是互联网的主要载体, w e b 本身隐藏了大量的知识,人们在与w e b 交互过程中也产生了大量的知识, 为了获得这些信息和知识,数挖挖掘技术被广泛应用到w e b 中。 在互联网中,利用数据挖掘技术可以w e b 后台数据库进行分类处理,从而 向用户提供更快、更准、更有效的信息。在电子商务中,可通过对w e b 日志进 行挖掘,发现w e b 用户访问模式,在高度相关的始点提供快速有效的访问通道, 帮助更好地设计w e b 主页,改善市场营销决策我们可以看出,由于通用数据挖 掘系统在面对特定问题时有很大的局限,所以目前开发针对特定应用的数据挖掘 系统是主流趋势嘎 用户使用获取信息的过程中需要不停地从一个站点通过超文本链接跳转到 另一个站点,这种过程存在一定的普遍性,通过对使用记录的挖掘可以快速、自 动地发现用户的浏览模式。w e b 访闯信息的数据通常是大规模且海量,分布广泛; 而且具有丰富的内涵,记录了每个用户的访问行为,代表每个用户的个性;群体 用户的访问行为,代表群体用户的共性;是网站的设计者和访问者进行沟通的桥 梁。理解用户访问模式有这些好处:辅助改进分布式网络系统的设计性能,如在 有高度相关的站点间提供快速有效地访问通道;获得竞争对手和客户的信息;帮 助改善市场营销决策,如把广告放在适当的w e b 页上或更好地理解客户的兴趣。 1 4 论文的组织结构和内容 论文共分为七章。 第一章是绪论,介绍了数据挖掘和w e b 数据挖掘的研究现状和趋势,并讨 论了本文的研究背景和意义。 第二章是数据挖掘和w e b 数据挖掘,详细论述了数据挖掘和w e b 数据挖掘 产生的背景、基本概念、具体内容、研究现状等。 第三章是基于w e b 用户访问信息挖掘及预处理研究,分析了访问信息挖掘 的三个阶段:数据预处理、模式发现和模式分析。本章主要是数据预处理的分析 和算法介绍。 第四章是神经网络在w e b 用户访问信息挖掘中的应用,主要是基于b p 神经 4 基于w e b 的用户访问信息挖掘研究 网络的分类算法,并提出了适合于神经网络挖掘算法的用户数据模型。结合上海 市农业网的数据,通过对不同训练方法的比较,找出最佳的训练方法和隐层节点 数。 第五章是基于关联规则的频繁访问路径研究,研究并实现关联规则的算法和 频繁访问路径的算法,同时提出了一个基于m a t l a b 的挖掘页面类别关联和访问 统计的算法。 第六章是w e b 访问信息挖掘系统m l o g 及模块分析研究。本章在前面研究 的基础上提出了一个w e b 挖掘系统的模型,并介绍了各模块的功能和实现过程。 第七章是结论与展望。主要是总结本文的内容,讨论了相关方面的研究及趋 势,并提出了进一步的研究工作和方向。 本文的主要工作内容,在对数据挖掘和w 曲挖掘方面的最新学术和应用成 果研究的基础上,结合w e b 访问信息挖掘系统m l o g 的设计,针对现有系统的 不足,在数据预处理和模式发现阶段进行了几个算法的改进和实现,并提出了基 于数据库的w e b 访问信息挖掘的模型,并对各模块作了分析。 主要工作和创新点主要表现在: 研究和总结了最新的学术和应用成果,提出了基于数据库的w e b 挖掘系统 的原型,并展开对各模块的功能分析。 提出了用户访问知识库的模型,并提出了适合进行b p 神经网络分类算法的 数据库设计,实现了基于m a t l a b 的b p 神经网络的分类算法,将其应用于w e b 访问信息挖掘中。 提出了基于关联规则的频繁访问路径算法,提出了基于m a t l a b 的挖掘页面 关联和访问统计的算法,将其应用于w e b 访问信息挖掘中。 基于w e b 的用户访问信息挖掘研究 第二章数据挖掘和w e b 数据挖掘 2 1 数据挖掘技术 随着计算机技术和信息技术的发展,信息资源呈现指数增长,最近几十年产 生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、行政办公、科 学研究等社会经济系统。面对海量数据,如何从中发现有价值的信息或知识,成 为一项非常艰巨的任务。人们急切的需要在数据和信息之间建立一种联系,能够 从海量的数据中提取知识和信息的数据挖掘技术应运而生。 2 1 1 数据挖掘的概念和结构 从技术角度来定义,数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有 噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实 的、大量的、含噪声的:发现的是用户感兴趣的知识;发现的知识要可接受、可 理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题【”。 1 9 8 9 年8 月,在美国底特律召开的第1 1 届国际人工智能联合会议的专题讨 论会上首次出现k d d 这个术语,随后在1 9 9 1 ,1 9 9 3 ,1 9 9 4 年都举行了k d d 专 题讨论会。k d d 国际学术大会研究重点逐渐从发现方法转向系统应用,并且注 重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1 9 9 8 年在美国 纽约举行的第四届知识发现与数据挖掘国际学术会议上有3 0 多家软件公司展示 了数据挖掘软件产品,不少软件已经在北美和欧洲的国家得到应用。两大统计软 件公司s a s 和s p s s 也推出了各自的数据挖掘工具e n t e r p r i s em i n e r 和 c l e m e n t i n e ”。 如图2 - 1 所示,j i a w e ih a n 给出了一个典型的数据挖掘系绀“,主要有以下 几个部分组成: 数据库、数据仓库或其他信息库:对库中的数据进行清洗和整理。 数据库或数据仓库服务器:根据用户的数据挖掘请求,负责提取相关数 据。 知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。 数据挖掘引擎:有一组功能模块组成,用于特征化、关联、分类、聚类 6 基于w e b 的用户访问信息挖掘研究 分析以及演变和偏差分析等。 模式评估模块:通常使用兴趣度度量,与数据模块交互,以便将搜索聚 焦在有趣的模块上。 图形用户界面:本模块负责用户与系统之间的交互和通信。 图2 1 典型的数据挖掘系统结构【1 j 2 1 2 数据挖掘的功能和方法 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般可以分为两 类:描述与预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任 务在当前数据上进行推断,以进行预测。主要有下面六种类型的模式f ”。 概念,类描述:概念类描述就是对某类对象的内涵进行描述,并概括这类对象 的有关特征。 关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个 或多个变量的取值之间存在某种规律性,就称为关联规则。 分类和预测:分类用于找出描述并区分数据类或概念的模型( 或函数) 。 聚类分析:数据库中的记录可被化分为一系列有意义的子集,即聚类。 孤立点分析:孤立点与数据的一般行为或模式不一致,可能是由于度量或执 7 基于w e b 的用户访问信息挖掘研究 行错误导致。 演变分析:演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。 为了实现上面的数据挖掘功能,人们提出了多种实现方式与算法。数据挖掘 方法分为统计方法、机器学习方法、神经网络方法和数据库方法。统计学的方法 是数据挖掘的经典方法;机器学习中包括归纳学习方法( 决策树、规则归纳等) 、 基于范例学习、遗传算法、粗糙集等;神经网络方法具有处理非线性数据和含噪 声数据的能力,神经网络的常用算法包括前向神经网络( b p 算法等) 、自组织神 经网络( 自组织特征映射、竞争学习等) 等;数据库方法主要是多维数据分析或联 机分析处理( o l a p ) 方法。 2 1 3 数据挖掘应用及发展趋势 数据挖掘技术从一开始就是面向应用的。商业上通过使用面向c r m 数据挖 掘技术使公司可以快速的对顾客的需求做出反应。在科学研究方面,一个天文学 上的著名应用系统s k i c a t 就是相当成功的数据挖掘应用。在生物医学和d n a 数据分析上,数据挖掘可以完成异构、分布式基因数据库的语义集成。n b a 教 练就运用a d v a n c e ds c o u t 来挖掘信息,安排阵型,提高了获胜的机率。在金融投 资方面,f a l c o n 系统是信用卡欺诈估测系统,已被相当数量的银行采用,l b s c a p i t a lm a n a g e m e n t 则使用了专家系统、神经网络和基因算法技术来辅助管理多 达6 亿美元的有价证券。在互联网中,利用数据挖掘技术可以w e b 后台数据库 进行分类处理,从而向用户提供更快、更准、更有效的信息。在电子商务中,可 通过对w e b 日志进行挖掘,发现w e b 用户访问模式,在高度相关的站点提供快 速有效的访问通道,帮助更好地设计w e b 主页,改善市场营销决策。我们可以 看出,由于通用数据挖掘系统在面对特定问题时有很大的局限,所以目前开发针 对特定应用的数据挖掘系统是主流趋势【l “。 数据挖掘成为一个存挑战性的课题。数据挖掘语言的设计、高效而实用的数 据挖掘方法和系统的开发、交互和集成的数据挖掘环境的建立,如何应用数据挖 掘技术解决大型应用为问题,都是目前数据挖掘研究人员、系统和应用开发人员 所面临的问题。在系统方面,人们更加关注数据挖掘与数据库系统、数据仓库系 统、w e b 数据库系统进行集成。数据挖掘系统的理想结构是数据库与数据仓库之 间的紧密偶合,事务管理、查询处理、联机处理分析联机分析挖掘应用集成在一 基于w e b 的用户访问信息挖掘研究 个统一的框架之中。基于w e b 的数据挖掘和复杂数据类型挖掘是将来研究的重 点和难点。 2 2w e b 数据挖掘研究 因特网是目前世界上最丰富和最密集的信息来源,它涉及新闻、财经、娱乐、 教育、政府、电子商务、社区等大量信息服务,可以说是人们生活在网上的实现。 同时还包括了大量的动态链接,还有w e b 页面的访问和使用信息。如何利用w e b 上的信息资源,发现对个体有价值和感兴趣的信息,成为人们研究的重点,将数 据挖掘的技术引入w e b 中,成为解决这个问题的一种方式 2 2 1w e b 数据挖掘概述 w e b 数据挖掘,简称w e b 挖掘,是数据挖掘技术在w e b 环境下的应用,是 从因特网及其相关资源和行为中提取有用的模式和隐含信息。如果从数据库角度 出发,w e b 可以看作是一个数据库,每个站点就是一个数据源,每个数据源都是 异构的,这样就组成了一个巨大的异构数据库环境。一般来说,可以将w e b 挖 掘分为三类:内容挖掘( w e bc o n t e n tm i n i n g ) 、结构挖掘( w e bs t r u c t u r em i n i n g ) 和访问信息挖掘( w e bu s a g em i n i n g ) f 2 】。分类如图2 - 2 所示 图2 2w b b 挖掘分类图 因特网是由许多链接联系起来的网页组成【2 j 。对结构挖掘的理想的表达方式 是用图形的方式,实际上是有向图唧。这种理想的图可以映射整个网络中链接所 有文档的全部链接。而内容挖掘的理想表达方式是一个索引。这个理想化的索引 链接网络上每个网页中的每一个字符串、单词、短语、声音和图像。对于访问信 9 基于w e b 的用户访问信息挖掘研究 息挖掘来说,理想的数据表现形式应该是一个关于客户的知识库,并且可以不断 地更新网络上每一个客户的记录1 3 1 每个记录应当会记录或描述某个单独的客户 与网络的交互情况,包括所访问的站点、访问的路线、提出的问题、阅读的文档 和购买的物品等。 2 2 2w e b 结构挖掘 w e b 结构挖掘就是以超链接分析来评估网络资源,提高搜索质量。在数学语 言中,因特网的结构是一个有向图。每个网页都是这个图的一个节点,每个链接 可以看作是一条边。有向图表示由a 指向b 并不意味着b 必然指向a 。实际上, 大部分的链接都是站内的。 康奈尔大学的j o nk l e i n b e r g 提出了一种被广泛采用的技术来解释超链接中 的信息。他所利用的是这样的事实,在建立从一个站点到另一个站点的链接时, 网站的管理者会认为这个被链接的网站是重要的,并且这两个网站通常具有相似 的或相关的内容。在k l e i n b e r g 的术语中,一个链接到许多权威站点的站点称为 中枢( h u b ) ,而被许多中枢所连接的站点则成为权威( a u t h o r i t y ) t 2 1 。基于上面 的理论,k l e i n b e r g 创建了识别权威来源的算法h i t s ( h y p e r l i n k i n d u c e dt o p i c s e a r c h ) 。 有很多学术科研机构对w e b 上的超链接进行了研究和分析,并提出了许多关 于w e b 结构挖掘的算法。如p i t k o w 在他的博士论文中对大量的超链接进行了分 析和研究:w e i s s 用聚类的方法对链接结构进行了分析;s p e r m s 通过将链接结构 对应成标准关系数据库中的信息,用s q l 语句实现对w e b 的查询;k l e i n b e r g 通 过对w e b 对应关联矩阵的特征向量计算寻找a u t h o r i t i e s 页和h u b s 页【1 2 】;b r i n 和p a g e 利用页面的i n l i n k 和o u t l i n k 计算w e b 页的p a g e r a n k 值,并以此为根据 寻找权威页【1 3 】;l e m p e l 和m o r a n 则利用马尔可夫链的概念,对k l e i n b e r g 的算法 进行了改进,淡化了a u t h o r i t i e s 页和h u b s 页之间的关系,提出了一种分析超链 接结构的随机算法s a l s a 2 1 。 目前对w e b 超链接结构进行分析的主要方法是将w e b 对应成有向图或无向 图的形式,然后根据一定的启发规则,用图论的方法对其进行分析。比较典型的 成功案例有p a g e r a n k 算法,该算法是由s t a n f o r d 大学的b r i n 和p a g e 提出的, 是评价网页权威性的一种重要工具【”1 。搜索引擎g o o g l e 就是利用该算法和 1 0 基于w e b 的用户访问信息挖掘研究 a n c h o r t e x t 标记、词频统计等因素相结合的方法对检索出的大量结果进行相关度 排序,将权威的网页放在前面。p a g e r a n k 虽然计算简单且效率相当高,但也有 一定的缺陷,它完全忽略掉了网页的内容,因此,k l e i n b e r g 提出了h i t s 算法来 评定网页内容的重要性,加入内容挖掘,并以此作为核心技术解决了搜索引擎 c l e v e r 的检索结果相关度排序问魁。 结构挖掘通常应用的领域主要有:搜索引擎查询结果的排名;查找相关文档; 计算w e b 页面的r e p u t a t i o n ;确定某这点的主要内容和特征;w e bc r a w l e r 的u r l 爬行的优先顺序。目前的“权威性”主要是基于超链接自身来评价的,如何将人 的判断引入是一项值得探讨的课题。如何将文本内容之间的相关性引入,为每个 链接赋予不同的权重,即把文本内容与结构挖掘的算法结合起来。提高算法的效 率和实时性也是值得研究的方向1 6 1 2 2 3w e b 内容挖掘 w e b 内容挖掘主要是指w e b 文本挖掘和多媒体挖掘。这里主要介绍一下w e b 文本挖掘。w e b 文本挖掘主要是对w e b 上大量文档集合的内容进行总结、分类、 聚类、关联规则分析以及利用w e b 文档进行趋势预测。文本的特征表示是基础, 文本的分类和聚类是最基本也是最核心的功能f l6 】。 文本总结,就是文本摘要,它是指从文档中抽取关键信息,用简洁的形式对 文档内容进行摘要和解释,使用户无需浏览全文就可以了解文档或文档集合的总 体内容,其目的是对文本信息进行浓缩,给出其紧凑的描述。摘要算法常用的技 术有:采用词性标注,进行切词分析;用统计方法提取高频词,以确定摘要【1 7 】。 基于文本分类的w e b 文本挖掘的一般处理过程为:文档表示一特征提取一 文档分类一模型评价【1 8 1 。 文本聚类也是一种文本挖掘功能,是一种典型的无教师的机器学习问题。文 本聚类是指把一组对象结合按照相似性归成若干类别。h e a r s t 等人的研究已经证 明了“类聚假设”,即与用户查询相关的文档通常会类聚得比较近,而远离与用户 不相关的文档。目前的文本聚类算法大致可以分为两类:以g h a c 等算法为代 表的层次凝聚法( h i e r a r c h i c a lc l u s t e r s ) ;以k m e a n s 等算法为代表的平面划分法 1 7 1 。 w e b 内容挖掘常用的研究方法有:词频统计,分类算法、聚类算法、机器学 基于w e b 的用户访问信息挖掘研究 习、模式识别、元数据。w e b 内容挖掘广泛应用于w e b 信息的发现和管理。主 要的应用领域有:主题抽取和文本分类;半结构化查询语言与模式抽取;w e b 异构数据集成;学习模式或规则;基于特定知识领域的信息发现。这方面的研究 成果有:n a i v eb a y e s 模型一基于主题词词频:m a x i m u me n t r o p y 算 法- - b e y e s i a n 算法的改进;对自然语言的理解【1 9 l ;c o - t r a i n i n g 利用了超链接信息和文本内容 的组合。 2 2 4w e b 访问信息挖掘 用户使用获取信息的过程中需要不停地从一个站点通过超文本链接跳转到 另一个站点,这种过程存在一定的普遍性,通过对使用记录的挖掘可以快速、自 动地发现用户的浏览模式。w e b 访问信息的数据通常是大规模且海量,分布广泛; 而且具有丰富的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论