




已阅读5页,还剩67页未读, 继续免费阅读
(计算机应用技术专业论文)web数据挖掘在电子商务中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a p p l i c a t i o no fw e bd a t am d 盯n g i n ad i s s e r t a t i o ns u b m i t t e di nf u l f i l l m e n to f t h er e q u i r e m e n t 3o f t h e d e g r e eo f m a s t e ro fp h i l o s o p h y f r o m s h a n d o n gu n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g y s o n gh o n g f a n g s u p e r v i s o r :p r o f e s s o rj i az u o j i e c o l l e g eo fi n f o r m a t i o ns c i e n c ea n de n g i n e e r i n g m a y 2 0 0 5 晰宝5 : j 曾化代码: 同等学力申请硕士学位论文 w e b 数据挖掘在电子商务中的应用研究 宋洪芳 申请学位级别:亟堂焦 指导教师姓名:豆往皆 书0 名称:盐墓扭廑旦基盔 职称: 堂攫 山东科技大学 二o o 五年五月 山东科技大学硕士学位论文 摘要 摘要 数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信 息技术,它融合了数据库、人工智能以及统计学等多种学科的知识,试图从数据中提取 出先前未知、有效和有用的知识。 随着i n t e m e t 的迅速发展和普及,电子商务鹳发展越来越多地引起研究者们的关注, 期望能够在这种新型的商务模式下,充分利用它的优点,获得更多的经济效益。w e b 已 经成为企业开展电子商务的基础。数据挖掘的思想和方法应用到电子商务中,帮助电子 商务的经营者从海量的信息中得到真正有价值的知识,以指导他们的决策。w e b 数据挖 掘就是在这样的背景下与电子商务结合在一起的。 w e b 挖掘是传统数据挖掘技术在w e b 环境下的应用,是从w e b 上的数据( 如w e b 目志、页面内容、页面之间的结构等) 中发现用户的浏览模式或寻找相关的w e b 页面等。 w e b 挖掘分为w e b 内容挖掘、w e b 结构挖掘和w 曲访问信息挖掘。其中,与电子商务 最为紧密的是w e b 访问信息挖掘。 本论文针对w e b 访问信息挖掘进行了较深入的研究。通过对用户访问信息进行有效 的数据挖掘,可以从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行 为,以便进一步改善网站结构,为用户提供个性化服务。本论文的主要工作表现在以下 几个方面: 1 综述了数据挖掘的主要方法、常用技术以及挖掘过程:讨论了w e b 挖掘的定义、 分类、流程、应用领域、研究方向以及当前面临的问题。 2 探讨了电子商务、电子商务推荐系统与个性化服务、电子商务中进行w e b 挖掘 的数据源、获取的知识模式以及w e b 访问信息挖掘在电子商务活动中的应用。 3 探讨了对w e b 访问日志进行预处理的方法。通过预处理w e b 访问日志,删除对 于w 如挖掘没有价值的数据,识别出用户会话,形成用户会话的数据库;运用最大向前 引用方法对用户会话进行分割,得到用户的事务数据库。 4 将关联规则挖掘技术运用到电子商务中用户访问模式的发现。传统的关联规则挖 掘算法并不适合w e b 中的用户访问模式的挖掘,所以必须改进关联规则挖掘算法。本文 针对w e b 访问信息挖掘的特点,通过改进a p r i o r i 算法,得到一种频繁路径挖掘算法。为 了提高挖掘算法的有效性,提出了一种不需要生成候选集的快速频繁路径挖掘算法。频 当蔓型垫查兰堡圭堂望篓苎 塑墨 繁路径挖掘算法可以挖掘电子商务网站中用户的访问模式,这些被发现的模式可以帮助 电子商务的经营者改进网站的设计。 5 提出了协同聚类的思想和实现的算法。通过协同聚类可以对电子商务的用户进行 分类,针对不同类型的用户进行不同的页瑟推荐,实现了电子商务的个性化服务。 最后,本文对作者所完成的工作进行了归纳和总结,并讨论了将来进一步的研究方 向。 关键词:数据挖掘,w e b 挖掘,w e b 访问信息挖掘,电子商务,电子商务推荐系 统,关联规则,路径分析,协同聚类 山东科技大学硕士学位论文 摘要 a b s h 磕c t d a t am i n i n gi sak i n do ff a i r l yn e wi n f o r m a t i o nt e c h n o l o g yt h a th a sb e e n d e v e l o p e dw i t ht h et e c h n o l o g yo fd a t a b a s ea n da r t i f i c i a li n t e l i g e n e e d a t a m i n i n gi n t e g r a t e sk n o w l e d g ef r o mm a n ys u b j e c t s s u c ha sd a t a b a s e ,a 1a n d s t a r i s t i c s ,t r y i n gt oe x t r a c tt h eu n k n o w n ,e f f e c t i v ea n du s e f u lk n o w l e d g ef r o m d a t a w i t ht h er a p i dg r o w t ha n dp o p u l a r i z a t i o ni ni n t e r n e ta n d 岍哪e l e c t r o n i c c o m m e r c eh a sc a u g h tm o r ea t t e n t i o nf r o mr e s e a r c h e r s t h e yw a n tt ot a k et h e a d v a n t a g eo ft h en e wc o m m e r c et og a i nm o r ep r o f i t w e bh a sa l r e a d yb e c o m et h eb a s is 0 ft h ee 1 e c t r o n i cc o m m e r c e b ya p p v i n gt h ea p p r o a c h e so fd a t am i n i n gjn t ot h e e i e c t r o n i cc o m m e r c e t h eo w n e ro ft h ee l e c t r o n i cc o m m e r c ec a nf i n do u tt h er e a l l y u s e f u lk n o w l e d g ef r o mt h em a s so fd a t at om a k ear i g h td e c i s i o n w e bd a t am i n i n g h a sb e e nc o m b i n e dw i t ht h ee l e c t r o n i cc o m m e r c eo nt h i so c c a s i o n i ti san e wb r a n c h o fd a t am i n i n g w e bm i n i n gi st h et r a d i t i o n a ld a t am i n i n gt e c h n o l o g yu s e di nw e b ,w h i c hc a n e x t r a c tu s e r sa c c e s sp a t t e r nf r o md a t ao nw e b w e bm i n i n gi sd i v i d e di n t ot h r e e g r o u p s :w e bc o n t e n tm i n i n g ,w e bs t r u c t u r em i n i n ga n dw e bu s a g em i n i n g o fw h i c h , w e bu s a g em i n i n gi st h em o s tr e l a t i v et oe l e c t r o n i cc o m m e r c e t h isp a p e ra d d r e s s e st h er e s e a r c ho ft h ew e bu s a g em i n i n g b ym i n i n gt h ew e b l o gr e c o r d s ,w ec a no b t a i nt h ek n o w l e d g ea b o u tu s e ra c c e s sm a n n e r sw h i c hc a nh e 】p u st of i n do u tt h eu s e ra c c e s sp a t t e r n sa n dp e r f o r mp e r s o n a li z e dw e bp a g e s r e c o m m e n d a t i o n t h e r e f o r e ,t h e r ei saf u l ls o l u t i o nf o rt h ew e bs i t eo fe l e c t r o n i c c o m m e r c e 。 t h em a i nw o r ko ft h ep a p e ri sa sf o l l o w 1 t h ep a p e ri n t r o d u c e sd a t am i n i n ga n dw e bm i n i n gt e c h n o l o g y ,i n c l u d i n gt h e i r d e f i n i t i o n ,c l a s s i f i c a t i o n ,w o r k i n gf l o w , a p p l i c a t i o n s a sw e l la st h e i r d e v e l o p i n gt r e n d s 2 t h ep a p e ra n a l y z e se - c o 衄o r c e i n c l u d i n gi t sp e r s o n a l i z e dr e c o m m e n d a t i o n s y s t e m i t sd a t as o u r c e s , i t sr e l a t e dt e c h n o l o g i e sa n di t sa p p li c a t i o nf i e l d s d i 东科技大学硕士学位论文 摘譬 3 ad a t ap r e p r o c e s s i n gm e t h o dh a sb e e nu s e d f i r s t ,t h ew e bl o gf i l em u s tb e a n a l y z e d t h er a ww e bl o gd a t an e e dt ob ec l c a n e d ,c o n d e n s e da n dt r a n s f o r m e di n o r d e rt or e t r i e v ea n da n a l y z es i g n i f i c a n ta n du s e f u li n f o r m a t i o n t h e nt h ew e b l o gr e c o r d sa r eo r g a n i z e di n t os o m et r a n s a c t i o n so rs e s s i o n si nd a t a b a s e t h e m a x i m u mf o r w a r d p a t h m e t h o dc a nt r a n s f o r mt h ed a t ai n t o t r a n s a c ti o n a l d a t a b a s e s ,w h i c ha r ea p p r o p r i a t ef o rm i n i n g 4 a s s o c i a t i o nr u l e sc a nb eu s e di no r d e rt of i n do u tu s e ra c c e s sp a t t e r n s ine 1 e c t r o n i cc o m m e r c e s i n c ei tc a dn o tp e r f e c t l yf i ti n t ot h ew e b1 0 9m i n i n g t h e t r a d i t i o n a la s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mm u s tb ei m p r o v e d t h ep a p e r p r e s e n t saf r e q u e n tp a t ha l g o r i t h mw h i c hc a nf i n d i n go u tt h eu s e ra c c e s sp a t t e r n s i ne 1 e c t r o n i cc o m m e r c e t oi m p r o v et h ee f f i c i e n c yo ft h ef r e q u e n tp a t ha l g o r i t h m ,a n e wf r e q u e n tp a t ha l g o r i t h m - o u i c ka g g r e g a t e dp a t h s e t ( q a p s ) i sg iy e nint h e p a p e r t h e s em o d e l sf o u n dc a nh e l pt h eo w n e ro ft h ee 1 e c t r o n i cc o m m e r c et oi m p r o v e t h ew e bs it ed e s i g n i n g 5 t h ep a p e rp r e s e n t san e wc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m ,w h i c hc a n c l a s s i f yt h eu s e r si ne l e c t r o n i cc o m m e r c es y s t e m ,c a np e r f o r mp e r s o n a i z e dw e b p a g e sr e c o m m e n d a t i o na n dc a np r o v i d ei n d i v i d u a ls e r v i c e f i n a l l y ,t h ep a p e rs u m m a r i z e st h ea u t h o r sw o r ka n dd i s c h s s e st h ef u t u r e w o r k k e y w o r d s :d a t am i n i n g ,w e bm i n i n g ,w e bu s a g em i n i n g 。e l e c t r o n i cc o m m e r c e , e l e c t r o n i cc o m m e r c er e c o m m e n d a t i o ns y s t e m ,a s s o c i a t i o nr u l e ,p a t h a n a l y s i s , c 0 1 l a b o r a t i v ef i l t e r i n gc l u s t e r 声明 本人呈交给山东科技大学的这篇硕士学位论文,除了所列参考文献和世所 公认的文献外,全部是本人在导师指导下的研究成果。该论文资料尚没有呈交 于其它任何学术机关作鉴定。 a f f i r m a t l o n 硕士生签名:孑老苇 日期: id e c l a r et h a tt h i sd i s s e r t a t i o n ,s u b m i t t e di nf u l f i l l m e n to ft h er e q u i r e m e n t s f o rt h ea w a r do fm a s t e ro fp h i l o s o p h yi ns h a n d o n gu n i v e r s i t yo fs c i e n c ea n d t e c h n o l o g y , i sw h o l l ym yo w nw o r ku n l e s sr e f e r e n c e do fa c k n o w l e d g e 。t h e d o c u m e n th a sn o tb e e ns u b m i t t e df o rq u a l i f i c a t i o na ta n yo t h e ra c a d e m i c i n s t i t u t 己 s i g n a t u r e :箩叼h 畸峋 d a t e : 山东科技大学硕士学位论文 绪论 1 结论 1 1 研究背景 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的 数据越来越多。爆炸式增长的数据背后隐藏着许多重要的信息,人们希望能够 对其进行更高层次的分析,以便更好地利用这些数据。融前的数据库系统可以 高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和 规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知 识的手段,导致了“数据爆炸但知识贫乏”的现象。人们迫切需要利用种崭 新的技术和工具智能地、自动地将数据转变为知识,这种情况下数据挖掘技术 就应运而生。 随着i n t e r n e t 飞速发展和普及,网上的数据资源空前丰富,以每月2 0 的速度急 剧增加,w e b 从而成为储存、发布及获取信息的最重要的载体。然而,w e b 是无结构的、 动态的、并且w e b 页面的复杂程度远远超过了文本文档,人们想要在w e b 上找到自己的 信息犹如大海捞针一般。如何才能不被w e b 上信息的汪洋大海所淹没,从中及时发现有 用的知识,提高信息剥用率呢? 解决这些问题的一个有效途径,就是将传统的数据挖掘 技术与w e b 结合起来,进行w e b 挖掘。 另外,随着i n t e r n e t 飞速发展和普及,其应用遮布科研、教育、商业、金融、军 事等各个领域,尤其是电子商务更是倍受研究者们的关注,越来越多的公司企业和金融 机构纷纷建立企业级的电子商务网站,通过计算机网络进行商务活动。新的商业环境在 为企业提供新的商机的同时,也对企业提出了新韵挑战,电子商务网站从“以站点为中 心”向“以用户为中心”发展成为必然。如何对电子商务信息进行有效的组织利用,如 何了解到顾客尽可能多的爱好和价值取向,以优化网站设计,为用户提供个性化服务, 成为电子商务发展迫切要解决的问题。尽管信息检索界开发了许多搜索引擎如y a h o o 、 g o o g l e 等,但由于覆盖率有限,查全率低;查询一般是基于关键字的,查准率欠佳: 而且不能针对特定用户的兴趣爱好给出特殊的服务,不具有个性化。w e b 挖掘就是从w e b 上的数据( 如w e b 日志、w e b 页面内容) 中发现用户的敦i 览模式或寻找相关的w e b 页丽等。 通过w e b 挖掘既可以为站点管理者、投资商和广告商等提供合理建议,也可以为用户提 供功能强大的智能搜索引擎,实现个性化服务。w e b 数据挖掘就是在这样的背景下与电 i 山东科技大学硕士学位论文 绪沦 子商务结合在一起的。 1 2 论文馈究的意义 当用户和电子商务的商家充分享受电子商务的快捷和方便时,他们同时面l 瞄着菜些 新的问题。一方面,用户面对网站上提供的琳琅满目的众多商品,他们只对其中的一部 分商品感兴趣。用户要实现一次酌购买,就必须淄蹙许多不相关的网页,在众多的商品 分类中找到自己所需要的商品;另一方面,商家面对众多的用户,不知道他们对商品的 兴趣和要求是什么。因此,电子商务的商家无法及时调整网站的页面结构,提供给所有 的用户是千篇一律的界面。缺乏个性化服务已经成为卷9 约电子商务发展的关键问题。基 于w e b 数据挖掘技术的电子商务推荐系统提供了一种有效的解决方法。 基于w e b 挖掘技术的电子商务推荐系统,运用w e b 数据挖掘技术分析用户和商品数 据,以产生相应的模式知识,指导电子商务网站实时调整网站的结构或主动为用户提供 个性化的的页面推荐或物品推荐,从而有效保留用户、防止用户流失提高系统的销售。 推荐系统的推荐质量是摊荐系统成功的关键,推荐算法是核心。随着电子商务数据 规模的迅速扩大,传统的电子商务推荐算法难以达到实时性要求,推荐精度也显著下降。 适用于大规模数据集的w e b 数据挖掘是解决这一闯题的有效途径。w e b 挖掘可以通过 挖掘w 曲曰志发现用户访问模式,与当前用户会话匹配得到推荐页面集,具有不需用 户输入过多评价信息、能动态更新等优点“1 目前w e b 挖掘的各种算法。基本上沿用了数据挖搦的研究成果。在w e b 站点上常用 的数据挖掘技术主要有路径分析、关联规则发现、序列模式发现、聚类分类技术”“。 w e b 挖掘的许多成果在电子商务中得戮应用,如改进隔站和网员设计、个性化信息推荐 等。但面对电子商务网站丰富的数据资源,著没能够充分霹用。一些传统的挖掘算法如 关联规则等并不适合w e b 中的用户访阔模式的挖掘。有待进一步改进和优化。 1 3 本文婚工作 针对电子商务面临的一些闯题和w e b 挖掘在电子商务中的应用现状,本文主要做了 以下工作: 本论文主要的工作是对w e b 访问信息挖掘技术进行了深入的研究,发现电子商务 2 山东科技大学硕士学位论文 绪论 中用户的访问模式和在电子商务中针对用户实现个性化页面推荐。 本论文的主要工作: 1 详细讨论了对w e b 访问日志进行预处理的方法。通过预处理w e b 访同日志,删 除对w e b 挖掘没有价值的数据,识别出用户会话事务,形成用户会话的数据库。运用 最大向前引用方法对用户会话进行分割,得到用户的事务数据库。 2 将关联规则挖掘技术运用到电子商务中用户访问模式的发现。传统的关联规则 挖掘算法并不适合w 曲中的用户访问模式的挖掘,所以必须改进关联规则挖掘算法。 本文针对w e b 访问信息挖掘的特点通过改进a p n o r i 算法,得到一种频繁路径挖掘算 法。为了提高挖掘算法的有效性,提出了一种不需要生成候选集钓快速频繁路径挖掘算 法。频繁路径挖掘算法可以挖掘电子商务网站中用户的访问模式,这些被发现的模式可 以帮助电子商务的经营者改进网站的设计。 3 经典的协同过滤推荐是电子商务系统应用最成功的推荐算法。但随着站点结构、 内容复杂度和用户人数的不断增加,数据极端稀巯,该算法的实时性、推荐精度显著下 降,甚至找不到任何商品可作推荐。本文认为基于聚类的协同过滤推荐算法,可以有效 提高推荐实时响应速度。通过协同聚类可以对电子商务的用户进行分类,针对不同类型 的用户进行不同的页面推荐,实现了电子商务的个性化服务。 4 给出了基于w e b 挖掘的推荐系统框架 全文组织如下:第一章简要介绍了本论文的研究背景和主要工作及组织结构等,笫 二二章介绍数据挖掘和w 硒数据挖掘理论,第三章介绥w e b 数据挖掘技术在电子商务中 的应用,第四章w e b 日志挖掘的数据预处理和事务识别,第五章基于关联规则的用户浏 览访问模式发现,是本文的重点,主要讨论频繁路径挖掘算法,第六章电子商务中个性 化的实现,第七章是本文总结,弗阐明了今后的研究方向。 【j 彖科技大学硕士学位论文 数据挖掘和、b 数据挖掘 2 数据挖撼和赫数据挖摄 2 1 数据挖掘 2 1 i 数据挖掘的产生与发壤 箍着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的 数据越来越多。爆炸式增长的数据背后隐藏着许多重要的信息,人们希望能够 对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以 高教地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和 规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知 识的手段,导致丁“数据爆炸但知识贫乏”的现象。 计算机技术的另一领域一人工智能自1 9 5 6 年诞生之后取得了重大进展。经历了 博弈时期、自然语言理解、知识工程等阶段,目前的研究热点是机器学习。机器学习是 用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后 的知识,这两者的结合促成了数据库中的知识发现( 1 ( d d :k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ) 的产生。实际上,数据库中的知识发现是一门交叉性学科,涉及到机器学习、 模式识别、统计学、智能数据库、知识获取、数据可视化、商性能计算、专家系统等多 个领域。从数据库中发现出来的知识可以用在信息管理、过程控雠、科学研究、决策支 持等许多方面。 】9 8 9 年8 月在美国底特律召开的第h 靥国际人工智能联合会议的专题讨论会上首 次出现数据库中的知识发现k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。1 这个术语,泛指 所有从源数据中挖掘模式或联系的方法,包括最开始的制定业务目标到最终的结果分 析。随后在1 9 9 1 年、1 9 9 3 年和t 9 9 4 年都举行k d d 专题讨论会,汇集来自各个领域的 研究人员和应用开发者,集中讨论曩搀缝计、海量数据分析算法、知识表示、知识运用 等问题。随着参与人员的不断增多。k d d 国际会议发展成为年会。1 9 9 8 年在美国纽约举 行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有3 0 多家软 件公司展示了他们的数据挖掘软件产品。不少软件已在j b 美、欧洲等国得到应用。 数据挖掘是k d d 最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段。 数据挖掘算法的好坏将直接影响劐所发现知识的好坏。目前大多数的研究都集中在数据 4 出塞跫塾查兰堡主兰竺丝壅鍪塑茎塑塑燮鍪篓笙型 挖掘算法和应用上。人们往往不严格区分数据挖掘和数据库中的知识发现,把两者混淆 使用。一般在科研领域中称为k d d ,而在工程领域则称为数据挖掘”1 3 7 。 在促进数据挖掘诞生、发展和应用的众多顾因中主要有四种”1 : ( 1 ) 大规模数据库,尤其是数据仓库的出现,使数据挖掘技术有了赖已生存的基 础。 ( 2 ) 先进的计算技术,尤其是网络技术和并行处理体系的发展,使大量管理人员 得以从繁重的日常信息处理工作中解脱出来,有时间和精力对激增的数据进行高层次的 分析,从中寻找那些对企业战略发展有重要意义的商业规律和市场趋势。 ( 3 ) 经营管理的需要。企业经营管理者迫切希望能够从企业积累的的大量历史数 据中找到应对目趋严重的竞争压力良方,这使数据挖掘有了用武之地。 ( 4 ) 对数据挖掘的精深计算能力。大规模数据挖掘需要复杂的、精深的计算能力, 这些精深的汁算能力主要基于统计学、集合论、信息论、认识论和人工智能等各种学科 理论,也正是这些精深计算能力,成为促进数据挖掘诞生和发展的中坚力量。 因此可以说,数据挖掘是信息技术发展到一定阶段的必然产物,是拥有大规模数据 库、高效的计算能力、经营管理的压力和有效的计算方法后的产物。是从存放在数据库、 或其他信息库大量数据中挖掘有用知识的一个过程。 2 1 2 数据挖撼的定义 1 技术上的定义及含义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的 实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程”1 。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发 现的是用户感兴趣的知识:发现的知识要可接受、可理解、可运用;并珂:要求发现放之 四海皆准的知识,仅支持特定的发现问题。即所有发现的知识都是相对的,是有特定前 提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表 达所发现的结果。 2 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务 数据进行抽取、转换、分析和其他模型化处理,从中提取辅劲商业决策的关键性数据。 5 些奎銎垫苎堂塑圭兰垫丝奎 墼塑篓塑翌翌! 塾楚笙塑 简丽言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述 为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或 验证已知的规律性,并进一步将其模型化的先进有效的方法。 2 1 3 数据挖掘的研究内容 数据挖掘所发现的知识最常见的有以下几种:。1 ( 1 ) 广义知识( g e n e r a l i z a t i o n ) 反映同类事物共同性质的知识,指类别特征的概括性描述知识。根据数据的微观特 性发现其表征的、带有普遍性的、较商层次概念的、中观和宏观的知识,是对数据的概 括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的 归约等“0 】3 ( 2 ) 关联知识( a s s o c i a t i o n ) 反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关 联,那么其中一项的属性值就可以依据其他属性值进行预测。 ( 3 ) 分类型知识( c 1 a s s i f i c a t i o n ) 反映同类事物共同性质的特征型知识和不同事物之间的差异塑特征知识。最为典型 的分类方法是基于决策树的分类方法“。 ( 4 ) 聚类型知识( c l u s t e r i n gk n o w l e d g e ) 是数据库中的记录被划分出的一系列有意义的子集,褥具有共同趋势和模式的数据 元组聚集为类,使类内各元组相似程度最高,类闯差异最大。 ( 5 ) 预测型知识( p r e d i c t i o n ) 根据历史的和当前的数据捺瓣未来数据。它根据时间序梦i j 型数据由历史的和当前 的数据去推测未来的数据,也可以认为是以时间为关键满性的关联知识。目前,时间序 列预测方法有经典的统计方法、神经网络和机器学习等。 ( 6 ) 偏差型知识( d e v i a t i o n ) 是对差异和极端特例的描述,揭示事物偏蒜常规的异常现象,如标准类外的特例、 数据聚类外的离群值等。数据库中常有一些异常记录,从数据库中检测这些偏差很有意 义。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中 观再到宏观,以满足不同用户、不同层次决策的需要。 6 坐查型茎奎堂婴主兰堡丝奎墼塑篓塑塑燮塑堑垫塑 2 1 4 数据挖掘的常用技术 人工智能、数据库技术、概率与数理统计是数据挖掘技术的三大支柱。人工智能中 一些已经成熟的方法和技术在数据挖掘中得以利用,例如:人工神经网络、决策树、遗 传算法、近邻搜索算法、规则推理、模糊逻辑等。 1 关联分析m 1 ( a s s o c i a t i o n ) 关联分析用于寻找数据库中值的相关性,目的就是为了挖獭出隐藏在数据间的相互 关系。常用的关联分析技术是关联规则和序列模式。关联规则用于寻找在同一个事件中 出现的不同项的相关性。序列模式与关联模式相仿,而把数据之间的关联性与时间联系 起来“。为了发现序歹l 模式,不仅需要知道事件是否发生,而且需要确定事件发生的 时间。 2 分类分析( c l a s s i f i c a t i o n ) 分类模式是使用一个分类函数( 分类器) ,能够把数据集中的数据项映射到某个给定 的类上。分类模式往往表现为一棵分类树。”,根据数据的值从树根开始搜索,沿着数 据满足的分支往上走,走到树叶就髓确定类别。分类分析法的输入集是一组记录集合和 儿种标记。 3 聚类分析 聚类分析法的输入集是一组宋标定的记录,也就是说此时输入的记录还没有被进行 任何分类。聚类模式把数据划分到不同的组中,组之闯的夔别尽可能大,组内的差别尽 可能小“”。 4 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) : 神经网络近年来越来越受到人们的关注,因为它为解决复杂度很大的问题提供了一 种相对来说比较有效的简单方法。神经网络可以很容易地解决具有上百个参数的问题。 神经网络常用于两类问题:分类和回归。神经网络是建立在可以自学习的数学模型的基 础之上的。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极 为复杂的模式抽取及趋势分析。神经网络系统由一系列类似予入脑神经元一样的处理单 元组成,称之为节点( n o d e ) 。这些节点通过网络彼此甄连,如果有数据输入,它们便可 以进行确定数据模式的工作。 5 决策树( d e c i s i o nt r e e s ) 决策树提供了一种展示煲似在什么条件下会得到什么值这类规则的方法。决策树是 通过系列规则对数据进行分类的过程。采用决策树,可以将数据规则可视化,其输出 7 生查! ! 垫查堂塑主兰堡笙塞 墼塑苎塑! 兰竺墼塑至型 结果也容易理解。决策树方法精确度比较高,不像神经网络那样不易理解,同时系统也 不需要长时间的构造过程,因此比较常用。 6 遗传算法( g e n e t i ca l g o r i t h m s ) 遗传算法( g e n e t i ca l g o r i t h m ) 是一种基于生物进化理论的优化技术。其基本观点 是“适者生存”,用于数据挖掘中,则常把任务表示为一种搜索问题,利用遗传算法强 大的搜索能力找到最优解。具体地讲,就是模仿生物进化的过程,反复进行选择、杂交 和突变等遗传操作,直至满足最优解。 7 最近邻居方法 将数据集合中每一个记录进行分类的方法。它的基本思想是在给定数据后,考虑在 训练数据集中与该新数据距离最近( 最相似) 的所有数据,根据这些数据所属的类别判定 新数据所属的类别。 8 统计分析法 在数据库或其它数据集的各项之间建立两种关系,即能用函数公式表示确定关系的 函数关系和不能用函数公式表示但有相关确定关系的相关关系,对它们的分析可采用回 归分析、相关分析、主成分分析等。 9 可视化技术 数据集中包含大量的数据,并且在数据集背后也暗含着各种数据模型,将如此大量 的数据可视化需要复杂的数据可视化工具。数据挖掘和数据可视化可以很好地协作。就 数据可视化系统本身而言,由于数据集中的数据量很大,很容易使分析人员变得不知所 措,数据挖掘工具可以通过可视化技术,并且根据用户的需要来表示数据,为数据分析 人员提供很好的帮助。拓宽了传统的图表功能,使用户对数摆踟祈更清楚。 2 1 5 数据挖撅的研究焦点 当前,数据挖掘研究方兴末艾,其研究与开发的总体水平相当于数据库技术在7 0 年代所处的地位,迫切需要类似予关系模式、d b m s 系统和s o l 查询语言等理论和方法 的指导,才能使d 溅d 的应用得以普遍推广。预计在本世纪,d m k d 的研究还会形成更大 的高潮,研究焦点可能会集中到以下几个方两:净 1 处理不同类型数据: 2 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像 s o l 语言一样走向形式化和标准化: 8 些至登茎查兰堡主兰丝兰奎塑塑丝塑翌塑塑塑鲨塑 3 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理鳃,也便 于在知识发现的过程中进行人机交互。数据挖掘的结果应准确地描述数据挖掘豹要求, 并易于表达。从不同的角度考察发现的知识,并以不间形式表示,用高层次语言和图形 界面表示数据挖掘要求和结果。目前许多知识发现系统和工具缺乏与用户的交互,难以 有效利用领域知识; 4 研究在网络环境下的数据挖掘技术( w e bm i n i n g ) ; 5 。加强对各种非结梅化数据的开采( d a t am i n i n gf o ra u d i o v i d e o ) ,如对文本 数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 6 交互式发现; 7 知识的维护更新。 就目前来看,将来的几个热点包括w e b 数据挖掘、生物信息或蒸因的数据挖掘、文 本的数据挖掘、多媒体数据挖掘、元数据的数据挖掘以及数据挖掘的安全和隐私等等。 圈2 1 数据挖掘的基本过程 n 晷2 1 g 拍e r i lp i 燃o f d l am i 翻嗥 2 1 6 数据挖掘的过程 数据挖掘是一个多步骤的处理过程,这个过程是交互和迭代的,其中许多过程需要 用户参与。图2 1 描述了数据挖掘的基本过程和主要步骤。 1 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后 结构是不可预测的,但要探索的问题应是寄预见的。为了数据挖掘而数据挖掘则带有盲 9 山累科技大学硕士学位论文数据挖掘和w e b 数据挖掘 目性,是不会成功的。 2 数据准备( d a t ap r e p a r a t i o n ) 这个阶段又可以细分为三个步骤:数据选取( d a t as e l e c t i o n ) 、数据预处理( d a t a p r e p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。 1 ) 数据选取:是根据用户的挖掘目的,搜索所有与业务对象有关的内部和外部数 据信息,从数据源中提取与挖掘相关的数据。 2 ) 数据预处理:是对选取出的数据进行加工,主要包括检查数据的完整性及数据 的致性,对其中噪音数据进行处理,推导计算出丢失髓数据,消除重复的记录,完成 数据类型的转换等。如果数据挖掘的对象是数据仓库,则数据预处理在形成数据仓库时 已经完成。 3 数据变换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。 建立一个真正适合挖掘算法的分析模型是数据挖掘成功韵关键。可以通过投影或数据库 的其它操作来降低数据的维数,从而减少数据挖掘时数据的数量,提高挖掘算法的效率。 3 数据挖掘( d a t am i n i n g ) 对所得到的经过转换的数据进行挖掘。除了完善选择合适的挖掘算法外,其余一切 工作都能自动地完成。整个挖掘过程应该是交互的、迭代的,即用户可以控制某些挖掘 参数,如支持度、置信度、挖掘的粒度等。数据挖掘算法是整个数据挖掘系统的核心部 分。 4 挖掘结果的表述和评价( p r e s e m a t i o na n da s s e s s ) 这个阶段分为两个步骤:结果表述( p r e s e n t a t i o n ) 和结果评价( a s s e s s ) 。 1 ) 结果表述:数据挖掘所获得的模式是用户可以理解的,可以利用可视化工具帮 助用户理解挖掘的结果。 2 ) 结果评价:数据挖掘所获得蛇模式经过用户和概器的评价。删除冗余或无关的 模式。如果用户对挖掘出的模式不满意,可以重新选择数据、挖掘算法递归地执行整个 挖掘过程,直到用户满意为止。 5 知识的同纯 将分析所得到的知识集成到业务信息系统的组织结构中去。 山东科技大学硕士学位论文 数据挖捌和w e b 数据挖掘 2 2w e b 数据挖掘 2 2 1w e b 数据挖掘概述 i n t e m e t 已经发展成为一个巨大、分布广泛、全球性的信息服务中心,它涉及教育、 政府、电子商务、新闻、广告、消费信息、金融管理和许多其它信息服务,i n t e m e t 的 普及和发展为人们带来了巨大的社会效益,也为信息科学的研究带来了巨大的机遇和挑 战。然而,虽然网络可以迅速便捷地为人们带来大量信息,但在实际应用中,当需要从 网络上获取信息时,有用信息往往会被大量的无用信息所淹没,使用户处于无所适从的 境地。与此同时,还有许多其它问题伴随而来:诸如信息真假难以辨识;信息安全雉以 保征:信息形式不一致,难以统一处理等等。因此,如何快速准确的获取所需信息、如 何获得信息之间潜在的知识以及如何提供个性化的服务,己经成为急需解决的问题。但 是,w e b 所具有的海量数据、复杂性、极强的动态性、用户的多样性和小相关性或有用 性等特点给w e b 资源发掘造成了相当的难度。 w 曲上的搜索引擎部分地解决了资源发现问题,但由于精确度不高等原因,其效果 远不能使人满意。此外,搜索引擎的目的在于发现w e b 上的资源,就w e bj 二的知识发 现而言,即使检索的速度再高,搜索引擎也不能胜任。为此,我们需要开发一种比信息 检索层次更高的新技术。但是,数据挖掘的绝大部分工作所涉及的是结构化的数据库, 很少有处理w e b 上的异质的、非结构化的信息的工作。w e b 挖掘作为数据挖掘的一个 新主题,引起了人们的极大兴趣,并在各个领域显示出了诱人的应用前景。 w 曲挖掘是从w e b 资源上抽取信息或知识的过程,它是将传统的数据挖掘的思想 和方法应用于w e b ,从w e b 文档和w e b 活动中抽取感兴趣的、潜在的、有用的模式和 隐藏信息。”j 。 w e b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美妆护肤直播教学创新创业项目商业计划书
- 农副食品健康饮食APP市场创新创业项目商业计划书
- 小学语法课教学课件下载
- 多媒体课件教学课程安排
- 护理教学指导性查房
- 皮革机械安全知识培训课件
- 非织造布创新-洞察及研究
- 2025年互联网+教育示范项目资金申请项目可持续发展路径研究报告
- 文库发布:散步的课件
- 2025年电子竞技赛事赞助市场洞察:品牌合作策略深度研究
- 2025秋人教版(2024)八年级上册地理 【教学课件】1.1.1 《疆域》
- 阿尔茨海默氏症典型病例解析
- 2025年中小学心理健康教育教师考试试题及答案
- 教师写作培训课件
- 车间虫害控制管理制度
- 中国无人机智能巡检系统行业市场前景预测及投资价值评估分析报告
- 2023-2028年中国黄油行业市场全景评估及投资前景展望报告
- 2025年福建省中考英语试卷真题(含标准答案)
- 十五五林业建设总结和十五五林业发展规划思路-0-图文
- 财务分析入门从零开始学
- 口腔实训室管理制度
评论
0/150
提交评论