




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)web数据挖掘在asp模式中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要揍要随着i n t e r n e t 的飞速发展,嘲上的数据资源窳箭的丰富。每天都会有成千上万的用户在网络上浏鼢和寻找自己所需的信息。然而,由于庞大的信息量,对于每个用户来说,如何能够及时快速的发现有用信息则变得异常的困难。为了磐决上述问题,w e b 挖掘技术应运丽生。其中,面向w e b 服务器嚣恚麴w e b 嫒蠲挖掘按零茏箕褥蠲7 广丈磅究入员豹关注。w e b 丑恚数攒记录了用户对w e b 菇点的访阕信惫,对这些信怠进 予分析可以发现用户访随站点的浏览模式和访问习惯,对于页面重组,优化网站的结构,以及在电子商务智能的威用等方面都具有十分重要的意义。随糟中国经济的不断发展,中小企业起到了巨大的推动作用。a s p 模式的业务租援模式满足了中小众舭信惠鼗建设_ 萋拜辍务熬嚣要。关联攒瓣挖握是数据挖摇镁城孛一令# 豢重簧豹耩究漂蘧,冀本质是获大量的数攒巾或对象闯擒取关联径,进而揭示数纛藏砖象问的依赖关系。本文讨论了w 曲使用挖掘对日懑文件数据的采集技术、数据预处理、模式识别和模式分析技术,并针对a s p 模式的中小企业制造业信息化平台的建设与完善给出建议,并为用户提供个性化信息服务。第一、会绥了数据挖握熬越潆、实瑷豹功戆、潮内羚发震瑰敬_ 手拜掰黪采爝静一些羧零手段,还详雏余绣7w e b 挖掘静分类秘特赢;第二、探讨了简单的聚类算法,关联规则挖掘的经典算法a p r i o r i 簿法及其实现:聚类算法首先对用户类型进行分类,是厝面主要的关联规则挖掘的基础;第三、谬论了w e b 捷弱挖掇系统设计,包括嚣淼文馋采集、数据预簸毽、模式发袋秘模式分轿采霜豹技零方法;第四、对关联规则挖掘出来的模式进行分析并成用,对平台网站的优化给出建议。关键词:a s p 模式( 应用覆务爨後爨)馕嗣挖摇必鬏麓嬲na b s t r a c ta b s t r a c tw 地t h er a p i dd e v e l o p m e n to fi n t e n l e t ,d i 百t a ll e s o u l - c 沱i ni n t e r a c tb e c o m em o r e a n dm o r ea b u n d a n t t h o u s a n d su p o n t h o u s a n d sc o n s u m e f sb r o w s ea n ds e a r c hu s e f u l i n f o r m a t i o nf o rt h e m s e l v e si ni n t e m e te v e r y d a y b u t , i t sv e r yd i f f i c u l tt of i n du s e f u l i n f o r m a t i o ni nt i m ef o re a c hc o n s u m f rb e c a u s eo f t h eg i a n tc o m m u n i c a t i o ni ni n t e m e t t os o l v et h i sp r o b l e m ,w e bm i n i n gt e c h n i q u e s0 c 圮u gi ns e a s o n e s p e c i a l l y ,l o t so fr e s e a r c h e r sp a ym o r ea t t e n t i o nt ot h ew e bu s a g em i n i n gw h i c hf a c et ow e bs e r v e l l o g s w e bl o g sr e c o r dt h ev i s i ti n f o r m a t i o no fw e bs i t ev i s i t o r t h e r e f o r e w e 锄o b t a i nt h e b r o w s i n gb e h a v i o ra n dv i s i t i n gh a b i to ft h ec u s t o m e r sb ya n a l y z i n gt h ew e bl o g s ,i th a s v e r yi m p o r t a n tm e a n i n gt or e c o m b i n ep a g e s ,o p t i m i z et h es t r u c t u r eo fw e bs i t e ,i m p r o v ec a p a b i l i t yo fw e bs y s t e ma n de n h a n c et h ea p p l i c a t i o no fe l e c t r o n i cc o m m e r c e a sc h i n a e s ee c o n o m yd e v e l o p i n ga l w a y s ,s m e sp l a y e das i g n i f i c a n tr o l ei np r o m o t i n g a s pm o d e la sa p p l i c a t i o ns e r v i c ep r o v i d e rt om e e tt h es m ei n f o r m a t 0 1 1c o n s t r u c t i o na n ds e r v i c en e e d s a s s c c i a t i o nr u l e sm i n i n gi sa ni m p o r t a n tp r o b l e mi nd a t am i n i n gr e s e a r c hf i e l d t h ea i mo ft h ea s s o c i a t i o nr u l e sm i n i n gi st oe x t r a c ta s s o c i a t i o n sf r o mv a s td a t ao ro b j e c t s a c c o r d i n gt ot h ea s s o c i a t i o n sw ec a nd i s c o v e rt h ei n t e r d e p e n d e n c ea m o n go b j e c t s t h i sa r t i c l em a i n l yd i s c u s s e st h ec o o k i e sf i l ed a t ag e t t i n gt e c h n o l o g y 、d a t ap r e t r e a t m e n tt e c h n o l o g y 、m o d e lr e c o g n i t i o na n dm o d e la n a l y s i st e c h n o l o g yo fw e bl 哗m i n i n g , a n da g a i n s tt h ea p p l i c a t i o no fa s pm o d es m e sm a n u f a c t u r i n gi n f o r m a t i o np l a t f o r m sc o n s t r u c t i o na n dp e r f e c t a n dp r o v i d ep e r s o n a l i z e ds e i c e sf o ru s e 侣1 i n t r o d u c e dt h eo r i g i no fd a t am i n i n ga n dr e a l i z et h ef u n c t i o n , t h ec u r r e n ts t a t u sa n dd e v e l o p m e n ta th o m ea n da b r o a db y 翻蛐et e c h n o l o g i c a lm e a n s ;2 d i s c u s st h es i m p l ec l u s t e r i n ga l g o r i t h ma n dt h ec l a s s i c a la p r i o r ia l g o r i t h mf o rt h ea s s o c i a t i o nr u l e sm i n i n g f i r s tt h ec l u s t e r i n ga l g o r i t h mt oc l a s s i f yt y p e so fu s e r s ,i st h eb a s eo f m i n i n ga s s o c i a t i o nr u l e s ;3 d i s c u s s e dt h ed e s i g nu s a g ew e bd a t am i n i n gs y s t e m , i n c l u d i n gl o gf i l e sc o l l e c t i o n , d a t ap r e p r o c e s s i n g , m o d e la n a l y s i sa n dm o d e lf o u n dt h a tt h et e c h n o l o g yia b s t r a c tu s e dm e t h o d s ;4 m i n i n ga s s o c i a t i o nr u l e sm o d ea n a l y s i sa n da p p l i c a t i o ni np l a t f o r mf o rt h eo p t i m i z a t i o na n dg i v et h er e c o m m e n d a t i o n s k e yw o r d s :a s pm o d e ( a p p l i c a t i o ns e r v i c ep r o v i d e r ) ;w e bu s a g em i n i n g ;a s s o c i a t i o nr u l e si v学位论文独创性声明j 拈人声t 剐辨兰! 交的学位论文是,牝人在导师指导f 进行的研究工i 一:作及j 议褂的研究戏泉:据:我所知,除r 支二。 1 特别加以标注和致谢的地方外,沦文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南昌大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名( 手写) :絮、更垤1 签字目期:司年ff 月2 日学位论文版权使用授权书孓。;:z 沦乏戴1 :落j l 釜j 。i 嚣! 煎羔i 兰蔓芝生一:裔“j _ ) 乏保留、使_ _ 秽学位沧五j的规定,有权保留并向固家有关部r j 或机构送交论:文的复印件和磁蕊 :卜彳e 许论文被锈阻和借阎二本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究1 7 7 7 1 - j - 本学位论文收录到中国学位论文全文数据库,并通过网络向社会公众提供信息。服务。( 保密的学位论文在解密后适用本授权书)学位论文作者签名:、更嗡导师签名:多7 红工( 人|签字曰期:z 呷年ff 月乙日签字日期:仉7 年月z 日第1 章数据挖掘概论前言据报告1 显示,截止2 0 0 7 年6 月3 0 日,我国网民总人数达到1 6 2 亿,互联网普及率也达到了1 2 3 ;国内域名总数达到9 1 8 万,其中c n 域名注册量大幅度增长,已达到6 1 5 万个,巩固国内主流域名的地位;我国网站数量达到1 3 1 万个,目前c n 下网站数已达8 1 万,年增长率达到1 3 7 5 ,c n 网站数首次大幅度超c o m 网站数。目前,互联网已经和我们的生活密不可分,它可以说是一个巨大的、分布广泛和全球性的信息服务中心。它涉及新闻、广告、消息资讯、金融信息、教育、政府、电子商务和许1 多其他信息服务。根据有关机构统计,目前互联网的数据以几百兆兆字节来计算,而且增长速度很快,如果将这个庞大的数据库用一般的统计分析来处理的话,显然是有心无力的。所以人们面对着海量数据资源,却无法找到需要的信息,难以发现有用的知识,这就是“信息爆炸”。如何有效利用和处理大量数据,对数据进行更高层次分析提取隐含在数据中的知识日益重要,随着数据库技术、人工智能、数理统计和并行计算等技术的相互渗透与融合,数据挖掘技术( d a t am i n i n g ,d m ) 应运而生。自从数据挖掘技术成功地应用于传统数据库领域之后,人们对于数据挖掘在像互联网数据这样的一些特殊数据源的应用也寄予了厚望,并且做了许多相应的研究和发展了相应的技术。各大中小企业,不论行业,不论大小,都可以享受互联网带来的便利,网络办公、新闻浏览、信息搜索等。海量数据对于计算机来说尚且有心无力,对于众多网络用户,网络使用者、信息搜索来说更如大海捞针,w e b 数据挖掘则是解决网络用户面对庞大数据而有的放矢的有效途径和方法。近年来w e b 数据挖掘技术的崛起,有针对网络文本的挖掘,有针对网络组织结构的挖掘,还有针对用户模式的挖掘又称为w e b 使用挖掘,为解决互联网的“信息爆炸”找到了新的出路。其中,把w e b 数据挖掘技术和大型网站开发,信息服务平台建设,网络的优化和改善相结合,开发出适合用户需求的网站,为用户提供个性化服务,建设出人性化的服务平台,服务好用户是w e b 数据挖掘要研究的热门领域。报告指于中国互联网信息中心发布的第2 0 次中国互联网络发展状况统计报告1第1 章数据挖掘概论本人主耍做两方面的研究:l 、采集江西省a s p 模式中小企业制造业信息化服务平台上的用户背景信息及用户访问日志文件,作为w e b 使用挖掘的对象。2 、采用一系列数据挖掘方法,从中挖掘出感兴趣的模式、规则和知识,为a s p 模式信息化平台的优化和改善提供依据,提供用户需求的服务,为用户定制个性化信息服务。1 1 数据挖掘1 1 1 数据挖掘定义第1 章数据挖掘概论u f a y y a d 对数据挖掘的定义如下:数据挖掘是从数据集中识别出有效的、新颖的、潜在的、有用的、并最终可理解的模式非平凡过程。在上述的定义中,过程通常指多阶段的一个过程:涉及数据准备、模式搜索、知识评价,以及反复的修改求精;该过程要求是非平凡的,即要有一定程度的智能性、自动性( 例如:仅仅给出所有数据的总和就不能算作是一个发现过程) ;有效性是指发现的模式对于新的数据仍保持有一定的可信度;新颖性要求发现的模式应该是从前未知的、潜在;有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益;最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。上述的有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性( i n t e r e s t i n g n e s s ) 。在实际应用中,主要有以下六种模式:“分类模式、聚类模式、关联模式、序列模式、回归模式、时间序列模式”。而w e b 数据挖掘的主要任务是对网络中的海量数据进行抽取、转换、分析和模型化处理,这些数据的形式多种多样,包括文本文档、超文本文档、链接结构、服务器日志、浏览器日志等数据组成的数据库,可以从中提取辅助决策的关键性数据和隐藏的预测性信息。它能发掘数据中潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户。由于数据挖掘所涉及的学科领域和方法很多,在各学科领域中,数据挖掘均负有不同的发现任务,但2第1 章数据挖掘概论以下四种发现任务是共同的:分类、聚类、关联规则、异常检测,也是最重要的。数据挖掘是目前国际上数据库或信息决策领域的最前沿研究方向之一,是在对更深入、更充分的开展信息资源的迫切需求背景下产生并迅速发展起来的,引起了学术界和工业界的广泛关注。目前,商品化的k d d 软件工具己进入市场,如i b m 的i n t e l l i g e n td a t am i n e r ( i d m ) 、s g i 的m i n e s e t 等。1 1 2 数据挖掘的起源当前,在各行各业所收集的数据,其数据规模经常在数十兆字节,甚至成百上千兆字节,现代计算机技术与数据库技术,己可以支持存储并快速检索这样规模的数据库。但是,面对“堆积如山”的数据集合,无论在时间意义上还是在空间意义上,传统的数据分析手段难以应付,人们无法理解并有效地使用这些数据。另外,传统的数据分析方法( 例如:统计) ,只能获得这些数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,即不能获得重要的知识。这样,快速的数据产生与搜集技术和拙劣的数据分析方法之间形成了鲜明的对照,这需要新的技术来“智能地”和“自动地”分析这些原始数据,这就是数据挖掘( d a t a m i n i n g ) 技术产生的背景。当面临新的数据集提出的挑战时,传统的数据分析技术常常遇到实际困难。下面是一些特定的挑战,它们引发了对数据挖掘的研究。( 1 ) 可伸缩一一由于数据产生和收集技术的进步,数吉字节、数太字节甚至数拍字节的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的( s c a l a b l e ) 。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例如,当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。( 2 ) 高维性一一现在,常常遇到具有数以百计或数以千计属性的数据集,而不是数十年前常见的只具有少量属性的数据集。在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间或空间分量的数据集也趋向于具有很高的维度。例如,考虑包含不同地区的温度测量的数据集。如果温度在一个相当长的时间周期内重复地测量,则维度( 特征数) 的增3第1 章数据挖掘概论长正比于测量的次数。为低维数据开发的传统的数据分析技术通常不能很好地处理这样的高维数据。此外,对于某些数据分析算法,随着维度( 特征数) 的增加,计算复杂性迅速增加。( 3 ) 异种数据和复杂数据一一通常,传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异种属性的技术。近年来,已经出现了更复杂的数据对象。这些非传统的数据类型的例子包括含有半结构化文本和超链接的w e b 页面集、具有序列和三维结构的d n a 数据、包含地球表面不同位置上的时间序列测量值( 温度、气压等) 的气象数据。为挖掘这种复杂对象而开发的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构化文本和x m l 文档中元素之间的父子联系。( 4 ) 数据的所有权与分布一一有时,需要分析的数据并非存放在一个站点,或归属一个单位,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:如何降低执行分布式计算所需的通信量? 如何有效地统一从多个资源得到的数据挖掘结果? 如何处理数据安全性问题?( 5 ) 非传统的分析一一传统的统计方法基于一种假设一检验模式。换句话说,提出一种假设,设计实验来收集数据,然后针对假设分析数据。但是,这一过程劳力费神。当前的数据分析任务常常需要产生和评估数以千计的假设,因此希望自动地产生和评估假设导致了一些数据挖掘技术的开发。此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且它们通常代表数据的时机性样本( o p p o r t u n i s t i cs a m p l e ) ,而不是随机样本( r a n d o ms a m p l e ) 。而且,这些数据集常常涉及非传统的数据类型和数据分布。为迎接这些挑战,来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据类型的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到高潮。特别地,数据挖掘利用了来自如下一些领域的思想:来自统计学的抽样、估计和假设检验,人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。还有一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能( 并4第1 章数据挖掘概论行) 计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。图1 1 数据挖掘与其他领域之间的联系1 1 3 数据挖掘系统组成实现数据挖掘,不光是只有算法就可以,数据挖掘从源数据发掘,知识发现到应用是一个系统。1 的过程。一个典型的挖掘系统的主要成分:1 ) 数据源:提供数据;2 ) 知识库:这是领域知识,用以指导挖掘,或评估;3 ) 数据挖掘引擎:实现数据挖掘功能;4 ) 模式评估;5 ) 图形用户界面。5第1 章数据挖掘概论阻l2 给出了典型的数据挖掘系统结构1 1 4 数据挖掘的过程筑燃叫雄嬲! h 数据栅h 臌卜胁n羚| 选霾集il 曩黧li维归约il 吾磊五。li规范化il 二;i :;li 选择数量子集li 一l1 1 5 数据挖掘的功能通常,数据挖掘功能分为下面四大最常用也是最重要功能。按不同的角度来分析,描述和预测又是数据挖掘任务的两个概括性的方向:描述性挖掘任务刻划的是数据的一般特性;预测性挖掘任务在当前数据上进行推断,以进行预6第1 章数据挖掘概论测。,分类( c l a s s i f i c a t i o n ) :其目的是学会一个分类函数或分类模型( 也称作分类器) ;分类是数据挖掘应用中最常见的类问题。通常,象流失分析、风险管理、定向广告等商务问题都会涉及到分类问题。分类指根据预测属性的取值不同,将样本划分为不同的分类。每个样本都由一系列的属性构成,其中之一称为分类属性( 及预测属性) 。分类任务需要寻找一个以分类属性为参数的分类函数。在数据挖掘算法中需要给定样本目标值的算法,称作指导型算法( s u p e r v i s e da l g o r i t h m s ) 。典型的分类算法包括决策树、神经元网络、n a i v eb a y e s 。聚类( c l u s t e r i n g ) :是把一组个体按照相似性归纳成若干类别,即“物以类聚”;聚类也被称作分割。它被用于基于样本的属性,识别在样本中存在的分组。在同一分组内的样本具有更多类似的属性值。聚类算法是一个非指导型( u n s u p e rv i s e d ) 数据挖掘任务。所有的输入都同样对待,没有一个属性直接用来指导模型的构建。大多数聚类算法在构建模型时,都需要进行多次的迭代直到算法收敛。算法收敛指模型中所有分割的边界都已经趋于稳定。大致可以分为如下几类:划分方法,层次方法,基于密度的方法、基于网格的方法、基于模型的方法。聚类可用来对相关的顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。关联规贝l j ( a s s o c i a t i o nr u l e ) :关联规则是另一类常用的数据挖掘任务。关联规则也被称作购物篮分析。目的就是为了挖掘出隐藏在数据间的相互关系,从而找到客户对网站上各种文件之间访问的相互联系,即发现其关联规则,以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别一起访问的w e b 页面、理解地球气候系统不同元素之间的联系等。关联分析包括简单关联、时序关联和因果关联等,指分析数据之间的内在联系,揭示事件或实体之间的依赖性和相关性。大多数关联规则算法通过多次扫描数据集,得到经常出现的一些项集。而衡量经常出现次数的门槛( 及支持度) ,由用户在进行模型识别前指定。除了基于支持度识别经常发生的项集外,大多数关联规则算法同时还将识别关联规则,每个规则也被赋予了一个概率值,该值在数据挖掘的术语中被称作是可信度( c o n f i d e n c e ) 。异常检测( a n o m a l yd e t e c t i o n ) :在大量数据中可能包含一些数据对象,这些数据与数据的一般行为或模型不一致,异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点( a n o m a l y ) 或离群点7第1 章数据挖掘概论( o u t l i e r ) 。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率。异常分析能被用在很多领域,其中一个最主要的应用领域是信用卡欺诈识别,其它应用还包括:网络入侵识别、制造事故分析等。图1 4 给出了四种主要数据挖掘任务经过不断的发展,数据挖掘的功能得到了扩张与延伸,有如下功能成为数据挖掘的新方向:( 1 ) 演变分析:数据演变分析( e v o l u t i o na n a l y s i s ) 描述行为随时间变化的对象的规则或趋势,并对其建模;演变分析包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。( 如对股票交易数据进行数据挖掘研究可以识别整个股票市场和特定公司的股票演变规律。这种规律可以用来预测股票市场的价格的未来走向,从而帮助你对股票投资作出决策。) ( 2 ) 回归( r e g r e s s i o n ) :回归任务与分类任务很相似。它们之间的主要差异是预测属性( 分类属性) 为连续变量。回归技术在统计学领域得到了广泛的研究。线形回归( l i n e a rr e g r e s s i o n ) 和l o g i s t i c 回归( 1 0 9 i s t i cr e g r e s s i o n ) 是两种最流行的方法。其它的回归技术还包括回归树( r e g r e s s i o n 骶韶) 和神经元网络( n e u r a ln e t w o r k s ) 。回归任务可以解决很多商务问题。比如,它可以用于基于发行面值、发行方式和发行量,预测债券发行率( c o u p o nr e d e m p t i o nr a l e s ) ,或者基于温度、气压和湿度预测风速。( 3 ) 序列分析( s e q u e n c e a n a l y s i s ) 序列分析用于在一系列离散的序列数据间发现模式。一个序列由一系列离散的取值( 或状态) 构成。一个w e b 点8第1 章数据挖掘概论击序列是由一系列的u r l 构成的序列。客户的购买活动也可被模型化为一个序列。序列分析和关联规则的相似之处在于,它们所用的样本数据中,每一个样本都包含了一个项集或状态集合。其不同之处在于序列分析研究的是项集( 或状态) 间的转换,而关联规则模型研究的是项集之间的相关性。序列分析是一种相对较新的数据挖掘任务。这种类型的挖掘变得越来越重要的原因,主要来源于它所支撑的两种应用:w e b 日志分析和d n a 分析。目前,已经出现了一些不同的序列分析技术,比如m a r k o v 链。研究人员目前正积极的在这个领域寻找新的算法。1 1 6 数据挖掘技术分类目前,数据挖掘大的发展方向主要有:基于数据库、数据仓库的挖掘,文本挖掘,以及w e b 挖掘。还有从不同的视角看,数据挖掘技术有几种分类方法:根据发现知识的种类分类;根据挖掘的数据库的种类分类和根据采用的技术分类。根据发现知识的种类分类这种分类方法有:总结( s u m m a r i z a t i o n ) 规则挖掘、特征( c h a m g t e r i z a t i o n ) 规则挖掘、关联( a s s o c i a t i o n ) 规则挖掘、分类( c l a s s i f i c a t i o n )规则挖掘、聚类( c l u s t e r i n g ) 规则挖掘、趋势( t r e n d ) 分析、偏差( d e v i a t i o n ) 分析、模式( p a t t e r n a n a l y s i s ) 分析等。如果以挖掘知识的抽象层次分类,又有原始层次( p r i m i t i v el e v e l ) 的数据挖掘、高层次( h i g hl e v e l ) 的数据挖掘和多层次( m u l t i p l el e v d ) 的数据挖掘等。根据挖掘的数据库分类数据挖掘,基于的数据库类型有:关系型( r e l a t i o n a l ) 、事务型( t r a n s a c t i o n a l ) 、面向对象型( o b j e c t - o r i e n t e d ) 、主动型( a c t i v e ) 、空间型( s p a t i a l ) 、时间型( t e m p o r a l ) 、文本型( t e x t u a l ) 、多媒体( m u l t i - m e d i a ) 、异质( h e t e r o g e n e o u s ) 、数据库和遗留( l e g a c y ) 系统等。根据采用的技术分类最常用的数据挖掘技术有:1 ) 决策树:用树型结构来表示决策集合。这些决策集合通过对数据集的分类产生规则。典型的决策树方法有分类回归树( c a r t ) ,典型的应用是分类规则的挖掘;2 ) 神经网络:它从结构上模仿生物神经网络,是一种通过训练来学习的非线形预测模型。可以完成分类、聚类、特征挖掘等多种挖掘任务:9第l 章数据挖掘概论3 ) 遗传算法:是一种新的优化技术,基于生物进化的概念设计了一系列的过程来达到优化的目的。这些过程有基因组合、交叉、变异和自然选择。为了应用遗传算法,需要把数据挖掘任务表达为一种搜索问题而发挥遗传算法的优化搜索能力;4 ) 最近邻技术:这种技术通过k 个与之最相近的历史记录的组合来辨别新的记录。有时也称这种技术为k 一最近邻方法,这种技术可以用作聚类、偏差分析等挖掘任务;5 ) 规则归纳:通过统计方法归纳、提取有价值的i f - t h e n 规则。规则归纳的技术在数据挖掘中被广泛使用,例如关联规则的挖掘:6 ) 粗糙集技术:粗糙集方法u g hs e t ) 用于数据简化( 例如,删除与任务无关的样本或属性) ,数据意义评估,对象相似或差异性分析,因果关系及分类挖掘等;乃可视化:采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者,决策者可以通过可视化技术交互式的分析数据关系。1 2w e b 数据挖掘1 2 1w e b 数据挖掘概述传统数据挖掘主要面对的是以结构化数据为主的关系数据库,事务数据库,和数据仓库。随着数据处理工具、先进数据库技术以及万维网( w w w ) 技术的迅速发展,大量的形式各异的复杂类型的数据( 如结构化与非结构化数据、超文本与多媒休数据) 不断涌现。因此数据挖掘面临一个重要课题就是针对各种复杂类型数据的挖掘,这包括复杂对象、空间数据、多媒体数据、时间序列数据、文本数据和w e b 数据。w e b 数据挖掘1 3 与传统数据挖掘不同,w e b 页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达。毕竟人们原来就希望通过w e b 来实现世界各种信息的互通,在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的,异构的,无结构或者半结构的。许多新技术的产生为解决这个难题提供了一条可行的道路,如x m l 技术。还有,互联网上的数据动态性极强,页面本身的内容】0第l 章数据挖掘概论和相关的链接经常更新。而互联网面对的客户也各不相同,这些都造成了用户行为模式分析的困难度。网络信息挖掘网络内容挖掘网络结构挖网络用法挖掘信息检索观点数据库观点掘非结构化、半结半结构化、数据库形数据形式链接结构交互形式构化式的网站文本文档、超文服务器日志记录主要数据超文本文档l 链接结构本文档浏览器日志记录b a go fw o r d s 、n g r a m s 、词、短边界标志图( o e m ) 、表示图形关系型表、图形语、概念或实体、关系型数据关系型数据t f i d f 和变体、机器学习、统计p r o p r i e t a r y 算法、机器学习、统计方法i l p 、( 修改后) 的关p r o p r i e t a r y学、( 修改后) 的学、自然语言处算法理联规则关联规则归类、聚类、发掘抽取规则、发发掘高频的子结构、站点建设、改进应用归类、聚类与管理、营销、掘文本模式、建发掘网站体系结构立模式建立用户模式表1 1 从5 个方面比较了三类网络信息挖掘1 2 2 b 数据挖掘分类第1 章数据挖掘概论图1 5 是w e b 数据挖掘分类一、w e b 内容挖掘w e b 内容挖掘 4 1 是指对w c b 页面内容及后台交易数据库进行挖掘,从w e b文档内容中获取有用知识的过程,还可以对w e b 组织结构和联接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互相关联,因此可以提供一些文档内容之外的信息,利用这些信息还可以对页面进行排序,从而发现重要的页面。目前w e b 内容挖掘多数是基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似,但由于互联网上的数据基本上都是h t m l 格式的文件数据格式流,因此可以利用文档中的h t m l 标记来提高w e b文本挖掘的性能。w 曲内容挖掘可以划分为文本挖掘和多媒体挖掘两大类。( 1 ) 文本挖掘【6 】可以对w e b 上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用w e b 文档进行趋势预测等。文本数据库中存储最多的数据是所谓半结构化数据,它既不是完全无结构的也不是完全结构化的。目前信息检索技术,如文本标引方法,已经被用来处理非结构化文档。( 2 ) w e b 多媒体数据挖掘从多媒体数据库中提取隐藏的知识、多媒体数据关联、或者是其他没有直接储存在多媒体数据库中的模式。多媒体数据挖掘包括对图像、视频和声音的挖掘。多媒体挖掘首先进行特征提取,然后再应用传统的数据挖掘方法进行进一步的信息挖掘。对网页中的多媒体数据进行特征的提取,应充分利用h t m l 的标签信息。对于w e b 内容挖掘,目前主要使用的技术有两种类型:一种类型是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等。主要技术包括:文本总结、文本分类、文本聚类、关联规则。另一种类型是建立一个以机器学习为主的人工智能模型,采用的方法包括神经网络、自然法则计算方法等。w c b 内容挖掘的用途:w e b 内容挖掘目前主要可以用于权威页面的发现,以及分析相关的页面联接结构,并且通过分析这类信息来获取到更多需要的信息。例如,现在许多w e b 搜索引擎就利用w e b 内容挖掘中的w e b 超链分析算法来提高搜索的效率和准确性。二、w 曲结构挖掘由于有用的知识不仅包含在w e b 页面的内容中,而且也包含在页面的结构第1 章数据挖掘概论中。所以w e b 结构挖掘是从站点的组织结构和页面结构中推导出知识,对w e b页面间的结构进行挖掘,找出数据链的结构进行分类、聚类1 7 ,从而发现页面间的关系,进而改进搜索引擎的性能。w e b 结构挖掘的对象是w e b 本身的超链接,即对w e b 文档的结构进行挖掘。w e b 结构挖掘的基本思想是将w e b 看作一个有向图,他的顶点是w e b 页面,页面问的超链就是图的边。然后利用图论对w e b 的拓扑结构进行分析。常见的算法有h i t s ( h y p e r t e x ti n d u c e dt o p i cs e a r c h ) 、p a g e r a n k 、发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。w 曲结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。h i t s 和p a g e r a n k 分别是查询相关算法和查询独立算法的代表。三、w e b 使用挖掘w e b 使用挖掘是指借鉴数据挖掘基本思想和理论方法,从用户访问网站的记录中发现有效的、新颖的、潜在可用的以及最终可理解的知识k ( 包括概念( c o n c e p t s ) 、模式( p a t t e r n s ) 、规贝l j ( r u l e s ) 、规律( r e g u l a f i t e s ) 、约束( c o n s 仃a i n t s )及可视化c c i s u a l i z a t i o n s ) 等形式) 的非平凡过程。w e b 使用记录挖掘也叫w e b 日志挖掘或w e b 访问信息挖掘。它是通过挖掘相关的w e b 服务器中的日志文件,来发现用户访问w e b 页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力,给站点管理员提供各种利于w e b 站点改进或能够带来经济效益的信息。例如聚类分析可以把具有相似特征的用户或数据项归类来帮助进行市场决策。w e b 服务器日划1 4 】也可以结合其他的数据库,例如与电子商务、银行数据库等一同进行挖掘,以获得更详细的信息。w e b 日志数据库提供了关于w e b 的大量的信息有待挖掘。w e b 使用记录挖掘方法主要有以下两种:( 1 ) 将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;( 2 ) 将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。第1 章数据挖掘概论1 2 3w e b 使用挖掘特点互联网中的数据更新非常迅速,有些信息可能很快过时,针对当前状态的信息能够快速更新知识,提供准确的决策支特,要求w e b 挖掘具有动态性。w w w 上数据的半结构化、动态性,开放性,分布式存储、链接关系复杂等特点决定了对w e b 数据进行有效的挖掘和知识发现具有极大的挑战性【5 】。w e b 是一个动态性极强的信息源,链接信息和访问记录也在频繁地更新之中。w e b 面对的是一个广泛的形形色色的用户群体。用户群仍在不断地扩展之中。各个用户可以有不同的背景、兴趣和使用目的。大部分用户并不了解信息网络结构,不清楚搜索的高昂代价,极容易在“黑暗”的网络中迷失方向,也极容易在“跳跃式”的访问中烦乱不已和在等待信息中失去耐心。w e b 挖掘所面临的这些挑战已经推动了如何高效且有效地发现和利用互联网上资源的研究工作。1 2 4f f o b 使用挖掘流程通过前面的论述,可以了解w e b 挖掘的重要任务是对w e b 日志进行挖掘,它通过分析和研究w e b 日志中的规律来发现用户的浏览模式,保证为用户提供良好的服务质量,还可以对w e b 服务器系统的性能和结构进行改进;分析用户访问w e b 的规律;提高网站的效率。此外对那些通过w w w 发送行业新闻、广告等的企业,分析用户访问模式有助于有针对性地在某些用户经常访问的地方插播新闻和广告条。w e b 日志挖掘的研究依然遵循数据挖掘的思路。w e b 日志挖掘可以分为四个阶段:源数据收集、数据预处理、模式挖掘和对挖掘出来的模式进行分析。图1 6w e b 使用模式挖掘流程1 4第1 章数据挖掘概论1 3 本课题研究意义w e b 数据挖掘技术是近几年来的研究热点,国内外学者已经对其理论方法进行了深入的研究,但对其在具体行业中的应用却因行业性质与特点的不同而有很大的研究余地。商业竞争日益激烈的社会里,企业信息化和多点化办公逐渐成为主流。在a s p 模式下,企业通过在线享有商业软件的方式,满足了企业互动、信息随时共享的愿望,并节省了信息化的成本,是中小企业发展的契机。但是面对成千上万的中小企业信息服务个性化的要求却显得有些无能为力,中小企业抱怨没有及时准确的信息,没有满足各自企业需求的服务和产品。充分发挥w e b 数据挖掘在用户模式挖掘中发现客户的能力,满足客户个性化需求的能力,促进a s p 模式的发展和推广。在众多用户访问中,过滤无用的数据,发现有用的数据,并分析提取有价值的规律和知识是w e b 数据挖掘技术的核心。设计与实现基于用户模式的w e b 数据挖掘系统,并在a s p 模式的中小企业制造业信息化平台中应用。通过日志文件采集和预处理,进行数据挖掘算法分析和实现,得到用户评价模式分析的报告或可视化用户界面,实现对a s p 模式的中小企业制造业信息化平台的优化设计,增强网站的吸引力,为用户定制个性化的服务,对网站不断做出合理的优化与调整,以提高a s p 模式的中小企业信息化平台的效益。1 4 论文组织论文内容安排如下:第一章数据挖掘概论:详细介绍数据挖掘和w e b 数据挖掘的发展和理论;第二章w e b 使用挖掘对象的分析,并详细介绍该w e b 数据挖掘系统中所采用的数据预处理关键技术、经典a p r i o r i 算法设计和实现方法;第三章介绍了一个基于a s p 平台的w e b 日志挖掘系统的实现过程,针对该信息化平台的具体特征,详细阐述了数据预处理方法和实现,模式分析和模式发现方法;第四章介绍w e b 使用挖掘在a s p 模式中小企业制造业信息化平台中的应用:展示了将关联规则挖掘的结果应用在a s p 模式中小企业制造业信息化平台1 5第1 章数据挖掘概论中,为平台站点优化设计提供建议。,。最后,对本文的工作和研究内容做了一个全面的总结,说明了本文的不足与未来的研究发展方向。1 5 本章小结本章主要介绍了数据挖掘的起源、实现的功能、国内外发展现状和目前采用的一些技术手段。还详细介绍了w e b 挖掘的分类、分别介绍了w e b 挖掘的特点、实现流程以及一些热门的应用领域。最后对本人所作的工作,论文研究的主要内容做了介绍。1 6第2 章w e b 使用挖掘对象和算法设计第2 章w e b 使用挖掘对象和所用算法2 1w e b 使用挖掘的对象可用于w c b 日志挖掘的数据主要有以下四类:使用数据( u s a g
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 46127-2025机用套筒扳手传动附件
- 农业农村规划法解读课件
- 冒险系列小说课件
- 兴庆区安全知识教育培训课件
- 内镜知识教学课件
- 美妆营销方案范文参考(3篇)
- 化学物品安全培训教育课件
- 先民的智慧与创造课件
- 化学合成安全培训课件
- 内燃机车司机课件
- 2025年全国大学生海洋知识竞赛试题及答案(共五套)
- 2025心肺复苏课件
- 2025年资源共享授权合同
- 信息安全管理制度
- 社交心理在网络营销中的实战运用
- 2025年少先队应知应会知识考试题库
- 2025年宁波农商发展集团限公司招聘高频重点提升(共500题)附带答案详解
- 蜀道集团招聘笔试
- 历年全国普通话考试真题50套
- 2024年社区警务规范考试题库
- 农业测绘技术服务方案
评论
0/150
提交评论