




已阅读5页,还剩47页未读, 继续免费阅读
(系统分析与集成专业论文)基于web的数据挖掘及其应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 数据挖掘( d a t am i n i n g ) 是指从大型数据库或数据仓库中提取隐 含的、未知的及有潜在应用价值的信息或模式。它是数据库研究中的 一个很有应用价值的新领域,融合了数据库、机器学习、统计学等多 个领域的理论和技术。w e b 数据挖掘于与传统的数据挖掘有着很大的 不同,传统的数据挖掘技术处理的数据对象主要是结构化数据,很少 处理异质、非结构化信息,因此,对w e b 上的数据进行挖掘具有极 大的挑战性,这些使得w e b 挖掘成为数据挖掘的一个新主题。而且 w e b 挖掘为人工智能领域中数据挖掘技术的一个热点,它实现对w e b 存取模式、w e b 结构和规则,以及动态的w e b 内容的查找功能,是 一个更具挑战性的课题。 本文首先对数据挖掘及w e b 挖掘技术进行了概述,对w e b 数据 的特点作了分析和研究;其次,作为应用,首先对个性化网络教育系统 的现状做出全面概括,指出当前网络学习环境的特点和不足之处,分 析如何才能构建一个良好的个性化的网络学习环境,然后设计将w e b 挖掘技术应用于个性化网络教育中的系统架构,为进一步研究w e b 挖掘奠定了基础如何在个性化网络教育中运用w e b 挖掘技术是本 论文的重点。 关键词:数据挖掘w e b 挖掘x m l 个性化网络教育 a b s t r a c t d a t am i n i n gi st h a tp e o p l ee x t r a c ti n f o r m a t i o no rm o d e ,w h i c hi sc o n n o t a t i v e , u n k n o w na n dv a l u a b l e ,i nl a r g ed a t a b a s eo rd a t aw a r e h o u s e t h a ti san e wf i e l do f b e i n ga p p l i e dv a l u ei nd a t a b a s es t u d i e s ,c o m b i n e sm u l t i f i e l d s t h e o r ya n dt e c h n o l o g y , s u c ha sd a t a b a s e ,a r t i f i c i a li n t e l l i g e n c e ,m a c h i n el e a r n i n g ,s t a t i s t i c sa n ds o0 1 1 w e b m i n i n gh a v ev e r yg r e a td i f e r e n tf r o mt r a d i t i o n a ld a t am i n i n g ,t r a d i t i o n a ld a t am i n i n g t a r g e tm a i n l y s t r u c t u r ed a t a i ti ss e l d o mt h eo n et h a th a v eh e t e r o g e n e o u sa n d n o n - s t r u c t u r ei n f o r m a t i o nt od e a lw i t h s ot h e r ei sg r e a tc h a l l e n g ei nw e bm i n i n g t h e s em a k e sw e bm i n i n gb e c o m ean e wt h e m eo fd a t am i n i n g a n dw e bm i n i n gi s o n eo fh o t s p o to fd a t am i n i n gt e c h n o l o g yi na r t i f i c i a li n t e l l i g e n c ef i e l d s ,w h i c h i m p l e m e n t ss o m ef u n c t i o na sw e ba c c e s sm o d e ,w e bs t r u c t u r ea n dr u l e ,d y n a m i c s e a r c hf o rw e bc o n t e n t ,i sam o r ed e f i a n ts u b j e c t f k s f l y ,t h i sp a p e rs u m m a r i z e sd a t am i n i n ga n dw e bm i n i n gt e c h n o l o g y , a n a l y z e s a n ds t u d i e st h ef e a t u r eo fw e bd a t a ;s e c o n d l y , a sap r a c t i c e ,t h ep a p e rs u m m a r i z e st h e a c t u a lc o n d i t i o n so fp e r s o n a l i z e dn e t w o r ke d u c a t i o n ,p o i n t so u tt h ed e f i c i e n c yo ft h e c u r r e n tp e r s o n a l i z e dn e t w o r ke d u c a t i o ns y s t e m s ,a n ds u g g e s t sa p p l y i n gw e bm i n i n g t e c h n o l o g yi n t op e r s o n a l i z e dn e t w o r ke d u c a t i o ns y s t e m sa n dc o n s t r u c t sas y s t e m a r c h i t e c t u r ew h i c he s t a b l i s hb a s e st ot h ef n r t h e rr e s e a r c ho fw e bm i n i n g a f t e r a n a l y s i n gh o w t oc o n s t r u c tag o o di n d i v i d u a le - l e a r n i n ge n v i r o n m e n t h o wt oa p p l y w e bm i n i n gt e c h n o l o g yi np e r s o n a l i z e dn e t w o r ke d u c a t i o ns y s t e mi st h ek e yc o n t e n t o f t h i sp a p e r k e y w o r d s :d a t am i n i n g w e bm i n i n gx m lp e r s o n a l i z e dn e t w o r ke d u c a t i o n i i 湖北大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或 集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本声明的法律后果由本人承担。 做储繇高计慨扮存月日 学位论文使用授权说明 本人完全了解湖北大学关于收集、保存、使用学位论文的规定,即: 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的e p , 届u 本和电子版,并提供目录检索与阅览服务 学校可以采用影印、缩印、数字化或其它复制手段保存论文: 在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 ( 保密论文在解密后遵守此规定) :俐 签名日期:l 如6s 6 n6 日 导师签名 签名日期:扣年6 月留e i 1 1 课题的研究背景和意义 1 引言 数据挖掘是近年来随着数据库和人工智能技术的发展而出现的一种全新信息技 术,也是计算机科学与技术,尤其是计算机网络的发展和普遍使用所提出的而且迫切需 要解决的重要课题。数据挖掘是指从数据中提取模式的过程,数据挖掘的提出,让人们 最终有能力认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘技术的产生, 使得人们可以从大量的数据中发现隐含的规律,从而为决策提供更可靠的依据f ”。而 w e b 技术的出现,为i n t e m e t 的注入了一个强大的推动力。将数据挖掘应用到w e b 上, 既是数据挖掘应用扩展的结果,又是w e b 发展的需要。w e b 数据挖掘于与传统的数据挖 掘有着很大的不同,传统的数据挖掘技术处理的数据对象主要是结构化数据,很少处理 上的异质、非结构化信息,因此,对w e b 上的数据进行挖掘具有极大的挑战性,这些 使得w e b 挖掘成为数据挖掘的一个新主题,引起了人们的极大兴趣。 有统计数据表明,目前世界上每年w e b 服务器数量都以超过3 0 的比例增长, 而w e b 页面以6 0 的比例增长,在我们每个用户面前汇成了一个信息的海洋。如何能 够在最短的时间内找到最适合自己的信息,己越来越成为用户和各运行商日益关注的事 情。朗讯科技贝尔实验室总裁耐特拉瓦利在贝尔中国研究院成立时对互联网的发展做出 了7 大预言,其中有一条就是“因特网将从一个单纯的大型数据中心发展成为一个更加 聪明的高智商网络”。 如何提高w e b 服务质量,了解访问者在网站的活动情况,如何从庞大的用户群 的数据海洋中挖掘客户活动信息等,正在成为前沿研究课题之一。对于网站而言,通过 收集访问者的各方面信息,比如,浏览者是从哪个网站( 入口) 进入的( 或是直接键入u r l 地址) ;他在哪些页面中停留的时间较长以及分别是多少时间,或由此页面打开的内部 链接最多;浏览者最关心的是哪些方面的新闻和消息;他在这个网站上一共停留的时间; 以及该浏览者的所在地域等基本信息等等。 通过对这些信息的分析,可以了解访问者登陆w 曲之后的活动和规律以及w e b 工作情况,比如w e b 的结构( 频道、栏目设计) 、页面结构、技术体系、各个页面工作 效率( 页面平均浏览下载时间、发生的错误等) 等情况。根据这些信息,更新网站内容和 结构,向访问者展示其最感兴趣的内容,并且修改用户不太感兴趣的内容,去除用户从 不访问的内容,从而可以提高网站本身的服务水平和质量,使网站达到最好的性价比。 如同电视台需要得到各个栏目的收视率一样,这些信息是网站的经济命脉。对于用户来 说,从网站获得了个性化的服务,可以更快捷方便地取得自己所取的信息和相应的服务, 从而提高了自己的办事效率,可以避免在信息的海洋中迷失方向,大大减少了自己在时间 和资费两方面的开销【2 】。在未来的i n t e r n e t 发展中,网站有没有网站智能w e b 服务系 统的决策支持,将会直接影响其能否吸引用户并稳定用户的能力,实际上也,就决定了 网站能否继续在i t 行业中生存和可持续发展。所以本项目的研究具有一定的经济价值 和社会价值。 1 2 数据挖掘的现状 数据挖掘1 3 ( d a t am i n i n g ,简称d m ) 是一项从数据库中智能地、自动地提取出有价 值的知识和信息的研究技术,是知识发现( k n o w l e d g ed i s c o v e r yo f d a t a b a s e ,简称k d d ) 过 程中的一个特定的关键步骤,是当前涉及人工智能和数据库等学科的一个相当活跃的研 究领域。对数据挖掘比较公认的定义是:数据挖掘是指从大量数据中揭示出隐含的、先 前未知的并有潜在价值的信息,这些信息是人们感兴趣的知识,可表示为概念 ( c o n c e p t s ) 、规贝f j ( r u l e s ) 、规律( r e g u l a r i t i e s ) 和模式( p a t t e r n s ) 等形式。 1 9 8 9 年,第一届数据库中的知识发现国际学术会议在美国底特律市召开,首先提出 了k d d 这个术语。1 9 9 3 年a g r a w a lr 等人在a c ms i g m o d 国际数据管理会议上提出 第一个数据挖掘算法a i s l 4 ,这是一个挖掘频繁项集和关联规则的算法。1 9 9 5 年,在加 拿大召开了第一届k d d 和数据挖掘国际学术会议。从此,数据挖掘研究成为计算机领 域的一个热门课题,国内外众多研究机构和学者在数据挖掘方面发表了许多的研究成果 和论文,数据挖掘的商业软件也相继问世。 q u e s t ( h t t p :w w w a l m a d e n i b m e o m c s q u e s t ) 是i b m 公司a l m a d e n 研究中心开发 的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据 挖掘基本构件。m i n s e t ( h t t p :w w w s g i c o m ) 是由s g ig r a p h i c s 公司和美国s t a n f o r d 大学 2 联合开发的多任务数据挖掘系统,集成了多种数据挖掘算法和可视化工具。 d b m i n e r ( h t t p :d b _ c s s f u c a d b m i n e r ) 是加拿大s i m o nf r a s e r 大学开发的一个多任务数 据挖掘系统,以面向属性的多级概念为基础发现各种知识。 数据挖掘发展到现在,出现了许多技术分支和研究方向。应用不同的挖掘技术可以 挖掘出不同种类的知识。根据所挖掘的知识的形式,数据挖掘包括通用规则挖掘( g e n e r a l m l e s ) f 5 】、总结规则挖掘( s u m m a r i z a t i o nr u l e s ) 6 1 、特征规则挖掘( c h a r a c t e r i z a t i o nr u l e s ) 7 】、 关联规则挖掘( a s s o c i a t i o nr u l e s ) 、分类挖掘( c l a s s i f i c a t i o n ) 、聚类挖掘( c l u s t e r i n g ) 、序 列模式分析( s e q u e n c ep a r e ma n a l y s i s ) 、时间序列分析( t i m es e r i e sa n a l y s i s ) 、趋势分析 ( t r e n da n a l y s i s ) 嗍和偏差分析( d e v i a t i o na n a l y s i s ) 9 1 等。 1 3 本文工作 本文首先研究了数据挖掘的产生与发展,数据挖掘的原理与应用,特别是数据挖掘 中的算法;接着具体研究了数据挖掘在w 曲上的发展,特别是在网络教育上,个性化 是它的应用的一个方面,算法上用到了关联规则算法,而且对关联规则算法作了具体研 究并且实现了对传统算法作了改进的算法。作为应用,我们对个性化网络教育上的w e b 挖掘作了一个系统架构,由于时间关系,只实现了部分模块,今后还有许多工作要做, 从整个系统架构来看,个性化网络教育上的w e b 挖掘应用是可行的。 3 2 数据挖掘出现的必然性及其应用发展 2 1 数据挖掘的产生与发展 数据挖掘是人工智能和数据库中的重要研究领域,也是信息系统智能化的手段之 一。它是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则, 这项规则涵盖了数据库中一组对象之间的特定关系,揭示出了一些有用的信息,为决策、 策划、预测等提供依据。通过数据挖掘,有价值的知识、规则或高层次的信息能从数据 库的相关数据集合中抽取出来,并从不同的角度显示,从而使大型数据库作为一个丰富 可靠的资源,为知识归纳服务。数据挖掘又称为从数据库中开采知识、知识抽取、数据 考古、数据发掘、数据分析等。数据挖掘发现的知识通常是以概念( c o n c e p t s ) 、规则 ( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 、约束( c o n s t r a i n t s ) 、可视化( v i s u a l i z a t i o n s ) 等形式表现。这项知识可以直接提供给决策者,可以辅助决策过程,或者提供给领域专 家,修正专家己有的知识体系,也可以作为新知识转存到相应系统的知识存储机构中, 比如专家系统( e x p e r ts y s t e m ) 、规则库( r u l e b a s e ) 等。数据挖掘是目前国际上数据库和 信息决策领域的前沿研究方向之一,它已引起学术界和工业界很大的关注和重视。数据 挖掘的特点有【i o 】: ( 1 ) 处理的数据规模十分巨大。 ( 2 ) 查询,一般是用户提出的即时查询,往往不能形成精确的查询要求,需要靠数 据挖掘技术寻找其可能感兴趣的东西; ( 3 ) 在一些应用中,由于数据变化迅速,原有的挖掘结果可能很快就过时了,因此 要求数据挖掘系统能够快速做出反应以提供决策支持,数据挖掘不但要发现潜在的规 则,还要管理和维护规则,而规则是动态的,当前的规则只能反映当前状态的数据库特 征,随着数据不断更新。规则需要随之更新; ( 4 ) 数据挖掘中规则的发现主要基于大样本的统计规律,所以发现的规则不必遵循 所有的数据、但达到某一阚值时便可以认为有此规律; 4 数据挖掘的对象不仅是数据库,也可以是文件系统或其他任何组织在一起的数据集 和w w w 信息资源,还可以是数据仓库等。 2 2 数据挖掘的分类 随着数据挖掘技术的日趋成熟,数据挖掘系统不断涌现,人们开始对数据挖掘方法 和系统进行分类。一般地,可基于四方面来对数据挖掘进行分类:数据库的种类、使用的 技术、发现知识的种类和数据挖掘的深度 1 l 】。 根据数据挖掘所作用的数据库种类不同,可以把数据挖掘分为如下几种:对关系数据 库的挖掘、对事务数据库的挖掘、对面向对象数据库的挖掘、对演绎数据库的挖掘、对 空间数据库的挖掘、对时间数据库、多媒体数据库、异质数据库等的挖掘。 根据挖掘方法的不同可分为自发知识挖掘、数据驱动挖掘、查询驱动挖掘和交互式 数据挖掘。根据数据挖掘途径可分为基于归纳的挖掘、基于模式的挖掘、基于统计学的 挖掘或数学原理的挖掘、多种技术混合的挖掘等。 根据所发现知识不同可分为特征规则( c h a r a c t e r i z a t i o n ) 、偏差规则 ( d i s c r i m i n a t i o n ) 、分类规则( c l a s s i f i c a t i o n ) 、关联规则( a s s o c i a t i o n ) 、聚类规则 ( c l u s t e r i n g ) 、预测( p r e d i c t i o n ) 等。 ( 1 ) 特征规则是指从学习任务相关的一组数据中提取出关于这组数据的特征式,这 些特征表达了该数据集的总体特征。 ( 2 ) 偏差规则是指通过对学习数据和对比数据的处理,提取出关于学习数据的主要 特征,这些特征可以将学习数据和对比数据区分开。 ( 3 ) 分类是指根据数据的不同特征,将其划分为不同的类,这些类是事先根据关联 数据建立起来的。 ( 4 ) 关联规则挖掘是发现数据对象间的相互依赖关系。 ( 5 ) 聚类规则是根据所处理的数据的一些属性,对数据进行分类,这种分类是基于 当前所处理的数据,经过分类以后的数据在各类之间其相似程度很小,而在一类的内部, 其数据的相似程度很高。分类结束后,每类中的数据由唯一的标志进行标识,类中数据 的共同特征也被提取出来用于对该类的描述。 ( 6 ) 预测规则是通过对数据分析处理,估计数据库中某些丢失数据的可能值或一个 数据集中某个属性值的分布情况。 5 根据挖掘的深度不同,又可以分成以下几类:在较浅的层次上,利用现有数据库管理 系统的查询检索及报表功能与多维分析、统计分析方法相结合进行联机分析处理 ( o l a p ) ,从而得出可供参考的统计分析数据。在较深的层次上,从数据库中发现前所 未知的隐含的知识。o l a p 和d m 都是从数据库中抽取有用信息的方法,就决策支持的 需要而言两者可以起到相辅相成的作用。o l a p 可以作为一种广义的数据挖掘方法,它 旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。 2 3 数据挖掘的方法 大多数数据挖掘的方法都是基于机器学习、模式识别、统计学等领域。其方法有: ( 1 ) 关联规则的挖掘 关联规则是数据中一种简单但很实用的规则,反映大量数据中项集之间有趣的关联 或相关联系。关联规则的挖掘源自购物篮分析的需要。给定一个交易数据库,每笔交易 对应于数据库中的一条记录,包含客户在一次交易中所购买的全部商品,称商品为项目 ( i t e m ) ,每笔交易就是一个项集( i t e m s e o 。关联规则具有如下形式:x = _ y ,其中x i , y 都是项目集,其含义是:用户在购买x 的同时也会购买y 。在数据库的知识发现中,关 联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式,通过量化的数 值描述物品甲的出现对物品乙的出现有多大的影响。支持度和置信度是关联规则的两个 重要指标,表明项集在数据库中频繁出现的程度及由项集导出的规则的可信程度。关联 规则的开采就是要发现所有满足用户定义的最小支持度和最小置信度的规则。在市场营 销中,由于p o s ( p o i m o f s a l e s ) 和条形码技术的广泛应用,产生了大量关于用户购买商 品的交易数据。这些数据中隐含着关于用户购买行为的一些重要信息,正适合应用数据 挖掘。商业公司通过挖掘这些数据中的关联规则,可以识别客户的购买模式,对顾客是 否会购买某种新商品进行预测,以便有针对性地对顾客进行推销,进而,为顺应市场发 展提供正确的商业决策,促进销售,最终提高企业竞争力。 发现关联规则的算法属于无监督学习的方法。发现频繁项集是关联规则挖掘应用中 的关键技术和步骤,也是影响数据挖掘效率的关键问题。 解决关联规则问题的原始算法是r a k e s h a g r a w a l 等人提出的m s 算法。在a i s 算法中 关联规则的挖掘分为两步:首先计算所有的频繁项集( f r e n q u e mi t e m s e t s ) ,即满足用户 定义的最小支持度的所有项集,而后,在频繁项集的基础上生成满足用户定义的最小置 6 信度的所有关联规则。第二步相对容易和直观,而第一步由于产生的数据量巨大,具有 很大的挑战性,其中算法的效率是关键,故大多数算法都集中在第一步的问题上。为了 发现所有的频繁项集,a i s 算法需要对数据库进行多次扫描,直到没有频繁项集产生为 止,其缺点是算法生成的候选项集过大。为改进a i s 算法,h e i k k im a r m i l a 等人提出了o c d 算法 1 2 1 ,o c d 算法利用上一次搜索的组合信息来减少本次产生候选项集的数量。r a k e s h a g r a w a l 等人又在文献 1 3 1 中提出了著名的a p r i o r i 算法,改进t a i s 算法中支持度的计算方 法,利用支持度的单调性来对候选项集进行剪枝,从而大大减少了候选项集的数量和计 算时间,其后的许多关联规则算法都是基于a p r i o r i 算法或者是其变种。j o n g s o op a r k 等 人提出了一个基于h a s h 技术的d h p 算法【h 】,利用h a s h 技术有效改进候选频繁项集的生成 过程,减少了比l 的存取时间。a s h o k as a v a s e r e 等人于1 9 9 5 年提出了对交易数据进行分区 的p a r t i t i o n 算法【b 1 ,p a r t i t i o n 算法首先把数据库分成多个分区,然后在每个分区上寻找频 繁项集,最后得到整个数据库上的频繁项集。h a r m ut o i v o n e n 等人提出了利用随机抽样 技术的算法s 锄p i i n g 【1 6 1 ,从数据库中随机抽样出一部分数据寻找频繁项集,再在整个数 据集合中寻找频繁项集。s e r g e yb r i n 等人提出了对候选项集进行动态计算的d i c 算法【堋。 c h r i s t i a nh i d b e r 提出了在线计算频繁项集的c a r m a 算法【1 8 】。 传统的关联规则挖掘算法,一般用来发现数据库中支持度大于指定的最小闽值的规 则。实际上,支持度小于某个指定阈值的规则也是有意义的,它们代表了另一些出乎人 们意料的规律,用传统的算法无法发现这些规则,称它们为意外或例外规贝u ( e x e e p t i o n r u l e s ) ,例外规则常常有很大的价值。h o s c h k apm 和k l o s g e nw 提出了e x p l o r a 系统 【19 来发现例外规则。 经典的关联规则是指布尔类型的规则,然而现实生活中除了布尔属性外,还有数值 属性和分类属性的数据。为处理这类属性的数据,提出了数值属性的关联规则的开采问 题。r a m a k r i s h n a ns r i k a n t 等人提出把数值属性和分类属性映射成布尔属性的数据,然后 再在此基础上利用传统的关联规则方法来挖掘这些属性的数据 2 0 1 。 简单利用最小支持度和最小置信度来挖掘关联规则,得到的规则数量将会很大,而 且其中大多数规则对用户来讲是无用的或者是用户不感兴趣的。而且,传统的关联规则 挖掘过程缺乏用户的参与和控制,用户只能被动地等待挖掘的结果。为此,提出了许多 限制或约束关联规则的方法,以减少算法生成的规则数量。r a m a k r i s h n a ns r i k a n 等人研 究了在布尔表达式的约束下进行多层关联规则挖掘的问题【2 ”。r a y m o n d t n g 等人提出 了一个用户参与的方案,并提出一个基于约束的关联规则开采算法c a p 阻】。 7 ( 2 ) 分类分析 分类分析法的输入集是一组记录集合和几种标记,分类首先为每一个记录赋予一个 标记,即按标汜分类记录,然后检查这些标定的记录,描述出这些记录的特征。分类要 解决的问题是为一个事件或对象归类,既可以用于分析已有的数据,也可以用来预测未 来的数据分类通过分析已知分类信息的历史数据总结出一个预测模型,用于建立模型的 数据称为训练集,训练集可以是己经掌握的历史数据,也可以是通过实际的实验得到的 数据。 ( 3 ) 聚类分析】 聚类分析法的输入集是一组未标定的记录,也就是说此时输入的记录还没有被进行 任何分类。聚类的目的是根据一定的规则合理地划分记录集合,并用显式或隐式的方法 描述不同的类别。而所依据的规则是由聚类分析工具定义的。 ( 4 ) 多层次数据汇总归纳 数据库中的数据和对象经常包含原始概念层的详细信息,将一个数据集和归纳成高 层次信息的技术被称为数据汇总。主要有数据立方体和面向属性两种方法。数据立方体 ( 多维数据库) 的主要思想是将那些经常查询、代价高的运算,如c o u n t ,s u m 等汇总函 数具体化,并存储在一个多维数据库中为决策支持、知识发现及其他应用服务。而面向 属性方法是用一种类s q l 数据挖掘查询语言表达查询要求、收集相关数据,并利用属 性删除、概念层次树、门槛控制、数据传播及集合函数等技术进行汇总。汇总数据用汇 总关系表示。可以将数据转化为不同类型的知识,或将其映射成不同的表,并从中抽取 特征、判别式和分类等相关规则。 ( 5 ) 决策树方法 利用信息论中的互信息( 信息增益) 寻找数据库中具有最大信息量的字段。寻找树的 一个节点,再根据字段的不同取值建立树的分支,在每个分支子集中重复建立树的下层 结点和分支。构造决策树的输入是一组带有类别标记的例子,构造的结果是一颗二叉或 多叉树。= 叉树的内部结点( 非叶子结点) 一般表示为一个逻辑判断,如形式为( a i - - - v i ) 的 判断,其中a i 是属性,v i 是该属性的某个取值:树的边是逻辑判断的分支结果。多叉树 ( i d 3 ) 的内部结点是属性,边是该属性的所有取值,有儿个属性就有几条边。树的叶子 结点多是类别标记。构造决策树的方法是采用自上而下的递归构造。 ( 6 ) 神经网络方法 模拟人脑神经元方法,以m p 模型和h e b b 学习规则为基础,建立三大类多种神经 8 网络模型:前馈式网络、反锁式网络、自组织网络。 ( 7 ) 覆盖正例排斥反例方法 利用覆盖所有正例排斥所有反例的方法来寻找规则。 ( 8 ) 粗集方法 在数据库中将行元素看成对象,将列元素看成属性( 条件属性和决策属性) 。等价关 系r 定义为不同对象在某个或几个属性上取值相同,满足等价关系的对象组成的集合被 称为等价关系r 的等价类。根据条件属性上的等价类和决策属性上的等价类之间的关系 来确定是否生成规则。 ( 9 ) 遗传算法 一种新的优化技术,基于生物进化的概念设计了一系列的过程来达到优化的目的。 这些过程有基因组合、交叉、变异和自然选择。为了应用遗传算法,需要把数据挖掘任 务表达为一种搜索问题而发挥遗传算法的优化搜索能力。 ( 1 0 ) 公式发现 在工程和科学数据库中,对若干数据项进行一定的数学运算,求得相应的数据公式。 ( 】) 统计分析方法 简单的统计分析操作通常在查询和生成报表时执行,多维分析也会用到。验证较复 杂的假设,需要进行统计操作并辅之以数据可视化工具。因为经常需要领域知识,因此, 象s p s s 和s + 之类的统计工具是全面开放的,提供的函数库可以被大型软件所引用,如 用于基于发现的模型。 ( 1 2 ) 模糊论方法 根据模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊聚 簇分析。系统复杂性越高,精确能力就越低,模糊性就越强。 ( 1 3 1 可视化技术 拓宽了传统的图表功能,使用户对数据的分析更清楚。 2 4 数据挖掘的流程 现代数据挖掘主要运用的是“模式提取”形式,它主要有三种方法,这三种方法混 合起来用才能发挥其最大的效应。例如把“逻辑”,“等式”和综合分析结合起来运用。 对于不同的商业需求,根据其不同的数据,应该采用不同的数据挖掘方法来实现【l 】a 9 数据挖掘的流程可归纳为: $ 发现:在事先没有假定想法与问题的情况下,在数据挖掘中找出隐含的信息模式。 十预言:利用“发现”出来的模式来预测未来。 特例:在“发现”之后,在给定的门限内找出那些背离正常情况的东西。 2 5 数据挖掘的应用 数据挖掘技术目前主要应用在以下几个方面: 1 针对生物医学和d n a 数据分析的数据挖掘【l 】 d n a 分析的研究成果导致了对许多疾病和残疾的基因成因的发现,以及对疾病的 诊断、预防和治疗的新药物、新方法的发现。生物医学的研究中一项具有极具挑战性的 问题是从人类约1 0 0 ,0 0 0 个基因中找出导致各种疾病的特定基因序列模式。由于数据挖 掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为d n a 分析 中的强有力工具。 2 针对金融数据分析的数据挖掘 数据挖掘技术提供用户按月,按地区,按部门,以及按其他因素,察看负债和收入 的变化情况,同时提供最大、最小、总和、平均和其他统计信息。数据挖掘还在贷款偿 还预测、客户信用政策分析、目标市场客户分类与聚类等方面发挥重要的作用。 3 电信业中的数据挖掘 电信业已经迅速从单纯的提供市话和长话服务演变为提供综合电信服务,如语音、 传真、寻呼、移动电话、图像、电子邮件、计算机和w e b 数据传输,以及其他数据通 信服务,因此利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、 更好地利用资源和提高服务质量是非常有必要的。 4 企业市场营销 在企业市场营销领域中,数据挖掘以市场营销学的市场细分原理为基础,其基本假 定是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及消 费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消 费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识 别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规 模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。 1 0 5 风险评估领域 保险是一项风险业务,也是风险评估技术的最重要的应用,保险公司的一个重要工 作就是对风险领域进行鉴定和分析,即风险评估。风险评估对保险公司的正常运作起着 至关重要的作用,保费和保单的设计都需要比较详细的风险分析。通过数据挖掘技术, 可以从过去的保单及其索赔信息出发,利用决策树的方法,寻找保单中风险较大的领域, 从而得出一些实用的风险规则,对保险公司的工作起到指导作用,帮助保险公司规避风 险。 6 i n t e m e t 信息搜索 i n t e r n e t 的快速发展,使得w e b 上信息量无比丰富。但w e b 上的数据信息不同于数 据库:数据库有规范的结构( 如关系数据库3 - 维表结构) ,毕竟数据库的创建是为了机 器可读,因此有统一的格式,是一种结构化的文件;而w e b 上的信息则不然,它主要是 文字文档和多媒体文档,它的初始创建目的是为了供人类阅读、使用,因而文档结构性 差,如纯自然语言文本则毫无结构可言。因此,w e b 上的数据挖掘和知识发现需要用到 很多不同于常规数据库开采的技术。 7 i n t e m e t 智能站点与电子商务 i n t e m e t 信息挖掘是一种在线联机数据挖掘工作,与之相对应的另一种与i n t e m e t 有 关的数据挖掘任务就是用户访问模式分析。用户使用w e b 获取信息的过程中,需要不 停地从一个w e b 站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性, 发现此规律的工作就是w e b 用户访问模式发现。这是一种完全不同于上述所讲的 i n t e m e t 信息挖掘、资源发现的任务,分析、理解w e b 上的用户访问模式有这些好处: 辅助改进分布式网络系统的设计性能,如在有高度相关的站点间提供快速有效的访问通 道胄b 帮助更好地组织设计w e b 主页:通过分析特定用户的访问模式和浏览行为,得出 其兴趣爱好,然后动态调整、定制站点结构与页面内容,向用户推荐它们可能感兴趣的 内容,进而创建智能w e b 站点( i n t e l l i g e n tw e bs i t e ) ,帮助改善市场营销决策,如把广 告放在适当的w e b 页上以吸引更多的“眼球”。基于智能w e b 站点基础上的电子商务网 站,能够根据用户的特点,为其提供如自动向用户推荐其感兴趣的、可能会购买的商品 等个性化服务,实现“定向营销”,这将大大节省了营销成本,提高了营销效果,促进 电子商务业的发展。 8 天文学和空间科学 美国加州理工学院喷气推进实验室( 即设计火星探测器漫游者号的实验室) 与天文 1 1 科学家合作开发的s k i c a t ( s k yi m a g ec a t a l o g i n ga n da n a l y s i st 0 0 1 ) ,是用于帮助天文 学家发现遥远的类星体的一个工具。s k i c a t 是第一个成功的数据挖掘应用,也是人工 智能技术在天文学和空间科学上第一批成功应用之。利用s k i c a t ,天文学家己发现 了1 6 个新的极其遥远的类星体,该工具能帮助天文工作者更好地研究类星体的形成以 及早期宇宙的结构。 9 个性化网络教育中的数据挖掘1 2 3 】 数据挖掘技术目前并没有在个性化网络教育领域里得到广泛的关注和应用,这主要 是由于个性化网络教育领域和以上各种领域存在着诸多不同之处。在互联网资源极度丰 富的今天,如果一个网站得不到用户的肯定,网站中的信息或服务不被用户使用,网站 就失去了存在的意义。由于个性化服务在满足用户需求方面可以达到前所未有的深度, 只要网站在建设过程中对目标群体有准确的细分和定位,对他们的需求有全面准确的总 结和概括,就可以有效地吸引用户,使网站的社会效益和经济效益都得到较大的提高。 可以说,数据挖掘的前景十分广泛,随着我们研究的深入,我们将会深深的感到它 的应用。 难怪比尔盖次预言:数据挖掘,模式识别,语音处理是计算机未来最有前途的三 大技术。 2 6 数据挖掘的新技术及新应用 1 基于代理( a g e n t ) 的系统架构 2 4 j 由于数据挖掘系统所需的数据都存储在数据库中,数据挖掘系统一般不直接从界面 获取用户因此需要将用户信息获取与数据挖掘分开。这样传统的两层网站架构就并不能 满足数据的系统架构模型,该模型将信息获取和分析分开,适合数据挖掘的需要 近年来代理( a g e n t ) 技术得到了迅猛地发展,其展现出十分诱人的应用前景。一般 来说a g e n t 主要具有自治性( a u t o n o m y ) 、社会性( s o c i a la b i l i t y ) 、反应性( r e a c t i v i t y 、能 动i 生( p r e a c t i v e n e s s ) 四个基本特性: 自治性:代理可以在没有人或其它代理直接干预的情况下运作,而且对自己的行 为和内部状态有控制能力: 社会性:代理和其它代理可以通过代理语言进行信息交流; 反应性:代理能够理解周围的环境,并对环境的变化做出实时的响应: 1 2 能动性:代理不仅简单地对其环境做出反应,也能够通过接受某些启动信息,表 现出有目标的行为: 2 基于并行处理的数据挖掘 由于数据的迅猛增长,我们挖掘的效率也要加强,并行处理包括并行处理硬件和并 行算法两个方面。这是我们提高挖掘效率的强有力的后盾。我们的科研工作者已经在这 方面做了很多研究与实践,并取得了很多的成就。我们将加强这方面的工作。 2 。7 数据挖掘面临的挑战及要求 数据挖掘技术还不成熟,其应用还有较大的局限性。正是这些局限性,促使数据挖 掘研究的进一步发展,目前数据挖掘面临的主要挑战有【2 4 】: ( 1 ) 处理不同类型的数据 绝大多数数据库是关系型的,因此在关系数据库上有效地执行数据挖掘是至关重要 的。但在不同领域中存在不同的数据和数据库,而且经常包括复杂的数据类型。目前数 据挖掘工具能处理的数据形式有限,一般可以处理数值型的结构化的数据,但大多数不 能对文本、图形、数学公式、图像、w w w 资源等这些半结构或无结构的数据形式进行 挖掘操作。由于数据类型的多样性和不同的挖掘目标。一个数据挖掘系统不可能处理各 种数据,所以需要建立特定的数据挖掘系统,另外的挑战是数据本身存在缺损或噪声, 特别是商业数据库中。 ( 2 ) 证实技术的局限性 数据挖掘是用特定的分析方法或逻辑形式发现知识,比如归纳或演绎,但系统可能 没有能力去交互证实发现的知识,使得发现的知识没有普遍性而不能成为有用的知识。 另一种情况是待挖掘的数据本身就可能存在错误,数据挖掘技术必须需要足够的鲁棒 性。能够确定结论具有何种程度的有效性。挖掘处理的知识应该准确地反映数据库的内 容,并且对于用户来说是有用的。对那些不确定的程度应反映在近似规则和定量规则上, 系统应能处理噪音数据。 ( 3 ) 知识的表达和解释机制 许多应用中重要的是用户能够理解发现的知识。这要求知识的表达不能限制在数字 或符号而是采用更容易理解的方式。如图形用户界面、自然语言和可视化技术等。数据 挖掘系统指出它发现了新知识,并且能以关系、规则、概念等形式把知识表达出来,但 1 3 是用户并不知道发现知识的基本原理,只有当数据挖掘系统能提供更好地解释机制,用 户才能更有效地评价这些知识,并且区分出哪些是真正有用的知识,那些是常识性的知 识或异常知识。 ( 4 ) 知识的维护和更新新的数据积累可能导致以前发现的知识失效,这些知识需要 动态维护和及时更新。 ( 5 ) 支持的局限性及与其他系统的集成 目前的数据挖掘系统尚不能支持多种平台,一些产品基于p c 机,一些产品面向大 型主机系统,目前有一些是面向客户机服务器环境的。有的系统对于数据库中包含的域 或纪录是有限制的,例如要求数据文件为特定的大小,或者需要转化为特定的数据库管 理系统能识别的格式,但是数据重定义的费用可能十分昂贵。另外的挑战是,要在更广 泛的领域发现知识,系统就应该是数据库、知识库、专家系统、决策支持系统、可视化 工具和网络等技术的集成,特别是和一些用户已经熟悉的系统结合到一起,这对于系统 充分发挥作用非常重要。 ( 6 ) 数据挖掘算法的有效性和可扩展性 数据挖掘要处理的数据最通常是非常巨大的。可能使成百上千的表、上百万条记录, 数据库容量到达若干g 字节,甚至上t 字节。更大型的数据库、更高的维数和属性之 间具有更复杂的关系。更多的属性意味着高维的搜索空间,从而导致组合爆炸。嘱性值 之间的关系变得更加复杂,比如表现为层次结构。这些因素使得搜索知识代价极高。根 据问题的定义或相关知识可以选择出需要的属性降低维数,从而提高算法效率。从一个 大型数据库中抽取知识的算法必须高效、 - t n 量( 即数据挖掘算法的运行时间可测量) 。 且可接受。指数和多项式复杂性的算法不具有使用价值。 ( 7 ) 多层次交互挖掘知识 由于很难预测从数据库中会挖掘出什么样的知识,因此一个多层次的数据挖掘查询 应作为进一步探寻的线索。交互发现允许交互精确化数据挖掘的要求,动态改变数据焦 点,逐步加深数据挖掘过程,从不同角度和层次审视数据挖掘的结果。 ( 8 ) 私有保护和数据安全数据挖掘。能从不同角度、不同抽象层上看待数据,将可 能对私有权的入侵,研究应用该采取哪些措施防止暴露敏感信息是很重要的,可以避免 信息泄露,改进数据安全方法。 1 4 3 1 引言 3 w e b 挖掘及其应用研究 随着i n t e m e t 的日益普及,人们通过w e b 接触到了比以前多的多的数据和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 彭阳消防考试题库及答案
- 2025年贵州公务员考试行测真题及答案
- 2025年广西壮族自治区中央遴选真题及参考答案(b类)
- 淮安清中开学考试卷及答案
- 母婴护理师考试试卷题库及答案
- 信息技术考试真题分类及答案
- 医学生化考试试题及答案
- 广东春季高考考试卷子及答案
- 九江编制考试题库及答案
- 2025年医疗器械法规与管理考试试题及答案
- GB/T 18166-2025架空游览车类游乐设施通用技术条件
- 采光顶玻璃拆除施工方案
- 医院电梯乘坐安全培训课件
- 2025广西桂林理工大学南宁分校公开招聘教职人员控制数工作人员68人考试参考题库及答案解析
- 2025重庆市勘测院有限公司招聘6人考试参考题库及答案解析
- 水库安全生产教育培训课件
- 钢厂安全教育培训课件
- 第一部分 第七章 第41课时 气象灾害(重难课时)2026年高考地理第一轮总复习
- 红色知识竞赛试题及答案
- 2《学习成就梦想》(共21张) +公开课一等奖创新教案 统编版道德与法治七年级上册
- 西藏事业人员管理办法
评论
0/150
提交评论