




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘在桂林旅游信息中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 络绎不绝的游客究竟给桂林这个旅游胜地带来多少收益? 看看2 0 0 5 年这个 桂林旅游业取得历史性新成绩的一年:全市接待游客1 2 0 5 0 8 万人次,同比增长 8 4 3 ,其中入境旅游者1 0 0 0 9 万人次,同比增长2 3 9 2 ;国内游客1 1 0 4 9 9 万人次,同比增长7 2 1 。但如果从旅游对桂林社会经济应该起到的支柱性地位 来看,差距相当明显:2 0 0 5 年桂林市g d p 总值为5 3 6 7 亿元,其中旅游总收入 5 7 9 5 亿元。虽然同比增长了1 5 5 7 ,但对g d p 的贡献率只有l l 左右。如果按 增加值来比,旅游业占的比例就更小了,最多6 。一方面游人如织,一方面旅 游收入却很低,问题究竟出在哪里? 应用数据挖掘技术从旅游信息库中找找答案 是一个可行的办法。 数据挖掘( d a t am i n i n g ,d m ) 是指从大量不完全的、有噪声的、模糊的、 随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概 念( c o n c e p t s ) 、规则( r u l e s ) 、模式( p a t t e r n s ) 等形式。数据挖掘的功能包括发 现概念类描述、关联规则、分类和预测、聚类、趋势分析、偏差分析和类似性分 析。其中,在旅游信息数据挖掘中运用较多的是关联规则、分类和预测、聚类分 析。因此本文在理论部分重点研究了数据挖掘的过程以及分类数据挖掘的主要技 术。 本文基于数据挖掘的分类技术,利用s a s e m 数据挖掘工具,在桂林市旅游局 2 0 0 5 年的旅游问卷调查所产生的数据库的基础上,从两个方面对该数据库进行了 分类挖掘,即:影响游客消费的因素以及影响游客对桂林旅游综合评价的因素。 在此过程中,完整地实现了分类数据挖掘的全过程,包括:确定数据源及挖掘目 标,数据预处理,利用s a s e m 工具生成决策树,得到相应规则,并对结果进行了 分析。其中,数据预处理采用x 2 统计检验来选取与挖掘目标相关的属性,这一 步比较重要,因为s a s 雕中决策树t r e e 节点支持的c 4 5 算法对属性的有效性要求 比较高,通过这一步,使得最后产生的决策树有比较好的形态。最后根据研究的 状况,进行了总结和展望。 关键词:数据挖掘,s a s e m ,分类,决策树,分类规则 h o wm u c hd o e sg u i l i nb e n e f i tf r o ms om a n yt o m i s t s ? g u i l i nt o u r i s ma c h i e v e d h i s t o r i cn e wa c h i c v e r n e n t si n2 0 0 5 :t h e r ew e r e1 2 0 5 0 8m i l l i o nt o m i s t si nt h ee i t y , i n c r e a s e d8 4 3 f o rt h es 翘1 ep e r i o d , a n dt h e r ew e r e1 0 0 0 9m i l l i o ni n b o u n dt o u r i s t s , i n c r e a s e d2 3 6 2 f o rt h es a m ep e r i o d t h e r ew e r e11 0 4 9 9m i l l i o n sd o m e s t i c1 1 0 4 9 9 m i l l i o n s ,i n c r e a s e d7 2 1 f o rt h es a m ep e r i o d t h eg a pi sv e r yo b v i o n s 。筋mt h e p i l l a r so ft o u r i n gb e n e f i tg u i l i ns o c i a le c o n o m y g d po fg u i l i ni n2 0 0 5w a s5 3 6 7 b i l l i o ny u a n , a n dt o t a lt o u t i n gr e v e n u ew a s5 7 9 5b i l l i o ny u a n a n di n c r e a s e d l5 5 7 b u tc o n t r i b u t i o nr a t ew a so n l ya b o t i tl l i fc o n t r a s ta c c o r d i n gt oa d d i n g v a l u e , t o u r i s mo c c u p i e sam u c hs m a l lp r o p o r t i o n , n oi n o r et h a n6 o nt h eo n eh a n d , t h e r ea r cs om a n yt o u r i s t ,o nt h eo t h e rh a n dt o u r i n gr c v e n u ei sv e r yl o w w h e r ei st h e p r o b l e mo ne a r t h ? t 妇w i l lb caf c a 曲l em e a n , l o o kf o rk e y sf r o mt o u r m s i n f o r m a t i o nd a t au s i n gd a t am i n i n gt e c h n o l o g y d a t am i n i n gm e a n sp i c k i n gu ph i d d e n ,u s e f u li n f o r i l l a t i o na n dk n o w l 酣g e p r o c e s sf r o mv a s t ,i n c o m p l e t e ,n o i s y , v a g u ea n dr a n d o md a t a i t se x p r e s s i v e f o r m sa r ec o n c e p t s , r u l e s ,p a t t 伽强,a n ds oo n d a t am i n i n gf u n c t i o ni n e l u d e s 矗n d i n gc o n c e p td e s c r i p t i o n s , f l s s o c i a t i o nr u l e s e l a s s i f i e a t i o na n dp r e d i e i f i o n , c l u s t e r i n g , t r e n da n a l y s i s ,d e v i a t i o na n a l y s i s ,s i m i l a r i t ya n a l y s i s a m o n gt h e m , a s s o c i a t e dr e g u l a t i o n s e l a s s i f i c a t i o na n dp r e d i c t i o n , a n dc l u s t e ra n a l y s i sa r em o s t f r e q u e n t l ya p p l i e di nt o u r i s ti n f o r m a t i o n s ot h i sp a p e rl a y se m p h a s i so ns t u d y o fd a t am i n i n gp r o c e s sa n dc l a s s i f i c a t i o nd a t am i n i n gt e c h n o l o g yi nt h e o r yp a r t n ep a p e ri sb a s i so ft h ec l a s s i f i c a t i o n t e c h n o l o g yo fd a t am i n i n g , u s i n g s a s e md a t am i n i n gt o o l s d a t ao ft o u r i n gi n v e s t i g a t i o no fg u i l i nc i t yt o u r i n g a g e n c yi n2 0 0 5 p e r f o r me l 髂s i f i c a t i o nm i n i n gf r o mt w oa s p e c t s t h a ti s f a c t o r o fi n f l u e n c i n gt o m i s t s c o n s u m p t i o n , f a c t o ro fi n f l u e n c i n gt o u r i s t s g e n e r a l a s s e s s m e n tt og u i l i nt o u t i n g i nt h i sp r o c e s s ,r e a l i z ee l a s s i f i c a t i o nd a t am i n i n g s w h o l ep r o c e s sp e r f e c t l y , i n c l u d e s :c o n f i r m i n gd a t as o u r c e s ,m i n i n gt a r g e t s ,d a t a p r e t r e a t m e n t , u s i n gs a s e mt o o l ,c r e a t i n gd e c i s i o nt r e e , o b t a i n i n gc o r r e s p o n d i n g r e g u l a t i o n s ,a n a l y z i n gr e s u l t s a m o n gt h e s e , t h ed a t ap r e t r e a t m e n tu s ex s t a t i s t i c a l t e s t i n gt os e l e c tt h ep r o p e r t i e sa s s o c i a t e dw i t ht h em i n i n gt a r g e t s t h i ss t e p i s v e r yi m p o r t a n t ,b e c a u s e 也ea l g o r i t h m0 4 5t h a ts a s e md e c i s i o nt r e n o d e s u p p o r t s ,w h i c hr e q u i r e st o om u c hf o re f f e e t i v e n e s so fp r o p e r t y s u mu pa n d p r o s p e c t , a c c o r d i n gt or e s e a r c hs t a t u sa tl a s t k e yw o r d s :d a t am i n i n g ;s a s e m :c l a s s i f i c a t i o n ;d e c i s i o i lt r e e :c l a s s i t i c a t i o nr u l e s 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及 取得的研究成果据我所知,除文中已经注明引用的内容外,本论文 不包含其他个人已经发表或撰写过的研究成果对本文的研究做出重 要贡献的个人和集体,均已在文中作了明确说明并表示谢意 作者签名: 1 1 1 1 1 :缉:丝签 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在 解密后适用本规定 学位论文作者签名:赫透瑶 导师签名: 第一章综述 1 1 研究背景 第一章综述 1 1 1 数据挖掘技术研究背景及研究意义 数据挖掘( d a t am i n i n g ) 是一个多学科交叉研究领域,它融合了数据库 ( d a t a b a s e ) 技术、人工智能( a r t i f i c i a li n t e l l i g e n c e ) 、机器学习( m a c h i n e l e a r n i n g ) 、统计学( s t a t i s t i c s ) 、知识工程( k n o w l e d g ee n g i n e e r i n g ) 、面向对 象方法( o b j e c t o r i e n t e dm e t h o d ) 、信息检索( i n f o r m a t i o nr e t r i e v a l ) 、高性 能计算( h i g h p e r f o r m a n c e - c o m p u t i n g ) 以及数据可视化( o a t av i s u a l i z a t i o n ) 等最新技术的研究成果。经过十几年的研究,产生了许多新概念和方法“1 。特别 是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。 数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它以一种全新的 概念改变着人类利用数据的方式。二十世纪,数据库技术取得了决定性的成果并 且已经得到广泛的应用。但是,数据库技术作为一种基本的信息存储和管理方式, 仍然以联机事务处理( o l t p :o n l i n e t r a n s a c t i o np r o c e s s i n g ) 为核心应用,缺少 对决策、分析、预测等高级功能的支持机制。众所周知,随着数据库容量的膨胀, 特别是数据仓库( d a t aw a r e h o u s e ) 以及w e b 等新型数据源的日益普及,联机分 析处理( o l a p :o n l i n ea n a l y t i cp r o c e s s i n g ) 、决策支持( d e c i s i o ns u p p o r t ) 以及分类( c l a s s if i c a t i o n ) 、聚类( c l u s t e r i n g ) 等复杂应用成为必然。面对这一 挑战,数据挖掘和知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 技术应运而生, 并显示出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更高级 的阶段。它不仅能对过去的数据进行查询,并且能够找出过去数据之间的潜在联 系,进行更高层次的分析,以便更好地做出理想的决策、预测未来的发展趋势等。 近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步,与 此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额 交易数据。显然在这些数据中丰富的信息,如何处理这些数据得到有益的信息, 人们进行了有益的探索。 数据挖掘的历史虽然较短,但从2 0 世纪9 0 年代以来,它的发展速度很快, 加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据 挖掘的定义,例如: s a s 研究所( 1 9 9 7 ) :“在大量相关数据基础之上进行数据探索和建立相关模 型的先进方法”。 b h a v a n i ( 1 9 9 9 ) :“使用模式识别技术、统计和数学技术,在大量的数据中发 第一章综述 现有意义的新关系、模式和趋势的过程” h a n d e t a l ( 2 0 0 0 ) :“数据挖掘就是在大型数据库中寻找有意义、有价值信息 的过程”。 我们认为:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的 数据中。提取隐含在其中的、人们事先不知道的、但又有潜在的有用信息和知识 的过程0 1 。这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或 者为科学研究寻找突破口。 现今资料流通量之巨大己到了令人咂舌地步,就实际限制而言,便遇到了诸 如海量的纪录,高维的资料增加的传统分析技术上的困难,搜集到的资料仅有 5 至1 0 用来分析,以及资料搜集过程中并不探讨特性等问题,这就让我们不得 不利用数据挖掘技术。 数据挖掘技术的应用领域十分广嗣,可广泛应用于银行金融、零售与批发、 制造、旅游、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个 企事业单位及国防科研上。可以说,有数据积累的地方,就有数据挖掘技术的用 武之地。经过十几年的发展和研究,数据挖掘技术形成了一批有影响的算法,比 如:加拿大s i m o nf r a s e r 大学j h a n 教授的概念树提升算法、i b m 的r a g r a w a l 的关联算法、澳大利亚的j r o u i n l a n 教授的分类算法、密西根州立大学e r i c k g o o d m a n 的遗传算法等。i b m ,g t e ,m i c r o s o f t 等公司,相继开发出一些实用的 k d d 商业系统和工具等。 我们相信,数据挖掘的前景将会非常美妙。预计在数据挖掘的研究焦点可能 会集中到以下几个方面: 1 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许 会像s q l 语言样走向形式化和标准化: 2 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解, 也便于在知识发现的过程中进行人机交互; 3 研究在网络环境下的数据挖掘技术( w e bm i n i n g ) ,特别是在因特网上建 立d m k d 服务器,并且与数据库服务器配合,实现w e bm i n i n g : 4 加强对各种非结构化数据的开采( d a t am i n i n gf o ra u d i o & v i d e o ) ,如对 文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者 是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建 立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数 据准备的一些工具和软件。 与国外相比,国内对数据挖掘的研究稍晚。没有形成整体力量。目前,国内 一2 一 第一章综述 从事数据挖掘研究的人员主要集中在大学。也有部分在研究所或公司。所涉及的 研究领域很多,一般集中于算法的研究、数据挖掘的实际应用以及有关数据挖掘 理论方面的研究。 1 1 2 数据挖掘在旅游业中应用的研究现状及意义 在旅游行业,大部分旅游目的地只追求短期经济效益而忽视了长期战略决策 中信息资源在旅游目的地发展中的巨大作用。我国旅游目的地信息化还没有走出 技术驱动、信息技术厂商推动、以及从技术和系统中寻找应用的格局。旅游信息 化建设与旅游目的地的业务相脱节,应用程度很低,大部分旅游目的地只是把旅 游目的地信息化看成是信息技术和产品的展示场,用来装饰门面,从而造成旅游 信息资源的极大浪费旅游目的地对所获得的信息往往只停留在表面上,缺乏对 旅游信息资源有效的、深层次的数据挖掘,因此难以更高效地把信息资源转化为 效益和财富,在一定程度上制约了旅游业的发展。 在桂林,自从2 0 0 3 年非典型后,每年接待的国内外游客屡创新高,然而, 每年桂林市政府的统计数据却表明,桂林旅游业收入并不高,只占桂林g d p 的 1 1 左右,如果按增加值来比,旅游业占的比例就更小了,最多6 。为找到游客 多收入少的答案,桂林市旅游局每年发放了大量的旅游问卷给游客,试图从中找 到问题的症结所在。但是,这些努力还停留在简单的查询统计阶段。 综上所述可知,旅游目的地有必要运用数据挖掘工具,进行深层次的挖掘, 以获取更多有价值的旅游信息,有效地进行游客关系管理( t o u r i s t r e l a t i o n s h i p m a n a g e m e n t ) ,从而帮助目的地针对自身的情况,以游客的需求为 出发点,采取更有效的景区管理政策,提高营销管理水平,降低经营成本,为游 客提供更满意、更具个性化的服务,从而不断提高旅游目的地的竞争力。 在国内,数据挖掘在旅游业的应用研究不是很多,而且现有的研究也并不是 很深入,大多是最近几年开始研究的。主要在以下几个方面: 1 数据挖掘技术在旅游电子地图中的应用; 2 数据挖掘技术在旅游营销中的应用; 3 数据挖掘在游客关系管理方面的应用; 在国外,各国学者还从许多边缘学科的角度研究旅游者行为,如m c i n t o s h g o e l d n e r ( 1 9 9 0 ) ,k i n n e a r j a m e s ( 1 9 9 8 ) ,f o d n e s s m u r r a y ( 1 9 9 9 ) , i s m a i lj a m i l l sj e ( 2 0 0 1 ) 等从数据挖掘的角度,研究了潜在旅游者 或旅游者如何通过网络技术或他人的相关信息进行旅游信息的处理,并构筑了相 关的模型加以解释。 一3 第一章综述 1 2 本文研究工作 桂林有着丰富的旅游资源,改革开放以来,桂林的旅游业发展十分迅速,桂 林市政府将旅游业作为本市的支柱产业,大力扶持,市旅游局每年都会向游客发 放调查阀卷,收集了大量的信息,然而这些信息往往只用于统计与查询,其内部 所蕴含的知识并没有被发现和利用。本文将桂林市旅游局2 0 0 5 年的调查问卷信 息,通过预处理,生成旅游信息数据库,再利用s a s e m 挖掘工具,建立决策树 模型,从以下两个方面对该信息库进行了挖掘。 1 影响游客消费的因素。 2 影响游客对旅游地综合评价的因素。 试图从这两个方面着手,发掘一些有益的规则。能对桂林旅游的发展决策起 到强有力的辖助作用 1 3 本文结构 第一章综述。主要介绍了本论文的研究背景及研究意义,综述了数据挖掘 的理论渊源,国内外的研究现状,以及数据挖掘在旅游业的应用研究现状。 第二章数据挖掘主要技术。主要介绍数据挖掘的基本知识,包括数据挖掘 的过程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常用技术和方法。 第三章数据挖掘中的分类技术。主要介绍数据挖掘中分类技术的基本知识、 常用分类方法,及各种分类方法的比较。 第四章数据挖掘分类技术在桂林旅游信息中的应用。主要介绍了对桂林旅 游问卷调查信息的预处理过程,利用s a s e m 对相应的数据信息进行分类数据挖 掘的过程,以及对所得到的规则进行分析。 第五章总结和展望。 一4 一 第二章数据挖掘主要技术 第二章数据挖掘主要技术 本章主要介绍数据挖掘的相关知识,包括数据挖掘与知识发现的概念、数据 挖掘的过程、数据挖掘的任务、数据挖掘的分类、数据挖掘的对象,最后介绍了 数据挖掘的常用技术和方法。 2 1 数据挖掘与知识发现 数据挖掘( d a t am i n i n g ,简称d m ) 就是从大量的、不完全的、有噪声的、模 糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又有潜在的有 用信息和知识的过程。是数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ,简称k i ) i ) ) 的核心嘲 知识发现( k d d ) 被认为是从数据中发现有用知识的整个过程。数据挖掘只是 数据库中知识发现的一个步骤,但又是最重要的一步,它用专门算法从数据中抽 取模式。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始 数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的。如文本、 图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数 学的,也可以是非数学的:可以是演绎的,也可以是归纳的。发现了的知识可以 被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维 护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其 是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人 员嘲。 因为数据挖掘算法的好坏将直接影响到k d d 所发现知识的准确性,而且目前 k d d 研究大部分集中在数据挖掘算法和应用的技术上,因此少、们往往不严格区 分数据挖掘和数据库中的知识发现,两者互为使用。一般在科研领域中称为k d d , 而在工程领域则称为数据挖掘“1 。 2 2 数据挖掘过程 数据库中的知识发现( k d d ) 根据对数据的分析建立对数据特性以及数据之间 关系描述的模式。一般可以采用两种基本方式使用这些发现的知识:一是可以提 供指导经营活动的知识。如通过知识提取可以得到超市中销售商品之间的关联, 根据这些关联可以指导上货计划,而且通过对商品的销售情况分析,可以得到影 响销售的因素,从而指导上货,减少可能的积压。二是这种模式可以用于预测。 一5 一 第二章数据挖掘主要技术 例如,信用卡公司为了鼓励人们使用,通过信函方式向人们宣传。但由于需要向 大量用户邮寄资料面实际能够产生积极回应的用户并不是很多,所以会造成很大 的浪费。通过对用户回应数据库中的数据的分析,可以找出一种模式,它可以帮 助预测哪些用户最可能做出积极反应。从而不必向所有用户发出资料。而只向那 些有可能做出反应的子集中的用户发出邀请。这样不仅做到了有针对性,而且通 过减少信函数量减少了大量的邮寄浪费似 。 k d d 过程如图2 - 1 所示。k d d 过程可以分为五部分:数据选择( s e l e c t i o n ) , 数据预处理( d a t ap r e p r o c e s s i n g ) ,数据转换( t r a n s f o r m a t i o n ) ,数据挖掘( d a t a m i n i n g ) 及结果的解释和评估( i n t e r p r e t a t i o n e v a l u a t i o n ) 嘲。 2 。2 1 数据选择 图2 - 1k d d 过程图 为知识发现的目标搜索和选择有关的数据,这包括不同模式数据的转换和数 据的统一和汇总。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围, 提高数据挖掘的质量。 6 一 第二章数据挖掘主要技术 2 2 2 数据预处理和数据转换 这一阶段包括四个步骤:数据清洗( d a t ac l e a n i n g ) ,数据集成( d a t a i n t e g r a t i o n ) 数据变换( d a t at r a n s f o r m a t i o n ) ,数据消减( d a t ar e d u c t i o n ) 。 数据清洗:因为数据仓库中的数据是面向某一主题的数据的集合,这些数据 从多个业务系统中抽取并且包含历史数据,这样就避免不了有的数据是错误数 据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的, 成为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”。数据清洗处理过 程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值( 伽t l t e r ) , 以及解决不一致问题。在第四章案例中,就有很多的记录有缺失,因为旅游局无 权强迫游客对所有的问题都做出回答。 数据集成就是将多文件或多数据库运行环境中的数据进行合并处理由予描 述同一个概念的属性在不同数据库取不同的名字,在进行数据集成时就常常会引 起数据的不一致或冗余。大量的数据冗余不仅会降低挖掘速度,而且也会误导挖 掘进程。因此在数据集成中还需要注意消除数据的冗余。 数据转换就是对数据库中字段的不同取值转挟成数码形式,将有利于搜索。 数据转换主要是对数据进行规格化( n o r m a l i z a t i o n ) 操作,也叫数据范化。如把 连续值数据转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续 值型数据,以便于神经网络计算。在第四章的案例中,游客的总花费是连续值数 据,为了研究方便,也是需要离散化的。 数据消减的目的就是缩小所挖掘数据的规模,但却不会影响( 或基本不影响) 最终的挖掘结果。现有的数据消减包括: 1 数据聚合( d a t aa g g r e g a t i o n ) : 2 消减维数( d i m e n s i o nr e d u c t i o n ) ,即从初始特征中找出真正有用的特征 以减少数据挖掘时要考虑的特征或变量个数: 3 数据压缩( d a t ac o m p r e s s i o n ) : 4 数据块消减( n u m e r o s i t yr e d u c t i o n ) “。 在第四章的案例中,就是采用第二种方法,从众多的属性中选取了一些真正 有用的属性。 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘 过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问。图2 - i 各步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈。数据挖掘 的过程并不是自动的,绝大多数的工作需要人工完成。以上各步骤在整个过程中 的工作量之比大致是:6 0 的时间用在数据准备上,这说明了数据挖掘对数据的 一7 第二章数据挖掘主要技术 严格要求,挖掘工作仅占总工作量的l 鹏“ 2 2 3 数据挖掘 首先要确定挖掘的任务或目的,然后决定使用什么样的挖掘算法,如数据分 类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用 什么样的挖掘算法。选择实现的算法有两个考虑因素:一是不同的数据有不同的 特点,因此需要用与之相关的算法来挖掘:二是要根据用户或实际运行系统的要 求,有的用户可能希望获取描述型的( d e s c r i p t i v e ) ,容易理解的知识,而有的 用户只是希望获取准确度尽可能高的预测型( p r e d i c t i v e ) 知识。选择了挖掘算法 后,就可以实旄数据挖掘操作,获取有用的模式。此阶段进行实际的挖掘操作, 从数据库中发现有用的模式或知识。 2 2 4 结果表达与解释 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出 来,并且通过决策支持工具提交给决策者。这一步骤的任务不仅是把结果表达出 来,还要对信息进行过滤处理。如果不能令决策者满意,需要重复以上数据挖掘 的过程。另外,k d d 由于最终是面向人类用户的,因此可能要对发现的模式进行 可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“i f t h e n ”规则1 。 数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要 素:是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量( 数 据量的大小) 。如果选择了错误的数据或不适当的属性,或对数据进行了不适当 的转换,则挖掘的结果是不会好的。 整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数 据不太好。或是使用的挖掘技术产生不了期望的结果。这时,用户需要重复先前 的过程,甚至从头重新开始。 2 3 数据挖掘的分类 数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术等几个方 面进行分类“”。 一8 一 第二章数据挖掘主要技术 2 3 1 按数据库类型分类 数据挖掘主要是在关系数据库中挖掘知识。随着数据库类型的不断增加,逐 步出现了不同数据库的数据挖掘。现在,除关系数据库挖掘外,还有模糊数据挖 掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。 2 3 2 按数据挖掘对象分类 数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒 体数据挖掘、w e b 数据挖掘等。由于对象不同,挖掘方法的差异很大。 数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差监测、预测等。 按任务分类可将数据挖掘分为:关联规则挖掘、序列模式挖掘、聚类数据挖掘、 分类数据挖掘、偏差分析挖掘和预测挖掘等类型。 2 3 4 按数据挖掘的方法和技术分类 数据挖掘的技术和方法较多。包括归纳学习类、聚类方法类、统计分析类、 仿生物技术类、模糊数学类、可视化技术类等。 2 4 数据挖掘的任务 数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差 分析“”。 2 4 1 关联分析( a s s o c i a t i o na n a i y s i s ) 两个或两个以上数据项的取值之间存在某种规律性,就称为关联,可以建立 起这些数据项的关联规则“。数据关联是数据库中存在的一类重要的、可被发现 的知识,它反映一个事件和其他事件之间依赖或关联。如果两项或多项属性之间 存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。 关联规则虽然来源于p o s 中,但是可以应用于很多领域。只要一个客户在同 一9 一 第二章数据挖掘主要技术 一个时间里买了多样东西,或者在一段时间了做了几样事情就可能是一个潜在的 应用。例如:用信用卡购物,如汽车租金和旅馆费,可以看他下一个要买的东西: 电话公司提供的多项服务,以研究捆绑销售的问题:银行提供的多项服务,来分 析客户可能需要那些服务:不寻常的多项保险申请可能是欺诈行为。例如,买面 包的顾客中9 0 还买牛奶,这就是一条关联规则。在商场中将这两样物品摆放在 一起销售,将会提高销售量。 在大型数据库中,这样的关联规则可以产生很多,这就需要进行筛选。一般 用“支持度”和“可信度”两个阀值来淘汰那些无用的关联规则。 优点:它可以产生清晰有用的结果;它支持间接数据挖掘:可以处理变长的数 据:它的计算的消耗量是可以预见的。 缺点:当问题变大时,计算量增长得厉害;难以决定正确的数据;容易忽略 稀有的数据 2 4 2 聚类分析( c i u s t e ri n g ) 聚类是把数据按照它们的相似性归纳成若干类别,同一类别中的数据距离较 小、彼此相似,不同类别中的数据距离偏大、彼此相异“。线聚类分析可以建立 宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。 聚类方法包括统计分析方法、机器学习方法和神经网络方法等。 在统计分析方法中,聚类分析是基于距离的聚类。这种聚类分析方法是一种 基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。 在机器学习方法中,聚类是无导师的学习。此时距离是根据概念的描述来确 定的,又称为概念聚类,当聚类对象动态增加时,概念聚类贝q 称为概念形成。 在神经网络中,自组织神经网络方法用于聚类。如a r t 模型、k o h o n e n 模型 等,这是一种无监督学习方法。当给定距离阈值后,各样本按阈值进行聚类。 2 4 3 分类( c i a s s i f i c a t i o n ) 分类是数据挖掘中应用得最多得任务。分类就是找出一个类别的概念描述, 并用这种描述来构造模型( 一般用规则或决策树模式表示) 。类别的概念描述代表 着这类数据的整体信息,也就是该类的内涵描述“”。 类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同 特征的描述。辨别性描述是对两个或多个类之间的区别的描述。 分类的过程是:分析输入数据,通过在训练集中的数据所表现出来的特性, 一l o 第二章数据挖掘主要技术 经过有关算法,为每一个类找到一种准确的描述或者模型,并使用这种类的描述 对未来的测试数据进行分类。 2 4 4 预测( p r e d i c a t i o n ) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种 类及特征进行预测“”。 典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线 性或非线性回归方程。预测时,只要输入任意的时问值,通过回归方程就可求出 该时闯的状态。 近年来,发展起来的神经网络方法( 如b p 模型) ,实现了非线性样本的学习 能进行非线性函数的判别。 分类也能进行预潮。但分类一般用于寓教数值:回归预测用于连续致值:神经 网络方法预测既可以用于连续数值,也可以用于离散数值。 2 4 5 时序模式( t i m e - s e ri e sp a t t e r n ) 时序模式是指通过时阿序列搜索出的重复发生概率较高的模式“”。与回归一 样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不 同。 在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分 比( 最小支持度阈值) 的规则。这些规则会随着形势的变化作适当的调整。 时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方 法,要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。 2 4 6 偏差分析( d e v i a t i o n ) 数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非 常重要的。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、 观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是, 寻找观测结果与参照值之间有意义的差别。 2 5 数据挖掘的对象 数据挖掘的对象主要是关系数据库。随着数据挖掘技术的发展,逐步进入到 第二章数据挖掘主要技术 空问数据库、时态数据库、文本数据库、多媒体数据库、环球网髓等文字、 音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视 频的数据量很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难 的。 目前,对多媒体数据的处理只能在存取、编辑、集成、快进快退等基本操作 上,对多媒体信息的检索仅靠文件标识、关键字等进行检索,局限性很大。目前 兴起的基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视 频信息,己成为研究的热点。基于内容的音频、视频信息的聚类、分类、相似查 询等数据挖掘技术正在兴起。 2 6 数据挖掘的方法和技术 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分 析方法、模糊数学方法及可视化技术,以数据库为研究对象,形成了数据挖掘的 方法和技术。“。 数据挖摇的方法和技术可分为以下六大类: 2 6 1 归纳学习法 归纳学习法是目前重点研究的方向。从采用的技术上看,分为信息论方法和 集合论方法。 1 决策树方法 信息论方法是利用信息论的原理建立决策树。在知识工程领域,决策树是一 种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是 比较直观的,因而比较易于理解。该类方法的实用效果好,影响较大。由于该方 法最后获得的知识表示形式是决策树,故一般称它为决策树方法。这种方法一般 用于分类任务中。信息论方法中较有特色的方法有:i d 3 ,c 4 5 ,i b l e 方法。 2 集合论方法 集合论方法是开展较早的方法。近年来,由于粗集理论的发展使集合论方法 得到了迅速的发展。这类方法中包括:覆盖正例排斥反例方法( 典型的方法有a q 系列方法) 、概念树方法和粗糙集方法。 2 。6 。2 聚类方法 一1 2 第二章数据挖掘主要技术 聚类分析是直接比较样本中各样本之问的距离,将距离较近的归为一类,而 将距离较远的分在不同类中。它把一个给定的数据对象集合分成不同的簇,是一 种无监督分类法。其中较有特色的方法有:k - m e a n s ( k - 平均值) 、c l a r a 算法、 b i r c h 算法、c h a m e l e o n ( 变色龙) 算法、c l i q u e 算法等。 2 6 3 统计分析方法 这是利用统计学原理对数据库中的数据进行分析的方法,统计分析既是- - n 独立的学科,也作为数据挖掘的一大类方法。统计分析方法包括有:常用统计( 如 求大量数据中的最大值、最小值、总和、平均值等) 、相关分析( 求相关系数来度 量变量间的相关程度) ,回归分析( 求回归方程来表示变量间的数量关系) 、差异 分析( 从样本统计量的值得出差异,来确定总体参数之问是否存在差异) 、判剐分 析( 建立一个或多个判别函数,并确定一个判别标准。对未知对象利用判别函数 将它划归某一个类别) 、b a y e s 网络( 利用联合概率和b a y e s 公式所描述的各网络 变量间的因果关系来进行数据分析) 。 2 6 4 仿生物技术 仿生物技术典型的方法是神经网络方法和遗传算法陋 这两类方法己经形成 了独立的研究体系,它们在数据挖掘中也发挥了巨大的作用。 1 神经网络方法 它是模拟了人脑神经元结构,以m p 模型和h e b b 学习规则为基础的,建立了 三大类多种神经网络模型( 前馈式网络、反馈式网络、自组织网络) 。 神经网络的知识体现在网络连结的权值上,是一个分布式矩阵结构。神经网 络的学习体现在神经网络权值的逐步计算上( 包括反复迭代或者是累加计算) 。当 需要从复杂或不精确数据中获得概念比较困难的时候,利用神经网络技术特别有 效。经过训练后的神经网络就像是具有某种专门知识的“专家”,因此可以像人 一样从经验中学习。 2 遗传算法 这是模拟生物进化过程的算法。它由繁殖( 选择) 、交叉( 重组) 、变异( 突变) 三个基本算子组成。 这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值,经过若 于代盼遗传,将得到满足要求的后代( 问题的解) 。遗传算法己在优化计算和分类 机器学习方面发挥了显著的效果。 一1 3 第二章数据挖掘主要技术 2 。6 。5 可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。 例如把数据库中多维的数据变成多种图形,这对于揭示数据中的状况,内在本质 以及规律性起到很强的作用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消费贷受托支付合同范本
- 物流车队调动协议书范本
- 网约出租车买卖合同范本
- 销售合伙人模式合同范本
- 清洗窗帘合同协议书模板
- 离婚协议女方补偿协议书
- 海鲜店合作协议合同范本
- 长期租地建房合同协议书
- 甲方授权乙方的合同范本
- 美业学员合同协议书范本
- 信息安全培训的课件
- 工厂安全生产管理规范
- 2025年中考英语广东卷试题真题解读及答案详解
- 招商中心考试题库及答案
- 残疾人专职委员笔试试题及答案
- 科室护理一级质控内容汇报
- 国家开放大学小学教育毕业论文
- 2024年西藏公安机关招聘警务辅助人员考试真题
- GB/T 45645.1-2025道路交通事故深度调查技术指南第1部分:总则
- 2025-2030年中国强直性脊柱炎的治疗行业市场现状供需分析及投资评估规划分析研究报告
- S68绿色融资情况统计表填报说明
评论
0/150
提交评论