(计算机科学与技术专业论文)数据挖掘在数字化校园的研究与实现.pdf_第1页
(计算机科学与技术专业论文)数据挖掘在数字化校园的研究与实现.pdf_第2页
(计算机科学与技术专业论文)数据挖掘在数字化校园的研究与实现.pdf_第3页
(计算机科学与技术专业论文)数据挖掘在数字化校园的研究与实现.pdf_第4页
(计算机科学与技术专业论文)数据挖掘在数字化校园的研究与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机科学与技术专业论文)数据挖掘在数字化校园的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学t 程钡f :学位论义 y 8 7 7 6 5 0 摘要 近几年来,高校规模不断扩张,万人以上的大学已不在少数,另一方面,高 校的数字化建设也取得了一定的进步,校园网已初步建成,学校的各个部门都积 累了大量的信息数据。这些数据如果得不到有效的开发利用,它们将可能成为包 袱,甚至成为垃圾。本文旨在通过数据挖掘技术从大量的数据中及时发现有用的 知识使数据真正成为一个学校的资源,利用它为学校自身的业务决策和战略发 展提供服务。 本文重点研究了在数字化校园中如何开展及应用数据挖掘技术。数据挖掘技 术在其它行业,比如金融、电信、商场销售等行业都取得了广泛的应用,并有不 少成功的案例,但对于数字化校园来说缺乏系统的研究,值得我们进一步探讨、 研究。 本文首先详细介绍了数据仓库、联机分柝处理和数据挖掘技术。然后有重点 的讨论了数据仓库的构建模型和构建过程,并详细讨论了关联规则的挖掘模型和 决策树模型。在此基础上,以数字化校园中图书馆的信息系统为例,对数据仓库 技术、联机分析处理和数据挖掘技术进行了实际应用的研究,即应用关联规则创 建的读者借书模式分析模型,应用分类方法中决策树创建的读者分类和预测模 型。在文章的最后,提出了熬个挖掘应用系统的体系结构,功能模块以及实现的 关键技术。希望通过此次在图书馆中的应用,为将来把数据挖掘技术应用到实验 室,教务处等打下一定的基础,从而建立起数字化校园数据挖掘应用的整个体系。 关键词:数据挖掘,数字化校园,数字图书馆,数据仓库,分类,决策树 关联规则 浙江大学工程硕士学位论文 a b s t r a c t c o l l e g e sa n du 1 1 i v e r s m e sh a v ee x p a i l d e d 仃e m e n d o u s l yi nr e c e n ty e a r s m a n y i n s t i t u t i o n sh a v em o r ct l l a n10 ,o o o 蛐咀d e n t s m e a l l w h i l e ,g r e a ta c h i e v e m e m sh a v e b e e nm a d ei nd i g 妇1c o n s t n l c t i o n f o ri n s t a i l c e ,c a m p u sn e t 、o r kh a sb e e ne s t a b l i s h e d a r l dah u g e 锄o l m to fi n 曲m l a t i o nh 勰b e e na c c u m u l a t e d h o w e v e r i n f o r m a t i o nc a n b e c o m eah e a v yb u r d e ni fi ti sn o t 如1 l y 砸l i z e d t h ep u r p o s eo ft h i sa r t i c l ei st ou s e d a t am i i l i n gt oc o l l e c tu s e f h li n f b n 】1 a t i o n ,w h e r e b ym a l 【i r 培i n f 0 腿a t i o nd a t aat m e r e s o l l r c et oe n a b l el l l l i v e r s i t i e st om a l 【ed e c i s i o n sa 1 1 ds t r a t e g i e s t h ea n i c l ee m p h a s i z e do nh o wt od e v e l o p 锄da p p l yd a t am i n i n gt e c l l i l i q u e w i t h i n 出ed i g i t a lc a m p u s d a t am i n i n g m sb e e nw i d e l y 印p l i e di nm a n yo t h e ra r c a s , s u c ha sf i n a i l c e ,t e l e c o m ,a 1 1 ds a l e ss e 曲d ls u c c e s s f i l lc a s e sh a v eb e e nr e p o r t e d y b ti t h a sn o tb e e nt h ec a s ef o ri t s 印p l i c a t i o ni nd i g i t a lc 锄p u s t h ea n i c l eg a v ead e t a i l e di n o d u c t i o nt od 啦w a r e h o u s e ,o l a p ,a n dd a t a m i n i n 昏f o l l o w e db yt 1 1 em o d e la n dc o n s t n l c t i o np m c e s so fd a t aw a r e h o u s et o g e m e r 、v i t l lm i n i n gm o d e lo f 船s o c i a t i o nn l l ea l l dd e c i s i o nt r e em o d e l _ b a s e do n 廿1 a t ,d a t a w a r e h o u s e ,o l a p ,a n dd a t am i n i n gw e r ep m c t i c a l l y 印p l i e du s i n gl i b m r yi n f o r m a t i o n s y s t e mi nad i g i t a lc a m p u sa st h ep l 础b h n n l a ti sa p p l y i n gt h ea i l a l y s i sm o d e lo f r e a d e rb o r r o we s t a b l i s h e db ya s s o c i a t i o n a lm l ea n da p p l y i n gt 1 1 em o d e lo fr e a d e r c l a s s m c a t i o ne s t a b l i s h e db yd e c i s i o nn eb e l o n gt oc l a s s i f i c a t i o nm e t h o d a tt h ee n d , t h ew h o l em i n i n g 印p l i c a t i o ns y s t e m ,i t sf 曲c t i | 0 1 1 a lm o d u l e ,a n de s s e 小i a lt e c h n i q u e s f o ra c t u a l i z a t i o nw e r ed i s c u s s e d w bh o p et l l a tt l l ea p p l i c a t i o ni nt h el i b r a r ym a y e v e n t u a l l yp a v em e 、a yf o r 出旺am i n i n gt ob ea p p l i e di nl a b sa n dr c g i s t r a ro m c e s ,s o t h a td a t am i n i n gs y s t e mc a l lb eu l t i i r m e l ys e tu pf o ra d i g i t a lc 锄p u s k q w o r d s :d a t am 证i i l g ;d i g i t a lc 锄p 1 丑s ;d i g i t a ll i b r a r y ;d a t aw a r e h o u s e c l a s s m c a t i o n ;d e c i s i o n 仃e e ;a s s o c i a t i o n 兀i l e 2 浙江大学工程硕士学位论文 1 1 背景介绍 第一章绪论 人们很早就开始自觉或不自觉地使用和处理信息,但随着信息社会的发展,信息量以指 数倍增长,面对如此庞大的数据量,若仍以简单的数据统计方法,显然已经不合适。虽然目 前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的 关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手 段,导致了“数据爆炸但知识贫乏”的现象。人们对信息的需求已经从简单的数据收集型转 向了分析加j :型。人们希望能够从这些庞大的数据中,发现有用的信息。数据挖掘技术就是 为解决这个问题而产生的。 数据挖掘( d m ) 就是从人簧的、不完全的、有噪声的、模糊的、随机的实际麻j = | 数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 近j l 年来,数据挖掘技术的研究成为了一个热点,并在许多领域得到了应用。比如在商 业、金融业以及企业的生产、市场营销等方面都得到了广泛的应用,但在教育领域应用相 对较少。本文主要探讨将数据挖掘技术应用到已组建了一定规模的校园网的数字化校园中。 1 2 国内外发展概况 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联合人工智能 学术会议上。到目前为她由美国人l :智能协会主办的k d d 国际研讨会己经召开了多次, 规模由原来的专题讨论会发展到国际学术人会,研究重点也逐渐从发现方法转向系统应用, 注重多种发现策略和技术的集成。以及多种学科之问的相互渗透。i e e e ( i n s t i t u t e6 d r e l e c t r i c a l 扑de l e c 仃o n i ce n g i n e e r s ) 、a c m ( a s s o c i a t i o nf o rc o m p u t i n gm a c h j n e r y ) 等其它学会、 学刊也纷纷把数据挖掘与知识发现( d 砒am i n i n ga n dk j l o w l e d g ed i s c o v e r y ,d m k d ) 列为会议 议题或出版专刊,成为当前国际上的一个研究热点。 到目前为止,对关系数据库和事务数据库进行数据挖掘和知识发现的研究已经取得了一 定的进展,最有影响的发现算法有:加拿大s i m o nf r 粥e 大学j h 教授的概念树提升算法、 i b m 的r a g r a w a i 的关联算法、澳大利亚的j r q u i n l a n 教授的分类算法、密两根州立大学 e r i c kg o o d m a n 的遗传算法等。近年来,国内外己推出了一些数据挖掘的产品和应用系统, 浙汀大学工程硕士学位论文 并且获得了一定的成功应用,得到了业界的广泛关注。国外有s a s 公司的e n t e r d r i s em i n e r 、 l s l 公司的c i e m e 鲥n e 、a n g o s s 公司的k n o e l e d g c s e e k e k 、r i 曲t p o i n ts o f c w a r e 公司的 d a t a c m n c h e r 和i b m 公司的j b m h t e 】j j g e m m i n e 等。 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。1 9 9 3 年国家自然科学基 金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竟相开展知识 发现的基础理论及其应用研究,这些单位包括清华大学、中科计算技术研究所、空军第三研 究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进 行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、 浙江大学、中国科技丈学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法 的优化和改造:南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据 的知识发现以及w e b 数据挖掘。 当前,d m k d 研究正方兴未艾,预计在2 1 世纪还会形成更大的高潮,研究焦点可能会 集中到儿个方面:研究专门用于知识发现的数据挖掘语言,也许会像s q l 语言一样走向形式 化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也 便丁i 在知识发现过程中的人机交互;研究在网络环境f 的数据挖掘技术,特别是在i n t e m e t 上建立d m k d 服务器,与数据库服务器配台,实现数据挖掘;加强对各种非结构化数据的挖 掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样。需求牵引,市场驱动是永 恒的,d m k d 将首先满足信息时代用户的急需基于d m k d 的决策支持软件工具产品将会 问世。 1 3 数据挖掘在数字化校园中应用的研究现状及意义 近年来随着高校的不断扩招,学生人数大幅度增加,万人以上大学已不在少数。这给高 校的学生管理,教学等工作提出了更高的要求,若仍以传统的管理手段,将不能适应学校的 发展需要。 另一方面,随着目前高校信息化的发展,“数字化校园”不再仅仅是一个构想。而是日 趋走向成熟。“数字化校园”是现实校园通过信息技术在时间和空间上的扩展与延伸,包含 了现实校园及其所衍生出来的数字空间,它使得现实校园中的一切活动能够在更广的时间与 空间中方便地进行,从而提高了效率,扩展了传统校园的功能【3 】o 本人课题所在的浙江水利 水电高等专科学校,数字亿校园一期工程已结束,一些基于校园网和i m e m e l 的应用系统开 6 浙江大学工程硕十学位论文 发并投入使用。在这些应用系统中都积累了大量的信息数据,但学校绝人部分的部门对信息 系统的使用只停留在日常事务的处理,长期积累的历史数据得不到有效开发利用。这对数据 这种资源来说是一种极大的浪费。为了进一步发展学校校园网的信息化建设,为学校自身的 业务决策和战略发展提供服务,本课题将致力于对这些应用系统中积累的大量的信息数据进 行挖掘。 1 4 本文研究的主要内容 国内高校目前在校园信息网中开展数据挖掘的研究主要集中在人事管理、教学管理、教 务管理等方面。本文主要研究将数据挖掘技术应用到以学生和教师为主体的各类信息数据 上,从海量数据中提取出隐藏在数据之中的有用信息。 本文首先认真研究和分析了数据挖掘的基本原理和常用方法,以及数据仓库的设计、构 建技术。然后在此基础上探讨如何根据校园信息系统的需求和应用特点构建数据仓库模型, 并在此模型上设计了数据挖掘模型。研究的重点图书馆数据仓库的创建,以及在此基础上通 过数据挖掘技术中的分类、关联规则等方法完成以数字化图书馆为主题的数据挖掘: 研究通过关联规则的a p r i o r i 算法完成数字图书馆关于读者借书模式的分析,找出读者 借阅的习惯,发现各类书籍之间的关联,为图书馆书架布局和书籍流通提供决策依据。 研究通过分类方法中的决策树方法完成图书馆读者关于“借阅超期”读者的分类和预测, 找山影响产生“借阅超期”读者的一些共性特征。 1 5 本文结构 本文共分为6 章。 第一章是绪论。主要论述了本论文的研究背景,分析了数据挖掘在数字化校园中应用的 研究现状及意义。国内外数据挖掘的发展概况。 第二章对数据挖掘技术进行了深入的研究。主要介绍数据挖掘的基本知识,包括数据挖 掘的过程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常_ f ;| 技术和方法。 第三章对数字图书馆的数据仓库的构建进行了详细的研究。首先探讨了原有数据库应用 丁决策分析时的不足,建设数据仓库的必要性等。接着,给出了数据仓库的设计方法,设计 步骤,井且结合数字图书馆的流通应用实例,提出了具体的数据仓库的构建模型。最后讨论 了如何在数据仓库中进行联机分析处理( o l a p ) 。 7 浙江大学工程硕士学位论文 第四章进行了数据挖掘模型的设计。开发了基于关联规则应用的读者借书模式分析的数 据挖掘模型和基于决策树应用的读者分类的数据挖掘模型。 第元章是系统的设计与实现。探讨了整个体系结构的搭建,功能模块分析以及对使用的 关键技术的研究等。 第 章对全文的工作进行了总结,并对进一步的丁作做了展望。 8 浙江大学工程硕士学位论文 第二章数据挖掘技术 随着现代信息技术、通讯技术、数据库技术、网络技术、计算机技术的高速发展及数据 库管理系统的广泛应用,数据库存储的数据量急剧增大。传统的信息系统大部分是查询驱动 的,数据库作为历史知识库对于一般的查询过程是有效的,但当数据和数据库的规模急剧增 跃时,传统的数据库管理系统的查询检索机制和统计分析方法己远远不能满足现实的需求, 人们希望能从海量的数据中提取信息或者知识为决策服务。于是,人们结合统计学、数据库、 机器学习等技术,研究如何迅速、准确、有效但适量地提供用户所需的信息,发现信息之间 潜在的联系,支持管理决策,这就是数据挖掘和数据仓库要解决的课题。 2 1 数据挖掘的定义 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、 可视化和信息科学。 数据挖捌( d a l a m i n i n g ,简称d m ) 就是从大龋的、不完全的、有噪声的、模糊的、随机 的数据中,提取隐含在其中的、人们事先不知道的、但又有潜在的有用信息和知识的过程。 是数据库中的知识发现( k j l o w l e d g e d i s c o v e r yi nd a t a b a s e s 简称k d d ) 的核心。 知识发现( k d d ) 被认为是从数据中发现有用知识的整个过程。数据挖掘只是数据库中知 识发现的一个步骤,但又是最重要的一步,它用专门算法从数据中抽取模式。人们把原始数 据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的如关系型数 据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异 构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归 纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用丁 数据自身的维护n 2 。2 数据挖掘的特点 与传统信息处理方法相比,数据挖掘技术有其自身的特点: 1 ) 处理对象为大规模数据库,数据规模十分巨大,待处理的数据规模可能达到g b ,t b 甚至更火; 9 浙江火学工程硕士学位论文 2 ) 信息查询一般是由决策制定者( 用户) 提出的即时随机查询,往往没有精确的查询要求, 需要靠数据挖掘技术寻找其可能感兴趣的东西: 3 ) 在一些应用中,某些行动并没有实际发生或很少发生,因而他们对输出所造成的影响 没有在数据库中体现出来,需要利用数据挖掘技术从数据库中提取有用的规则,为这种情况 提出预测: 4 ) 在一些应用中,由于数据变化迅速可能很快过时因此要求数据挖掘技术能快速对数 据变化作出反应以提供决策支持。数据挖掘既要发现潜在的规则,还要管理和维护规则,而 规则是动态的,当前的规则只能反应当前状态的数据库特征,随着新数据的不断加入,规则 需要随之更新; 5 ) 数据挖掘中规则的发现主要基丁大样本的统计规律,发现的规则不必适州r 所有的数 据,当达到某一闽值时便可认为有此规律。 2 3 数据挖掘的过程 数据挖掘是一个反复的过程通常包含多个相互联系的步骤,如定义和分析主题、数据 预处理、选择算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。数据挖掘 只是一个i :具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能 保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解, 理解数据,了解其过程,刁能对数据挖掘的结果找出合理的解释。随着麻_ i ; j 需求和数据基础 的不同,数据挖掘处理的步骤可能也会有所不同。通常,数据挖搁基本步骤包括: ( 1 ) 问题定义 ( 2 ) 建立数据挖掘模型 ( 3 ) 分析数据 ( 4 ) 准备数据 ( 5 ) 建立模型 ( 6 ) 评价模型 ( 7 ) 实施 2 3 1 问题定义与主题分析 进行数据挖掘,首先必须分析应用领域,包括应用中的各种知识和应用目标。问题定义 1 0 浙江大学工程硕士学位论文 了解相关领域的有关情况,熟悉背景知识,清楚用户要求。清楚地定义业务问题,认清数据 挖掘的目的是数据挖捆的重要一步。开始真正的数据挖掘之前最先也是最重要的就是了解用 户的数据和业务问题。精确定义所要解决的问题是数据成功的关键要素之一。要想充分发挥 数据挖掘的价值,必须对一用户的目标有一个清楚明确的定义,有效的问题定义还应该包含 一个对数据挖掘的结果进行衡量的标难。数据是数据挖掘工作成败的基础,因此,分析主体 的任务包括对数据进行进一步的理解,如确定数据挖掘所需要的具体数据,对数据进行描述, 检奁数据的质量等。理解相应的问题领域是设法发现任何有用信息的前提。数据挖掘需要有 一个明确的主体目标,该主题目标决定了此后数据挖掘的各种操作。数据挖掘的主体目标在 数据挖掘过程中是可修正的,但其基本原则内容要保持稳定。在数据挖掘过程中,面对不同 的用户,制定不同的主题。主题是一个在较高层次将数据归类的标准,每一个主题对应一个 宏观的分析领域,即将不同的主题按照一定的标准集成,将原始数据结构进行从面向应用向 面向主题的转变。在本文中,将一个主题确定在数字图书馆的读者借书模式分析。找出读者 借”的一些习惯另一个主题确定为对“超期读者”的研究,找出这些读者的一些共性特征, 以及进行分类预测。 2 3 2 数据准备 数据准备可以细分为数据清理、数据集成、数据变换、数据选择、数据规约、数据质量 分析。 1 数据清理 数据清理也可称为数据清洗。数据清洗是在数据中消除错误和不一致,并解决对象识别 问题的过程。数据清洗包括空值处理、噤声数据处理及不一致数据处理等。数据的不一致性 导致数据挖掘结果的可信度的降低。数据清理去除噪声或无关数据,弗处理数据中缺火的数 据域。 数据清洗主要是针对多个数据源中数据的不规范性、二义性、重复和不完整等问题,对 有问题的数据进行相应的清洗操作,例如,关于同一专业名称,可能在不同的数据集中有不 同的值,所以必须修改为一致。 数据清洗首先需要将数据值进行标准化,即相同含义的值应具有统一的形式。 数据清洗包括数据的一致性确认。手工进行数据的一致性确认的时间、金钱等开销都很 大,只适应丁小规模数据。对于大数据集通常需要自动的数据清理。数据错误的自动清洗主 浙江大学工程硕士学位论文 要包括以f 三个步骤: ( 1 ) 定义并测定错误类型 ( 2 ) 搜寻并识别错误实例 ( 3 ) 纠正发现的错误 对于含空值比例比较小的数据集,删除含空值的数据记录不失为一种有效的方法。然而 当空值达到一定的比例时,如采用宜接删除方法将人人减少数据集中的记录,从而将可能丢 失火昔的信息。因此,空值也是数据清洗的一项重要内容。有一些不同的补齐空值的方法, 如r 所示。 均值替换法:计算数据集中空缺值域属性的平均取值,并用该值替换缺值。 专家经验法:业务领域专家制定相应的领域规则,然后根据这些规则推测空缺值。 c o i dd e c k 猜测:根据以往分析中所得到的数据取代空缺值。 回归分析法:利用回归分析空缺值属性和其他属性的关系,从而推测空缺值的取值。 数据挖掘法:使用数据挖掘技术,通过已有的数据集预测空缺值的可能取值。 2 数据集成 数据挖掘需要对数据进行集成,也就是将多个数据源中的数据合并存放在一个统一的 数据存储中。数据集成将多个数据源中的数据进行合并处理,解决语义模糊弗合成一致的数 据存储。数据集成涉及三个方面的问题。 ( 1 ) 模式集成:模式集成从多个异构数据库、文件或遗留系统提取并集成数据,解决语义 二义性,统一不同格式的数据,消除冗余、重复存放数据的现象。因此,模式集成涉及实体 识别,即如何表示不同数据库中的字段是同一个实体,如何将不同信息源中的实体匹配来进 行模式集成,通常借助于数据库或数据仓库的元数据进行模式识别,帮助避免模式集成中的 错误。此外,数据可能来自多个实际系统,因而存在异构数据的转换问题和数据类型的选择 问题。 ( 2 ) 冗余:数据集成往往导致数据冗余,如同属性多次出现、同一属性命名不一致等。 对丁属性间冗余可以用相关分析检测到,然后将其删除。 ( 3 ) 数据数值冲突的检测与处理:由于表示、比例、编码等的不同,现实世界中的同一实 体在不同数据源中的属性值可能不同。这种数据语义上的歧义性是数据集成的最大难点。 3 数据选择 数据挖掘通常并不需要使用所拥有的所有数据,有些数据对象和数据属性对一建立模型 获得模式是没有影响的这些数据的加入会大大影响挖掘效率甚至还可能导致挖掘结果的 1 2 浙江大学工程硕i t 学位论文 偏筹。因此,有效地选择数据是很有必要的。数据选择有时也被称为数据取样或数据简化。 数据选择是在对发现任务和数据本身内容理解的基础上,寻找依赖丁发现目标的表达数 据的有用特征,以减少数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据 量。通过数据选择可以使数据的规律性和潜在的特性更加明显。 在缩减数据规模的同时,数据选择应完整需要覆盖业务目标所涉及的相关数据。数据 选择过程将搜索所有与业务对象有关的内部和外部数据信息,并从中选择适用于数据挖掘应 用的数据。数据选择包括属性选择和数据抽样即在数据源中选择: 数据域:也称“字段”或“列”。 元组:也称“记录”或“行”。 针对一特定的数据挖掘应用,并不是数据中的所有项都有川,无胄 的属性数值对数据挖 掘是有害的。因为不相关的数据一方面会增加挖掘计一算的时间开销和空间开销:另一方面 可能导致错误的结果。 4 数据变换 数据变化包括以下内容。 ( 1 ) 数据离散化:将属性( 如数量型数据) 离散化成若一干区间。 ( 2 ) 新建变量:很多情况下需要从原始数据中生成一些新的变量作为预测量。 ( 3 ) 转换变量:例如将学生的考试成绩由百分制影射为五分制。 ( 4 ) 拆分数据:依据业务需求对数据项进行分解。如将邮件地址信息分解为国家、省,州、 城市、邮政编码、街道和牌号码等。 ( 5 ) 格式变换:规范化数据格式如定义时间、数值、字符等数据加载格式。 通过将数据属性域划分为区间离散化技术可以用来减少给定连续属性值的个数。区间 的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法,减少属性值的数量特 别有好处。将数据进行离散化,由许多不同的方法。 1 ) 等宽方法:等宽方法将数据的取值范围按等距离划分成若干区间,然后将落在区间内 的数据应射为相应的离散值。等宽方法比较简单,直观,但存在两个明显的缺点: 很难有效地体现数据的实际分布情况 划分边界过硬 使i 【;l j 等宽方法,可能将相邻的数据分开,并且可能创建不存在数据的区间。 2 ) 等深方法:等深方法按数据的个数将数据化分为不同的缎,器组的数据个数近似相同, 等深方法划分的区间( 组) 可能无实际意义,并可能将数据相差很大的值放在一组。 1 3 浙江大学工程硕士学位论文 3 ) 等数据语义距离:等数据语义距离按数据的语义距离将数据划分为不同的组。如将人 员按“儿童”、“青少年”、“中年”和“老年”划分为若干组,而不是等宽方法按年龄值的大 小分为【o ,2 0 】,【2 0 ,4 0 】, 4 0 ,6 0 】:如按年龄将人员排序,然后按人数的多少分成人员相等的组, 则是等深方法。 显然,基丁数据语义距离的划分即考虑整个范围内数据分布的稠密性,也考虑各组内 数据的接近性儿等数据语义距离方法可以产生更有语义意义的离散化,但如何合理地度量语 义距离及定义语义和数据间的映射关系则比较困难。 5 擞据规约 数据规约将辨别出需要挖掘的数据集合,缩小处理范围,是在数据选择基础上对数据挖 掘的进一步约简。数据规约又称数据缩减或数据浓缩,数据规约就是将初始数据集转化为某 种更加紧凑的形式而又不丢失有意义的语义信息的过程。 数据规约技术可以用来得到数据集的规约表示,它接近于保持原数据的完整性,但数据 量比原数据小得多。与规约数据相比,在规约的数据上进行挖掘,所需要的时问和内存资源 更少,挖= 皤f f 将更有效,并产生相同或几乎相同的分析结果。 数据选择选择合适的数据源,数据记录和数据字段等,而数据规约通常包括更复杂的数 据简约处理,列出如下: ( 1 ) 数据聚集 数据聚集采用数据仓库中的切换、旋转和投影技术,对原始数据进行抽象和聚集。数 据聚集技术可聚集数据集现有字段中的数据,或对数据字段进行统计。如将月薪、年薪、月 产量、季度产量或年产量按地区进行汇总等。根据挖掘技术处理的业务需求对数据进行聚 集,不仅大大减少了数据量而且加快了数据挖掘的处理过程,数据挖掘系统可以赢接在合 适的数据上进行挖掘,无需进行额外的数据预处理。数据聚集可以在不同的粒度上进行聚集, 如轻度汇总线高度汇总等。 ( 2 ) 维规约 维规约即数据选择中的属性选择。维规约的主要方法为筛选法。筛选法根据一定的评 价标准在属性集上选择区分能力强的属性子集。从基数为n 的原属性中选择出基数为m ( 却d 的属性集的选择标准通常是:使所有决策类中的例子m 维属性空间中的概率分布与它们在 原n 维属性空间中的概率分布尽可能相同。 维规约的实质是相关属性的选择,而相关属性集的可能情况是原属性的幂集。如何在巨 人的搜索空间中发现最优或合适的相关属性集是规约的关键技术,因此,许多学者先后提出 1 4 浙江人学工程硕士学位论文 了许多方法和算法,其中零维特征法和全维特征法是最早提出的方法。零维特征法也称为逐 步向前选择法。逐步选择原属性集中最好的属性,将其加入到相关属性子集中。并从原属性 集中删除选出的属性,然后在对原属性集剩下的子集进行选代选择,直至发现所有的相关属 性。全维特征法也称逐步向后删除法,该方法从整个属性集开始,每次删除一个冗余属性或 不相关属性,直至没有多余的属性可删, 维规约不仅减少了数据挖掘的数据量,提高了规则的生成效率;而且由于属性的缩减, 使得生成的规则简化,增强了生成规则的可理解性。 6 ,数据质量分析 数据挖掘结果质量的好坏有两个影响因素:一是采用的数据挖掘技术的有效性,二:是用 于挖掘的数据的质量和数据量。如果选择了错误的数据或不适当的属性,或对数据进行了不 适当的变换则不能取得好的挖掘结果。 数据挖掘的效果和数据质量之间有着紧密的联系。所谓的“垃圾进,垃圾出,即数据 的质量越好,则挖掘的结果越精确,反之则不能取得好的挖掘结果。研究数据的质量,为进 一步的分析做好准备,并根据数据情况确定将要进行的挖掘操作的类型。数据质量的含义包 括四个方面,即: ( 1 ) 数据的正确性 ( 2 ) 数据的一致性 ( 3 ) 数据的完整性 ( 4 ) 数据的可靠性 2 3 3 建立模型 在问题进一步明确,数据结构和内容进一步调整的基础上,就可以形成知识的模型。对 历史数据建立一个预测模型,然后再利用另外的一些数据对这个模型进行测试。这一步是数 据挖掘的核心环节,一个好的模型没必要与已有的数据1 0 0 地相符,但模型对未来的数据 麻有较好的预测。建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对 所需要的问题最有t 【 j 。 数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界 的模型。挖掘数据的过程就是按照人们设计的“模型”对数据进行处理、分析、预测的过程, 它是人的经验、分析过程在计算机中实现。模型法通过历史数据预测未来,它的有效性的前 1 5 浙江大学工程硕士学位论文 提条件隐藏着二个假设: ( 1 ) 过去是将来的好的预测器 ( 2 ) 数据是可利用的 ( 3 ) 数据包含我们想要的预测 在数据挖掘中可以使用许多不同的模型,如关联规则模型、决策树模型、神经网络模 型、粗糙集模型、数理统计模型( 如回归模型) 、时间序列分析模型。针对同模型,可以使 用不同的算法进行数据挖掘。 1 模型的精确度 使_ e l j 模型出现错误的数目与总数之间的比,称为错误率。类似的,正确的数目与总数的 比称为准确度。 训练和测试数据挖掘模型需要把数据至少分成两个部分:一个_ j 于模型训练,另一个用 丁模型测试。 模型的精确度越高其可用性就越强就越有利于做出正确的决策。精确度将取决于方法 的设计和历史数据量及用户的期望值。通常在具体应用中,模型不可能精确的表示整个数据 集,冈此在使用训练数据建立模型时,并不要求片面追求封闭测试的正确率,否则可能造成 过匹配现象( 也称过学习) 。 2 模型的验证 建立模型的最后一部是验证模型。在建立模型后,不直接利用这个模型作出决策或采取 行动而是先对模型测试和验证,是一种较好的做法。模型建立好之后,必须评价其结果,解 释其价值。在实际麻_ j 中模型的准确率会随着应用数据的不同发生变化。 詹姆斯鲍尔( j a m e sm b o w e r ) 曾说过:“对一个模型的最好的检验是它的殴计者能否回答 这些问题:现在你知道哪些原本不知道的东西? 你如何证明它是否是对的? ”模型的验证可以 有不同的方式: ( 1 ) 简单验证 ( 2 ) 交叉验证 ( 3 ) 白举法验证 简单验证是最基本的测试方法。将原始数据集划分为两部分:训练数据和测试。训练数 据用于建立模型测试数据则用于测试模型。在划分数据集成分时,需要保证选择的随机性 这样才能使分开的备部分数据的性质是一致的。测试数据 总数据的比例可以各不相同,在 实际麻川中,比例通常在5 到l ,3 之间。验证模型时,使刚该模型来预测测试集中的数据。 1 6 浙江大学工程硕士学位论文 出现错误的预测与预测总数之间的比,称为错误率。正确的预测与总数的比,是准确率。 如果原始数据量较小,不适合直接将数据集进行划分,则可以使用交叉验证。首先将原 始数据随机等分为两部分,然后用一部分作训练集,另一部分作测试集计算错误率,然后将 这两部分数据交换再重复一次,得到另一个错误率,最后再用所有的数据建立一个模型,把 上面得到的两个错误率进行平均,作为最后用所有数据建立的模型的错误率。 2 3 4 挖掘结果的评价和验证 数据挖掘得到的模式有可能是没有实际意义或没有实用价值的,也可能不能准确反映数 据的真实意义,甚至在某些情况下是与事实相反的,因此对于数据挖掘的结果需要进行评估, 确定数据挖掘是否存在偏差,挖掘结果是否正确,确定哪些是有效的、有用的模式,是否满 足用户需求。 2 4 数据挖掘的分类 2 4 1 描述型数据挖掘 1 统计和可视化 要想建立个好的预言模型,必须了解自己的数据。最基本的方法是计算各种统计变量 ( 平均值、方差等) 和察看数据的分布情况。也可以用数据透视表察看多维数据。 数据的种类可分为连续的,有一个用数字表示的值( 比如销售量) 或离散的,分成一个 个的类别( 如红、绿、蓝) 。离散数据可以进一步分为可排序的,数据间可以比较大小( 如, 高、中、低) 和标称的,不可排序( 如邮政编码) 。 图形和可视化j t :具在数据准备阶段尤其重要,它能让使_ j 者快速直观的分析数据,而不 是只给山枯燥乏味的文本平数字。它不仅使用者看到籀个森林,还允许使川者拉近每一棵树 来察看细竹。在图形模式下我们很容易找到数据中可能存在的模式、关系、异常等,直接看 数字则很难。 可视化工具的问题是模型可能有很多维或变量,但是我们只能在2 维的屏幕或纸上展示 它。比如,我们可能要看的是信用风险与年龄、性别、婚姻状况、参加丁作时间的关系。因 此,可视化f 具必须用比较巧妙的方法在两维空间内展示n 维空间的数据。虽然目前有了一 些这样的工具,但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西。 1 7 浙江火学程顿 :学位论文 对于眼睛有色盲或空间感不强的人,在使用这些工具时可能会遇到困难。 2 聚集( 分群) 聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个 群之闻的数据尽量相似。与分类不同( 见后面的预测型数据挖掘) ,在开始聚集之前你不知 道要把数据分成几组,也不知道怎么分( 依照哪几个变量) 。因此在聚集之后要有一个对业 务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可 能并不好,这时你需要删除或增加变量以影响分群的方式,经过,l 次反复之后才能摄终得到 一个理想的结果。神经元网络和k 一均值是比较常用的聚集算法。 不要把聚集与分类混淆起来。在分类之前,我们已经知道要把数据分成哪j l 类,每个类 的性质是什么聚集则恰恰相反。 3 关联分析 关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规 则是寻找在同个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相 关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,如对移动电话通话费涨跌 的分析。 芙联规则可记为a = = b ,a 称为前提和左部( l h s ) ,b 称为屙续或右部( r h s ) 。 如关联规则“买锤子的人也会买钉子”,左部是“买锤子”,部是“买钉子”。 发现的关联规则可以应用于商品货架设计、存货安排以及根据购买模式对用户进行分 类。只要一个客户在同一个时问里买了多样东西,或者在一段时间内做了好几样事情就可能 是一个潜在的应用。 2 4 2 预言型数据挖掘 数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界 的模型。建立这个模型可能需要各种各样的源数据,包括交易记录、顾客历史数据、人口统 计信息、进程控制数据、和市场相关的外部数据等,比如:信i # 公司提供的数据、天气数 据等。模玳是模式和数据间相芙性的形式化描述。为了防【r 混淆。我们把数据挖掘概念划分 为儿个层次 商业目标 预言的种类 1 8 浙江大学工程硕士学位论文 模型的类溅 算法 产品 最高层是商业目标:数据挖掘的最终目的是什么? 比如:希望用数据挖掘技术留住你的 有价值的客户,你可能先要建立一个模型来预测每个客户所能带来的利润,然后再建立一个 模型来确定哪些客户可能会离开。充分了解你所在企业的需求和目标有助于你建立这样的目 标。 卜一步是决定最合适的预言的种类: ( 1 ) 分类:预测一个特定的客户或事件属于哪一 类; ( 2 ) 回归( 陀g r e s s i o n ) :预测一个变量的值( 如果此变量随事件变化,可成为时间 序列预测) 。在上面的例子中你可以用回! i = = 来颈测利润的大小,用分类预测哪些客户会离开。 现在你可以选择模型的类型:用神经网络来做同归,决策树做分类,还是用统计模翻, 如:逻辑同归,偏筹分析,普通线性模型等。 每种模型都可以用不同的算法来实现,比如,可以用回馈函数或r a d a ib a s i s 函数来建立 神经网络:决策树有f d 3 ,c 5 o ,o u e s t ,c h a i d 等。 大部分的商业目标都可以用各种不同的模型及相异的算法来解决。通常在还没有试过任 何数据挖掘算法之前,很难决定那种是最好的。 在预言模型中,把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量:用 于预测的输入变量是预测变量或独立变量。 一些预言模型是通过那些已知目标变量值的历史数据训练出来的。这种训练有时也称为 带指导的学习。因为是通过给出一些已知答案的问题( 已知结果的数据) 来让它“学习”。 相对麻的,还有不带指导的学习,如上面提到的描述型数据挖掘( 在返行之前,算法对数据 一无所知) 。 1 分类( c l a s s i f i c a t i o n ) 分类要解决的问题是为一个事件或对象归类。在使用上,既可以用此模型分析已有的数 据,也可以用它来预测未来的数据。例如,用分类来预测哪些客户最倾向于对直接邮件推销 做出回戍。又有哪些客户可能会换他的手机服务提供商,或在医疗领域当遇到一个病例时用 分类来判断一下从哪些药品着手比较好。 数据挖掘算法的工作方法是通过分析已知分类信息的历史数据总结出一个预测模型。这 里崩于建立模型的数据称为训练集,通常是已经掌握的历史数据。如,已经不再接受服务的 川户你很可能还保存了他们在接受服务时的历史记录。训练集也可以是通过实际的实验得 1 9 浙江大学工程硕士学位论文 到的数据。比如你从包含公司所有顾客的数据库中取出一部分数据做实验,向他们发送介绍 新产品的推销信,然后收集对此做出回应的客户名单,然后你就可以用这些推销回应记录建 立一个预测哪些j ; j 户会对新产品感兴趣的模型,最后把这个模型应用到公司的所有客户上。 2 回归( r e g r e s s i o n ) 同归是通过具有己知值的变量来预测其他变量的值。在蛀简单的情况f ,回! - i 采用的是 象线性| 亓1 归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性同归所 能预测的。如商品的销售量、股票价格、产品合格率等,很难找到简单有效的方法来预测, 因为要描述这些事件的变化所需的变量以上百计,且这些变量本身往往都是非线性的。为此 人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神经网络等。 一般同一个模型既可用于回归也可用于分类。如c a r t 决策树算法既可以用于建立分 类树,也可建立回归树。神经网络也一样。 3 时间序列( t i m es e r i e s ) 时间序列是用变量过去的值来预测未来的值。与同归一样,他也是用已知的值来预测未 来的值只不过这些值的区别是变量所处时间的不同。时间序列采用的方法一般是在连续的 时间流中截取一个时间窗口( 一个时间段) ,窗口内的数据作为一个数据单元,然后让这个 时间窗口在时间流上滑动,以获得建立模型所需要的训练集。比如你可以用前八天的数据来 预测第7 天的值,这样就建立了一个区间大小为7 的窗口。 2 5 数据挖掘的模型和算法 数据挖掘算法是对数据挖掘方法的具体实现,一般由3 个部分组成。 1 ) 模型( 从数据库中所发现的模型) 表示:用于描述要发现的模型是语言。如果语言的描 述能力较强,就有助于发现精确的数学模型。但是能力过强的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论