




已阅读5页,还剩75页未读, 继续免费阅读
(管理科学与工程专业论文)数据仓库系统在高校管理决策中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 目前,许多高校的管理信息系统己经日趋完善,各个方面的信息被记录地越 来越全面,如一些学生成绩信息、学生学籍信息、教师教学信息以及教学计划等 详细资料。但是8 0 的信息只是简单地存储在数据库中,隐藏在这些数据中的潜 在信息被闲置,不能被充分利用。如果合理地利用这些数据并从中挖掘出有用的 却常被人们忽视的重要信息,又或者能从中找出一些随各种因素动态变化而形成 的规律,这无疑会对高校的管理决策有很大帮助。所以我们提出了将数据仓库技 术应用于高校教学管理中的设想。本文正是从这点出发,建立起高校教学管理数 据仓库系统,用相应的数据挖掘算法进行数据分析,发现隐藏在这些数据中的规 律,从而达到辅助教学决策分析的目的。 本文首先对数据仓库,数据挖掘相关理论知识做了详尽的研究,并提出一些 设计的方案。然后在对现行高校信息系统现状调查分析的基础上,提出高校教学管 理数据仓库系统结构,并实现了对原有各个信息系统数据的抽取、转换和加载到 目标数据仓库( e t l ) 工作模块。在数据仓库数据访问部分,本文结合高校管理决策 的需求和面临的一些问题,就几个典型的数据挖掘方法进行了研究和应用。其中 使用了关联规则a p r i o r i 算法对学生的选课偏好作了详细的分析,并对该算法进 行了改进,提高了算法执行的效率;使用决策树算法建立相应的决策树模型对学 生的就业情况作出了预测分析;使用聚类分析的方法来分析课程教学评价情况, 并给出了具体的实现。最后阐述关于本课题的一些今后的研究展望。 关键词:数据仓库;数据挖掘;关联规则;决策树;聚类 英文摘要 a b s t r a c t a tp r e s e n t ,t h em a n a g e m e n ti n f o r m a t i o ns y s t e m so fm a n yc o l l e g e sh a v eb e e n g r a d u a l l ym a t u r i n g t h ei n f o r m a t i o n o fa l l a s p e c t s i sm o r e c o m p r e h e n s i v e r e c o r d e d s u c ha ss o m es t u d e n t s a c h i e v e m e n t i n f o r m a t i o n ,s c h o o li n f o r m a t i o n , t e a c h e r s t e a c h i n gi n f o r m a t i o n ,t e a c h i n gp l a n sa n ds oo i l b u ta b o u t8 0p e r c e n t so ft h e i n f o r m a t i o ni ss i m p l ys t o r e di nt h ed a t a b a s e t h ep o t e n t i a li n f o r m a t i o nw h i c hi sh i d d e n i nt h e s ed a t ai si d l ea n dc a nn o tb ef u l l yu t i l i z e d u n d o u b t l y ,h o wt om a k ef u l lu s eo f t h e s ed a t aa n de x c a v a tt h o s eu s e f u l ,b u to f t e no v e r l o o k e di m p o r t a n ti n f o r m a t i o na n d t r y t of i n ds o m er u l e sa b o u tg o v e r n i n g c o l l e g e sw h i c ha r ea f f e c t e db yt h ed y n a m i cc h a n g e s m u s tb eg r e a th e l p f u lf o rt h em a n a g e m e n ta n dd e c i s i o n - m a k i n go fc o l l e g e s t h e r e f o r e , w ep r o p o s ea ni d e at h a tw ec o u l du s et h ed a t aw a r e h o u s e t e c h n o l o g y i n c o l l e g e s t e a c h i n gm a n a g e m e n t f r o mt h i sp o i n to fv i e w ,t h i sa r t i c l ei st oe s t a b l i s ht h e d w s y s t e mi nt e a c h i n gm a n a g e m e n t a n dt h e nu s et h ec o r r e s p o n d i n gd a t am i n i n g a l g o r i t h m sf o rt h ed a t aa n a l y s i st of i n dt h el a w sh i d d e ni nt h e s ed a t a ,s oa st oa c h i e v e t h ep u r p o s eo fb e i n g h e l p f u lf o rt h et e a c h i n gd e c i s i o na n a l y s i s t h i st h e s i sm a k e sad e t a i l e di n t r o d u c t i o na b o u tt h et h e o r e t i c a lk n o w l e d g eo fd a t a w a r e h o u s ea n dd a t am i n i n ga tf i r s t ,a n dp r o p o s e ss o m ed e s i g nm e t h o d s t h e ni t p r o p o s e st h ef r a m ea b o u tt e a c h i n gm a n a g e m e n td a t aw a r e h o u s es y s t e mw i t ht h eb a s e o ft h ea n a l y s i sa b o u tc u r r e n ts i t u a t i o no ft e a c h i n gi n f o r m a t i o ns y s t e m ,a n di m p l e m e n t s t h ee x t r a c t i o n ,t r a n s f o r m a t i o na n dl o a d i n gt ot h ed e s i r e dd a t aw a r e h o u s e ( e t l ) w o r k i n g m o d u l ef o rt h ed a t ao f e x i s t i n gi n f o r m a t i o ns y s t e m s a b o u tt h ed a t aa c c e s si nt h ed a t a w a r e h o u s e ,t h i st h e s i sc a r r i e so nas t u d ya n da p p l i c a t i o nw i t hs o m et y p i c a ld a t am i n i n g m e t h o d s c o m b i n i n g t h en e e d sa n dt h e p r o b l e m so fc o l l e g e sm a n a g e m e n t d e c i s i o n m a k i n g a n a l y z et h ep r e f e r e n c e so fc l a s s e sw h i c hs t u d e n t sc h o s e nb yt h e a p r i o r ia l g o r i t h mo fa s s o c i a t i o nr u l e s ,a n dm a k e sa l li m p r o v e da l g o r i t h mf o rt h i s a l g o r i t h m ,a l s oi m p r o v e st h ee f f i c i e n c yo ft h ea l g o r i t h m ;u s i n gd e c i s i o nt r e ea l g o r i t h m e s t a b l i s h e s c o r r e s p o n d i n g d e c i s i o nt r e em o d e l a n d p r e d i c t i v ea n a l y z e s t h e e m p l o y m e n ts i t u a t i o no fs t u d e n t s u s ec l u s t e ra n a l y s i sm e t h o dt oa n a l y z et h es i t u a t i o n o f t e a c h i n ge v a l u a t i o na n dp r e s e n t st h es p e c i f i ci m p l e m e n t f i n a l l y ,t h i s t h e s i s e l a b o r a t e st h ep r o s p e c to ff u t u r er e s e a r c ha b o u tt h i ss u b j e c t k e yw o r d s :d a t aw a r e h o u s e :d a t am i n i n g ;a s s o c i a t i o nr u l e s ;d e c i s i o nt r e e : c l u s t e r i n g 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文= = 数握垒庄丕缠查直撞筻堡迭筮虫的座旦硒究:。除论文中已 经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以 明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发 表或未公开发表的成果。本声明的法律责任由本人承担。 学位论文作者签名:兰丝叁圣 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学 位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士 学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全 文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式出版发 行和提供信息服务。保密的论文在解密后遵守此规定。 本学位论文属于: 保密口在年解密后适用本授权书。 不保密口( 请在以上方框内打“4 ) 论文作者签名:三名超导师签名:吲t 离动论文作者签名:夕儿廷导师签名:w l i f 彬i j e l 期:2 ,d d 7 年 日 数据仓库系统在高校管理决策中的应用研究 第1 章绪论 1 1 问题的提出 人类文明进入信息化高速发展的时代以来,计算机在这一过程中所起的重大 作用越来越为人们所重视。尤其是它对那些大量的、持久的、共享的、需要长期 保存在数据库中的数据的有效管理带给了人们无穷的便利,二十世纪六十年代后 期以来,计算机用于管理的规模越来越大,应用越来越广泛,数据量急剧增长, 同时多种应用、多种语言互相覆盖地共享数据集合的要求越来越强烈。硬件价格 下降,软件价格上升,在处理方式上,联机实时处理要求更多,并开始提出和考 虑分布处理。为解决多用户、多应用共享数据的需求,使数据为尽可能多的应用 服务,数据库技术应运而生,并迅速发展,广泛应用,出现了层次数据库管理系 统、网状数据库管理系统,特别是七十年代,关系数据库以其高级的非过程语言 接口、良好的数据独立性和商品化的关系d b m s 成为市场主流。后来,又出现了 分布式数据库管理系统、面向对象的数据库管理系统、知识库系统等等。 但是随着i n t e r n c t 的发展及普及,数据以指数速度增长。面对海量数据,现有 的信息管理系统( m i s ) 提供的数据查询和报表类功能已不能满足人们的需求。为改 变系统缺乏灵活性的状态,需要新技术能够从海量数据中提取有价值的信息为决 策者提供支持,从而彻底改变“数据丰富,但知识贫乏”的局面。面向决策支持 的数据存储理论和数据分析技术产生并被广泛应用。这就是数据仓库技术、联机 分析处理( o l a p ) 技术、数据挖掘( d m ) 技术,以此为基础的决策支持系统( d s s ) 随 之诞生【1 1 ,并深入到各个领域,经济,科研,教育,许多企业机构都建立起自己的 数据仓库系统。高等院校是教学和科研的重要基地,也是培养人才的重要场所, 要想合理高效地处理好大量的数据信息必须建立起完备的数据仓库系统。 1 2 课题意义 、目前,许多高校的管理信息系统己经完善,各个方面的信息被记录地越来越 全面,但是8 0 的信息只是简单地存储在数据库中,隐藏在这些数据中的潜在信 息被闲置,不能被充分利用。如何充分利用这些数据并从中挖掘出有用的、却常 被人们忽视的重要信息,发现一些随各种因素动态变化而产生的高校管理规则。 第1 章绪论 这对于高校各个层次的决策管理者而言无疑是很感兴趣的。与其它各企事业单位 一样,面对快速增长的海量数据存储,高校迫切需要强有力的数据分析工具将“丰 富的数据 转换成“有价值的知识 。 许多高校己经保存了大量的学生成绩信息、学生学籍信息、教师教学信息以 及教学计划等详细资料。这些数据真实地反映了高校的实际状况,可供高校管理 人员进行各类统计报表和信息查询,但对这些数据所隐含的价值没有挖掘利用, 所以我们提出了将数据仓库技术应用于高校教学管理中的设想。本文正是从这点 出发,建立高校教学管理系统数据仓库,并借助于相应的数据挖掘工具进行数据 分析并发现隐藏在这些海量数据中的关联规律,从而更合理地进行教学决策,具 有重要的现实意义和理论意义。 1 3 国内外研究现状 1 9 9 3 年,w h i n m o n 博士【2 l 在其专著建立数据仓库一书中正式提出了数 据仓库的概念,主张对现有的业务处理系统的数据进行重新组织和构造,使其成 为满足决策支持系统需要的数据组织结构,在业界引起很大的轰动。作为一个有 极大应用前景的新兴研究领域,数据仓库发展的很快,许多大学和公司都在这个 领域内进行着广泛深入的研究,其中以斯坦福大学、i b ma l m a d e n 研究中心、威 斯康新大学、微软和a t & t 的研究最具代表性。 在国外,数据仓库己经成为仅次于i n t e m e t 之后的又一技术热点。大型企业几 乎都在建立自己的数据仓库,数据库厂商也纷纷推出自己的数据仓库解决方案。 目前,国外企业建立和使用的数据仓库应用系统都取得了明显的经济效益,在市 场竞争中显示出强劲的活力,在国内,一些大型企业也相继实施了数据仓库计划, 涌现出一些成功的数据仓库应用范例。国外己经有很多成熟的数据仓库产品。各 大公司都相继推出自己的产品,诸如m i c r o s o f t 的a n a l y s i ss e r v i c e s ,i n f o r m i x 的 o l a p 产品m e t ac u b e 3 1 ,o r a c l e 提供的d e s i g n e r 2 0 0 0 和d i s e o v e r 2 0 0 0 以及s y b a s e 的交互式产品s y b a s ei q 等,并且成功地运用于企业的管理与决策支持之中,而且 随着不断的使用,日趋完善。 从数据中发现知识( 1 d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联合人 工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研讨会已 数据仓库系统在高校管理决策中的应用研究 经召开了多次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐 从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间 的相互渗透。许多学会、学刊也纷纷把d m k d ( d a t am i n i n ga n dk n o w l e d g e d i s c o v e r y ) 列为会议议题或出版专刊,成为当前国际上的一个研究热点。 随着数据仓库、o l a p 、决策支持系统技术的发展,决策支持在数据密集型行 业中的应用越来越广泛。在国内信息化程度较高的银行、金融、电信、保险等行 业决策支持技术的应用己经日趋成熟,他们大都开发了自己的决策支持系统,并 且从中获得了良好的经济效益。基于数据仓库的决策支持系统是数据仓库技术的 具体应用,在国外许多公司已经建立了这样的应用系统。根据国外m e t a 集团的 调查研究,数据仓库技术在金融业、制造业、商贸业以及社会服务等方面的应用 前景非常广泛。我国决策支持系统的研究始于8 0 年代中期,尤其是1 9 8 5 年以后, 关于d s s 的研究课题、各种实际系统以及少数成功案例的介绍越来越多地出现在 有关刊物和报告中。近年来,我国在将数据仓库技术应用于决策支持方面也取得 了长足的进步。在国内许多学者对数据仓库应用系统的研究和开发做了大量的尝 试性工作,在金融、商务、教育、企业管理等应用领域展开了广泛的研究与开发 工作。目前国内比较成功的数据仓库案例比较多,例如中国工商银行数据仓库系 统,基于s y b a s e 的数据仓库解决方案开发的广东电信数据仓库决策支持系统已成 功实施。中国移动通信在数据仓库基础上建立的业务运营支撑系统( b u s i n e s s o p e r a t i o ns u p p o r ts y s t e m ) ,它涵盖了以往的计费、结算、营业、账务和客户服务 等系统的功能,对各种业务功能进行集中、统一的规划和整合,是一体化的、信 息资源充分共享的支撑系统。招商银行的数据仓库项目在1 9 9 8 年成功实施,是我 国第一个建成的数据仓库系统。在应用中,招商银行数据仓库系统实现了以下功 能:异构数据的集成;高效率的加载、存储和查询;以专题分析为特色的切合实 际应用的数据分析。 近几年国内外高校教学信息化水平也在不断提升,教学管理工作向规范化、 信息化、网络化趋势发展。决策层和相关研究工作者开始注意应用数据仓库、多 维分析以及数据挖掘技术对教学运行历史数据的进行分析,获得隐含信息支持教 学决策,提高教学质量、指导教学管理。但研究往往过于片面不够深入,没有形 第1 章绪论 成完整的、成熟的、可行的理论体系和解决方案,而且没有可靠的系统软件产品 应用到教学数据分析领域。 1 4 本论文的研究内容和主要工作 本论文主要是以某重点高校的教学管理信息系统为研究基础,构建合理高效 的数据仓库系统和建立针对性的数据挖掘模型挖掘其中存在的潜在规律以辅助教 学管理和决策分析,主要的研究内容如下: ( 1 ) 根据数据仓库原理与技术,建立高校教学管理数据仓库。 ( 2 ) 设计开发适用于教学数据仓库的专用e t l 工具。 ( 3 ) 在教学数据仓库基础上发掘潜在的值得研究的决策模型,运用合适的数据 挖掘算法对这些模型所涉及的数据仓库中的数据进行分析和研究,找出其中隐含 的模式和关系。 ( 4 ) 验证挖掘出来的有效信息,将其应用于实际当中的教学管理决策和分析。 数据仓库系统在高校管理决策中的应用研究 第2 章数据仓库和数据挖掘相关知识综述 2 1 数据仓库技术 2 1 1 数据仓库定义及特征 数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的 ( i n t e g r a t e ) 、不可更新的( n o n v o l a t i l e ) 、随时间变化的( t i m ev a r i a n t ) 数据集合,用 于支持管理决剩4 1 。对于数据仓库的概念我们可以从两个层次予以理解,首先,数 据仓库用于支持决策,面向分析型数据处理,它不同于企业现有操作型数据库; 其次,数据仓库是对多个异构的数据源的有效集成,集成后按主题进行了重组, 并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库除具有 传统数据库管理系统的共享性、完整性、数据独立性以外,有以下四个特征: ( 1 ) 面向主题【5 l o 操作型数据库的数据组织面向事务处理任务,各个业务系统 之间各自分离,而数据仓库中的数据是面向主题进行组织的。主题是一个抽象的 概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽 象,对应企业中某一宏观分析领域所涉及的分析对象。基于主题组织的数据被划 分为各自独立的领域,每个领域有自己的逻辑内涵而不相交叉。是用户使用数据 仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 ( 2 ) 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据 之间相互独立,并且往往是异构的。数据仓库要管理的数据分布在多个数据库涉 及到多个应用程序,所以,数据仓库要收集和组织这些分散的、跨平台的异构操 作型数据,将其在抽取、清理的基础上经过系统加工、汇总和整理,经统一与综 合,消除源数据中的不一致性,保证数据仓库内的信息是关于整个企业的一致的 全局信息,即对源数据进行规范化处理。这是数据仓库建设中最关键复杂的一步。 ( 3 ) 不可更新的。操作型数据库中的数据通常实时更新,数据根据需要及时发 生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数 据查询,一般情况下不进行修改操作。数据仓库存储的是相当长一段时间内的历 史数据,是不同时间的数据库快照的集合以及基于这些快照进行统计、综合和重 第2 章数据仓库与数据挖掘相关知识综述 组的导出数据,不是联机处理的数据。数据一经集成进入数据仓库以后,是极少 或根本不更新的,是稳定的。 ( 4 ) 随时间变化的1 6 1 。操作型数据库主要关心当前某一个时间段内的数据,而 数据仓库中的数据不可更新是指数据仓库的用户进行分析处理时是不进行数据更 新操作的。数据仓库的数据是随时间的变化而不断变化的:第一,数据仓库随时 间变化不断增加新的数据内容。数据仓库必须不断捕捉o l t p 数据库中新的数据, 追加到数据仓库中去,也就是要不断地生成o l t p 数据库的快照,经统一集成后 增加到数据仓库中去;但对于每次的数据库快照确实是不再变化了。捕捉到的新 数据只是又生成一个数据库的快照加进数据仓库,而不会覆盖原来的快照。第二, 数据仓库随时间变化不断删去旧的数据内容。数据仓库的数据也有存储期限,一 旦超过了这一期限,过期数据就要被删除。第三,数据仓库中包含大量的综合数 据,这些综合数据中很多与时间有关,如数据按照某一时间段进行综合,或隔一 定的时间片进行抽样等,这些数据就会随着时间的变化不断地进行重新综合。 2 1 2 数据仓库的体系结构 整个数据仓库系统是一个包含四个层次的体系结构:由数据源、数据的存储 与管理、o l a p 服务器、前端工具组成同。具体体系结构如图2 1 所示。 数据源 、 厂数据仓库存储、,o l a p 、厂前端工具、 卜、 醉 、 o l a p 服务器 1 1 磊r | 、 厂 一 、 、 卜、 o l a p i 具 数据源e t l 数据仓库应用服务 一多 厂、d m 工具 i 元数据l l 一 图2 1 数据仓库体系结构图 f i g 2 1t h es y s t e ms t r u c t u r eo fd a t aw a r e h o u s e ( 1 ) 数据源:是数据仓库系统的基础,是整个系统的数据源泉。 数据仓库系统在高校管理决策中的应用研究 ( 2 ) 数据仓库的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关 键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库, 同时也决定了其对外部数据的表现形式【剐。 ( 3 ) o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织以 便进行分析。其具体实现可以分为:r o l a p 、m o l a p 和h o l a p 引。r o l a p 基本 数据和聚合数据均存放在r d b m s 中;m o l a p 的两种数据均存放于多维数据库中; h o l a p 基本数据存放于r d b m s 中,聚合数据存放于多维数据库中。 ( 4 ) 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘 工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要 针对o l a p 服务器,报表工具【加l ,数据挖掘工具主要针对数据仓库。 2 1 3 数据仓库的数据组织结构 一般来讲,数据仓库中的信息存储是根据对数据的不同深度的处理分成不同 层次的。数据仓库中的数据通常分为四个级别:早期细节级、当前细节级、轻度 综合级、高度综合级【1 1 】,具体的结构如图2 2 所示。 图2 2 数据仓库数据组织结构图 f i g 2 2t h eo r g a n i z a t i o ns t r u c t u r eo fd a t aw a r e h o u s e 第2 章数据仓库与数据挖掘相关知识综述 早期细节级:存储过去的详细数据,反映真实的历史情况。这类数据随着时 间增加,数据量很大,使用频度低,一般存储在转换介质中。 当前细节级:最近时期的业务数据,是数据仓库用户最感兴趣的部分。随着 时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。 轻度综合数据级:从当前基本数据中提取出来,通常以较小的时间段( 粒度) 统计而形成的数据。这类数据较细节数据的数据量小得多。 高度综合数据级:这一层的数据十分精练,是一种准决策数据,粒度水平的 数据比其它水平的数据量小得多。 数据由操作型环境导入数据仓库的。一旦数据过期,就由当前细节级进入早 期细节级。综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数 据级进入高度综合数据级。相当数量的数据转换通常发生在数据由操作层向数据 仓库传输的过程中【1 2 1 。 2 1 4 数据仓库的联机分析处理( o l a p ) 联机分析处理( o l 廿) 的概念最早是由关系数据库之父e f c o d d 1 3 】于1 9 9 3 年 提出的。当时c o d d 认为联机事务处理已不能满足终端用户对数据库查询分析的需 要,s q l 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分 析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策 者提出的需求。因此c o d d 提出了多维数据库和多维分析的概念,即o l a p 。 目前最权威的联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 定义是o l a p 委员 会给出的:“o l a p 是使分析人员、管理人员和执行人员能够从多种角度对从原始 数据中转化出来的、能够真正为用户所理解的并真实反映企业多维特性的信息进 行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术。 根 据o l a p 产品的实际应用情况和用户对0 l a p 产品的需求,1 9 9 5 年o l a pc o u n c i l 提出了一种对o l a p 更简单明确的“f a s m i ”判断原则,即共享多维信息的快速 分析( f a s ta n a l y s i so fs h a r e dm u l t i d i m e n s i o n a li n f o r m a t i o n ,f a s m i ) 。这个简单的定义 描述了o l a p 的五个特征【1 4 l : ( 1 ) 快速性( f a s t ) :用户对o l a p 的快速反应能力有很高的要求,系统应能在5 秒内对用户的大部分分析要求做出反应。 数据仓库系统在高校管理决策中的应用研究 ( 2 ) 可分析性( a n a l y s i s ) :o l a p 系统应能处理与应用有关的任何逻辑分析和统 计分析。 ( 3 ) 共享性( s h a r e d ) ( 4 ) 多维性( m u l t i d i m e n s i o n a l ) :多维性是o l a p 的关键属性。系统必须提供对 数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。 ( 5 ) 信息性( i n f o r m a t i o n ) :不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得并管理大容量的信息。 要理解o l a p 的相关概念主要有如下几点: 维 维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一 个维( e g 女u 时间维、地区维等) 。例如,一个企业在考虑产品的销售情况时,通常会 从时间、地区和产品等的不同角度来深入观察产品的销售情况,这里的时间、地 区和产品就是维。 维的层次 人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的各个描 述方面( 比如“时间维”可以分为如下几个层次:年、季度、月份、日期等;“地 区维”可以分为:中国、山东、济南等几个层次) 。 维的成员 维的成员就是维的一个取值,是数据项在某维中位置的描述( 比如“某月”是 在时间维上位置的描述,“济南”是在地区维上位置的描述) 。 多维数组 多维数组是维和度量的组合表示。一个多维数组可以表示为:( 维1 ,维2 , 维n ,度量) ,比如( 时间,地区,产品,销售额) 。多维数组是o l a p 分析的基础。 数据单元 数据单元就是多维数组的取值,比如( ( 2 0 0 7 年5 月,济南,电视机,y 2 5 8 0 0 0 0 ) , 其中时间维取值为“2 0 0 7 年5 月 ,地区维取值为“济南”,产品维取值为“电 视机 ,销售额( 度量) 取值为“y 2 5 8 0 0 0 0 。 o t a p 工具 第2 章数据仓库与数据挖掘相关知识综述 o l a p 工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据 进行分析、查询和报表。 o l a p 的基本操作是指对以多维形式组织起来的数据采取切片、切块、旋转等 各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓 库中的数据,从而深入地了解包含在数据中的信息和内涵。 多维的切片1 1 5 】。在多维分析过程中,如果把多维数据集的某个维度选定一 维成员,这种选择操作就称为切片。也即:如有( 维1 ,维2 ,维i ,维n , 观察变量) 多维数据集,对维i 选定了某个维成员,则( 维1 ,维2 ,维i 成员, 维n ,观察变量) 就是多维数据集( 维1 ,维2 ,维i ,维n ,观察变量) 在维 i 上的一个切片。这种切片的数量完全取决于维i 的维成员个数,如果维数越多, 可以做的切片也就越多。在切片的概念中,有以下两个重要的概念必须掌握:一 个是多维数据集的切片数量多少是由所选定的那个维的维成员数量的多少所决定 的;另一个是进行切片操作的目的是使人们能够更好地了解多维数据集,通过切 片的操作可以降低多维数据集的维度,可使人们将注意力集中在较少的维度下进 行观察。 多维的切块。与切片类似,如在一个多维数据集中对两个( 及其以上的) 维度 选定维成员的操作可以称为切块。即在( 维1 ,维2 ,维i ,维k ,ee 维n , 观察变量) 多维数据集上,选定维i 维k 作为维成员,则( 维1 ,维2 ,e e9 维i 成 员,维k 成员,维1 1 ,观察变量) 就是多维数据集( 维1 ,维2 ,维i , 维k ,维1 1 ,观察变量1 在维i 维k 上的一个切块。显然,当i - k 时,切块操 作就退化成切片操作。实际上,切块操作也可以看成进行多次切片操作以后,将 每次切片操作所得到的切片重叠在一起而形成的。 旋转。在对数据仓库的多维数据集进行显示操作过程中,用户常常希望能 将多维数据集改变其维的显示方向,也就是说进行多维数据集的旋转操作。旋转 操作可将多维数据集中的不同维进行交换显示,以使用户更加直观地观察数据集 中不同维之间的关系。 数据仓库系统在高校管理决策中的应用研究 2 2 数据挖掘技术研究 2 2 1 数据挖掘的定义 数据挖掘( d a t a m i n i n g ,d m ) 是一种决策支持过程,它主要基于人工智能、机 器学习、统计学技术,高度自动化地分析企业原有的数据,做出归纳性的推理, 从中挖掘出潜在的模式,帮助决策者做出正确的决策。数据挖掘也可称为数据库 中的知识发现【1 6 ( k n o w l e d g e d i s e o v e r d a t a b a s e ,g d d ) 。对数据挖掘与知识发现的一 个比较公认的定义是:从存储于数据库的数据集合中识别和提取出潜在的、可信 的、新颖的、有效的并能被人理解的关系、规则、特征的非平凡的过程。 2 2 2 数据挖掘的过程 数据挖掘的过程是一个以用户为中心,人机交互的探索过程。可以分为以下 几个步骤: ( 1 ) 确定业务对象 清晰地定义出业务问题是属于关联分析、时序模式、分类、聚类、偏差分析 以及预测,还是综合应用,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的 最后结构是不可预测的,但要探索的问题应是有预见的。为了数据挖掘而数据挖 掘则带有盲目性,是不会成功的。例如,我们要做学生成绩的分析,就应该首先 明确其任务主要是分类。 ( 2 ) 数据挖掘技术和工具选择 数据挖掘是人工智能与数据库技术相结合的方法,它的许多方法来源于机器 学习。因此机器学习、模式识别、人工智能领域的常规技术,如聚类分析、决策 树、统计分析等方法经过改进后均可用于数据挖掘。对于不同的系统,数据挖掘 需要采用不同的技术方法和手段。例如上面的业务对象主要是分类,且还需要知 道每个类的流失原因和预测,那么可以采用的技术就是聚类分析和决策树。 ( 3 ) 数据准备 本阶段又可以进一步细分为三步:数据集成、数据选择和预分析、数据转换。 集成:在这一步中,将从操作型环境中提取并集成数据,解决语义二义性 问题,消除脏数据等。 第2 章数据仓库与数据挖掘相关知识综述 数据选择和预分析:这一步将负责缩小数据范围,提高数据挖掘的质量, 验证型工具( o l a p ) 擅长于对数据的细致、深入地观察和表述。 数据变换:将数据变换成一个分析模型。 ( 4 ) 数据挖掘 根据用户数据特点及用户的需求选择合适的数据挖掘方法或挖掘软件对经过 处理的数据进行自动挖掘。 ( 5 ) 结果评价和解释 数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以 利用可视化工具。数据挖掘在教学管理系统中的基本流程f 1 7 】如图2 3 所示。 定义 问题 数据 准备 确定 主题 读入数据并 建立模型 挖掘 操作 图2 3 数据挖掘在教学管理系统中的基本流程 f i g 2 3t h eb a s i cp r o c e s so fd a t am i n i n gi nt e a c h i n gs y s t e m 结果表 达式 2 2 3 数据挖掘的分类 数据挖掘是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机 器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可 视化等最新技术的研究成果。由于数据挖掘源于多个学科,不同领域有不同的需 要,这样就产生了不同类型的数据挖掘系统。为了帮助用户区分数据挖掘系统, 确定最适合其需要的挖掘系统,就需对数据挖掘系统有一个清楚的分类。根据不 同的标准,数据挖掘系统可分以下几类【1 8 i : ( 1 ) 根据挖掘的数据库类型分类 若根据数据模型分类,可分为关系型、事务型、面向对象型、对象关系型或 数据仓库型等。若根据所处理的数据的特定类型分类,可分为空间型、时间序列 型、文本型、多媒体型以及互联网型等等。 ( 2 ) 根据数据挖掘的任务分类 数据仓库系统在高校管理决策中的应用研究 根据数据挖掘的任务可以分为:总结规则、关联规则、分类规则或预测、聚 类规则、趋势分析、偏差分析、模式分析等。 ( 3 ) 根据数据挖掘对象分类 数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒 体数据挖掘、w e b 数据挖掘。由于对象不同,挖掘方法的差异很大。 ( 4 ) 根据采用的数据挖掘方法分类 可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方 法中,可以细分为:回归分析( 多元回归、自回归等) 、判别分析( 贝叶斯判别、费 歇尔判别、非参数判别等) 、聚类分析( 系统聚类、动态聚类等) 、探索性分析( 主成 分分析法、相关分析法等) 等。机器学习中,可以细分为:归纳学习法( 决策树、规 则归纳等) 、基于范例学习、遗传算法等。神经网络方法中,可以细分为:前向神 经网络( b p 算法等) 【1 9 1 、自组织神经网络( 自组织特征映射、竞争学习等) 等。数据库 方法主要是多维数据分析或o l a p 方法,另外还有面向属性的归纳方法。 在实际应用中,数据挖掘通常指的是按挖掘任务来分类的。为了更好的决策, 往往要对同一批数据同时用几种方法挖掘,最终比较,从中选择较合理的一种。 2 2 4 数据挖掘的方法 数据挖掘方法【2 0 l 通常可以分为两大类:一类是统计型,常用的技术有概率分 析、相关性、聚类分析和判别分析等;另一类是人工智能中的机器学习型,通过 训练【2 1 】和学习大量的样本集得出需要的模式或参数。由于各种方法都有自身的功 能、特点以及应用领域,数据挖掘技术的选择将影响最后结果的质量和效果,通 常是将多种技术结合使用,形成优势互补。 常用的数据挖掘方法有决策树方法【2 2 1 、遗传算法、贝叶斯网络、粗糙集、神 经网络、统计分析等。 ( 1 ) 关联规则:关联规则的挖掘就是为了在数据库中发现两个或两个以上数据 项的关联关系,是数据挖掘最先研究的问题之一,也是数据挖掘的主要研究方向 和最成熟的主要技术之一。它是一种简单、实用的分析规则,主要用于发现存在 于大量数据集中的数据之间关联性或相关性,从而描述了一个事物中某些属性同 时出现的规律和模式。关联规则在数据挖掘领域应用很广泛,因为它不受只选择 第2 章数据仓库与数据挖掘相关知识综述 一个因变量的限制,适合于在大型数据集中发现数据之间有意义的关系。最经典 的关联规则算法是1 9 9 4 年由r a g r a w a l ,h n i e l i n s l 【i ,s w a m 等人提出的a p r i o r i 2 3 1 算法( 该算法先挖出所有的频繁项集,然后由频繁项集产生关联规则) 。 ( 2 ) 决策树方法:决策树方法是从机器学习中引出的,它根据给定的训练样本 数据集来构建分类模型,以树的形式来表达模型。决策树的算法通常分为两个阶 段:决策树的构建和决策树的修剪。模型建成后,对于树中每一类别的描述,形 成分类规则。目前已形成了多种决策树算法,如i d 3 、c 4 5 、c a r t 、s l i q 、s p r i n t 等。 ( 3 ) 遗传算法【2 4 l :遗传算法是一种全新的最佳化空间搜寻法,其最初概念是由 j o h nh o l l a n d 于1 9 7 5 年提出,是一种基于生物进化理论的技术,其基本观点是“适 者生存 。在数据挖掘时,常把任务表示成一种搜索问题,利用遗传算法强大的 搜索能力找到最优解。它模仿生物进化的过程,通过进行选择、交叉和变异遗传 操作,直至找出最优解。遗传算法已在优化计算和分类机器学习方面显示出了明 显的优势。 ( 4 ) 贝叶斯网络【2 5 j :贝叶斯网络基于后验概率的贝叶斯定理,是建立在对数据 进行统计处理基础上的方法。将不确定事件通过网络连接起来,可以对与其他事 件相关的事件的结果进行预测,其网络变量可以是可见的,也可以隐藏在训练样 本中。贝叶斯网络具有分类、聚类、预测和因果关系分析的功能,其优点是易于 理解,预测效果较好,缺点是对发生频率很低的事件预测效果不好。在医学和制 造业等领域的应用具有较好的效果。 ( 5 ) 粗糙集【2 6 】:该理论是波兰p w a l k a 教授在1 9 8 2 年提出的,它是一种新的数 学工具。这一方法在数据挖掘中具有重要的作用,常用于处理含糊性和不确定性 的问题,发现不准确数据或噪声数据内在的结构联系,也可以用于特征归约和相 关分析。其主要优点就是不需要任何关于数据的初始的或附加的信息,因此广泛 应用于不确定、不完整的信息分类和信息获取。 ( 6 ) 神经网络【2 7 】:神经网络是最常用的数据挖掘技术之一,最早由心理学家和 神经生物学家提出,旨在寻求开发和测试神经的计算模拟。它类似于人类大脑重 复学习的方法,先给出一系列的样本,进行学习和训练,从而产生区别各种样品 数据仓库系统在高校管理决策中的应用研究 之间的不同特征的模式。该算法的优点是对复杂问题能进行很好的预测,对噪声 数据的承受能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 烹饪营养与卫生(第3版)-课件 6.项目三任务二.科学配餐与食谱编制(一)
- 幽默的安全规程讲解培训课件
- 2025年宏观经济展望分析报告:“新秩序”的萌芽
- 岩石书课件教学
- 尾矿工安全培训课件
- 存量房买卖居间服务绿色环保合同
- 电商平台工商股权转让与物流配送协议
- 企业多元化培训方案定制合同
- 企业内部会议信息保密及责任追究协议
- 专利授权担保合同反担保条款及知识产权保护措施
- 2025至2030年中国核辐射探测器行业市场行情监测及前景战略研判报告
- 酒类小作坊管理制度
- 中国皮肤基底细胞癌诊疗指南2023
- 党性主题教育理论测试题及答案
- T/CECS 10348-2023一体化净水设备
- 骨科与麻醉科加速康复围手术期患者血液管理共识
- 打造卓越电信网络-优化技术引领业务增长
- 《医疗机构工作人员廉洁从业九项准则》解读
- 设备维护保养与维修操作手册
- 《支架外固定的护理》课件
- 建钢结构库房合同协议
评论
0/150
提交评论