(管理科学与工程专业论文)招生考试数据分析系统的设计与实现.pdf_第1页
(管理科学与工程专业论文)招生考试数据分析系统的设计与实现.pdf_第2页
(管理科学与工程专业论文)招生考试数据分析系统的设计与实现.pdf_第3页
(管理科学与工程专业论文)招生考试数据分析系统的设计与实现.pdf_第4页
(管理科学与工程专业论文)招生考试数据分析系统的设计与实现.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(管理科学与工程专业论文)招生考试数据分析系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术入学研究生院学位论文粥i i i 贝独创性声明本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文题目:担生耋基数量坌堑丞缠煎遮让生塞理学位论文作者签名:蔓查!日期:一2 年1 1 月咖臼学位论文版权使用授权书本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密学位论文在解密后适用本授权书。)学位论文题目:塑垒耋遮数塑佥堑丕统筮遮盐皇塞理学位论文作者签名:丝焘盖作者指导教师签名日期:即2 年if 月如日日期:们矿年,月d ,日国防科学技术大学研究生院学位论文摘要信息管理技术的飞速发展,使各行各业都面临着前所未有的机遇和挑战。教育考试尤其是普通高校招生考试作为全社会关注的焦点,也同样面对着提高信息服务水平和质量的社会需求。数据仓库( d w ) 、联机分析处理( o l a p ) 和数据挖掘( d m ) 是近年来兴起的新的信息处理技术,它在提供更高层次的信息服务方面发挥着越来越重要的作用。通过本论文的工作,在教育考试领域的信息管理工作中引入了数据仓库及其相关的联机分析处理和数据挖掘技术,对招生考试的数据进行了分析,在如何提供有效的决策支持服务方面做了一些有益的探索。本论文对数据仓库、联机分析处理和数据挖掘技术进行了研究,并详细介绍了有关的概念、发展状况、体系结构和实现手段:同时,通过对普通高校招生考试的数据模型进行研究,结合数据仓库中的数据获取技术、多维建模技术设计了一个以普通高校招生考试数据分析为主题的数据集市,并在此基础上综合运用联机分析处理技术、数据挖掘技术和模型辅助决策技术实现了一个招生考试数据分析系统。关键词数据仓库联机分析处理数据挖掘数据分析招生考试扪【且国防科学技术大学研究生院学位论文a b s t r a c tw i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,a 1 1v o c a t i o n sa r ef a c e dw i t hn e wo p p o r t u n i t i e sa n dc h a l l e n g e s a st h ef o c u so ft h ew h o l es o c i e t y ,e d u c a t i o n a le x a m i n a t i o n ,e s p e c i a l i yu n i v e r s i t ye n r o l l m e n te x a m i n a t i o n sa r ea l s oc o n f r o n t e dw i t ht h es o c i a ld e m a n do fi m p r o v i n gt h es e r v i c eo fi n f o r m a t i o n d a t aw a r e h o u s e ( d w ) 。o nl i n ea n a l y t i c a la n dp r o c e s s ( o l a p ) a n dd a t am i n i n g ( d m ) ,a st h en e wi n f o r m a t i o np r o c e s s i n gt e c h n o l o g yr i s i n gi nr e c e n ty e a r s ,a r ep l a y i n gam o r ea n dm o r ei m p o r t a n tr o l ei no f f e r i n gm o r eh i g h l e v e li n f o r m a t i o ns e r v i c e i nt h i sp a p e r ,t h ea u t h o rh a v ein t r o d u c e dd a t aw a r e h o u s ea n do l a pa n dd a t am inin gt e c h n o o g yt oi n f o r m a t i o nm a n a g e m e n to fe d u c a t i a n a le x a m i n a t i o n ,a n da n a l y z e dt h ed a t ao fe n r o l i m e n te x a m i n a t i o n ,a n da l s om a d es o m eh e l p f u le x p l o r a t i o ni nh o wt os u p p o r tm a k i n gd e c i s i o ne f f e c t i v e l y t h ea u t h o rh a v es t u d i e dd a t aw a r e h o u s ea n do l a pa n dd a t am i n i n g ,t h e nd i s c u s s e dt h er e l e v a n tc o n c e p t s ,d e v e l o p m e n ts t a t u s ,s y s t e ms t r u c t u r ea n di m p l e m e n t a t i o ni nd e t a i ls :、l e a n w h jl e t h r o u g hs t u d y i n gt h ed a t am o d e lo fu n i v e r s i t ye n r o l m e n te x o “m i n a t i o n ,i n t e g r a t i n gw i t h d a t ao b t a in in gt e c h n e l o g y m u l t i d i m e n s i o n a lm o d e l i n gt e c h n 0 1 0 9 ya n do l a pi nd a t aw a r e h o u s e ,d e s i g n e dad a t am a r to fu n i v e r s i t ye n r o l i m e n te x a m i n a t i o na n dt h u sd e v e l o p e dad a t aa n a l y z i n gs y s t e mo fu n i v e r s i t ye n r 0 11 m e n te x a m i n a t i o nb a s e do nm o d e ls u p p o r t i n gd e c is i o na n do l a pa n dd a t am i n i n g k e yw o r d s :d a t aw a r e h o u s e :o l a p :d a t am i n i n g :d a t aa n a i y z in g :e n r o ii m e n t e x a m in a t i o n篼】i 乳国防科学技术人学研究生院学位论文第一章绪论1 1 信息技术的发展计算机与信息技术经历了半个多世纪的发展,给人类社会带来了巨大的变化与影响。支配人类社会三大要素( 能源、材料和信息) 中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化时代,使现代社会所有大的机构都卷入到以数据及其处理( 搜集、存储、检索、传送、分析和表示) 的浪潮中。而随着人类活动范围扩展、节奏加快以及技术的进步,人们能够更快速更容易地以廉价的方式获取和存储数据,这就使得数据和信息量以指数形式向上增长。早在上世纪八十年代,人们粗略地估算全球信息量每隔2 0 个月就增加一倍。九十年代后,各类机构的数据库中数据量增长更快。一个不大的企业每天要产生1 0 0 m b 以上来自各方面的营业数据。美国政府部门的一个典型的大型数据库每天要接收约5 t p 数据量,在1 5 秒到1 分钟时间里,要维持的数据量达到3 0 0 t b ,存档数据达1 5 1 0 0 p b 。互联网( i n t e m e t ) 的出现和发展以及虚拟专用网( v p n 一- v i r t u a lp r i v a t en e t w o r k ) 的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换信息和协同工作。这样,展现在人们面前的已不是局限于本部门、本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。面对这极度膨胀的数据信息量,人们受到“信息爆炸”和“数据过剩”的巨大压力。然而,人类的各项活动是基于人类的智慧和知识,即对外部世界的观察和了解、正确的判断和决策以及采取正确的行动。从数据到智慧,要经过分析加工处理精炼的过程。人们对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们手上的任务没有什么关联,还不能作为判断、决策和行动的依据。对信息进行再加工,进行深入洞察,才能获得可资利用的信息,即知识。所谓知识,可以定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。在大量知识积累基础上,总结成原理和法则,就形成所谓智慧( w i s d o m ) 。事实上,一部人类文明发展史,就是在各种活动中知识的创造、交流、再创造不断积累的螺旋式上升的历史。另一方面,计算机与信息技术的发展,加速了这一过程。据有关资料分析,如果说1 9 世纪时科学定律的认识数量一百年增长一倍,到上世纪6 0 年代中期以后,每五年就增加一倍,这其毒知识起着关键的作用。当数据量极度增长时,如果没有有效的方法,由计算机受唁息技术来提取有用的信息和知t 5 ,就会感到像大海捞针一样束手无策。据估计,一个大型企、眦数据库中数据,只有百分之七得镛l 岫国防科学技术大学研究生院学位论文到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到“知识贫乏”。随着数据量的增长,多渠道数据源带来了各种数据格式的不相容性,为了便于获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,形成所谓数据仓库( d w ,d a t aw a r e h o u s i n g ) 。它不同于只适用于日常事务工作的数据库。它是为了便于分析针对一定主题( s u b j e c t o r i e n t e d ) 的集成化的、随时间变化的( t i m e v a r i a n t ) 、稳定的数据集中场所。数据仓库的出现,为更深入对数据进行分析提供了条件。针对市场变化的加速人们提出了能进行实时分析和报表的联机分析处理手段o l a p ( o nl i n ea n a l y t i c a lp r o c e s s i n g ) ,它是一种友好而灵活的工具,它允许用户以交互方式浏览数据仓库,对其中数据进行多维分析,能及时地从变化和不太完整的数据中提取出与组织活动有关的信息。例如能对数据中的异常和变化行为进行了解,o l a p 是数据分析手段的一大进步,以往的分析工具所得到的报告结果能回答f f 么”( w h a t ) ,而o l a p 的分析结果能回答“为什么”( w h y ) 。但上述分析手段是建立在用户对深藏在数据中的某种知识有预感和假设的前提下的。由于数据仓库的数据来源于多种信息源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使组织能及时迅速准确地作出决策,以适应变化迅速的外部环境,就需要有一种基于计算机与信息技术的智能化自动工具,来发掘埋藏在数据中的各类知识。这种手段不应再基于用户假设,而应能自身生成多种假设,再用数据仓库的数据进行检验和验证,然后返回对用户晟有用的结果。同时这种工具还应能适应现实世界中数据的多种特性( 即量大、含噪声、不完整、动态、稀疏、异质、非线性等) 。要达到上述要求,只借助于一般数学分析和算法是无能为力的。多年来,数理统计技术以及人工智能和知识工程等领域的研究成果,诸如机器推理、归纳学习、模糊理论、神经网络、遗传算法、模式识别、粗糙集理论等等分支给开发上述工具提供了坚实而丰富的理论和技术基础。二十世纪九十年代中期以来,许多软件开发商,基于上述技术和市场需求,开发了名目繁多的数据挖掘( d m ,d a t am i n i n g ) t 具和软件,d m 形成了近年来软件开发市场的热点,并开始朝智能化整体解决方案发展。这是从数据到知识发展过程中的一个里程碑。1 2 招生考试信息系统的发展及应用现状我国自恢复高考制度以来在招生考试领域中较早的应用了计算机及信息技术手段。从8 0 年代初期起,全国各省都相继在高考中运用计算机进行成绩处理和划定录取控制分数线,以替弋原始的珠算方法。1 9 9 0 年,湖南省在全国率先销2 贝国防科学技术大学研究生院学位论文采用信息系统工程的方法,对招生全过程使用计算机进行管理,研制了“普通高校招生管理信息系统”,它包括招生计划管理、报名管理、成绩管理、志愿管理、录取管理等分系统。对当时近2 0 万考生、8 0 0 多所中学和5 0 0 多所高校的数据进行了准确、及时、可靠的处理。1 9 9 6 年国家教委在广州召开了全国高校招生计算机管理研讨会,会上提出了今后几年内要在全国各省逐步推行远程网上录取的要求。在随后的几年中,伴随新一轮高校招生考试改革的深入,作为其重要内容之一的录取方式改革( 即网上录取) 也在全国各省逐步展开。教育部依托清华大学开发了全国普通高校招生网上录取管理系统,各省也按照网上录取的要求开发了配套的信息采集系统。高校招生网上录取依托互联网,将考生的纸介质档案改为在网上传递的电子档案,各招生高校可直接在校内通过互联网接收远程异地的各省市招生部门传递的电子档案,并在计算机上阅档、在网上与招生办交互意见,确定录取考生的名单。网上录取从1 9 9 8 年在部分省市试点到2 0 0 1 年在全国所有省市全面实施,这标志着我国招生考试信息管理手段的现代化又进入了一个新的历史时期,是一次重大的飞跃。目前,在招生考试领域的信息化建设中,大多数学校和各级招生考试管理部门在事务操作型信息系统的开发和利用上投入了大量的人力物力,也积聚了相当丰富的数据库资源。但是由于系统的目标主要考虑的是规范业务操作流程、减轻劳动强度和提高工作效率,所开发的管理信息系统基本上都是面向部门事务处理的分散数据库,分别处理当前各自的业务,各个部门的数据按自己的业务需要进行组织,缺乏从适应多变环境的管理决策高度来考虑数据的管理。信息资源杂乱无序、时效性差、共享困难以及缺乏有效利用,各业务部门、各学校和各级招生考试管理机构无法对历史数据进行全局分析和综合决策。与此同时,随着高等教育体制改革和高校招生考试改革的进一步深入,各级教育考试机构正在逐步从行政职能型向社会服务型转变,这就要求招生考试工作必须更加贴近社会、面向社会需求。事实上,目前考生和各级各类学校也对招生考试的信息服务提出了更高的要求,这样就为从宏观决策的角度来推动考试信息资源的增值利用提供了动力。目前,这方面的工作现在还没有很好的开展起来。2 0 0 1 年,教育部学生司和清华同方电脑公司通过中国大学生网站推出了高考填报志愿参考系统,该系统提供的功能有三种:一、针对考生感兴趣的高校查询出历年各高校在当地录取的考生的位次情况:二、根据考生的成绩位次查询历年该位次考生录取到哪些高校的哪些专业;三、针对考生的成绩位次和感兴趣的专业查询出历年在这个专业录取了这一位次考生的高校。从该系统提供的资料来看,它仍然是一个普通的查询系统,不具备从多个视角全面剖析数据的功能,还不能完全满足考生的需要,仍育值得进一步改进的地方。第3 负国防科学技术大学研究生院学位论文1 3 本课题的目标数据仓库、联机分析处理和数据挖掘技术从一开始就是面向应用的。随着这些技术在理论上的逐步成熟,迫切需要将它们应用于各个实际工作领域,并在实践中发展和完善。目前从教育部到各省市招生考试管理部门都还没有在招生考试领域进行过数据仓库( d w ) 、联机分析处理( o l a p ) 和数据挖掘( d m ) 方面的研究和应用开发。因此,本课题的目标是想通过对普通高校招生考试历史数据的分析研究,结合o l a p 和d m 技术的应用,设计多维数据模型并建立数据分析系统的体系结构。其中,通过采用基于o l a p 的模型辅助决策方法,实现一个为考生提供志愿咨询指导服务的应用模块:通过使用数据挖掘方法设计有关分析算法实现一个中学教学绩效评价的应用模块。第二,通过本课题的研究,希望结合实际应用在联机分析处理和数据挖掘技术的实用化以及算法设计的实用化方面做一些有益研究和探索。1 4 论文的内容和结构论文的结构及内容如下:第一章,绪论。首先介绍了信息技术的发展,然后介绍了开发招生考试数据分析系统的有关背景和论文的内容与结构。第二章,数据仓库、联机分析处理与数据挖掘技术。首先介绍了数据仓库( d w ) 、联机分析处理( o l a p ) 和数据挖掘( d m ) 技术的概念及其发展状况;然后,介绍了数据仓库的结构和数据获取技术、多维建模技术:同时,介绍了o l a p中的一些重要概念和基本操作:最后介绍了数据挖掘技术,其中重点对聚类分析算法进行了研究。第三章,招生考试数据分析系统的设计。详细介绍了招生考试数据分析系统的需求、系统设计与系统的功笺。第四章,数据分析系统的实现技术。介绍了系统实现的一些关键技术。包括考试成绩的标准化;志愿咨询模块的多目标决策方法;中学教学评价的k 一均值聚类算法研究等。第五章,数据分析系统的差果验证和评价。对系统的分析结果进行了验证和评价。第六章,总结与设想。总未了论文的工作,展望了今后的工作方向。第4 负国防科学技术人学研究生院学位论文第二章数据仓库、联机分析处理与数据挖掘技术数据仓库创始人w h i n m o n 在建立数据仓库“3 一书中指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程”。虽然没有统一的定义,但般认为数据仓库具有以下几个特点:数据仓库中包含大量的数据,这些数据可能来自组织内部,也可能来自外部;数据以数据仓库方式进行组织的目的是为了更好地支持决策,数据仓库为最终使用者提供了用于存取、分析数据的工具。数据仓库在管理、决策中的作用迓渐为人们认同,但是在全组织范围内构建数据仓库的工作量大、代价很高。于是人们又提出了数据集市( d a t am a r t ) 的概念。事实上,数据仓库在全组织范围内为各个部门提供管理、决策支持,而数据集市通常在部门级,一般只为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。可以说,数据集市是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,支持用户利用已有的数据进行管理决策。联机分析处l 里( o l a p ) 的拇念最早是由关系数据库之父e e c o d d 于1 9 9 3 年提出的。当时,c o d d 认为联机事务处理( o l t p ) 已不能满足终端用户对数据库查询分析的需要,s q l 对大型数据唪进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数握鏖进行大量计算彳能得到结果,而查询的结果并不能满足决策者提出的需求。匿戈c o d d 提出了多维数据库和多维分析的概念即o l a p 。o l a p 理事会给出的o l a p 定义为:“o l a p 是一种软件技术,它使分析人员能够迅速、一致、交互迫从各个方面观察信息,以达到深入理解数据的目的”。联机分析处理技术侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地送等大数据量的复杂查询处理,并以一种直观易懂的形式将查洵结果提供给决策毒之人。o l a p 软件,以它先进的分析功能和以多维形式提供数据的能力,f 作为一种支持决策的解决方案而迅速崛起”。联机分析处理( o l a p ) 技戋以数据仓库为基础,是数据仓库的重要表现形式。它具有数据分析和报表功能是数据仓库中存取和使用模块的重要构件。知识发现( k d d ) 与数萋楚掘( d m ) 是人工智能、机器学习与数据库技术相结合的产物。知识发现l k d d ) 是指从数据中发现有用知识的整个过程。数据挖掘( d m ) 是k d d 过程= 的一个特定步骤,它是用专门算法从大量的、不完全的、有噪声的、模糊的、连机的数抓中抽取出可信的、新颖的、有用的并能国防科学技术大学研究生院学位论文被人理解的模式的高级处理过程。“模式”可以看成是知识的雏形,经过验证、完善后形成知识。随着计算机技术的迅速发展,数据仓库及其相关的联机分析处理技术也得到了长足的发展,许多厂商都提出了自己的数据仓库解决方案,并通过各种渠道大力推广,数据仓库也在实际应用中发挥了巨大的作用。i d c 于1 9 9 7 年曾进行了一项研究,在调查了6 2 家各种规模的、采用了数据仓库的公司之后,得出的结论表明他们的平均投资回报率( r o d 超过4 0 0 。使用数据仓库在产生巨大效益的同时也刺激了对数据仓库技术的需求,成为数据库市场的一个新的增长点。数据仓库及其相关技术是1 9 9 5 年开始盛行起来的。当企业积累了大量的业务数据之后,要充分利用这些资源,根据它们作出决策,所依赖的基础技术就是数据仓库。i b m 所推崇的商业智能( b i ) ,其核心就是数据仓库v i s u a lw a r e h o u s e 。微软的s q ls e r v e r 已经绑定了0 l a p 服务器,将数据仓库功能集成到数据库中,并建立了数据仓库联盟。o r a c l e 公司也有自己的o r a c l ee x p r e s s系列0 l a p 产品用来提供决策支持。s y b a s e 把数据仓库作为主要技术方向之一,其核心产品s y b a s ei q 备受瞩目,国内的招商银行、国信证券公司都已利用它率先建立起了数据仓库系统。以数据仓库为基础的一些应用在国内已经走过了认识阶段,开始走向实践。数据仓库的发展趋势主要表现在三个方面:对非结构化数据的处理、实现共享数据和对信息进行打包。随着数据仓库技术的发展,未来的数据仓库还会增加很多新的改进技术,包括改进数据库内容、改进可用性以及在数据仓库操作质量上的提高。与此同时,联机分析处理( o l a p ) 技术与w e b 以及数据挖掘相结合,产生o l a p 的两个新的发展方向w e b o l a p 及o l a m 啪3 。将w e b 技术与o l a p 结合,扩展了o l a p 的应用范围,这成为o l a p 发展的一个新方向,它不仅仅是网上数据的发布,而是一个基于w e b 的前端联机分析处理界面。客户通过w e b 浏览器提交分析请求给w e b 服务器,w e b 服务器将用户的分析请求提交给应用服务器,应用服务器完成分析操作并将结果转给w e b服务器,而后w e b 服务器将结果返回给用户。联机分析处理( o l a p ) 与数据挖掘( d m ) 既相辅相成又各有侧重。d m 是一种挖掘性的分析工具,它主要是利用各种分析方法主动地去挖掘大量数据中蕴含的规律,而o l a p 则是一种求证性的分析工具,即已有一个假设,通过o l a p来得到验证。o l a p 侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息。o l a p 的分析结果可以给数据挖掘提供信息作为挖掘的依据,数据挖掘可以拓展o l a p 分析的深度,可以发现o l a p 所不能发现的更为复杂、细致的信息。将o l a p 与数据挖掘第6m国防科学技术人学研究生院学位论文相结合能够发挥更好的效用,这就是o l a p 发展的一个新方向一联机分析挖掘( o l a m ) 。研究知识发现( k d d ) 和数据挖掘( d w ) 技术的重大意义已被人们广泛地认识,并且被列为数据库研究领域中最重要的课题之一。例如美国政府开发s e q u o i a 2 0 0 0 项目作为大规模数据库中先进的数据分析工具。许多商业公司也充分认识到了深层次地分析本公司业务数据库中的数据能够带来更多的商业机会,例如银行和零售商店通过分析它们的业务数据,进一步掌握和了解顾客的信誉、习惯和消费心理,从而相应地调整它们的市场策略,以拓宽更广泛的市场。国际上第一次关于数据挖掘与知识发现的研讨会于1 9 8 9 年8 月在美国底特律召开,知识发现一词是在此学术会议上正式形成的,当时仅有数十人参加,此后迅速发展,1 9 9 5 年提升为国际学术大会( i n t e r n a t i o n a lc o n f e r e n c eo nd a t am i n i n g & k n o w l e d g ed i s c o v e r ? i nd a t a b a s e s ) ,即在加拿大召开的第一届知识发现和数据挖掘国际学术会议。这次会议上明确定义了知识发现的概念,并确定了知识发现过程和数据挖掘的关系。此后,数据挖掘开始流行,它是知识发现概念的深化,知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合的产物。数据挖掘自1 9 8 9 年提出已有1 0 多年的历史,并日趋成熟。到目前为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。当今,数据挖掘技术所表现出的广阔应用前景吸引了众多的研究人员和商业机构。关于数据挖掘的研究目前在国外是热门研究方向,已经达到一定的水平并投入应用领域。自1 9 9 5 年以来国外在数据挖掘方面的论文已非常多,并有许多这方面的应用和算法。一受数据挖掘系统也被开发出来,并在商业、经济、金融、管理等领域都取得了应习性成果,其中比较有代表性的有q u e s t ,k d w ,e x p l o r a ,i m a c s ,1 n l e n ,d b m i n e r 。这些系统基本上代表了自2 0 世纪8 0 年代以来的数据挖掘技术的发展:但总的说来,这些系统基本上还停留在实验阶段,在适用性、系统效率方面还不;人意。目前数据挖掘研究和应用兰发展过程中所需要解决的问题主要包括:如何进行大数据量的挖掘:如何挖薹多种形式的输入数据;如何利用用户的领域知识;如何证实挖掘的知识的有效性:知识的表达和解释机制;知识的维护和更新方法;如何支持多种平台以及与其他泛策支持系统的集成等等”1 。旃7 贝国防科学技术大学研究生院学位论文2 2 数据仓库技术2 2 1 数据仓库的基本特征从数据仓库的定义可以看出,数据仓库具有以下一些基本特征:1 面向主题。主题是指用户使用数据仓库进行决策所关心的重点方面,如销售情况、人事情况、整个企业的利润状况等:所谓面向主题,是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。2 集成性。集成性是指数据仓库中存储的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过系统加工、汇总和处理,保证数据仓库内的信息是关于整个组织的一致的全局信息。3 稳定性。从数据的使用方式上看,数据仓库的数据是稳定的。这是指当数据被存放到数据仓库中以后,用户只能通过分析工具进行查询、分析,而不能修改其中存储的数据。也就是说,数据仓库的数据对用户而言是只读的。4 随时间变化的。数据仓库数据随时间定期更新,每隔一段时间,新数据被抽取、转换后集成到数据仓库中,而历史数据仍被保留在数据仓库中。伴随时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。2 2 2 数据仓库系统的体系结构所谓数据仓库系统( d w s ,d a t aw a r e h o u s es y s t e m ) 就是对进入数据仓库的原始数据完成抽取、转换、过滤、清洗等处理,最终进入数据仓库,以及对数据仓库中存储的数据进行更新、管理、使用、表现等的相关软件和工具的组合,用以支持数据仓库应用或管理决策。1 。其体系结构见图2 1 。数据仓库的数据来自多个数据源,包括组织内部的数据和外部的数据。数据集市是为满足特定的数据需求而创建的数据仓库。它可以看作是全局数据仓库的一个子集,是针对部门级的应用而建立的数据仓库。数据仓库管理部分的组成包括:1 定义部件:用于定义和建立数据仓库系统。它包括以下几部分:设计和定义数据仓库的数据库:定义数据来源;确定数据源向数据仓库复制数据的转换、清理规则。矩8 负国防科学技术人学研究生院学位论文2 数据获取部件。依据数据定义部件定义的规则从数据源中将数据抽取到数据仓库中,完成清洗、转换和装载工作,将数据装载到数据仓库中,定期整理数据仓库,消除数据仓库与源数据库的不一致,消除失效数据等。一般情况下可以通过一些通用工具完成,但是由于数据源中的数据类型、格式非常复杂,凼此有些情况卜需要编制特定的工具完成数据获取t 作。3 管理部件。主要包括对数据仓库中数据的维护、安全、备份、恢复、r志等工作。这些工作需要借助薮据库管理系统的功能实现。4 元数据管理,也可称为售息目录管理。它完成元数据的管理、存储以及对整个数据仓库的榆测和管理,由以下部分组成:技术元数据:由关于数据源、目标、转换规则、清理规则以及数据源与数据仓库之问的映射组成。业务目录:山数据仓库管理员生成由数据来源、当前值、预定义的查询等方面组成,是针对应用数据的元数据管理:数据仓库的工具集主要由一些分析工具组成,包括检索查询工具、多维数据的o l a p j 析t 具、统计分析以夏数据挖掘工具等。严格地说,数掂挖掘只是数据仓库支持辅助决策的一种方法数据挖掘工具既可以从数据仓库中挖掘知识、规律也可以在数据库或者些互可文件中进行挖掘,但是从支持辅助决策的角度束舌,将它归为数据仓库系;:喑“分也足可以的。数据仓库的应用结构是一1 、典型的客户机服务器结构形式,其客户端的工作上要包括客交、格式7 二乏淘、可视化以及报表生成等内容,服务器端完成国防科学技术大学研究生院学位论文各种辅助的查询、复杂的计算和各类综合功能等工作。这种方式在提高性能和可靠性、降低数据传输量以及保证数据的安全性等方面能带来很大的好处。服务器端一般有o l a p 服务器和数据挖掘服务器两种,其中o l a p 服务器能加强和规范决策支持的服务工作,集中和简化客户端和数据仓库服务器的部分工作。2 2 3 数据的转移数据仓库构建过程中的数据转移( 数据获取) 包括抽取、转换和装载( e t l )等工作,它耗时巨大,一般要花费数据仓库构建时间的8 0 。数据转移是实现数据仓库系统的关键技术,它是联结事务处理系统和数据分析系统的纽带。数据转移所要面对的是从各个独立开发的事务型系统中集成数据的挑战,且这些系统和数据仓库一样是动态的。因此数据转移将面临如下问题o “:1 不同的数据格式。在独立开发的事务型系统中,同样的数据元素的格式彼此不同。因此必须定义一种能够被用户群体所接受的单一格式,在数据仓库中形成统一的语义。2 “坏数据”的影响。在将数据从事务处理环境转移到数据仓库时,必须经过净化和校验。不仅要处理丢失的或者无效的数据,而且还要考虑那些虽然通过了所有检查却仍然不正确的数据。3 不兼容的源系统。组织规模越大,信息系统的数量就越多。随着源系统数量的增多,从中获取数据到数据仓库中的转换工作的复杂性就会增加。4 源系统的改变。在数据仓库的建设周期中,通常会忽略操作型环境的动态特性。源系统中的数据的格式和结构是很容易改变的,这些改变的检测在某些时候可能需要人工参与。5 用户的不同需求。在数据仓库中用户需要何种细节的数据关系到数据粒度的设计问题。对这些问题的处理不是一步能实现的,必须利用多种技术和复杂过程来逐步达到目的。数据转移的实施步骤主要包括数据抽取、净化、转换和集成等多个环节。具体说明如下:1 数据抽取:数据仓库的数据必须从包含数据源的操作型系统中抽取出来,放入数据准备区为后期数据提供形式一致、概念统一的数据集。2 数据净化:对坏数据进行净化就是去除数据源的不一致性和错误的代码。在多个事务数据库中,可能有许多相同的数据,但它们的格式可能会有所不同,进入数据仓库的数据必须经过净化协调去除不同编码方式的差异。3 数据转换:把数据转按为所需的结构和数据类型可以消除不兼容系统之j l 白j 的数据不一致以适应数据仓睾的设计要求。4 数据集成:在数据处莲中,如果数据仓库中的数据保持和事务系统差不第1 0 负国防科学技术人学研究生院学位论文多的数据细节程度,那么分析查询速度同源系统一样可能面临海量数据的临时汇总而显得很慢。因此必须把事务系统中的明细数据按数据仓库应用的粒度要求聚合成为汇总数据。224 多维数据建模技术数据模型是数据仓库的核心问题之一。很多研究表明,传统的数据模型( 如实体关系模型,e r 模型) 不能有效地表示数据仓库中的数据结构和语义,也难以支持o l a p 应用。c o d d 提出的o l a p 标准指出,o l a p 具有多维特征。传统的e r 建模是根据消除数据模型中冗余、恢复某些含有特定标识的单个记录和优化在线事务处理的性能等目的来建立的。相反,在多维建模中,一个表和关系的模型是根据关系数据库中的优化决策性能的目的来建立的。多维建模通过选择被建模的应用过程来形成一个逻辑数据模型,并决定事实表中的每个单独的低层记录的含义( 事实表的粒度) 。事实表是多维分析的焦点,它是多维查询分割表的集合。分割的标准包含在一个或多个维表中,维表的单个局部主键构成多维建模设计中的相关事实表的外部键。事实表中的这些外部键形成了事实表的复合键,从而表达了一个多对多的关系。事实表的颗粒通常是分析结果的度量值( 如销售量、投资额、收入等) ,它们依赖于。组维表,这些维表提供了这些度量值的上下文联系( 如商店维、消费者维、时问维、产品维等) 。例如销售量与城市、产品名称和销售时间有关,这些相关的维唯一决定了销售量这个度量值。在决策支持系统中,可以采用适当的聚集技术,实现快速综合查询功能。通过对事实表、聚集表、维表的查询,能很好地实现上钻、下钻、切片、旋转等操作,并以灵活的方式将结果返回给用户,从而给决策者提供了很好的辅劲工具。多维模型有两种最基本的结构,即星型结构和雪片型结构,星型结构是多维数据模型中的一种典型结构,它组织实体的方式是把一个事实表放在中间,周围有多个维表与这个事实表相连雪片型结构在维表上增加了层次结构。2 3 联机分析处理技术2 31o l a p 的一些基本概念o l a p 是针对特定问题的联枉数据访问。通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的牟取,允许管理决策人员对数掘进行深入观察。0 l 。 p中常用的一些基本概念有”。:1 变量第1 l 血国防科学技术人学研究生院学位论文变量是数据的实际意义,即描述数据“是什么”。例如,数据1 0 0 本身并没有意义或者说意义未定,它可能是一个学校的学生人数,也可能是某产品的单价,还可能是某商品的销售量等等。一般情况下,变量总是一个数值度量指标,例如人数、单价、销售量等都是变量,而i 0 0 则是变量的一个值。2 维维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着时间推移而产生的变化情况,这是从时间的角度来观察产品的销售,所以时间是一个维( 时间维) 。企业也时常关心自己的产品在不同地区的销售分布情况,这是从地理分布的角度来观察产品的销售,所以地理分布也是一个维( 地理维) 。其他还有如产品维、顾客维等。3 维的层次人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个描述方面,一般称这多个描述方面为维的层次。一个维往往具有多个层次,例如描述时间维时,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年等就是时间维的层次。4 维成员维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的维成员是由各个不同维层次的取值组合而成。5 多维数组一个多维数组可以表示为:( 维1 ,维2 ,维n ,变量) 。例如,若日用品销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量销售额,就组成了一个多维数组( 地区,对问,销售渠道,销售额) 。6 数据单元( 单元格)多维数组的取值称为数撂重元。当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个变量的值。那么数据单元就可以表示为( 维l的一个成员,维2 的一个成员维n 的一个成员,变量的值) 。232o l a p 的基本分析操作o l a p 分析是指对以多维弓式组织起来的数据采取切片、切块、旋转和钻取等各种分析动作,以求剖析蓑杰,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了誊包含在数据中的信息、内涵。o l a p 分析方式迎合了人们的思维模式,因此蕞夕了混淆并且降低了出现错误解释的可能性。o l a p分析的基本操作有:1 切片( s i i c e )选定多维数组的一个二;喜 二集的动作叫作切片。一个多维数组的切片最终是始1 2 “国防科学技术大学研究生院学位论文由该数组中除切片所在平面两个维之外的其他维的成员值确定的;维是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上集中观察数据。所以对于维数较多的多维数据空间,数据切片是十分有意义的。2 切块( d i e e )和切片相对应,切块也可有如下定义:选定多维数组的一个三维子集的动作称为切块。从另一角度来讲,切块可以看成是在切片的基础上,进一步确定各个维成员的区间得到的片段体,即由多个切片叠合起来。3 旋转旋转即改变一个报告或页面显示的维方向例如,旋转可能包含交换行和列,或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面外的维进行交换( 令其成为新的行或列中的一个) 。4 钻取钻取是使用户在数据仓库的多层数据中能通过导航信息而获得更多的细节性数据。钻取一般是指向下钻取。大多数的o l a p 工具可让用户钻探至一个数据集中有更好细节描述的数据层,更完整的工具则可让用户随处钻探,即除一般往下钻探外,还包括上探( 即让用户查看一个数据集的粗集视图。钻探的深度与维所划分的层次对应) 和交叉钻探( 即可让用户在同一层次从一个数据集横向地移到另一个数据集进行查看和分折) 。o l a p 的数据来源于数据仓库。通过o l a p 服务器,将这些数据抽取和转换为多维数据结构。再使用o l a p 工具对数据从多个角度、多个侧面进行快速、一致和交互的存取,从而使分析人员能够对数据进行深入的分析和观察。23 3o l a p 的数据存储方式根据o l j a p 服务器端的数据组织方法可以将o l a p 分成以下几种结构:多维o l a p ( m o l a p ) 、关系型o l a p ( r o l a p ) 以及混合型o l a p ( h o l a p ) 。1 m o l a pm o l a p 利用一个专有的多维数据库( m d d b ) 来存储o l a p 分析所需的数据,数据以多维方式存储,并以多维视图方式显示。数据在被存入多维数据库时,将根据它们所属的维进行一系列的预处理操作( 计算和合并) ,并把结果按定的层次结构存入多维数据库中。用户通过客户端的应用软件的界面递交分析需求给o l a p 服务器,再由o l a p 服务纂枪索m d d b 咀得到结果并返回给用户。m o l a p 结构的主要优点是:它能迅速地响应决策分析人员的分析请求并快速地将分析结果返回给用户,这得益于它独特的多维数据库结构以及存储在其中的预处理程度很高的数据( 一般霄处理度在8 5 以i :) 。但是在m o l a p 结构中,o i 。a p服务器主耍是通过读预处理迂鞠数据来完成分析操作,而这些预处理操作是预宽m 【3 负国防科学技术大学研究生院学位论文定义好的,这就限制了m o l a p 结构的灵活性。2 r o l a pr o l a p 在功能上类似于m o l a p ,但是它的底层数据库是关系型数据库,而不是多维数据库。用户通过客户端工具提交多维分析请求给o l a p 服务器,后者动态将这些请求转换成s o l 语句执行,分析的结果经多维处理转化为多维视图返回给用户。在r o l a p 结构中,数据的预处理程度一般较低。r o l a p 的主要特点是灵活性强,用户可以动态定义统计或计算方式。r o l a p的缺点是它对用户的分析请求处理时间要比m o l a p 长。m o l a p 和r o l a p 有着各自的优点和缺点,且它们的结构迥然不同。为此一个新的o l a p 结构混合型o l a p ( h o l a p ) 被提出,它能把m o l a p 和r o l a p 两种结构的优点结合起来。3 h o l a p很明显,h o l a p 结构不应该是m o l a p 与r o l a p 结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。实现h o l a p 的方法一般有以下几种:( 1 ) 同时提供m d d b 和r d b m s 让开发人员选择。( 2 ) 在运行时把对关系型数据库的查询结果存入多维数据库。在这种方法中h o l a p 系统按一定的先后顺序使用m d d b 和r d b m s 。h o l a p 系统利用开发人员定义一个静态结构的多维模型来暂存运行时检索出的数据。( 3 ) 利用一个多维数据库存储高级别的综合数据,同时用r d b m s 存储细节数据。这种方法是目前实现h o l a p 结构较理想的方法,它结合了m o l a p 和r o l a p 的优点。2 4 数据挖掘技术2 4 1 数据挖掘的任务、分类与挖掘方法一、数据挖掘的任务数据挖掘是从数据库中发现知识过程中的一个关键步骤。数据挖掘的任务包括有。3 :1 关联分析:分析数据麈中字段项( 变元) 之间的关联关系。若两个或多个变项的取值之间存在着某种规律性,则称这种规律性为关联。即发现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论