




已阅读5页,还剩58页未读, 继续免费阅读
(系统工程专业论文)数据仓库与数据挖掘技术在教学管理系统中的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 数据仓库与数据挖掘技术在教学管理系统中 的研究与应用 摘要 数据仓库和数据挖掘是数据库研究、丌发和应用最活跃的分支之,也是决 策支持系统的关键因素,数据仓库是一个支持管理决策过程的、面向丰题的、随 时间而变的数据集合,它是集成的,也是稳定的。数据挖掘是采用人工智能的方 法对数据库和数据仓库中的数据进行分析、获取知识的过程。它们的结合能更好 地为企业或有关部门不同范围的决策分析提供有力的依据。 纵观以往的教学管理系统,多半是以台帐管理为主的o l t p 系统,缺乏综合分 析、辅助决策的能力;并且对其历史积累的海量信息中隐含知识的利用无能为力。 对教学管理进行分析是教学评估的重要手段,采用先进技术对考试过程和教学环 节中产生的数据进行多层次、多角度的分析,利用分析结果辅助教学决策是保证 教学质量、提高学生素质的必然要求。 本文通过埘数据仓库理论和数据挖掘技术的研究,结合考试分析系统的特点, 提出将数据仓库理论和数据挖掘技术运用到教学管理、考试分析中。首先本文介 绍数掘仓库的新技术,然后采用数据仓库技术设计了关于教学管理系统的数据仓 库,并采用o l a p 技术对数据进行分析。同时采用数据挖掘技术,对o l a p 技术 难以分析的数据建立模型,利用a p r i o r i 算法进行数据挖掘,找出数据之间的潜在 规则。最后利用s q ls e r v e r 2 0 0 0 、j a 、,a 和j s p 技术基本实现了基于w e b 的教学考 试分析系统。并提出了系统进一步完善的目标和设想。 关键词:数据仓库、多维数据库、教学管理系统、联机分析处理、数据挖掘、a p r i o f i 算法 东北大学硕士学位论文 a b s t r a c t r e s e a r c ha n d a p p l i c a t i o no f d a t aw a r e h o u s ea n dd a t a m i n i n gt e c h n i q u e s t ot e a c h i n g m a n a g e m e n ts y s t e m s a b s t r a c t d a t aw a r e h o u s ea n dd a t am i n i n ga r et w oo ft h em o s ta c t i v eb r a n c h e so fd a t a b a s e s t u d y i n g ,d e v e l o p i n g a n d a p p l i c a t i o n ,a n d a l s ot h e k e y f a c t o r so fd s s d a t a w a r e h o u s ei sad e c i s i o n s u p p o r t i n g ,s u b j e c t o r i e n t e d ,i n t e g r a t e d ,s t a b l e a n d t i m e d e p e n d e n tc o l l e c t i o no f d a t a ;d a t am i n i n g i st oa n a l y z ed a t aa n d a c q u i r ek n o w l e d g e f r o md a t a b a s em i dd a t aw a r e h o u s eu s i n gt h em e t h o do fa r t i f i c i a l i n t e l l i g e n c e t h e b i n d i n go ft h e mw i l lp r o v i d eas t r o n gb a s i so fd e c i s i o na n a l y z i n gf o re n t e r p r i s e sa n d r e l a t e dd e p a r t m e n t s m o s to ft h ep r e v i o u st e a c h i n gm a n a g e m e n ts y s t e m sa r et h eo n l i n et r a n s a c t i o n p r o c e s s i n g ( o l t p ) s y s t e m st h a th a v en oa b i l i t yo fs y n t h e t i ca n a l y s i s ,d e c i s i o ns u p p o r t , a n dt h eu t i l i z a t i o no fh i d d e nk n o w l e d g ef r o mv a s th i s t o r y i n f o r m a t i o n a n a l y s i so f t e a c h i n gm a n a g e m e n ti s a ni m p o r t a n tw a yt ot e a c h i n ge v a l u a t i o n i ti s n e c e s s a r yt o g u a r a n t e et h eq u a l i t yo ft e a c h i n ga n di m p r o v et h es t u f fo fs t u d e n t sa n a l y z i n gt h ed a t a m a d ei np r o c e s s e so f t e s t sa n d t e a c h i n ga n dt h e ns u p p o r t i n gt h et e a c h i n gw i t ht h er e s u l t s o f a n a l y s i s t h r o u g hs t u d y i n gd a t aw a r e h o u s et h e o r ya n dd a t am i n i n gt e c h n o l o g y , c o m b i n i n g t h ec h a r a c t e r i s t i c so ft e s ta n a l y s i ss y s t e m ,t h i sp a p e rf i r s ti n t r o d u c e st h en e w t e c h n i q u e s o fd a t aw a r e h o u s e ,d e s i g n st h ed a t aw a r e h o u s ea b o u tt h et e a c h i n gm a n a g e m e n t s y s t e m , a n da n a l y z e st h ed a t ab yu s eo f t h et e c h n i q u eo f o l a e t h e n ,t h em o d e lo f d a t at h a ta r e d i f f i c u l tt o a n a l y z e f o rt h e t e c h n i q u e o fo l a pb y u s i n gt h et e c h n i q u e s o fd a t a w a r e h o u s e ,a n dt h ep o t e n t i a lr u l e so fd a t aa r ef o u n db y u s i n gt h ea p r i o r ia l g o r i t h m s f i n a l l y ,b yu s i n g a d v a n c e d j a v a ,s q ls e r v e r2 0 0 0 ,j s pt e c h n i q u e ,a n dd a t a w a r e h o u s i n gt e c h n i q u e s ,t h ea u t h o rh a sf i n i s h e dt h et e a c h i n gt e s ta n a l y s i ss y s t e mb a s e d o nw e ba n dp u t sf o r w a r dt h eo b j e c t i v ea n di d e a so ft h ef u r t h e ri m p r o v e m e n to ft h e s y s t e m 东北大学硕士学位论文a b s t r a c t k e yw o r d s :d a t aw a r e h o u s e ,m u l t i d i m e n s i o n a ld a t a b a s e ,t e a c h i n gm a n a g e m e n t s y s t e m s ,o n l i n ea n a l y t i c a l p r o c e s s i n g ,d a t am i n i n g ,a p r i o r i a l g o r i t h m s 东北大学硕士学位论文 声明 声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或 撰写过的职究成果,也不包括本人为获得其他学位而使用过的材料。 与我- - l 司;e 作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 枞瓣:附 目飙泓7 q 东北大学硕士学位论文 第一章绪论 1 1 本文的研究背景 第一章绪论 进入数字化、信息化时代的= 十一世纪,人们对教育的需求同益增加。随着 计算机技术、通讯技术、网络技术和多媒体技术在现代教育中的广泛应用,教学 的方式趋于多样化和科学化。考试是衡量教学水平的一种重要方法,相对于教学 方式而言,如何科学地进行考试命题和对考试产生的大量数据进行分析,是一个 复杂的系统工程。 目前许多院校及教育部门都有各自的计算机考试系统、教学成绩管理系统等。 这些系统,或多或少实现了对考试数据的基本分析,大致包括及格率分析、试题 难度及区分度分析、学生成绩分布情况等简单的分析。大量的数据只是简单的放 在数据库或文件中,有价值的信息还是被淹没在数据中。因此原有的基于关系数 据库的考试分析系统已经不能满足我们的需求,尤其在进行复杂的查询时无论在 响应时问上还是在查询的结果上都差强人意。所以,本文引入数据仓库和数据挖 掘技术对教学、考试过程产生的数据进行多层次分析,进一步促进教学和规范考 试,为保证教学效果,提高学生素质打下基础。 随着信息技术的发展,二十世纪八十年代未仞,数据仓库和数据挖掘技术相 继问世,数据仓库和数据挖掘技术的目标就是支持决策,这一点正是教学考试分 析系统中要解决的技术难题。因此,本文采用了数据仓库技术开发教学考试分析 系统,这对于科学进行教学管理和规范考试具有重要意义。 1 2 数据仓库技术简介 数据仓库是近年来兴起的一种新的数据库技术。在各大数据库厂商纷纷宣布 产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品时,业界掀起了 数据仓库热。比如o r a c l e 公司的数据仓库解决方案:s y b a s e 公司的交互式数据仓 库解决方案等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议, 如超大型数据库国际会议( v l d b ) ,数据下程国际会议( d a t ae n g i n e e r i n g ) 等, 部出现了专门研究数据仓库( d a t aw a r e h o u s i n g 简记为d w ) 、联机分析处理 ( o n - l i n ea n a l y t i c a l p r o c e s s i n g ,简记为0 l a p ) 、数据挖掘( d a t am i n i n g ,简汜为 东北大学硕士学位论文第一章绪论 d m ) 的论文。 数:据仓库是计算机、o 用领域的新戳念旨在通过通畅、合硎、全而的信,官、篱 理达到有效的决策支持。数据仓库之父w h i n m o n 其定义为【1 1 :数据仓库是支 持管理决策过程的、面向主题的、集成的、时变的、非易失的数据集合。它不同 于传统的数据库,传统数据库中存放的是操作性的数据,主要用于联机事务处理 ( o nl i n et r a n s a c t i o np r o c e s s 简称o u f p ) ,它关心的是响应时问;而存放在数据 仓库中的数据是分析性的数据,主要用于联机分析处理( o nl i n ea n a l y s i sp r o c e s s 简称o l a p ) 。 按照w h 1 n m o n 的描述,可将数据仓库技术的基本特征归纳为如下三个方面: ( 1 )存储面向管理应用与综合分析的集成化和综合性的信息,从历史的角度 描述系统结构和状态的变化,要求采用能够反映时间特征的数据结构; ( 2 )基于传统的面向业务的数据库或外界数据库作为数据源,经过提炼、加 工和归一化整理,生成符合数据应用语义规范要求的数据集合: ( 3 ) 能够支持多种复杂的数据应用和综合性的管理决策分析。 数据仓库的功能可归纳为以下几个方面:首先,提供了基于整个企业集成信 息的标准报表和图表功能。其次,数据仓库支持多维分析( m u l t i d i m e n s i o n a l a n a l y s i s ) ,应用多维分析可以在一个查询中对不同的数据进行纵向或横向的比较, 这在决策工程中非常有用。最后,数据仓库是数据挖掘( d a t am i n i n g ) 技术的基 础。由于数据仓库提供了关于整个企业全局的、一致的信息,因此,在数据仓库 的基础上进行数据挖掘,就可以针埘整个企业的状况和未来发展做出比较完整、 合理、准确的分析和预测。 数据仓库作为数据库发展的新技术,是一种新的数据处理体系结构,它是企 业内部各部门业务数据进行统一和综合的中央数据仓库。它弥补了许多传统数据 库的不足,为企业决策支持系统和行政信息系统提供所需的信息。它是一种信息 管理技术,其最大的用途是提供给决策者一种全新的方式从宏观或微观的角度来 观察多年累积的数据,从而使决策者可以迅速地掌握自己企业的经营运转状况、 运营成本、利润分布、市场占有率、发展趋势等对企业发展和决策有重要意义的 信息,为预测利润、风险分析、市场分析以及加强客户服务与营销等管理活动提 供决策支持,以利于做出更加准确、科学的决策,使企业在竞争中获得优势。 数据仓库技术是为支持决策而产生的,所以其工作目标是支持决策。数据仓 库为o l a p 和数据挖掘( d a t am i n i n g ) 提供支持环境和对象,最终产生决策。 东北大学硕士荦位论文 第一毒绪论 1 3 数据挖掘技术简介 数据挖掘技术的定义是山w j f r a w l e y ,g p i a t e t s k y s h a p i r o 等人提出的1 2 4 1 数据挖掘就是从大量的数据中发现隐藏于其后的规律或数据问的关系,为决策提 供支持。还有很多和这一术语相近的术语,如从数据库中发现知识( k d d ) 、数据 分析、知识抽墩、模式分析、数据考古、数据采集、信息收割、商业智能、数据 融合以及决策支持等。国内的学者也把d a t am i n i n g 译为数据采掘或数据丌采。人 们把原始数据石作是形成知u 的源泉,就像从矿石中采矿一样。原始数据可以是 结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像 数据,甚至是分布在网络 的异构型数据。发现知识的方法可以是数学的,也可 以是非数学的:可以足演绎的,也呵以是归纳的。发现了的知识可以被用于信息管 理、查咖优化、决策支持、过程控制等,还可以用于数据自身的维护。冈此,数 据挖掘是一门广义的交叉学科,它汇聚了不同领域的知识,尤其是数据库、人工 智能、数理统计、可视化、并行计算等。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特 定数据库的简啦检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统 计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联, 甚至利用已有的数据对未米的活动进行预测。例如加拿大b c 省电话公司要求加拿 大s i m o n f r a s e r 大学k d d 研究组,根据其捌有十多年的客,。数据,总结、分析并 提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这 样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营 决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时需要指出 的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去 发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的 知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易 于被用户理解,最好能用自然语言表达发现结果。因此f , h ) d 的研究成果是很讲求 实际的。 数据挖掘所能发现的知识有如下几种”1 :广义型知识,反映同类事物共同性质 的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间 属性差别的知i i :关联型知以,反映事物之问依赖或关联的知识;预测型知识,根据 历史的和当前的数掘推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。 所有这些知识都可以n :不同的概念层次上被发现,随着概念树的提升,从微观到 东北大学硕士学位论文 第一章绪论 中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数 据仓库中,可以发现的一条典型关联规则可能是”买面包和黄油的顾客十有八九也 买牛奶”,也可能是”买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实 施客户化的销售计划和策略是非常有用的。 数据挖掘涉及的学科领域和方法很多,有多种分类方法。根据挖掘任务,可 分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依 赖关系或依赖模型发现、异常和趋势发现等。根据挖掘对象分,有关系数据库、 面向对象数据库、空问数据库、时态数据库、文本数据库、多媒体数据库、异构 数据库、遗产数据库以及w e b 。根据挖掘方法,可分为机器学习方法、统计方法、 神经网络方法和数据库方法。机器学习包含归纳学习方法、基于案例学习、遗传 算法等。统计方法包含回归分析、判别分析、聚类分析、探索性分析等。神经网 络方法前向神经网络、自组织神经网络等。数据库方法主要是多维数据分析和 o l a p 方法,另外还有面向属性的归纳方法。 1 4 本文的主要工作 本学位论文针对教学管理系统丌发过程所面临的主要问题:数据仓库的数据 建模技术、系统的体系结构、数据仓库应用系统的实现方法、数据装载和控制机 制,o l a p 分析、数据挖掘算法等进行了比较深入的研究,用数据仓库和数据挖掘 技术基本的实现了考试分析系统。主要工作有: ( 1 ) 对现行的教学管理系统进行了调查、分析,获得了考试分析的相关信息。 ( 2 ) 参阅了大量的国内外文献,对数据仓库技术进行了深入的研究。 ( 3 ) 建立考试分析系统的基础数据库,数据库系统包含了教师、学生、课程、 考试多方面的基础信息管理。 ( 4 ) 建立了数据仓库的主题域,设计了相关的维度、指标。 ( 5 ) 完成了数据仓库的设计与实现。其中数据抽取采用了先进的d t s 工具,同 时对数据抽取、清洗、转换过程中的一些复杂操作手工编写了高效率的代码,完 成了了数据采集、准备的任务。 ( 6 ) 采用了基于关系型数据库的r o l a p 方法,实现了对数据仓库多维数据的 访问。 ( 7 ) 对当今流行的数据挖掘技术进行了研究,学习了数据挖掘的多种方法。 ( 8 ) 在研究了数据挖掘关联规则的a p r i o r i 算法基础上,提出了一种基于数组 东北大学硕士学位沦丈 第一章绪论 的改进a p r i o r i 算法,提高了算法执行速度和效率,并在系统中实现。 f 9 1 采用了先进的j a v a 、j s p 技术和m i c r o s o f ts q l s e r v e r2 0 0 0 技术,基本实 现了教学管理分析系统。 第二章数据仓库技术 第二章数据仓库技术 2 1 数据仓库技术的产生及定义 2 1 1 数据仓库技术的产生 计算机系统的功能从数值汁算扩展到数据管理距今已有三十多年了。最初的 数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构 成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式 是固定的、死板的。到了t 9 6 9 年,e f c o d d 博士发表了著名的关系数据模型的论 文。此后,大量新技术、新思路的涌现出来并被用于关系型数据库系统的丌发和 实现,使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统。s q l 的使用j j h a - 近些年来计算机硬件的处理能力呈指数级的递增,使关系数据库成为 联机事务处理系统的主宰,丌创了数据管理的一个新时代。 整个8 0 年代直到9 0 年代初,联机事务处理直是数据库应用的主流。联机 事务处理以单一的数据资源,目口数据库为中心,以企业的特定应用服务为目的, 主要是对数据库进行同常操作,通常足列一个或一纽纪录的查询和修改,注重响 应时间,数据的安全性和完整性;然而,应用在不断地进步。当联机事务处理系 统应用到一定阶段后,用户便发现单靠拥有联机事务处理已经不足以获得市场竞 争的优势,他们需要对其自身业务的运作以及整个市场相关行业的情况进行分析, 然后做出有利的决策。这矛| t 决麓需要对大量的业务数据包括历史业务数据和外部 数据进行综合分析才能得到。这种基于业务数据的决策分析,称为联机分析处理。 事实上,将大量的业务数据应用于统计和分析原本是一个非常简单和自然的 想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易, 传统数据库系统已经无法满足数据处理多样化的要求,这主要表现在以下几点: 1 联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关 心数据查询的方便与快捷。联机分析处理和联机事务处理对系统的要求不同,使 同一个数据库在理论上难以做到两全。 2 业务数据往往存放r 分散的异构环境中,而且还有大量的历史数据处于脱 机状态,不利于联机分折的统访问。 3 业务数据的模式针刈。再务处理系统_ | j 没汁,数据的格式和描述方式并不适 东北大学硕士学位论文 第= 章数据仓库技术 合联机分析和查询。 传统联机事务处理强调的是查询和更新( 添加、删除、修改等) 数据库,联机分 析处理强调的是从数据库中获取信息、利用信息。由于事务型处理和分析型处理 两个系统中数据的结构、内容和功能的不同,分离已经成为必然。 近年来,随着数据_ 】_ 荦技术的应用和发展,人们尝试对数据库中的数据进行再 加工,形成一个综合的,面向分析的环境,以更好支持决策分析,因此形成了数 据仓库技术( d a t aw a r e h o u s i n g ,简称d w ) 。数据仓库弥补了原有的数据库的缺点, 将原来的以单数据库为中心的数据环境发展为一种新环境:体系化环境。从而 实现了操作型处理和分析型处理的分离,划清了数据处理的分析型环境( 体系化 图2 1 数据仓库体系化环境 f i g 2 1 t h ea r c h i t e c t u r ee n v i r o n m e n to fd a t aw a r e h o u s e 2 1 2 数据仓库的定义 自从数据仓库概念出现以来,不同的学者从不同的角度为数据仓库下了不同 的定义。现在,业内普遍认同的数据仓库的定义是w h i n m o n 博士于2 0 世纪9 0 年代初给出的。“数据仓库”1 :通常是一个面向主题的、集成的、随时间变化的、 但信息本身棚对稳定的数掘集合,用于对管理决策过程的支持”。w h i n m o n 认为, 数据仓库是2 0 世纪9 0 年代信息技术体系结构中的一个重要组成部分,是数据库 产:业发展的重点。 2 1 3 数据仓库的特征 数据仓库中的数据具有以下基本特征”1 : 1 ) 面向主题( s u b j e c t - o r i e n t e d l 数据仓序中的数据是面向主题的。主题是一个抽象的概念,是在较高层次f - 东北是学硕士学位论丈第= 章数据仓库技术 将企业信息系统中的数据综合、归类并进行分析利用的抽象。主题是企业决策者 进行决策所关心的业务的重点方嘶。面向主题的数据组织方式是在较高层次上对 分析对象的一个完整的、一致的描述,能够完整统一的描述各个分析对象所涉及 的各项数据及数据之间的关系。面向主题是指数据仓库内数据是按主题进行组织, 以支持用户在主题范围内的有效决策。 2 ) 集成化( i n t e g r a t e d ) 数据仓库的数据是从原有分散的数据库数据中提取出来的。这些数据是对操 作型数据进行清理和归整的结果,而不是简单的归并和拷贝。数据在进入数据仓 库之前,必然先经过加工和集成。将原蛔数据结构作一个从面向应用剑面向主题 的转变。 3 ) 历史化( h i s t o r i c a l ) 数据仓库中的数据不仅是关于企业某一时点的信息,而是记录了企业有效的 历史数据,以用于决策。数据仓库以时间为基准来管理数据,允许用户回顾并了 解公司的过去和现在。 4 ) 稳定性( s t e a d y ) 数据仓库的数据主要是为企业决策分析提供依据。一般情况下并不对数据进 行修改,数据仓库的数据是不同时间数据库数据快照的集合,而不是联机处理的 数据。数据仓库的数据不可更新是相对于o l t p 的操作型数据的频繁变化而言,并 非是在数据仓库生命周期过程中一直保持不变。当数据仓库中的数据已经超过数 据存储期限时将会把这些数据从数据仓库中清除出去。 5 ) 动态数据( d y n a m i c ) 数掘仓库的数据必须不断捕捉o l t p 数据库中的数据变化,经统一集成后增 加到数据仓库中形成历史数据:另外数据仓库中的数据超过储存期限后需要删除。 数据仓库内大量的综合数据都与时阳j 有关,这些数据需要随时间变化不断进行重 新综合。 2 1 4 数据仓库与数据库的关系 数据仓库与数据库又是什么关系呢? 以辨证的眼光看,数据仓库的兴起实际 是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据 库和网状数据库,它们面向事务处理:今天的数据仓库就好比是当年的关系数据 库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特 东北大学硕士学位论文 第二章数据仓库技术 性而无谓奔忙,由于软、硬件技术的发展,它可更专心于联机分析领域的发展和 探索。 w h x l l y l o n 在( ( b u i l d i n gt h ed a t aw a r e h o u s e 一书中,详细地列出了数据库 操作型数据与数据仓库分析型数据之间的区别。其中的主要内容如下: 表2 1 数据仓库分析型数据与数据库操作型数据的区别 t a b l e2 1t h ed i f f e r e n c eb e t w e e nd a t aw a r e h o u s e sd a t aa n d o p e r a t i o n a l d a t a 类别操作型数据的特点分析型数据的特点 时i h j 性 存在时间短,经常性变化长期存在,相对稳定 集成度细节数据算:。、! 、* ”。 可更新性实时更新很少更新 驱动打式事件驱动分析驱动 对性能的要求对性能要求高对性能要求宽松 存取概率存取概率人存取概率低、中等 冗余性非冗余性冗余是存在的事实 规模几个g b可以超过上百个g b 从上面的比较来看,数据仓库似乎是一个静态的概念。因此,有人可能会把 数据仓库简单地理解为仅仅是一个大型的数据存储机制。这种理解是不对的。事 实上,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营 的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳,并及时提 供给相应的管理决策人员,是数据仓库的根本任务。因此,数次仓库是一个工程 的概念,是一个动态的概念。 2 2 数据仓库系统的体系结构 一般的数据仓库系统通常由数据仓库、仓库管理和分析工具三个部分组成 其结构形式如图2 2 所示。 第二章数据仓库技术 据i 笪墅坠廿一型堂燮! l 一嚣露鬈纠 源数据! 。l : l o_一一一一 。数路仓库的体系结构 i 图2 2 数据仓库系统结构 f i 罟2 2 t h ea r c h i t e c t u r eo fd a t aw a r e h o u s e s y s t e m 在数据仓库体系中,数据的流程从后台处理的源数据开始,经过中间的存储 管理、应用分析,剑前台的用户访问工具结束,下面沿着数据流向详细说明数据 在数据仓库处理的过程,以及一些关毽名词1 5 1 。 1 源数据 源数据包括内部数据和外部数据。内部数据来自于系统内部,比如内部管理 系统数据库和数据文件中的数据。外部数据是指与分析主题相关的数据,如企业 市场调查与分析等数据。 2 数据提取、清洗、转换 数据的提取是数据进入仓库的入口,从数据仓库的角度来看,并不是数据库 中所有的数据都进入数据仓库,而是根据系统分析主题的需要,确定所要提取的 数据。如我们要分析考生的成绩,则数据库中关于考生自然属性就不需要进入数 据仓库。 同时由于数据库产品的不同以及各应用系统数据格式可能不同,使得各业务 数据库叶t 的数据存在不一致的现象,建立数据仓库时,需要将格式不致的数据 一圈翟醪圈一 慕 东北大学硕士学垃论文第= 章数据仓库技术 转换成统一的恪式。这就需要对数据进行清洗和转换,保证决策支持系统的正确 性。 3 数据仓库存储 数据仓库存储是指用于存放数据仓库数据和元数据的存储空问。 数掘仓库数据包括清洗、转换后导入数据仓库的原始数据和在这些原始数据 上增加的冗余信息。i 柏加冗余信息的目的是保证o l a p 分析和数据挖掘的需要。 元数据是描述数据的数据。它提供了有关数据的环境,包含数据库系统的所 有存储信息、各个数据库和数据表中的字段信息、数据表之间的关联信息、数据 索引约束等。元数据是数据仓库的核心,数据仓库的元数据主要包括两类数据: 第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源 数据项的名称、属性及其在提取仓库中的转化:第二种元数据在数据仓库中是用 柬+ j 最终用户的多维分析模型和前端工具问建立映射的,这种数据成为决策支持 系统的元数据,它包括: ( 1 ) 数据仓库中信息的种类、存储位置、存储格式; ( 2 ) 信息之问的关系、信息和业务的关系、数据使用的业务规则: ( 3 ) 数据模型: ( 4 ) 数据模型和数据仓库的关系。 4 数据集市 数据仓库中存放的是整个企业的信息,并且数据是按照不同的主题来组织的, 比如市场发展分析的主题主要由市场部门的人员使用,我们可以将这部分数据逻 辑上或者物理上分离出米,当市场部门使用数据时,不需要到数据仓库的巨大数 据巾检索,而只需在这些数据上进行分析,我们把这种面向某个主题而在逻辑上 或物理上划分出来的数据仓库中的数据子集称为数据集市。 如果说数据仓库面向整个企业,那么数据集市则是面向企业中的某个部门。 数据仓库存放了企业的整体信息,而数据集市只存放了某个主题需要的信息,其 同的是减少数据处理量、提高处理速度和效率,使信息的利用更快捷、灵活。 5 数据仓库管理 管理部分的组成包括: ( 1 ) 定义部件。这部件用于定义和建立数据仓库系统,它包括: 设计和定义数据仓库的数据库: 定义数据来源; 确定数捌源,制定数据仓库复制数据的转换、清理规则。 ( :) 数据扶墩部件。依据数据定义部件定义的舰则从数据源中将数据抽取到数 东北大学硕士学位论文第二章数据仓库技术 据仓库中,完成清洗、变换和集成工作,将数据装载到数据仓库中,定期清理数 据仓库,消除数据仓库与源数据库的彳i 一致,清除失效数据等。 ( 3 ) 管理部件。主要包括对数据仓库中数据的维护、安全、备份、恢复、同志 等工作。 ( 4 ) 元数据管理,也可称为信息目录管理。完成元数据的管理、存储以及对整 个数据仓库的检测和管理,包括技术元数据和业务目录。 6 数据仓库展现 数据仓库展现主要由一些分析工具组成,主要包括检索查询工具、多维数据 的o l a p 分析工具、统计分析以及数据挖掘丁具等。 数据仓库展现部分能提供强大的多用户数据操作引擎,供前端分析决策人员 访问数据,不但提供查询、汇总、统计等功能,还支持数据比较、趋势分析、模 式识别等深入分析、挖掘功能。 2 3 数据仓库的数据组织 2 3 1 数据仓库的数据组织结构 典型的数据仓庠数据组织结构如图2 - 3 所示。 在数据仓库中,数据被分成4 种级别,分别是高度综合级、轻度综合级、当 前细节级、早期细节级。 ( 1 )早期细节级数据:存储过去的详细数据,反映真实的历史情况。这类 数据随着时间增加,数据量很大,使用频度低。 ( 2 )当前细节级数据:最近时期的业务数据,反映当前业务的情况,数据 量大,是数据仓库用户最感兴趣的部分。 ( 3 )轻度综合级数据:从当前基本数据中提取出来,通常以较小的时间段 ( 粒度) 统计而形成的数据。这类数据较细节数据的数据量小得多。 ( 4 ) 高度综合级数据:这一层的数据十分精练,是一种高度概括的可用于 决策支持的数据。 东北大学硕士学位论文第二章数据仓库技术 高度综 台数据 轻度综 合数据 当前细 节数据 早期细 节数据 图23 数据组织结构圈 f i g 2 3 t h es k e t c hm a po fd a t aw a r e h o u s e sd a t ao r g a n i z a t i o n 当前的数据总是首先进入当前细节级,然后根据应用的需求,通过运算将细 节级数据聚合成轻度综合级和高度综合级数掘,随着时间的推移,细节级的数据 困很少被用户使用而老化了,此时为了节省系统的存储空问,可以将这些老化的 细节数据导出到备份设备上。实际上轻度综合级的数据也可能被导出系统,而对 于数据量很少的高度综合数据,一般可以不考虑导出问题。总的来说,数据仓库 的这种数据组织方式的核心思想是在系统中保留最有可能被用户使用的数据,而 很少使用的数据则备份导出。 在数据仓库中,处理和提耿综合后的数据还包括非常重要的元数据,它描述 的是提取和综合后的数据组织方式,我们在数据仓库的体系结构中已经详细介绍 了元数据。下面我们介绍跟数据组织结构有关的两个重要概念。 1 数据颗粒度 数据颗粒度是数据仓库中极其重要的概念,我们知道数据仓库是面向o l a p ( 联机分析处理) 和d m ( 数据挖掘) 的,对于o l a p 和d m 数据颗粒度有不同 的定义。 o l a p 的一个重要功能就是向最终用户呈现不同综合程度的数据。第一种粒度 就是对数据仓库中数据综合程度高低的一个度量。数据综合程度越高,信息量越 少,粒度越大:反之,数掘越详细,数据量越大,粒度就小。数据颗粒度的大小 l 妇数据的用途米确定;粒度大小决定数据的存储介质。 曰,_ r :弋 成绩高 2 、根据规则集所涉及的抽象层:可以分为单层关联规则和多层关联规则。在 单层关联规则中,规则不涉及不同抽象层的项或属性:而在多层关联规则中,规 则涉及不同抽象层的项或属性。 例如,下面的关联规则是单层关联规则: 7 考试性质( “国考”) = 成绩低 下面的关联规则是多层关联规则: 考试性质( “国考”) = 成绩( 各科) 低,考试性质( “国考”) = 英语 成绩低 3 、根据规则中涉及的数据的维数:可以分为单维关联规则和多维关联规则。 如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则:如果规则 涉及两个或多个维,则它是多维关联规则。 例如,下面的关联规则是单维关联规则,它只涉及了一个维“通过”: 英语通过校考= 英语通过四级 下面的关联规则是多维关联规则,它涉及了三个维“以前成绩”、“课常 表现”和“成绩”: 以前成绩( “好”) 且课堂表现( “好”) 一 成绩( “好”) 4 、根据对关联挖掘的不同扩充:可以扩充为相关分析、最大频繁模式挖掘。 相关分析可以识别项是否相关。最大模式是一个频繁模式p ,使得任何包含p 的模 式都不是频繁的。 东北大学硕士学位论文第四章教学管理系统中的数据挖掘技术 5 、从用户的角度看,关联规则也可分为约束性关联规则和无约束性关联规则 约束性关联规则指用户想知道某方面的关联规则,而1 i 是发现全部规则,将约束 条件结合到挖掘算法中,以提高挖捌效率,如我们想知道什么样的学生始终在考 试中得高分,则只要挖掘高分数项与其它项之间的联系即可。 4 2 2 教学管理中的关联规则挖掘 关联规则挖掘可以应用到教学、考试以及教学管理过程中,通过关联规则挖 掘,发现数据内部的规则。可以更好地指导教学,考试和教学管理。进而提高教 育水平。关联规则主要可以对以下几个方面的数据进行挖掘。 在教学管理过程中,我们可以发现学生最后取得的成绩跟平时的综合表现有 很大的联系。通过对学生的课堂表现、作业情况、学生的前期成绩和考试成绩进 行量化分析,发现它们之间潜在的规则,可以对学生进行针对性引导,或者加强 重要环节的管理。保证学生能取得好的成绩。 在考试过程中,我们可以针对学生答卷的所有试题进行分析,找出试题问的 联系,学生容易答错的题目之间的联系,这样可以更好了解学生对知识的掌握情 况,指导教师更好地授课。另一方面,也可以评判试卷的质量,如果一套试卷中 太多的题目具有关联规则,则可以说题目的分布不是很好,不能全面考察学生对 知识的掌握。当然,做这种分析的前提最好是实行计算机考试,这样方便获取分 析所用的数据。 在成绩管理过程中,我们可以对学生的成绩进行关联规则挖掘。比如对一个 专业所有学生所学课程所取得的各科成绩进行数据挖掘。我们找出学科成绩之间 的关系,进而指导学生合理选课和安排对不同科目的学习计划。 4 3 关联规则挖掘中的a p r i o r i 算法 关联规则挖掘通过支持度和可信度定量地描述这种关联关系的程度,以指导 数据分析的过程 1 2 1 0 关联规则是数据挖掘的主要技术之 以定量的方法,描述事物问的联系程度 ,关联分析就是通过数据分析的方式, 对于数据库中存在的大量数据,发现这 些数据中不同项的关系,然后指导并以此指导生产、经营等决策活动是关联规则 挖掘的目的。关联规则的典型应用是购物篮分析,通过分析指导商品货架设计、 仓储规划、降价销售等系列决策行为。 东北大学硕士学位论文 第四章教学管理系统中的数据挖掘技术 4 3 1 关联规则挖掘的基本概念 定义l关联规则挖掘的数据集记为d ( 一般为事务数据库) , d = ,:,f 。,啊,= ,- ,i r , “( 女= 1 ,2 ,n ) 称为事物 ( t r a n s a c t i o n s ) f f m = 1 2 ,p ) 称为项目( h e m ) 。 定义2 设,= “1 2 , 是d 中全体项目组成的集合,i 的任何子集x 称为 d 中的项目集( i t e m s e t ) ,l i = k 称为集合z 为k 项目集( k i t e m s e t ) 。设和x 分别为d 中的事物和项目集,如果f 。,称事物t 包含项目集。每一个事物 都有一个唯一的标志符,称为t i d 。 定义3 数据集d 中包含项目集x 的搿物总数称为项目集z 的支持数,记为 f 。项日集的支持度记为s u p p o r t ( x ) : s u p p o r t ( x ) = 呙1 0 0 ( 或s u p p o r t ( ) = 砑o - x j 丹中i d i 是数据集d 的事物 数,若s u p p o r t ( x ) 不小于用户指定的最小支持度( m i n s u p p o r t ) ,则称为频繁项 目集,简称频集( 或大项目集) ,否则称。y 为非频繁项目集,简称非频集( 或小项 目集) 。 定理1 设j y 是数据集d 中的项目集: r ? ) 若x y ,则s u p p o r t ( x ) s u p p o r t ( y ) 。 ( 2 ) 若x 】,如果x 是非频集,则y 也是非频集。 ( 3 ) 若x y ,如果y 是频集,则x 也是频集。 定义4 若x 、j 为项目集,且x n y = 0 ,蕴涵式z j y 成为关联规则, x 、r 分别称为关联规则的前提和结论。项目集u y 的支持度称为关联规则 z jy 的支持度, 己为: s u p p o r t ( x j 】,) = s u p p o r t ( x u n 关联规则x j y 的置信度也怍,明d e n c e ( x j y ) : c o ”,7 沈n e e f jy 1 :s u pp o r t ( x u y ) 1 0 0 s u pp o r t ( x ) 通常用户根据挖掘需要指定的最小置信度记为m i n c o n f i d e n c e 。 支持度和置信度是描述关联规则的两个重要概念,前者即用户规定的关联规则 必须满足的最小支持度,它表示了一组项集在统计意义上的需满足的最低程度; 后者即用户规定的关联规则必须满足的最小可信度,它反映了关联规则的最低可 东北大学硕士学位论文第四章教学管理系统中的数据挖掘技术 怎度。”般来晚,只自支持度和置信度均较高的关联规则才可能是用户感兴趣的、 i _ ;j 九拍0 关谈规灿。 定义5 若s u pp o r t (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 情感分析在投资决策中的应用-洞察及研究
- 海马结构替代研究-洞察及研究
- 复华材料在智能教育环境中的应用-洞察及研究
- 森林防火预警系统构建-洞察及研究
- 油漆品牌生命周期分析-洞察及研究
- 多维度软件测试框架设计-洞察及研究
- 分布式温度火灾预警-洞察及研究
- 医院医疗设备采购和维护协议
- 新型纳米结构材料制备工艺-洞察及研究
- 探讨针灸在缓解心理压力中的效果-洞察及研究
- 公路养护技术管理与实施细则
- 2025-2030留学培训行业市场运行态势及发展前景预测与商业合作机会研究报告
- 2025-2026学年北师大版数学小学三年级上册(全册)教案设计及教学计划
- GB/T 2362-1990小模数渐开线圆柱齿轮基本齿廓
- 【桂美版】六年级美术上册-六年级(桂教版)上册美术教案(详案)全
- GB/T 17238-2022鲜、冻分割牛肉
- 第四章集装箱箱务管理
- 高尔夫人群消费及行为习惯调研报告-课件
- 天气预报的发展历程课件
- 2022年国家公务员考试申论真题及答案(地市级)
- 西方法律思想史教案课件
评论
0/150
提交评论