




已阅读5页,还剩71页未读, 继续免费阅读
(系统工程专业论文)数据仓库与数据挖掘技术在英才题库系统中的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文摘要 数据仓库与数据挖掘技术 在英才题库系统中的研究与应用 摘要 随着教育改革的进一步深入,计算机应用的普及,高校题库系统得到了越来 越广泛的应用。高校题库系统主要包括组卷、考试、评卷以及试卷分析等几大部 分,担负着考核学生水平,考察教师综合素质的重要作用。对教学工作的开展有 着非常重要的现实意义。 纵观以往的教学管理系统,多半都以难易度、区分度等为主要衡量指标,以 组成一套合理的试卷为目的,考察学生的知识掌握水平。但是这些题库系统普遍 缺乏综合分析、辅助决策的能力;并且对其历史积累的海量信息中隐含知识的利 用无能为力。九十年代,数据仓库技术面市,开创了新一代决策支持系统。本文 就结合英才学院教学管理与题库系统的建设现状,开发了基于w e b 和数据仓库技 术的辅助决策系统。 首先,文章对有关数据仓库与数据挖掘新技术做了介绍。数据仓库是为支持 管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合。而数 据挖掘是一个知识发现的过程。它能从原始数据中挖掘出你不知道其存在着的一 些模式和倾向。本文根据英才学院题库管理系统的特点,建立了数据仓库的主题域, 设计了相关的维度、指标。建立了数据仓库应用系统的框架结构,提出并完善了数据 仓库的建模技术。同时,由于数据仓库系统是多项技术综合体,本文还详细说明 了多维数据库技术、元数据管理、联机分析处理和数据挖掘等各项技术的原理及 其在英才学院题库系统中的具体应用。最后,利用s q ls e r v e r 数据库的强大功能 实现了基于w e b 和数据仓库技术的英才题库分析系统。 关键词:数据仓库,题库系统,联机分析处理,o l a p ,数据挖掘,a p r i o r i 算法 东北大学硕士学位论文 a b s t r a c t r e s e a r c ha n da p p l i c a t i o no fd a t aw a r e h o u s ea n dd a t a m i n i n gt e c h n i q u ei ny i n gc a ip r o b l e ml i b r a r ys y s t e m a b s t r a c t a l o n g 谢t ht h eu n i v e r s a l i t yi nc o m p u t e ra p p l i c a t i o na n dt h ee d u c a t i o nr e f o r m 缸t l l e rd e e p p i n gi n t o ,t h ep r o b l e ml i b r a r ys y s t e mo fu n i v e r s i t yg o tm o r ea n dm o r e a p p l i c a t i o n t h ep r o b l e ml i b r a r ys y s t e mo fu n i v e r s i t yp r i m a r i l yi n c l u d e sf o r m i n g e x a m i n a t i o np a p e r , e x a m i n a t i o n , g r a d i n ga n da n a l y z i n ge x a m i n a t i o np a p e re t c i tc a r r i e s t h ei m p o r t a n tr o l e si n c l u d i n gt e s t i n gs y n t h e t i cl e v e lo f t h es t u d e n t sa n d s y n t h e t i cq u a l i t y o ft h et e a c h e r s i th a sv e r yi m p o r t a n tr e a l i s t i cm e a n i n gt o d e v e l o p i n gt h ew o r ki n t e a c h i n g t a k eaw i d ev i e wo f t h ef o r m e rt e a c h i n gm a n a g e m e n ts y s t e m ,i na l ll i k e l i h o o dt h e y a l lr e g a r dt h ed i f f i c u l t yd e g r e e s d i s t i n c t i o nd e g r e e s e t c a sp r i m a r i l ym e a s u r e m e n t i n d e x t h e nc o n s t i t u t ear e a s o n a b l ee x a m i n a t i o np a p e rf o rt h ep u r p o s ei no r d e rt ot e s t i n g t h ek n o w l e d g el e v e lt h a tt h e s t u d e n t sh a v e b u tt h e s ep r o b l e ml i b r a r ys y s t e m sa l e w i d e s p r e a dt ol a c k i n ga b i l i t yo fs y n t h e t i ca n a l y s i sa n da u x i l i a r yd e c i s i o n m a k i n g i ti s h e l p l e s s n e s st oe x p l o i t i n gt h ei m p l i c i tk n o w l e d g ei nag r e a td e a lh i s t o r i ci n f o r m a t i o n w h i c hh a v e b e e na c c u m u l a t e d n i n t y sy e a r sw h e nd a t aw a r e h o u s ee m e r g e d ,i tf o u n d e d d e c i s i o n m a k i n gs u p p o r ts y s t e mi nt h en e wg e n e r a t i o n t h i st e x td e v e l o p e dt h es u p p o r t d e c i s i o n m a k i n gs y s t e m b a s e dw e bt e c h n i q u ea n dd a t aw a r e h o u s e t e c h n i q u e , c o m b i n i n gt e a c h i n gm a n a g e m e n ti ny i n g c a ic o l l e g ea n dc u r r e n td e v e l o p m e n to f p r o b l e ml i b r a r ys y s t e m f i r s t , t h ea r t i c l ei n t r o d u c e st h en e w t e c h n i q u ee o n c e m i n gd a t aw a r e h o u s ea n dd a t a m i n i n g t h ed a t aw a r e h o u s ei se s t a b l i s h e dt os u p p o r t i n gd e c i s i o n - m a k i n g i ti sd a t a g a t h e rt h a ti ss u b j e e t - o r i e n t e d ,s y n t h e t i c ,s t a b i l i t y , a n dc h a n g i n ga ta n yt i m e b u td a t a m i n i n gi sap r o c e s so fk n o w l e d g ed i s c o v e r y i tc a l ld i go u ts o m em o d e sa n di n c l i n e s f r o mt h ep r i m i t i v ed a t at h a ty o um a yn e v e rk n o w t 1 1 i st e x th a se s t a b l i s h e dt h et o p i c f i e l do fd a t ah o u s ea n dd e s i g n e dt h er e l a t e dd i m e n s i o n a ld e g r e ea n di n d e xa c c o r d i n gt o t h ec h a r a c t e r i s t i c so fp r o b l e ml i b r a r ym a n a g e m e n ts y s t e mi ny i n g c a ic o l l e g e a l s o i 东北大学硕士学位论文 a b s t r a c t e s t a b l i s h e dt h ef l a m ec o n s t r u c t i o no fd a t aw a r e h o u s ea p p l i c a t i o ns y s t e m ,a n db r i n gu p a n dp e r f e c tt h em o l dt e c h n i q u eo fd a t aw a r e h o u s e a tt h es a m et i m e ,b e c a u s et h ed a t a w a r e h o u s es y s t e mi sas y n t h e t i ct e c h n i q u e ,t h i st e x ts t i l le l a b o r a t et h ep r i n c i p l eo f t e c h n i q u ea b o u tm a n y - d i m e n s i o n a ld a t a b a s e ,u n i td a t am a n a g e m e n t ,o n - l i n ea n a l y t i c a l p r o c e s s i n ga n dd a t am i n i n ga n ds oo n , a n dt h ec o n c r e t ea p p l i c a t i o ni np r o b l e ml i b r a r y s y s t e mi ny i n g c a ic o l l e g e f i n a l l y , w em a k eu s eo ft h es t r o n gf u n c t i o no fs q l s e r v e r d a t a b a s et or e a l i z i n gt h ep r o b l e ml i b r a r ya n a l y s i ss y s t e mb a s e do nw e ba n dd a t a w a r e h o u s e t e c h n i q u e k e yp h r a s e : d a t aw a r e h o u s e ,p r o b l e ml i b r a r ys y s t e m ,0 n - l i n ea n a l y t i c a lp r o c e s s i n g ,d a t am i n i n g , a p r i o r ia r i t h m e t i c 一 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论 文中取得的研究成果除加以标注和致谢的地方外,不包含其他 人己经发表或撰写过的研究成果,也不包括本人为获得其他学 位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论 文中作了明显的说明并表示谢意。 本人签名:关琼 日 期:铷一r 2 t 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、 使用学位论文的规定:即学校有权保留并向国家有关部门或机 构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同 意东北大学可以将学位论文的全部或部分内容编入有关数据库 进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为 不同意。) 学位论文作者签名:导师签名: 签字日期:签字日期: 东北大学硕士学位论文绪论 1 1 本文的研究背景 第一章绪论 近十几年来,计算机及网络技术超速发展,以i n t e m e t 为主要标志的网络技术 正改变着人们的生活、工作和思想等各个领域。数据库,特别是分布式数据库技 术的进步使得大量的信息内容被放入计算机,人们能够迅速地检索他们所需要的 信息。w e b 技术的出现,使得人们可以使用超文本格式把文字、图像等信息汇于 一体,从而极大地丰富了计算机中的信息资源。与此同时,人们利用信息技术生 产和搜集数据的能力大幅度提高,成千上万的数据库被用于商业管理、行政办公、 科学研究和工程开发等,这一势头将随着网络技术的新摩尔定律不断增长下去。 w a l m a n 公司每天要处理两千万个事务;n a s a 于1 9 9 9 年发射的地球观测系统每 小时要产生5 0 g b 的图像数据;m o b i l 石油公司正开发存储1 0 0 t b 于石油勘探相关 的数据仓库系统等。毫无疑问,这些庞大的数据库及其中的海量数据是极其丰富 的信息源,但是仅仅依靠传统的数据检索机制和统计分析方法已经远远不能满足 需要了。如何才能不被信息的汪洋大海所淹没,从中及时有效地发现有用的知识, 提高信息利用率呢? 人们呼唤一种从数据汪洋中去粗取精、去伪存真的技术。因 此,从数据库中发现知识( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,k d d ) 以及核心技术 数据挖掘( d a t am i n i n g ) 便应运而生,并显示出其强大的生命力。 在各项技术飞速发展的今天,为了适应社会的需要,人们需要通过十几年甚 至更多的时间去掌握生存的技能,考试作为教学的重要组成部分,不仅是考核学 生学习水平的重要手段,而且也是体现教师教学质量和教学水平的重要途径。每 次考试前教师编排试卷是一项非常繁重的工作。教师出题时要花费大量的时间去 搜集考试题目,要做大量的重复工作,而以往很多高质量的考题没有保存下来。 同时,在实际教学中教考不分,不易检验出学生的真实学习水平,也不能完全体 现教师的教学水平。传统的考试制度亟待改革。随着计算机在到教育、教学考试 ( 测验) 等领域的广泛应用,为了提高教学管理水平,实现教考分开,更加公平、 合理、公正、公开地进行各类考试,更好地选择突出的人才;同时也为了减轻教 师的负担,让他们从单调、繁重的命题工作中解脱出来,更多地投身于研究教学 东北大学硕士学位论文绪论 方法和提高教学质量及教学管理水平,国内已经推出了许多类型的题库管理信息 系统。而近年来数据库技术与人工智能的交叉学科一数据挖掘的迅速发展又为 题库的进一步发展提供了新的途径。本文将就如何利用数据挖掘的方法实现题库 系统的智能化进行了详细的探讨。 1 2 数据仓库技术简介 1 2 1 数据仓库的发展及其现状 众所周知,如何有效地管理公司和企业在运营过程中产生的大量数据和信息 一直是i t 人员面临的重要问题。2 0 世纪7 0 年代出现并被广泛应用的关系型数据 库技术为解决这一问题提供了强有力的工具。然而,从2 0 世纪8 0 年代中期开始, 随着市场竞争的加剧,信息系统用户已经不满足于仅仅用计算机去管理日复一日 的运营数据,他们更需要的是从这些数据中得到有用的信息,以便于进行决策支 持,这种需求使得在2 0 世纪8 0 年代中后期出现了数据仓库思想的萌芽为数据 仓库概念的最终提出和发展打下了基础。1 9 9 2 年,w h i n m o n “在其里程碑式的建 立数据仓库一书中提出了“数据仓库( d w ,d a t aw a r e h o u s e ) ”的概念,数据仓 库的研究和应用得到了广泛的关注。 二十多年来,大量新技术、新思路涌现出来并被用于关系数据库系统的开发 和实现,如客户机服务器( c s ) 体系结构、存储过程、多线索并发内核、异步 i o 、代价优化等等,这一切足以使得关系数据库的处理能力毫不逊色于传统封闭 的数据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些, s q l ( t h es t r u c t u r e dq u e r yl a n g u a g e ) 的使用已成为一个不可阻挡的潮流,加 : 近年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处 理系统的主宰。整个2 0 世纪8 0 年代到2 0 世纪9 0 年代初,联机事务处理一直是 数据库应用的主流。然而,应用在不断地进步,当联机事务处理系统应用到一定 阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞 争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析, 给出有利的抉策,这种决策需要对大量的业务数据包括历史业务数据进行分析才 能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析比以 往任何时候都显得更为重要,我们把它称之为联机分析处理。如果说传统联机事 务处理强调的是更新数据库向数据库中添加信息,那么联机分析处理就是从 务处理强调的是更新数据库向数据库中添加信息,那么联机分析处理就是从 东北大学硕士学位论文 绪论 数据库中获取信息和利用信息。因此,著名的数据仓库专家r a l p hk i m b a l l 写道: “我们花了二十多年的时间将数据放入数据库,如今是该将他们拿出来的时候 了。”1 3 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的 想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易。 ( 1 ) 所有联机事务处理强调的是密集的数据更新处理性能和系统的可 靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系 统的要求不同,同一个数据库在理论上难以做到两全。 ( 2 ) 业务数据往往被存放于分散的异构环境中,不易统一查询访问,而 且还有大量的历史数据处于脱机状态,形同虚设。 ( 3 ) 业务数据的模式针对事务处理系统的设计,数据的格式和描述方式 并不适合非计算机专业人员进行业务上的分析和统计。 可以说,2 0 年前查询不到数据是因为数据太少了,而今天查询不到数据是因 为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中 心,它的数据来自联机事务处理系统、异构的外部数据源、脱机的历史业务数据 等。这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务 的,通过它可满足决策支持和联机分析应用的一切要求,这个数据中心就叫做数 据仓库。这个概念在2 0 世纪9 0 年代初被提出来,如果需要给数据仓库下一个定 义的话,那么数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构 化数据环境,数据仓库所要研究和解决的问题就是从数据库中获取信息。 作为一种新的数据处理体系结构,数据仓库是企业内部各部门业务数据进行 统一和综合的中央数据仓库。它为企业决策支持系统和行政信息系统提供所需的 信息。它是一种信息管理技术,为预测利润、风险分析、市场分析以及加强客户 服务与营销活动等管理决策提供支持。 从目前形势上看,数据仓库技术已紧跟i n t e r n e t 而上,成为信息社会中获得 企业竞争优势的又一关键技术。美国m e t ag r o u p 市场调查机构的资料表明,幸 福杂志所列的全球2 0 0 0 家大公司中已有9 0 将i n t e r n e t 网络和数据仓库这两项 技术列入企业计划,i d c 于1 9 9 7 年曾进行了一项研究,在调查了6 2 家各种规模的、 采用了数据仓库的公司之后,得出的结论表明他们的平均r o i ( 投资回报率) 超过 4 0 0 。使用数据仓库在产生巨大效益的同时也刺激了对数据仓库技术的需求。 经过长期发展,联机事务处理系统的市场至2 0 世纪9 0 年代中期出现饱和迹 象,其增长速度明显减慢。数据仓库的兴起无疑为数据库产品创造了巨大的市场, 它将成为2 l 世纪初数据库市场的一个新的增长点。 东北大学硕士学位论文 1 2 2 从数据库到数据仓库 由数据库发展到数据仓库的主要原因如下。 ( 1 ) 数据太多,信息贫乏( d a t ar i c h ,i n f o r m a t i o np o o r ) 随着数据库技术的发展,企事业单位建立了大量的数据库,数据越来越多, 而辅助决策信息却很贫乏,如何将大量的数据转化为辅助决策信息成了研究热点。 ( 2 ) 异构环境数据的转换和共享 由于各类数据库产品的增加,异构环境的数据也随之增加,如何实现这些 异构环境数据的转换和共享也成了研究热点。 ( 3 ) 利用数据进行事务处理转变为利用数据支持决策 数据库用于事务处理,若要达到辅助决策,则需要更多的数据。例如,如 何利用历史数据的分析来进行预测。对大量的数据的综合得到宏观信息等均需要 大量的数据。 数据仓库概念提出后,在不到几年的时间内就得到了迅速的发展。数据仓 库产品也不断出现并陆续进入市场。 传统的数据库用于事务处理,也叫操作性处理,是指对数据库联机进行日 常操作,即对一个或一组纪录的查询和修改,主要是为企业特定的应用服务的。 用户关心的是相应时间,数据的安全性和完整性。数据仓库用于决策分析,也称 分析型处理,它是决策支持系统( d s s ) 的基础。 例如,银行的用户有储蓄、贷款和信用卡,这些数据是存放在不同也无处 彼此独立的数据库中。现在,有了数据仓库,它把这些业务数据库集中起来,建 立起对用户的整体分析,决定是否继续对用户进行贷款或发信用卡。 操作性数据( d b 数据) 与分析型数据( d w 数据) 之间的差别。3 如表1 1 所 示。 表1 1 d b 数据和d w 数据的对比表 f i g u r e2 1d a t aw a r e h o u s e si ss u b j e c t - o r i e n t e d d b 数据d w 数据 细节的综合或提炼的 在存取时准确的代表过去的数据 可更新的不更新 操作需求实现可知道操作需求事先不知道 事务驱动分析驱动 东北大学硕士学位论文绪论 面向应用面向分析 一次操作数据量小一次操作数据量大 支持日常操作支持决策需求 1 3 数据挖掘技术简介 1 3 1 数据挖掘的发展 数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过 某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过 程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习 这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类 的问题随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识 工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算 机输入己被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家 系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。8 0 年代 人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果 应用于处理大型商业数据库。在8 0 年代末出现了一个新的术语,它就是数据库中 的知识发现,简称k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。它泛指所有从源数 据中发掘模式或联系的方法啪1 ,人们接受了这个术语,并用k d d 来描述整个数据 发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘( d a t a m i n i n g ) 来描述使用挖掘算法进行数据挖掘的子过程。但最近人们却逐渐开始使 用统计方法来完成数据挖掘中的许多工作,并认为最好的策略是将统计方法与数 据挖掘有机的结合起来。 数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据 挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有 很多数据挖掘可直接从操作数据源中挖掘信息 1 3 2 数据仓库与数据挖掘的关系 1 数据仓库与数据挖掘的联系 数据挖掘和数据仓库作为决策支持新技术,在近十年来得到迅速发展。作为 数据挖掘对象,数据仓库技术的产生和发展为数据挖掘技术开辟了新的战场,同 东北大学硕士学位论文 绪论 时也提出了新的要求和挑战。数据仓库和数据挖掘是相互结合起来一起发展的, 二者是相互影响、相互促进的。二者的联系可以概括为以下几点: ( 1 ) 数据仓库为数据挖掘提供了更好的、更广泛的数据源。 数据仓库中集成和存储着来自异质的信息源的数据,而这些信息源本身就可 能是一个规模庞大的数据库。同时数据仓库存储了大量长时间的历史数据( 5 1 0 年) ,这使得我们可以进行数据长期趋势的分析,为决策者的长期决策行为提供支 持。而数据仓库中数据在时间轴上的纵深性又成为了数据挖掘的又一新难点。 ( 2 ) 数据仓库为数据挖掘提供了新的支持平台。 数据仓库的发展不仅仅是为数据挖掘开辟了新的空间,更对数据挖掘技术提 出了更高的要求。数据仓库的体系结构努力保证查询和分析的实时性。数据仓库 的一般设计成只读方式,数据仓库的更新由专门的一套机制保证。数据仓库对查 询的强大支持使数据挖掘效率更高,开采过程可以做到实时交互,使决策者的思 维保持连续,又可能开采出更深入、更有价值的知识。 ( 3 )数据仓库为更好地使用数据挖掘工具提供了方便。 数据仓库的建立,充分考虑了数据挖掘的要求。用户可以通过数据仓库服务 器得到所需的数据,形成开采中间数据库,利用数据挖掘方法进行开采,获得知 识。数据仓库为数据挖掘集成了企业内各部门的全面的、综合的数据,数据挖掘 要面对的是关系更复杂的企业全局模式的知识发现。而且,数据仓库机制大大降 低了数据挖掘的障碍,一般进行数据挖掘要花大量的经历在数据准备阶段。数据 仓库中的数据已经被充分收集起来,进行了整理、和并,并且有些还进行了初步 的分析处理。这样,数据挖掘的注意力能够更集中于核心处理阶段。另外,数据 仓库中对数据不同粒度的集成和综合,更有效地支持了多层次、多种知识的开采。 ( 4 )数据挖掘为数据仓库提供了更好的决策支持。 企业领导的决策要求系统能够提供更高层次的决策辅助信息,从这一点上讲, 基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。数据挖掘对数据仓 库中的数据进行模式抽取和发现知识,这些正是数据仓库所不能提供的。 ( 5 ) 数据挖掘对数据仓库的数据组织提出了更高的要求。 数据仓库作为数据挖掘的对象,要为数据挖掘提供更多、更好的数据。其数 据的设计、组织都要考虑到数据挖掘的一些要求。 ( 6 ) 数据挖掘还为数据仓库提供了广泛的技术支持 数据挖掘的可视化技术、统计分析技术等都为数据挖掘提供了强有力的技术 支持。 总之,数据仓库在纵向和横向都为数据挖掘提供了更广阔的活动空间。数据 东北大学硕士学位论文绪论 仓库完成数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工 的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有的新特点, 对数据挖掘技术提出了更高的要求。另一方面,数据挖掘为数据仓库提供了更好 的决策支持,同时促进了数据仓库技术的发展。可以说,数据挖掘和数据仓库技 术必须结合起来才能有更好的发展前途。 2 数据仓库与数据挖掘的区别 数据仓库是一种存储技术,它的数据存储量是一般数据库的1 0 0 多倍,它包 含大量的历史数据、当前的详细数据以及综合数据。它能为不同用户的不同决策 需要提供所需的数据和信息。 数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从 大量的数据中挖掘出有用的信息和知识。 1 4 本文的主要工作 本论文课题源于英才学院教学管理的需要,智能题库系统是教学管理的一个 重要环节与组成部分。论文在智能组卷系统的基础上对学生考试结果进行了分析 和挖掘。以数据仓库和数据挖掘相关知识作为理论基础,着重分析了题库系统在 数据仓库数据挖掘中的应用,本文主要工作如下: 1 对目前已经应用的题库系统进行了分析,确定数据挖掘的研究方向。 2 在分析目前题库系统主要功能的基础上,讨论了数据仓库存储的数据模型 与数据仓库的体系结构,设计了数据仓库的存储结构,建立了应用系统的结构模 型与数据模型。 3 采用了先进的d t s 工具,经过对数据抽取、清洗、转换等一些复杂操作, 完成了将多源的、异构的数据库到数据仓库的设计与实现。 4 设计了数据仓库系统的相关的维度、指标。 5 基于关系型数据库的r o l a p 方法,实现了对题库系统多维数据的访问。 6 在数据挖掘关联规则的a p r i o r i 算法基础上,应用了基于s q ls e r v e r 数 据库的改进a p r i o r i 算法,提高了算法执行速度和效率。 7 应用m i c r o s o f ts q ls e r v e r2 0 0 0 的a n a l y s i ss e r v e r s 联机分析工具,实现了题 库系统后期分析工作,从而建立了题库系统的辅助决策支持系统。 东北大学硕士学位论文 第二章英才题库系统中的数据仓库技术 第二章英才题库系统中的数据仓库技术 2 1 数据仓库定义及相关概念 2 1 1 数据仓库定义及其特点 数据仓库是一个信息传递系统。在这个系统中,我们将企业数据整合并转 化为适合战略决策的信息,首先从各种各样的系统中提取历史数据,将相关的外 部数据和内部数据结合起来,解决不同系统中的数据不一致的矛盾;然后将这些 整合的数据转化成一个统一的适合向各种层次的用户提供信息的格式;最后,、实 现信息的传递方法。 建立这个信息系统需要不同的组成部分。这些组成部分通过最佳的方法组织 在一起,并按某种合适的结构来安排。在介绍这些独立的组成部分及其在整个构 架中的位置之前,让我们先来分析一下数据仓库的一些基础特点。 数据仓库的创始者b i l li n m o n 认为:“数据仓库是为支持管理决策建立的, 面向主题的,综合的,稳定的,随时间变化的数据集合。”“1 另一位数据仓库的开拓者s e a nk e l l y 啪1 用这样的方法定义数据仓库,他认为 数据仓库中的数据是: 彼此分离的 可利用的 综合的 包括时间表级的 面向主题的 非易失性的 能访问的 让我们基于上面的这些定义,解释数据仓库定义的一些关键特点。数据仓库 中数据的性质知识什么? 这些数据与其他操作性系统的数据有什么不同? 数据仓 库中的数据内容是如何应用的? 1 面向主题的数据 在操作性系统中,我们使用单独的应用程序分别存储数据。数据集合都是围 东北大学硕士学位论文第二章英才题库系统中的数据仓库技术 绕单独的应用程序进行组织的,以分别支持特定的操作性系统。这些数据集合不 得不为具体的应用程序提供数据,才能使这些应用程序有效地运行。因而,每个 应用程序的数据集合都需要以该应用程序为中心专门组织。 而在数据仓库中,数据是按主题而不是按应用程序存储的,那么什么是商业 主题? 商业主题会随着企业的不同而有所不同。他们对企业很重要。对于一家制 造企业来说,销售、发货和存货都是非常重要的商业主题。对于一家零售商来说, 在付款柜台处的销售就是一个非常重要的主题。 操作性应用程序 数据仓库主题 e 匠甸同 e 臼甸 匠甸囝 图2 1 数据仓库是面向主题的 f i g u r e2 1d a t aw a r e h o u s e sf a c et ot h et o p i c 从图2 1 可以看,数据在操作性系统中的存储与在数据仓库中的存储有什么不 同。在图示的操作性系统中,每一个应用程序的数据根据应用程序的不同单独组 织,包括:订单处理、客户贷款、顾客账单、可接受账款、索赔处理及储蓄账目 等。例如,索赔对于一家保险公司来说就是非常重要的主题。关于汽车保险政策 的索赔在自动保险应用程序中处理。汽车保险的索赔数据就在这个应用程序中。 同样,工人赔偿保险的索赔数据也在工人赔偿保险应用程序中。但是,在保险公 司的数据仓库中,索赔数据就按照索赔的主题进行组织,而不是像汽车保险或是 工人赔偿保险那样按单独的应用程序来组织数据。 因而,数据仓库中的数据是跨应用程序的。 2 综合的数据 为了正确决策,首先需要将所有不同应用程序的相关数据组合在一起。数据 仓库中的数据是从多个操作性系统中得到的。源数据来自不同的数据库、文件和 数据段。各种应用程序互不关联,所以操作平台和操作系统都可能是不同的。文 件外观布局、字符编码表示方式等也可能都是不同的。 对于很多企业来说,除了从操作型系统中抽取的内部数据,外部数据也同样 东北大学硕士学位论文 第二章英才题库系统中的数据仓库技术 是非常重要的。一些公司专门提供某个专题的重要数据,对于一个数据仓库来说, 这又是一个数据来源。图2 2 说明了一个银行机构综合数据的简单处理过程。此 处,存入数据仓库“账目”主题中的数据来自于三个不同的操作型应用程序。在 这三个应用程序中,就有很多的不同点。各个应用程序的命名习惯可能不相同, 数据特性可能不同。在储蓄帐户应用程序中,账号是8 位的,而在支票账户中就 只有6 位。 图2 2 数据仓库是集成的 f i g u r e2 2d a t aw a r e h o u s ei si n t e g r a t e d 在将不同来源的数据存储到数据仓库中之前,先去除不一致性。将这些不同的 数据元素标准化,搞清楚每一个数据源中数据名称的含义。将这些数据存入数据 仓库之前,需要转换、统一和综合源数据。以下是一些需要标准化的项目。 命名规则 编码 数据特性 度量单位 3 数据的时间特性 对于操作型系统来说,存储的数据包含了当前的值。同时,在操作性系统中 也存有一些过去的交易数据。但是,因为这些系统支持的是每日操作,所以操作 性系统反映的是当前的信息。 另一方面,数据仓库中的数据是供分析和决策所用的。如果系统使用者希望看 出某个客户的消费习惯,他就不仅需要当前的交易数据,而且还需要过去的交易 数据。当系统使用者想要知道东部地区销售额下降的原因时,他就需要该地区从 过去到现在某段时期的所有交易数据。食品杂货连锁店的分析人员想要同时提高 两种或更多产品的销量,他就必须要了解在过去几个季度里这些产品的销售情况。 东北大学硕士学位论文 第二章英才题库系统中的数据仓库技术 数据仓库的目的决定了它除了包含当前数据之外,还必须包含历史数据。数据 就象过去和现在存储的快照一样被存储下来。数据仓库中的每一个数据结构都包 含了时间要素。在数据仓库中,你将能找到过去的数据操作。数据仓库的这一点 特性对于设计阶段和实现阶段都有重要意义。 例如,在一个包含了销售数据的数据仓库中,数据被存储在与特定的时间要素 相关的每一条文件记录或者数据行中。根据数据仓库细节层次的不同,记录中的 销售数量可能与某个特定日期、星期、月份或者季度相关。 数据仓库中的数据适合时间变化有关的数据: 可以对过去进行分析。 与当前的信息相关。 可以对未来进行预测。 4 数据的非易变性 从操作性系统中提取的数据和从外部数据源中取得的数据在数据仓库中被转 换、整合并且存储。数据仓库中的数据不是用来进行每天的交易的。操作性系统 的数据每隔一段时间被存储到数据仓库中。根据商业交易的需要,这种过程一般 来说一天两次,一天一次,一个星期一次,或者两个星期一次都是可以的。事实 上,在一个典型数据仓库中,不同类型数据的转移通常发生的频率都是不同的。 例如产品属性的变化通常每个星期更新一次。地理位置上的变化通常每个月更新 一次。销售的数据每天更新一次。一般根据使用者的要求来决定这种数据转移或 数据更新的频率。 如图2 3 所示,每一个商业交易行为并不直接更新数据仓库中的数据,而是 实时地更新更新操作性系统中的数据。我们在每次交易发生的时候,在操作性系 统中增加、改变或者删除数据,而并不频繁地对数据仓库进行更新。你不能在数 据仓库中实时地删除数据。一旦数据存入了数据仓库,你就不能对这个数据进行 修改。数据仓库中的数据不像操作性系统中的数据那样,可以随时修改。数据仓 库中的数据是用来查询和分析的。 东北大学硕士学位论文 第二章英才题库系统中的数据仓库技术 读取增加改变删除 读取 区固匿 图2 3 数据仓库的数据是非易变的 f i g u r e2 3d a t aw a r e h o u s ei su n c h a n g e a b l e 5 数据粒度 在操作性系统中,数据存储通常非常详细。当用户需要查询数据仓库来进行 分析工作的时候,通常首先看加和数据。看某个地区某产品的总体销售情况。下 一步通常是检查每个商店的销售情况。一般来说,用户是从高层次向低层次的细 节过渡。 因而,在数据仓库中,你会发现按不同层次组织数据会很有效。根据查询的 需要,你能够得到不同级别的细节情况。数据仓库中的数据粒度就是指这种细节 的级别。细节级别越底,则数据粒度越小。当然,如果你想得到更低层次的细节, 必须在数据仓库中存储大量的数据。所以,必须根据数据类型和希望达到的系统 查询性能的要求,决定数据粒度级别。图2 4 给出了一个典型数据仓库的数据粒 度的例子。 银行数据仓库系统的三个数据层次 每日数据月汇总季度汇总 账户账户账户 交易日期月份月份 数额交易数交易数 1 2 一 东北大学硕士学位论文 第二章英才题库系统中的数据仓库技术 存取款 取款取款 存款存款 期初结余期初结余 期末结余期末结余 图2 4 数据粒度 f i g u r e2 4d a t ag r a n u l a r i t y 数据粒度是数据的细节程度。根据需求的不同,需要不同层次的数据细节。 数据仓库一般含有至少两层的数据粒度。 2 1 2 数据仓库的组成部分 无论是世界财富5 0 0 强的大型制造公司,还是大型全国连锁食品店,抑或是 全球银行部门建立数据仓库系统,数据仓库的基本组成部分都是相同的。每一个 数据仓库都是由相同的组成部分构成的。所不同的是在不同的数据仓库中对不同 组成部分的侧重点不同。 1 源数据数据仓库的源数据可分为4 个主要的类别,他们分别是生产数据、 内部数据、存档数据和外部数据。 2 数据准备部分将从不同操作型系统和外部数据源得到的数据进行修改 和转换,并以适合查询和分析的格式存储。 3 数据存储部分数据仓库的数据存储器是一个独立的部分。在数据仓库的 存储库中,存储分析用的大量历史数据。 4 信息传递部分信息传递部分就包含多种信息传递的方式,向广泛的数据 仓库使用者提供信息。 5 元数据部分是数据仓库中重要的结构体系组成部分。它分为操作型元数 据、抽取和转换元数据和最终用户元数据。它连接了数据仓库的所有部分,为开 发者提供了数据仓库内容和结构的所有信息。它还向最终用户打开数据仓库的大 门,使他们能够用自己的话语来辨识其中的内容。 6 管理和控制部分管理和控制部分控制数据转换和将数据装载存储器的 工作。同时,协调向用户传递的信息。与数据库管理系统一起工作,使数据能够 正确存储。 东北大学硕士学位论文第二章英才题库系统中的数据仓库技术 2 1 3 数据仓库和数据集市 b i l li n i n o n l 2 j 于1 9 9 8 年在一个著名商贸杂志上说:“今年i t 经历们面对的最重 要的问题就是到底是先建立数据仓库还是先建立数据集市。”那么什么是数据集 市,数据仓库和数据集市有哪些区别于联系呢? 组建一个数据仓库,可以有两种不同的基本方法:( 1 ) 数据仓库向各个数据集 市提供数据;( 2 ) 几个部门的数据集市组成一个数据仓库。对于第一种方法,我 们需要从操作性系统中提取数据,然后将数据转换、清洗、整合并放入数据仓库 中。那么对于一个企业来说,哪一种方法更合适昵,让我们比较一下这两种方法 的优缺点,如图2 5 所示。 数据仓库数据集市 完整的,从企业整体考虑的部门的 所有数据集市的集合一个单独的商业处理过程 从阶段区域得到的数据星型结构( 事实表和维度表) 通过展示的方式进行查询适合数据连接和分析的技术 基于公司数据视角的结构基于适合部门数据视角的结构 通过实体关系模式进行组织 图2 5 数据仓库和数据集市 f i g u r e2 5d a t aw a r e h o u s ea n dd a t ag a t h e r 无论是自上而下还是自下而上的方法,都有其优点和缺点。另一种结合二者 的这种方法就综合了两种方法各自的优点。这种方法的主要推崇者是r a l p h k i m b a l l 26 1 。这种使用方法的步骤是这样的: 1 从整个公司的角度来计划和定义需求。 2 为完整的仓库创造一个体系结构。 3 使数据内容一致而且标准化 4 将数据仓库作为一组超级数据集市来实施,每次一个。 在这种使用方法中,需要考虑企业从长远看想要得到什么。这种方法的关键 “4 东北大学硕士学位论文第二章英才题库系统中的数据仓库技术 是你首先要站在整个企业的高度来进行计划。从整体上确定企业有哪些需求。为 整个仓库系统建立体系结构。然后,决定每一个超级数据集市的数据内容。超级 集市是经过认真设计的数据集市。需要实旌这些数据集市,每次一个。在实施之 前,务必先使不同的数据集市中的数据内容有统一的数据类型、字段长度、精度 和语义。在所有超级数据集市中,某个确定的数据元素必须表达相同的意思。这 样就会避免几个数据集市之间的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设施农种植管理办法
- 规范生物质管理办法
- 中华寿桃病虫管理办法
- 装修人员平台管理办法
- 《流动资金管理办法》
- 装修预算公司管理办法
- 中山公园摆摊管理办法
- 2025年环形磁体合作协议书
- 老虎潭水库管理办法
- 《医学装备管理办法》
- 《资本论》解读课件
- 【讲座培训】《中小学教育惩戒规则(试行)》解读课件
- 糖尿病酮症酸中毒指南精读
- 建设单位向施工企业施工安全交底
- 2022年二级建造师机电继续教育考试题库及完整答案1套
- T∕ZZB 2783-2022 路面标线涂料用氢化石油树脂
- 《机械知识》(第六版)电子教案(全)完整版课件整套教学课件
- 政府会计制度应用课件
- 道德与法治教学课件《我的家庭贡献与责任》教学课件(21p)
- 五年级上册美术教学计划
- 有色金属贵金属冶金
评论
0/150
提交评论