(计算机应用技术专业论文)基于数据仓库的tqs系统—tqsdw的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的tqs系统—tqsdw的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的tqs系统—tqsdw的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的tqs系统—tqsdw的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的tqs系统—tqsdw的研究与设计.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库的tqs系统—tqsdw的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 数据仓库是近,l 年来兴起的一一门方兴未艾的技术。随着数据仓 库技术的发展,与o l a p 技术、数据挖掘技术相结合已成为该项技术 发展的必然趋势,也是当前研究的热门技术。其应用范围也由传统的 电信、金融、保险等行业向教育等领域扩散。构建教学质量监控系统 数据仓库己成为目前教育领域应用研究的重点课题。 本文主要对教学质量监控数据仓库( t e a c h i n gq u a l i t y s c r u t i n yd a t aw a r e h o u s e ,简称t q s d w ) 系统涉及的相关技术进行 了研究。设计了多主题的教学质量监控模型:并围绕这个多主题模型 构建了t q s d w 原型系统。 再者,我们在t q s d w 原型系统的基础上,构建了t q s d w 中的元 数据管理系统。并针对目前数据仓库系统共同存在的元数据缺乏统一 规范,导致各种数据仓库工具之间的元数据因不统一而得不到有效利 用的现状,提出基于c w m 元模型的方法,构建元仓库。实现各种工具 之间共享、交换元数据的功能,并能够方便不同用户直接访问元数据。 另外,我们针对t q s d w 系统数据源异构、分散等特点对数据的 抽取、转换和加载技术进行了研究。在c w m 元仓库的基础上,采用功 能强大的m i c r o s o f t 公司的数据转换工具d t s ,并结合v i s u a l b a s i c 6 编程实现了t o s d w 数据的抽取、转换和加载。 关键词:数据仓库,元数据,c w m ,e t l a b s t r a c t t h et e c h n o l o g yo fd a t aw a r e h o u s ef d w 、i si nt h ea s c e n d a n ti n r e c e n ty e a r s a l o n gw i t ht h eq u i c kd e v e l o p m e n to ft h ed w ,t h er e s e a r c h w h i c h i n t e g r a t e st h et e c h n o l o g yo f o l a pa n dd a t am i n i n g ( d m lw i t hd w g e t si n t o ah e a t m o r e a p p l i c a t i o nr e s e a r c h e sh a v eb e e np u t t i n gi n t o e d u c a t i o nd o m a i nf r o mt r a d i t i o n a lt e l e c o m ,f i n a n c e ,i n s u r a n c e sf i e l d s a n de t c a n dn o wt h ea p p l i c a t i o nr e s e a r c ho nh o wt ob u i l dt h et e a c h i n g q u a i l t ys c r u t i n yd a t a w a r e h o u s eb e c o m e sm o r e i m p o r t a n t t h ea i mo ft h i sp a p e ri st of i n dap r o j e c to fm e t a d a t am a n a g e m e n t w h i c hc a nb eq u i t ea d a p tt ot h ei s o m e r o u s ,d i s p e r s em e t a d a t a f i r s t l y , w e d om o r er e s e a r c ho nt h er e l a t i o n a lt e c h n o l o g yo f b u i l d i n gt q s d w t h e n w e d e s i g nt h em u l t i t h e m et e a c h i n gq u a l i t ym o d e la n dg i v et h et q s d w p r o t o t y p es y s t e m b a s e do nt h i st o p i c s e c o n d l y ,w ec o n s t r u c tt h em e t a d a t am a n a g e m e n ts y s t e mb a s e do n t q s d wp r o t o t y p es y s t e m a n dt h e n w eb r i n gf o r w a r das t r a t e g yo f b u i l d i n gm e t a d a t aw a r e h o u s ea n dam e t h o df o u n d e do nc w m m e t a d a t a m o d e l ,a i m i n gt o s e t t l et h e p r o b l e mw h i c hd w m e t a d a t ac a nn o tb e e m c i e n tu t i l i z e ds i n c et h e ya r es h o r to fu n i f i c a t i o n ,w 色p r o v i d et h e f u n c t i o n so fm e t a d a t as h a r ea n dm e t a d a t ae x c h a n g e ,w h i c hc a r lo f f e r d i f f e r e n tu s e r sa c c e s s i n gt om e t a d a t ac o n v e n i e n t l y f i n a l l y ,w ep a ym u c hm o r ea r e n t i o nt ot h et e c h n o l o g yo fe x t r a c t , t r a n s f o r m ,l o a d i n g ( e t l ) t h e n ,b a s e do n c w mm e t a d a t a w a r e h o u s e ,w e a c h i e v et h ee t lf u n c t i o nw i t ht h eh e l po fm i c r o s o f t st o o l s s u c ha sd t s a n dv i s u a lb a s i c 6a n ds oo n k e y w o r d s :d a t aw a r e h o u s e ,m e t a d a t a ,c w m ,e t l y7 3 二2 1 8 基于数据仓库的t q s 系统一一t q s d w 的研究与设计 第1 章绪论 l _ 1 课题的研究背景 2 0 世纪9 0 年代以来,随着数据库技术的发展,形成了以数据仓库( d w ) 为核心、以联机分析处理技术( o l a p ) 和数据挖掘( d m ) 工具为手段的企业 决策分析系统的解决方案。数据仓库是面向主题、为分析和决策服务。也正是 这一点使其优越于传统数据库。数据仓库的数据是按照主题有冗余地组织在 一起,通过透视、切片、钻取、旋转、时间序列等技术来进行各种相关性分析 和展现。 数据仓库一出现,就首先被应用于电信、银行、保险等这些主要传统数据 处理密集型行业,国外很多大型企业的数据仓库在1 9 9 61 9 9 7 年就开始建立。 数据仓库技术的出现不仅提高了数据的存储及处理能力,也提高了分析能力, 能够让企业发现很多从来没有意识到的知识,带来相应的效益。在未来的发展 趋势中,数据仓库以及基予此技术的商业智能化无疑将是大势所趋,也是各数 据库厂商研究的重点心1 。其应用领域也会因为它带来的强大优势而得到扩大。 教学质量是高等学校的生命线和永恒的主题。教学质量是教学效果的体现, 是教学价值的表现形式。3 。如何更有效地充分利用和发挥学校现有的资源优势, 保证教学过程到位,促进教学正常运转,不断优化和提高教学效果,更好地建立和 健全学校教学质量监控体系,己成为学校教学管理面临的新课题。 传统的教学质量监控体系的信息来源主要依靠手工搜集,再进行人工分析得 出结果,进而为决策者提供有效的信息。这种方法效率低且难以实现动态地掌握 教学质量的目的:而现有的一些管理信息系统,只适合于事务型操作,很难进行 分析型处理。 然两,随着信息技术及网络技术的发展,教务工作者希望能够快速、准确、 方便地从现有的分散的事务型系统中以及校园网上提取出有意义的教学质量信 息;决策者还希望能利用这些信息动态地分析教学质量情况,以助于决策。 随着教学质量监控系统在理论层面的逐步完善,我校事务型系统产生的数 据日益庞大,教育管理者对监控水平的要求h 渐提高,构建新一代教学质量监 控系统的需求曰渐高涨。与传统的教学质量监控系统不同,新一代的教学质量 监控系统一般是基于数据仓库技术、o l a m 技术( o l a p 与数据挖掘相结合的 第2 页 基于数据仓库的t o s 系统一- - t q s d 的研究与设计 产物,兼有o i 。a p 多维分析的在线性、灵活性和数据挖掘对数据分析的深入性) 能够提供多方位的监控分析功能。能在决策方案变化时快速适应,从而支持高 层管理人员的分析和决策。它是基于高校教学质量信息和现有分散的教学管理 信息系统、评教系统等操作型系统,以现行的数据仓库、数据挖掘技术为核心, 以分析为目的的教学质量监控系统。它可以实现多个分散的、异构的数据源的 融合,完成对不同数据的存取、查询,能够提供动态教学质量分析信息、高校 状态数据,并辅助高层领导分析教学工作状况,以及完成教学工作的决策。而 构建教学质量监控系统的关键是要高质量、灵活、功能丰富的数据仓库的支持。 因此,本课题针对这一现状提出构建这教学质量监控数据仓库,为我校教 学质量监控的实施提供了高效、快捷、准确的平台。对于进一步提高我校的教 学质量监控水平,有效地促进我校教学质量的提高具有很大的现实意义。 1 2 目前课题的研究现状 2 0 世纪8 0 年代以来,高等教学质量伴随着规模的扩大而下降的问题受到世界 各国的关注。提高高等教育质量,满足社会需求,成为社会各界的普遍呼声。高 等教育本身也由于规模扩大、资金短缺有提高效率的内在要求,同时高等教育还 需要通过有效的行动向社会证明自己,以争取社会的广泛支持。正是迫于社会各 界的压力和内部需要使然,从发达国家开始,发起了一场世界性的以提高质量为 主题的高等教育改革。进入2 0 世纪9 0 年代,高等教育质量保障发展成为世界性的 改革浪潮。在我国,学位与研究生教育评估的理论研究工作主要是从“七五”计 划的学位与研究生教育重点研究课题开始的【4 】,1 9 9 2 年国务院学位办和华中理 工大学( 现华中科大) 联合承担了“学位与研究生教育评估理论、方法及其计算 机决策支持系统研究”课题的研究工作【5 1 。掀起了教育领域里决策支持系统研究 和实施的热潮。 关于教学质量的理论研究国内外都已达到相当成熟的水平,国外在教学评 估方面,已从实际教学质量管理活动中归纳出了几十种理论“3 。国内目前主要 集中在教学质量监控系统理论研究上,已经制定了一系列评价标准和指标,如, 教学评估指标体系权重问题的研究;普通高等学校基本工作状态数据集一文 制定了本科学校和专科院校分类指标,其中,对于本科院校有1 9 1 项指标数据, 专科院校有1 4 6 项指标数据。对于数据仓库和数据挖掘等技术支持的研究则处 于起步阶段,全国己建成校园局域网的大部分高校( 除少数西部或刚建成的民 第3 页 基于数据仓库的t q s 系统一- - t q s d w 的研宽与设计 办高校以外) 也都建立了相应的教学质量管理信息系统,如:教学评估等操作 型系统。 传统的教学质量监控体系,主要以教学管理系统反馈的信息为导向,完成 统计与决策分板。这类教学管理系统侧重于事务型操作,各自间相对独立,相 关决策分析的信息也呈零散分布状态。因此,教学质量监控实施困难,力度不 足,难以更好地支持决策分析。大部分教学质量监控系统信息的收集主要还是 靠人工解决。真正建成或已经实施的基于数据仓库和挖掘技术教学质量监控系 统基本没有。 1 3 本文的研究内容 当前高校的教学质量监控系统的建设所面临的问题是如何更高效的利用现 代信息网络技术和现有的数据资源,快速、准确、高效的得出反馈教学质量信息, 以及时制定相应的改进甚至改革措施。本文针对这种需求,结合我校发展的实际 情况,研究数据仓库在教学质量监控系统中的应用。提出构建以“教学质量”为 主题的多主题的教学质量数据仓库,实现数据的集中存放和分析处理。本文拟具 体做以下几项工作: 在我校已有的相对成熟的操作型系统、丰富的数据存储量以及完善的校园 局域网络的基础上,建立t q s d w 。有效地解决了决策分析系统在线和离线 生成问题;为高校教学质量管理提供了方便、灵活、易使用的决策系统; 为高校教学的科学规范管理提供了有力的保证。 设计多主题的教学质量主题模型。 对教学质量数据仓库中的元数据管理进行了研究,提出基于公共仓库元模 型( c o m m o nw a r e h o u s em o d e l ,b p c w m ) 元数据管理策略,并采用将c w m 元模型映射到关系型数据库的方法构建1 q s d w 的c w m 元仓库。 针对我校有关教学质量数据仓库的数据源分布、异构、多平台的特点,开 发e t l i 具,实现教学质量数据仓库的数据抽取、转换和加载过程。 第4 酉 基于数据仓库的t q s 系统一- - t q s d w 的研究与设计 第2 章t q s d w 的设计 我校各部门、院系自1 9 9 5 年以来己积累了大量的学生相关的信息数据,这 些操作型系统一直以来各自为政,其数据库数据处于分散、异构的局面,缺乏 统一、聚集,没有有效的分析技术支持,从而不能提供有效的决策数据来为教 育决策者服务。因此,需要使用数据仓库技术和数据挖掘技术来解决这些不足。 2 1t q s 系统架构 t q s 系统即教学质量监控( t e a c h i n gq u a l i t ys c r u t i n y ) 系统。是通过分析各项 指标的数据状态”1 ( 这些指标数据是以教学质量监控为内容的) 来实现对教学过 程监测以及对教学质量水平的分析。它是基于教学质量数据仓库的,融合o l a p 和d a t am i n i n g 技术,可以管理使用不同类型的目标数据库并使之用于不同类型的 图2 - 1 教学质量监控系统框图 决策支持。是新一代教学质量监控体系。教学质量监控系统的结构如图2 一l 所示。 t q s 系统中我们实现了异构数据源的数据抽取、转换、集成和统一;实现 第5 页 基于数据仓库的t q s 系统一t q s d w 的研究与设计 了分散系统的集中管理;创建了数据仓库和在此基础上构建了多维数据集,并 开发了数据挖掘工具,以及实现决策分析结果的可视化( 包括元数据的可视化 管理和查询,决策信息的可视化展现等) 。从图2 - 1 不难看出,整个系统由五部 分组成,即各分布的事务型数据源,数据仓库,o l a p 子系统,数据挖掘子系 统以及决策调控,是一个半闭环结构。各部分功能简单介绍如下: 数据源:是数据仓库中的数据根源,o l a p 子系统以及数据挖掘的原始数据。 t q s 系统的数据源来源广泛,异构、分散,各事务型系统通过校园局域网互联。 数据仓库模块:这个模块功能的完整程度,质量的高低直接影响到拯个系统的 质量,是整个系统的核心所在。该系统相应的功能包括:数据的抽取、清洗、转 换、集成和装载( e t l ) :元数据管理、数据仓库维护和元数据仓库的管理。 其中e t l 过程完成从数据源中抽取数据,在抽取的过程中对数据进行检验 和整理,清理无关、错误数据,修正数据之间的不一致性,对数搌进行重新组 织和加工。并按统一的语义建立源数据与目标数据之间的映射,对抽取的每一 个步骤以及每一抽取步骤内每一个转换任务中的源表字段、目标表字段以及 抽取转换规则都做了定义,并将这些定义形成的元数据按照c w m 元模型的规 范,通过s q ls e r v e r 的存储过程的形式写入元仓库中。最后将数据转载到数据 仓库的目标数据库中。定期将数据仓库中的数据进行综合转存、对休眠数据做 清除操作。 元数据管理能够完成从其它各功能模块自动抽取元数据,通过c w m 标准 对元数据进行标准化处理后,可以提供各功能模块间韵元数据共享和互换;为 各用户提供可视化操作界面,并授以不同的权限,方便地访问元仓库。 o l a p 模块。该系统主要具有以下功能:建立以高校教学质量监控分析为核,i i , 的 多维数据模型,生成不同主题的分析维度和多维数据集;具有呈现多维数据的 功能,通过使用0 l a p 工具,提供可视化操作界面,用户通过这个界面对立方 体进行切片、切块、旋转、钻取等操作,做相应的数据分析。 数据挖掘模块:本子系统是引入数据挖掘( d m ,也称数据开采) 技术,对数 据仓库中的数据采用些特定的知识发现算法,在一定的运算效率的限制内,从 数据仓库中发现有关的知识。主要完成以下功能: 数据预处理功能:即能够去除噪声数据和无关数据,并处理遗漏数据和清洗 第6 页 基于数据仓库的t q s 系统一- - t q s d w 的研究与设计 脏数据,这主要包括重复数据处理和缺值数据处理等数据清理工作;选择数 据并解决数据冲突、不一致的处理问题:数据重组与细分,找到数据的特征 表示,用维变化或转换方法减少有效变量的数目或多元组进行规格化、归约、 切换、旋转和投影等操作完成数据变换;数据取样( 如采用等距、顺序、随 机方法) 分析;运用直方图、散点图探索数据,分析相关系数的分布规律; 结合聚类分析、关联规则、决策树分类等挖掘算法进行数据挖掘并实现结果 可视化;最后采用新数据、测试数据、领域知识评价结果,来定义评价指标 或作为评估指标参数权重修正的参考,并将分析所得结果集成到评估模式库。 决策调控模块:该模块主要是由教学决策部门或人员,通过o l a p 和数据挖掘 模块的输出的教学质量监控信息,对教学过程作出相应的调整或改革等策略, 再将这些策略作用和影响t q s d w ,使数据仓库要做相应的更新。 这几个模块之问相互作用、相互影响。一环决定一环。而数据仓库是整个 系统信息的集中地,又是发生地。该模块质量的高低直接影响这个系统的质量, 影响教学质量监控信息的质量。因此我们说这个模块是整个教学质量监控系统 的核心所在。本文将对这个模块做深层次的研究。 2 2t o s d w 的实施策略 数据仓库中包含一些关键性措施及历史性信息。所有包含在数据仓库中的 实体是相互联系的,所以,在创建数据仓库时也应是相互联系的。本系统拟采 用“自底向上自反馈”方式,或“搭积木式”构造方法开发数据仓库。即不急 于构建企业级数据仓库。因为对于一般的项目组来说,企业级数据仓库的范围 太大,将不太可能在短时间内完成,且投资多见效慢。数据仓库是很复杂的一 一也许只有很大的资金雄厚的企业或集团才具备建立它的实力。鉴于此,我们 这个毕业课题应从小的,容易管理的事务方面开始,即面向主题的数据仓库。 一个面向主题的数据仓库是一个小型的数据仓库,它面向业务最需要帮助的给 定的部分,也即数据集市。所以我们采用“自底向上”的开发方法,采用“信 息打包法”建维。在开发过程中,不断结合新的需求来改进我们的系统功能和 规模。 第7 页 基于数据仓库的t q s 系统一t q s d w 的研克与设计 2 3t q s d w 的需求分析 2 3 1 业务需求分析 我们对整个教学质量监控过程的业务需求概括为一般需求和高级阶段需求 两大部分。一般用户需求即,为各分散的事务型系统中数据进行消除不一致、分 类、聚集等处理,实现教学监控数据的集中存放和管理。而高一阶段需求主要是 在一般需求的基础上,也就是在完成了数据的分类、集中、一致的数据的基础上 完成如:办学特点,科技人才素质水平( 例如教师,科研人员,教务管理人员等) , 师资结构,课堂教学方法和授课质量,课程关系设置,试题质量,学生学习成绩, 等级通过率,生源质量,科研项目成果等情况的分析。 主要完成以下需求: ( 1 ) 横向分析: 同一年度,同一门课,不同班级之间成绩质量的比较( 如:优秀率,及 格率,重修率等) ,对比他们的平均绩点分布; 同一年度,不同院系之间的教师职称( 教授、副教授、讲师、助教的人 数) 结构、学历结构、年龄结构、性别结构、学缘结构等的对比分析; 同一年度,在同一级别刊物上,不同院系教师发表论文篇数的对比; 同一年度,不同专业的毕业生就业率的对比( 分满意和不满意的) : 同一年度,同一专业,不同班级的毕业生就业率的对比( 分满意和不满 意的) : 同一年度,不同地区的学生录取成绩分布对比,等等。 ( 2 ) 纵向分析: 对同一门课,不同届学生的成绩绩点分布的比较分析; 全校每届学生的平均绩点分布特点: 不同年度,同- - i 1 课,不同班级的总体平均成绩绩点对比分析; 全校在不同年度的教师结构分析对比; 同一院系,不同年度,教师职称、历结构、年龄结构、性别结构、学缘 结构的分布对比: 不同年度,在同一级别刊物上,全校教师发布的文章篇数分布对比; 不同年度,在同一级别刊物上,同一院系的教师发表的文章篇数对比: 某一地区,不同年度的生源质量对比: 第8 页 基于数据仓库的t q s 系统一t q s d w 的研究与设计 不同年度,同一专业的毕业生就业率的对比( 分满意和不满意的) 等等。 以上是本课题暂时涉及到的主要需求,还有其它的需求在此无法一列举。 2 3 2 源数据结构分析 我校各院系、部门在日常业务中积累了大量的有关教学质量方面的历史数 据,这些数据涵盖范围广,有关教学质量方面的信息大致可分为以下几类: 学生成绩:包括每学期课程成绩,绩点,英谱、计算机等级考试成绩,获 奖情况等,还有学生的课外实践成绩、参加的各种设计大赛的成绩,毕业设 计成绩等等。 课程信息:由教务处对全校课程统一设置,统一存放;各院系只能下载, 不得修改。所以信息一致,准确。 学生基本情况信息:有来源于学生处的学生基本信息( 如:生源地,录取 成绩、录取类别、录取日期,性别,年龄等几十项信息;还有来自教务处的 在校情况信息( 如:所属院系、班级、专业,每个学期所修的课程等等。) 。 教师信息:专业、所属院系、科研成果以及课堂教学评价等与教学直接相 关的数据来源于教务处;还有教师的学缘、学历、工资、年龄、雇佣日期和 解雇日期等数据则存放在人事处;两地共同存放有教师姓名,性别,职称等 数据。 毕业生就业信息:来源于就业办。涉及毕业生的毕业日期,就业单位、行 业,违约情况( 即二次签约) ,就业满意情况等信息。 其他数据( 即除上面以外的数据) 。 部分相关的数据表结构分析如下: 1 基础数据 高校的基础数据表主要包括:院系代码表,专业代码表,性别表,课程性质 表,班级代码表,教师职称,成绩代码表,奖励类别表等。具体表结构如表2 1 所示。 i 表名 院系代码专业代码性别代码课程类型成绩代码教师职称 卜惹 院系编码专业代码性剐代码课程类型码成绩代码职称代码 r 院系名称专业名称性别课程类型成绩职称 表2 - 1 基础数据表 举9 页 基于数据仓库的t q s 系统一- - t q s d w 的研究与设计 2 学生及其成绩数据 该部分数据的表包括:课程表,教师表,成绩表等。如表3 - 2 所示。 表英语等级计算机等级 名 课程表课程成绩表 成绩成绩 课程号教学号教学号教学号 课程名课程号考试日期考试日期 课程英文名绩点考试类型考试类型 表 课程性质代码考试学期考试成绩考试成绩 属 考核方式考核方式 性学分分数 周课时谭程名 教师代号 图2 2 学生及其成绩表 概括起来,这些数据具有以下特点: 存储分散:即这些数据不在同一个物理位置。这些数据分布在各院系,部 门。面向事务性系统的,是在各部门、院系业务过程中积累下来的数据, 是按各自的业务需要而组织的,没有经过整理和集成。形成了一个个“信 息孤岛”,存在数据格式不统一,同一实体的同一属性在不同的业务部门 有不同的表示格式和方法的现象。如:教师实体,在学籍管理系统中,是 以教师编码为唯一识别码,而人事处对教师信息的存储则以职工号统一进 行编码。 数据量目渐庞大:随着时闾的推移,数据量越来越多。我校每年的招生规 模都在增加,教师队伍也在不断充实之中,历史和现实数据都在不同程度 的增加。目前,全校各个部门与教学质量相关的数据加起来己达到t b 级。 而且,这个数据量以后增长会更快。 数据环境不统一:本系统是基于多中不同环境的数据源,如:学籍管理系 统的数据环境是o r a c l e 7 ,其运行平台是w i n d o w s n t 操作系统。而评教系 统则运行在w i n d o w s 操作平台上,采用s q ls e r v e r 7 作为数据存储环境。 另外还存在s y b a s e ,a c c e s s 、e x c e l 以及w e b 等形式的数据源。这给数据 抽取工作带来相当的难度。 第10 页 基于数据仓库的t q s 系统一- - t q s d w 的研究与设计 2 4t q s d w 的主题定义 针对决策的方向组织数据,并按照分析的要求建立主题数据模型,是建立教 学质量监控的主题数据模型的关键。我们通过从以上的决策需求分析来看,教 学质量监控系统所最关心的无疑是教学质量,而t q s d w 的主要目标是为了通 过这个数据仓库提高教学质量监控水平,增加教学质量分析的客观性、准确性 和高效性。因此系统最需要的当然是教学质量信息。所以t q s d w 系统将有关 于教学质量的操作型系统中的数据进行归类、整理,结合学生网上评教等数据, 对学生的成绩和绩点的分布情况,教师的职称结构、年龄层次,学缘情况以及 科研情况等、毕业生就业情况以及学生生源等情况进行分析,从而获得教学质 量有关的综合性信息。从而真正做到教学评教的客观、公正及时。结合教学监 控的指标体系本系统初步拟定的主题有: 学生成绩、生源质量、就业情况、课堂教学质量、教师素质、试题质量等 教学质量监控系统主题。 2 5t q s d w 的设计 2 5 1t q s d w 系统的开发环境和工具 针对教学质量监控数据仓库的特点,本系统主要采用“自底向上自反馈” 的数据仓库开发方法,以m i c r o s o f ts q ls e r v e r 2 0 0 0 为数据仓库解决方案,采用 v i s u a lb a s i c 6 0 在m i c r o s o f tw i n d o w s2 0 0 0 环境下构筑系统平台。 v i s u a l b a s i c 6 0 以简单,易用且支持多接口访问数据库功能而闻名,支持 o d b co l e d b 接口,具有多方式的数据库访问技术,如:o d b c 的a p i ,d a o , a d o 等。另外v i s u a lb a s i c 6 还支持c o m 组件的开发弗可毗实现x m l 的访问 和开发。 m i c r o s o f t 公司的s q ls e r v e r2 0 0 0 的性能和可扩展性等方面在世界上具有 领先地位。,是套完全的数据库和数据仓库的解决方案。其集成了多种数据仓 库开发工具: 数据采集工具d t s :提供数据导入、导出功能。并能在传输过程中可以 完成数据的清洗、转换等操作,通过与m i c r o s o f t m e t a d a t a r e p o s i t o r y 工 具的集成,访问元数据知识库。 a n a l y s i ss e r v i c e s :多维立方体的构建工具,且支持挖掘工具的开发。 m e t a d a t as e r v i c e s 是集成式元数据管理工具,使用它,可以较容易实现 第1 1 页 基于数据仓库的t q s 系统t q s d w6 研究与设计 元数据的构造和管理。也可以用来实现基于元数据的应用、构建和扩展, 作为共享元数据的信息模型; m i c r o s o f t m a n a g e m e n t c o n s o l e ( m m c 管理控制台) :主要是用来提供同程 安排、性能监测、存储管理以及报警等核心管理服务。 2 5 2t q s d w 的结构设计 由于系统的最终用户是学校的中高层领导,他们所要做的都是决策和趋势 分析,将d s s 中的一些传统的统计分析方法及一些智能决策技术,可以很好地 集成到数据仓库中,使数据仓库的分析能力更加强大,并大大提高数据仓库的 决策支持能力。 因而,构建数据仓库解决方案思路为:从构建简单的基本框架着手,建立 数据仓库,并指导用户学习建立数据仓库,使其能够不断丰富和完善整个系统。 特 图2 2 t q s d w 的体系结构 别需要说明的是,数据仓库的开发是一个经过不断循环,反馈而使系统不断增 长和完善的过程。目的是在系统功能,性能,安全性和可靠性上进行必要的优 化。 t q s d w 系统是一个相对完整的技术体系。浚系统结构见图2 2 所示。由图 第1 2 页 基于数据仓库的t 0 s 系统一- - t o s o w 的研冤与设计 可以看出,系统可以分为数据源,数据准备,数据存储以及数据分析与实现几 个部分。各部分的功能如下: 数据源( d a t as o u r c e ) 。指为系统数据仓库提供最底层数据的操作型数据库 系统( 不同环境的数据) 以及外部数据( 如:w e b 上的数据) ,也是整个决 策数据的最基层来源。本系统的数据源是由诸如:学籍管理系统( 数据环境 是o r a c l e 7 0 ,w i n d o w s n t 操作平台) 、教师评教系统( 数据环境是s q ls e r v e r 7 0 ,操作平台是w i n d o w s ) ,还有人事管理系统、学生管理系统、就业管理 系统等等分布、异构( 平台异构,环境异构以及数据格式异构) 的数据库数 据组成。 数据采集区( d a t ac o n n e c t i o n ) 。这部分包括监视器( m o n i t o r ) 和汲取器 ( d r a w i n g ) 。监视器负责感知数据源发生的变化,并提醒数据仓库抽取程序 按数据仓库系统的需求抽取并加载进数据仓库中,同时更新元数据库。汲取 器负责将从数据源中提取的数据经过转换、计算、聚合等操作后,加载到数 据仓库中。目前市场上数据采集工具很多,如:i b m 公司的v i s u a l w a r e h o u s i n g ,o r a c l e 公司的o r a c l e w a r e h o u s e b u i l d e r ,i n f o r m i x 公司的a r d e m d a t as t a g e ,c a 公司的i n f o rb u m p 以及m i c r o s o f t 公司的d t s 等等。各种 e t l 工具各有千秋,但d t s 具有可抽取多种数据源数据,提供内部编程接 口:以工作流的任务处理方式;可调用外部程序;有丰富的对象库,按计划 自动抽取等优点而被公认为目前e t l 工具中最优秀的。鉴于此,我们在t q s 系统的数据采集工作中主要是用m i c r o s o f t 公司d t s 工具,并结合v i s u a l b a s i c 6 对部分过程编程实现。 数据存储层。存储已经按企业级视图转换的数据,供分析处理用。根据不同 的分析需求,按不同的粒度存放数据。该层次还应该包括元仓库,其中通过 t - - s q l 语句构成存储过程,记录了数据仓库的数据结构、各表的属性、类 型以及数据仓库中各种操作的记录,用于支持数据仓库的开发、使用和维护。 客户端数据展现。该部分主要用来完成将数据仓库中的数据以有效、快速、 简单的方式提供给用户。本系统的数据展现部分包括o l a p 工具、查询工 具、报表展现工具元数据展现平台以及挖掘程序等,能以直观的方式向用户 展现分析结果。该部分请参阅吴建兰同学的硕士论文。 第1 3 页 基于数据仓库的t q s 系统一一t o s d w 的研究与设计 2 5 3t q s d w 多主题的教学质量模型设计 数据模型是对现实世界进行抽象的工具,传统的操作型信息系统要对现实 世界的信息进行处理与管理,必须先将现实世界的事物及其有关特征转换成信 息世界的数据才可以,那么这种转换需要借助于数据模型。这个转换的过程一 般需要经历概念模型、逻辑模型再到物理模型的转换过程。数据仓库同操作型 系统数据库的数据模型一样,也要经过三层数据模型的转换。 1 t q s d w 的概念模型设计 根据前面的业务需求分析和主题的定义,我们确定以教学质量分析为 t q s d w 的总主题,而教学质量可通过学生成绩情况和毕业生就业情况宣接反 映,也由教师素质间接影响。因此我们将教学质量这个主题细化成:学生成绩、 毕业生就业、课堂教学质量以及教师科研素质四个主题,从而形成“教学质量” 这个多主题模型。各主题要能满足如2 4 1 中需求。下面我们将以学生成绩主题 为例,采用“信息包图法”对四个个主题进行建模分析,形成四个实体关系图, 进而组成教学质量的多主题概念模型。 信息打包技术是由t o m h a m m e r g r e n 在数据仓库技术中提出的一种方 法,用于定义和传递用户对商务查询的需求。“信息包图( i n f o r m a t i o np a c k a g e ) ” 是信息打包技术的描述形式。信息包图的底部是数据的指标名称,表格内注明 了维度及维度的全部成员,这些成员在信息包图中称为类别。信息打包技术是 用户与设计人员间传递信息的有效工具。但是,我们在实际应用中发现,信息 包图的“类别”项不能充分地表达实际应用中关于维的全部信息,实际应用对 维的信息提出了更细致的要求。为了对维度进行更细致的管理,常对维进行分 层和分类。人们观察数据的某个特定角度还可以是细节程度不同的多个描述方 面,这称之为维的层次。一个维往往具有多个层次,例如描述时间维时,可以 从日期、月份、季度、年份不同层次来描述,那么日期、月份、季度和年等就 是时间的层次。事实上,一个维最基本都可分为两个层次,即维成员之前形成 一个“全部”层次。类别是按一定的划分标准对维内成员全集的一个分类划分 层次。 层次和类别是两个不同的概念。 层次:所描述的是变量的不同综合程度,与数据的粒度相对应,父层 是由子女层的值的综合得到: 第1 4 页 基于数据仓库的t o s 系统一- - t q s d w 的研究与设计 类别:是在一+ 个维度内为了提供详细分类系统而定义的特定分类。一 个维度内的成员是为了辨别和区分特定数据而定义的。例如性别,年龄等描述 实体典型特征的属性,称之为类属性。把维成员进行了划分,是数据查询更“细 致”的角度,不同类别之间的数据没有任何关系。因此在应用中有必要根据实 际情况把信息包图的维成员分为层次和类别。 根据以上分析,本系统的教学质量监控数据仓库的学生成绩主题用“信息 包图”的方法表示如图2 3 。 学生成绩主题 在教学质量监控过程中,学生是教学的受者,是教学产品,因而,学生素 质的高底,学生成绩的好坏,实践能力的强弱,学生获奖情况等信息是教学质 量的直接体现,也是教育决策者们关心的问题。 维度 i 黉羚藤 i 囔镰i 濑畿缀等舔i 藜 稠彀i 缔,;1 1 i蠹,獯簇雾i r 艇爱 划 层次类别层次类别层次类别层次类别层次 学年性别学院成绩等级性别学院课程类别 学期年龄系别职称系别 班级年龄专业 r 学历 度量指标:绩点,成绩 图2 - :3 成绩子主题信息包圈 与信息包图相对应,形成星型模型,星型模型由五类实体组成:即指标实 体、层次实体、类别实体、维度实体和参考信息实体。形成星型模型的过程如: 指标实体位于模型的中央,信息包图中的每一列即维度位于模型的角上,如果 维度过于复杂或根据需要可以将该维向外延伸形成层次实体和或类别实体。那 么学生成绩主题的信息包图转换成实体关系图见图2 4 所示。 第15 黄 基于数据仓库的t q s 系统一一t q s d w 的研究与设计 图2 _ 4学生成绩分析实体关系图 教师素质主题分析 教师是教学的实施者,教师素质的高低直接影响到教学质量的好坏。可以 通过教学质量数据仓库,可以得到教师的职称,年龄结构,发表论文,专家评 教分数等数据。根据这些数据,分析我校、备院系教师的结构层次分布是否合 理,进而作出相应调整。教师素质分析主题概念模型的建立方法同学生成绩主 题。它的概念模型对应的实体关系图参见图2 5 圈2 - 5 教师素质主题实体关系图 就业主题分析 借助数据仓库,可以得到诸如:在某行业的毕业生数量,学生就业率,学 生就业满意度等数据,可以分析对这一届学生的教学质量的好坏,还可以通过 纵向的对比,看出某一专业的毕业生的市场需求趋势等等信息。我们根据实际 情况,对单位维进行规范化处理,形成雪花模型,其实体关系图见图2 - 6 。 第j6 页 基于数据仓库的t q s 系统一- - t q s d w 的研究与设计 图2 - 6 就业分析实体关系图 教师课堂教学质量主题 图2 7 教师课堂教学质量实体关系图 综合以上四个主题的实体关系图组合成多主题的教学质量总主题的星座型 ( c o n s t e l l a t i o n ) 概念模型图,如图2 - 8 所示。 图2 - 8 教学质量多主题概念横型星座型 第17 页 基于数据仓库的t o s 系统t q s d w 的研咒与设计 2 逻辑模型设计 逻辑模型设计重点是在概念模型的基础上细化数据,明确维表和事实表, 并在维表和事实表中添加属性。这些属性是基于用户提供的信息、报表需求和 操作型数据源的特点丽定的。 在本系统数据仓库的设计中,我们采用星型架构来构造学生成绩主题、课 堂教学质量主题和教师素质主题的逻辑模型。星型数据模型能详细说明说应该 包括的数据及实体间的相互关系,所以用它作为实际数据仓库设计和实施的基 础是一种明智之选。在星型模式中,维表和事实表通过主外键关系建立连接, 形成数据模型的星型架构。首先我们要确定的是哪些作为事实表,哪些作为维 表。在学生成绩这个主题中,事实表有成绩表,而维表有学生维表,教师维表, 课程维表,时间维表以及成绩等级维表。成绩事实表有成续和绩点两项事实数 据( 或可计算属性) 。时间我们以学年,学期两个层次来划分等;课堂教学质量 主题的事实表为课堂教学质量事实表,有教师维表,时间维表,评教维表,教 材维表,教学方法维表。而对于就业分析主题,我们考虑到冗余的问题,将就 业单位维进行了规范化处理,细化为行业,地区,单位性质三个详细表述表, 形成雪花模式。 鉴于以上分析,本文以学生成绩主题为例,将物理模型构建如图2 - 9 所示。 第1 8 页 基于数据仓库的t q s 系统一- - t q s d w 的研究与设计 3 物理模型的设计 在逻辑模型建好以后,接下来考虑的就是相应的物理结构了。即要根据卜 面的逻辑模型来创建对应的物理表结构来存储数据。限于篇幅的原因,我们只 对成绩主题的表为例进行物理建模。我们根据成绩主题的逻辑模型将成绩主题 表分为基本表、细节表和综合表。 1 ) 基本表 基本类物理表主要存放更新频率较低的数据,如维度表数据以及维上的层 次数据等。基本表主要包括:教师维表,时间维表,课程维表,学生维表,成 绩等级维表。 学生表,其中的已毕业四年以上的学生信息按其在校的四年将其成绩 统计平均绩点如公式( 1 ) 和平均成绩转入历史表中,对于近四年毕 业的学生和在校生,则将每门课的成绩都记录在表中。如表2 3 。 平均绩点= 至墨堡雩喾螽鼍篓笋 公式c 一, 表2 3 :学生维表 ”鬻麓羲麓鞭囊+;麓鳓霉夔麟黪; 翔: 薯拍”描i 谦臻冀曩一- n v a r c h a r ( 1 3 ) 学号 n v a r c h a r ( 1o )姓名 g e n d e rn v a r c h a r ( 2 ) 性别 f d k n v a r c h a r ( 1 趴民族 b i r t h d a t e d a t a t i m e ( 8 ) 出生日期 e n g a g e - y e a r d a t a t i m c ( 8 )学院名称 d e d tn a m e n v a r c l m r ( 5 0 ) 系别名称 a c a d e m e _ n a m e n v a r e h a r ( 5 学院名称 m a j o l n a m e n v a r c h a r ( 5 0 ) 专业名称 n v a r c h a r ( 5 班级名称 e n r o l l m e n t _ m a r ki n t ( 4 ) 入学成绩 s t u d e n t _ s y l x n v a r e h m ( 2 0 1学生类型( 如:内地生港澳台生,) r c g l o r l n v a r c h a r ( 1 6 ) 学生家庭所在地 f o s t e ri l a l n c n v a r c h a r ( 2 6 )培养类型名称 e x a m l n eq p e n v a r c h a r ( 8 ) 考生类别( 如:城镇应扁、农村成届) s t u d e n ts t a t u sn v a r c h a r ( 8 )学籍状态( 如:计划内,计划外) 第1 9 页 墨! 鍪塑垒堡塑! ! ! 垒丝二=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论