(计算机应用技术专业论文)高校数据平台的研究与实现.pdf_第1页
(计算机应用技术专业论文)高校数据平台的研究与实现.pdf_第2页
(计算机应用技术专业论文)高校数据平台的研究与实现.pdf_第3页
(计算机应用技术专业论文)高校数据平台的研究与实现.pdf_第4页
(计算机应用技术专业论文)高校数据平台的研究与实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)高校数据平台的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着高校信息化的发展,学校里面各类数据、信息急剧增长,给数据的传 输、存储带来了许多新的问题,特别是不同事务产生大量不同类型的数据,这 些数据分别被许多不同时期建立以及具有不同功能的应用系统所使用。高校中 各职能部门已有的系统,不利于集成不同系统中数据以提供新的信息,而使用 数据的人希望能够看到所有数据和信息的综合情况。 针对这一系列问题,本文提出了建设一个校级数据平台的设想,并提出运用 数据仓库技术,构建校级数据平台。校级数据平台是收集、处理和存储各类数据, 并为全校提供信息服务的平台。它实现了各个应用系统的数据集成,可以保证全 校信息的一致性,提供有效的决策支持数据,并且可以为新的应用开发提供支持。 数据仓库技术是近年来新兴起的一种数据库技术,它通过对大量数据按主题 进行重新组织、存储,并进行联机分析处理,从中提取、挖掘出有用的信息,以 支持决策。本文对数据仓库的结构、开发设计策略、实现方法,以及数据提取、 转换、加载等技术和过程进行详细的阐述和讨论。通过对现阶段高校数据存储和 利用的现状进行分析后,给出了个高校数据中心的系统结构,并对系统中的关 键技术问题,如数据标准、数据平台设计、联机分析处理( o l a p ) 、数据集成等 进行了分析与设计。 关键词:数据平台,数据仓库,联机分析处理,数据集成 a b s t r a c t w j 廿lt h ed e v e l o p m e n to f h i g h e re d u c a t i o ni n f o r m a t i z a t i o n ,t h er a p i dg r o w t ho f i n f o r m a t i o nh a sb r o u g h tm a n yn e w p r o b l e m si nd a t at r a n s m i s s i o na n ds t o r a g e , e s p e c i a l l yd i f f e r e n tt y p e so f d a t ah a v eb e e ng e n e r a t e db yal a r g en u m b e ro f d i f f e r e n t s e r v i c e s i tw a su s e db yd i f f e r e n ta p p l i c a t i o n sw h i c hw e r ee s t a b l i s h e di nd i f f e r e n t p e r i o d sw i t hd i f f e r e n tf u n c t i o n s i nu n i v e r s i t i e s ,t h es y s t e mo f d e p a r t m e n t si sn o t c o n d u c i v et oi n t e g r a t ed i f f e r e n td a t as y s t e m st op r o v i d en e wi n f o r m a t i o n ,a n dt h e d a t au s e r sh o p et os e ea l lt h ed a t am a di n f o r m a t i o n i nr e s p o n s et ot h i ss e r i e so f q u e s t i o n s ,t h ep a p e r p r e s e n t st h ei d e ao f b u i l d i n ga d a t ap l a t f o r mf o ru n i v e r s i t yb a s e do nd a t aw a r e h o u s i n g t h ed a t ap l a t f o r mi su s e d f o rc o l l e c t i n g ,p r o c e s s i n g ,s t o r i n ga l lk i n d so fd a t aa n ds u p p l y i n gt h ei n f o r m a t i o n s h a r es e r v i c e sf o rt h ew h o l ec a m p u s i tc a r r i e so u tt h ed a t ai n t e g r a t i o no fe a e hm i s ( m a n a g e m e n ti n f o r m a t i o ns y s t e m ) ,g u a r a n t e e st h ec o n s i s t e n c yo f t h ew h o l es c h o o l s h a r ei n f o r m a t i o n ,a n dp r o v i d e st h es u p p o r tf o rt h ev a l i dd e c i s i o na n dt h en e wm i s d e v e l o p m e n t r e c e n t l nd a t aw a r e h o u s i n gi sad e v e l o p i n gd a t a b a s et e c h n o l o g y i ts u p p o r t s d e c i s i o nb yt a k i n gu s e f u li n f o r m a t i o no u to f t h ed a t av i am s t r u c t u r i n g ,e x t r a c t i n g , m i n i n ga n da n a l y z i n g t h ea r c h i t e c t u r eo f d a t aw a r e h o u s i n g ,t h es t r a t e g i co f t h e d e v e l o p m e n ta n dd e s i g n ,t h em e t h o do f a c h i e v e m e n tt h ed a t aw a r e h o u s e ,a n dt h e t e c h n i q u e so f t h ee x t r a c t i n g ,t r a n s f o m a i n ga n dl o a d i n go f t h ed a t aa r eb e e n e x p o u n d e da n di l l u s t r a t e di nt h ep a p e r a f t e rt h ea n a l y s i so fs t o f i n ga n du s i n gt h e p r e s e n td a t ai nu n i v e r s i t i e s ,t h ep a p e rg i v e st h es t r u c t u r eo fd m as h a r i n gp l a t f o r m , a n a l y z e sa n dr e a l i z e st h ec o r et e c h n i c a lp r o b l e m ss u c ha si n f o r m a t i o ns p e c i f i c a t i o n , d e s i g no f d a t ap l a t f o r m ,d a t ai n t e g r a t i o n ,e t ld e s i g n ,o l a e k e yw o r d s :d a t ap l a t f o r m ,d a t aw a r e h o u s e ,o l a p ,d a t ai n t e g r a t i o n i i 插图目录 图2 1 数据仓库系统体系结构9 图2 2 数据仓库数据组织结构图1 l 图2 3 “自底向上”数据仓库构建路线1 5 图3 - 1 高校信息标准结构图2 0 图3 - 2 数据平台体系结构设计图。2 3 图3 - 3 数据仓库的数据集成2 5 图3 - 4 面向主题的学校数据仓库2 5 图3 5 科研物理数据模型( p d m ) 2 7 图4 1o l a p 三层客户,服务器结构3 4 图4 2 学生分布主题多维模型4 0 图4 3 学生成绩主题多维模型4 l 图5 - 1e t l 处理过程4 4 图5 - 2 数据集成流程图4 7 图5 - 3o w b 数据映射图5 2 v 原创性声明 本人郑重声明:本人所呈交的学位沦文,是在导师的指导 下独立进行研究所取得的成果。学位论文中凡引用他人已经发 表或未发表的成果、数据、观点等,均已明确注明出处。除文中 已经注明引用的内容外,不包含任何其他个人或集体已经发表 或撰写过的科研成果。对本文的研究成果做出重要贡献的个人 和集体,均己在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名:塑l 亘盘日期:2 2 哩:笸: 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识 产权归属兰州大学。本人完全了解兰州大学有关保存、使用学 位论文的规定,同意学校保存或向国家有关部门或机构送交论 文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州 大学可以将本学位论文的全部或部分内容编入有关数据库进行 检索,可以采用任何复制手段保存和汇编本学位论文。本人离 校后发表、使用学位论文或与该论文直接相关的学术论文或成 果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名:啦导师签名:主丝堑整日期:班 高校数据平台的研究与实现 1 1 研究背景和现状 第1 章绪论 高校信息化是指随着现代信息技术的发展,高等院校根据自身发展的需要, 采用先进的信息技术来构建数字化校园,从而提高管理效率、强化教学质量、 促进科研教研、提升服务水平。以高性能校园网为基础,实现教务管理、教学 资源管理、科研管理、后勤与服务管理的全面整合,建设高校共享数据平台, 实现信息化增值服务,是信息经济条件下高等院校发展的大势所趋,也是我国 高校向世界一流大学迈进的必由之路。 我国高校信息化建设已经有了重大进展,良好的网络环境使得校园网络应 用系统和用户都达到了相当的规模,网络用户涵盖了教职员工、学生等校内各 类人群和无法计数的校外访问者,部分实现了网上办公、网上管理、网上教学 和网上服务砌。但同时,经过深入的分析,也可以看到存在不少问题: ( 1 ) 应用系统建设缺乏统一规划 大学的信息化建设,应该是一个有机的整体。信息化建设在校园网络等基 础设施建设方面,作为c e r n e t 的组成部分,遵循了其规划和标准,取得了良好 的效果。但是,在教育管理应用系统的建设方面( 即教育管理支撑系统软件) , 由于缺少整体系统规划的背景支持,加之信息化投资的不连贯性,造成信息化 建设的不连续性,又加上大学的特殊性,部门之间的业务相对独立,各院系之 间的关系相对较松散,导致在进行校园信息化应用系统建设时容易缺乏统一的 规划,难以在更高的层次上进行信息的处理,如信息挖掘、决策支持等。 ( 2 ) 信息和数据无法有效共享 由于大学自身处在教育改革的变革时期,对应用系统的研发有很大影响; 缺乏统一规划的信息化,必然带来缺乏全局的总体考虑,应用系统大都是从部 门、基层的视角来开发实施,在不同时间段由不同人群研发完成,人为地割断 了大学各部门之间的有机联系;没有统一的信息标准,数据格式也各不相同, 系统间无法实现有效的数据共享,形成了网络环境下的信息孤岛。 ( 3 ) 没有统一标准 l 高校数据平台的研究与实现 缺乏一套统一的校内教育信息化标准也是导致目前校内、校际间信息系统 彼此不兼容,信息孤岛严重的客观原因。 信息化首先需要一套完整的标准嘲。目前很多高校的上级机构在向高校采 集数据时采用的数据标准往往不统一。例如,在教育部的标准里,对性别“男” 的描述可能是0 0 1 ,但在公安部的标准里却可能是“a ”。这种代码描述的不统 一,加大了高校的工作量,也打乱了高校信息化建设的顺利进行。如果有一套 统一的标准,那么高校就可以建立一个齐备的数据库,根据不同主管部门的要 求随时调用相应数据。 ( 4 ) 应用缺乏有效集成 不同人员研发的应用系统采用不同软件平台,缺乏统一规划下的应用访问 接口。各应用系统之间缺乏集成,无法直接访问相互间的数据和功能,各应用 系统之间不能够协同工作,需要人为的处理,如数据交换。随着校园网上应用 和资源越来越多,又暴露出应用缺乏有效的组织和管理的弊端。 ( 5 ) 缺乏统一的用户接口 对于不同的应用系统,用户需要分别登录进入访问,缺乏统一的访问资源 和应用的接口。面对繁多的应用系统,用户难以寻觅所需,人性化程度低。 利用数据仓库技术建设校级数据平台,实现校级数据的标准化,从根本上 解决数据分散、重复、共享困难和信息孤岛等问题,数据仓库是整个信息化平 台的数据基础,由学生、教师、科研、论文等主题数据集市组合而成,不同的 数据集市之间有很强的相关性,在数据仓库的基础之上,可以进行更高级的应 用扩展咖。 目前,我国的数据仓库市场仍处于概念推广阶段,有关数据仓库的报道可 不断散见于各种文章、媒体广告、厂商宣传资料和展示会。由于数据仓库必须 以大量的、日积月累的数据为基础,必须以运行的、不断更新的数据库为主要 来源,因此,建立数据仓库系统,首先需要企业具有良好的o l t p 系统,来处理 企业中的日常业务,这样才能积累大量的历史数据,但我国的信息化程度还比 较低,企业管理水平也参差不齐,很多企业缺乏良好的o l t p 系统来做基础,不 少单位的数据库规模还比较小,有些单位甚至还没有完善的数据库系统,数据 仓库的应用还处于初级阶段。另外,在我国,很多企业的领导人不能完全意识 2 高校数据平台的研究与实现 到信息技术对企业成功的重要意义,因此也还不会利用数据仓库技术进行数据 分析作决策,这也是数据仓库在国内的应用不多的原因之一。目前,只是一些 银行、保险业开始尝试建设数据仓库。 数据仓库和o l a p 是9 0 年代初提出的概念,到9 0 年代中期己经形成潮流枷。 在美国,数据仓库己成为仅次于i n t e r n e t 之后的又一技术热点。数据仓库是市 场激烈竞争的产物,它的目标是达到有效的决策支持。大型企业几乎都建立或 计划建立自己的数据仓库,数据库厂商也纷纷推出自己的数据仓库软件旧。i b m , o r a c l e ,s y b a s e ,i n f o n n i x ,m i c r o s o f t 、和s a s 等有实力的公司相继( 通过收 购或研发的途径) 推出了自己的数据仓库解决方案。i b m 公司提供了一套基于可 视数据仓库的商业智能( b i ) 解决方案,包括v i s u a lw a r e h o u s e ( v w ) ,i b md b 2 , 以及来自第三方的前端数据展现工具和数据挖掘工具( 如s a s ) ;o r a c l e 数据仓 库解决方案要包括o r a c l ee x p r e s s 和o r a c l ed i s c o v e r e r 两个部分;s y b a s e 提供的数据仓库解决方案称为w a r e h o u s es t u d i o ,包括数据仓库的建模、数据 抽取与转换、数据存储与管理、数据管理以及可视化数据分析等工具;i n f o r m i x 于1 9 9 8 和1 9 9 9 年相继收购了国际上享有盛誉的数据仓库供应商r e db r i c k s y s t e m 和数据管理软件供应商a r d e n t ,并提供了完整、集成的数据仓库解决方 案;m i c r o s o f t 将o l a p 功能集成到m i c r o s o f ts q ls e r v e r7 0 中,提供可扩 充的基于c 伽的o l a p 接口,它通过一系列服务程序支持数据仓库应用伽。它使 用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据, 具有较好的查询和报表功能,提供钻取( d r i l l ) 等多维分析技术,支持多种数据 库,同时它还支持基于w e b 浏览器的查询、报表和分析决策。虽然b o 在不断增 加新的功能,但从严格意义上说,b o 只能算是一个前端工具嘲。也许正因为如 此,几乎所有的数据仓库解决方案都把b o 作为可选的数据展现工具。 虽然国内有很多大学和研究机构从事数据仓库技术的研究,但到目前为止, 国内基本没有成熟的数据仓库解决方案。在我国,数据仓库的研究还很不成熟, 具有广阔的研究前景。 1 2 研究意义 现代社会已经进人信息社会,信息对每个人和每个单位来说都是极其重要 3 高校数据平台的研究与实现 的,而如何从大量的信息中发现对于我们有用的知识又更为重要。随着我国加 人w t o ,教育逐步走向国际化,教育的竞争会愈来愈激烈,高等教育的竞争更 为激烈。竞争不仅发生在教学、科研、生源、师资、设备等层面上,同时也发 生在、甚至更主要地发生在高等学校管理水平的层面上。如何通过构建一个容 量大、数据全、易提取、可分析的数据中心平台,把学校不同部门、不同系列、 不同平台上的大量数据进行整合,从大量复杂的数据中提取出有用的宏观管理 和微观管理方面的决策数据,并依托这个系统拓展生成一个高效率的信息化管 理体系,为管理者和决策者提供更为准确、更为科学的决策依据,这已经成为 高等学校提高管理水平的迫切需要和必然趋势。 目前,国外的高等院校已经开始构建和实施数据中心平台建设,为学校的管 理与决策服务,并且在某些方面已经有了较成熟的技术与产品。而国内的高等院 校在这方面才刚刚起步,只有少数的学校在进行这方面的深度开发研究。美国科 罗拉多大学( u n i v e r s i t yo f c o r o l a d o ) 和复旦大学分别运用信息集成方案,建设 校园数据中心平台。 本文提出运用数据仓库技术构建数据中心平台,建立一个体系化的数据存 储环境,将分析决策所需的大量数据从传统的操作型环境中分离出来,使分散、 不一致的操作数据转换成集成、统一的信息,构建成一种特殊组织的数据库。 学校内不同部门、不同角色的用户都可以在这个数据环境中,共事其中的数据 与信息,发现新情况、新趋势,进一步发展出一定的决策系统,为学校的管理 服务。 数据仓库是计算机和数据处理应用发展到一定阶段的必然产物。运用计算 机进行数据管理共经历了三个阶段嘲。第一个阶段是电子数据处理阶段,即面 向单一业务的计算机集成系统。它促进了数据库处理自动化,减轻了工作负担, 提高了单个部门的办事效率。第二个阶段是管理信息系统阶段,即面向管理的 计算机集成系统。它起源于数据库管理,能完成日常事务处理任务,改进组织 效率,使管理走向初级自动化。第三个阶段是决策支持系统辅助决策阶段,即 以数据仓库为核心的具有辅助决策功能的计算机集成系统。它是在人们意识到 管理信息系统完成例行的日常信息处理只是计算机在管理中发挥作用的初级阶 段。要想对管理工作做出实质性的贡献,必须面向决策,面向在不断变化的环 4 高校数据平台的研究与实现 境中出现的不固定的信息需求,将计算机要管理的重点从事务处理转向管理、 控制、计划和分析等高层次决策方面。 在数据库技术的当前及未来发展里程中,数据仓库以及基于此技术的商业 智能无疑将是大势所趋,是未来的数据库技术的重要发展方向。 1 3 论文主要内容 本学位论文针对数据仓库技术在高等院校数据平台中研究和应用过程所面 临的主要问题:系统的体系结构、数据仓库的数据建模技术、数据仓库应用系统 的实现方法、数据装载和控制机制,o l a p 分析等进行了比较深入的研究。本论 文主要创新在于: 规范信息设计和实现,结合兰州大学本身实际情况,根据需求调研, 设计了兰州大学校级信息化标准方案: 将数据仓库和o l a p 技术相结合,提供个性化服务,平台除了为各个业 务系统提供重要共享信息外,针对校领导、教职工等提供个性化服务; 利用数据仓库技术中时l 工具,提出了一个具有实践指导意义,基于 校测验数据平台的数据集成方案。 1 4 论文组织结构 论文共分六章,按如下结构组织: 第一章绪论 介绍高校数据平台及数据仓库技术产生的背景、研究现状以及论文的研究 意义、研究内容。 第二章数据仓库技术 介绍数据仓库技术基本理论知识,包括数据仓库的产生、定义、体系结构 等。 第三章校级信息标准化建设和数据平台体系结构 介绍兰州大学校级信息化标准方案和高校数据中心平台体系方案。 第四章高校数据集市和o l a p 系统的建立 介绍o l a p 的概念、体系结构和高校数据集市和o l a p 系统的设计。 5 高校数据平台的研究与实现 第五章校级数据平台的数据集成 介绍e t l 概念和校园数据集成方案。 第六章总结与展望 总结全文的内容和思想,并对将来的发展方向做出展望。 6 高校数据平台的研究与实现 第2 章数据仓库技术 2 1 数据仓库技术的产生及定义 数据仓库是2 0 世纪9 0 年代初提出的概念,到9 0 年代中期已经形成潮流。数据 仓库技术是从事务型数据库中抽取数据,按照决策主题要求进行清理、转换、集 成,重新组织成支持决策的新型数据格式。数据仓库是一种多学科相互结合的技 术,它一般是以传统的数据库技术作为存储数据和管理资源的基本手段,以统计 分析技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和 发现规律的科学途径,是当前最好的一种企业数据处理解决方案n 町。 计算机系统最初的数据管理形式主要是文件系统,少量的以数据片段之间增 加一些关联和语义而构成层次型或网状数据库,但数据的访问必须依赖于特定的 程序,数据的存取方式是固定的。到t 1 9 6 9 年,e f c o d d 博士发表了著名的关系 数据模型的论文m 1 。此后,大量关系型数据库系统的开发和实现和s q l 的使用加 上近些年来计算机硬件的处理能力呈指数级的递增,使关系数据库成为联机事务 处理系统的主宰,开创了数据管理的一个新时代。 整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。联机事 务处理以单一的数据资源,即数据库为中心,以企业的特定应用服务为目的,主 要是对数据库进行日常操作,通常是对一个或一组纪录的查询和修改,注重响应 时间,数据的安全性和完整性。然而,应用在不断地进步。当联机事务处理系统 应用到一定阶段后,用户便发现单靠拥有联机事务处理己经不足以获得市场竞争 的优势,他们需要对其自身业务的运作以及整个市场相关行业的情况进行分析, 然后做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据和外部 数据进行综合分析才能得到。这种基于业务数据的决策分析,称为联机分析处理。 传统的数据库系统主要是针对操作型数据,用于事务型处理,当人们需要进 行更深入的分析处理任务时,现有的数据库系统无法实现,因为操作型数据和分 析型数据有着许多不同。 操作型数据和分析型数据的差异,从根本上决定了事务型处理和分析型处理 的不同“”。由于操作型数据和分析型数据的不同、事务型处理和分析型处理的差 7 高校数据平台的研究与实现 异,所以在传统的事务型环境中直接建立分析型应用是不会成功的,这就需要一 种新型的数据存储和组织方式。数据仓库就是目前可行的一种解决方案,它将企 业的原始操作数据进行清理、抽取、转换和集成,分离操作型处理和分析型处理, 建立一个单独的分析处理环境,可以为决策者提供完整的、一致的辅助决策信息 以及灵活的、方便的辅助决策工具。 数据仓库并不是要取代原有的数据库,只是在原有数据库的基础上,为了满 足高层分析、决策的需要,提供了一个新型的数据存储环境,但是其中存储数据 的质和量都与操作型数据库不同。 事实上,将大量的业务数据应用于统计和分析原本是一个非常简单和自然的 想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易, 传统数据库系统己经无法满足数据处理多样化的要求,这主要表现在以下几点: 1 、联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,数据 查询的方便与快捷。联机分析处理和联机事务处理对系统的要求不同个数据库在 理论上难以做到两全。 2 、业务数据往往存放于分散的异构环境中,而且还有大量的历史数据处于 脱机状态,不利于联机分析的统一访问。 3 、业务数据的模式针对联机事务处理系统设计,数据的格式和描述方式不 适合联机分析和查询。 传统联机事务处理强调的是查询和更新( 添加、删除、修改等) 数据库,联机 分析处理强调的是从数据库中获取信息、利用信息。由于事务型处理和分析型处 理两个系统中数据的结构、内容和功能的不同,分离己经成为必然。 近年来,随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再 加工,形成一个综合的,面向分析的环境,以更好支持决策分折,因此形成了数 据仓库技术( d a t a w a r e h o u s i n g ,简称d w ) 。数据仓库弥补了原有的数据库的缺点, 将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。从而 实现了操作型处理和分析型处理的分离,划清了数据处理的分析型环境。 “数据仓库之父”w h i n m o n 对数据仓库的定义是:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、稳定 的( n o n v o l a t il e ) 、随时间变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。 高校数据平台的研究与实现 对于数据仓库的概念可以从两个层次进行理解,首先,数据仓库用于支持决策, 面向分析型数据处理,它不同于企业现有的操作型数据库:其次,数据仓库是对 多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而 且存放在数据仓库中的数据一般不再修改。 2 2 数据仓库的体系结构 整个数据仓库系统是一个包含四个层次的体系结构,如图2 1 所示。 塑蜷 捆载 0 国国 回l 圆 圈2 - i 数据仓库系统体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。 数据的存储与管理:是整个数据仓库系统的核心。针对现有各业务系统的数 据,进行抽取、清理、并有效集成。按照主题进行组织。数据仓库按照数据的覆 盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便 进行多角度、多层次的分析,并发现趋势。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以及各种基于数据仓库或数据集市的应用开发工具“”。 9 雷巨宜 高校数据平台的研究与实现 2 3 数据仓库的特点 根据数据仓库概念的含义,数据仓库具有以下几个特点: 1 、面向主题( s u b j e c t o r i e n t e d ) 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织,一个主题通常与多个操作型 信息系统相关。 2 、集成化( i n t e g r a t e d ) 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互 独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽 取、清理的基础上经过系统加工、汇总和整理得到的,必须保证数据仓库内的信 息是关于整个企业的一致的全局信息。 3 ,稳定性( s t e a d y ) 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓 库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,修改和删除操作很少,通 常只需要定期的加载、刷新。 4 、动态数据( d y n a m i c ) 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通 常包含历史信息,系统一记录了企业从过去某一时点到目前的各个阶段的信息, 以对企业的发展历程和未来趋势做出定量分析和预测。 5 、历史化( h i s t o r i c a l ) 数据仓库中的数据不仅是关于企业某一时点的信息,而是记录了企业有效的 历史数据,以用于决策。数据仓库以时间为基准来管理数据,允许用户回顾并了 解公司的过去和现在 2 4 数据仓库的数据组织 典型的数据仓库数据组织结构如图2 - 2 所示。在数据仓库中,数据被分成四4 种级别,分别是当前细节级、早期细节级、轻度综合级、高度综合级“”。 l o 高校数据平台的研究与实现 1 、早期细节级数据:存储过去的详细数据,反映真实的历史情况。这类数据 随着时间增加,数据量很大,使用频度低。 2 、当前细节级数据:最近时期的业务数据,反映当前业务的情况,数据量大, 是数据仓库用户最感兴趣的部分。 3 、轻度综合级数据:从当前基本数据中提取出来,通常以较小的时间段( 粒 度) 数据被进行高度的综合,使得数据的细节在综合中丢失。因此,定期综合文 件的形式是牺牲数据的细节换得数据量级的减小的统计而形成的数据,这类数据 较细节数据的数据量小得多。 4 、高度综合级数据:这一层的数据十分精练,是一种高度概括的可用于决 策支持的数据。 图2 2 数据仓库数据组织结构图 当前的数据总是首先进入当前细节级,然后根据应用的需求,通过运算将细 节级数据聚合成轻度综合级和高度综合级数据,随着时间的推移,细节级的数据 因很少被用户使用而老化了,此时为了节省系统的存储空间,可以将老化的细节 数据导出到备份设备上。实际上轻度综合级的数据也可能被导出系统,而对于数 据量很少的高度综合数据,一般可以不考虑导出问题。总的来说,数据仓库的这 种数据组织方式的核心思想是在系统中保留最有可能被用户使用的数据,而很少 使用的数据则备份导出。 在数据仓库中,处理和提取综合后的数据还包括非常重要的元数据,它描述 的是提取和综合后的数据组织方式,在数据仓库的体系结构中已经详细介绍了元 l i 眵眵眵眵 高校数据平台的研究与实现 数据。 下面介绍跟数据组织结构有关的两个重要概念。 1 、数据颗粒度 数据颗粒度是数据仓库中极其重要的概念,数据仓库是面向0 l a p ( 联机分析 处理) 和蹦( 数据挖掘) 的,对于o l a p 和d m 数据颗粒度有不同的定义。o l a p 的一个 重要功能就是向最终用户呈现不同综合程度的数据。第一种粒度就是对数据仓库 中的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越 小;相反,细化程度越低,粒度级就越大。数据颗粒度的大小由数据的用途来确 定;粒度大小决定数据的存储介质“o 。 粒度的第二种形式是相对数据挖掘而言的,在进行数据挖掘过程中,为了提 高和降低计算复杂度,需要对数据仓库中的数据进行抽样。这里的粒度是指抽样 率,即以一定的抽样率对数据仓库中的数据进行抽样后得到的一个样本数据库。 在这里,抽样率越大,粒度越低,抽样率小,则粒度就大。确定粒度大小的依据 是保证样本集合能反映源数据集合的特征。 2 、数据的分割 分割是指将数据分散到各自的物理单元中以便能够独立处理,提高数据处理 的效率数据分割后的数据重元称为分片。 数据分割没有固定的标准,分割的方法和粒度应当根据实际情况来确定。分 割方法常常可以选择时间、地理位置、业务领域等来划分“”。按照时间进行分是 最常用的的分割方法,它符合数据仓库随时间变化的特点,并且分割后的数据分 布比较均匀。 、 分割使得数据可以更容易索引、监控和顺序扫描,并且重构、重组简单。重 构是分割的反面,而重组是对分割后的数据进行新的组合。 2 。5 数据仓库追加和清理技术 数据的组织结构和数据决的组织形式解决的是数据仓库的存储问题。数据追 加是从数据库的角度提出的,它是在数据仓库初始数据加载后,如何再向数据仓 库输入数据的问题。如果数据库中的数据没有发生变化,则不需要对数据仓库进 行追加,因此,数据追加实际上只增加在上次数据输入后数据库变化了的数据。 高校数据平台的研究与实现 要完成数据追加的工作,最关键的是“捕获”数据变化,并将数据的变化记录下 来。下面介绍几种数据追加的方法。 1 、时标法 时标法的思想是为数据记录增加一个时间标记。当数据在上次数据导入完成 后发生了变化,则修改这条记录的时间标志。这样在每次数据追加时,数据库将 通过检索具有新时间标记的条目作为数据追加的内容。但是,在时间的数据库系 统中,通常没有专门的时间标志“”。因此时标法虽然简单,但很少应用。 2 、前后映象比较法 该方法的思想是:将上次执行完数据追加任务的数据库快照记录下来,同要 执行新的数据追加任务前的数据库快照进行对比,比较这两次快照的不同来生成 追加的内容。 r 这种方法比较简单,但是如果数据库的数量级很大,进行这样全数据库的比 较将会耗费大量的系统资源和响应时间,所以这种方法也不太实用。 3 、d e l t a 文件法 d e l t a 文件法的基本思想是:通过数据库应用程序记录数据库数据的变化情 况,形成d e l t a 文件做为追加的内容。由于数据库应用程序主要是为完成事务处 理而设计的,要使所有的应用程序都支持d e l t a 文件的功能在实际应用中很难, 因此,这种方法也没有得到实用化。 4 、日志文件法 日志文件法克服了d e u m 文件法的缺点,它的思想是:通过分析数据库服务器 的数据库日志来获取数据变化的情况。日志文件中的信息并不都是必须的,但通 过分析日志文件可以减少工作量。虽然日志文件法需要对日志本身进行比较复杂 的分析,但是由于它能够极大程度地减少工作量,所以得到了广泛的应用。 数据仓库中的数据也有自己的生命周期,数据并不是只装载而不清理,数 据清理也是设计数据仓库需要考虑的问题之一。 数据仓库的清理与普通系统中的数据清理的含义有区别,它不是简单的删 除,而是从细化级别的数据逐渐上升为高度综合的数据,直到数据已经不再具备 任何意义时才被清除。数据仓库中数据变化的过程实际上是数据在数据仓库中的 生命周期,它的详细过程如下: 1 3 高校数据平台的研究与实现 1 、数据从操作性环境进入分析性环境; 2 、数据从细节级数据逐渐转换为综合级数据; 3 、数据从高速磁盘上转移到低速存储介质上; 4 、数据失去实际意义,最终被清除。 2 6 数据仓库构建策略 数据仓库是为了满足决策需要而建立的,决策的层次性决定了数据仓库的层 次跟数据库建设策略相同,数据仓库也采用自顶向下和自底向上两种开发策略。 1 、自顶向下结构的建设策略 先建立全局级的数据仓库,然后再从全局的数据仓库中抽取必要的数据建立 部门级数据仓库,最后建立个人级数据仓库o ”。这种结构开始于对原始数据的处 理,包括抽取、转换、迁移等处理过程,随后,数据和元数据装载进入数据仓库。 数据仓库不但包含全部的元数据、当前细节数据,同时还存储详尽的历史数据。 与之相对应,数据集市则拥有轻度和高度综合的数据及元数据。 这种要求首先建立数据仓库的模式对于维护全局数据的一致性非常有利,但 是由于建设规模较大,实施周期长,并且投资大、风险高,使得这种策略并不适 合于建立大型数据仓库“”。 2 、自底向上结构的建设策略 该方法是首先建立一个或几个关键的数据集市,随着项目的发展再逐步推 进,最后从各个数据集市中抽取数据建立全局数据仓库。 此策略从最关键的部分开始,先以最小的投资,完成企业当前需求,获得 最快回报,然后再不断扩充,有助于部门级管理人员合理安排预算和及时采用 新的数据仓库技术来产生合乎自己角色的专门系统。如图2 - 3 所示 高校数据平台的研究与实现 图2 - 3 。自底向上”数据仓库构建路线 1 5 高校数据平台的研究与实现 第3 章校级信息标准化建设和数据平台体系结构 3 1 校级信息标准化建设 信息标准化是当今世界经济和社会发展的大趋势,标准化工作具有极其重 要的作用在进入2 1 世纪的今天,学校各部门迫切需要进行信息的共享与交换, 面对众多的应用系统及成千上万的信息,如何统一、科学、规范地分类和描述 信息,使信息能有序流通、发挥信息资源的综合效益是当前的重要工作。兰州 大学的校级信息标准化建设是实现教育信息资源交流与共享的必要条件,是教 育管理信息化建设的基础,它的制定和实旌是兰州大学教育信息化建设健康、 有序、快速发展的关键。 3 1 1 相关概念介绍 ( 1 ) 标准 标准是在一定的范围内获得最佳秩序,对活动或其结果规定共同和重复实用 的规则、准则或特定的文件,该文件经协商一致制定并经一个公认机构批准。标 准应以科学技术和经验的综合成果为基础,以促进最佳社会效果为目的。 ( 2 ) 标准化 为了在预定的领域内获得最佳秩序,对现实和潜在的问题作出供普遍和重复 使用的规定的活动,称为标准化。具体来说,标准化的过程,或者说这种活动的 主要内容由制定、发布和实施标准所构成,其重要意义在于为其预期目的的改进 产品、过程和服务。 标准化的领域十分广泛,通常把相关标准化对象的总体称为标准化领域,例 如工程、农业及量和单位都可以认为是标准化领域。在某一标准化的领域内,标 准化的程度取决于技术发展水平,即在一定时期内,“产品、过程和服务”的技 术能力所达到的水平。 ( 3 ) 教育信息化 教育信息化,是指在国家及教育部门的统一规划和组织下,在教育系统的 高校数据平台的研究与实现 各个领域全面深入地应用现代信息技术,加速实现教育现代化的过程。 教育信息化的目的可以概括为四个方面:一是促进信息技术在教育领域的 广泛应用,二是推动教育的改革和发展,三是培养适应信息社会要求的创新人 才,四是促进教育现代化。 在教育领域广泛应用信息技术、开发教育资源、优化教育过程、提高教育 质量和效益,是教育信息化的原始动力,也是推动教育的改革和发展,培养适 应信息社会要求的创新人才,以及促进教育现代化的基础和前提“”。 ( 4 ) 信息标准化 信息标准在全校范围内为数据库设计提供了类似数据字典的作用,为信息交 换、资源共享提供了基础性条件。信息标准在信息化建设中是至关重要的,在新 的形势下应该有新的拓展。 教育部教育管理信息化标准是我国第一部相对完整的教育管理信息化 方面的标准规范,包含学校管理信息标准、教育行政部门管理信息标准、信息 交换标准、管理软件规范四个大部分,内容涵盖了教育行政部门和学校日常管 理工作中的方方面面,包括学生、教师、教学、科研、体卫、设备、房产、办 公等业务管理信息。 3 1 2 高校信息标准化现状 中国高校的信息标准化建设始于2 0 世纪8 0 年代,至今已有十多年的历史。 随着计算机技术的迅速发展,大学的信息化建设已经从管理信息系统发展为数 字校园环境下的整体化信息系统的建设,无论在深度和广度上,原有的信息标 准都不能适应今天的需求。 教育信息管理的标准化是整个国家教育信息管理化建设的基础,是实现全 国范围内教育信息资源交流与共享的必要条件。随着教育信息化进程的不断推 进,越来越多的学校已经建立了自己的校园网,并以此开展了自己的教学和管 理应用。这对于提高教育管理的效率无疑起到了巨大的推动作用。 但是,随着校内各个不同的系统之间数据共享与信息交换的需要不断增加, 也逐渐暴露出越来越多的问题,具体表现在如下几点: 1 现有标准执行困难,导致信息传输不畅,降低决策的科学性 1 7 高校数据平台的研究与实现 一方面,目前学校教育信息管理的标准很不健全,各业务单位的标准不一 致,亟待完善;另一方面,由于标准本身的不一致性,也导致现有的标准也没 有得到很好的执行。在采用的信息标准中,有很多都不符合现有的教育信息管 理标准,这就导致教育管理信息纵向传输与横向交换的困难,不利于教育管理 信息的比较分析。不仅造成有限资源的浪费,影响了相关教育管理软件作用的 发挥,而且也给各级各部门的教育管理造成了诸多不便。 学校教育信息化重建设轻标准,信息共享度与应用集成度不高,没有专门 针对信息化建设进行统一规划或严格按照规划进行建设,没有建立统一的信息 标准、应用标准与应用访问接口,形成众多信息孤岛式的信息系统,难以实现 信息挖掘与校领导辅助决策支持等深层次的信息化应用倒。 2 缺少网上信息交换规范,导致网上数据交换困难与重复投资 由于教育管理信息化的迅速蔓延,网上的信息交换的需要也急剧增多,而 通过网络实现各级不同教育部门之间的信息交流需要一套完整的网上信息交换 规范。目前由于缺乏这样一个统一规范,已经开始在一定程度上影响了我校各 级教育部门之间的网上信息交流,无法交换数据,造成重复建设,带来资金浪 费。 教育信息化标准信息系统建设是教育部制定的“十五”规划和2 0 1 0 年教育 发展目标中明确指出的教育信息化重点建设工程项目之一,是教育信息化建设 的基础工作。教育管理信息化标准( 第一部分:学校管理信息标准) 由教 育部组织有关专家编制完成,教育部于2 0 0 2 正式颁布实施。 教育管理信息化标准正式颁布实施,标志着我国教育管理信息化工作 开始朝着网络化、标准化、一体化的方向发展。它的实施将解决目前“校校通工 程”、教育管理信息系统等教育信息化建设中没有完整标准规范、缺乏统一规划、 盲目建设、软件开发应用混乱、数据无法互联共享等重要问题。 “中国高等教育学会教育信息化分会”是在国家教育部指导和支持下,为推 动和促进全国高等学校教育信息化建设而成立的学术性组织。其宗旨是研究中 国高校教育信息化的规律性问题,加强高校间合作与交流,促进高校教育信息 化的建设。为了更好地推动教育信息标准化健康发展,学会专门立项,凝聚各 高校力量,开展高校信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论