(计算机应用技术专业论文)基于数据仓库的教学管理系统应用研究.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的教学管理系统应用研究.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的教学管理系统应用研究.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的教学管理系统应用研究.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的教学管理系统应用研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库的教学管理系统应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据仓库的教学管理系统应用研究 摘要 近年来,我国高等院校招生规模不断扩大,但同时也出现了如生源质量下 降,办学经费紧张,师资力量不足等新问题。如何提高管理水平和办学质量, 是很多高校亟待解决的问题。目前多数高校中一些部门一般都建立了信息管理 系统,如学生管理系统、教务管理系统、教师信息系统等。但分散在各个部门 的信息资源缺乏统一的管理和组织,堆积了大量的历史数据。而学校管理决策 人员很难从这些系统中综合出决策所需要的相关信息。因此,建立学校的数据 仓库,将已有的管理数据进行综合管理、分析并挖掘出有用的信息,是提高学 校竞争力,帮助管理者进行决策的一种方法。 本文分析了数据仓库技术及其应用,联机分析处理等相关技术,针对已有 的管理系统,提出了一种基于数据仓库及o l a p 技术的高校教学管理系统应用 方案。论文详细介绍了系统的总体设计,包括概念模型、逻辑模型及物理模型 的设计、系统的开发过程及结果的显示和分析。 系统运行结果表明,系统的设计达到了预期的目标。 关键词:数据仓库:联机分析处理:数据模型;数据分析 r e s e a r c ho n a p p l i c a t i o no ft e a c h i n gm a n a g e m e n tb a s e do n d a t a 腑r e h o u s e a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ei n c r e a s i n ge n r o l l m e n ts c a l e si nu n i v e r s h i e s ,s o m en e w p r o b l e m sa r i s es u c ha sf a l l o fs t u d e n t s q u a l i t y , l a c ko ff u n d s , a n ds h o r t a g eo f t e a c h e r s w ef m di tu r g e n tt oi m p r o v em a n a g e m e n ts t a n d a r da n dq u a l i t yo f o p e r a t i o n a tp r e s e n t , i n f o r m a t i o nm a n a g e m e n ts y s t e m ,s u c ha st h es t u d e n tm a n a g e m e n ts y s t e m , t e a c h i n gm a n a g e m e n ts y s t e ma n dt e a c h e ri n f o r m a t i o ns y s t e m ,h a sb e e ne s t a b l i s h e d i ns o m ed e p a r t m e n t so fam a j o r i t yo fu n i v e r s i t i e s h o w e v e r , v a r i o u sr e s o u r c e so f i n f o r m a t i o ni ss c a t t e r e di nd i f f e r e n td e p a r t m e n t sw i t h o u tc e n t r a l i z e dm a n a g e m e n t a n do r g a n i z a t i o n , a c e u m u l a t i n gal a r g ea m o u n to fh i s t o r i c a ld a t a i ti sh a r df o rt h e m a n a g e m e n to ft h eu n i v e r s i t yt oe x t r a c tu s e f u li n f o r m a t i o nf o rp o l i c yd e c i s i o n sf r o m t h e m t h e r e f o r e ,i ti sas u i t a b l ew a yt ob u i l dt h ed a t aw a r e h o u s et oc o m p r e h e n s i v e l y m a n a g ea n da n a l y z et h ee x i s t i n gd a t aa n de x t r a c tt h eu s e f u li n f o r m a t i o n , s oa st oh e l p t h em a n a g e m e n tt om a k ed e c i s i o n sa n dm a k et h eu n i v e r s i t ym o r ec o m p e t i t i v e t h i st h e s i sa n a l y z e st h ed a t aw a r e h o u s et e c h n o l o g ya n di t sa p p l i c a t i o n , a sw e l l a st h er e l e v a n tt e c h n o l o g ys u c ha so n l i n ea n a l y t i c a lp r o c e s s i n g ( 0 l a p ) o nt h e b a s i so fe x i s t i n gm a n a g e m e n ts y s t e map r o g r a mb a s e do nd a t aw a r e h o u s ea n do l a p i sp u tf o r w a r d , w h i c hi sa p p l i e di nu n i v e r s i t yt e a c h i n gm a n a g e m e n ts y s t e m t h e t h e s i si n t r o d u c e si nd e t a i lt h eg e n e r a ld e s i g no ft h es y s t e m , i n c l u d i n gt h ed e s i g no f c o n c e p t i o nm o d e l ,l o g i cm o d e la n dp h y s i c sm o d e l ,t h ed e v e l o p m e n ta n di m p l e m e n t p r o c e s so f t h es y s t e m ,a sw e l la st h ed i s p l a ya n da n a l y s i so f r e s u i t s i tw a si n d i c a t e dt h a tt h ed e s i g no ft h es y s t e mh a sr e a c h e dt h ea n t i c i p a t e dg o a l f r o mt h es y s t e m a t i co p e r a t i o nr e s u l t k e y w o r d s :d a t aw a r e h o u s e ;o n l i n ea n a l y t i c a lp r o c e s s i n g ( o l a p ) ;d a t am o d e l ;d a t a a n a l y s i s 插图清单 图2 1 异种数据源数据集成性示例 图2 - 2 数据仓库结构图 图2 3 数据仓库系统结构图 图3 - 1 切片与切块示意图 图3 2 数据钻取示例 图4 1 反映主题域之间关系的e r 图 图4 2 学生成绩分析逻辑模型设计 图4 3e t l 处理示意图 图4 4 系统星型结构图 7 8 1 8 2 3 2 6 图4 5 事实表与维度表之间的关系3 7 图5 1 高校教学管理系统数据仓库体系结构4 0 图5 - 2 教学管理系统功能模块图 图5 3 同一教师,不同班级成绩分析 图5 - 4 不同教师,不同班级的成绩分析 图5 5 同一教师,不同学期成绩分析 图5 - 6 同一班级,不同课程成绩的横向比较4 4 钉 铊 钙 表2 1 数据仓库与数据库对比表 表3 - 1 教师职称统计数据( 1 ) 表格清单 表3 2 教师职称统计数据( 2 ) 。1 4 表4 - 1 高校教学管理系统相关数据组织2 4 表4 2 数据粒度经验值 表4 3 学生课程考试成绩数据类型定义2 7 表4 - 4 学生课程数据类型定义 表4 - 5 学生实体元数据的定义 表4 - 6 学生课程考试成绩管理元数据定义2 8 表4 7 示例成绩表3 0 表4 8 学生成绩事实表的结构以及主键字段表3 4 表4 - 9 学生维度结构表 表4 1 0 教师维度结构表 表4 1 1 班级维度结构表 表4 1 2 学期维度结构表。 表4 1 3 课程维度结构表 表4 1 4 数据仓库中各个表之间的主键外键的对应关系表。3 6 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得盒匿王些盍堂或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签字: 矾,杰 签字日期:2 n 7 年,月,罗日 学位论文版权使用授权书 本学位论文作者完全了解金月b 王些盍堂有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金理 兰些盔堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:矾,杰 签字日期:2 一pf 1 月1 5 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 防当、 7 年j ,月膳日 电话: 邮编: 、l沙 名 期 签 日 师 字 导 签 致谢 论文完成之际,首先要感谢我的导师沈明玉副教授。在课程学习期间,导 师给予了我无尽的关怀和教导,使我各方面有了长足的进步。 本文从选题、研究到最后定稿,都是在导师的精心指导下完成的。沈老师 学识渊博,为人谦逊,让我非常敬佩。我从沈老师身上不仅学到了很多理论知 识,而且学到了搞科研工作的方法,沈老师以他那敏锐的学术思想、科学严谨 的治学态度、忘我的工作精神深深影响着我,令我永生难忘。在这里,谨向沈 老师致以本人最衷心的感谢和崇高的敬意! 我还要感谢参加评审答辩的老师、所有帮助过我的其他老师和我的同事、 同学,以及我的家人,感谢大家对我的关心和帮助以及做出的牺牲。 最后,再次向所有帮助过我的人们表示衷心的感谢! 并祝大家万事如意! 作者:孙杰 2 0 0 7 年l o 月1 6 日 第一章绪论 1 1 研究背景 数据仓库( d a mw a r e h o u s e , d w ) 是计算机应用领域里的一个崭新方向,它 是一种信息管理技术,其研究的主要宗旨是通过畅通、合理,全面的信息管理, 来达到对管理决策的支持。数据仓库是数据库技术一种新的应用,不是对数据 库的替代,数据仓库和操作型数据库分别承担着高层决策分析和日常操作性处 理两种不同的任务,并发挥着不同的作用。数据仓库与实时数据库存在着密切 的联系,数据仓库需要实时数据库提供大量的历史数据,为所需要的各类主题 ( 或专题) 提供答案、分析及预测结果。 近年来随着高等教育的社会化,各高校不断扩大招生规模,使得过去传统 的教学管理方法不适应目前的形势。同时扩招在一定程度上又使得进入高校的 学生素质有所下降,从而导致教学质量也有所下降。因此,改变传统的教学管 理方法,实现教学管理的现代化势在必行。随着高校管理信息系统的完善,每 年都有很多学生、课程、教师、成绩等数据,这样年复一年地积累了大量数据。 如何充分利用这些数据并从中挖掘出有用的、却常被人们忽视的重要信息,发 现一些随诸因素动态变化而产生的教学管理规则。正是基于利用和挖掘这种潜 在的信息的需求,数据仓库技术的出现和发展为上述问题的解决带来了新的契 机,并提供了强有力的工具和手段。数据仓库将来自各个数据库的信息进行集 成,从事务的历史和发展的角度组织和存储数据,供用户进行数据分析,并辅 助决策。而应用数据仓库技术能够集成现有的各教学业务系统的数据,建立适 合教学管理的数据仓库和教学质量分析与评估系统,进而辅助教学的管理。这 对于教务管理者、学生管理者无疑是很感兴趣的。正是在此基础上,本文进行 了基于数据仓库的高教教学管理应用研究。 1 2 论文的主要研究内容和意义 高等院校是教学和科研的重要基地,也是培养人才的重要场所。高校学生 管理工作是高校管理工作的重要组成部分,也是衡量高校管理水平的重要依据 之学生管理工作是一个系统工程,贯穿于学生在校学习的整个过程和各个方面。 从新生入学开始,到毕业离校,包括学生学籍管理,学生成绩管理,学生在校 期间的奖惩情况管理,毕业生的就业指导管理等各个方面,具有工作量大、分 类细、项目多和覆盖面广等特点。具有高效而准确的学生信息管理是提高高校 办学质量、培养一流人才必不可缺少的重要手段。 本文针对笔者所在学院的具体情况进行了研究。目前我院的学生管理软件 的现状是:学生成绩管理方面,教务处使用的是本院教师自行开发的学生成绩 管理软件( s q ls e r v e r 2 0 0 0 ) ,实现对学生成绩的日常管理,基本可以满足日常 的成绩管理的需要;学生学籍管理方面,学生工作处仍然采用手工填写学籍表 和使用f o x p r o 数据库进行管理;学生奖惩管理方面和毕业生的毕业就业管理, 使用e x c e l 进行管理。经过调查了解和分析总结,原来的学生管理事务处理中 主要存在以下问题:操作易于出错,效率较低、数据分散,难以共享、数据不 完整,一致性差。 由以上分析可以看出,原有的学院信息管理只是部分实现了计算机信息管 理,还有相当的工作仍然是以手工方式进行处理的,管理工作异常繁重,并且 容易出错。要大幅度的提高学院管理工作的效率,就必须设计一个新的管理系 统,实现学生信息综合管理。同时很有必要根据事务处理中产生的大量业务数 据,建立一个数据仓库系统,利用分析工具和数据挖掘工具,对学生数据进行 统计分析,从中提取更深层次的有用信息,为学校的管理层服务,起到辅助决 策的作用。 本文研究了基于数据仓库及o l a p 技术的高教教学管理应用解决方案,介 绍了系统的总体设计、包括概念模型、逻辑模型及物理模型的设计、系统的开 发过程及结果的显示和分析。该系统可以给高校的教学管理工作提供一些有价 值的决策信息,具有一定的实用价值。 1 3 论文的结构安排 第一章,绪论。主要介绍了本论文的研究背景、论文的主要研究内容和意 义及研究所要实现的目标。 第二章,数据仓库技术及其应用。主要介绍了数据仓库的基本概念、关键 技术、数据仓库的组织结构、开发及数据仓库技术的应用。 第三章,联机分析处理技术。主要介绍了o l a p 的基本概念、o l a p 的数 据组织、o l a p 的多维数据分析及o l a p 工具与应用。 第四章,教学管理数据仓库的设计。主要对原有系统及数据库的使用情况 及数据结构进行了分析。对教学管理数据仓库进行了需求分析,并进行了概念 模型设计、逻辑模型设计及物理模型的设计。重点介绍了数据仓库生成过程中 的关键操作技术,如数据e t l 的实现细节、规则,元数据的定义等。 第五章,基于数据仓库的教学管理系统。介绍了系统的设计目标、系统的 体系结构( 基于o l a p 服务器的c s 结构) 、基于o l a p 的多维数据分析、系统 的实现与运行及运行结果的分析。 第六章,总结与展望。总结了系统的特点及创新之处,同时指出了它的不 足和今后应该改进的方向。 2 第二章数据仓库技术及其应用 2 1 数据仓库的基本概念 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、 批处理、决策分析等各种数理工作。近年来,随着数据库技术的应用和发展, 人们尝试对d b 中的数据进行再加工,形成一个综合的,分析的环境,以更好 支持决策分析,从而形成了数据仓库技术( d a t aw a r e h o u s i n g ,简称d w ) 。作为 决策系统( d e c i s i o n - m a k i n gs u p p o r ts y s t e m ,简称d s s ) ,数据仓库系统包括: ( 1 ) 数据仓库技术; ( 2 ) 联机分析处理技术( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) ; ( 3 ) 数据挖掘技术( d a t a m i n i n g ,简称d m ) 。 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数 据环境发展为一种新环境一体系化环境。 表2 - 1 数据仓库与数据库对比表 对比内容数据库数据仓库 数据内容当前值历史的、存档的、归纳的、计算的数据 数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用 数据特性动态变化、按字段更新静态、不能直接更新、只能定时添加 数据结构高度结构化、复杂、适合操作计算简单、适合分析 使用频率 高 中到低 数据访问量每个事务只访问少量记录有的事务可能要访问大量记录 对响应时间的要求以秒为单位计量 以秒、分钟、甚至小时为计量单位 2 1 1 数据仓库的定义与基本特征 “数据仓库之父”w i l l i a m h i n l l l o n 在 b m l c l i n gt h ed a t ew a r e h o u s e ) ) 中 将数据仓库定义为:“数据仓库是一个用以更好地支持企业或组织决策分析处理 的、面向主题的、集成的、不可更新的( 稳定性) 、随时间不断变化( 不同时间) 的数据集合,用于支持管理层的决策过程。”从定义中可以看出,数据仓库不同 于传统的在线事务处理系统( 0 l 1 甲) ,它所提供的的信息是面向企业决策的。 具体来说,数据仓库具有以下基本特征i l 】: ( 1 ) 数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域或一个 分析对象。例如,保险公司数据仓库的主题为:客户、政策、保险金和索赔等。 主题的划分必须保证每个主题的独立性,而且需要保证对主题进行分析时所需 要的数据都可以在此主题内找到。 ( 2 ) 数据仓库的数据是集成的 数据进入数据仓库之前,必须根据决策分析的要求将分散于各处的源数据 进行抽取、筛选、清理等集成操作。包括对不同来源的数据进行数据结构的统 一和编码;统一原始数据中的矛盾之处,如字段的同名异义,异名同义,单位 不统一,字长不一致等。总之,将原始数据结构做一个面向应用到面向主题的 大转变。数据的集成性可以通过下图来说明: | 墓主c 。l k a s s 。o 。如出( 。c h “a 2 1 0 筇) 二二三三三三。- 。l 。如。“。z 匀 应用b ,= := c l s - c o 如( c h ”2 5 ) 应用c ic h s sc o d e ( c h = r 2 5 ) 一一 喜善:。s。ex-m,fx-10。_:j!:。:。ec f 应用b il c = = = 亨s c x m 应用ls * m k ,e m a l e 豢重第二;三蹿脒 应用b t 距离荚寸= :琴距离厘米 应用c 一距离尺一 图2 - 1 异种数据源数据集成性示例 ( 3 ) 数据仓库是不可更新的 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后,数据仓 库的用户在进行分析处理时是不进行数据更新操作的,所以数据仓库中的数据 具有稳定性。但并不是说在数据仓库的整个生命周期中数据是不变的,可以对 数据进行添加、刷新和删除操作。 ( 4 ) 数据仓库是随时间变化的 数据仓库系统随时间的变化要不断地生成多个新的o l t p 数据库的快照, 经统一集成后增加到数据仓库中,而不会覆盖原来的快照。一般来说,数据仓 库中数据的时限为5 1 0 年,一旦超过了这一期限,过期的数据就要被删除。数 据仓库中数据的关键字结构包含时间元素,需要标明数据的历史时期,有助于 d s s 进行时间趋势分析。 ( 5 ) 数据仓库中的数据量很大。 通常的数据仓库数据量为i o g b 级,相当于一般数据库i o o m b 的1 0 0 倍, 大型数据仓库是一个t b 级数据量。数据仓库中数据的比重为索引和综合数据 占2 3 ,原始数据占l ,3 。 ( 6 ) 数据仓库对软硬件的要求比较高 一般需要一个巨大的硬件平台和一个并行的数据库系统。 总之,数据仓库组织的根本目的在于对决策的支持。高层的企业决策者、 4 中层的管理者和基层的业务处理者等不同层次的管理人员均可利用数据仓库进 行决策分析,提高管理决策的质量。 2 1 2 粒度与分割 粒度是数据仓库的重要概念【1 1 1 2 1 。粒度分为两种形式,第一种粒度是以数据 仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多 少,也影响数据仓库所能回答询问的种类。粒度越小,细节程度越高,综合程 度越低,回答底部的种类就越多,必然造成数据仓库中的数据大量堆积,效率 十分低下;反之粒度的提高将会提高查询效率。另一种特殊形式的粒度是样本 数据库,它是以一定的采样率从细节档案数据或轻度综合数据中抽取的一个子 集。同通常意义的粒度不同,样本数据库的粒度级别不是根据综合程度的不同 来划分的,而是根据采样率的高低来划分的,采样粒度不同的样本数据库可以 具有相同的综合级别。 分割是数据仓库的另一个重要概念,它是指将数据分割到各自的物理单元 中去以便能分别处理,以提高数据处理效率。数据分割可选择按日期、地区和 业务领域,也可按自定义分割标准,分割之后,小单元内的数据相对独立,处 理起来更快,更容易。 2 1 3 元数据 元数据在数据仓库的建造、运行中起着极其重要的作用,它描述了数据仓 库中的各个对象,遍及数据仓库的所有方面,是整个数据仓库的核,l j 3 。 元数据描述了数据仓库的数据和环境,即它是关于数据的数据,描述了数 据的结构、内容、码、索引等项内容。传统数据库中的数据字典是一种元数据。 但在数据仓库中,元数据的内容比数据库中的数据字典更丰富、更复杂。设计 一个描述能力强、内容完善的元数据是有效管理数据仓库的具有决定意义的重 要前提。因此元数据的设计在整个数据仓库设计中有重要的地位,是数据仓库 设计的一个重要组成部分。 元数据的生命周期可以分为三个基本阶段:收集、维护和配备。这三个阶 段相互促进使元数据能在数据仓库环境中发挥重要作用。 2 2 数据仓库的关键技术 与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工 程。由于它的这种工程性,因而在技术上可以根据它的工作过程分为:数据的 抽取、存储和管理、数据的表现以及数据仓库设计的技术咨询四个方面【4 1 。 ( 1 ) 数据的抽取 数据的抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数据 环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的 数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增 量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理 系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时 间、相互的顺序、成败对数据仓库中信息的有效性则至关重要,在技术发展上, 数据抽取所涉及的单个技术环节都已相对成熟,其中有一些是需要编程的,但 整体的集成度还很不够。目前市场上所提供的大多是数据抽取工具。这些工具 通过用户选定源数据和目标数据的对应关系,会自动生成数据抽取的代码。但 数据抽取工具支持的数据种类是有限的;同时数据抽取过程涉及数据的转换, 它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户编程的抽取 工具往往不能满足要求。 ( 2 ) 数据的存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定 了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定 采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手 分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数 据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看, 关系数据库系统在数据存储和管理方面己经非常成熟,目前不少关系数据库系 统己支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中, 进步增强了系统管理大数据量的扩展能力。 数据仓库要解决的第二个问题是并行处理。在数据仓库系统中,用户访问 系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是 很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求 服务,将该请求并行处理。 数据仓库的第三个问题是针对决策支持查询的优化。在技术上,针对决策 支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和 采样等诸多部分。普通关系数据库采用b 树类的索引,对于性别、年龄、地区 等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了位图索 引的机制,以二进制位表示字段的状态,将查询过程变为筛选过程,单个计算 机的基本操作便可筛选多条记录。 数据仓库的第四个问题是支持多维分析的查询模式。用户在使用数据仓库 时的访问方式与传统的关系数据库有很大的不同。对于数据仓库的访问往往不 是简单的表和记录的查询,而是基于用户业务的分析模式,即联机分析。它的 特点是将数据想象成多维的立方体,用户的查询便相当于在其中的部分维上施 加条件,对立方体进行切片、分割,得到的结果则是数值的矩阵或向量,并将 其制成图表或输入数理统计的算法。关系数据库本身没有提供这种多维分析的 查询功能,人们提出了多维数据库的概念。 6 ( 3 ) 数据的表现 数据表现是数据仓库的门面。这是一个工具厂商的天下。它们主要集中在 多维分析、数理统计和数据挖掘方面。多维分析是数据仓库的重要表现形式, 由于m o l a p 系统是专用的,因此,关于多维分析领域的工具和产品大多是 r o l a p 工具。这些产品近两年来更加注重提供基于w e b 的前端联机分析界面, 而不仅仅是网上数据的发布。数理统计原本与数据仓库没有直接的联系,但在 实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以 进行决策。与数理统计相似,数据挖掘与数据仓库也没有直接的联系。数据挖 掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现 蕴藏在数据之中的规律。 2 3 数据仓库的组织结构 2 3 1 数据仓库结构 数据仓库是在原有关系数据库的基础上发展形成的,但不同于数据库系统 的组织结构形式【2 】,它从原有的数据库中获得的基本数据和综合数据被分成一些 不同的层次,包括当前基本数据;历史基本数据;轻度综合数据;高度综合数 据;元数据。 高度综合数据层 轻度综合数据层 当前基本数据层 历史基本数据层 图2 2 数据仓厍结构图 当前基本数据是最按时期的业务数据,数据量大,是数据仓库用户最感兴 趣的部分。当前基本数据随时间的推移,由数据仓库的时间控制机制转为历史 基本数据,一般被转存至磁带等介质中。轻度综合数据是从当前基本数据中提 取出来的。最高一层是高度综合数据层,这一层的数据十分精练,是一种准决 策数据。整个数据仓库的结构是由元数据来组织的。 7 2 3 2 数据仓库系统结构 整个数据仓库系统是一个包含四个层次的体系结构1 4 1 ,具体结构见下图: 图2 3 数据仓厍系统结构图 ( 1 ) 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括 企业内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数 据和各类文档数据;外部信息包括各类法律法规、市场信息和竞争对手的信息 等等。 ( 2 ) 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关 键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库, 同时也决定了其对外部数据的表现形式。数据仓库按照数据的覆盖范围可以分 为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 ( 3 ) o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组 织,以便进行多角度、多层次的分析,并发现趋势。 ( 4 ) 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据 挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。 2 3 3 数据仓库的运行结构 数据仓库应用是一个典型的客户朋艮务器( c s ) 结构形式【5 】o 数据仓库采用 服务器结构,客户端所做的工作有:客户交互、格式化查询、结果显示和报表 生成等。服务器端完成各种辅助决策的s q l 查询、复杂的计算和各类综合功能 等。现在,比较常用的一种形式是三层c s 结构形式,即在客户与数据仓库服 务器之间增加一个多维数据分析( o l a p ) 服务器。o l a p 服务器将加强和规范 决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作, 降低了系统数据传输量,使工作效率更高。 8 曰曰臼口一 2 4 数据仓库的开发 数据仓库的开发适宜用螺旋式开发方法,尽可能快地为d s s 分析者提供出 数据仓库原型,再在数据仓库体系结构设计者和d s s 分析者之间的反馈循环中 不断丰富、完善数据仓库系统。数据仓库的开发过程大体包括以下几个步骤【8 】: 数据仓库技术准备; 数据仓库的模型设计; 数据仓库的构建和e t l ; 数据仓库的使用和维护。 2 4 1 技术准备工作 进行系统设计前需要完成技术准备工作,包括: ( 1 ) 了解各个数据仓库厂商产品的性能和特征并对其进行评估; ( 2 ) 对数据仓库系统未来的数据量进行估算,这个数据量的估算是选择系 统软件和硬件平台的基础; ( 3 ) 根据系统的数据量选择合适的软件和硬件平台; ( 4 ) 熟悉软件系统、硬件系统的技术特长,并在后续的设计工作中运用这 些技术特长; ( 5 ) 对开发人员进行培训。 2 4 2 数据仓库的模型设计 数据仓库模型设计就是根据目前业务系统具有的数据和可以捕获到的系统 需求两个角度设计出数据仓库的信息存储结构,数据仓库模型的设计可以分为 三个层面的设计:概念模型设计、逻辑模型设计和物理模型设计,详细内容将 在后面章节中进行介绍。 2 4 3 数据仓库的构建和e t l 创建数据仓库最重要的一个步骤是将数据从各种操作型数据系统中抽取出 来,排除数据中的数据缺陷,完成一系列转换、汇总,最后将数据加载到数据 仓库。所要做的工作是接口编程,抽取规则设计、进行源数据的获取、清洗、 整理及数据装入。 e t l ( e x t r a c t t r a n s f o r m - l o a d ) b p 数据抽取、转换与加载。它是在数据仓库构 建应用中发展出来的,能够按照统一的规则集成、提高数据的价值,是负责完 成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。它 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数 据源进行清理、转换、对数据进行重新组织和加工,按系统所需要的数据格式 与数据内容,按照时序节奏不断地自动加载到数据仓库的目标库中,更新数据 9 仓库。 这一步工作的成果是,数据己经装入到数据仓库中,可以在其上建立数据 仓库的应用,即o l a p 应用。 ( 1 ) 设计数据转换接口 将操作型环境下的数据装载进入数据仓库环境,需要在两个不同环境的记 录系统之间建立一个接口。在这一阶段的工作中,不仅对数据进行了抽取,而 且此接口还应具有以下的功能: 面向应用和操作的环境生成完整的数据,对数据进行转换、净化; 数据基于时间的转换; 数据的汇总; 现有记录系统的有效扫描,以便以后进行追加。 当然,考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件 的限制,根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口 编程,也包括伪码开发、编码、编译、检错、测试等步骤。 ( 2 ) 数据抽取 数据抽取是指从原文件或原数据库中获取数据,并经过集成、清洁、转换、 优化后,将其加载到数据仓库的过程。它的目的是:清除原数据中大量重复和 对统计分析无用的数据,保证数据的完整性,提高数据仓库中数据的质量;将 数据按主题组织,提高数据仓库中数据的可用性。 因为数据仓库中包含粗细粒度不同即综合程度不同的数据,高度综合的数 据需要从轻度综合的数据中汇总而来,轻度综合的数据需要从当前细节数据中 汇总而来,所以在数据仓库内部也存在多次数据抽取、转换的过程,所以在开 发数据仓库与数据源系统接口的同时,也需要根据数据仓库中不同粒度的模型 设计数据仓库内部抽取、转换、转载的规则。 ( 3 ) 数据清理 数据清理是将数据源中数据经填补空缺值、平滑噪声、去除孤立点、纠正 不一致的数据,而形成具有语法语义正确的数据。 检验有效性。检验有效性是最简单的数据清理形式,通过检验字段中的 数据以保证其落在预期范围内,通常是数值范围和日期范围。 填补空缺值。数据的集中存储可能会丢失某些数据,在导入数据仓库前 必须对空缺值进行处理,常用填补空缺值方法有:忽略空缺属性较多的元组、用 属性平均值填充、用同类样本的平均值填充、用最邻近的值填充等。在数据仓 库中,有估计值比根本没有值要好的多。 消除噪声数据。噪声数据是测量中的随机错误或偏差,通常可用聚类方 法发现噪声、用数据平滑技术( 如分箱) 消除噪声。 实现数据一致。多数据源数据集成生成新数据时,可能会带来数据冲突 l o 即数据不一致问题,通常可参照其他资料人工加以纠正,或指定某一数据源在 冲突中占主导地位等方法实现数据一致。 ( 4 ) 数据集成与转换 数据集成是将多数据源的数据集中存放在数据存储体中。数据的集中存储 会造成数据冗余,产生数据不一致。数据集成并非简单的数据合并,数据在集 成过程中某些属性通常是经过数据转换而来的。常用的数据转换包括以下内容: 聚集。对数据进行汇总,采用多粒度数据分析、构建数据存储体。 数据概化使用概念分层,用高层次概念替换低层次“原始”数据。高层 次概念数据是低层次原始数据的衍生数据,它们通常是冗余数据。产生这些冗 余数据的目的是简化查询、快速查询。 数据规范化。通过将属性按比例缩放,使之落入一个小的特定区间来规 范属性。 ( 5 ) 数据优化 数据优化是数据转换的特例。在面向特定的主题组织数据时,采用数据优 化方法可以缩小数据规模,不影响面向该主题的知识发现,提高数据挖掘的效 率。常用的数据优化方法有: 数据立方体聚集。在面向特定的主题组织数据时,对其中一维的数据采 用数据概化、聚集等方法可以明显地减少数据量,而不丢失分析所需的信息。 数据立方体可以存放多维聚集的信息,提供了快速访问汇总数据的能力。 维归约。用于数据分析的原始数据包含很多属性( 或称为“维”,其中一 些属性与面向特定的主题的数据分析无关,维归约通过删除这些不相关的属性, 达到减少数据量的目的。 ( 6 ) 数据加载 在这一步里所进行的就是运行接口程序和数据仓库抽取规则,将数据装入 到数据仓库中。主要的工作是: 确定数据装入的次序; 装入初始数据; 清除无效或错误数据; 数据“老化”; 数据粒度管理; 数据的定期刷新。 最初只使用一部分数据来生成第一个主题域,使得设计人员能够轻易且迅 速地对已做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库的使 用和维护。这样既可以在经济上最快地得到回报,又能够通过最终用户的使用、 尽早发现一些问题并提出新的需求,然后反馈给设计人员,设计人员继续对系 统进行改进、扩展。 2 a a 数据仓库的使用和维护 在这一步中所要做的工作有建立数据仓库应用系统,调整和完善数据仓库 的应用系统,维护数据仓库。 建立企业的体系化环境,不仅包括建立操作型和分析型的数据环境,还应 包括在这一数据环境中建立企业的各种应用。数据仓库装入数据之后,下一步 工作是:一方面,使用数据仓库中的数据服务于决策分析的目的,也就是在数 据仓库中建立起o l a p 应用;另一方面,根据用户使用情况和反馈来的新的需 求,开发人员进一步完善系统,并管理数据仓库的一些日常活动,如刷新数据 仓库的当前细节数据、将过时的数据转化成历史数据、清除不再使用的数据、 调整粒度级别等。我们把这一步骤称为数据仓库的使用与维护。 ( 1 ) 建立数据仓库应用系统 数据仓库中的数据必须通过与用户的交互,才能转化为面向最终用户、面 向业务主题的可用信息,这就是建立数据仓库的最终目的。在数据仓库中的应 用不仅仅限于报表,它可以为各类用户提供多种多样面向分析的应用系统,包 括面向高层决策者的主管信息系统,面向决策分析者的联机分析系统,为各层 决策者提供决策服务的及时查询系统以及为报表制作者服务的灵活报表系统 等。联机分析处理是当前最典型的数据仓库应用,它通过对企业的业务状况及 相关环境数据进行多角度,多层次的分析,使企业决策者及时掌握企业的运行 情况和发展趋势,并为制定计划和长远规划提供理论指导。 ( 2 ) 维护数据仓库 创建数据仓库的目的是采集和组织历史数据并加以分析。为实现这一目的, 当创建数据仓库时,初次加载己有的历史数据到数据仓库中,以后随着时间的 推移,应该根据操作型数据库系统的数据变化,周期地改变数据仓库中的数据。 因此,周期地加载或修改数据仓库中的数据是一件非常重要的日常维护工作。 此外,为了保证数据仓库的数据在系统被破坏之后,可以顺利地恢复到破 坏前的状态,需要对数据仓库做好备份工作。数据仓库的备份不同于联机事务 处理( o l t p ) 系统数据库的备份,它只进行数据查询操作,其中数据很少变化, 所以对数据仓库的备份可以采取简单的方式进行。 2 5 数据仓库技术的应用 当前,国外己经有很多成熟的数据仓库产品。各大公司都相继推出自己的 产品,诸如m i c r o s o f t 的a n a l y s i ss e r v i c e s ,i n f o r m i x 的o l a p 产品m e t a c u b e , o r a c l e 提供的d e s i g n e r 2 0 0 0 和d i s c o v e r 2 0 0 0 以及s y b a s e 的交互式产品s y b a s e i q 等,并且成功地运用于企业的管理与决策支持之中,而且随着不断的使用, 日趋完善。 数据仓库也有了许多成功的应用,具有代表性的应用领域有零售业、金融、 制造业、银行、通讯、政府机构等。在国外,大的数据仓库系统大部分是上世 纪末期建立的。国内数据仓库系统的建设起步相对较晚,但是发展比较迅速。 现在数据仓库在国内也有了广泛的应用。例如: ( 1 ) 中国移动通信在数据仓库基础上建立的业务运营支撑系统( b o s s b u s i n e s so p e r a t i o n ss u p p o r ts y s t e m ) ,它涵盖了以往的计费、结算、营业、帐务 和客户服务等系统的功能,对各种业务功能进行集中、统一的规划和整合,是 一体化的、信息资源充分共享的支撑系统。 ( 2 ) 宝钢股份公司在1 9 9 9 年初正式启动数据仓库建设工程,经过四年的 艰苦努力,到2 0 0 2 年底初步建成了宝钢股份的数据仓库应用系统框架,对公司 提高管理水平、稳定产品质量发挥了重要作用,同时也取得了明显的经济效益。 ( 3 ) 招商银行的数据仓库项目在1 9 9 8 年成功实施,是我国第一个建成的 数据仓库系统。在应用中,招商银行数据仓库系统实现了以下功能:异构数据 的集成;高效率的加载、存储和查询;以专题分析为特色的切合实际应用的数 据分析。 2 6 本章小结 本章首先介绍了数据仓库技术的定义、基本特征和粒度、元数据等重要概 念。讨论了数据仓库的关键技术、数据仓库的组织结构及开发数据仓库的基本 过程。最后分析了我国目前数据仓库发展的现状及在国内的应用情况。 第三章联机分析处理技术 3 1o l a p 的基本概念 o l a p ( 联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度 对原始数据中转化出来的、能够真正为用户所理解并真实反映企业特性的信息 进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术 1 3 1 1 2 。o l a p 是利用数据仓库技术的真正价值所在。o l a p 的目标是满足决策支 持或多维环境特定的查询和报表需求。它的技术核心是维,因此o l a p 也可以 说是多维数据分析工具的集合。具体来说,维是人们观察数据的特定角度。 举例说明,在下表中各学院教师职称的部分统计数据,显然后者中数据的 关系更自然些。 表3 - 1 教师职称统计数据( 1 ) 单位名称职称人数 滨海学院教授1 3 滨海学院副教授 3 4 信息学院教授 1 5 信息学院副教授 4 4 表3 - 2 教师职称统计数据( 2 ) 滨海学院信息学院

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论