(计算机应用技术专业论文)数据仓库技术在成人高校招生中应用的研究.pdf_第1页
(计算机应用技术专业论文)数据仓库技术在成人高校招生中应用的研究.pdf_第2页
(计算机应用技术专业论文)数据仓库技术在成人高校招生中应用的研究.pdf_第3页
(计算机应用技术专业论文)数据仓库技术在成人高校招生中应用的研究.pdf_第4页
(计算机应用技术专业论文)数据仓库技术在成人高校招生中应用的研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文 摘要 本文在对数据仓库的理论和o l a p 技术进行了认真学习和研究的基础上,设 计开发了华北电力大学成人教育学院招生信息多维数据分析系统。该系统以成 人高考网上招生系统的事务级数据作为数据源,并对招生历史数据进行集成、 转换、清理和抽取,将其按照分析主题重新组织成面向分析评价的数据仓库。 然后在o l a p 服务器中构建了基于数据仓库的多维数据模型。以0 r a cle j d e v e lo p e r 作为开发平台,设计开发了基于j 2 e e 的成人教育学院招生信息多 维数据分析系统。该系统通过提供数据切片、切块、钻取等多维分析功能,实 现了从不同角度、不同侧面对成人高校招生历史数据进行分析与评价。为招生 管理部门提供了辅助决策支持。 关键词:数据仓库,o l a p ,成人高校,招生分析 a b s t r a c t o nt h eb a s i so fs t u d y i n gd a t aw a r e h o u s et h e o r ya n do l a pt e c h n o l o g y ,t h ea d u l t e d u c a t i o nc o l l e g es t u d e n t s e n r o l l m e n tm u l t i d i m e n s i o n a la n a l y s i ss y s t e mo fn o a h c h i n ae l e c t r i cp o w e ru n i v e r s i t yi sd e s i g n e da n dd e v e l o p e di nt h i sp a p e r t h i ss y s t e m t a k e st h ea f f a i r sd a t ao fn e t w o r kr e c r u i ts t u d e n t ss y s t e mo ft h ee n t r a n c ee x a m i n a t i o nf o r a d u l tc o l l e g ea sd a t as o u r c e ,a n dc o n s t r u c t st h er e c r u i t m e n td a t aw a r e h o u s ea c c o r d i n g t ot h e a n a l y t i cs u b je c t ,w h i c h f a c e s a n a l y s i s a n de v a l u a t i o n ,a f t e ri n t e g r a t i n g , t r a n s f e r r i n g ,c l e a r i n ga n de x t r a c t i n go fh i s t o r i cr e c r u i t m e n td a t a t h e nm u l t i d i m e n s i o n a l d a t am o d e l sb a s e do nt h ed a t aw a r e h o u s ea r ec o n s t r u c t e di nt h eo l a ps e r v e r t h ea d u l t e d u c a t i o nc o l l e g es t u d e n t s e n r o l l m e n tm u l t i d i m e n s i o n a la n a l y s i ss y s t e mb a s e do n j 2 e ei s d e v e l o p e db yt a k i n go r a c l ej d e v e l o p e ra s t h ed e v e l o p m e n tp l a t f o r m i ti s a c h i e v e dt h a ta n a l y s i sa n de v a l u a t i o no fa d u l tc o l l e g eh i s t o r i cr e c r u i t m e n td a t af r o m d i f f e r e n tp o i n to fv i e wa n dp r o f i l eb yp r o v i d i n gt h em u l t i d i m e n s i o n a la n a l y t i cf u n c t i o n s o fs l i c e 。d i c e ,d r i l ld o w na n de t c i nt h ee n d ,t h eo b j e c t i v ei sr e a l i z e d ,w h i c ha f f o r d sa i d d e c i s i o nm a k i n gf o rm a n a g e r i a ld e p a r t m e n to fr e c r u i t m e n t h u a n gs h u l i n ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f z h e n gl i n g k e yw o r d s :d a t aw a r e h o u s e ,o l a p ,a d u l tu n i v e r s i t y ,e n r o l l m e n ta n a l y s i s i 华北电力大学硕士学位论文 摘要 本文在对数据仓库的理论和o l a p 技术进行了认真学习和研究的基础上,设 计开发了华北电力大学成人教育学院招生信息多维数据分析系统。该系统以成 人高考网上招生系统的事务级数据作为数据源,并对招生历史数据进行集成、 转换、清理和抽取,将其按照分析主题重新组织成面向分析评价的数据仓库。 然后在o l a p 服务器中构建了基于数据仓库的多维数据模型。以0 r a cle j d e v e lo p e r 作为开发平台,设计开发了基于j 2 e e 的成人教育学院招生信息多 维数据分析系统。该系统通过提供数据切片、切块、钻取等多维分析功能,实 现了从不同角度、不同侧面对成人高校招生历史数据进行分析与评价。为招生 管理部门提供了辅助决策支持。 关键词:数据仓库,o l a p ,成人高校,招生分析 a b s t r a c t o nt h eb a s i so fs t u d y i n gd a t aw a r e h o u s et h e o r ya n do l a pt e c h n o l o g y ,t h ea d u l t e d u c a t i o nc o l l e g es t u d e n t s e n r o l l m e n tm u l t i d i m e n s i o n a la n a l y s i ss y s t e mo fn o a h c h i n ae l e c t r i cp o w e ru n i v e r s i t yi sd e s i g n e da n dd e v e l o p e di nt h i sp a p e r t h i ss y s t e m t a k e st h ea f f a i r sd a t ao fn e t w o r kr e c r u i ts t u d e n t ss y s t e mo ft h ee n t r a n c ee x a m i n a t i o nf o r a d u l tc o l l e g ea sd a t as o u r c e ,a n dc o n s t r u c t st h er e c r u i t m e n td a t aw a r e h o u s ea c c o r d i n g t ot h e a n a l y t i cs u b je c t ,w h i c h f a c e s a n a l y s i s a n de v a l u a t i o n ,a f t e ri n t e g r a t i n g , t r a n s f e r r i n g ,c l e a r i n ga n de x t r a c t i n go fh i s t o r i cr e c r u i t m e n td a t a t h e nm u l t i d i m e n s i o n a l d a t am o d e l sb a s e do nt h ed a t aw a r e h o u s ea r ec o n s t r u c t e di nt h eo l a ps e r v e r t h ea d u l t e d u c a t i o nc o l l e g es t u d e n t s e n r o l l m e n tm u l t i d i m e n s i o n a la n a l y s i ss y s t e mb a s e do n j 2 e ei s d e v e l o p e db yt a k i n go r a c l ej d e v e l o p e ra s t h ed e v e l o p m e n tp l a t f o r m i ti s a c h i e v e dt h a ta n a l y s i sa n de v a l u a t i o no fa d u l tc o l l e g eh i s t o r i cr e c r u i t m e n td a t af r o m d i f f e r e n tp o i n to fv i e wa n dp r o f i l eb yp r o v i d i n gt h em u l t i d i m e n s i o n a la n a l y t i cf u n c t i o n s o fs l i c e 。d i c e ,d r i l ld o w na n de t c i nt h ee n d ,t h eo b j e c t i v ei sr e a l i z e d ,w h i c ha f f o r d sa i d d e c i s i o nm a k i n gf o rm a n a g e r i a ld e p a r t m e n to fr e c r u i t m e n t h u a n gs h u l i n ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f z h e n gl i n g k e yw o r d s :d a t aw a r e h o u s e ,o l a p ,a d u l tu n i v e r s i t y ,e n r o l l m e n ta n a l y s i s i 声明尸叫 本人郑重声明:此处所提交的硕士学位论文数据仓库技术在成人高校招生中应用 的研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和 取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名: 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件:学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 日 雹嗡啦 导师签名: 期:2 堕! 墨竺日期: 华北电力大学硕士学位论文 1 1 选题背景及其意义 第一章绪论 上世纪7 0 年代初,随着数据库技术、网络通信技术和科学管理方法的发展, 计算机技术在管理上的应用同益广泛。管理信息系统的成功应用使各企事业单位具 有了强大的事务处理能力,能够通过频繁、迅速的存取数据库中的业务数据,高效 优质地完成日常的业务处理任务。与此同时,在完成日常事务管理的基础上,几年 乃至几十年积累下来了大量的数据,这些数据对各企事业单位来说也是一笔无形的 财富,在这些数据中蕴涵着许多重要的、不为人知的信息。 随着社会信息化程度的提高和商业竞争r 趋激烈,人们越来越感觉到信息及知 识的重要性。传统的数据库系统可以高效地实现数据的录入、计算、查询、统计等 功能,但无法发现数据中隐藏的关系和规则,无法根据现有的数据预测未来的发展 趋势。人们希望对这些数据进行深入的分析,以便把这些积累的数据转化成可以指 导生产实践的信息或知识,从而更好地利用企业资源,提高生产经营效率和企业竞 争力。面对“数据丰富,知识贫乏 的挑战,数据仓库技术应运而生。数据仓库不 同于传统的面向事务处理的数据库,而是以面向分析、面向决策为主题,通过各种 不同的信息收集源,将企业内部跨平台的、分散的原始数据和来自外部的数据汇集 和整理在一起,帮助决策者从传统的公共数据访问模式过渡到对知识的访问,使决 策者可以利用决策支持工具直接从中随机地提取数据以及相关的知识,从而更有效 地为决策提供全局一致的数据环境支持。2 ,。 目前,大部分的成人高校都建立有自己的管理信息系统,随着时间的推移,也 积累了大量的数据,这些数据真实地反映了成人高校的实际状况。如何充分利用这 些数据并从中挖掘出有用的、却常被人们忽视的重要信息,发现一些随各种因素动 态变化而产生的管理规则,这对于成人高校各个层次的决策管理者而言无疑是个值 得关注的问题。其中,招生生源是成人高校办学的基础和前提条件。引,如何利用招 生系统中已经存在的信息,为招生管理提供决策支持,以使学校在每年的计划投入、 专业设置、生源选择等方面做出j 下确的决策,以适应同趋激烈的招生市场,是摆在 成人高校面前的紧迫课题。利用数据仓库、联机分析处理技术可以进行在线分析处 理,通过多维存储技术对大型、复杂数据集进行快速、高级的分析,能够揭示出隐 藏在大量数据中的倾向与趋势,可以最大限度地从数据中获取有价值的信息,从而 为招生录取工作提供决策支持,使学校在激烈的竞争中立于不败之地。 华北电力大学硕士学位论文 1 2 国内外研究现状 2 0 世纪8 0 年代中期,著名的数据仓库专家w h i n m o n 在其著作( ( b u i l d i n gt h e d a t aw a r e h o u s e ) ) 一书中提出了数据仓库的概念:数据仓库( d a t aw a r e h o u s e ) 是一 个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、 反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策【1 。2 】【4 】。 自数据仓库的概念提出之后,各大数据库厂商就开始投入对数据仓库技术的研 究,到目前为止,已有多种成熟的数据仓库产品问世。如:c a 公司的数据仓库解 决方案d e c i s i o nb a s e 、i b m 公司的d b 2u d b 、o r a c l e 公司的o r a c l ew a r e h o u s e b u i l d e r 、s y b a s e 公司的w a r e h o u s es t u d i o 、i n f o r m i x 公司的i n f o r m i xd a t a s t a g e 、微 软的s q ls e r v e r2 0 0 0 、n c r 公司的s c a l a b l ed a t aw a r e h o u s e 等。 数据仓库在欧美发达国家市场应用广泛,但在国内研究起步较晚,应用发展缓 慢。近年来,随着数据仓库产品的成熟和各方面准备条件的逐渐完善,我国电信、 金融、电力等数据密集型企业纷纷开始投建数据仓库,零售业、保险业、证券业等 行业也把目光投向数据仓库的应用1 2 1 。 与此同时,数据仓库技术在教育行业也得到了实践应用【5 1 7 1 ,招生管理是其中 一个重要的方面。高等院校招生数据联机分析处理系统一文中指出,在教育推 行产业化、招生规模逐年扩大的今天,生源竞争越来越激烈,招生录取已经成为很 多高校名副其实的生命线。随着网上招生录取工作的普及,招生录取工作的信息化、 招生数据的格式统一化为我们对招生数据的处理、统计以及有效利用等方面提供了 良好的环境。该文在招生数据分析处理上引入了数据仓库、o l a p 等技术,对普通 高等院校历史录取数据进行了分析,在如何提供有效的决策支持服务方面做了一些 有益的探索p j 。 在数据挖掘技术在生源分析中的应用研究一文中提出在学校专业设置方面, 在不同学科领域、不同的专业中取得的成就可能有较大的差异1 7j 。如何针对这种差 异选择专业、教育方法、形式和手段,能否通过对高校学生数据库的挖掘,发现某 些规律性的存在,这对招生计划指标的科学确定,丌展素质教育,培养高层次人才 将会有一定的指导意义。 成人高等教育具有多形式、多层次、多渠道、多规格办学的特征。成人高等教 育的发展必须有充足的生源,有了充足的生源,才能形成一定的办学规模,同时通 过强化教学质量,逐步树立自身的知名度,产生“名牌”效应,吸引生源,形成良 性循环。在如何开拓成人高等教育,七源市场一文中提出应积极主动地挖掘和,f : 拓生源市场1 3 1 。2 0 0 1 年以来,成人高考招牛录取工作由手工录取改革为远程网上录 取,招生数据得到保存。如何利用往年的招生数据去预测今后的招生计划、制定合 理的招生政策,就需要充分利用历史的招生数据进行分析处理,为招生决策提供数 2 华北电力大学硕士学位论文 据支持。本文尝试在成人高校的招生数据分析中应用该技术。 1 3 课题主要研究内容和论文结构安排 1 3 1 课题主要研究内容 本文主要的研究内容是:对成人高校招生系统所产生的大量数据进行清洗、抽 取,进而建立一个面向招生信息分析的数据仓库,在搭建起数据仓库的环境上,对 其中的数据进行联机分析,使管理人员能够很直观的看到招生生源状态的变化,发 现在招生系统所产生的海量数据中的重要关系。 因此,本文的主要研究内容有: ( 1 ) 成人高校招生系统分析数据的选取、数据仓库模型的选择和建立 成人高校招生系统数据中存在着大量的不完备、不准确和不一致的信息,如何 完成对此类数据信息的预处理,关系着后面的数据仓库的构建成功与否,也就是说 一个便于数据分析的数据仓库,必须要有准确优良的数据。这是构建数据仓库最为 关键的一步。数据仓库的模型分为星型模式、雪花模式,本文将结合成人高校自身 数据的特点来选择要构建的数据仓库的模型。 ( 2 ) 利用o l a p 联机分析工具对数据进行分析 熟练掌握o l a p 联机分析工具,并在所建立的数据仓库模型上,对成人高校招 生系统数据进行有目的的分析,并将分析结果展示,供决策者参考。 ( 3 ) 利用开发工具进行开发 选择合适的开发工具,对成人高校招生数据多维分析系统进行研究开发, 为前端用户提供数据分析操作界面,通过图表、交叉表等形式直观的展示数据分析 结果。 1 3 2 论文结构安排 全文共分为五个章节。 第一章是全文的绪论,在此章中论述了本课题的研究背景、研究意义,探讨了 本课题目前国内外研究的现状,提出了本论文的研究内容、结构安排、预期的成果。 第二章是数据仓库基本理论。在本章中研究论述了数据仓库的概念及基本特 点,数据仓库的体系结构和数据仓库的构建,接着又分析了数据仓库建模技术,最 后研究总结了o l a p 技术的概念特征、技术特点、存储设计等,并对数据挖掘作了 简要的概述。 第三章是对成人高校招生数据多维分析系统的设计。这一部分的工作内容主要 包括:系统的需求分析、主题选取,系统的体系架构设计,然后完成数据仓库模型 华北电力大学硕士学位论文 设计,包括对数据源、数据量、粒度的分析和设计,最后通过维度总体分析、确定 分析主题的维度模型实现o l a p 模型设计。 第四章是对成人高校招生数据多维分析系统的实现。根据前面的设计思想,对 要应用的技术环境进行选择,然后在对数据源进行数据预处理的基础上,构建出数 据仓库,并建立o l a p 模型。最后完成前端显示界面的开发,选择部分分析主题从 各个维度进行多维查询和分析,并将结果以图、表等多种方式直观的显示出来,进 行总结分析。 第五章是在总结工作成果的基础上展望了未来的研究方向。 1 4 预期成果和创新点 数据仓库、联机分析处理技术从一开始就是面向应用的。随着这些技术在理论 上的逐步成熟,迫切需要将它们应用于各个实际工作领域,并在实践中发展和完善。 目前还很少在成人高校招生数据处理领域进行数据仓库、联机分析处理方面的研究 成果。 因此,本文的目标是通过对成人高校历年招生数据( 本文采用华北电力大学成 人教育学院实施网上录取6 年来的录取数据) 的分析研究,结合数据仓库技术的应 用,针对招生录取人数、招生录取成绩、招生录取报到率等分析主题,构建成人高 校招生数据多维分析系统。主要研究过程包括:进行需求分析和系统设计;建j z 招 生数据分析系统数据仓库;然后分别对主题进行综合、建立多维数据模型;最后实 现对主题的多维分析,并且在客户端展现分析结果:选择部分图表进行招生分析。 希望通过本文的研究,结合实际应用,在数据仓库和联机分析处理技术的实用 化方面做一些有益研究和探索,达到为成人高校招生部门在制定招生的宣传策略、 专业设置、专业类别、专业人数等方面提供辅助决策支持的目的。 本文的创新点主要有: ( 1 ) 在需求分析的基础上,确定成人高校招生数据分析主题,完成总体维度 分析和主题维度建模; ( 2 ) 构建符合成人高校招生系统数据分析的数据仓库模型,整合历史招生数 据资源,并实现数据源的导入、数据的清洗等; ( 3 ) 开发基于o r a c l e 的o l a p 技术的多维分析系统,对数据仓库中的数据进 行上卷、下钻、切片、旋转等分析; ( 4 ) 结合成人高校招生的相关知识对o l a p 联机分析的结果进行分析,得出 应用的结论。 4 华北电力大学硕士学位论文 第二章数据仓库基本理论 2 1 数据仓库的概念及基本特点 “数据仓库之父”w h i n m o n 先生在其b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书中 提出了数据仓库的概念【4 1 ,随后又给出了更为精确的定义:数据仓库是一个面向主 题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合。从 这里我们可以看出,数据仓库不仅仅是一个数据集合,还是一个决策支持系统,它 将来自多个数据库或其它数据源的信息进行重新组织与集成,并为上层的某一主题 应用提供统一的用户接口,供最终用户直接完成对数据的查询、分析与决策。实际 上,数据仓库并不是一种产品,而是一种体系结构,它是一个含有多种技术的灵活 环境。数据仓库的基本特征为1 2 】【4 j 【8 】: ( 1 ) 数据仓库是面向主题的 数据仓库中的数据是针对特定的客观分析领域组织的,这些特定的客观分析领 域称之为t 题,如资源利用率分析、客户分析等。主题是进行数据归类的标准。数 据仓库不是泛泛的、无序的数据集合,而是为了支持高效的、按主题分析的、特定 的数据集合,否则就成为一堆无用的数据垃圾。 ( 2 ) 数据仓库是集成的 集成是指数据仓库中的信息不是从各个业务处理系统简单地抽取出来,而是经 过系统加工、汇总和整理集成在一起的( 称为整合) ,以保证数据仓库内的信息是 关于整个企业的一致的全局信息。数据从原有的数据库中按一定的主题和规则抽取 出来,在进入数据仓库之前,必须经过整合。主要原因有:数据仓库的每一个主 题所对应的源数据,在原有的各分散数据库中存在有许多重复和不一致性;来源 于不同的联机系统的数据都与不同的应用逻辑相关联,导致了更加复杂的异构性; 数据仓库中的综合数据需要在源数据的基础上做进一步的加工。 ( 3 ) 数据仓库的数据是稳定的 数据仓库中的数据_ 主要是相当一段时间内的历史数据,用作企业决策分析,所 涉及的数据操作主要是数据查询,几乎不更新。数据仓库中的数据反映的内容是不 同时间点的数据快照的集合,以及基于这些快照进行统计、综合和重组而导出的数 据,而不是联机处理的数据。 ( 4 ) 数据仓库的数据量是随时间不断变化的 数掘仓库的数据内容随时间不断变化,表现在以下几个方面:数据仓库随时 间演进不断增加新的数据内容;数据仓库随时问演进不断删除旧的数据内容; 数据仓库中包含有大量的综合数据,它们很多与时间有关,如按照时间段进行综合, 华北电力大学硕士学位论文 或隔一定的时间片进行抽样等。这些数据要随着时间演进不断地进行重新综合。所 以,数据仓库中的每个键都包含时间项,以标明数据在时问流程中的属性。 数据仓库是由数据库发展而来的,数据库技术以及数据库的数据组织方法等在 数据仓库中也得到了充分的体现和应用【8 1 。 2 2 数据仓库的体系结构 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、o l a p 服务 器以及前端工具与应用四个部分【m j 【9 - 1 1 1 。 ( 1 ) 数据源 它是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和 外部信息。内部信息包括存放于企业操作型数据库中的各种业务数据和办公自动化 ( o a ) 系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争 对手的信息和各类外部统计数据以及各类文档等。 ( 2 ) 数据的存储与管理 它是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、 清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构, 同时组织存储数据仓库元数据( 具体包括数据仓库的数据字典、记录系统定义、数 据转换规则、数据加载频率以及业务规则等信息) 。按照数据的覆盖范围,数据仓 库存储可以分为企业级数据仓库和部门级数据仓库( 通常称为“数据集市”, d a t a m a r t ) 。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。 这些功能与目前的数据库管理系统( d b m s ) 基本一致。 ( 3 ) o l a p 服务器 对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层 次的分析,发现数据趋势。其具体实现可以分为:r o l a p 、m o l a p 和h o l a p 。 r o l a p 基本数据和聚合数据均存放在r d b m s 之中:m o l a p 基本数据和聚合数据 均存放于多维数据库中;而h o l a p 是r o l a p 与m o l a p 的综合,基本数据存放 于r d b m s 之中,聚合数据存放于多维数据库中。 ( 4 ) 前端工具与应用 前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以 及各种基于数据仓库或数据集市开发的应用。其中,数据分析工具主要针对o l a p 服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对o l a p 服务器。 从企业应用角度出发,数据仓库的体系结构是如图2 1 所示的三层结构i l2 。 6 华北电力大学硕士学位论文 源数据 图2 一l 数据仓库三层体系结构 2 3 数据仓库的构建和e t l 画 画 顶层:前端显示分析工具 创建数据仓库最重要的一个步骤是将数据从各种操作型数据系统中抽取出来, 排除数据中的数据缺陷,完成一系列转换、汇总,最后将数据加载到数据仓库。所 要做的工作是接口编程,抽取规则设计、进行源数据的获取、清洗、整理及数据装 入【8 - 9 1 。 e t l ( e x t r a c t i o n t r a n s f o r m a t i o n l o a d i n g ) 工具是数据仓库中重要的组成部分, 主要负责从各种事务数据源中提取数据、加工数据( 包括清洗,转换,聚集等) 并 加载到数据仓库中。这个过程保证了数据仓库的数据一致性,同时e t l 也是实现数 据仓库中数据继续增长的必要途径。e t l 和数据清洗工具所需的人力和财力大约占 整个数据仓库预算的1 3 ,而数据仓库运营过程中e t l 过程的花费大约占总费用的 5 5 t 1 2 。21 刀。 这一步工作的成果是,数据己经装入到数据仓库中,可以在其上建立数据仓库 的应用,即o l a p 应用 8 - 1 0 】。 ( 1 ) 设计数据转换接口 将操作型环境下的数据装载进入数据仓库环境,需要在两个不同环境的记录系 统之间建立一个接口。乍一看,建立和设计这个接口,似乎只要编制一个抽取程序 就可以了,事实上,在这一阶段的工作中,的确对数据进行了抽取,但抽取并不是 全部的工作,这一接口还应具有以下的功能: 从面向应用和操作的环境生成完整的数据,对数据进行转换、净化; 数据基于时间的转换; 数据的汇总: 一曰 曰 日燮曰一 华北电力大学硕士学位论文 对现有记录系统的有效扫描,以便以后进行追加。 当然,考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件限制, 根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程,也包括 伪码开发、编码、编译、检错、测试等步骤。 在接口编程中,要注意: 保持高效性,这也是一般的编程所要求的; 要保存完整的文档记录; 要灵活,易于改动; 要能完整、准确地完成从操作型环境到数据仓库环境的数据抽取、转换 与集成。 ( 2 ) 数据抽取 数据抽取是指从原文件或原数据库中获取数据,并经过集成、清洗、转换、优 化后,将其加载到数据仓库的过程1 8 j 。它的目的是:清除原数据中大量重复和对统 计分析无用的数据,保证数据的完整性,提高数据仓库中数据的质量;将数据按主 题组织,提高数据仓库中数据的可用性。 由于数据仓库中包含粗细粒度不同即综合程度不同的数据,高度综合的数据需 要从轻度综合的数据中汇总而来,轻度综合的数据需要从当前细节数据中汇总而 来,而在数据仓库内部也存在多次数据抽取、转换的过程,因此,在开发数据仓库 与数据源系统接口的同时,也需要根据数据仓库中不同粒度的模型设计数据仓库内 部抽取、转换、转载的规则。 ( 3 ) 数据清理 数据清理是将数据源中数据经填补空缺值、平滑噪声、去除孤立点、纠j 下不一 致的数据,而形成具有语法语义正确的数据【13 1 。 1 ) 检验有效性。检验有效性是最简单的数据清理形式,通过检验字段中的数 据以保证其落在预期范围内,通常是数值范围和同期范围。 2 ) 填补空缺值。数据的集中存储可能会丢失某些数据,在导入数据仓库前必 须对空缺值进行处理,常用填补空缺值方法有:忽略空缺属性较多的元组、用属性 平均值填充、用同类样本的平均值填充、用最邻近的值填充等。在数据仓库中,有 估计值比根本没有值要好得多。 3 ) 消除噪声数据。噪声数据是测量中的随机错误或偏差,通常可用聚类方法 发现噪声、用数据平滑技术( 如分箱) 消除噪声。 4 ) 实现数据一致。多数据源数据集成生成新数据时,可能会带来数据冲突即 数据不一致问题,通常可参照其他资料人工加以纠正,或指定某数据源在冲突中 占主导地位等方法实现数据一致。 ( 4 ) 数据集成与转换 8 华北电力大学硕士学位论文 数据集成是将多数据源的数据集中存放在数据存储体中。数据的集中存储会造 成数据冗余,产生数据不一致。数据集成并非简单的数据合并,数据在集成过程中 某些属性通常是经过数据转换而来的。常用的数据转换包括以下内容: 1 ) 聚集。对数据进行汇总,采用多粒度数据分析、构建数据存储体。 2 ) 数据概化使用概念分层,用高层次概念替换低层次“原始”数据。高层次 概念数据是低层次原始数据的衍生数据,它们通常是冗余数据。产生这些冗余数据 的目的是简化查询、快速查询。 3 ) 数据规范化。通过将属性按比例缩放,使之落入一个小的特定区问来规范 属性。 ( 5 ) 数据优化 数据优化是数据转换的特例。在面向特定的主题组织数据时,采用数据优化方 法可以缩小数据规模,不影响面向该主题的知识发现,提高数据挖掘的效率。常用 的数据优化方法有: 1 ) 数据立方体聚集。在面向特定的主题组织数据时,对其中一维的数据采用 数据概化、聚集等方法可以明显地减少数据量,而不丢失分析所需的信息。数据立 方体可以存放多维聚集的信息,提供了快速访问汇总数据的能力。 2 ) 维归约。用于数据分析的原始数据包含很多属性( 或称为“维”) ,其中一 些属性与面向特定的主题的数据分析无关,维归约通过删除这些不相关的属性,达 到减少数据量的目的。 ( 6 ) 数据加载 在这一步里所进行的就是运行接口程序和数据仓库抽取规则,将数据装入到数 据仓库中。主要的工作是: 确定数据装入的次序; 装入初始数据; 清除无效或错误数据; 数据“老化”; 数据粒度管理; 数据的定期刷新。 最初只使用一部分数据来生成第一个主题域,使得设计人员能够轻易且迅速地 对已做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库的使用和维护。 这样既可以在经济上最快地得到回报,又能够通过最终用户的使用、尽早发现一些 问题并提出新的需求,然后反馈给设计人员,设计人员继续对系统进行改进、扩展。 9 华北电力大学硕士学位论文 2 4 数据仓库的数据模型 所谓数据模型就是对现实世界进行抽象的工具,抽象的程度不同,也就形成了 不同抽象级别的数据模型i l 也j 。数据仓库数据模型是数据结构的典型表现,是总体 数据结构的一部分,为计划和设计新的信息系统或建立数据仓库提供了基础。与操 作型数据库数据模型的特点相比,数据仓库的数据模型中不包含操作型的数据,但 扩充了码结构,增加了时问属性作为码的一部分,同时也增加了一些导出数据。 数据仓库中数据的组织方式与数据库不同,通常采用分级的方式进行组织。一 般情况下包括:早期细节级数据、当前细节级数据、轻度综合数据、高度综合数据 以及元数据五部分1 1j 【8 - 1 0 j 。 图2 2 数据仓库粒度划分 高度综合数据级 轻度综合数据级 当前细节数据级 早期细节数据级 源数据经过抽取、转换后,首先进入当前细节级,并根据具体需要进行进一步 的综合,从而进入轻度综合级乃至高度综合级,老化的当前细节数据将进入早期细 节级。从中可以看成,数据仓库中的数据存在着不同的级别,一般称之为“粒度”。 在数据仓库的数据组织结构中有三个重要的概念:粒度、元数据、分割i l6 】【l 引。 ( 1 ) 数据粒度( g r a n u l a r i t yo fd a t a ) 粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度就越小, 级别就越低;反之,数据综合度越高,粒度越大,级别就越高。粒度的划分将直接 影响到数据仓库中的数据量和所适合的查询类型,对数据仓库中其它的设计工作有 很大的影响。不同粒度级别的数据用于不同类型的分析处理。 ( 2 ) 元数据( m e t a d a t a ) 元数据是“关于数据的数据”,是数据仓库结构中的一个重要组成部分,利用 元数据能有效的管理数据仓库。在数据仓库环境中,主要有两种元数据:第一种是 l o 华北电力大学硕士学位论文 为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了所有源数据项目 名、属性及其在数据仓库中的转换:第二种是用来与终端用户的多维商业模型和前 端工具之间建立映射的,这种元数据称为d s s 元数据,常用来开发更先进的决策支 持工具。 ( 3 ) 数据分割( p a r t i t i o n i n go f d a t a ) 数据的分割是指把逻辑上统一的数据分散到各自的物理单元中去,以便能够分 别独立处理,提高数据处理效率。数据分割之后,小单元内的数据相对独立,处理 起来更快,更容易。数据分割使数据更易于重组、重构、索引、恢复、监控和顺序 扫描。数据分割分为两种:系统级和应用级。系统级的分割是由数据库管理和操作 系统实现的;应用级的分割是由开发人员通过代码直接控制实现的,更具有灵活性 h 9 1 1 1 0 。 2 5o l a p 技术和数据挖掘 2 5 1o l a p 的定义 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 的概念最早是由关系数 据库之父e f c o d d 于l9 9 3 年提出的。当时,c o d d 认为联机事务处理( o n l i n e t r a n s a c t i o np r o c e s s i n g ,o l t p ) 已不能满足终端用户对数据库查询分析的需要,s q l ( s t r u c t u r e dq u e r yl a n g u a g e ,结构化查询语言) 对大型数据库进行的简单查询也不 能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到 结果,而查询的结果并不能满足决策者提出的需求【1 0 。1 。因此c o d d 提出了多维数 据库和多维分析的概念,即o l a p 。 建立在数据仓库基础上的联机分析处理技术通过对多维数据的聚合计算和聚 合结果的预存储,支持对数据多角度、多侧面的统计和观察,从而达到对数据更为 全面的把握和理解的目的。o l a p 技术主要对数据仓库中的数据进行表层的聚合统 计,力图以统一的应用逻辑和数据模型,在短时间内响应非数据处理专业人员的复 杂查询要求。 为用于市场分析和预测,数据仓库中的数据一般都是按照主题组织的多维数 据,并提供用于o l a p 的查询引擎。多维数据模型中,有一些分析对象被称为度量, 这些度量的语义依赖于提供上下文语义的维的信息。在o l a p 的多维数据模型中关 键的操作是对度量属性在某些维上的聚集操作,多维数据分析算法研究的核心也就 是如何高效地实现在维上的聚集操作。 在多维数据模型中,数据组织成多维,每维包含了概念分层定义的多个抽象层。 这种组织为用户从不同角度观察、分析数据提供了灵活性。多维分析是指对以多维 华北电力大学硕士学位论文 形式组织起来的数据采取切片、切块、旋转、钻取等各种分析动作,以剖析数据, 使用户能从多个角度、多个侧面、多个层次来观察数据仓库中的数据,从而深入地 了解包含在数据中的信息内涵。 o l a p 是一种自上而下、不断深入的分析工具,是验证型分析工具:用户提出 问题和假设,o l a p 负责自上而下深入地提取出关于该问题的详细信息,并以可视 化的方式呈现给用户,o i a p 必须对用户的需求有全面而深入的了解,通过计算公 式和转换规则从现有的数据中生成新的信息,并进行显示【”。2 1 1 。 2 5 2o l a p 中的基本概念 o l a p 中经常涉及的基本概念主要有:度量、维、维级别、维成员、数据立方 体、单元格川【2 1 。 ( 1 ) 度量( m e a s u r e ) 度量是数据的实际意义,也称为事实( f a c t ) ,即描述数据“是什么”。例如: 数据“1 0 0 0 0 本身并没有意义或者说意义未定,它可能是一个学校的学生人数, 也可能是某产品的单价等。一般情况下j 度量总是一个数值度量,例如,“人数”、 “单价”、“销售量”等都是度量,而“1 0 0 0 0 ”则是度量的一个值。 ( 2 ) 维( d i m e n s i o n ) 维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着时间推 移而产生的变化情况。这时他是从时间的角度来观察产品的销售,所以时问就是一 个维。 ( 3 ) 维级别( l e v e l ) 人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个描 述方面,我们称这些描述方面为维的级别( l e v e l ) 。一个维往往具有多个级别,例 如时间维可以从同期、月份、季度、年等不同级别来描述,同样,城市、地区、国 家等构成了一个地理维的多个级别。而这些级别在一起就构成维的一个层次链 ( h i e r a r c h y ) ,如“城市一地区一国家”就是地点维的一个层次链。 ( 4 ) 维成员( m e m b e r ) 维的一个取值称为该维的一个维成员。如果一个维是多级别的,那么该维的维 成员是在不同维级别的取值的组合。例如,我们考虑时间维具有日期、月份、年这 三个层次,分别在同期、月份、年上各取一个值组合起来,就得到了时间维的一个 维成员,即“某年某月某日”。一个维成员并不一定在每个维层次上都要取值,例 如,“某年某月”、“某月某日”、“某年等等都是时间维的维成员。 ( 5 ) 数据立方体( d a t ac u b e ) 数据立方体是o l a p 数据组织的基本单元。一个数据立方体由度量和维组成, 华北电力大学硕士学位论文 包含若干个单元格,是实现o l a p 分析的基础。 ( 6 ) 单元格( c e l l ) 立方体由若干单元格构成,立方体中的一个取值就是一个单元格。当立方体的 各个维都选中一个维成员,则这些维成员的组合就唯一确定了一个度量的值,该度 量就保存在这些维成员对应的单元格内。 2 5 3o l a p 技术的特点 随着o l a p 的发展,人们提出了o l a p 的5 条原则,就是所谓的f a s m i ( f a s t a n a l y s i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论