(计算机软件与理论专业论文)olap技术在中小学教学资源库中的应用研究.pdf_第1页
(计算机软件与理论专业论文)olap技术在中小学教学资源库中的应用研究.pdf_第2页
(计算机软件与理论专业论文)olap技术在中小学教学资源库中的应用研究.pdf_第3页
(计算机软件与理论专业论文)olap技术在中小学教学资源库中的应用研究.pdf_第4页
(计算机软件与理论专业论文)olap技术在中小学教学资源库中的应用研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)olap技术在中小学教学资源库中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络技术、数据库技术在教育领域中的广泛应用,以及教育改革和教育信息化 的日渐深入,教学资源数据量、内容和形式的极大丰富,教学资源从原始的纸质向电子 化、数字化资源转化。 尽管教学资源的质量、数量和种类都有显著的增加,但这种增加并不能满足广大教 育工作者对教学资源的期望值,为了使已有的教学资源能满足人们的需求,教学资源信 息的收集、管理和利用问题已成为教学改革所关注的问题之一。 本文就教学资源充分利用,教学资源的分析和处理问题进行了相应的研究与关注。 根据数据仓库和o l a p 技术在商业领域的成功应用先例,我们将利用数据仓库和o l a f 技 术对教学资源进行分析和处理,为教学资源的开发和利用提供决策信息支持,知道哪些 资源的利用率高、哪些资源的利用率低,对需求量大的资源进行重点分析。通过对国内 外相关研究现状的研究,对数据仓库和o l a p 技术在商业领域和教育领域的对比分析, 对数据仓库和o l a p 技术在中小学教学资源库中应用研究,对教学资源的主题分类,提 出了一种基于中小学教学资源库的o l a p 模型,结合理想信息研究院的中小学教学资源 对系统进行测试,对教学资源进行多维分析,满足针对特定教学资源问题的联机数据访 问和分析,从多角度、多层次观察分析数据。 关键词:教学资源;o l a p ;多维数据立方体;数据存储模式;o l a p 分析模型 a b s t r a c t a l o n gw i t ht h ew i d e s p r e a da p p l i c a t i o n t e c h n o l o g yi nt h ee d u c a t i o nd o m a i n , a sw e l l o ft h en e t w o r kt e c h n o l o g y ,t h ed a t a b a s e a st h ee d u e a t i o nr e f o r ma n de d u c a t e st h e i n f o r m a t i o nt op e n e t r a t ed a ya f t e rd a y , t h ee d u c a t i o nr e s o u r c e sd a t aq n a n t i t y ,t h ec o n t e n ta n d t h ef o r me n o r m o u sa r er i c h , e d u c a t i o nr e s o u r c a sf r o mp r i m i t i v ep a p e rn a t u r et oe l e c t r o n , d i g i t i z e dr e s o u r c e st r a n s f o r m a t i o n a l t h o u g ht h ee d u c a t i o nr e s o u r c e sq u a l i t y , t h eq u a n t i t ya n dt h et y p e a l lh a v et h e r e m a r k a b l ei n c r e a s e ,b u tt h i sk i n do fi n c r e a s ec e r t a i n l yc a n n o ts a t i s f yt h eg e n e r a le d u c a t o rt o t h ee d u c a t i o nr e s o u r c e se x p e c t e dv a l u e ,i no r d e rt oe n a b l et h ee d u c a t i o nr e s o u r c e sw h i c hh a s t om e e tp e o p l e sn e e d , t h ee d u c a t i o nr e s o u r c e si n f o r m a t i o nc o l l e c t i o n , t h em a n a g e m e n ta n d h a v eb e c o m eo n eo fe d u c a t i o n a lr e f o r mm a t t e ro fc o n c e r nu s i n gt h eq u e s t i o n t h ep a p e ra s k sf o ra d v i c es t u d yr e s o u r c e sf u l lu s e ,t h ee d u c a t i o nr e s o u r c e sa n a l y s i sa n d t h ep r o c e s s i n gq u e s t i o nh a v ec o n d u c t e dt h ec o r r e s p o n d i n gr e s e a r c ha n dt h ea t t e n t i o n a c c o r d i n gt ot h ed a t aw a r e h o u s ea n dt h eo l a pt e c h n o l o g yi n t h ec o m m e r c i a ld o m a i n s u c c e s sa p p l i c a t i o np r e c e d e n t ,w ew i l lc a r r yo nt h ea n a l y s i sa n dp r o c e s s i n gu s i n gt h ed a t a w a r e h o u s ea n dt h eo l a pt e c h n o l o g yt ot h ee d u c a t i o nr e s o u r c e s ,w i l lp r o v i d et h ed e c i s i o n i n f o r m a t i o ns u p p o r tf o rt h ee d u c a t i o nr e s o u r c e sd e v e l o p m e n ta n dt h eu s e ,k n e ww h i c h r e s o u r c e st h et m ef a c t o rh i g h , w h i c hr e s o u r c e su s ef a c t o rw i l lb el o w ,w i l lc a l t yo nt h ek e y a n a l y s i s t 0t h ed e m a n dq u a n t i t yb i gr e s o u r c e s t h r o u g ht ot h ed o m e s t i ca n df o r e i g n c o r r e l a t i o n sr e s e a r c hp r e s e n ts i t u a t i o nr e s e a r c h ,t h ec o m p a r i n ga n a l y s i sa c c o r d i n gt ot h e w a r e h o u s ea n dt h c ol a pt e c h n o l o g yi nt h ec o m m e r c i a ld o m a i na n dt h ee d u c a t i o nd o m a i n , t h ea n a l y s i st h ea p p l i e dr e s e a r c ha c c o r d i n gt ot h ew a r e h o u s ea n dt h eo l a pt e c h n o l o g yi nt h e m i d d l ea n dp r i m a r ys c h o o l se d u c a t i o nr e s o u r c e ss t o r e h o u s e ,t ot h ee d u c a t i o nr e s o u r c e s s u b j e c tc l a s s i f i c a t i o n ,p r o p o s e so n ek i n db a s e do nt h em i d d l ea n dp r i i n a r ys c h o o l se d u c a t i o n r e s o u r c e ss t o r e h o u s eo l a pm o d e l ,u s i n gt h ei d e a li n s t i t u t eo fi n f o r m a t i o nt e c h n o l o g yt h e m i d d l ea n dp r i m a r ys c h o o l se d u c a t i o nr e s o u r c e st oc a r r yo nt h et e s tt ot h es y s t e m , c a r r i e so n t h em u l t i - d i m e n s i o n a la n a l y s i st ot h ee d u c a t i o nr e s o u r c e s s a t i s f i e si nv i e wo ft h es p e c i f i c e d u c a t i o nr e s o u r c e sq u e s t i o no n - l i n ed a t aa c c e s s i n ga n dt h ea n a l y s i s ,f r o mm u l t i a n g l e s , m u l t i 1 e v e l so b s e r v a t i o na n a l y s i sd a t a k e yw o r d s :e d u c a t i o nr e s o u r c e ;o l a p :d a t ac u b e ;s t o r es c h e m a ;o l a pa n a l y s i sm o d e l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得东北师范大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:墨盗 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定, 即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件 和磁盘,允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制 手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:盟 日期:幽:d 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 日期: 电话: 邮编: 第一章引言 1 1 本文研究背景 二十世纪九十年代以来,随着计算机及网络技术的发展和普及,计算机和互联网在 社会生活的各个方面起到越来越重要的作用,在教育领域也取得了有目共睹的成绩。计 算机技术在教学中的应用,一方面消减了教学环境、距离和时间对教学的限制,例如: 远程教育的成功开通。另一方也使教学资源发生了翻天覆地的变化,由传统的纸质向数 字化延伸和发展,出现了网络课件、网络课程、电子教案等等一系列的新的教学资源, 为现代化信息技术的发展提供了良好的媒介。教学资源的数量显著增加,各个科研单位 与基层教师间的交流明显提高。教学资源的存储形式从纸质文档形式转变为电子形式, 形成了大量存储教学资源的异构数据库。尽管教学资源的质量、数量和种类都有显著的 增加,但这种增加并不能满足人们对教学资源的期望值。在教育领域,不论是中小学还 是大学,人们都关注教学资源的分析和利用问题。为了使已有的教学资源能满足人们的 需求,我们要分析现有的教学资源。因此,我们对教学资源的分析和处理问题给与关注。 要想解决教学资源分析和处理问题,必须找到一种技术支持。根据数据仓库和o l a p 技 术在商业领域的成功应用,我们将利用数据仓库和o l a p 技术对教学资源进行分析和处 理,为教学资源的开发和利用提供决策信息支持。 1 2 国内外研究现状 o l a p 技术的研究和应用已经成为数据处理与数据分析领域一个新的热点,国内外的 研究学者积极参与数据仓库和o l a p 系统的开发和研究,数据仓库系统己逐步成为新型 的决策管理信息系统的解决方案,联机分析处理是数据仓库系统的核心。“1 许多外国的 大公司已经在商业应用中取得了非常好的效果,应用领域遍及电信、银行、零售、航空、 铁路、邮政、食品、消费类制造、汽车、医疗、保险等行业。 目前国内的企业界没有对基于数据仓库的o l a p 技术的应用给予相应足够的重视。 尽管国内有许多学者在进行相关领域的研究,但主要侧重于系统实施方案的一般过程或 建立数据模型等实现方法方面,利用这些方法进行数据分析并给出应用结果的研究较 少,难以全面反映o l a p 应用的效果,而该领域的用户可能恰恰更为关心的是信息技术 应用的真正目的,即如何把数据转化为有用的信息并有助于解决管理、决策中的实际问 题。这在一定程度上导致技术、方法的研究与应用脱节的问题,使得o l a p 领域的技术、 方法受到密切关注,但应用并不广泛。 数据仓库和o l a p 技术在商业领域注重对资金交易、指标、财务和销售额等数据量 进行分析,通过对这些数据的分析,为企业领导层及时掌握经营管理的真实动态,做出 科学决策提供多方位、多层次、多视觉的信息服务和重要的数据依据。将数据仓库和o l a p 技术引入教学资源领域后,我们关注教学资源的使用、下载、查询等操作情况,通过对 教学资源的下载、查询和购买等行为的分析和处理,知道哪些资源的利用率高、哪些资 源的利用率低,对需求量大的资源进行重点分析,以此为教学资源开发人员提供重要的 数据依据。 目前在教育领域,国外的教育数据仓库己陆续投入应用,为与教育有关的各类人员 提供服务,如美国的加利福尼亚大学的教育数据仓库,为管理人员、学生、教师、家长、 州领导、专业组织,提供从幼稚园到大学全部信息的查询和分析。o l a p 技术作为此决策 支持系统的一部分,为相关人员提供了高速、方便、直观的查询方式和友好的用户界面。 在国内,也有多家大学和科研机构提出了教学资源数据仓库和o l a p 技术的模型和基本 构想,但付诸实现比较少,且对于中小学教学资源的o l a p 研究这一课题进行研究的学 者就更少了。 通过对国内外相关研究现状的研究,对数据仓库和o l a p 技术在商业领域和教育领 域的对比分析,本文研究了o l a p 技术在中小学教学资源库中的应用,提出了一种基于 中小学教学资源库的o l a p 模型,满足针对特定教学资源问题的联机数据访问和分析, 从多角度、多层次观察分析数据,精确地进行查询分析,并利用计算机技术实现。 1 3 本文所要解决的问题及内容安排 由于教学资源质量、数量和种类的增加,且这种增加并没有带来人们预期中的效果, 故在教育领域内,不论是中小学还是大学,人们都关注现有教学资源的分析和利用问题。 为了使已有的教学资源能满足人们的需求,我们要分析现有的教学资源。要想解决教学 资源分析和处理问题,必须找到一种技术支持。依据数据仓库和o l a p 技术在商业领域 的成功应用,我们将利用数据仓库和o l a p 技术对教学资源进行分析和处理,为教学资 源的开发和利用提供决策信息支持。 本文利用o l a p 技术的多维数据分析与处理特征,建立了一个针对中小学教学资源 的o l a p 分析模型并在具体的软件中部分实现。 本文具体的研究内容安排如下: 第一章绪论;主要概述目前对教学资源的利用与分析处理上的困难与问题,分析 了国内外相关工作的研究情况,数据仓库和o l a p 技术在商业领域和教育领域应用的对 比分析,并对文章所要解决的问题及内容安排,所产生的现实意义等进行了阐述。 第二章o l a p 概念;本章给出了o l a p 的定义,介绍了o l a p 的体系结构、数据组织 方式、数据分析操作及其前端展现方式、常用的o l a p 工具。 第三章中小学教学资源库的o l a p 模型设计;基于对中小学教学资源的分析与研究, 设计了基于教学资源o l a p 分析模型,为教学管理者和资源开发者提供了一个可以对大 量、各类型教学资源进行快速地分析和观察的平台。 第四章o l a p 模型的实现及分析;在具体的软件中实现教学资源o l a p 分析模型,通 2 过实例演示了o l a f 在中小学教学资源库中的应用。 第五章总结与展望。 1 4 本文的现实意义 通过对教学资源的研究与分析,结合数据仓库和o l a p 技术,对教学资源进行多角 度、多层次、多侧面的分析,为教学资源管理者和资源开发者提供一个有效的资源分析 平台,实现对海量教学资源数据的分析和利用,从而提高教学资源的利用率,更好地掌 握隐含在教学资源背后的规律,为进一步利用现有教学资源提供帮助和指导。 1 5 本章小结 本章概述了教学资源与o l a p 技术相结合的必要性,分析了国内外相关工作的研究 情况,并对数据仓库和0 l a p 技术在商业领域和教育领域的应用进行了比较分析,从中 找到了o l a p 技术与教学资源相结合的切入点,将o l a p 技术应用于中小学教学资源;最 后简要概述了文章所要解决的问题和内容安排,以及所产生的现实意义。 3 第二章o l a p 概论 o l a p ,英文全称为r e l a t i o n a lo n l i n ea n a l y t i e a lp r o c e s s i n g ,中文名称为联机 分析处理,也称为在线分析处理。最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出 的。o l a p 是决策支持系统的一种新型组件,提供先进的数据分析工具( 包括多维数据分 析) ,从数据仓库、关系d b i d s 或多维d b m s 中提取信息。o l a p 具有灵活的分析功能、直 观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分 析变得轻松而高效,以利于迅速做出正确判断。它可用于证实人们提出的复杂的假设, 其结果是以图形或者表格的形式来表示的对信息的总结。嘲 决策支持系统作为一种新兴的信息技术,能够为企业提供各种决策信息以及许多商 业问题的解决方案,提高了决策的质量和效率。以数据仓库和o l a p 相结合创建的辅助 决策系统是决策支持系统的新形式。 2 ,1 决策支持系统简介 决策支持系统( d e c i s i o ns u p p o r ts y s t e m 简称d s s ) 是在管理信息系统( m i s ) 和运 筹学的基础上发展起来的新型计算机学科。以数据仓库和o l a p 相结合创建的辅助决策 系统是决策支持系统的新形式。数据仓库、o l a p 和数据挖掘技术的结合就产生了商业智 能系统。决策支持系统是围绕着决策行动主体进行支持管理人员进行非程序性决策的一 种信息系统。 不同的人对决策支持系统有着不同的理解。d s s 可以广义地作为一个包罗众多的术 语,用来描述任何在组织中支持决策制定的计算机化系统。一个组织可能拥有一个为高 层经理使用的经理信息系统,各种进行市场、财务、会计的d s s 系统,生产中m r p 系统, 和一些用于维修诊断的专家系统。 决策支持( d e c i s i o ns u p p o r t ) 是一种方法( 或一系列方法) ,用来从数据中提供 信息,并将这样的信息用作决策的基础。d s s 是一组计算机化的工具,用来帮助企业进 行管理决策。d s s 是交互式的,并且提供即时查询工具来提取数据并以不同的格式显示 数据。 2 1 1 决策支持系统体系结构 d s s 通常由4 个主要部分组成:数据存储组件、数据提取和过滤组件、终端用户查 询工具和终端用户表示工具,其体系结构如图1 所示。 1 数据存储( d a t as t o r e ) 组件 数据存储组件基本上是一个d s s 数据库,包括两类主要数据:商业数据和商业模型 数据。商业数据从运行数据库和外部数据源提取;他们是公司形势的即时反映。商业数 据不只是运行数据的副本。相反,他们将运行数据总结并安排在针对数据分析和查询速 4 度作了优化的结构中。外部数据源提供不能在公司内部得到,但是与商业有关的数据, 比如股票价格、市场指数、市场信息和竞争对手的数据。商业模型由特殊的算法产生, 用来模拟商业,以识别并加深对商业现状和问题的理解。 2 数据提取( d a t ae x t r a c t i o n ) 和数据过滤( d a t af i l t e r i n g ) 组件 数据提取和数据过滤组件用来提取并验证来自运行数据库和外部数据源的数据。例 如,为了确定选中产品系列的相对市场份额,d s s 需要竞争对手的产品数据。这样的数 据可能位于行业团体或销售这些数据的公司提供的外部数据库。顾名思义,该组件提取 数据,然后过滤所提取的数据,以选择相关的纪录,并以正确的格式包装要添加到d s s 数据存储组件的数据。 3 终端用户查询工具( e n d u s e rq u e r yt 0 0 1 ) 数据分析员用终端用户查询工具创建访问数据库的查询。取决于d s s 实现,该查询 工具将访问运行数据库或d s s 数据库。该工具针对选择哪些数据以及如何建立可靠的商 业数据模型等问题,向用户提出建议。 4 终端用户表示工具( t h ee n d u s e rp r e s e n t a t i o nt 0 0 1 ) 数据分析员用终端用户表示工具组织并表示数据。该工具帮助终端用户选择最合适 的表示格式,比如总结报表、图像、饼图或直方图、或者混合图。查询工具和表示工具 都是d s s 的前端。 图1 决策支持系统体系结构图 2 1 2 决策支持系统的特征 决策支持系统具有如下三个特征: ( 1 ) 以处理非程序性决策为主; ( 2 ) 是对管理人员的支持而不是代替: ( 3 ) 系统本身要求具有灵活性,采用联机对话方式,以便利用人的经验和系统提供 可供分析的信息来解决问题。目前的d s s 一般由一个数据库、一个模型库以及复杂的软 件系统构成。 d s s 能够为企业提供各种决策信息以及许多商业问题的解决方案,从而减轻了管理 者从事低层次信息处理和分析的负担,使得他们专注于最需要决策智慧和经验的工作, 因此提高了决策的质量和效率。企业采用d s s 后可以感受到更高的决策质量、沟通的改 昂虱 进、成本的削减、生产率的提高、节约时间、客户和员工满意度的改善。 2 20 l a p 基础知识 对更彻底的决策支持的需求促成了新一代工具的问世,r p o l a p 。这些称为o l a p 的新 工具提供了先进的支持决策、商业建模和运行研究的数据分析环境。 o l a p 提供先进的数据分析工具( 包括多维数据分析) ,从数据仓库、关系d b m s 或多 维d b m s 中提取信息。它面对的是决策人员和高层管理人员,通过数据立方体提供多维度 的数据视图,并利用旋转、切片等操作扩展查询语言的功能,它力图将异构源数据转化 为有用的信息,从而实现对数据的归纳、分析和处理,帮助企业完成决策。 2 2 10 l a p 定义 目前在理论上对o l a p 没有统一的定义,下面给出两个常用的定义,从不同角度对 o l a p 进行阐述。 定义1 1o l a p ( 联机分析处理) 是针对某个特定的主题进行联机数据访问、处理和 分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者。 定义2 :o l a p ( 联机分析处理) 是使分析人员、管理人员或执行人员能够从多角度 对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 ( o l a p 委员会的定义) 2 2 2o l a f 的相关基本概念 o l a p 的相关基本概念主要包括变量、维、维的层次、维成员、多维数组、数据单元 ( 单元格) 等。 1 变量 变量是从现实系统中抽象出来的,用于描述数据的实际意义,即描述数据“是什么”。 一般情况下,变量总是一个数值度量指标,例如人数、单位、销售量等都是变量,而i 0 0 则是变量的一个值。取值范围实际上是具体问题对变量的约束。 2 维 维是人们观察客观世界的特定角度,是一种高层次的类型划分。如教育资源决策者 常常关心教育资源随着时间推移而产生的变化情况,这就是从时间的角度来观察资源的 使用情况,所以时间就是一个维( 时间维) 。决策者也时常关心不同区域内学校的资源 使用数量,这是从地理的角度观察资源,所以区域也是个维( 地理维) 。 3 维的层次 观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个描述方面, 我们称这多个描述方面为维的层次。一个维往往具有多个层次,例如描述时间维时,可 以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年等就是时间 维的层次。 4 维成员 维的一个取值称为维的一个成员。如果一个维是多层次的,那么该维的维成员是由 6 各个不同维层次的取值组合而成。如对时间来说,“某年某月某日”就是一个维成员。 5 多维数组 多维数组是维和变量的组合表示。一个多维数组可以表示为 ( 维1 ,维2 ,维n ,变量) 。图2 是一个在教学资源中的多维数组的三维立方体的 示例。教学资源下载数据按时间、地理和下载资源组织起来形成一个三维立方体,加上 变量。下载量”,就组成了一个多维数组( 时间,地理,资源,下载量) 。 动百 图片 悯,月 图2 多维数组的三维立方体不意图 如果在图2 的基础上扩展一个维“学科”,就得到一个四维的结构。 6 数据单元 多维数组的取值称为数据单元,也称为单元格。当多维数组的各个维都选中一个维 成员,这些维成员的组合就惟一确定了一个变量的值,那么数据单元就可以表示为( 维 1 的维成员,维2 的维成员,维n 的维成员,变量的值) 。如在时间、地点、资源 分别取值2 0 0 4 年3 月,北京,动画资源就可以惟一确定变量“下载次数”的一个值( 假 定为2 5 4 次) ,该数据单元可以表示为 ( 2 0 0 4 年3 月,北京,动画资源,2 5 4 ) 。 2 2 3o l h p 系统的主要特征 o l a p 系统有4 个主要特征:使用多维数据分析技术、提供先进的数据库支持、提供 易于使用的终端用户界面、支持客户机服务器体系结构。 1 多维数据分析技术 o l a p 工具最显著的特征是多维分析能力。在多维分析中,数据作为多维结构的组成 部分被处理和观察。 多维视图与普通视图在数据表示上有很大的不同。普通视图不能很好地适合支持决 策,表与表之间不能表示相关的联系,也不能提供数据间的观察。多维视图可以更近似 地表示不同维间的关系。多维视图允许终端用户在不同的层次上合并或聚合数据即 可以按照用户和日期计算总的分析数据。数据的多维视图使数据分析员很容易将维从按 照用户给出的数据切换到按照部门、地区分类的数字。 多维数据分析技术扩充了数据表示功能,数据聚合、合并和分类功能,计算功能, 数据建模功能。 7 ( 1 ) 先进的数据表示功能:3 d 图形、枢轴表、交叉表、数据旋转、3 维立方体等。 且这些数据表示工具与桌面电子表格、统计软件包以及查询和报表编写器软件等兼容。 ( 2 ) 先进的数据聚合、合并和分类功能:这些功能使数据分析员能够创建不同的 数据聚合水平,对数据切片和切块,以及在不同的维度和聚合水平上分解和卷起数据。 ( 3 ) 先进的计算功能:能自动提供面向商业的变量、金融和会计比率、统计和预 测功能等等功能,终端用户不必在每次访问它们时重新定义其组件。 ( 4 ) 先进的数据建模功能:支持假设分析、变量评估、变量对结果的影响、线性 编程和其他建模工具。 许多分析和表示功能都是现有的桌面电子表格软件包所共有的,所以大多数o l a p 厂家将它们的系统和桌面电子表和软件紧密地集成在一起。使用w i n d o w s 这样的图形用 户界面中可以利用的功能,o l a p 菜单选择项完全称为电子表格菜单条之内的另一个选 项。这种无缝集成为o l a p 系统和电子表格厂家来说都是一种有利因素,因为终端用户 通过使用数据的程序和界面,可以使用先进的数据分析功能,额外的培训和开发成本将 减至最低。 2 提供先进的数据库支持 为提供有效的决策支持,o l a p 必须具有先进的数据访问功能,其功能包括: ( 1 ) 访问许多类型不同的d b m s 、平面文件以及内部和外部的数据源; ( 2 ) 访问聚合的数据仓库数据以及存在于运行数据库中的细目数据; ( 3 ) 先进的数据导航功能,如分解和卷起; ( 4 ) 快速且一致的查询响应时间,将使用商业或模型术语表示的终端用户请求, 映射为适当的数据源,然后再映射为适当的数据访问语言的能力。无论数据来源是运行 数据库还是数据仓库,查询代码必须优化为与数据源相匹配。 ( 5 ) 支持超大数据库,o l a p 工具将来自数据仓库和运行数据库的数据元素映射到 自己的数据字典中。这些元数据然后用来将终端用户的数据分析请求转换为适当的( 优 化的) 查询代码,查询代码之后被定向到适当的数据源。 3 易于使用的终端用户界面 先进的o l a p 功能在便于使用的情况下将更加有用。o l a p 工具的厂家给先进的数据 提取和分析工具配备了易于使用的图形用户界面。这些界面的许多部件都是从终端用户 已经熟悉的上一代数据分析工具“借来”的。这种熟悉使o l a p 容易接受且易于使用。 4 支持客户机服务器体系结构 在客户机服务器体系结构中设计、开发并实现o l a p 系统。客户机服务器环境能 够将o l a p 系统分为图形用户界面( g u i ) 、分析处理逻辑、数据处理逻辑等三个主要的 组件,使o l a p 具有多维数据分析、先进数据库的支持和易于使用的界面。这些组件可 以放置在同一个计算机上,或者分布在若干计算机之间。这样,o l a p 就能够满足使用方 便及系统灵活性等需求。 o l a p 的客户机服务器体系结构如图3 所示。 o l a p 系统 图3o l a p 客户机服务器体系结构图 从图3 可以看出,o l a p 系统被设计为即使用运行数据,又使用数据仓库数据。o l a p 可以访问两种数据存储类型( 运行或数据仓库) 或者只访问一种。o l a p 提供了一种小型 的数据仓库组件。o l a p 引擎从运行数据库中提取数据,然后将其存储在多维数据结构中, 供将来的数据分析使用。提取过程遵循用数据仓库提取数据时所用的相同惯例。 在常见和可行的体系结构中,o l a pg u i 运行在客户机工作站上面,而由o l a p 分析处 理逻辑和o l a p 数据处理逻辑组成的o l a p 引擎或服务器运行在公用的计算机上面。o l a p 服务器是数据仓库决策支持数据的前端。该前端或中间层接受并处理由许多终端用户分 析工具产生的数据处理请求。终端用户g u i 可能是定制的程序,或者更可能是与 l o t u s l 一2 - 3 、m i c r o s o f te x c e l 或其他第三方数据分析和查询工具集成在一起的插件模块。 为提供更好的性能,有些o l a p 系统通过将数据仓库的少量数据存储在终端用户的 工作站上,合并了数据仓库与数据中心这两种方法。这种结构提高数据访问和数据可视 化( 数据趋势和特性的图形表示 的速度。大多数终端用户通常使用相当小的、稳定的 数据仓库的数据子集。例如,教师最可能使用某一资源下载数据,而教育管理者可能使 用资源分布数据等,如图4 所示。 图4 配置本地小型数据中心的0 l a p 服务器图 9 帛曰 有一点需要特别说明无论o l a p 组件的配置如何,都必须使用多维数据。 在大多数实现版本中,数据仓库和o l a p 是相互联系并互为补充的环境。数据仓库 表示综合、面向主题、随时问变化并且永久存储的决策支持数据,而o l a p 系统提供终 端用户借以访问并分析此类数据的前端。 2 30 l a p 的分析操作 o l a p 的目的是为决策管理人员提供一种灵活的数据分析、展现的手段,这是通过多 维数据分析实现的。通过对多维形式组织起来的数据进行切片、切块、聚合、钻取、旋 转等分析操作,以求剖析数据使用户能够从多种角度、多个侧面、多种数据综合度来查 看数据,从而深入地了解包含在数据中的信息、内涵。o l a p 的操作方式迎合了人的思维 方式,因此减少了混淆,降低了出现错误解释的可能性。 1 数据切片 定义3 :在多维数组的某一维上选定一个取值,则多维数组就从n 维降成了n _ 1 维, 我们称多维数组的子集( 维度1 ,维度2 ,维成员v i ,维度n ,变量) ( 设维度i 的维成员取v i ) 为多维数组在维度i 上的切片。 图5 所示是一个按资源维、地理维和时间维( 年) 组织起来的资源下载数据,用多 维数组表示为( 时间、地理、资源、下载量) 。如果在地理维上选定一个维成员( 设为 “长春”或“北京”) ,就得到了在地理维上的一个切片;如果在资源维上选定一个维成 员( 设为“动画”或“图片”) ,就得到了一个在资源维上的一个切片。显然,这些切片 的数目取决于每个维成员的个数。 定义4 :选顶多维数组中两个维:维i 和维j ,在这两个维上取某一区间或任意的维 成员,而将其余的维都分别取定一个维成员的动作称为多维数组在维i 和维j 上的一个切 片,表示为:( 维i ,维j ,变量) 。 对于图5 的例子,选定多维数组( 时间、地理、资源、下载量) 中的时间维度和资 源维度,而在地理维上取定一个维成员( 设为“长春”或“北京”) ,就得到了多维数组 ( 时间、地理、资源、下载量) 在时间和资源两维上的一个切片( 时间、资源、下载量) 。 它表示“长春”或“北京”各资源、每年的下载情况。相应地,选定时间维度和地理维 度,而在资源维度上取定一个维成员( 设为“动画”或“图片”) ,就得到了多维数组( 时 间、地理、资源、下载量) 在时问和地理两个维上的一个切片多维数组( 时间、地理、 下载量) 。 从定义2 可以得出两点: ( 1 ) 一个多维数组的切片最终是由该数组中除切片所在平面的两个维之外的其他 维的成员值确定的。 ( 2 ) 维是观察数据的角度,那么切块的作用或结果就是舍弃一些观察角度,使人 们能在两个维上集中观察数据。因为人的空间想象能力毕竟有限,一般很难想象四维以 上的空间结构。所以对于维数较多的多维数据空间,数据切片是很有意义的。 1 0 2 数据切块 定义5 :将多维数组某一维上的取值设定为一个区间的维成员的动作称为切块。 定义6 ;选定多维数组中的三个维:维i 、维j 和维k ,在这三个维上取某一区间或任 意的维成员,而将其余的维都分别取定一个维成员的动作称为多维数组在维i 、维j 和维 k 上的一个切块,表示为( 维i ,维j ,维k ,变量) 。 从另一个角度来讲,切块可以看成是由多个切片叠合而成。在图5 中,如果将地理 维上的取值设定为一个区间( 例如长春、上海、北京) ,而非单一的维成员时,就取得 一个数据切块,它可以看成是长春、上海和北京三个切片叠合而成。 动画 图片 2 0 舛年2 0 年时间库 廖馏 图5 三维立方体切片、切块示意图 3 数据上探下钻 维度是有层次性的,如时间可能由年、季、月、日构成,维度的层次实际上反映了 数据的综合程度。维度层次越高,代表的数据综合度越高,细节越少,数据量越少;维 度层次越低,则代表的数据综合度越低,细节越充分,数据量越大。数据钻取包含向上 探取和向下钻取操作,上探是在某一维上将低层次的细节数据概括到高层次的汇总数 据。而下钻则相反,它从汇总数据深入到细节数据进行观察。这两者都是改变维的层次 和变换分析的操作。 在图6 中,2 0 0 5 年某资源下载数量如表1 所时,时间层次是“年”,如在时间维上进 行下钻操作,可获得其下层各季度下载数量如表2 所示,表2 显示的是2 0 0 5 年某资源每季 度的下载情况,显然,表2 中各个季度的下载总和应当等于表1 中一年的下载。同理,在 季度层次上继续向下钻取,则可得n 2 0 0 5 年该资源每月的下载情况。相反,若进行上探, 则可从表2 得到表l 的结果。 显然,钻取的深度与维所划分的层次相对应。如果时间维度上只定义了“年”、“季 度”这两个层次关系,那么表2 是能够得到的最细节的数据,不能再进一步向下钻取数 据了。如果对时间维度定义了“年”、“季度”、“月份”、“周”、“日”等更多的层次,则 还可以进一步钻取。类似地,也可以在资源维度上进行钻取。 按时间维向t 钻取 衰2 图6 上探、下钻操作不意图 4 数据旋转 旋转是改变维度的位置关系,通过旋转可以得到不同视角的数据。旋转可能交换行 和列,也可能是在维度层次之间进行交换。例如,图7 的例子是横向的时间维度和纵向 的资源维度进行了交换,从而形成横向为资源,纵向为时间的报表。图8 中的例子则是 在维度层次之间进行了交换,这使得用户能够更好地对不同年份同季度的数据进行比 较。 2 0 0 5 正2 0 0 6 年 ;瓷源l 季度2 季度3 季度 4 季度1 季度 2 拿度 3 季度4 季度: 资源1 1 瑚舶1 0 41 4 21 1 08 5 9 4 资源2 2 1 31 6 2 2 0 92 0 01 8 1 1 3 5 2 褶 1 6 5 资源39 71 0 1 8 98 41 2 08 71 0 5 , j 资源1 资源2 资猿3 2 0 0 5 正 1 季度 1 2 1 39 7 2 季度l 1 6 21 0 l 3 季度 粥2 0 98 9 4 季度 1 0 4 2 绍 1 季度1 4 2 坞l8 4 2 季度 1 1 0 1 3 51 2 0 2 0 0 6 正 3 季度 8 52 t 88 7 4 季度 9 41 6 51 0 5 图7 不同维度间的旋转操作示意图 1 2 2 0 0 5 年 2 0 0 6 年 资源i1 季度l2 季度l3 季度l4 季度l1 季度i2 季度l3 季度l4 季度 资源1j 1 5 0 i 1 0 0 资源2l 2 1 3 珀1l1 3 6i 2 7 81 6 5 资源3i 9 t 1 季度i2 季度l3 季度i4 季度 资源l2 0 0 6 年f2 0 0 6 年l2 0 0 5 年l2 0 0 6 年l2 0 0 5 年j2 0 0 6 年l2 0 0 5 年i2 0 0 6 年 资豫l 1 5 0 l 1 4 2 i 1 0 0 i 1 1 0i l8 51 0 4 i 9 4 资源2 2 1 3 i 1 8 11 6 2 i 1 3 52 0 9 i2 7 8l 撕 资源3l 9 ti 鲥i1 0 1 i 1 2 0i i8 7 图8 维度层次上的旋转操作示意图 2 40 l a p 的主要数据组织方式 , 按照存储方式对o l a p 进行分类,r o l a p 利用现有的关系数据库技术来模拟多维数 据,m o l a p 是以多维数据库的方式组织和存储数据,而h o l a p 是一种混合的模式,对于 常用的维度和维层次,使用多维数据表来记录,对于用户不常用的维度和数据,采用类 似于r o l a p 星型结构来存储。在数据仓库的应用中,o l a p 应用一般是数据仓库应用的前 端工具,同时o l a p 工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分 析功能。下面将对o l a p 的三种数据存储方式进行详细的讲述。 2 4 1 r o l p r o l a p ( r e l a t i o n a lo n l i n ea n a l y t i c a lp r o c e s s i n g ,关系在线分析处理,也称为 关系型联机分析处理) 通过使用关系数据库和熟悉的关系查询工具存储并分析多维数 据,从而提供o l a p 功能。这种方法建立在现有关系技术的基础之上,而且对于那些已 经在内部使用关系数据库管理系统的公司来说,是一种自然的扩充。 r o l a p 以关系数据库为核心。它的底层数据库是关系型数据库。在r o l a p 结构中, 数据是作为行和列以关系形式来存储的,用户通过客户端工具提交多维分析请求给o l a p 服务器,o l a p 服务器动态地将这些请求转换成s q l 语句执行,分析的结果经过多维处理 后转化为多维视图返回给用户。 r o l a p 给传统的r d b m s 技术增添了下列扩充: ( 1 ) 在r d b m s 内部支持多维数据模式。 ( 2 ) 为多维数据优化了数据访问语言和查询功能。 ( 3 ) 支持超大数据库。 1 r d b m s 内部支持多维数据模式 r o l a p 使用星型模式确保支持多维数据表示。星型模式用来优化数据查询操作,而 不是数据更新操作。r o l a p 提供了先进的数据分析功能,并改进了查询优化和数据可视 1 3 化方法。圆 2 多维数据优化了数据访问语言和查询功能 r o l a p 对s q l 作了扩充,使之能够区分对数据仓库数据( 基于星型模式) 和对运行 数据( 规范化的表) 的方案请求。用这种方式,r o l a p 系统就能够适当地产生访问星型 模式数据所需的s q l 代码。 查询优化器被修改为能够标识s o l 代码的预定查询目标,这样查询性能同样得到了 改善。例如,如果查询目标是数据仓库,则查询优化器将请求传递给数据仓库。如果终 端用户执行对运行数据的分解查询,查询优化器在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论