




已阅读5页,还剩57页未读, 继续免费阅读
(教育技术学专业论文)开源olap技术在多媒体教学系统中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
开源o l a p 技术在多媒体教学系统中的应用研究 摘要 随着数据库技术和网络技术的飞速发展,作为现代远程教育一个 分支的网络教育在推广远程教育方面正扮演着越来越重要的作用。相 比其他的教育类型,网络教育在教育资源的电子化、数字化方面有着 不可比拟的优势,他们不仅仅提供给学习者数量众多、种类丰富的教 育资源,更重要的是,网络教育可以方便的记录学生在学习过程中的 各种信息和痕迹。然而,在很多时候,这些记录仅以汇总表格的形式 出现,却没有得到更进一步的深入挖掘和分析。 联机分析处理( o l a p ) 是建立在数据仓库基础上的一种支持多维分 析的决策支持工具,在电信和金融这些具有良好信息化背景的行业中 已经得到了广泛的应用,并为该行业的发展提供了积极的帮助。本文 就网络教育中学习记录的深入挖掘进行了相应的研究和关注,根据数 据仓库和o l a p 技术在电信金融领域的研究开发,将上述技术应用于 对网络教育中学习记录的多维分析和处理,从多个角度、多个层次观 察和分析数据,为下一步的教学计划制定提供决策信息支持。 通过对于数据仓库和o l a p 技术的初期研究,以及在网络教育技术 研究所多媒体教学系统中的设计实现,作者提出了一个依托于多媒体 教学系统、基于现有开源技术、面向w e b 应用的轻量级o l a p 系统, 该系统使用开源o l a p 引擎和前端显示框架,通过建立星型数据模型 和以x m l 文件为载体的数据立方体,实现了对于学生平均成绩在不同 的地域、时间和科目维度上的多维查询,并结合已有的系统数据库进 行测试。为多媒体教学系统的教学计划制定提供了辅助的决策支持, 也为进一步研究面向w e b 的轻型o l a p 系统打下了良好的基础。 关键字:学习记录决策支持o l a p 数据立方体开源 a p p l i e dr e s e a r c ho fo p e ns o u r c eo l a p t e c h n o l o g yi nt h e 蚤n t m d i al e a r n i n g s y s t e m a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fd a t a b a s ea n dn e t w o r kt e c h n o l o g y ,t h e n e t w o r ke d u c a t i o ni s p l a y i n ga l li n c r e a s i n g l yi m p o r t a n tr o l e i nt h e p r o m o t i o no fd i s t a n c ee d u c a t i o n c o m p a r e dt oo t h e rt y p e so fe d u c a t i o n , n e t w o r ke d u c a t i o no w n sg r e a ta d v a n t a g e si nt h ee d u c a t i o n a lr e s o u r c e s d i g i t a l i z a t i o n n o to n l yi tc a np r o v i d es t u d e n t sw i t hr i c ht y p ee d u c a t i o n a l r e s o u r c e s ,t h en e t w o r ke d u c a t i o nc a nr e c o r da l m o s ta l lt h ei n f o r m a t i o n g e n e r a t e dd u r i n gs t u d e n t s o n l i n el e a r n i n gp r o c e s s ,w h i c ha r eh e l p f u li n a n a l y z i n gs t u d e n t s l e a r n i n gc o n d i t i o n u n f o r t u n a t e l y , n o t r e c e i v e d i n d e p t ha n a l y s i sa n dm i n i n g ,t h e s er e c o r d sa r ep r e s e n t e di nt h ef o r mo f a s i m p l es u m m a r y f o r mi nm a n yc a s e s o n l i n e a n a l y t i c a lp r o c e s s i n g ( o l a p ) i sa m u l t i d i m e n s i o n a l d e c i s i o n - s u p p o r tt o o l sb a s e do nd a t aw a r e h o u s e ,a n dh a sb e e nw i d e l y u s e di nt e l e c o m m u n i c a t i o n sa n df i n a n c i a lf i e l d sw h i c hh a v eag o o d b a c k g r o u n do fi n f o r m a t i o nt e c h n o l o g y t h i sa r t i c l ep a i da t t e n t i o n0 n s t u d yo ft h ei n d e p t ha n a l y s i so fo n l i n el e a r n i n gr e c o r d s ,a p p l i e dt h e o l a pa n dd a t aw a r e h o u s et e c h n o l o g i e si nt h em u l t i d i m e n s i o n a la n a l y s i s a n d p r o c e s s i n g o f l e a r n i n g r e c o r d s , a n dt r i e dt o p r o v i d e d e c i s i o n - s u p p o r t i n gi n f o r m a t i o nf o rt h et e a c h i n gm a n a g e m e n t t h r o u g h t h e s t u d yo fo l a pt e c h n o l o g y ,a n dt h e s o f t w a r e d e v e l o p m e n ti nt h em u l t i - m e d i al e a r n i n gs y s t e m ,t h ea u t h o rd e s i g n sa n d i m p l e m e n t sal i g h t - w e i g h t e do l a pw e ba p p l i c a t i o nb a s e do no p e n s o u r c ef r a m e w o r k s w i t ht h eu s eo f o p e n - s o u r c eo l a pe n g i n em o n d r i a n , p r e s e n t - t i e rf r a m e w o r kj p i v o t ,a n dt h ee s t a b l i s h m e n to fas t a rd a t ac u b e , t h i ss y s t e mr e a l i z e st h em u l t i - d i m e n s i o n a la n a l y s i so fs t u d e n t s o n l i n e l e a r n i n gi n f o r m a t i o ni nd i f f e r e n tr e g i o n ,t i m ea n ds u b j e c td i m e n s i o n s i t 6 i n t r o d u c e st h ea i d si n f o r m a t i o nf o rt h ed e s i g no ft e a c h i n gp l a n ,a n dl a y sa g o o df o u n d a t i o n f o rt h ef u r t h e rs t u d yo fo l a ps y s t e mi nn e t w o r k e d u c a t i o n k e yw o r d s :s t u d yr e c o r d s d e c i s i o ns u p p o r to l a pd a t ac u b e o p e n 7 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:呈起纽 日期:2 竺三望:兰 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:主起差匕日期:兰= 二2 :兰:! 兰 导师签名:j 箨泱主;卜日期:关脚手二。l 址 开源o l a p 技术在多媒体教学系统中的应用研究 1 1 课题背景和意义 第一章绪论 在中国互联网络信息中心( c n n i c ) 发布的第2 0 次互联网报告中显示,截至 2 0 0 7 我国网民总人数达到1 6 2 亿,手机网民数已有4 4 3 0 万人。报告同时显示, 我国网络教育的使用率已达到2 4 ,网络大学的报读人数也在持续增加【1 1 。随着 教育部于2 0 0 7 年秋开始,要求部属高校停止招收成人脱产班和高等教育自学考 试社会助学脱产班等全日制的办学形式,将会有更多的人将目光转向部属高校的 网络教育学院。同时,随着各地网络基础设施的不断完善,越来越多的人可以方 便的接入到互联网络,原本制约网络教育发展的硬件问题已经得到很有效的解 决。这些都意味着在今后的几年中,参加网络教育的学生数量将会有一个突飞猛 进的增长。 作为一种新形式的远程教育,网络教育相比传统的远程教育模式有着更多信 息化的特点。一方面,网络教育通过其持续在线性以及资源的丰富性削减了教学 环境、教学资料以及时间等因素对于教学的限制。另一方面,大量新的信息技术 的使用,b s 架构以及大容量数据库的存在,使得系统可以很方便的保存学生的 基本信息以及学生在学习过程中的各种表现,例如测验成绩、参与度、练习通过 率、到课率等学习记录数据。与传统教育中教师只能通过测验来考察学生的学习 季度不同,在网络教育中,通过多媒体教学系统,对于学生的学习情况有了更多 种类和更为客观的一系列评价指标。但同时,我们也注意到,尽管学生的学习记 录在质量、数量以及种类方面都有了显著的增加,但这种增加并没有很好的满足 人们对于网络多媒体教学系统的期望。在教学管理方面,人们更关注的是如何分 析和利用这些纷繁复杂的学习记录,如何从这些学习记录中得到更为有价值的知 识和规律【2 1 。 目前,国内的大多数网络教学系统并没有能够提出很好的解决上述需求的方 案。如果我们将视角放远,我们会发现,在商业领域尤其是电信和金融领域,却 早己在这方面取得了显著的成就,这就是数据挖掘技术在信息分析系统中的广泛 应用。而在这其中,o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g , 联机分析系统) 技术作为创建信息分析系统中一种比较直观而又重要的技术,成为完善教育信息 管理、促进网络教育个性化的一个理想技术。因此,本文提出了将o l a p 技术应 用于网络多媒体教学系统的设想。 l o ! 堕! ! ! ! ! 丝坚 ! 堕堂! ! ! ! ! ! ! ! ! ! ! ! ! ! 坚 12 国内外研究现状 数据挖掘作为一项成熟的技术,已经在很多的领域得到了应用,并收到明显 的收益。在国外,最著名的莫过于沃尔玛超市的。尿布与啤酒”案例,正是由于 数据挖掘技术的成功应用,人们才能发现尿布和啤酒这两样风马牛不相及的东西 却有着千丝万缕的联系。而在国内,中国移动从2 0 0 2 年就开始建设的b o s s ( b u s i n e s s o p e l a t i o ns u p p o r ts y s t e m ) 系统以及中国建设银行从2 0 0 0 年实 施的信贷风殓分析系统都是比较完善的数据挖掘系统。下表是摘自 k d n u g g e t s c o m 关于2 0 0 8 年度数据挖掘主要应用领域的一份调查报告。 表卜1 数据挖掘应用领域分布情况 从上表中我们也可以看出,虽然已经过了较长时间的实践应用,目前仍旧只 有电信业、金融业等天生具有信息化和数字化属性,拥有良好的信息化基础和雄 厚经济实力的行业在数据挖掘领域进行了大规模的应用。原凼有两个:一方面是 这些行业本身数字化程度高,可以为数据挖掘提供分析使用的海量数据库,另一 方面是这些行业有着充足的项目经费,可以承受部署商业数据挖掘系统的高额费 用。相比之下,大部分的巾小型企业依然停留在o l t p ( o nl i n et r a n s a c t i o n p r o c e s s i n g ) 技术的使用阶段即传统关系型数据库的麻用。 然而,通过比较分析我们一j 丁以发现网络教育和电信、金融业虽然其运作目 的不同,但部具有棚似的信息化特征。较之电信业对于用户基本信息和通话信息 北京邮电大学硕士学位论文 开源o i 。a p 技术在多媒体教学系统中的应用研究 的收集,网络教育系统同样也记录了学生的各种基本信息和他们的学习记录。因 此,这也使得数据挖掘和o l a p 技术在网络教育领域的实施成为可能。对于在网 络教育领域部署使用o l a p 技术,国内虽然已经出现了类似应用的论文,并且也 建立了一些尝试性的系统。但是,几乎所有的论文和尝试都将自己的o l a p 系统 建立在目前主流的商业产品基础之上,例如微软的s q ls e r v e rw i t ha n a l y s i s s e r v i c e 的系列产品【】【3 l 】。将o l a p 系统搭建在商业产品之上,虽然有着部署方 便,操作相对简单的便利。但是,主流商业o l a p 系统的价格远非我们以推广教 育为目的的网络教育行业可以承受的,这对于网络教学系统以后开发的技术选型 以及成本控制都是非常不利的。同时,在o l a p 系统开发中,对于如何设计实现 符合网络教学系统特点的数据仓库以及数据模型方面也有一定的影响。而在另一 方面,蓬勃发展的开源运动同时也促进了数据挖掘领域的开源化,其主要代表就 是p e n t a h o 公司的m o n d r i a n 引擎了,他是专门为部署o l a p 系统而开发的开源 o l a p 引擎。这就为我们在开源软件基础上创建一个符合网络教育特定需求的 0 l a p 系统提供了强有力的支持。 通过对国内外相关研究现状的了解,对数据挖掘以及o l a p 技术在商业领域 和网络教育领域的对比分析,本文研究了数据挖掘技术在网络教育中的应用,提 出了一种服务于网络教学系统的开源o l a p 系统,满足对于学生大量学习记录信 息的联机数据访问和分析,从多角度、多层次挖掘这些内容,并从中提取有价值 的信息。 1 3 课题研究内容 本篇论文主要关注的问题是: 问题1 、数据挖掘技术尤其是o l a p 技术在网络教育中扮演着一个什么样的角 色? 为了回答这个主要问题,我们需要考虑以下的几个子问题: 问题2 、什么是o l a p ,o l a p 相对于传统的数据库技术的优势是什么? 问题3 、如何在有限的成本和硬件环境中,为网络教育平台设计实现一个轻 量级的o l a p 系统,以协助教育工作者解决在教育教学中的存在的一些问题。 问题4 、如何实现这个轻量级o l a p 系统与其他在线教学系统较为完善的融 合? 1 4 研究方法 1 2 北京邮电大学硕士学位论文开源o l a p 技术在多媒体教学系统中的应用研究 虽然数据挖掘和o l a p 技术本身都已经比较成熟,但这些技术还尚未在教育 领域得到大规模的应用。同时,不同于以往将整个数据挖掘系统建设在已经成熟 的商业产品的基础之上,本文中所论述的轻量级系统主要建立在国外的开源项目 之上,缺乏文档和前期使用经验将会成为这个开源o l a p 系统开发的主要困难。 为了能够以较小的代价实现一个真正可实用的网络教育o l a p 技术平台,我们决 定在这个模块的开发中使用进化原型模型( e v o l u t i o n a r yp r o t o t y p i n gm o d e l ) 。 进化原型模型是一种软件开发生命周期模型,在这个模型中,需要创建一个 软件模型来进行示范和需求评估,这个原型将会在与最终交付系统相类似的环境 中运行,并将可以在测试数据源中实现最终系统的各项基本功甜6 】。这个原型本 身是十分规范的,开发者可以对其进行持续的更新和修改,更重要的是,该原型 将成为未来新系统的核心,以后的任何改进和提升都将在此原型的基础上进行。 进化原型模型包括四个主要的阶段,并呈螺旋形发展【2 0 】: 基本需求的定义 创建一个可工作的原型 可工作原型的验证 重新修改或评估需求 图卜l 进化原型模型的生命周期 通过使用这种开发模型,我们就可以尽可能快的适应这个新的框架。然后, 基于我们在原型开发中所获得的经验,就可以进行需求的更新和修改,并且以较 小的代价来部署个实用的系统。 1 5 论文组织结构 北京邮电大学硕士学位论文开源o l a p 技术在多媒体教学系统中的应用研究 本文共分七章,论文的具体结构如下: 第一章提供了对于本论文研究领域的简介,并给出了对于研究问题和可能的 解决方案的基本概述。 第二章将从教育学的角度探讨为网络教学系统创建o l a p 多维查询系统的理 论基础,主要是从内容分析法和人本主义教学理论两个方面进行讨论。 第三章主要是对于数据挖掘和o l a p 技术的定义以及相关重要概念的解释。 这一部分对于理解为何o l a p 技术可以轻易解决那些需要传统数据库技术花费大 量时间和计算才能完成的问题有着很重要的作用,这一章还解释了o l a p 在多维 分析中所使用到的基本方法。 在第四章,这部分内容主要完成对于系统功能模型的分析,以及在这个模型 基础上所进行的原型阶段的需求分析。在原型模块开发完成之后,通过最终的系 统详细功能分析,就可以实现o l a p 系统中最为关键的数据模型和数据立方体的 设计和实现。 第五章主要解决开源o l a p 系统的实现问题。在完成了对于系统数据模型和 数据立方体的设计开发之后,我们将会在开源组件的基础之上完成轻量级o l a p 系统的开发。同时,我们将会在已完成的o l a p 系统之上进行一系列和传统数据 库查询技术的对比,并讨论两种数据库技术各自的优劣。 第六章,在完成系统设计和开发的基础之上,我们将会回答在这一章中提出 的四个问题,明确o l a p 技术在网络教育中的重要作用,并从系统的开发和研究 的结果中总结经验教训。 1 4 北京邮电大学硕士学位论文 开源o l a p 技术在多媒体教学系统中的应用研究 第二章o l a p 技术应用于网络教育的理论基础 2 1 教育知识管理 知识管理( i ( m ,k n o w l e d g em a n a g e m e n t ) 是网络新经济时代的新兴管理思潮 与方法,管理学者彼得杜拉克早在一九六五年即预言:知识将取代土地、劳动、 资本与机器设备,成为最重要的生产因素。受到2 0 世纪9 0 年代信息化蓬勃发展 的影响,知识管理的观念逐渐和门户网站、资料库以及应用软件等相互结合,成 为企业积累知识财富,创造更多竞争力的利器 7 1 。 2 1 世纪是知识经济时代,也是社会各个领域特别是教育全面信息化的时代, 教育信息化水平和数字化教学资源的有效占有量已成为衡量一个国家或地区教 育现代化进程的重要标志。数字化教学资源是实施教育信息化的重要基础,而数 字化教学资源的丰富程度和有效利用以及在多大程度上转化知识,又取决于知识 管理在教育领域中的全面应用,即“教育知识管理 。 j e r e m yg a l b r e a t h 先生认为,教育知识管理就是运用技术工具对知识进行数 字化、加工处理、存储,并通过电子网络广泛传播、利用的过程,知识和智慧的 持续创造与传递贯穿于整个教育领域。现代信息技术特别是i n t e r n e t 已经把全 世界的信息资源连接在一起,形成了全球最大的信息资源库,为学习者的学习提 供了令人难以置信的丰富教育信息来源,如何准确、有效、迅速地对大量的教育 信息进行科学和富有个性化特点地加工、处理,挖掘隐藏在信息背后的知识已经 成为一个不容忽视的问题。因此,教育知识管理应运而生,他是教育信息管理在 知识经济时代和信息社会的延伸和发展。它不仅关注于对各种规范化和非规范化 教育信息的搜集处理,更强调从获得信息到知识的转化,强调知识的创造和共享, 以更好的促进学习者的学习和教育过程的管理。 o l a p ( 联机分析处理) 建立在多维视图的基础之上,重在根据已有的模式将 直接源自数据仓库的不同信息源的大量相关信息联系起来,以提供给分析人员一 个清晰、致的视图,强调执行效率和对用户的快速响应。通过与w e b 技术的结 合,o l a p 技术特别适合数据量巨大、信息类型复杂、表现形式繁多的网络信息 资源的组纠2 1 1 。 2 2 人本主义学习理论 人本主义产生于2 0 世纪6 0 年代,该理论在教育方面则认为:“学习是人的 北京邮电大学硕士学位论文 开源o l a p 技术在多媒体教学系统中的应用研究 自我实现,学习者是学习的主体,必须受到尊重。他不主张客观地判定教师应 该教授学生什么只是,而主张从学生的主观需要着眼,帮助学生获取他喜欢并且 有意义的知识。人本主义心理学家马斯洛( 1 9 6 8 ) 极端反对行为主义心理学的条 件作用学习理论,主张学习只能靠自发,教师不能强制学生学习嗍。 学习社会的到来,首先在于学习意识的普遍化和学习行为的社会化,同时还 意味着终身教育体系中心地位的确立。基于现代传播媒体与传播技术,特别是卫 星广播电视网和计算机网络的现代远程教育的实现,多种信息符号的远距离传 播,使学习形式的个性化、个体化特色越来越明显。网络化、多媒体化的教学形 式,不仅打破了学习形式的班级化和集体化,而且每一个人可根据需求和能力, 选择自己的学习内容,确定自己的学习目标。学习过程中学习者中心地位、自主 地位的确立,人的自我发展的主观性地位的确立,不但体现了以人为本的思想, 更重要的是创建了适应于每一个人的个性发展和个别发展的学习型社会环境的 建立。 传统的远程教育体系中,学生只能在有限的学习资源和环境中进行学习,并 且学习的重点和进度在很大程度上都是由教师安排的。这样的学习方式,使得学 生自身的特性淹没在统一的教学安排中,学生学习的积极性也会因此而受到打 击,降低了远程教育的教学质量。 而在网络教学系统中,通过使用先进的网络教学手段,学生不仅可以获得数 量巨大的学习资源和实时的教师辅导。教学系统还可以通过引入0 l a p 等数据挖 掘技术和数据库技术来完成学生学习信息的记录,这些记录中也会包括学生在学 习过程中对于学习内容或者学习方式的倾向性数据,比如:学生在某些知识点下 的练习次数、学生在某个科目中提出或者回答的问题数量等等。通过对这些数据 进行分析和挖掘,可以方便的帮助教师获得学生在学习过程中的习惯和倾向信 息,帮助教学管理人员从学生大量的学习记录中获得关于学生某一阶段学习情况 的完整认识。在完成了对于这些信息的收集和整理之后,教师就可以定位学生在 目前网络学习中的主要困难和需求,为学生提供更加有针对性的学习资源和学习 的进度安排,从而在数据挖掘技术的帮助下实现网络教学的人本主义学习,真正 使学生成为学习的中心,而教师成为指导者,使教师可以将自己的工作重心更多 的转移到学习资源的设计和学生辅导这些方面,从而为学生提供更好的学习环 境。 2 3 本章小结 本章从教育学的角度给出了数据挖掘技术应用于网络教学系统的一些理论 1 6 开源o l a p 技术在多媒体教学系统中的应用研究 基础,包括在信息化背景下教育知识管理对于教育发展的重要性,以及在远程教 育中数据挖掘技术的应用将会有力的推动以学生为中心的人本主义学习形式的 发展。 1 7 北京邮电大学硕士学位论文 开源o l a p 技术在多媒体教学系统中的应用研究 第三章o l a p 相关概念和关键技术 3 1 数据挖掘基本过程 数据挖掘( d a t a m i n i n g ) ,又称为数据库中的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,l ( d d ) ,就是从大量的、不完全的、有噪声的、模糊的、随机的数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程 9 1 。数据挖掘是一个流动的过程,主要包括以下几个阶段【1 0 1 : 问题定义 这个阶段是一个数据挖掘工程的开发。在这一部分,主要的工作是对于 所挖掘问题的理解。数据挖掘专家、行业专家以及领域专家将协同工作,从 一个商业的角度来定义项目的目标和要求。这个项目目标在接下来的阶段将 会转换成为一个数据挖掘的问题定义。在这一阶段中,还不需要使用数据挖 掘工具。在本论文中,主要是对于多媒体教学系统中多维查询范围的界定。 数据探索 领域专家了解元数据的含义。他们收集、描述并且对这些数据进行探索。 他们会记录数据的一些质量问题,与数据挖掘专家和行业专业进行频繁的交 流也是十分重要的。在这一阶段,传统的数据分析工具,例如统计学工具, 将会被使用到。在本论文的系统开发中,主要的数据来源是原多媒体教学系 统的数据库文件,目前其总的大小是1 5 g b ,共有9 6 个数据库表,数据库中 所有表项的数目更为庞大,我们在本阶段的主要任务就是从这些纷繁复杂的 表项中找到在多维查询中需要使用的信息。 数据准备 领域专家在本阶段为下一阶段的开发创建数据模型。由于某些挖掘功能 只接受特定格式的数据,他们需要收集、清洗并规范待处理的数据。他们还 会创建新的衍生属性,例如平均值。在数据准备阶段,数据会经过多次没有 次序的调整,为建模工具选择数据库表、记录和属性是这一阶段的典型任务, 数据本身的定义并没有被改变。由于多维查询对于数据源的特殊要求,我们 必须从原数据库中将o l a p 查询所需要的数据进行抽取和清洗工作,并将这 些数据载入到新的专门为o l a p 查询所创建的数据库表中,这将是数据准备 阶段的主要工作。 建模 对于同一类的数据挖掘问题,你可以使用很多不同的挖掘技术,而数据 北京邮电大学硕士学位论文 开源o l a p 技术在多媒体教学系统中的应用研究 挖掘专家就需要对这些技术进行选择和应用。有些挖掘技术会要求特定的数 据类型,数据挖掘专家需要评估每一个模型。在建模阶段,需要和领域专家 进行频繁的交流。建模和评估是相辅相成的,他们可能会重复多次来调整一 些变量,以获得一个最优的结果。当最后的建模阶段结束,一个高质量的数 学模型就建立起来了。在o l a p 系统中,最为核心的部分就是为方便日后多 维查询所建立起的数据立方体,这个立方体的本质就是描述业务逻辑的数据 模型,高质量的模型将会大大提升系统的可提供的信息和反应速度。 评估 数据挖掘专家对模型进行评估。如果模型没有达到他们的预期,他们将 会回到建模阶段,并且通过修改参数来重新构建模型,直至达到一个最优的 结果。当他们最终对模型满意,他们就可以提取对业务的解释并且可以评估 以下问题: 这个模型是否满足业务目标? 是否已经考虑到所有的业务情况? 在评估阶段的末尾,数据挖掘专家决定将如何使用数据挖掘的结果。在 建模阶段所创建的数据模型通常不会是最优的,我们需要通过使用测试数据 对其进行检验,然后在检验结果的基础上对数据模型进行修改和完善。 部署 数据挖掘专家通过将结果注入到数据库表或其他应用程序( 例如,电子 表格) 来使用这些数据挖掘的结果。当o l a p 系统所需要的所有数据准备完 毕,系统数据模型创建成功,且原型已经可以实现原先预定的目标,就可以 将本系统与原多媒体教学系统进行整合和部署。 图3 - i 数据挖掘流程 3 2o l a p ( 联机分析处理) 技术的基本概念 1 9 北京邮电大学硕士学位论文开源o u 心技术在多媒体教学系统中的应用研究 传统的关系型数据库主要应用是基本的、日常的事务处理,例如银行交易等。 他面向的用户是数据库的操作人员,为他们提供对于数据库的日常操作功能。 o l t p 即联机事务处理,是一个标准的、规范化的数据库结构。事实上,几乎所 有的传统数据库操作都可以归类为o l t p 。o l t p 是为事务处理而设计的,他关注 与数据库不可分的原子类操作例如插入、更新和删除。特点是由于他主要处理数 据库中的单个操作,使得o l t p 的事务处理速度很快,联机事务处理系统是传统 软件中最常见的系统。 随着数据库技术的广泛应用,企业信息系统产生了大量的数据,如何从这些 海量数据中提取对企业决策分析有用的信息成为企业决策管理人员所面临的重 要难题。传统的企业数据库系统即o l t p 作为数据管理手段,主要应用于事务处 理,但他对分析处理的支持一直不能令人满意。由于要加快事务操作的一个设计 目标就是最小化索引的数量,o l t p 数据库以放慢数据获取速度为代价换取更快 的事务速度。而在另一方面,在o l t p 系统中的数据对于用户也是不友好的。o l t p 系统的主要用户是数据库管理员和软件开发人员,对于这些人来说,完成基本的 数据库操作是十分方便的,可是对于像银行经理或者客户经理这样的普通人来 说,获取这些数据却是困难和复杂的。这些人倾向于一个更加直观的系统,这个 系统可以提供给他们关于工作运作情况的各种报表。因此,人们逐渐尝试对o l t p 数据库中的数据进行再加工,形成一个综合的、面向分析的、更好的支持决策制 定的决策支持系统( d e c i s i o ns u p p o r ts y s t e m ) ,这就导致了o l a p 的出现。o l a p 提供先进的数据分析工具( 包括多维数据分析) ,从数据仓库( d a t aw a r e h o u s e ) 、 关系d b m s ( r a t i o n a ld a t a b a s e m a n a g e m e n ts y s t e m ) 或多维d b m s ( m u l t i d i m e n s i o n a ld a t a b a s em a n a g e m e n ts y s t e m ) 中提取信息。他面对的是 决策人员和高层管理人员,通过数据立方体提供多维度的数据视图,并利用旋转、 切片等操作扩展查询语言的功能,他力图将异构源数据转化为有用的信息,从而 实现对数据的归纳、分析和处理,帮助企业完成决策。 3 2 10 l a p 的定义 联机分析处理( o l a p ,o n l i n ea n a l y t i c a lp r o c e s s i n g ) 技术是一类软件技 术,是一项快速进行多维查询的技术,它可使企业数据分析人员、企业经理及企 业其他管理人员通过对企业信息的多种可能的观察角度进行快速、一致和交互性 的存取,以获得对信息的深入理解 1 l 1 2 。o l a p 是商业智能( b i ,b u s i n e s s i n t e l l i g e n c e ) 的一部分,其典型应用是零售业商业报表、营销和管理报表、商 业过程管理、预算和商业预测、财政报表以及类似领域。 o l a p 技术有两个主要的特点:一是在线性( o n l i n e ) ,表现为对用户请求的 快速响应和交互式操作,他的实现是由客户机服务器体系结构完成的;二是多 北京邮电大学硕士学位论文开源o l a p 技术在多媒体教学系统中的应用研究 维分析( m u l t i - d i m e n s i o n a la n a l y s i s ) ,这是o l a p 技术的核心所在 2 4 1 。 目前在理论上对o l a p 没有统一的定义,下面给出两个常用的定义,从不同 角度对o l a p 进行阐述。 定义1 - o l a p ( 联机分析处理) 是针对某个特定的主题进行联机数据访问、 处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营 情况展现给使用者。 定义2 :o l a p ( 联机分析处理) 是使分析人员、管理人员或执行人员能够从 多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解 的一类软件技术。 3 2 20 l a p 的发展历史 自从1 9 9 3 年关系数据库之父e d g a rf c o d d 提出o l a p 概念之后,o l a p 系统 大致经历了三个不同的体系结构: 桌面型体系结构: 桌面架构的o l a p 技术是第一代的o l a p 技术,在这种系统上做分析的时 候,都是单用户操作的,对于多用户模式,通常采用文件共享技术来实现。 其实质就是低成本的简单o l a p 工具在本地执行多维分析和展示,数据从关 系型或多维数据库中下载至本地客户机。因此,在系统可用性方面表现的并 不如意,这也是由于当时的技术条件所致。为了克服以上不足,o l a p 技术发 展到了富客户端方式。 图3 - 2 桌面型体系结构 富客户端体系结构: 在富客户端方式的o l a p 体系结构里,为系统建立了服务器,从而解决了 多用户访问的问题。但是所有的o l a p 功能,还是在用户的桌面软件上来完 成。o l a p 引擎包含在o l a p 程序之中,客户端程序负责提供大部分的o l a p 功能,服务器端主要处理相应的数据库操作。因此,称为富客户端。富客户 端方式在一定时期内满足了用户的需要,随着b s ( b r o w s e r s e r v e r ) 方式 的流行,这种富客户端方式,逐步被类似的瘦客户端方式替代。 2 l * o l a p # $ t * t i # 十* m 目r 图3 - 3 富客户端体系结构 瘦客户端体系结构: 这个体系结构实质上是客户端服务器体系结构的一个变形,在这个结构 中数据不存放在客户端,同时客户端也只进行少量的运算和处理,主要的运 算和数据存储都在服务器端完成。他的一个极端例子就是网络机( n e t w o r k c o m p u t e r ) ,其他的形式包括n e t p c ,是一台运行w i n d o w s 系统的p c 机,拥 有优先的本地存储能力和配置能力。瘦客户端结构是一个十分流行的概念, 也是本论文中o l a p 系统所使用的体系结构。但是在应对复杂分析应用或者 大量用户访问时,需要谨慎使用这一结构。 a pw e bj 避j l oa p i - l a p i s q l f 图3 - 4 瘦客户端体系结构 l r r l 32 3o l a p 的相关基本概念 o l a p 的相关基本概念主要包括变量、维、维的层次、维成员、多维数组、数 据单元( 单元格) 等。 变量 变量是从现实系统中抽象出来的,用于描述数据的实际意义,即描述数 据“是什么”。一般情况下,变量总是一个数值度量指标,例如工资、平均 r 北京邮电大学硕士学位论文开源o l a p 技术在多媒体教学系统中的应用研究 成绩或者通过率等都是变量,而1 0 0 则是变量的一个值。取值范围实际上是 具体问题对变量的约束。 维 维是人们观察客观世界的特定角度,是一种高层次的类型划分,如教育 信息管理者常常关心教育资源以及学习成绩等信息随着时间推移而产生的 变化情况,这就是从时间的角度来观察信息的变化情况,所以时间就是一个 维( 时间维) 。决策者也时常关心不同区域内学员的成绩分布情况,这是从 地理的角度观察资源,所以区域也是一个维( 地理维) ,其他还有学科维、 学员维等。 维的层次 观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个 描述方面,我们称这多个描述方面为维的层次。一个维度往往具有多个层次, 例如描述时间维时,可以从日期、月份、季度、年等不同层次来描述,那么 日期、月份、季度、年份就是时间维的层次;同样,科目、章、小结、知识 点等就构成了学科维的不同层次。 维成员 维的一个取值称为维的一个成员。如果一个维是多层次的,那么该维的 维成员是由各个不同维层次的取值组合而成。如对时间来说,“某年某月某 日 就是一个维成员。 多维数组 多维数组是维和变量的组合表示。一个多维数组可以表示为( 维l ,维 2 ,维n ,变量) 。如( 时间,省份,科目,平均分数) 。 数据单元 多维数组的取值称为数据单元,也称为单元格。当多维数组的各个维都 选中一个维成员,这些维成员的组合就唯一确定了一个变量的值,那么数据 单元就可以表示为( 维1 的维成员,维2 的维成员,维n 的维成员, 变量的值) 。 3 3o l a p 的分析方法 o l a p 的多维分析方法是指对以多维的形式组织起来的数据采取切片、切块、 旋转等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察 数据仓库中的数据,从而深入的了解包含在数据中的信息和内容,其主要分析方 法有: 北京邮电大学硕士学位论文 开源o l a f 技术在多媒体教学系统中的应用研究 切片( s l i c e ) 在多维分析过程中,如果对多维数据集的某个维度选定一个维成员,这 种选择操作就称为切片。也就是说:如果( 维1 ,维2 ,维i ,维n , 度量) 多维数据集,对维i 选定了某个成员,则( 维l ,维2 ,o o o9 维i 成员, 维n ,度量) 就是多维数据集( 维1 ,维2 ,维i ,维n ,度量) 在维i 上的一个切片。这种切片数据量完全取决于维i 上的维成员个数,如果维数 多,可以做切片的就多。 切块( d i c e ) 与切片类似,如在一个多维数据集中对两个( 及以上的) 维选定维成员的 操作可以称为切块,可以看成是切片的重叠。即在( 维1 ,维2 ,o o o9 维i , 维j ,维n ,度量) 多维数据集上,对维i ,维k ,选定了维成员, 则( 维1 ,维2 ,e e o9 维i 成员,维j 成员,维n ,度量) 就是一个对 多维数据集( 维1 ,维2 ,维i ,维j ,维1 3 ,度量) 的切块。 下钻( d o w nd r i l l ) 使用户在系统的多层数据中能通过导航信息而获得更多的细节性数据, 用户可以跟踪分析,帮助用户回答“为什么 的问题。如果用户观测到第一 个月的平均成绩整体出现大的下滑,那么可以立即通过下钻观测到第一个月 每周的测验成绩情况。 上卷( r o l lu p ) 下钻的逆操作,是把细节数据聚集汇总到更高的层次。 旋转( r o t a t e ) 旋转即改变一个报告或页面显示的维方向。旋转可能包含交换行和列, 把某一个行维移到列维中去。旋转操作可将多维数据集中的不同维进行交换 显示,以使用户更加直观地观察数据集中不同维之间的关系。 3 4o l a f 的主要特征 o l a f 系统有4 个主要特征:使用多维数据分析技术、提供先进的数据库支持、 提供易于使用的终端用户界面、支持客户机服务器体系结构l i 3 - 1 s l 。 1 、多维数据分析技术 o l a p 工具最显著的特征是多维分析能力。在多维分析中,数据作为多维结构 的组成部分被处理和观察。 多维视图与普通视图在数据表示上有很大的不同。普通视图不能很好地适合 支持决策,表与表之间不能表示相关的联系,也不能提供数据i 8 j 的观察。多维视 图可以更近似地表示不同维间的关系。多维视图允许终端用户在不同的层次上合 o l a p # $ * * # # 十月r 并或聚合数据即可以按照用户和日期计算总的分析数据。数据的多维视图使 数据分析员根容易将维按照用户给出的数据切换到按照部门、地区分类的数字。 多维数据分析技术扩充了数据表示功能,数据聚合、合并和分类功能,计算功能, 数据建模功能。 ( 1 ) 先进的数据表示功能:3 d 图形、枢轴表、交叉表、数据旋转、三维立 方体等。且这些数据表示工具与桌面电子表格、统计软件包以及查询和报表 编写器软件等兼容。 ( 2 ) 先进的数据聚合、合并和分类功能:这些功能使数据分析员能够创建 不同的数据聚合水平,对数据切片和切块,以及在不同的维度和聚合水平上 分解和卷起数据。 ( 3 ) 先进的计算功能:能自动提供面向商业的变量、金融和会计比率、统 计和预测功能等等功能,终端用户不必在每次访问它们时重新定义其组件。 ( 4 ) 先进的数据建模功能:支持假设分析、变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 尺寸链分析实例讲解
- 染发剂课件模板
- 杭州安全知识培训课件
- 2023-2024学年五年级语文上册-第八单元主题阅读练习(含答案)
- 杨梅水彩画课件
- 教师节贺卡感念师恩共绘成长画卷模板
- 新部编版语文七年级上册《寓言四则》听评课记录
- 鲁科版生物六年级下册《第二节 呼吸作用消耗氧气释放二氧化碳》听评课记录2
- 高考数学(理数)一轮复习听评课记录:1.2《命题及其关系、充分条件与必要条件》(含解析)
- 听评课记录 人教版 分腿腾跃(3) 招教 体育
- 肿瘤科五年发展规划
- 文化传播公司创业计划书范本
- 2025装修半包工合同样本
- DB42T 1585-2020 规模化牛场生物安全技术规范
- 学校“十五五”五年发展规划(2026-2030年):深植教育沃土培厚发展根基
- 2025山西交通控股集团招聘450人笔试参考题库附带答案详解(10套)
- 2025年物业能力评级考试题库
- 2025年中国邮政集团工作人员招聘考试笔试试题(含答案)
- 2025人教版七年级英语下册全册默写本
- 机动车检测站新换版20241124质量管理手册
- 全国农牧渔业丰收奖经济效益计算办法
评论
0/150
提交评论