




已阅读5页,还剩73页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的教学质量分析方法的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 考试是教学的重要环节,对考试成绩进行分析和评价是教学质量管理的重 要方面。随着高校教学改革的深入和计算机应用的普及使学分制成绩管理得到 了很大的发展。但由于原有的对成绩数据的分析方法不能从大量成绩数据中深 入分析和捕捉对教学工作有用的信息,对教学信息资源的利用不够充分,使成 绩管理主要停留在学籍处理等简单的统计分析上。 以往的教学质量评价系统,多半是o l t p 系统,缺乏综合分析、辅助决策的 能力,并且对其历史积累的海量信息中隐含知识的利用无能为力。对教学质量 进行分析是教学评估的重要手段,采用先进技术对考试过程和教学环节中产生 的数据进行多层次、多角度的分析,利用分析结果辅助教学决策是保证教学质 量、提高学生素质和教师综合能力的必然要求。 本论文提出基于多维立方体的数据挖掘思想和方法以及一种定量分析和定 性分析相结合的教学质量综合测评方法,在此基础上应用数据仓库和联机分析 处理技术构建一种“平面”和“立体”相结合的教学质量综合测评体系,建立 多维综合测评联机分析挖掘模型,实现在高校教学质量分析评价中的应用。 文中给出了教学质量分析评价系统的体系结构,基于o l a p 的数据分析及利 用决策树方法进行数据挖掘的实现,最后利用s q ls e r v e r 2 0 0 0 ,j a v a 和j s p 技术实现了基于w e b 和数据挖掘技术的教学质量分析测评系统。 关键词数据仓库,数据采集,联机分析处理,数据挖掘 东北电力大学硕士学位论文 a b s t r a c t t h et e s ti st h ei m p o r t a n tp a r to ft e a c h i n g i ti st h ei m p o r t a n ta s p e c tt h a te a r r i n g o nt h ea n a l y s i sa n dt h ea p p r a i s a lt ot h et e s tr e s u l tt ot h em a n a g e m e n to ft e a c h i n g q u a l i t y a l o n g 、析mt h ed e e pd e v e l o p m e n to fr e f o r mi ne d u c a t i o na n dt h ep o p u l a r a p p l y m e n to fc o m p u t e r ,c r e d i ts y s t e mh a sp e r m e a t e di ne d u c a t i o nm a n a g e m e n t s y s t e mo fo r g a n i z a t i o no fe a c hu n i v e r s i t i e s b u tb e c a u s et h ep r e s e n td a t aa n a l y t i c m e t h o d sc a n tm i n et h ei m p o r t a n ta n du s e f u li n f o r m a t i o nd i r e c t e da g a i n s tt h e t e a c h i n go ft h ei n s t i t u t i o n so fh i g h e rl e a r n i n gf r o mag r e a tq u a n t i t yo fg r a d ed a t a , t h u sc a u s ee n o r m o u sw a s t ea b o u tt h et e a c h i n gi n f o r m a t i o nr e s o u r c e t h ef o r m e ra p p r a i s a ls y s t e mo f t e a c h i n gq u a l i t y , m o s t l yi st h eo l t ps y s t e m i t l a c k st h ea b i l i t yo fg e n e r a l i z e da n a l y s i sa n dt h ed e c i s i o n - m a k i n go fa s s i s t a n c e a n d i ti sh e l p l e s st ot h eu s i n go ft h ek n o w l e d g ew h i c ha c c u m u l a t e di nt h em a g n a n i m o u s , h i s t o r i c a l ,h i d d e ni n f o r m a t i o n c a r t i n go nt h ea n a l y s i st ot h et e a c h i n gq u a l i t yi st h e i m p o r t a n t m e t h o do ft e a c h i n g a p p r a i s a l t h em u l t i l e v e l l y a n dm u l t i - a n g l e s a n a l y z i n gt h ed a t au s i n gt h ea d v a n c e dt e c h n o l o g yw h i c hp r o d u c e sf r o mt h ep r o c e s s o ft e s ta n dt h et e a c h i n g ,t h ed e c i s i o n - m a k i n go ft e a c h i n gu s i n gt h ea n a l y s i sr e s u l ti s i n e v i t a b l yr e q u e s tw h i c hg u a r a n t e e st h et e a c h i n gq u a l i t ya n di m p r o v e st h eq u a l i t yo f s t u d e n t sa n ds y n t h e s i z i n gc a p a c i t yo ft h et e a c h e r t h et h e s i s p r o p o s e st h ei d e aa n dm e t h o do fm u l t i d i m e n s i o n a lc u b i cd a t a m i n i n g a n dam e t h o do fa p p r a i s a l ,n a m e l y , t h eq u a n t i t a t i v ea n a l y s i sa n dq u a l i t a t i v e a n a l y s i sm e t h o do ft e a c h i n gq u a l i t ys y n t h e t i ca p p r a i s a l b yc o m b i n i n gt h em e t h o d a n dc u b i ct e s ts y s t e m ,a n dad a t aw a r e h o u s e ,a n do l a ps y s t e m ,s e t t i n gu pap l a n e a n dc u b i ct e s ts y s t e m ,a n dam u l t i - d i m e n s i o n a ls y n t h e t i ca p p r a i s a lo l a pm i n i n g m o d e ,i no r d e rt oa p p l yt h et e s ts y s t e ma n dm i n i n gm o d ei nu n i v e r s i t yt e a c h i n g q u a l i t ys y n t h e t i ca p p r a i s a l t h et h e s i sp r o d u c e st h es y s t e ms t r u c t u r ea b o u ta n a l y s i sa n da p p r a i s a ls y s t e mo f a b s t r a c t t e a c h i n gq u a l i t y , a n dt h er e a l i z a t i o no fd a t am i n i n gt e c h n o l o g yb a s e do nt h ed a t a a n a l y s i so fo l a pa n du s i n gt h em e t h o do fd e c i s i o nt r e ec l a s s i f i c a t i o n f i n a l l y , i t r e a l i z e dt h ea n a l y s i sa n da p p r a i s a ls y s t e mo ft e a c h i n gq u a l i t yb a s e do nt h ew e b u s ms q ls e r v e r 2 0 0 0 ,j a v aa n dt h et e c h n o l o g yo fj s r k e yw o r d s :d a t aw a r e h o u s i n g ( d w ) ,d a t ac o l l e c t i n g ,o n - l i n ea n a l ) , t i c a l p r o c e s s i n g ( o l a p ) ,d a t am i n i n g ( d 岣 i l l - 论文原创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。 文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法 律意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申 请的论文或成果。 本人如违反上述声明,愿意承担以下责任和后果: 1 交回学校授予的学位证书; 2 学校可在相关媒体上对作者本人的行为进行通报: 3 本人按照学校规定的方式,对因不当取得学位给学校造成的名誉损害, 进行公开道歉; 4 本人负责因论文成果不实产生的法律纠纷。 论文作者签名: 奎绝蛩i 日期:查! i 年上月上日 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属学校。 学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本人 离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单 位仍然为东北电力大学。 论文作者签名 导师签名 日期:盎1 6 年上月a 日 第1 章绪论 第1 章绪论 随着计算机技术在教育领域的渗透,使得各种教育管理水平得到了很大的 提高。应用计算机技术开展有规模、长期的教学质量分析评价活动,应用现代 数据挖掘技术对教学质量评价数据进行深入分析和利用,有助于改善教学质量, 提高学校的竞争力。本系统尝试应用数据挖掘技术,建立一种发展性的教学质 量评价系统,通过对教学质量的评价、评价信息反馈等活动,增进学校、教师 和学生三者之间的相互交流,将学校总体发展需要和教师个体发展以及学生综 合素质的提高相互融合,实现学校、教师和学生共同发展。 开展各种评价活动都是为了获得一个有效的评价结果。当我们通过评价数 据采集获得了大量的评价数据以后,如何利用现有的数据获得一个有效的评价 结果,自然成为了评价活动中除了数据采集之外的又一个重点。数据挖掘技术 作为一种新兴数据分析工具,能够通过对数据的深入分析,实现对数据库中知 识的发现,挖掘出其中隐藏的、潜在有用的知识模式,帮助我们获得一个有效 的评价结果。 目前,世界范围内对数据挖掘技术的研究取得了令人瞩目的成就,已经成 功地将其应用到了市场、工业、金融、工程与科学研究、医疗保险、司法等多 种领域。但在教育领域中还没有得到广泛的应用,而在教育信息化的大趋势下, 将数据挖掘技术应用于教育领域内的数据分析,必然会有十分广阔的前景。 本文在分析讨论了当前教学质量评价现状及存在的问题的基础上,尝试将 数据挖掘技术应用到教学质量分析评价中,结合本校特点和学校对教师发展的 要求,设计了教学质量分析挖掘测评方法的研究与应用。实现了从数据准备、 数据采集、数据仓库的数据抽取、数据预处理、数据统计和挖掘分析的整个过 程。 东北电力大学硕士学位论文 1 1 国外国内发展状况 1 1 1 国外发展状况 以2 0 世纪6 0 年代美国著名心理学家卢布姆始创的“教育目标分类学”为 标志,国外的现代教育评价理论体系初步形成。教学质量评价作为教育评价中 的一个重要内容,国外的有关学者和机构进行了大量研究并取得了不少研究成 果。 1 关于教学质量评价的概念,国外研究者从不同的方面给出了不同的定义。具 有代表性的观点有五种:泰勒( r w t y l e r ) 从效果着眼把教学质量评价定义为“评 价过程在本质上是确定课程和大纲在实际上实现教育目标( e d u c a t i o n a lo b j e c t i v e s ) 的程度的过程 1 】。克龙巴赫( l j c r o n b a c h ) 着眼于信息,把教学质量评价定义: “是指为获取教育活动的决策资料,对参与教育活动的各个部分的状态、机能、 成果等情报进行收集、整理和提供的过程【2 】。”美国斯坦福评价协作组着眼于方 法,认为教学质量评价是对“当时方案中发生的事件以及方案结局的系统考查 一种导致帮助改进这个方案或其他有同样总目的的方案的考查”。得雷斯 ( p d r e s s s e l1 着眼于过程,强调评价是收集信息、的过程、提供决策依据的过程、 判断效果的过程、教育优化的过程以及价值判断的过程等。认为:“所谓评价, 就是决定某种活动、目的及程序的价值的过程。这个过程,分为目的的明确化、 收集有关合适的情报、决策等三个阶段。评价所追求的目的便是为达到目标而 最有效地去灵活使用手中的资源【3 j 。”桥本重治着眼于价值,认为“评价概念的 重点在于以教育目标为标准的价值判断【4 】。 2 关于教学质量评价的方法论,国外研究者的主要成果有实证化评价方法论和 人文化评价方法论。实证化评价方法论最典型代表是泰勒的目标导向评价模式 和豪斯的系统分析评价模型。人文化评价方法论的代表有古巴和林肯的自然主 义评价模式、斯塔克的应答评价模式等。这些评价模式的共同特点就是在评价 中不只是单纯从评价者的需要出发,而是考虑到所有评价参与人的需要,强调 个体的经验、活动和主观认识的作用,不过分追求客观性,并试图摒弃数量特 第l 章绪论 征,而是从人的角度出发,重视人文社会科学方法在评价中的运用。 3 在教育评价的形式上,主要有布卢姆( b s b l o o m ) 从改善教学的立场出发,提 出的五种评价形式:一是为改善教师的教学而获取和处理必要信息的方法所进 行的评价。二是比通常实行的书面测验包括更多信息的评价。三是为帮助明确 教育上有意义的目标而实行的评价。四是在教学过程的各个阶段上,要把握其 过程的效果如何。如果没有效果,是否需要及时采取措施。为做出此项决定而 进行的管理性质方面的评价。五是在教育实践中,对完成一系列教育目标来说, 需确认其他方法是否也是同样有效的手段而进行的评价【5 】。关于教学质量评价 的体系,最著名的理论是美国教育评价标准联合会1 9 8 1 年公布的评价应遵循的 四条原则:效用性、可行性、恰当性、准确性及该会建立的以效用为中心的评价 体系。这个体系的要点包括:要把效用当成评价的推动力,评价要自始至终坚 持讲效用,要和同评价有利益关系的决策者和使用者合作,任何评价都会牵涉 到多种多样的利害关系、因此要确立其中的重点,要精心选择有关人员,高质 量的参与将会产生高质量的评价结果,评价人员有责任对决策人员和信息使用 人员进行培训,评价过程和结果的运用有多种途径,考虑评价效用时应注意资 金和人员的消耗,多种因素都会影响效果。 4 教学实践 国外高校非常重视教学质量的评价工作。在美国高校的教学管理活动中, 对教师的教学效果进行评价是一项经常性的工作,通常由系主任、教师同行、 学生等多方面的评价组成。但在实际的评价过程中,最生动、最有效的当数学 生对教师教学效果的评价。“生评教”是美国高校教学管理的一大特色,它在促 进教师不断改进教学、提高教学质量方面起到了较大的积极作用。“生评教”通 常以让学生填写“教学效果评价表”或“教师评定方案”的形式进行。为使学 生真实地表达自己的看法,从而对教师的教学做出客观、公正的评价,“生评教” 均采用无记名方式进行,一般安排在课程结束后、期末考试前【6 】。 从2 0 世纪6 0 年代后期起,日本一些全国性的自发组织,联合开展了校际 问的教学评价活动。 1 9 7 9 年前苏联颁布了高校主要课程质量检查条例,对校内评估作了详细 东北电力大学硕士学位论文 的规定,共分为课堂教学、课程、实践课、实验、实习及学年设计五部分质量 检查,每部分都规定对一检查对象( 包括内容、组织教学法水平) 的基本要求及考 试要求,以作为评价指南。前苏联政府及教育主管部门十分强调建立校内自我 监督机构,由此健全内部监督制度,对高校教学起到了评价、推动、发展的有 效作用。其结果是教育质量有了明显的提高【7 】o 1 1 2 国内发展状况 我国教学质量评价研究是2 0 世纪8 0 年代中后期以后才逐步发展起来的。 经过近二十年的发展,在理论研究和实践工作中也取得了一定的成绩。 1 理论研究起步晚,发展快 1 9 8 4 年我国正式加入i e a 组织以后,我国的教学质量评价理论开始起步。 从这一时期到2 0 世纪8 0 年代末,我国教学质量评价理论研究主要是围绕着翻 译学习国外的评价理论、介绍研究外国的评价实例展开的。从9 0 年代初开始, 我国教学质量评价理论才真正进入了理论创新研究阶段。并且在评价的指标体 系、评价科学化等方面取得了一定的进步。 2 我国教学质量评价实践 我国高等院校的教学质量评价工作从8 0 年代中期以后在部分院校开始试 点。1 9 9 0 年1 1 月2 3 日,原国家教委颁布了普通高等学校教育评估暂行规定, 2 0 0 2 年6 月1 0 日,教育部又颁布了普通高等学校本科教学工作水平评估方案, 使我国的评价实践活动,进入一个新的阶段。我国高教评价方式主要有国家评 价与高校内部评价两种。国家评价由国务院有关部门及省市教育主管部门组织 实施,不定期进行,主要是诊断掌握教学工作状况,交流经验,促进提高。评 价结论不排名次,只分优秀、良好、合格、不合格4 种。不合格的责令整顿, 待后再次进行评价;学校评价则由高校自行组织实施,一般与国家评价相配套, 并为其打基础,是高校加强管理、提高办学效益的重要手段,目的是通过自评 进行动态调控,提高办学水平,确保教学质量。 3 我国教学质量评价存在的主要问题 1 ) 理论研究上存在的问题 第1 章绪论 尽管我国理论界研究评价理论已有多年,但是从孤立的、静止的和片面的 观点看问题的研究,占评价理论研究的大部分,评价中的许多理论问题迄今仍 没有得到合理的解决。具体表现为理论性与本土化的研究少。迄今为止,尽管 有关教育评价的文章与论著不断问世,但是理论性强的研究并不多。这主要表 现在:一是对评价的一系列基本理论问题缺乏深入的研究。二是对评价理论本土 化的研究不够。很多所谓的研究,对中国国情考虑过少,甚至在部分学者中存 在着照抄照搬西方资料的现象。当前,如何达到评价理论研究本土化,就成了 评价理论研究的新课题。 2 1 教学质量评价实践中存在的问题 与理论研究方面存在的问题相比,在实践中存在的问题更多,主要表现在: 一是理论研究较多,实践研究较少;二是国内外研究者对教学评价的各个单项内 容( 如评价的具体方法、具体指标等) 研究较多,但对如何把每个单项有机结合、 进而形成有特色的评价模式则研究较少;三是评价不是被用作实现提高教学质 量的手段,而是越来越多地被用作竞争与甄选的工具。 1 2 教学质量概述 教学工作是高校的中心工作,教学质量关系着高校的生存与发展,是高等 教育的生命线,是高校永恒的主题。但在计划经济体制下,计划办学,统一领导, 部门分配,待遇一样,学校的生存与教学质量的矛盾不明显,不突出。在计划 经济向市场经济转轨的今天,学校自主办学受社会检验,学生自主择业,双向 选择,学生按能力取酬,竞争上岗,学校因质量升降,优胜劣汰。因此,教学质 量关系到学校的社会竞争实力,是学校工作的生命线。 进入2 1 世纪,知识经济社会的特点更加明显。科技、文化、经济、人才的 全球化使对具有创新能力和创新精神的人才竞争更加激烈。另外,高速发展的 科学技术、加入w t o 都对教育的发展提供了前所未有的机遇,但急速膨胀的教育 规模又对教学质量问题提出了严峻的挑战。所以,当前抓教学质量问题有更深 刻的内涵和现实的意义。 目前,围绕教学质量评价的提法比较多,例如,教学质量评价、教学工作 东北电力大学硕士学位论文 评价、课堂教学质量评估、学科教学质量评估,等等。尽管提法不同,但都从 不同角度提出了有一定价值的评价思路,有力地促进了教学质量评价研究的开 展。 教学质量评价是指依据一定的教学目的和教学要求,利用多种评价方法和 手段,对教学及其所达到的效果,给予科学的价值判断的过程。这一概念的内 涵表明:教学质量评价是以教学目的为标准的,从所要实现的教学目的去把握 教学现状,通过对教学效果的检查与评定来判断教学目的的实现程度。教学目 的是教学质量评价的出发点。 1 2 1 目前影响本科教学质量的主要因素 当前在大规模扩大招生之后,提高教学质量问题提到了第一重要的位置。 “九五”期间,教育部组织了大规模的教学改革,成果累累。尤其是在办学思想、 办学模式上有了很大改观,在很大程度上扭转了教学内容陈旧、教学方法单一 等问题。为什么进入2 1 世纪学生对教学质量问题的要求如此强烈呢? 主要有如 下原因: 1 ) 大规模的扩招,学校办学的生均经费和资源下降,对办学实力比较强的 学校的承受能力是一个考验,对一般的学校更是个极大的冲击。而对些办 学条件非常薄弱、甚至对某些专业根本不具备办学能力的学校,扩招之后,根 本没有办这些专业的条件,当然也不能保证教学质量。 2 ) 随着教学理念、教学思想的变化,由应试教育到素质教育,由统一模式 培养到创新性、个性化培养,实际对教学条件、教学方法都提出了更高的要求。 衡量教学质量的尺度和方法也在不断变化,学校对此的适应力也需要一个过程。 3 ) 教学内容、教学方法、教学手段的改革不是一朝一夕完成,更不会一劳 永逸。新世纪的到来,教育国际化的进程加快,以及中国加入w 1 0 ,对教育也提 出了严峻的挑战。 4 ) 学生从中学到大学,不论学习环境、学习方法、培养方式都发生了质的 变化。从中学应试教育、保姆式管理到大学的创新性、个性化教育和自主性的 学习,学生也应尽快适应大学和教育改革的新形势。 第1 章绪论 1 2 2 教学质量中目前急需解决的几个问题 扩大招生规模,提高国民的整体素质,这是国家战略目标的需要,决不允许 以降低教学质量为代价。进入2 1 世纪,教学改革非但不能停止,而且需要加速。 所以必须改变观念,主动适应新形势,采取有效措施,提高教学质量。 1 ) 努力提高办学条件是当前解决教学质量的当务之急。 2 ) 建设一支高水平的师资队伍是提高教学质量的核心。 3 ) 加速教学内容的改革是提高教学质量的关键。 4 ) 教、学都要改变观念,教学方法也要改革。 5 ) 多方募集资金,加速实验室建设。 1 2 3 巩固教学质量重要地位 高等学校要高质量迎接新世纪的挑战,不断满足人民群众日益增长的教育 需求,实现高等教育的可持续发展,就必须正确处理好新形势下规模与质量、 发展与投入、教学与科研、改革与建设的关系,把提高教学质量放在更加突出 的重要地位抓紧抓好。 1 ) 增强“育人为本,质量第一”的意识。 2 ) 建立教学质量责任制度。 3 ) 落实教学工作奖励政策。 1 2 4 健全教学质量监控系统 高校要根据新世纪人才培养的要求,不断深化教学管理改革,优化教学过 程控制,建立健全教学质量监控和信息反馈体系。完善的教学质量监控系统应 包括如下几方面: 1 ) 指挥决策系统即教学工作的校级领导机构 2 ) 参谋咨询系统 东北电力大学硕士学位论文 3 ) 执行运作系统 4 ) 巡视督导系统 5 ) 信息反馈系统 1 2 5 完善教学质量服务与保障体系 教学质量服务与保障体系主要包括下述几方面: 1 ) 完善教学研究工作体系。 2 ) 加强教师队伍建设,不断提高教师素质采取措施稳定教师队伍,努力改 善教师工作条件和生活条件,提高教师待遇。 3 ) 加强教学基本条件和基础设施建设。 1 3 传统的教学质量评价方法 在国内外的教学评价理论和实践中,形成了许多不同的教学评价方法,这 些方法都能从不同的侧面、不同的角度对教学质量进行评价。从教学质量评价 所采用的方法论和评价结果的不同形式上可以把教学质量评价的方法区分为定 量评价与定性评价。 从评价数据的来源上区别,传统的定量评价方法主要有考试法、问卷法和 统计法;从对评价结果的处理上区分,传统定量评价方法主要有计分法和等级 法;从评价的价值标准来看,传统的定量评价主要有相对评价法、绝对评价法 及个体内差评价法:传统的定性评价的方法主要有观察法、评定法、面谈法等; 从教学质量评价的组织和实施过程来看,教学质量评价方法可以区分为内部评 价与外部评价两种类型。 随着数据仓库和联机分析处理( o l a p ) 以及数据挖掘等计算机技术的发 展,又出现了层次分析法以及基于关联规则、基于粗糙集和模糊集等的教学质 量测评方法。 第1 章绪论 1 4 本文的主要工作及意义 本系统尝试建立一种发展性的教学质量分析挖掘测评系统,通过对教师、 学生、以及其他学校相关信息的评价、评价信息反馈等活动,增进学校、教师 和学生之间的交流,实现学校总体发展需要和教师个体发展需要的融合,从而 促进学校和教师的共同发展。 1 5 本文的主要研究内容 1 ) 通过对以往教学质量评价系统的研究,实现了一种的定量分析与定性分 析相结合的学生综合测评方法。 2 ) 采用w e b 技术和s q ls e r v e r 2 0 0 0 数据库管理系统,实现一种基于数据仓 库思想的高校学生综合测评系统。 3 ) 在学生综合测评系统的基础上,实现了数据仓库和数据挖掘的o l a p ( 联 机分析处理) 技术在高校学生综合素质测评中的应用,通过对数据立方体的研 究,建立了学生综合素质测评多维立方体的联机分析挖掘模型,有效指导和辅 助学生管理决策和用人单位选拔人才的决策。 4 ) 通过对数据挖掘主要方法的研究,实现了决策树分类的数据挖掘方法在 学生综合素质测评中的应用,使学生测评由定量分析转向定性分析。不仅给学 生管理者提出了一种分析和预测学生发展状况的有效途径,同时给用人单位合 理选择不同类型人才提供了科学的判断。 东北电力大学硕士学位论文 第二章数据仓库与o l a p 及数据挖掘技术 9 0 年代以后,计算机技术,尤其是网络和数据库技术的发展以及激烈的市 场竞争这两方面的共同作用,促成了以数据仓库技术为核心,以联机分析处理 技术和数据挖掘工具为手段进行数据分析、辅助决策可行方案。 o l a p ( 联机分析处理) 与d m ( 数据挖掘) 都是数据库( 数据仓库) 的分析工具, 在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。前者建立在多维视 图的基础之上,强调执行效率和对用户命令的及时响应,而且其直接数据源一般 是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对 人们有用的模式( p a t t e r n s ) ,一般并不过多考虑执行效率和响应速度。 o l a m 一0 n l i n ea n a l y t i c a lm i n i n g 是二者相结合的产物,又称为o l a p m i n i n g , 目前是学术界研究的一大热点。 数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。数 据仓库用于数据的存储和组织,联机分析处理侧重于数据的分析,擞据挖掘则 致力于知识的自动发现。因此,这三种技术之间并没有内在的依赖关系,但是, 这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以 使它们的能力更充分地发挥出来。我们都知道,没有数据仓库也同样可以进行 数据挖掘,但有了数据仓库却可以使数据挖掘更有效率。可以说:联机分析处 理和数据挖掘是数据仓库之上的增值技术。 2 1 数据仓库技术 数据仓库是一种只读的、用于分析的数据库,常常作为系统的底层。它从 大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为了 决策目标而把数据聚合在一种特殊的格式中w h i n m o n 对数据仓库的定义8 】 是:数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、 但信息本身相对稳定的数据集合嘲。其中,”主题”是指用户使用数据仓库辅助决 第2 章数据仓库与o l a p 及数据挖掘技术 策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、 利润的情况等。那么,所谓”面向主题”就是指数据仓库中的信息是按主题组织 的,按主题来提供信息。”集成的”是指数据仓库中的数据不是业务处理系统数 据的简单拼凑与汇总,而是经过系统地加工整理,是相互一致的、具有代表性 的数据。所谓”随时间变化”,是指数据仓库中存储的是一个时间段的数据,而 不仅仅是某一个时点的数据,所以主要用于进行时间趋势分析。一般数据仓库 内的数据时限为5 年至1 0 年,数据量也比较大,一般为1 0 g b 左右。”信息本 身相对稳定”,是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很 少。 数据仓库组织和管理数据的方法与普通数据库不同。主要表现在三个方面: 1 ) 它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。 2 ) 数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。 3 ) 支持决策处理,不同于普通的事务处理。 数据仓库需要以下数据库技术的支持。 1 ) 并行数据库技术:数据仓库中的数据量很大,一般要达到g b 级,有的甚至 要到t b 级。对于处理如此大规模的数据,使用并行技术对提高运行效率是很 有帮助的。 2 ) 高性能的数据库服务器。传统数据库的应用是操作型的,而数据仓库的应用 是分析型的,它需要有高性能的数据库服务器配合工作,对d b m s 核心的性能 也有更高的要求。 3 ) 数据库互操作技术。数据仓库的数据来源多种多样,可能来自数据库,也可 能来自文件系统。即使都来自数据库,这些数据库也往往是异构。为了从这些 异构数据源中定期抽取、转换和集成所需要的数据存入库中,异构数据源之间 的互操作技术是必需的。 数据仓库技术在近几年蓬勃发展起来,不少厂商都推出了他们的数据仓库 产品,同时也推出了一些分析工具。仅仅拥有数据仓库是不够的,在其上应用 各种工具进行分析,才能使数据仓库真正发挥作用。联机分析处理和数据挖掘 就是这样的分析工具。 东北电力大学硕士学位论文 2 2 联机分析处理( o l a p ) 技术 联机分析处理( o l a p ) 是以海量数据为基础的复杂分析技术。它支持各 级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询 和多维分析处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员。 联机分析处理是针对特定问题的联机数据访问和分析,通过对信息进行快 速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以 获得高度归纳的分析结果。联机分析处理是一种自上而下、不断深入的分析工 具:在用户提出问题或假设之后,它负责提取出关于此问题的详细信息,并以 一种比较直观的方式呈现给用户。联机分析处理技术的发展速度很快,在数据 仓库的概念提出不久,联机分析处理的理论及相应工具就被相继推出了。 联机分析处理要求按多维方式组织数据,传统的关系数据库难以胜任。为 此,人们提出了多维数据库的概念。正是这一技术的发展使决策分析中的数据结 构和分析方法相分离,才有可能研制出通用而灵活的分析工具,并使分析工具 产品化。维是人们观察现实世界的角度,从不同的角度观察分析数据。多维数 据库是以多维方式来组织数据的。目前,联机分析处理的工具可分为两大类, 一类是基于多维数据库的,另一类是基于关系数据库的。两者的相同点是基本 数据源仍是数据库和数据仓库,都是基于关系数据模型的,都向用户显示多维 数据视图;不同点在于,前者是把分析所需的数据从数据仓库中抽取出来,物 理地组织成多维数据库,而后者则是利用关系表来模拟多维数据,并不是物理 地生成多维数据库。 2 2 1o l t p 与o l a p 早在上个世纪六十年代,人们为了收集、存储和处理大量的业务数据而开 发了数据库管理系统( d b m s ) 。在过去的几十年中,数据库系统得到了迅速的 发展和广泛应用,这些系统成为联机事务处理( o l t p ,o n l i n et r a n s a c t i o n p r o c e s s i n g ) ,它是为在机构的业务事务发生时进行记录而设计的数据处理系统, 第2 章数据仓库与o l a p 及数据挖掘技术 旨在处理同时输入的成百上千的事务。 o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g 。联机分析处理) 的概念i lo 】最早由关系 数据库之父e f c o d d 于1 9 9 3 年提出的。当时,c o d d 认为联机事务处理( o l t p ) 已不能满足终端用户对数据库查询分析的要求,s q l 对大数据库的简单查询也 不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才 能得到结果,而查询的结果并不能满足决策者提出的需求。因此,c o d d 提出了 多维数据库和多维分析的概念,即o l a p 。 o l a p 最终的数据来源与o l t p 一样,均来自底层的数据库系统,但二者 面对的用户群不同,数据内容的特点也不同。两者的区别概述如下表2 1 : 表2 1 0 l a p 数据与o l t p 数据的区别 o l t p 数据o l a p 数据 原始数据导出数据 细节性数据综合性和提炼性数据 当前值数据历史数据 可更新不可更新,但周期性刷新 一次处理的数据量小一次处理的数据量大 面向应用,事物驱动面向分析,分析驱动 面向操作人员,支持日面向决策人员,支持管 常工作理需要 2 2 2o l a p 的多维数据概念和典型操作 o l a p 使用的逻辑数据模型为多维数据模型,o l a p 展现在用户面前的是 一幅幅多维视图。 维( d i m e n s i o n ) :是人们观察数据的特定角度,是考虑问题时的一类属性, 属性集合构成一个维,( 如时间维、地理维等) 。 维的层次( l e v e l ) :人们观察数据的某个特定角度( 即某个维) 还可以存 在细节程度不同的各个描述方面,如时间维的层次有:日期、月份、季度、年) 。 维的成员( m e m b e r ) :维的一个取值,是数据项在某维中位置的描述。如 “某年某月某日”就时间维的一个维成员 度量( m e a s u r e ) :多维数组的取值。如( 2 0 0 0 年1 月,上海,笔记本电 东北电力大学硕士学位论文 脑,$ 1 0 0 0 0 0 ) 就是一个度量。 常用的0 l a p 多维分析操作有钻取( d r i l l - u p 和d r i l l - d o w n ) 、切片( s l i c e ) 和切块( d i c e ) 、以及旋转( p i v o t ) 等【l “。 钻取:是改变维的层次,变换分析的粒度。它包括向下钻取( d r i l l - d o w n ) 和向上钻取( d r i l l u p ) 上卷( r o l l u p ) 。d r i l l u p 是在某一维上将低层次的细节 数据概括到高层次的汇总数据;而d r i l l d o w n 则相反,它从汇总数据深入到细 节数据进行观察。 切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。 如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。 旋转:是变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 。 2 2 3o l a p 的分类及比较 多维数据模型在物理实现时,主要有三种方式:r o l a p 结构、m o l a p 结 构和h o l a p 结构。其中r o l a p 是基于关系数据库的o l a p 实现,m o l a p 是基于多维数据组织的o l a p 实现,h o l a p 是基于混合数据组织的o l a p 实 现。 1 ) r o l a p r o l a p ( r e l a t i o n a lo l a p ) 以关系型结构存储和表示多维数据,而不生成 多维立方体,只是存储数据模型和数据仓库数据之间的映射关系,真正的数据 物理存储在数据仓库中。在进行多维分析时,o l a p 服务器根据定义的模型和 映射关系,从数据仓库中取得数据,进行实时分析。由于数据仓库中保存了大 量的细节数据和描述性的数据,因而数据集比较大,且响应用户的分析请求是 要进行大量的关系表之间的连接操作,这就增加了对用户的响应时间,但数据 只存储一次,相对于m o l a p ,节省了空间,且分析可以得到较细节的数据, 即分析的粒度可以比较细。 2 ) m o l a p m o l a p ( m u l t i d i m e n f i o n a l0 l a p ) 是将按照主题定义的o l a p 分析所用 到的数据,生成并存储为多维数据库的形式,形成“超立方体”的结构。生成 第2 章数据仓库与o l a p 及数据挖掘技术 的多维立方体已经计算生成了一些汇总值,当用户发出分析请求时,从多维立 方体中取得数据,而不是从数据仓库中取数据。这种方式对用户的相应速度较 快【12 1 ,但由于多维立方体通常是稀疏的,存储的利用率很低,造成存储空间的 浪费。因此多维立方体中,不可能存储大量的细节数据,综合数据较多,分析 的粒度比较粗。 此外,还可以将m o l a p 和r o l a p 结合起来,综合两者优点,得到折中 方案,对一些用户经常用到的维度和度量值( 通常是一些聚集数据) ,保存维为 多维数据库,而与这些维度和度量值相关的详细数据,仍然以关系型数据的形 式保存在数据仓库中。这样既解决了o l a p 分析的速度问题和存储问题,也解 决了对详细数据的分析问题。这种方式又称为h o l a p ( h y b r i do l a p ) 。 2 3 数据挖掘技术 数据挖掘( d a t a m i n i n g ) 是从海量数据中,提取隐含在其中的、人们事先不知 道的但又可能有用的信息和知识的过程。其目的是帮助决策者寻找数据间潜在 的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有 用的。 数据挖掘也有人称之为知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) , 长期以来,在知识发现领域,“知识发现”与“数据挖掘”这两个术语的范畴 和使用界限一直不很清晰,直至j j k d i ) 9 6 国际会议上知识发现研究领域的知名学者 f a y y a d ,p i a t e t s k y s h a p i r o 和s m y t h 就这两个术语关系作t 如下阐述:k d d 是数据 库中知识发现的全过程,而d a t a m i n i n g 只是全部过程中的一个特定步骤( 如图 2 1 所示) 。【l3 】【1 4 】但是,由于两个术语的内涵大致相同,一般情况下,数据挖掘 和知识发现可以作为互换的术语。 图2 1 知识发现的全过程 - 1 5 - 东北电力大学硕士学位论文 目前,从总体上看,国外在数据挖掘领域中的研究内容十分广泛。从挖掘 的知识的种类看,已经取得了明显的成果,研究重点从发现方法逐步转向系统 应用,注重多种发现策略和技术的集成以及多种学科之间的相互渗透,并且已 经开发出了十多种关于数据挖掘的软件。比如:s a s 公司的e n t e r p r i s em i n e r , i b m 公司的i n t e l l i g e n tm i n e r ,s g i 公司的s e t m i n e r ,s p s s 公司的c l e m e n t i n e , s y b a s e 公司的w a r e h o u s es t u d i o ,r u l e q u e s t 等等。与国外相比,国内对于数据 挖掘与知识发现的研究稍晚。但自1 9 9 3 年国家自然科学研究基金首次支持该领 域内的研究项目以来,近几年已经有相当多的数据挖掘和知识发现方面的研究 成果,在许多学术会议上都设有专题进行学术交流。大量的科研单位和高等院 校竟相开展数据挖掘的基础理论及其应用研究,并在互联网上进行广泛的讨论 和交流( 比如:复旦大学的“数据挖掘讨论组h t t p :w w w d m g r o u p o r g c n ”) 。数据 挖掘是一门交叉学科,涉及到机器学习、模式识别、统计学、智能数据库、知 识获取、数据可视化、高性能计算、专家系统等多个领域。数据挖掘的成果可 以用在信息管理、过程控制、科学研究、决策支持等许多方面。 2 3 1数据挖掘的基本任务 数据挖掘的任务就是发现隐藏在数据中的模式。它所发现的模式一般可分 为两大类:描述型( d e s c r i p r i v e ) 的模式和预测型( p r e d i c t i v e ) 模式。描述型的模式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 摄影色彩基础知识培训课件
- 摄影后期初期课件
- 期货技术考试试题及答案
- 2025合同终止劳动赔偿标准
- 《2025年解除合同协议书范本》
- 2025年物流行业合同法若干关键问题
- 2025设备租赁和维护管理合同协议书
- 公司防洪避险知识培训课件
- 公司金融知识培训大纲课件
- 搬运工培训课件
- 2025年士官套改理论考试题库
- 化工厂应急知识培训课件
- 2025学校预防基孔肯雅热实施方案范文一
- (2025)汽车驾驶员(技师)考试题库及答案
- 2025年人才发展常识试题及答案
- 肌肉骨骼疾病防治课件
- 肿瘤免疫治疗及护理讲课件
- 成都盐道街中学实验学校数学新初一分班试卷含答案
- 学校及附属设施建设施工方案 (1)
- 腰椎爆裂性骨折伴截瘫护理查房
- 田英章临欧楷《心经》
评论
0/150
提交评论