(计算机应用技术专业论文)数据挖掘在本科教学质量评估的研究与应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘在本科教学质量评估的研究与应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘在本科教学质量评估的研究与应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘在本科教学质量评估的研究与应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘在本科教学质量评估的研究与应用.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贵州大学硕士论文 数据挖掘在本科教学质量评估的研究与应用 摘要 数据仓库和数据挖掘是数据库研究、开发和应用最活跃的分支之一,也是决策支持系统 的关键因素,数据仓库是一个支持管理决策过程的、面向主题的、随时间而变的数据集合, 它是集成的,也是稳定的。数据挖掘是采用人工智能的方法对数据库和数据仓库中的数据进 行分析、获取知识的过程。它们的结合能更好地为企业或有关部门不同范围的决策分析提供 有力的依据。 纵观以往的教学管理系统,多半是0 l t p 系统,缺乏综合分析、辅助决策的能力;并且 对其历史积累的海量信息中隐含知识的利用无能为力。对教学数据进行分析是教学评估的重 要手段,采用先进技术对考试过程和教学环节中产生的数据进行多层次、多角度的分析,利 用分析结果辅助教学决策是保证教学质量、提高学生素质的必然要求。 本文通过对数据仓库理论和数据挖掘技术的研究,结合考试分析系统的特点,提出将数 据仓库理论和数据挖掘技术运用到教学质量评估、考试分析中。首先本文介绍数据仓库的新 技术,然后采用数据仓库技术设计了关于教学质量评估系统的数据仓库。并通过对数据仓库 中的学生成绩采用数据挖掘中的神经网路算法进行分析,找出数据之间的潜在规则。 关键词:数据仓库、教学评价、数据挖掘、b p 神经网络、学生成绩分析 中圈法分类号:t p 3 1 1 、 1 p 1 8 3 贵州大学硕士论文 数据挖掘在本科教学质量评估的研究与应用 a b s t r a c t d a mw a r e h o u s e a n dd a mn l h l i n ga t h em o s ta m w eb r a n c h e so ft h e d a t a b a s e 昀埘y i n 舀 d e v c l o p m ga n da p p l i c a t i o n ,a l s ot h ek e yf a c t o 塔o fd s s d a mw a r e h o u s ei sad e c i s i o ns u p p o r t i n g s u b j e c t _ o f i e n t e d ,i n w g r a t e d ,s t a b l ea n dt i m e - d e p e n d e n to i ld a ms e t ;d a mm m i n gi st h ep r o c e o f a n a l y z e dd a ma n da c q u k ek n o w l e d g ef r o md a t a b a s ea n dd a mw a r e h o u s eu s m gt h em e t b o do f a r t i f i d a lm t c h i g e u c e t h ec o r n b m eo ft h e mw i l lp r o v i d et h es t r o n gd e c i s i o na n a l y z m gf o rr e l a t e d d e p a r t m e n t s m o s to ft h ep r e v i o u st e a c h i n gm a n a g e m e n ts y s t e m sa r et h eo n - l i n et r a n s a c t i o np r o c e 豁m g ( o l t p ) s y s t e m s ,w h i c hh a v en oa b i l i t yo fs u p p o r t i n gs y n t h e t i ca n a l y s i sa n dm a k i n gd e c i s i o n ,a n d m a d e q u a t et ou t i l i z a t i o no f h i d d e nk n o w l e d g ef r o mv a s th i s t o r yd a m la n a l y s i so ft h ed a mi i l t e a c h i n gm a n a g e m e n ti sa l li m p o r t a n tw a yt 0t e a c h i n ge v a l u a t i o n ni sn e c e s s a r yt 0g u a r a n t e et h e q u a l i t yo ft e a c h i n ga n di m p r o v et h es t u f fo fs m d e n t sa n a l y z i n gt l l ed a mm a d ei np r o c e s s e so ft c s t s a n dt e a c h i n ga n dt h e ns u p p o r t i n gt l l et e a c h i n gw i t ht h er e s u l 协 二 t h r o u g hs t u d y i n gt h et i l e o r yo fd a mw a r e h o u s ea n dd a mm m i n g ,a n df i n d i n gt h ec h a r a c t e r i s t i c s o fs n 王d e n t st e s ts c o r e ,t h i sp a p e ru t h e m ,d a mw m e h o u s ea n dn e t l r a n e t w o r k ,o n eo ft h ed a t a m i n i n gt e c h n i q u e s t oa n a l y s i st h ed a t ao ft c a c h m gm a n a g e m e n t 皿i sp a p e ri n t r o d u c e st h en e wt e c h n i q u e s ,d a t aw a r e h o u s e ,a n dd e s i g nt h ed a mw a r e h o u s ea b o u t t h et e a c h i n gm a n a g e m e n ts y s t e m t h e na n a l y z et h ep o t e n t i a lr u l e so fd a mb yu s m gb pn e u r a l n e t w o r k k e y w o r d s :d a mw a r e h o u s e ;t e a c h i n ge v a l u a t i o n ;d a mm i n i n g b pn e u r a ln e t w o r k ;s t i l d e n l s c o r ea n a l y s i s 贵州大学硕士论文数据挖掘在本科教学质量评估的研究与应用 附:学位论文原创性声明和关于学位论文使用授权的声明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究在做出重要贡献的个人和集体,均已在文中以明确 方式标明。本人完全意识到本声明的法律责任由本人承担。 论文作者签名: 垄蔓 日 期: 2 q q 2 生旦 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权贵州大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文弄口汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 做作者虢雄挪馘姓日期:2 q q 芷旦 第一章绪论 第一章绪论 1 1 论文的研究背景 高等教育活动的重要性与高等教育现象的复杂性,凸现了高等教育教学质量研究的必要 性与重要性。进入2 0 世纪9 0 年代,我国高等教育发展形势出现了重大变化。一方面,国内 经济与社会发展状况以及国际形势的挑战对高等教育提出更高要求;另一方面,广丈人民群 众要求接受高等教育的意愿与能力也有了空前的提高。此外,基础教育特别是高中教育有了 长足发展,高等教育自身的改革成果也有了一定的积累。在这种情况下,处于“世纪之交” 的关键时刻,面对突发的亚洲金融危机,我国做出了积极发展高等教育,扩大高等教育规模 的重大决策,高等教育由“控制需求”转向“扩大供给”,标志着我国高等教育开始进入一 个新的发展阶段。 随着“扩招”引发了高等教育系统的“新一轮”重大变革,缓解了长期以来高等教育“供 需矛盾”突出的问题,但同时带来了新的f 司题。高等学校教学质量问题越来越受到社会的关 注和重视,再加上我国高等教育大众化进程的不断加快,如何保证在数量快速扩张的同时, 教学质量不会有所下降,人们也对高等学校教学评价寄予了极大的期望。从本质上讲,高等 学校教学评价工作是对高校整体教学活动的综合评价,是对人才培养全过程实行监控,从而 保证人才培养的质量,对高等学校教学质量进行科学有效的评价,是提高高等学校教学质量 的重要环节之一。高等教育的改革与发展,面临着一系列的难以回避的理论与实践问题,迫 切需要开展攻关研究并做出理性回答。 l 2 国内外研究现状 随着信息化的飞速发展,信息量的超指数上升使传统数据库的检索查询机制和统计学分 析方法已远远不能满足现实的需要。许多数据来不及分析就过时了,也有很多数据因其数据 量极大而难以分析数据问的关系。在这样的背景下,数据仓库和数据挖掘技术便应运而生。 数据仓库的产生和发展为数据挖掘技术提出了新的要求和挑战。数据挖掘的提出使人们能力 认识数据的真正价值,即蕴藏在数据中的信息和知识。数据分析己经和数据仓库的研究结合 起来。为高级的决策支持服务是数据仓库的最终目的,因此数据仓库理论及数据挖掘技术的 研究,自然成为信息科学学术界的热点伺题。 近年来,随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成 一个综合的、面向分析的环境,以更好地支持决策分析,数据仓库( d a t aw a r e h o u s e ,简称 d w ) 正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库 弥补了原有数据库的缺点,将原来以单一数据库为中心的数据环境发展为一种新环境:体系 化环境。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用基 础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性 的任务。 目前,数据挖掘技术在教育层面上的应用己经开始,但并不广泛。浙江大学使用关联规 则嘲发现技术对高校的人事信息库进行挖掘,试图找到影响学科发展的因素,发现如何评价 贵州大学硕士论文 数据挖掘在本科教学质量评估的研究与应用 一个学科,以及影响学科发展的各个要素之间的关系。另外,曲阜师范大学体育系与上海闵 行体委就体育人才的选拔探讨了数据挖掘的可行性。在每年对中小学生的体质调查中,积累 了大量的数据,利用数据挖掘技术,他们试图从数据中深入寻找各种因素的相互联系,发现 一些随诸因素动态变化而产生的新的指导学校体育科研和教学训练的规律,进而发现运动人 才。 神经网络不同于数理统计和微积分等传统数学和物理方法为基础的预测模型,不追求严 格意义上的数学推导和明确的物理意义而更重视对真实现象的拟合效果。教学过程中,影响 教学质量的因素是发展的、动态的,不是恒定不变的,但在长期的教学过程中又有相对稳定 的因素。比如教学计划的安排、同一个教师的教学情况、同一个学生的学习情况,这些都可 以反映在平时的教与学的过程中。而神经网络具有并行结构、自适应自治组织、联想记忆、 较强的容错性的特点和信息处理方法f 1 6 1 3 。因此可以考虑将神经网络应用于教学质量评估系 统中。 采用数据挖掘中的神经网络算法对于学生各科成绩的联系研究正是目前面临的一个值 得研究的新课题。 1 3 本文研究的目的和意义 1 3 1 论文研究的目的 由于教学质量是一个比较复杂的问题,在教学过程中,师生之间关系复杂,影响教学质 量的因素也较多,它由课程安排、教学计划、教学手段、教学方式以及教师要求水平等诸因 素决定,所以它是一个综合标准。通过对教学相关数据的分析希望能衡量高校教学的情况, 并将此信息反馈给相关教师以及有关教学部门,从而达到提高教学质量的目的。 1 3 0 论文研究的意义 教学质量评价是教学质量管理的重要手段,构建科学的,系统的、行之有效的教学质量 评价体系与运行机制,对于加强高校教学质量管理、提高教学质量具有十分重要的意义和作 用。主要体现在以下几个方面: 1 导向作用:是指教学质量评价具有激励评价对象实现教学目标的潜在动力,即能引 导教师努力争取达到预定的教学目标的要求,促进教学过程优化、提高教学质量和办学效益, 有利于教学行政领导决策的科学化。这种导向作用一般是通过在指标体系中增加或减小指标 的权重来实现的。 2 鉴别作用:所谓教学质量评价的鉴别作用,是指通过开展教学评价活动所获得的评 价结果来确实评价对象的教学质量程度或用评价结果来衡量评价对象能达到规定标准的水 平。 3 激励作用:开展教学质量评价可以激发广大教师积极搞好教学的热情,在教师之间 进行横向比较,使教师在竞争中获得动力和活力,为使教师教学质量价真正起到激励作用, 在评价过程中必须做到客观公正,说服力强。 4 反馈作用;将教学质量评价的结果直接反馈到教学活动中,纠正消极因子,使其及 2 第一章绪论 时向好的方向发展。 5 监督作用:教学质量评价工作的顺利进行,可以起到监督各项教学活动的正常运行 和教学活动的质量,以及教学工作安排的合理性和正确性。 1 4 课题的来源 、 鉴于以上对高等学校教学质量评估系统国内外状况的研究分析和具有重大的现实意义, 本文的研究也正是在此基础上,来源于:2 0 0 6 年贵阳市科技局项目“基于数据仓库技术的 教学质量分析与评估系统”( 详情见( 2 0 0 6 ) 筑科字第1 号) 。 基于数据仓库技术的教学质量分析与评估系统分为数据转换模块、数据展示模块、数据 挖掘模块。本人有幸参与了该项目,并负责数据仓库模型设计和数据挖掘算法的选择和实验。 1 5 论文研究的主要内容 目前许多院校及教育部门都有各自的计算机考试系统、教学成绩管理系统等。这些系统, 或多或少实现了对考试数据的基本分析,大致包括及格率分析、试题难度及区分度分析、学 生成绩分布情况等简单的分析。大量的数据只是简单的放在数据库或文件中,有价值的信息 还是被淹没在数据中。因此原有的基于关系数据库的考试分析系统已经不能满足我们的需 求,尤其在进行复杂的查询时查询的结果上差强人意。为了改善以上存在的一些问题,本文 主要从以下几个方面进行了讨论: 1 为了提取有效数据信息引入数据仓库技术,在第二章中对数据仓库的概念及其模型 建立的过程做了详细的研究分析。 2 对存在的各种教学数据进行了数据仓库的设计,尤其是对学生成绩进行维表、事实 表分析。 3 数据挖掘技术介绍。 4 讨论了神经网络的特点并着重介绍b p 神经网络。 5 通过b p 神经网络预测学生成绩,运用m a t l a b 工具进行仿真实验,并得出实验结果, 以达到教学质量评估的目的。 3 第二章数据仓库技术 第二章数据仓库及数据挖掘技术 由于随着高校教学质量需要进一步完善,为了解决在教学过程及管理中存放的大量数据 只是简单的放在数据库或文件中,对于有价值的信息却被淹没在数据中。例如:基于关系数 据库的考试分析系统已经不能满足我们的需求等。这就需要有效的工具把这些有用的数据信 息有效地组织、存储和分析等。该项目是以贵州大学电信学院历年的教学数据作为研究对象, 在调查过程中发现这些教学数据比较分散。为了有效的使用这些数据,需要将数据进行集中 后进行分析和处理。数据仓库、数据挖掘技术却能很好地解决存在的一些问题。近年来数据 仓库、数据挖掘技术也是数据处理领域的热点。 因此,在本章中将简单介绍数据仓库技术的基本概念、数据仓库模型设计和数据库仓库 的数据模型、数据挖掘技术等内容。尤其是对数据仓库模型设计的三个阶段做了较为详细的 分析研究。 2 1 数据仓库技术简介 数据仓库是近年来兴起的一种新的数据库技术。自从数据仓库概念出现以来,不同的学 者从不同的角度为数据仓库下了不同的定义。现在,业内普遍认同的数据仓库的定义是w h i n m o n 博士于2 0 世纪9 0 年代初给出的。数据仓库吧,一个面向主题的、集成的、随时间 变化的,用于支持管理人员决策过程的数据集合。w i - l l n m o n 认为,数据仓库是2 0 世纪9 0 年代信息技术体系结构中的一个重要组成部分,是数据库产业发展的重点。 2 1 1 数据仓库的特征 数据仓库中的数据其有以下基本特征州: 1 ) 面向主题( s u b j e c t - o r i e n t e d ) 传统的事务处理系统使用单独的应用程序分别存储数据。数据仓库中的数据是厩向主题 的。主题是一个抽象的概念,是在较高层次将企业信息系统中的数据综合归类并进行分析利 用的抽象。主题是企业决策者进行决策所关心的业务的重点方向,不同类型的公司主题是不 同的。面向主题的数据组织方式是在较高层次上对分析对象的一个完整的、一致的描述,能 够完整统一的描述各个分析对象所涉及的各项数据及数据之间的关系。 劲集成化( i n t e g r a t e d ) 数据仓库的数据是从多个分散的数据库数据中提取出来的,数据源来自不同的事务处理 系统、文件。这些数据是进入数据仓库是需进行转换、统一和综合数据。集成化是对操作型 数据进行清理和归整的结果,而不是简单的归并和拷贝。 3 ) 时间特性( t r i n e ) 数据仓库中的数据不仅是关于企业某一时点的信息,而是记录了企业有效的历史数据, 以用于决策。数据仓库以时间为基准来管理数据,允许用户回顾并了解公司的过去和现在。 4 1 稳定性( s t e a d y ) 数据仓库的数据主要是为企业决策分析提供依据。一般情况下并不对数据进行修改,数 据仓库的数据是不同时间数据库数据快照将企业信息系统中的数据综台、归类并进行分析利 用的抽象。 5 ) 动态数据( d y n a m i c ) 4 贵州大学硕士论文数据挖掘在本科教学质量评估的研究与应用 数据仓库的数据必须不断捕捉o u 甲数据库中的数据变化,经统一集成后增加到数据仓 库中形成历史数据:另外数据仓库中的数据超过储存期限后需要删除。数据仓库内大量的综 合数据都与时间有关,这些数据需要随时问变化不断进行重新综合。 2 1 0 数据仓库与数据库的关系 数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要 而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不 同昵? 数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数 据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意 引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据丽设计,它的两个基本的元素是维 表和事实表。维是看问题的角度,比如时间,部门,关系维表放的就是这些东西的定义,事 实表里放着要查询的数据,同时有维的m 。 单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。 以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库, 被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它 从事务系统获取数据,并徽汇总、加工,为决策者提供决策的依据。比如,某银行某分行一 个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地 区就有必要设立越m 了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这 就要求时效性,客户存一笔钱需要几十秒是无法忍受的。这就要求数据库只能存储很短一段 时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海 量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。 数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理 系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 简而言之,数据库操作型数据和数据仓库分析型数据的区别如表2 , 1 所示。 表2 1 数据库操作型数据和数据仓库分析型数据的区别比较分析 操作型数据的特点分析型数据的特点 数据内容 当前值存档的、推导出来的、总结的值 数据结构适于事务处理适用于复杂查询 访问频率高中、低 访问连接类型读取、更新、删除读取 使用方法可预知的、反复性的特别查询、随机的、启发式的应用 响应时间一秒以下几秒到几分钟 5 第二章数据仓库技术 2 1 3 致据仓库的体系结构 一般的数据仓库系统通常由数据仓库、仓库管理和分析工具三个部分组成其结构形式如 图2 1 所示。 圈2 1 ;数据仓库的体系结构 在数据仓库体系中,数据的流程从后台处理的源数据开始,经过中间的存储管理、应用 分析,到前台的用户访问工具结束,下面沿着数据流向详细说明数据在数据仓库处理的过程, 以及一些关键名词。 1 、源数据 源数据包括内部数据、存档数据和外部数据。内部数据、存档数据来自于系统内部,比 如内部管理系统数据库和数据文件中的数据。外部数据是指与分析主题相关的数据,如企业 市场调查与分析等数据。 2 、数据准备 数据准备部分由三个工作程序组成。这三个主要工作程序就是抽取、转换和装载。数 据的提取是数据进入仓库的入口,从数据仓库的角度来看,并不是数据库中所有的数据都进 入数据仓库,而是根据系统分析主题的需要,确定所要提取的数据。如我们要分析考生的成 绩,则数据库中关于考生的基本属性就不需要进入数据仓库。同时由于数据库产品的不同以 及各个应用系统数据格式可能不同,使得各业务数据库中的数据存在不一致的现象,建立数 据仓库时,需要将格式不致的数据转换成统一的格式。这就需要对每一个不同来源的数据进 行清洗和转换,保证决策支持系统的正确性。当我们结束了设计和建设数据仓库的工作后必 须将数据装载到数据仓库中。 3 、数据存储 数据仓库存储是指用于存放数据仓库数据和元数据的存储空间。数据仓库的数据存储与 操作型系统的数据存储是分离的。数据仓库中存放的是整个企业的信息,并且数据是按照不 6 贵州大学硕士论文数据挖掘在本科教学质量评估的研究与应用 同的主题来组织的,比如财务分析的主题主要由财务部门的人员使用,我们可以将这部分数 据逻辑上或者物理上分离出来,当财务部门使用数据时,不需要到数据仓库的巨大数据中检 索,而只需在财务数据上进行分析,我们把这种面向某个主题而在逻辑上或物理上划分出来 的数据仓库中的数据子集称为数据集市。 4 、信息传递 数据仓库展现主要由一些分析工具组成,主要包括检索查询工具、多维数据的o l a p 分析工具、统计分析以及数据挖掘工具等。数据仓库展现部分能提供强大的多用户数据操作 引擎,供前端分析决策人员访问数据,不但提供查询、汇总、统计等功能,还支持数据比较、 趋势分析、模式识别等深入分析、挖掘功能。 5 、元数据 数据仓库的元数据与数据库管理系统中的数据字典或数据目录相似。是数据仓库本身信 息的数据。主要分为三类元数据:操作型元数据、抽取和转换元数据、最终用户元数据。 2 2 数据仓库的模型设计技术 数据模型的构造无疑是数据仓库建设过程中最关键的一步。它决定了数据仓库所能够进 行的分析类型、分析的细致程度、分析的效率以及响应时间。另一方面,不同的模型会导致 不同的存储空间以及数据更新策略,并直接影响着数据仓库项目的投资。也就是,数据仓库 模型的好坏,决定了数据仓库项目的成功与否。目前,主流的数据仓库建模技术分为两种: 实体关系建模以及维度建模。其中,维度建模又分为星型结构以及雪花结构等。 2 2 1 实体关系建模 实体关系建模( e n t i t y - r e l a t i o n s h i pm o d c l i n g ) 通过两个概念( “寒体”和“关系”) 构造特 定的数据模型。实体关系模型是一种抽象的工具,能够简化企业中复杂的数据关系,并把它 用规范的方式表示出来,使其易于理解。 ( 1 ) 实体 一个实体表示一个现实和抽象的事物的集合,这些事物必须具有相同的属性。一个集合 的某个特定的元素称为这个实体的一个“实例。 ( 2 ) 属性 属性表示一类现实或抽象的事物的特征或者性质。属性和具体的实体相联系。 ( 3 ) 关系 关系连接多个实体,描述相关实体的相互作用关系。 范式 范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行 无损分解,这个过程也称为规范化( n o r m a l i ) 。在数据仓库的模型设计中目前一般采用第三 范式。它有非常严格的数学定义。如果从其表达的含义来看,一个符合第三范式的关系必须 具有以下三个条件: ( 1 ) 每个属性的值唯一,不具有多义性; 7 第二章数据仓库技术 ( 2 ) 每个非主属性必须完全依赖于整个主键,而非主键的一部分; ( 3 ) 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其 他关系中去。 我们可以看到,第三范式的定义基本上是围绕主键与非主属性之间的关系而做出的。如 果只满足第一个条件,则称为第一范式;如果满足前面两个条件,则称为第二范式,依此类 推因此各级范式是向下兼容的根据数据仓库的测试标准t p c - d 规范,在数据仓库系统中, 对数据库引擎最大的挑战主要是这样几种操作:多表连接、表的累计、数据排序、大量数据 的扫描。下面列出了一些d b m s 在实际系统中针对这些困难所采用的折衷处理办法: ( 1 ) 如何避免多表连接:在设计模型时对表进行合并,即所谓的预连接( p r e - j o i n ) 当数据 规模小时,也可以采用星型模式,这样能提高系统速度,但增加了数据冗余量。 ( 2 ) 如何避免表的累计:在模型中增加有关小计数据( s u m m a r i z e dd a t a ) 的项。这样也增 加了数据冗余,而且如果某项问题不在预建的累计项内,需临时调整。 ( 3 ) 如何避免数据排序:对数据事先排序。但随着数据仓库系统的运行,不断有新的数 据加入,数据库管理员的工作将大大增加。大量的时间将用于对系统的整理,系统的可用性 随之降低。 ( 4 ) 如何避免大表扫描:通过使用大量的索引,可以避免对大量数据进行扫描。但这也将 增加系统的复杂程度,降低系统进行动态查询的能力。 这些措施大都属于不规范处理。不规范化处理虽然是提高系统性能的一种有效手段,但 是由于中央数据仓库的数据模型反映了整个企业的业务运行规律,在这里进行不规范处理容 易影响整个系统,不利于今后的扩展。而且不规范处理产生的数据冗余将使整个系统的数据 量迅速增加,这将增加数据库管理员的工作量和系统投资。因此,当系统性能下降而进行不 规范处理时,比较好的办法是选择问题较集中的部门数据集市实施这种措施。这样既能有效 地改善系统性能又不至于影响整个系统。在国外一些成功的大型企业级数据仓库案例中,基 本上都是采用这种方法。 2 2 2 维度建模 维度建模剐针对相对独立的业务创建有针对性的分析模型。例如,销售信息可以创建 为一个模型,库存可以创建为另一个模型,而客户账户也可以创建为另一个模型。每个模型 捕获事实数据表中的事实,以及事实在链接到事实数据表的维度表中的特性。由这些排列产 生的结构称为星型结构、雪花型结构和事实星座。这些模型已经被证明在查询和分析方面有 很高的性能,因此成为数据仓库的典型逻辑结构。 星型结构模式 星型结构模式是一种多维的数据关系,由一个事实表( f a c t t a b l e ) 和一组维表( d i m e n s i o n t a b l e ) 组成。每个维表都有一个维作为主键,所有这些维组合成事实表的主键。事实表的非 主属性称为事实( f a c t ) ,它们一般都是数值或其他可以进行计算的数据;而维大都是文字、 时间等类型的数据。星型结构如图2 2 所示。 8 贵州大学硕士论文数据挖掘在本科教学质量评估的研究与应用 图2 2 :星型结构 事实表( f a c t t a b l e ) :它是数据仓库架构中的中央表,包含联系事实与维表的数字度量值 和键。事实数据表包含描述业务( 如订单金额或订单费用) 内特定事件的数据。 维表( d i m e n s i o nt a b l e ) :它是数据仓库中的表,其条目描述事实数据表中的数据。维表 包含创建维度所基于的数据。 雪花型模式 雪花型模式”是一种将星型模式维度表规范化的方法,由多个表定义一个或多个维度。 在雪花架构中,只将主维度表与事实数据表连接。其他维度表连接到主维度表。主维度表 ( p r i m a r yd i m e n s i o nt a b l e ) 是与事实数据表直接相关,完成维度定义的其他表连接到主维度 表,而不连接到事实数据表。雪花型模式如图2 3 所示。 圈2 3 :雪花型模式 星型模式族 复杂的应用可能需要多个事实表共享维表,这种模式可以看作星型模式集。一组相关的 星型模式称为星型模式族。 星型模式和雪花模式的比较 在星型模式中,每个维度表都有一个由一些部分组成的主键,该主键连接到事实数据表 中由多个部分组成的主键的一部分。在雪花型模式中,一个或多个维度表分解为多个表,每 个表都有连接到主维度表而不是事实数据表的相关性维度表,在维度很多的情况下可以节省 存储空间,并使复杂维度的层次结构清晰。在大多数设计中,星型模式比雪花型模式更可取, 因为前者包含的用于信息检索的连接更少,并且更容易管理。 2 2 3 实体关系建模与维度建模的比较 联机事务处理系统能捕捉事件或交易的详细信息,关注独立事件,是一个通向微观交易 的窗口。能反应运行业务所需的细节问题。操作型系统的数据具有数据一致性,因而非冗余 9 第二章数据仓库技术 和高效的数据存储是重要的。而数据仓库系统具有和联机事务处理系统不同的特点。数据仓 库需要回答全局问题。反映商业趋势。数据仓库系统得数据是围绕商业流程来组织的。通过 维度可以衡量业务情况。 符合第三范式的实体关系模型数据冗余较小,但对于分析类的查询反应较慢。而多维模 型数据量冗余较大,但是对于特定查询反应很快大多数人在设计中央数据仓库的逻辑模型 对,都按照第三范式来设计;而在进行物理实施时,则由于数据库引擎的限制,不得不对逻 辑模型进行不规范处理( d e - n o r m a l i z e ) ,以提高系统的响应速度,这当然是以增加系统的复 杂度、维护工作量、磁盘使用比率( 指原始数据与磁盘大小的比率) ,并降低系统执行动态查 询能力为代价的。 星型模式中有一个事实表和一组维表,我们可以把事实看成是各个维交叉点上的值。星 型模式之所以速度快,在于针对各个维作了大量的预处理,如按照维进行预先的统计,分类、 排序等。因此,在星型模式设计的数据仓库中,作报表的速度虽然很快,但由于存在大量的 预处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时, 需要增加新的维。由于事实表的主键由所有维表的主键组成,这种维的变动将是非常复杂、 非常耗时的。星型模式另一个显著的缺点是数据的冗余量很大。综合这些讨论,不难得出结 论,星型模式比较适合于预先定义好的问题加需要产生大量报表的场合;而不适合于动态查 询多、系统可扩展能力要求高或者数据量很大的场合。因此,星型模式在一些要求大量报表 的部门数据集市中有较多的应用。 葱之,实体关系建模能去除数据冗余、确保数据的一致性、表达微观关系。而维度建模 能捕捉关键指标,可以通过维度显示业务情况。商业用户能通过维度进行建模。 通过对o l t p 系统和数据仓库系统、实体关系建模和维度建模的特点比较,可以看出实 体关系建模适合o l t p 系统,而维度建模适合数据仓库系统。 2 3 数据仓库的数据模型 所谓数据模型就是对现实世界进行抽象的工具,抽象的程度不同,也就形成了不同抽象 级别的数据模型i l ,】。数据仓库模型是数据结构的典型表现,是总体数据结构的一部分,为 计划和设计新的信息系统或建立数据仓库提供了基础。与操作型数据库数据模型的特点相 比,数据仓库的数据模型中不包含操作型的数据,但扩充了码结构,增加了时间属性作为码 的一部分,同时也增加了一些导出数据。 数据仓库建模是构建数据仓库的重要组成部分,大约占整个工作量的8 0 。怎样设计数 据模型,一直是困扰数据仓库开发人员的问题。要进行建模,晟基础也是最重要的就是要掌 握正确、有效的建模方法与技术,并明确用户需求,按照建模方法所提供的步骤,用建模技 术将用户的需求,逐层次地细化与实施。 一般说来,在数据仓库开发过程中,数据模型具有三个不同的层次:概念模型、逻辑模 型、物理模型。每一个层次实质上是一种前面所开发的数据模型的耩炼或更加详细的表达。 在设计期间,通过多层次的细化,建立与用户需求更加一致的面向主题的数据仓库。三级模 1 0 贵州大学硕士论文 数据挖掘在本科教学质量评估的研究与应用 型的结构如图2 4 所示。 髑2 4 :兰级模型的结构 2 3 1 概念模型设计 进行概念模型设计所要完成的工作f 4 ”堤: 界定系统边界 确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行较明确的数据 仓库建模技术的相关应用的描述,描述的内容包括: 主题域的公共码键: 主题域之间的联系: 充分代表主题的属性组。 2 3 2 逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对 系统的物理实施有着重要的指导作用【1 4 1 。在这一步里进行的工作主要有: 分析主题域,确定当前要装载的主题; 粒度层次选择; 合理化表结构: 关系模式定义; 精炼表中的数据; 记录系统定义 逻辑模型设计的成果是:对每个当前要装载的主题的逻辑实现进行定义,并将相关内容 记录在数据仓库的元数据中,包括: 适当的粒度划分; 合理的数据分割策略: 适当的表划分: 定义合适的数据来源等。 2 3 3 物理模型设计 这一阶段主要是确定数据的存储结构、存储策略、数据存放位置、存储分配刚。确 定数据仓库实现的物理模型;必须要全面了解所选用的数据库管理系统,特别是存储结构和 存取方法:了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等。这 些是对时间和空间效率进行平衡和优化的重要依据;了解外部存储设备的特性,如分块原则、 块大小的规定、设备的阳特性。 1 确定数据的存储结构 一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储结构有不同 的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个 方面的主要因素:存取时间、存储空间利用率和维护代价。 z 确定索引策略 贵州大学硕士论文 数据挖掘在本科教学质量评估的研究与应用 在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最 高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的, 因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价。 3 确定数据存放位置 同一个主题的数据并不要求存放在相同的介质上。在物理设计时,我们常常耍按数据的 重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的 存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上, 如硬盘:存取频率低或对存取响应时问要求低的数据则可以放在低速存储设备上,如磁盘或 磁带。 数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表;是否对一些经 常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。如果采用了这些 技术,就要记入元数据。 4 确定存储分配 许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:块的 尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这同创建数据库系统时的考 虑是一样的。 2 4 数据挖掘技术 2 4 1 数据挖掘定义 数据挖掘技术的定义是w j f r a w l e y ,g p i a t e t s k y s h a p i r o 等人提出的肼【3 5 1 1 6 1 :数据挖掘 就是从大量的数据中发现隐藏于其后的规律或数据问的关系,为决策提供支持。还有很多和 这一术语相近的术语,如从数据库中发现知识任d ) 、数据分析、知识抽取、模式分析、数 据考古、数据采集、信息收割、商业智能、数据融合以及决策支持等。国内的学者也把d a t a m i n i n g 译为数据采掘或数据开采。人们把原始数据石作是形成知识的源泉,就像从矿石中 采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文 术、图形、图像数据,甚至是分布在网络h 的异构型数据。发现知识的方法可以是数学的, 也可以是非数学的:可以是演绛的,也可以是归纳的。发现了的知识可以被用于信息管 理、查询优化、决镱支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一 门广义的交叉学科,它汇聚了不同领域的知识,尤其是数据库、人工智能、数理统计、可视 化、并行计算等。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的 简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理, 以指导实际问题的求解。企图发现事件间的相互关联,甚至利用己有的数据对未来的活动进 行预测。例如加拿大b c 省电话公司要求加拿大s i m o nf r a s e r 大学k d d 研究组,根据其拥 有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有 利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高 第二章数据仓库技术 到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时需要指 出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新 的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是 有特定前提和约束条件、面向特定领域的,同时还耍能够易于被用户理解,最好能用自然语 言表达发现结果。因此k d d 的研究成果是很讲求实际的。 数据挖掘所能发现的知识有如下几种f 4 1 】:广义型知识,反映同类事物共同性质的知识; 特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识; 关联型知识,反映事物之间依赖或关联的知识;预铡型知识,根据历史的和当前的数据推测 未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念 层次上被发现,随着概念树的提升,从微观到宏观,以满足不同用户、不同层次决策的需要。 例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾 客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发 和实施客户化的销售计划和策略是非常有用的。 2 4 2 数据挖掘的任务 数据挖掘的任务通常可以分为两大类冽: ( 1 ) 预测型任务:目标是基于别的其它属性的值来预测一个特定属性的值。 ( 2 ) 描述型任务:其目标是抽取模式( 相关、趋势、聚类、轨迹和孤立点) 以归结 出数据中潜在的关系。 有四种核心的数据挖掘任务:关联分析、聚类分析、预测模型( 分类、回归) 、 异常检测( 偏差分析) ,其它的方法包括时序模式等。 l 关联分析( ( a s s o c i a t i o na n a l y s i s ) 关联规则挖掘是由r a k e s h a g r a w a l 等人首先提出的。两个或两个以上变量的取 值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可 波发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出 数据库中隐藏的关联网。一般用支持度和置信度两个阀值来度量关联规则的相关 性,有些情况下还需要引入兴趣度、相关性等参数。使得所挖掘的规则更符合需求。 一 聚类分析( c l u s 细 i n g ) “物以类聚,人以群分”,聚类就是把数据按照相似性归纳成若干类别, 类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念, 数据的分布模式,以及可能的数据属性之间的相互关系。 预测模型 分类( c l a s s i f i c a t i o n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论