(计算机软件与理论专业论文)数据挖掘技术在学生成绩分析中的研究及应用.pdf_第1页
(计算机软件与理论专业论文)数据挖掘技术在学生成绩分析中的研究及应用.pdf_第2页
(计算机软件与理论专业论文)数据挖掘技术在学生成绩分析中的研究及应用.pdf_第3页
(计算机软件与理论专业论文)数据挖掘技术在学生成绩分析中的研究及应用.pdf_第4页
(计算机软件与理论专业论文)数据挖掘技术在学生成绩分析中的研究及应用.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机软件与理论专业论文)数据挖掘技术在学生成绩分析中的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 数据仓库和数据挖掘技术是信息技术研究的热点问题之目前数据挖掘技 术在商业,金融业以及企业的生产、市场营销等方面都得到了广泛的应用,而在 教育领域的应用相对较少,随着高校招生规模的扩展,在校生人数越来越多,学 生成绩分布越来越复杂,除了传统的学生成绩分析得到的一些结论外,还有一些 不易察觉的信息隐含其中,因而把基于数据仓库的数据挖掘技术引入到学生成绩 分析中,可以找到影响学生成绩的真实原因,有利于有针对性地提高教学质量。 本文在对数据仓库和数据挖掘知识透彻理解的基础上,首先,介绍了数据仓 库和数据挖掘的基本理论;其次,阐述了数据挖掘中关联规则和聚类分析的基本 算法;再次,建立基于学生成绩的数据仓库,包括对学生成绩数据仓库的结构设 计,模型设计及数据的抽取、转化和加载;最后通过对数据挖掘中的关联规则和 聚类算法进行深入研究,对算法进行改进,并把改进的算法应用于所建立的学生 成绩数据仓库中。通过对学生成绩数据仓库进行深入的分析和合理的归纳,可以 挖掘出大量的、有价值的数据信息,比如在同一门课程中,我们可以得出的什么 样的知识点适合出什么样的题型,分析出知识点之间的影响程度;并且在不同的 课程中,可得到相关课程之间不同知识点的影响程度以及分析出不同职称的教师 在不同课程中的教学效果等等。这些分析必将对教学工作的开展与改进有着重要 的指导意义。 关键词:数据挖掘;数据仓库;关联规则;聚类 英文摘要 t h er e s e a r c ha n da p p l i c a t i o no f d a t am i n i n g t e c h n o l o g yi n a n a l y s i sf o rs t u d e n t s p e r f o r m a n c e a b s t r a c t t h et e c h n o l o g yo fd a t aw a r e h o u s e & d a t am i n i n gi so n eo ft h eh o ti s s u e si nt h e i n f o r m a t i o nt e c h n i q u ef i e l d n o w a d a y sd a t am i n i n gt e c h n o l o g yi sw i d e l yu s e di n b u s i n e s s ,f i n a n c e ,p r o d u c i n ga n dm a r k e t i n g b u ti ti sl e s su s e di ne d u c a t i o nf i e l d w i t h t h ei n c r e a s eo fe n r o l h n e n ti nu n i v e r s i t i e s ,t h e r ea l em o r ea n dm o r es t u d e n t se n t e r i n g c a m p u s a n dt h a tm a k e si tm o r ea n dm o r ec o m p l e xi nt h ed i s t r i b u t i n go fs t u d e n t s r e c o r d s b e s i d e st h es o m ec o n c l u s i o n sf r o mt r a d i t i o n a lr e c o r da n a l y s i s ,al o to f p o t e n t i a l i n f o r m a t i o nc a n n o tb ef o u n d e d i m p o r t i n gt h ed a t am i n i n gt e c h n o l o g yt os t u d e n t s r e c o r da n a l y z i n g ,i sm o r ec o n v e n i e n tt of r e dt h ea c t u a lr e a s o no fa f f e c t i n gs t u d e n t s r e c o r d sa n di m p r o v et h et e a c h i n gq u a l i t y t h i sp a p e ri sb a s e do ng o o dc o m p r e h e n s i o no nd a t aw a r e h o u s ea n dd a t am i n i n g k n o w l e d g e f i r s t l y ,i ti n t r o d u c e st h eb a s i ct h e o r yo ft h e m s e c o n d l y ,i te x p o u n d st h e b a s i ca r i t h m e t i co fa s s o c i a t i o nr u l em i n i n ga n dc l u s t e f i m g 吼a l y s i s t h i r d l y ,i tc r e a t e s t h ed a t aw a r e h o u s ef o rt h es t u d e n t s p e r f o r m a n c e ,i n c l u d i n gt h es t r u c t u r ed e s i g n i n g , m o d e l m ga n dt h ee x t r a c t i o n , t r a n s f o r m a t i o na n dl o a d i n gf o rt h ed a t a l a s t l y ,t h r o u g h d e e pr e s e a r c ho nt h ea r i t h m e t i co fa s s o c i a t i o nr u l em i n i n ga n dc l u s t e r i n ga n a l y s i s ,t h e p a p e ri m p r o v e di ta n dp u tt h e mi n t ot h em i n i n g i nc o n c l u s i o n , b a s e do nd e e p l ya n a l y s i s a n dr e a s o n a b l ec o n c l u s i o n ,p l e n t yo fv a l u a b l ei n f o r m a t i o ni sf o u n d f o re x a m p l e , w h a t k i n do fk n o w l e d g ep o i n ti sp r o p e rf o rw h a tt y p eo fq u e s t i o n s ,h o wk n o w l e d g ep o i n t s i n f l u e n c ee a c ho t h e ra n dt h ei n f l u e n c eb e t w e e nd i f f e r e n tc o u r s e s ,a n ds e et h et e a c h i n g e f f e c to f d i f f e r e n tt e a c h e r sb e t w e e nd i f f e r e n tc o u r s e s a l lt h e s ea n a l y s i sw i l lh a v eg r e a t e f f e c t so nt h ep e r f o r m i n ga n di m p r o v i n go f t e a c h i n g k e yw o r d s :d a t am i n i n g ;d a t aw a r e h o u s e = a s s o c i a t i o nr u l e = c l u s t e r i n g 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文 :数握控塑蕉苤垄堂生盛绩公扳主的硒塞丛廛旦:。除论 文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在 文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经 公开发表或未公开发表的成果。 本声明的法律责任由本人承担。 论文作者签名:赵辉 劢孵3 月j 日 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位 论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或 扫描等复制手段保存和汇编学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于:保密口 不保密( 请在以上方框内打“”) 论文作者签名:赵辉导师签名:例 日期:硼r 年3 月7 7 日 数据挖掘技术在学生成绩分析中的研究及应用 第1 章绪论 1 1 课题背景及选题意义 数据挖掘技术在商业、金融业以及企业的生产、市场营销等方面都得到了广 泛的应用,而在教育领域应用相对较少。近年来随着高校的不断扩招,学生人数 大幅度增加,给高校学生管理、教学工作带来了严峻的考验,传统的教学管理手 段已逐渐不能适应社会的发展。 现阶段高校中对学生信息、成绩等数据的处理一般还停留在简单的数据库管 理和查询阶段,不能发挥其应有的作用。以学生成绩为例,教师对学生成绩的分 析处理一般仅仅是统计成绩为优、良、一般、差等级别的人数,对于学生取得这 些成绩的原因往往无法了解。如何开发利用这些数据,理性地分析教学中的各方 面的成效得失是广大教师共同关心的问题。如果能够找到影响学生学习成绩的因 素,必然有利于教学质量的提高。 目前在学校的本科教学数据库中存放着历届学生的各科考试成绩,海量的数 据只是单纯的记载了数据信息,却很难直观的从这些数据中发现其背后所隐藏的 信息。然而事实上,无论是课程与课程之间,还是每门课程中的知识点之间,以 及学生的成绩与课程的设置之间都存在着千丝万缕的联系。现阶段已有的数据并 没有发挥其真正的价值,为了解决这一问题,可以利用数据挖掘技术对这些数据 进行合理的利用和深层的分析,从而更好的指导教师在教学中的工作。 本文的工作就是基于这样一个背景下展开的。以高校学生的成绩为应用背景, 建立学生成绩数据仓库,利用数据挖掘技术对所建立的数据仓库进行深入的分析, 以得出有用的结论,用来更好的指导教学。 1 2 数据挖掘的发展历史及国内外研究现状 随着计算机与网络技术的快速发展,存在于人们身边的信息越来越多,这些 信息的存在给人们带来方便的同时,也带来了许多新的问题。如信息的消化闯题、 信息的辨识问题、信息的安全问题、信息的形式问题等。另方面,随着数据库 第l 章绪论 技术的成熟以及数据库管理系统的广泛应用,人们积累的数据越来越多,而且随 着因特网( i n t c m e t ) 的出现和发展,人们可以在网上交换数据信息和协同工作。 这样,展现在人们面前的是浩瀚无垠的信息海洋。激增的数据背后隐藏着许多重 要的信息。人们希望能够对其进行更深入的分析,以便更好地利用这些数据。目 前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数 据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数 据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。人们开始考 虑如何从海量的信息中发现有用的知识,提高信息的利用率。面对这挑战,数 据挖掘( d a t am i n i n g ,简称d m ) 技术应运而生,并显示出强大的生命力。 数据挖掘( d m ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程【l 刃。数据挖掘技术的应用领域十分广阔,它可以从关系数据库、数据 仓库、文本和多媒体数据库、事务数据库和互联网等各种数据源上设法获取诸如 分类模型、聚类模型、回归模型、关联模型和时闯序列模型等多种知识模型1 3 , 4 。 可以说,数据挖掘技术应用十分的广泛。目前,数据挖掘技术在货篮数据分析、 金融风险预测、产品质量分析、电信、分子生物学、基因工程研究、i n t e m , t 站点 访问模式发现以及信息搜索等领域得到了广泛的应用【5 l 。 数据挖掘是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某 些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过 程就是将些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习 这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一 类的问题。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程, 知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给 计算机输入己被代码化的规则,计算机是通过使用这些规则来解决某些问题。专 家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。8 0 年 代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成 果应用于处理大型商业数据库。8 0 年代末,一个新的术语一数据库中的知识发 数据挖掘技术在学生成续赍柝中的研究及应甩 现( k d d ) 出现,人们接受了这个术语,并用k d d 来描述整个数据挖掘的过 程,包括最开始的制定业务目标到最终的结果分析,而数据挖掘( d m ) 则是描述 使用挖掘算法进行数据挖掘的予过程嘲。 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联 合人工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研讨 会已经召开了多次,规模由原来的专题讨论会发展到国际学术大会,研究重点也 逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科 之间的相互渗透。i e e e ( i n s t i t u t ef o re l e c t r i c a la n de l e c t r o n i ce n g i n e e r s ) 、a c m ( a s s o c i a t i o nf o rc o m p u t i n gm a c h i n e r y ) 等其它学会、学刊也纷纷把数据挖掘与知 识发现( d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y ,d m k d ) 列为会议议题或出版专 刊。成为当前国际上的一个研究热点。 到目前为止,对关系数据库和事务数据库进行数据挖掘和知识发现的研究已 经取得了一定的进展,最有影响的发现算法有:加拿大s i m o nf r a s e 大学j h a n 教 授的概念树提升算法、i b m 的r a g r a w a l 的关联算法、澳大利亚的j r q u i n l a n 教 授的分类算法、密西根州立大学e r i c kg o o d m a n 的遗传算法等。m m 、g t e 、s a s 、 m i c r o s o f t 、s i l i c o ng r a p h i c s 、i n t e g r a ls o l u t i o n s 、t h i n k i n gm a c h i n e s 、d a t a m i n d 、u r b a n s c i e n c e 、a b t e c h 、u n i c a t e c h n o l o g i e s 等公司,相继开发出一些实用的k d d 商业 系统和原型系统,如市场分析用的b e h a v i o r s e a n ,e x p l o r e r ,m d t ( m a n a g e m e n t d i s c o v e r yt 0 0 1 ) ,金融投资领域的s t o c ks e l e c t o r ;a i ( a u t o m a t e di n v e s t o r ) ,欺 诈预警用的f a l c o n ,f a i s ,c l o n e d e t e c t o r 等。 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。目前,国内从 事数据挖掘研究的人员主要集中在大学,也有一部分在研究所或公司。所涉及的 研究领域很多,一般集中于算法的研究、数据挖掘的实际应用以及有关数据挖掘 理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然 科学基金、8 6 3 计划、“九五”计划、“十一五”计划等,但至今还没有关于国内 数据挖掘产品的报道。国内企业运用数据挖掘技术来协助业务活动的应用还处于 第l 章绪论 起步阶段,成功应用的案例还比较少,对数据挖掘技术和工具的研究人员以及开 发商来说,我国是一个有巨大潜力的市场。 1 3 数据挖掘技术在教育领域中的研究现状及意义 数据挖掘技术在商业、金融业以及企业的生产、市场营销等方面都得到了广 泛的应用,而在教育领域的应用相对较少,高校中对学生信息、成绩等数据的处 理一般还停留在简单的数据的备份和查询阶段。 从教学信息技术角度看,数据挖掘是一种崭新的教学信息处理技术,其主要 作用是对教学数据库中的大量数据进行抽取、转换、分析和其它模型化处理,从 中提取出辅助教学决策的关键性数据。数据挖掘更主要是为教学决策提供真正有 价值的信息,进而获得更好的教学效益。但很多学校面临的一个共同问题是:学 校数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的教学数据 中经过深层分析,获得有利于教学决策、促进教学发展的有价值的信息。 近年来随着高校的不断扩招,学生人数大幅度增加,给高校学生管理、教学 工作带来了严峻考验,传统的教学管理手段已逐渐不能适应社会的发展。随着数 据挖掘技术的成熟及应用领域的不断扩展,不少高校研究人员己经开始研究将数 据挖掘技术应用于高校的教学、管理中【佃】。例如,将数据挖掘技术应用于学生信 息管理、高校的教学评估、学生成绩分析及考试系统中,对提高学校教学管理水 平起到了很好的指导作用【1 0 4 2 1 。 1 4 本文的研究内容及论文结构 高等学校多年来的教学和管理工作积累了大量的数据,目前这些数据还未能 得至有效利用,只是一个待开发的“宝藏”。鉴于社会对高等学校发展的需求和 目前高校数据管理现状,利用这些数据理性地分析学校各方面工作的成效以及学 生培养过程中的得失变得十分重要【l l 】。 本文主要研究在高校扩招、师生比过大的教学条件下,教师如何利用丰富的 信息资源,采用数据挖掘技术,获得辅助决策知识,指导教学,从而进一步提高 教学质量。 数据挖掘技术在学生成绩分析中的研究及应用 论文结构: 第一章绪论。主要介绍了本论文的课题背景和选题意义,综述了数据挖掘的 理论渊源、发展现状以及国内外数据挖掘的发展情况。 第二章数据仓库和数据挖掘技术。主要介绍数据仓库和数据挖掘的基本知 识、数据挖掘的过程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常用技 术和方法。 第三章关联规则和聚类分析。分别对关联规则和聚类分析进行概述和各自算 法的介绍。 第四章学生成绩数据仓库的建立。通过对数据仓库结构设计、模型设计及数 据的抽取、加载、转换来建立学生成绩数据仓库。 第五章学生成绩数据挖掘。利用改进的关联规则和聚类分析对学生成绩数据 仓库进行数据挖掘。 总结。阐述了本人在论文研究阶段的工作、论文的创新点、并对数据挖掘技 术在高校教学管理中的进一步研究进行分析和展望。 第2 章数据仓库和数据挖掘技术 第2 章数据仓库和数据挖掘技术 2 1 数据仓库 2 1 1 数据仓库概念 传统数据库在联机事务处理( o l t p ) 中获得了较大的成功,但是对管理人员 的决策分析要求却无法满足。为满足决策分析的需要,在数据库基础上产生了能 够满足决策分析所需要的数据环境数据仓库( d w ,d a t aw a r e h o u s e ) 0 3 1 。 2 0 世纪8 0 年代中期,“数据仓库之父”w i l l i a mhi l a y i a o l l 在其建立数据仓 库一书中定义了数据仓库的概念,随后又给出了更精确的定义:数据仓库是在 企业管理和决策中面向主题的,集成的,与时间相关的、不可修改的数据集合。 与其它数据库不同的是数据仓库更像一种过程,即对分布在企业内部各处的业务 数据的整合、加工和分析的过程,丽不是一种可以购买的产品 14 】。对此可从两个 层次来理解,首先,数据仓库用于支持决策、面向分析型数据处理,它不同于企 业现有的操作型数据库:其次,数据仓库是对多个异构数据源有效的集成,集成 后按主题进行重组,并包含历史数据,且存放在数据仓库中的数据一般不再修改。 数据仓库的目标是达到有效的决策支持。数据仓库的作用在于:从这些应用 系统中获取信息并转换到一个新的数据库,通过对新库中的历史信息和面向主题 的信息进行分析,为决策提供支持。 2 1 2 数据仓库的特点 数据仓库中的数据除具有传统的共享性、完整性和独立性外,还具有以下几 个基本特点【悯。 ( 1 ) 数据仓库是面向主题的 传统数据库是面向应用进行数据组织的,在传统模式下,数据库侧重于o l t p , 将数据应用逻辑与数据捆绑在一起,使本来是一个完整的客观实体数据分散在不 同的数据库模式中,抽象程度不够高。而数据仓库中的数据是面向主题进行组织 数据挖掘技术在学生成绩分析中的研究及应用 的,即是在较高层次上对分析对象的数据进行完整的、一致的描述,能够完整统 一地刻画各个分析对象所涉及企业的各项数据以及数据之间的关系。 ( 2 ) 数据仓库中的数据是集成的 数据仓库中的数据可分为内部数据和外部数据,内部数据是企业内生成的、 现在的和历史的数据,外部数据包括行业报告、市场调查、铡评结果和顾问评估 等。在进入数据仓库前要将面向应用的原始内、外数据在消除各语义矛盾的基础 上,按照数据仓库中面向主题的数据结构加以变换和组织。不论数据来源何处, 进入数据仓库之后都应具有统一的编码规则,保证数据仓库数据的一致性。 ( 3 1 数据仓库中数据是非易失的 在实际的业务处理系统中,数据是时时更新、时时变化的。而数据仓库中的 数据是供企业分析、决策使用的,所反映的是一段相当长的时间内历史数据的内 容,是不同时间点的数据库快照的集合以及基于这些快照进行统计、综合和重组 得到的导出数据,而不是联机处理的数据。 值得注意的是,d w 中数据的不可更新是针对于应用系统而言的。d w 的用户 进行分析处理时是不进行数据更新操作的,但并不是讲在从数据集输入d w 开始 到最终被删除,每个数据生存周期中所有的数据都是永远不变的。其非易失性也 是相对的,指在某一数据存储周期内,数据是相对不变的。 ( 4 ) 数据仓库中的数据是随时间不断变化的 日常业务系统是以响应时间为设计目标的,一般保存6 0 到9 0 天的数据,而 d w 为了适应d s s 趋势分析的要求包含有历史数据和上次d w 加载时的当前数据, 超过数据存储时间范围的老数据归档在光盘或磁带上,一般保存5 到1 0 年时间内 的数据,所以d w 是随时间不断删去旧的数据内容,即不断捕捉o l t p 中数据库 数据的变化,追加到d w 中,不断生成d w 快照,经统一集成后增加到d w 中去。 2 1 3 数据仓库系统 数据仓库的最终目标是尽可能让决策者能够方便、有效和准确地使用数据仓 库。因此,为用户服务的前端工具必须能被有效地集成到新的数据分析环境中去。 第2 章数据仓库和数据挖掘技术 2 i 3 i 数据仓库系统的体系结构 数据仓库系统( d a t a w a r e h o u s es y s t e m ) 是以数据仓库为基础,通过查询工具 和分析工具完成对信息的提取,满足用户的各种需求【1 6 1 。 整个数据仓库系统是一个包含四个层次的体系结构,具体由图2 1 表示。 曰 日 曰 口 蠢掘寨市 t 拓锺量露仓戽霄啊工具 图2 i 数据仓库体系结构 f i g 2 id a t aw a r e h o u s ea r c h i t e c t u r e ( 1 ) 数据源 数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部 信息和外部信息。内部信息包括存放于关系型数据库管理系统( r d b m s ) 中的各 种业务处理数据和备类文档数据。外部信息包括各类法律法规、市场信息和竞争 对手的信息等等。 ( 幻数据的抽取、清理,装载,刷新 数据的抽取是数据进入数据仓库的入口,由于数据仓库是一个独立的数据环 境,需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存 储介质导入到数据仓库。数据抽取在技术上主要涉及互连,复制、增量、转换、 调度和监控等几个方面。 ( 3 ) 数据的存储与管理 数据挖掘技术在学生成绩分析中的研究及应用 数据仓库的关键是数据的存储和管理。数据仓库的组织管理方式决定了它有 别于传统数据库,同时也决定了其对外部数据的表现形式。数据仓库按照数据的 覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 ( 4 ) 前端开发工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种 基于数据仓库或数据集市的应用开发工具。这些前端分析工具运行于客户端,主 要功能是提供多维数据查询和分析操作以达到决策支持的目的。 2 1 3 ,2 数据仓库工具层及其分类 数据仓库中的工具以分析型为主,但仍然包括查询工具。这里说的查询并不 指对记录级数据的查询,而是对分析结果的查询,这就要求有更加友好一致的界 面。例如各种图表和报表工具,便于用户更方便、更清晰地了解复杂的查询结果。 数据仓库最主要的工具是分析型工具。根据数据仓库的定义和用途,它面向 的用户是中层领导,主要执行决策和趋势分析应用。但是目前的存储和检索系统 与用户对高层信息的需求之间存在着巨大的差距,原有的数据库工具对此类问题 无能为力,此时可借助于数据仓库的分析工具。 用户从数据仓库采掘信息时可能有多种不同的方式,但大体上可以分为两种 模式,即验证型( v e f i f i c a t i o n ) 与发掘型( d i s c o v e r y ) 。 ( 1 ) 验证型工具 验证就是用户首先提出自己的假设,然后利用各种工具通过反复的、递归的 检索查询以证实或否定自己的假设。从用户观点来看,他们是从数据仓库中发现 事实,这方面的工具是多维分析工具。联机分析处理( o l a p ) 是一种常用的多维 分析工具,它通过从信息的多种观察角度进行快速、一致的存取,使决策分析人 员能够对数据进行深入分析和观察。 o l a p 的目标是满足决策支持或在多维环境下特定的查询和报表需求,它的技 术核心是“维”这个概念。“维”是人们观察客观世界的角度,是一种高层次的 类型划分。通过把一个实体多项重要的属性定义为多个维( d i m e n s i o n ) ,使用户 第2 章数据仓库和数据挖掘技术 能对不同维上的数据进行比较。因此,o l a p 也可以说是多维数据分析工具的集合。 多维分析是指对多维形式组织起来的数据采取钻取( r o uu p 和d r i l ld o w n ) 、切片 ( s l i c e ) 、切块( d i c e ) 及旋转( p i v o t ) 等分析动作,从而剖析数据,使最终用户 能从多角度、多侧面观察数据库中的数据,深入了解包含在数据中的信息、内涵。 常见的o l a p 有基于多维数据库的m o l a p 及基于关系数据库的r o l a p 。 m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 【1 7 】。 以多维数据库为核心。多维数据库概括地说就是以多维方式来组织数据,以多维 方式来显示数据。多维数据在存储中将形成“立方块( c u b e ) ”的结构,在m o l a p 中对“立方块”的旋转、切片、切块等操作是产生多维数据报表的主要技术。多 维数据库可以直观地表示现实世界的“一对多”和“多对多”关系。 r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l a p ) 。它以关系数 据库为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库的 多维结构划分为两类表:类是事实表( f a c tt a b l e ) ,用来存储事实的值及各个 维的码值;另一类是维表( d i m e n s i o nt a b l e ) ,即对每个维至少使用一个表来存放 维的层次、成员类别等维的描述信息。维表和事实表通过主关键字联系在一起, 形成“星型模式”( s t a rs c h e m a ) 。建立星型模式后,就可以在关系数据库中模 拟数据的多维查询,通过维表的主码,对事实表和每一维表做连接( j o i n ) 操作, 一次查询就可以得到数据的值及对数据的多维描述( 即对应的各维上的维成员) 。 在实际应用中,可以使用多个表来描述一个复杂维,这种星型模式的扩展称为“雪 花模式”( s n o wf l a k es c h e m a ) 。“雪花模式”是对“星型模式”的维表进一步 层次化,原有的各维表可能被扩展成小的事实表,形成一个局部的“层次”区域。 验证型工具的共同特点就是它们需要用户指导数据分析的全过程。 ( 2 ) 发掘型工具 发掘型的应用主要是负责从大量数据中发现数据模式、预测趋势和行为。它 与验证型工具最大的不同在于,用户在整个信息的发掘过程中不需要或者只需要 很少的指导。发掘型工具主要指的是数据挖掘( d a t am i n i n g ) 。数据挖掘是一种 从大型数据库中提取隐藏的预测性信息的新技术1 1 8 1 。与验证型工具不同,数据挖 数据挖掘技术在学生成绩分析中的研究及应用 掘是一种展望和预测的工具,它能挖掘数据问潜在的模式,发现决策者可能忽略 的信息,并为企业做出基于知识的决策。 查询工具、验证工具、发掘型工具结合在一起构成了数据仓库系统的工具层, 由于它们各自的侧重点不同,因此选用的范围和针列的用户也各不相同。从不同 工具对数据分析的深度来看,验证型工具处于较浅的层次,而发掘型工具则是处 于较深层次的工具。但在实际操作中,各种工具是相互补充的,只有很好结合起 来使用,才能达到最好的效果。 2 2 数据挖掘 2 2 i 数据挖掘的概念 数据挖掘( d a t a m 血g d m ) 是种决策支持过程,它主要基于人工智能, 机器学习、统计学技术,高度自动化地分析企业原有的数据,做出归纳性的推理, 从中挖掘出潜在的模式,帮助决策者做出正确的决策【柳数据挖掘也可称为数据 库中的知识发现( k n o w l e d g e d i s c o v e r d a t a b a s e ,k d d ) 。对数据挖掘与知识发现 的一个比较公认的定义是:从存储于数据库的数据集合中识别和提取出潜在的、 可信的、新颖的、有效的并能被人理解的关系、规则、特征的非平凡的过程。 2 ,2 2 数据挖掘的过程 k d d 过程如图2 2 所示。k d d 过程可以概括为三部分:数据预处理( d a t a p r v p r o c e s s i n g ) 、数据挖掘( d a t am i n i n g ) 及结果的解释和评估( i n t e r p r e t a t i o na n d e v a l u a t i o n ) t 2 0 , 2 ”。 第2 章数据仓库和数据挖掘技术 图2 2k d d 过程图 f i g 2 2ak d dp r o c e s s 一数据预处理 数据预处理是数据挖掘( 知识发现) 过程中的一个很重要的步骤,尤其是在 对含有噪声、不完整、甚至不一致的数据进行数据挖掘时,更需要进行数据预处 理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的 目的( 2 2 , 2 3 1 。 数据预处理又可分为四个步骤:数据清洗( d a t ac l e a n i n g ) 、数据集成( d a t a h a t e g r a t i o n ) 、和数据变换( d a mt r a n s f o r m a t i o n ) 、数据消减( d a t ar e d u c t i o n ) 。 数据清洗处理过程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或 除去异常值( o u t l i e r ) 、以及解决不一致问题;数据集成就是将来自多个数据源( 如: 数据库、文件等) 的数据合并到一起。由于在进行数据集成时常常会引起数据的 不一致或冗余,因此在数据集成中需要注意消除数据的冗余;数据转换主要是对 数据进行规格化( n o r m a l i z a t i o n ) 操作。如把连续型数据转换为离散型数据,或是 把离散型数据转换为连续型数据;数据消减的目的就是缩小所挖掘数据的规模, 但却不会影响( 或基本不影响) 最终的挖掘结果。 二数据挖掘 数据挖掘技术在学生成绩分析中的研究及应用 数据挖掘阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则 发现或序列模式发现等。确定挖掘任务后,就要决定用什么样的挖掘算法。选择 算法有两个考虑因素:是不同的数据有不同的特点,因此要用与之相关的算法 来挖掘;二是要根据用户或实际运行系统的要求,有的用户可能希望获取描述型 的( d e s c r i p t i v e ) 、容易理解的知识,而有的用户则希望获取准确度较高的预测型 ( p r e d i c t i v e ) 知识。选择挖掘算法后,即可实施数据挖掘操作,获取有用的模式。 三结果的解释和评估 数据挖掘阶段发现出来的模式,经过评估可能存在冗余或无关的模式,这时 需要将其剔除。也有可能模式不满足用户要求,这时则需要回退到发现过程的前 面阶段,如重新选取数据,采用新的数据变换方法,设定新的参数值,甚至换一 种挖掘算法等。另外。k d d 由于最终是面向人类用户的,因此可能要对发现的模 式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换 为“职t h e n ”规则 2 4 1 。 整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数 据不太好,或是使用的挖掘技术产生不了期望的结果。这时,用户需要重复先前 的过程,甚至从头重新开始。 2 2 3 数据挖掘技术 数据挖掘的技术基础是人工智能,但它只是利用人工智能中一些己经成熟的 算法和技术,如人工神经网络、遗传算法、决策树、邻近搜索算法、规则推理、 模糊逻辑等。根据i b m 的划分方法,从功能上可将d m 的分析方法分为:关联分 析( a s s o c i a t i o n ) 、序列模式分析( s e q u e n t i a lp a t t e r n s ) 、分类分析( c l a s s i f i e r s ) 、 聚类分析( c l u s t e r i n g ) 2 5 】。 ( 1 ) 关联分析 关联分析的目的就是为了挖掘出隐藏在数据问的相互关系。它是给定一组 i t e m 和一个记录集合,通过分析记录集合,推导出i t e m 间的相关性。一个关联规 则的例子就是“9 0 的客户在买面包和黄油的同时也会买牛奶”。其直观的意义就 第2 章数据仓库和数据挖掘技术 是客户在购买某些东西时有多大倾向也会购买另外一些东西,其中9 0 称为“在 购买面包和黄油的同对也会购买牛奶”的可信度。关联分析的目的是为了挖掘隐 藏在数据间的相互关系。 ( 2 ) 序列模式分析 序列模式分析与关联分析类似,其目的也是为了挖掘出隐藏在数据阃的相互 关系,但其侧重点在于分析数据间的因果关系,如顾客在购买某商品之前最常购 买何种其它商品。 ( 3 ) 分类分析 假定记录集合和一组标记,分类分析时,首先为每个记录赋予一个标记,即 按标记分类记录,然后检查这些标定的记录,显式或隐式地描述出这些记录的特 征,利用它可以分类出新的记录。也就是说,分类就是首先利用己经标定的样本 数据进行训练,然后利用所发现的分类规则对新的个例进行自动分类,也就是通 过个例的其它属性值来预测它的类别值。 ( 4 ) 聚类分析 聚类分析与分类分析不同,它的输入是一组未标定的记录,也就是说此时输 入的记录还没有被进行任何分类,其目的是根据一定的规则,合理划分记录集合, 并用显式或隐式地描述不同的类别。 2 2 4 基于数据仓库的数据挖掘 要进行有效的数据挖掘,首先就是要准备挖掘对象。很明显,数据仓库是数 据挖掘的理想选择,因为数据仓库在纵向( 历史数据) 和横向( 企业范围内的数 据) 都为数据挖掘提供了更广阔的活动空间,数据仓库完成了数据的收集、集成、 存储、清洗等工作,数据挖掘面对的是经过初步加工的数据,这使它能更专注于 知识的发现。 虽然数据挖掘不一定非要建立在数据仓库上,但如果数据挖掘能与数据仓库 协同工作,则必然能大大提高数据挖掘的工作效率,更好地满足决策的需要。 数据挖掘技术在学生成绩分析中的研究及应用 2 2 5 明与0 l a p 的关系 d m 与o l a p 是不同的工具,d m 是一种挖掘型工具,它是一种有效地从大量 数据中自动发现潜在的模式,做出预铡分析的分析工具,它是现有的一些人工智 能、统计学等成熟技术在特定的数据库领域的应用。d m 和其它分析型工具最大的 不同在于它的分析过程是自动的。d m 用户不必提出确切的问题,而只需d m 去 挖掘隐藏的模式并预测未来的趋势,这样更有利于发现未知的事实。 与d m 相比,o l a p 更多地依靠用户输入问题和假设。用户先入为主的局限 性可能会限制问题和假设的范围,从而影响最终的结论。因此,作为检验型工具, o l a p 更需要对用户需求有全面而深入的了解。 第3 章关联规则和聚类分析 第3 章关联规则和聚类分析 3 1 关联规则 3 1 1 关联规则概述 关联规则挖掘( a s s o c i a t i o ar u l em i n i n g ) 是发现大量数据中项集之间有趣的 关联或相关联系。关联规则挖掘是数据挖掘研究的一个重要分支,关联规则是数 据挖掘的众多知识类型中最为典型的一种。关联规则形式简洁、易于解释和理解, 并可以有效地捕捉数据间的重要关系,从大型数据库中挖掘关联规则问题己成为 数据挖掘中最成熟、最重要、最活跃的研究内容【2 们引。 采用关联模型比较经典的例子是“啤酒和尿布”的事例,在美国,一些年轻 的父亲下班后经常到超市去买婴儿尿布,超市经过对顾客的购物信息进行挖掘, 发现在购买婴儿尿布的年轻父亲中,有3 0 4 0 的人同时要买一些啤酒。超市 随后调整了货架的摆放,把尿布和啤酒放在一起。结果是:销售额明显增加了。 关联规则闯题由a g r a w a l t 2 6 1 等于1 9 9 3 年首先提出,以后诸多的研究人员对关 联规则的挖掘问题进行了大量的研究2 9 - 3 3 。尽管关联规则挖掘起源于商业上对市 场购物篮进行分析的问题,但是随着研究的不断深入,其基本模型在多角度得到 了扩充。关联规则挖掘技术的应用领域也越来越广泛,概括起来主要包括:商业 与金融、人口普查数据分析、工程技术数据分析、医疗、财政、宏观决策支持、 电子商务、网站设计、通信和互联网等。 3 1 2 关联规则基本模型 关联规则的基本模型是:设f = f i ,f :,0 是由m 个不同的项目组成的集合。 给定一个事务数据库d ,其中每一个事务t 是i 中一组项目的集合,即丁,t 有一个唯一的标识符 l i d 。若项目集彳,且爿r ,则称事务t 包含项目集a 。 一条关联规则是形如a j 口的蕴涵式,其中4 c i ,丑c i 且爿n b = 。如果事 务数据库中有s 的事务包含a 同时也包含b ,那么我们说关联规则的支持度为s 。 数据挖掘技术在学生成绩分析中的研究及应用 如果在事务数据库d 里面,包含a 的事务中有c 的事务也同时包含b ,那么我们 说关联规则的置信度为c 。例如: c o m p u t e r f i n a n c i a l m a n a g e m e n t s o f t w a r e s u p p o r t = 2 , c o n f i d e n c e = 6 0 吲 上一规则的支持度2 意味着分析中全部事务的2 同时购买计算机和财务管 理软件。置信度6 0 意味着购买计算机的顾客6 0 也购买财务管理软件。 关联规则挖掘问题是指从数据库中挖掘出那些支持度和置信度都大于用户指 定的最小支持度和最小置信度的关联规则。它可以分为两步:第一步是识别出所 有的频繁集,即支持度不低予最小支持度的项目集,第二步是从频繁集中产生其 信任度不低于最小置信度的规则。第一步的工作最艰巨,因为它需要大量的i o 操 作。第二步中规则的生成相对较容易。目前大多数的研究均集中在第一步上,一 3 1 3 关联规则度量 1 支持度( s u p p o r t ) 和置信度( c o n f i d e n c e ) 规则a j b 在事务集d 中成立,具有支持度s ,其中s 是d 中事务包含4 u 占 的百分比,它是概率p 0 u b ) 。规则a 令b 在事务集d 中具有置信度c ,如果d 中包含a 的事务同时也包含b 的百分比是c ,这是条件概率p ( bi 么) 。即是: j = s u p p o r t ( a j 占) = 尸0 u b ) ; c = c o n f i d e n c e ( ajb

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论