




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在学生成绩分析中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 论文题目: 专 业: 硕士生: 指导教师: 数据挖掘技术在学生成绩分析中的应用研究 纛搿术赶李杰( 签名) 么丝! 玉 刘天时( 签名) 摘要 高等院校的中心工作是教学,重点是提高教育质量,而学生成绩恰恰是衡量教学质 量的重要依据,所以数据挖掘在分析学生成绩中有着重要意义。通过对学生成绩信息进 行数据挖掘,可以发现各门课程之间的关联关系,为教学和学生管理提供决策支持,更 好的开展教学工作,提高教学质量。 本文首先在数据仓库和数据挖掘理论研究的基础上,介绍数据仓库和数据挖掘的基 本理论,重点阐述了数据仓库的构建和联机分析处理。 其次,介绍了数据挖掘中关联规则的基本算法,重点分析了a p r i o r i 算法,通过对 a p r i o r i 算法的深入研究,针对a 研o r i 算法存在的缺点,提出了一种减少事务数据库扫 描次数的改进算法,并通过实例说明该算法的优点。 最后使用s q ls e r v e r 2 0 0 5 构建基于学生成绩的数据仓库,从概念模型、逻辑模型 和物理模型三个方面完成数据仓库的设计,通过对数据的抽取、清洗、转化和加载完成 数据仓库的构造。使用v i s u a lc + + 作为开发工具设计学生成绩数据挖掘系统,将改进的 关联规则算法应用到学生成绩数据挖掘中,通过对存储在数据仓库中的学生成绩进行挖 掘,发现并分析隐藏于当前数据库数据背后的有效关联规则,据其给出相应建议,为今 后的教学管理和学生管理工作提供相应的决策依据。 关键词:数据挖掘;数据仓库;关联规则;a p r i o r i 算法 论文类型:应用研究 s u b j e c t :r e s e a r c ho nt h ea p p l i c a t i o no fd a t am i n i n gt e c h n o l o g yi nt h ea n a l y s i so f s t u d e n ta c h i e v e m e n t s p e c i a l t y :t e c h n o l o g yo fc o m p u t e n a m e :l ij i e ( s i g n a t u r e ) i n s t r u c t o r :l i ut i a n s h i ( s i g n a t u r e ) a b s t r a c t t e a c h i n gi st h ec e n t r a lt a s ko fu n i v e r s i t y t h ef o c u si st oi m p r o v e t h eq u a l i t yo fe d u c a t i o n a n ds _ t u d e n ta c h i e v e m e n ti st h ei m p o r t a n tb a s i sf o rm e a s u r i n gt h eq u a l i t y o ft e a c h i n g t h e r e f o r et h ed a t am i n i n gi ns t u d e n ta c h i e v e m e n th a sg r e a ts i g n i f i c a n c e t h er e l a t i o n sa m o n g c o u r s e sc a nb ef o u n do u tt h r o u g ht h ed a t am i n i n gi ns t u d e n ta c h i e v e m e n t ,w h i c hc a r lp r o v i d e s u g g e s t i o n sf o rt h ed e c i s i o no ft e a c h i n ga n d s t u d e n tm a n a g e m e n tt ot m p r o v et e a c h i n gq u a l i t y f i r s t l y , t h i sd i s s e r t a t i o ni n t r o d u c e si t sb a s i ct h e o r yb a s e do ns t u d yi nd a t aw a r e h o u s ea n d d a t am i n i n g ,a n de m p h a t i c a l l ye x p o u n d sc r e a t i n gd a t a w a r e h o u s ea n do i l l i n ea n a l y t i c a l p r o c e s s i n g s e e o n d l v m ed i s s e r t a t i o ni n t r o d u c e st h eb a s i ca l g o r i t h mo fa s s o c i a t i o nr u l ei nd a t am i n i n g , a n de m p h a s i z i n go na p f i o f ia l g o r i t h m t h r o u g hd e e pr e s e a r c ho i la p r i o r ia l g o r i t h m ,i tp r e s e n t s a ni m p r o v e da l g o r i t h mb yr e d u c i n gs c a nt i m e so ft r a n s a c t i o nd a t a b a s ef o rt h ed r a w b a c k so f a r i r i o r ia l g o r i t h m a n di ti l l u s t r a t e st h ea d v a n t a g eo f t h i sa l g o r i t h mw i t hs o m ec a s e s l a s t l y ,t h ed i s s e r t a t i o nc r e a t e st h ed a t aw a r e h o u s ef o rt h es t u d e n ta c h i e v e m e n tw i t hs q l s e r v e r 2 0 0 5 ,i nw h i c ht h ep r o c e s sc a nb eb r o k ed o w ni n t ot h r e es t e p s ,c o n c e p t u a lm o d e l i n g , l o g i cm o d e l i n ga n dp h y s i c a lm o d e l i n g t h ed a t aw a r e h o u s e i sc o n s t r u c t e db ye x t r a c t i n gd a t a , c l e a n i n gd a t a , t r a n s f o r m i n gd a t aa n dl o a d i n gd a t a t h ed a t am i n i n gs y s t e m o ft h es t u d e n t a c 城e v e m e n ti sd e s i g n e da n di m p l e m e n t e dw i t hv i s u a lc + + a n di ta p p l i e st h ei m p r o v e d 嬲s o c i a t i o nr u l ea l g o r i t h mi nd a t am i n i n go ft h es t u d e n ta c h i e v e m e n t t h r o u g hm i n i n gt h e s t l l d e n ta c l l i e v e m e n ts t o r e di nd a t aw a r e h o u s e ,s o m ev a l i da s s o c i a t i o nr u l e sh i d i n g i nt h e c u n e md a 殷山a s ei sd i s c o v e r e da n da n a l y z e d a c c o r d i n gt ot h e s er u l e s ,t h ed i s s e r t a t i o np r o v i d e s s o m ep r o p o s a lf o rt h ed e c i s i o no ft e a c l l i n ga r r a n g e m e n ta n d s t u d e n tm a n a g e m e n ti nt h ef u t u r e k e yw o r d s :d a t am i n i n g ;d a t aw a r e h o u s e ;a s s o c i a t i o nr u l e ;a p r i o r ia l g o r i t h m t h e s i s :a p p l i c a t i o ns t u d y 学位论文创新性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他 人已经发表或撰写过的研究成果;也不包含为获得西安石油大学或其它教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中做 了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:乏鸯垂, 日期:列矿石i g 学位论文使用授权的说明 本人完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属西安石油大学。学校享有以任何方法发表、复制、 公开阅览、借阅以及申请专利等权利,同时授权中国科学技术信息研究所将本论文收录 到中国学位论文全文数据库并通过网络向社会公众提供信息服务。本人离校后发表 或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为西安石油大 学。 论文作者签名:丛 导师签名:竺二, b 规j 矽 o 。g 。l g 。 日期: 夕,- 一 注:如本论文涉密,请在使用授权的说明中指出( 含解密年限等) 。 第一章绪论 第一章绪论 1 1 研究的背景和意义 随着计算机技术和互联网技术的迅速发展,数据资源变得日益丰富,但是数据资源 中蕴含的知识却远远没有得到充分的发掘和利用,在这种情况下,出现如何从这些浩如 烟海的数据中提取对人们有用的信息,为人们生活和社会发展的各方面提供正确决策成 为一个亟待解决的问题。我们现在使用的数据库系统可以对数据进行方便高效的录入、 查询、统计等操作,但是无法发现潜藏在大量数据背后的关联关系和规则,无法利用这 些数据隐含的信息对未来事务的发展进行预测。由于人们缺乏对潜藏在大量数据中有用 信息的进行发现和挖掘手段,所以使人们不得不面对数据爆发但是知识匮乏的尴尬现 象。面对这一现象,数据挖掘或知识发现( d m ) 技术应运而生,并随着时间的推 移,显示出其强大的生命力【l j 【2 j 。 数据挖掘或知识发现技术的出现,是人们对数据库技术进行长期开发和研究和总结 的结果。最早,各种数据时存储在用户计算机的数据中的。然后发展到用户可以根据需 求,对存储在数据库中的数据进行查询和访问,进而发展到可以即时遍历数据库中的数 据1 3 h i 。数据挖掘技术的出现,把数据库技术引入到了一个更高层次的阶段。利用数据 挖掘技术,不仅能够对现有的数据进行查询和访问,而且关键是能够找出潜藏在海量数 据之间的内在关联信息【5 1 。数据挖掘技术就是从大量的、不完全的、有噪声的、模糊 的、随机的数据中,提取隐含在其中的、事先不为人们知道的,但又是潜在有用的信息 和知识的过程i lj 。 目前,在商业、金融业以及电信业等领域数据挖掘技术都得到了广泛的应用,兵取 得了很好的效果【6 】,但其应用在教育领域成功的例子相对不多。近年来,我国高校招生 的规模不断增大,在校学生的学生人数大幅度增加,我们以前使用的传统的教学和管理 手段已经不能适应高校未来发展的趋势,我们需要新的管理方式和教学方法来迎接高校 的学生管理和教学工作带来的严峻的考验。现阶段高校教务处的数据库中积累了大量的 学生成绩信息,由于我们现在对学生成绩数据的管理还停留在对数据库中成绩数据简单 查询阶段,所以不能充分发挥这些数据应有的作用。以学生成绩为例,学生成绩作为考 核学生学习成果的一项重要指标,不但能够客观、真实的反映学生的学习效果和教师的 教学质量,而且能够对学生以后的学习方法、教师的教学手段和学校的教学计划起到良 好的指导作用。然而,目前我们经常使用的成绩分析技术,在学生成绩分析时,一般只 能得到均值、方差等一类信息,并且仅仅是对- n 课独立数据信息进行的分析,无法得 到影响学生成绩的真实信息,因为在实际教学中,学生在学习某一门课程时,对其成绩 产生影响的往往有一门或几门前导课程,那么哪一门或哪几门对他的学习成绩产生了影 响这些有用的信息,我们却往往不能获知。如果能够充分发掘利用这些数据信息,准确 西安石油大学硕士学位论文 地分析教学实践过程中学生、教师和学校各方面的影响因素,从中找到提高学生学习效 率、教师教学质量的方法,必然有利于学校教学质量的提高。 目前,在各高校的教务处的成绩数据库中存放着历届学生各门课程的考试成绩,但 是这些成绩数据只是简单的记录了数据信息,我们无法发现隐藏在这些数据背后的深层 次的信息,所以这些数据并没有真正的发挥其应有的价值。随着数据仓库和数据挖掘技 术的不断成熟,我们将他们引入到高校的教学工作中,利用数据仓库和数据挖掘技术对 存放在学校数据库中的学生数据信息进行深层次的分析,挖掘隐藏在这些数据背后的有 用信息,发现对指导学校学生学习、教师教学有用的知识,帮助学校管理者对未来学校 的发展进行决策,必然会在学生提高学习效率、教师提高教学质量和学校提高管理水平 等方面发挥重要的作用。 本文的工作就是在基于这样一个背景下展开的。以高校学生的成绩信息为应用背 景,针对学校现有教务管理系统存在的不足,将数据挖掘技术应用到学生成绩管理系统 中,对储存在数据库中的学生成绩数据进行多角度的分析,在一定程度上能帮助解决存 在的问题,使学校教学管理系统充分发挥作用,在功能上进一步满足学校教学管理的需 要,帮助有关部门制定合理的教学计划和人才培养方案,同时也给学生根据自身的学习 情况,进行研究方向和课程学习的有的放矢提供帮助。同时对本人所从事的教学及管理 工作也将具有重大的指导作用和现实意义。 1 2 国内外研究现状 “知识发现( k n o w l e d g ed i s c o v e r yi nd a m b a s e ,k d d ) 一词第一次被提出来,是 在1 9 8 9 年8 月美国底特律召开的第十一届国际人工智能会议上 7 1 。1 9 9 5 年,加拿大蒙 特利尔召开的首届知识发现与数据挖掘学术会议上,“数据挖掘( d a t am i n i n g ,d m ) ” 这一术语被学术界正式提出。由美国人工智能协会主办的“k d d ”国际研讨会已经举 办过多届,会议的规模也逐渐变大,由原来的专题讨论会逐渐演变为国际性的学术大 会,会议的研究的重点也逐渐转变为系统应用,越来越注重策略的发现和技术的集成, 以及多种学科之间的知识的相互影响和渗透。目前,数据挖掘与知识发现( d a t a m i n i n ga n dk n o w l e d g ed i s c o v e r y , d m k d ) 被i e e e ( i n s t i t u t ef o re l e c t r i c a la n de l e c t r o n i c e n g i n e e r s ) 、a c m ( a s s o c i a t i o nf o rc o m p u t i n gm a c h i n e r y ) 等学会、学刊纷纷列为会议 议题或出版专刊讨论,数据挖掘与知识发现逐渐被人们当做国际上的一个研究热点来研 究。 目前,人们针对基于关系数据库和事务数据库进行的数据挖掘方面的研究,已经取 得了很大的进步,并出现了多种有影响的发现算法,比如r 7 】:美国i b m 公司的 r a g r a w a l 的关联算法、美国密西根州州立大学e r i c kg o o d m a n 的遗传算法、澳大利亚 的j r q u i n l a n 教授的分类算法等。m i c r o s o f t 、i b m 、u r b a n s c i e n c e 、s a s 、 d a t a m i n d 、a b t c c h 、u n i c at e c h n o l o g i e s 等国际上一些著名的的打公司,也相继开发出 2 第一章绪论 一些实用的数据挖掘系统应用于商业系统,如市场分析用的b e h a v i o r s c a n 、m d t ,金 融投资领域的s t o c ks e l e c t o r 、a i ( a u t o m a t e di n v e s t o r ) ,欺诈预警用的c l o n e d e t e c t o r 、 f a l c o n 、f a i s 等。 与国外的数据挖掘技术发展相比,国内起步较晚,大部分研究没有联合起来,没有 形成整体的力量。目前进行的大多数研究项目都是由政府出资资助进行的,如8 6 3 计划 等。政府最早出资资助的项目是1 9 9 3 年的国家自然科学基金项目。目前从事数据挖掘 研究的人员,主要集中在大学、公司和研究所,研究的方向也主要是在算法的研究、数 据挖掘的实际应用以及有关数据挖掘理论方面的研究。比如,对模糊方法在知识发现中 的应用,北京系统工程研究所进行了较深入的研究;对数据立方体代数的研究,北京大 学也取得了一定的进展;复旦大学、中国科技大学、浙江大学、华中科技大学、吉林大 学、中科院数学研究所等单位在关联规则挖掘算法的优化和改造进行了深入研究并取得 一定成果;四川大学、南京大学和上海交大等大学研究人员在非结构数据的知识发现及 w | e b 数据挖掘方面进行了深入的探讨和研究【8 】。总之,国内运用数据挖掘技术协助企业 决策进行生产活动的成功案例还比较少,所以数据挖掘技术的研究和应用以及相关工具 的开发,在我国的发展潜力巨大,前景广阔。 1 3 论文的研究内容 本文的主要研究内容是运用改进的关联规则挖掘算法对高校学生信息库进行挖掘, 本论文的主要工作内容如下: ( 1 ) 对数据仓库和数据挖掘技术的理论做了系统的研究,介绍了数据挖掘的概 念、研究现状以及数据挖掘的过程、功能,描述了数据仓库的概念以及特点。 ( 2 ) 详细的描述关联规则的定义,介绍了关联规则的种类,总结了关联规则常用 的挖掘方法。 ( 3 ) 详细分析了经典关联规则挖掘算法a 面o r i 算法,分析了该算法的性能和特 点,针对它存在的缺点,提出一种改进的a p r i o r i 算法。 ( 4 ) 使用s q ls e r v e r 2 0 0 5 建立基于学生成绩的数据仓库,以v i s u a lc + + 为开发工 具,设计学生成绩数据挖掘系统,将改进的a p r i o r i 算法应用于学生成绩数据挖掘中, 通过实例说明数据挖掘的过程和结果。 1 4 论文的组织结构 第一章是绪论,主要对论文所做研究的背景和意义、国内外研究现状和本文所做研 究的内容和目标进行详细介绍。 第二章是学生成绩数据挖掘的理论研究,详细地讨论了数据仓库、数据挖掘的概 念、分类及特点。 第三章是介绍关联规则的概念、分类及挖掘方法,详细分析了关联规则算法 3 西安石油大学硕士学位论文 a p r i o r i 算法,找出其缺点,并提出改进的关联规则算法。 第四章是学生成绩数据挖掘系统的设计实现,包括学生数据仓库的建立和挖掘系统 的实现,利用改进的关联规则算法对学生成绩数据仓库进行数据挖掘。 第五章是结论和展望,在总结了本文的工作后,也对作者未完成的工作做出了展 望。 4 第二章学生成绩数据挖掘的理论研究 第二章学生成绩数据挖掘的理论研究 随着计算机技术的迅速发展以及数据库系统的广泛应用,数据库中积累下来的数据 信息越来越多。在急剧增加的数据信息背后,隐藏着许多不为人知的、但是却非常有用 的重要信息,人们希望能够对其进行更深层次的分析和研究,充分发掘这些信息的有用 价值。目前我们使用的数据库系统,可以对数据进行高效的录入、查询等操作,但是无 法从大量的数据中找出潜在的规律和规则,所以也就谈不上充分利用这些数据信息,预 测事物未来的发展趋势了。正是因为缺乏挖掘数据背后隐藏的信息的有效手段,从而导 致了现在这种数据爆炸但是却知识缺乏的现象的出现。针对这种现象,数据挖掘技术应 运而生,数据挖掘就是从存储在数据库内的数据中,提取对人们有用的信息或知识。这 些未知的知识是隐含的对人们有用信息,提取的知识表示为概念、规则、规律、模式等 形式。近年来,随着数据挖掘技术的不断成熟,它引起了学术界研究人员的极大关注, 其主要原因就是人们可以应用数据挖掘技术把大量现有数据转化为对人们有用的信息和 知识。通过数据挖掘获取的信息和知识应用十分广泛,比如:市场分析、欺诈预测、顾 客保有、产品控制和科学探索等。数据挖掘技术,可以看做是信息技术自然演化的结 果。通过应用数据挖掘技术,用户可以从数据库中发掘有用的知识、规律和深层次信 息,根据挖掘出的知识信息更好的指导以后的生产、学习和工作。因此,数据挖掘技术 被认为是数据库系统重要的前沿学科之一,是信息产业最有前途的交叉学科。 2 1 数据挖掘 近年来,数据挖掘技术引起了学术界的极大关注,其主要原因就是目前我们使用的 数据库中存在可以广泛使用的大量数据,通过数据挖掘技术可以将这些数据转化成有用 的信息和知识。通过数据挖掘获取的信息和知识可以广泛用于各种应用,包括市场分 析、欺诈预测、顾客保有、产品控制和科学探索等。数据挖掘可以看做是信息技术自然 演化的结果。 2 1 1 数据挖掘的概念 什么是数据挖掘? 简单的说,数据挖掘( d a t a m i n i n g ,d m ) ,就是从大量的、不完 全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但潜 在有用的信息和知识的过程。这个定义可从以下几个方面理解【9 】: ( 1 ) 数据源是大量的、真实的、有噪声的数据; ( 2 ) 发现的是用户感兴趣的、有用的知识; ( 3 ) 发掘的知识是可理解、可运用的,通常是能用自然语言描述的结果; ( 4 ) 挖掘结果并不要求是放之四海皆准的知识或规则,也不是要去发现新的自然 科学定理和纯数学公式,所发现的结果通常是相对的,是在某个特定前提和约束条件 下,面对某个特定领域有价值的知识。 西安石油大学硕士学位论文 数据挖掘也被称为数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) , 也有人把数据挖掘视为从数据库中,发现知识过程的一个基本步骤。知识发现的过程由 下步骤组成“:( 1 ) 数据清理;( 2 ) 数据集成;( 3 ) 数据选择:( 4 ) 数据变换;( 5 ) 数据挖掘;( 6 ) 模式评估;( 7 ) 知识表示。数据挖掘可以与用户和知识库进行交互。步 骤1 4 是数据预处理的不同形式,为数据挖掘进行数据准备的。 2 1 2 数据挖掘的过程 数据挖掘是一个复杂的多阶段过程,如图2 - 1 所示。 圈2 - l 数据挖掘过程 主要可以分为如下几个主要阶段: ( 1 ) 确定挖掘对象:理解数据,提出问题,对挖掘目标有明确的定义。认清数据 挖掘的目的,是数据挖掘的重要一步。 在对学生成绩进行数据挖掘时,我们面向的对象就是各类学生,如教务处要挖掘的 是全校学生的成绩;计算机学院要挖掘的是计算机学院学生的成绩。他们面向的主题是 不同的。 第二章学生成绩数据挖掘的理论研究 ( 2 ) 数据准备:数据准备为挖掘提供高质量的输入数据,是保证数据挖掘成功的 前提条件,在整个数据挖掘过程中,所占比重也最大。数据准备可分为3 个子步骤:数 据选取( d a t as e l e c t i o n ) 、数据预处理( d a t ap r o c e s s i n g ) 和数据转换( d a t a t r a n s f o r m a t i o n ) 。 数据选取。数据挖掘过程所需要的数据可能从不同的异构数据源获取,因此,第 一步就是从各种数据库、文件和非电子数据源中获取数据。收集所有与挖掘相关的内部 和外部的数据信息,从中选择出适用于数据挖掘应用的数据,建立数据仓库。 本文中数据源来自西安石油大学教务处的事务数据库。 数据预处理。由于数据源、数据类型以及度量的多样性,可能会有一些不规则数 据,还会有一些同时实施的不同操作。错误的数据可以修正或剔除,但缺失的数据必须 被补充或者预测,为下一步分析作好准备。这点通常使用数据挖掘工具来实现。 学生成绩数据仓库中的数据是从学校教务处的事务数据库导入的,各院系老师在 成绩输入时的不规范,导致数据的格式、结构存在不统一或者遗漏的情况,所以对学生 成绩数据进行清洗非常重要,对于成绩缺失,一般采用该门课程的平均成绩补填。对于 格式不统一要进行格式转换。对于考试成绩有正考、补考和重学的,采用第一次的正考 成绩。 数据的转换。为了便于数据挖掘,从不同数据源获取的数据必须转换成统一的格 式。一些数据可能需要编码或者变成更容易使用的格式。可能需要采用数据约简,来减 少所考虑的数据属性值的数量。 ( 3 ) 数据挖掘:数据挖掘的核心是模式发现,这一步骤就是利用数据挖掘工具和 相关算法对所有得到的经过转换的数据进行分析,来产生期望的挖掘结果。 ( 4 ) 解释和评价:对挖掘结果进行分析和验证,从中找到有价值的信息。将挖掘 出的模式与规则以直观、容易理解的方式呈现给用户。数据挖掘的结果如何提交给用户 是一个非常重要的问题,这是因为数据挖掘结果的有用性主要取决于这一步。在数据挖 掘的最后一步,通常使用各种可视化工具和图形用户界面来展现结果。 2 1 3 数据挖掘的功能 所谓数据挖掘的功能就是指定数据挖掘任务所要寻找的模式类型。一般说来,按数 据挖掘的任务来分,可以分为两类:描述性挖掘和预测性挖掘。描述性挖掘的任务是描 述存储在数据库中数据的一般性质。预测性挖掘的任务对当前数据进行挖掘,根据挖掘 出的信息对未来发展作出预测。 数据挖掘的功能以及他们可以发现的模式类型介绍如下【1 1 l 。 ( 1 ) 概念类描述:特征化和区分 数据可以与类或概念相关联。用精炼、简洁和精确方式描述各个类或概念可能是有 用的,这种对类或概念的描述称为类概念描述( c l a s s c o n c e p td e s c r i p t i o n ) 。这种描述 7 西安石油大学硕士学位论文 可以通过以下方法得到:数据特征化,一般的汇总所研究类( 通常称为目标类 ( 伢g e tc l a s s ) ) ,是目标类数据信息的一般特性或特征的汇总,通常用户指定类的数据 通过对数据库的查询收集;数据区分,将目标类与一个或多个可比较类( 通常称为对 比类( c o n t r a s t i n gc l a s s ) ) 进行比较对比,目标类和对比类由用户指定,而对应的数据 通过数据库查询检索;数据特征化和比较。 ( 2 ) 挖掘频繁模式、关联和相关 频繁模式( f r e q u e n tp a t t e r n ) 是在数据项中频繁出现的模式。存在多种类型的频繁 模式,包括项集、子序列和子结构。通常,频繁项集是指频繁的在事务数据集中在一 起出现的项的集合,如啤酒和尿布。频繁出现的子序列,如顾客倾向于先购买电脑再 购买数码相机然后再购买存储卡,这样的模式是一个( 频繁) 的序列模式。子结构可 能涉及不同的结构形式,如图、树或格,可以与项集或子序列结合在一起。如果一个 子结构频繁的出现,则称它为( 频繁) 结构模式。挖掘频繁模式导致发现数据中有趣 的关联和相关。 关联分析( a s s o c i a t i o na n a l y s i s ) 用于发现关联规则( a s s o c i a t i o nr u l e ) ,这些规则 展示属性一值,频繁的在给定数据集中同时出现的条件。更形式的,关联规则是形如 x _ y ,即“a l 八八a m = b 1 八入b m ”的规则,其中,a i ( i 1 ,m ) ) ,b ; ( j l ,n ) ) 是属性一值对。关联规则x _ y 解释为“满足x 中条件的数据库元 素多半也满足y 中的条件 。关联规则根据规则中属性个数可分为单维关联规则 ( s i n g l e d i m e n s i o n a la s s o c i a t i o n a lr u l e ) 和多维关联规则( m u l t i d i m e n s i o n a la s s o e i a t i o n r u l e ) 。 ( 3 ) 分类和预测 分类( c l a s s i f i c a t i o n ) ,它找出描述和区分数据类或概念的模型,以便能够使用模 型预测类、标记未知的对象类。导出模型是基于对训练数据集的分析。导出模式可以 用多种形式表示,如分类( i f - t h e n ) 规则、判定树、数学公式或神经网络。判定树是一 个类似于流程图的树结构,每个节点代表一个属性值上的测试,每个分支代表测试的 一个输出,树叶代表类或类分布。判定树容易转换成分类规则。 分类可以用来预测数据对象的类标记。当被预测的值是数据数值时,通常称之为 预测。 ( 4 ) 聚类分析 聚类就是将物理或抽象对象的集合,分组成为由类似的对象组成的多个类的过 程。数据对象分组成为多个簇,处在同一个簇中的对象具有比较高的相似度,而处在 不同簇中的对象则差别比较大。在许多应用中,可以将处在同一个簇中的数据对象看 做一个整体来对待。聚类分析是一种重要的人类行为,人们通过聚类分析,识别出对 象密集区域和稀疏区域,从而发现全局的分布模式,以及数据属性之间的相互关系。 作为一个数据挖掘的功能,聚类分析可以作为一个独立的工具来获得数据分布的情 8 第二章学生成绩数据挖掘的理论研究 况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。此外,聚类分析也可 以作为其他算法( 如特征和分类等) 的预处理步骤,这些算法再在生成的簇上进行处 理。 ( 5 ) 离群点分析 数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数 据对象就是离群点( o u t l i e r ) 。大部分数据挖掘方法将离群点视为噪声或异常而丢弃。 然而,在一些特殊应用中( 如欺骗检测) ,罕见的事件可能比正常出现的那些更有意 义。离群点数据分析称作离群点挖掘( o u t l i e rm i n i n g ) 。 ( 6 ) 演变分析 数据演变分析描述行为随时间变化的对象规律或趋势,并对其建模。尽管这可能 包括时间相关数据的特征化、区分、关联、分类或聚类,这些分析的不同特点包括时 间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。 2 1 4 数据挖掘的方法 数据挖掘的方法很多,每种方法都有其特定适用的领域。一种挖掘方法不可能胜任 所有的数据挖掘任务,一个复杂的数据挖掘系统往往需将多种数据挖掘方法相结合起 来,通过整合多种数据挖掘方法,从各个角度分析数据,弥补单个数据挖掘方法所存在 的不足。数据挖掘的方法主要有以下几种【1 2 】: ( 1 ) 关联规则 关联规则挖掘是为了在数据库中发现两个或两个以上数据项之间的关联关系,是数 据挖掘技术的主要研究方向和最成熟的技术之一。它是一种简单、明确的分析规则,主 要用于发现存在于大量数据之间的关联性相关性,从而描述一个事物中某些属性同时出 现的规律和模式。关联规则在数据挖掘领域应用很广泛,因为它没有变量的限制,可以 进行多维数据之间的相关性分析,适合于在大型数据库中发现数据之间有意义的关系和 规则。数据挖掘领域中,关联规则应用的最典型的例子就是购物篮分析【l3 1 ,通过从大 量顾客得购买信息中发现,他们放入购物篮中不同的商品之间的联系,分析顾客的购物 习惯,通过了解哪些商品频繁地被顾客同时购买,发现商品之间的关联,帮助销售商制 定更好的营销策略。 关联规则的算法主要有两个步骤:第一步是找出所有的频繁项集,频繁项集是指支 持度不小于最小支持度的项目集;第二步是由频繁项集产生强关联规则,即产生的这些 规则必须满足最小支持度和最小置信度。 ( 2 ) 决策树方法 决策树也称为判断树,是一种基于实际数据的归纳学习算法,是数据挖掘技术的一 个活跃领域。决策树是一个类似于流程图的树型结构,其中每个内部结点表示在一个属 性上的测试,每个分支代表一个测试输出,每个树叶节点代表一个类或类的分布。决策 9 西安石油大学硕士学位论文 树算法主要是用来解决以离散型变量作为属性类型的学习方法。连续型变量必须被离散 化才能被使用。有关决策树方法的算法很多,其中最具代表性的是i d 3 和c 4 5 算法。 决策树方法的优点是:与其他挖掘模型相比,其处理速度相对较快;决策树模型简 单且易于理解,容易转换成s q l 语句;与其它算法相比,决策树模型可以获得相近或 更好的分类准确率。缺点是:对连续型变量比较难预测,需进行类型转换;对有时间顺 序的数据,需要做很多数据预处理工作;当类别太多时,错误出现的可能就会增加得比 较快;一般的算法分类时,只是根据一个字段来分类。 ( 3 ) 神经网络方法 神经网络算法近年来越来越受到人们的关注,因为它为解决大型的复杂问题提供了 一种相对有效、简单的方法。神经网络方法是建立在自学的数学模型基础之上的。它可 以对大量的、复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模 式抽取和趋势分析。基于神经网络方法的数据挖掘工具对于非线性数据具有快速建模能 力,其挖掘的基本过程是:先将数据聚类,然后根据权值分类计算,神经网络的知识体 现在网络连接的权值上。神经网络方法在用于处理非线性数据和含噪声的数据时体现出 更大的优越性,比较适合用于市场数据库的分析和建模,通过对市场数据库中大量行业 数据的精密分析,为市场管理人员提供顾客、用户、市场状况和市场走势等方面的分析 结果,以便管理者更好的决策。 ( 4 ) 遗传算法 遗传算法是一种全局优化算法,具有隐含的并行性、非线性求解及易于和其他模 型结合等特点。模拟生物的自然选择和遗传机制,采用遗传结合、遗传变异以及自然 选择等设计方法,将求解的问题通过一组遗传算子,在求解空间上按一定的随机规则 进行迭代搜索,直到求得问题的最优解。遗传算法在模式识别、神经网络、机器学 习、工业优化控制、生物科学和社会科学方面都有广泛的应用。目前遗传算法的研究 主要侧重于算法的收敛性证明、遗传算法与局部优化算法的结合、遗传算子的设计以 及遗传算法在各领域的应用研究。 ( 5 ) 聚类分析 聚类分析是一种寻求数据的自然聚集结构的重要方法,是概念描述和偏差分析的 先决条件。聚类分析就是将一组数据按类型分组,使其具有最大的组内相似性和最小 的组间相似性。简单的说,就是达到使不同聚类中的数据尽可能不同,而同一聚类中 的数据尽可能相似。它与分类不同,分类时对于目标数据库中存在哪些类这一信息我 们是知道的,我们所要做的就是将数据库每一条记录分别属于哪一个类标记出来;而 聚类是在预先不知道目标数据库到底有多少类的情况下,将所有的记录按照属性不同 组成不同的类或者说“聚类 ,并且使得在这种分类情况下,以某种度量为标准的相似 性,在同一聚类之间最小化,而在不同聚类之间最大化。在很多应用中,由聚类分析 方法得到的每一个聚类中的成员都可以被统一看待。 1 0 第二章学生成绩数据挖掘的理论研究 根据聚类的数据情况,可以把聚类分为两类:一类是对象聚类( q 型聚类) :对象 聚类往往用距离或相似系数来度量相似性;另一类是属性聚类( r 型聚类) :属性聚类 常常根据相似系数来度量相似性。聚类分析的算法主要有划分方法、层次方法、基于 密度方法、基于网格方法和基于模型方法等。 ( 6 ) 粗糙集 粗糙集理论是近年来才兴起的用于研究不精确、不确定性知识的学习、表达、归 纳的方法。它通过引入不可分辨关系、等价类、上近似、下近似等概念,考察知识表 达中不同属性的重要性,来确定哪些属性是冗余的,哪些属性是必不可少的,删除冗 余属性进而简化知识表达空间,最终能从数据中挖掘出有用的规则。它的理论核心 是:知识源于对对象的分类,通过分类找出属性间的关联规则。 2 2 数据仓库 2 2 1 数据仓库的概念 数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基 础之上发展而来的,其主要目的就是为决策提供支持,为联机分析处理( o l a p ) 、数 据挖掘等深层次的数据分析提供平台。数据仓库与传统的数据库的最根本区别在于其对 数据处理的侧重点不同,传统数据库侧重于操作型处理联机事务处理( o u 甲) ,而数据 仓库则侧重于分析型处理( o l a p ) 。数据仓库是一个与实际应用密不可分的研究领 域,它不但引入了许多不同以往的新的概念,而且在体系结构、数据组织等方面均有自 己的新特点。 2 0 世纪8 0 年代中期,“数据仓库之父”w i l l i a m h i n m o n 在其建立数据仓库一 书中对数据仓库( d a t aw a r e h o u s e ,d w ) 的概念进行了定义【1 4 1 ,随后又给出了更加精确 的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修 改的数据集合。与其它数据库不同,数据仓库更像一种过程,即对分布在企业内部各处 的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品【1 5 】。对此可从两 个层次来理解:首先,数据仓库用于对决策支持的、面向分析型的数据处理,它不同于 企业现有的操作型数据库;其次,数据仓库是对多个异构数据源有效的集成,集成后按 主题进行重组分类,并包含历史数据,且存放在数据仓库中的数据一般不再修改。 数据仓库的目标是达到对决策有效的支持。数据仓库的作用在于:从这些应用系统 中获取信息,并转换到一个新的数据库,通过对新库中的历史信息和面向主题的信息进 行分析,为决策提供支持。 2 2 2 数据仓库的特点 数据仓库中的数据除具有传统的共享性、完整性和独立性外,还具有以下几个基本 特点【1 6 1 : 西安石油大学硕士学位论文 ( 1 ) 数据仓库是面向主题的。传统数据库是面向应用进行数据组织的,在传统模 式下,数据库的主要任务是联机事务和查询处理,这种系统称为联机事务处理 ( o l t p ) ,它将数据应用逻辑与数据捆绑在一起,使本来是一个完整的客观实体数据分 散在不同的数据库模式中,抽象程度不够高。而数据仓库系统是在数据分析和决策方 面位用户或知识工人提供服务。这种系统称为联机分析处理( o l a p ) 。数据仓库中的 数据是面向主题进行组织的,即是在较高层次上对分析对象的数据进行完整的、一致 的描述,能够完整统一地刻画各个分析对象所涉及企业的各项数据以及数据之间的关 系。 在学生成绩数据仓库中,我们面向的主题就是各类学生,如教务处要挖掘的是全 校学生的成绩;计算机学院要挖掘的是计算机学院学生的成绩。他们面向的主题是不 同的。 o l t p 与o l a p 的主要区别概述如下:用户和系统的面向性,o l t p 面向顾客, 用于查询处理,o l a p 面向市场,用于数据分析;数据内容,o l t p 管理管理当前数 据,o l a p 管理大量历史数据,提供汇总和聚集机制;数据库设计,o l t p 系统通常 采用实体一联系( e r ) 数据模型和面向应用的数据库设计。而o l a p 系统通常采用星 形或雪花型和面向主题的数据库设计;视图,o l t p 系统主要关注当前数据,不涉及 历史数据或不同组织的数据,相比之下,由于组织的变化,0 l a p 系统常常跨越数据库 模式的多个版本,处理来自不同组织的信息,o l a p 数据存放在多个存储介质上。访 问模式,o l t p 系统的访问模式主要由短的原子事务组成。o l a p 系统访问大部分是只 读操作。 ( 2 ) 数据仓库中的数据时集成的。数据仓库中的数据可分为内部数据和外部数 据,内部数据是企业内生成的、现在的和历史的数据,外部数据包括行业报告、市场调 查、测评结果和顾问评估等。在进入数据仓库前,要将面向应用的原始内、外数据在消 除各语义矛盾的基础上,按照数据仓库中面向主题的数据结构加以变换和组织。不论数 据来源何处,进入数据仓库之后,这些数据都应具有统一的编码规则,保证数据仓库数 据的一致性。 ( 3 ) 数据仓库中的数据是非易失的。在实际的业务处理系统中,数据库中的数据 是时时更新、时时变化的。而数据仓库中的数据是供企业分析、决策使用的,所反映的 是一段相当长的时间内历史数据的内容,是不同时间点的数据库快照的集合以及基于这 些快照进行统计、综合和重组得到的数据,而不是联机处理的数据。值得注意的是,数 据仓库中数据的不可更新是针对于应用系统而言的。数据仓库的用户进行分析处理时是 不进行数据更新操作的,但并不是讲在从数据集输入数据仓库开始,到最终被删除,每 个数据生存周期中所有的数据都是永远不变的。其非易失性也是相对的,指在某一数据 存储周期内,数据是相对不变的。 ( 4 ) 数据仓库内的数据时间范围( 一般为5 , - - - 1 0 年) 要远远长于操作型环境中的 1 2 第二章学生成绩数据挖掘的理论研究 数据时间范围( 一般为6 0 - - 9 0 天) ,由于这种时间范围上的差异,数据仓库的数据量要 比传统数据库
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源科研实验室场地租赁与专利成果转化执行协议
- 2025年绿色有机食品饮料供应合作协议
- 二零二五版电脑维修与数据恢复一体化服务合同
- 2025年高科技电子产品全国分销网络布局与市场拓展合作协议
- 2025年物资仓库管理主任职位面试经验与高频问题解答
- 2025年金融行业数据分析师面试题库及答案
- 2025版网络安全工程师劳动合同范本
- 2025年焊接与热切割技能考试题库及答题技巧解析
- 二零二五年度绿色交通设施包工合同书
- 二零二五版电商营销推广合同:电商营销推广买卖协议范本
- 技术经纪人(初级)考试试题(附答案)
- 内审首次会议上的讲话
- 砖厂安全生产应急预案演练计划
- 老旧小区综合整治项目成品保护和工程保修的管理措施
- 西安26中小升初分班考试语文真题
- 2024年深圳技能大赛-电工职业技能竞赛理论考试题库-上(单选题)
- 机关食堂从业人员培训
- 高中英语考纲3500词之核心词汇讲与练
- 2024光伏并网柜技术规范
- 品质异常检讨
- 《应用光伏学》课程教学大纲(新能源材料与器件专业)
评论
0/150
提交评论