(计算机应用技术专业论文)数据挖掘技术在教学管理中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘技术在教学管理中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘技术在教学管理中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘技术在教学管理中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘技术在教学管理中的应用研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号: udc : 密级: 编号: 工学硕士学位论文 ( 高校教师) 数据挖掘技术在教学管理中的应用研究 硕士研究生: 指导教师 : 学位级别: 学科、专业: 所在单位 : 论文提交日期: 论文答辩日期: 学位授予单位: 吴瑕 黄凤岗教授 工学硕士 计算机应用技术 哈尔滨师范大学 2 0 0 7 年6 月 2 0 0 7 年6 月 哈尔滨工程大学 哈尔滨工程大学硕士学位论文 摘要 随着高等学校招生规模的不断扩大和信息技术的不断发展,各高校都建 立了自己的教务管理信息系统,这些系统很大程度上提高了教学和管理的水 平,同时也积累了大量的教学和管理数据。但是目前这些信息系统多半是联 机事务处理系统,缺乏综合分析和辅助决策的能力。不能提供对所采集数据 进行归类与深层次分析的功能,这使得管理人员在面对复杂情况时不能及时 了解相关信息,领导在决策时也没有切实的数据支持。 对教学管理进行分析是教学评估的重要手段,本文在搜集和阅读了大量 有关数据挖掘的论文后,采用数据挖掘技术对教务数据进行多层次、多角度 的分析与挖掘,利用挖掘结果辅助教学决策,从而保证教学质量、提高学生 素质。 本文主要探讨了数据挖掘技术的基本理论和主要算法;研究了数据挖掘 中的关联规则、分类算法和聚类算法。运用改进的a p r i o r i 算法分析了学生英 语成绩与四级考试成绩的隐藏关系;使用了决策树算法对学生的就业方向进 行指导:运用了k 一均值算法来评测试卷质量。 通过在教务系统中的具体挖掘实践,得到了许多有价值的信息,这些信 息在帮助学校更好地进行学生的培养,对学生表现情况的掌握以及课程的教 学等方面无疑具有重要的指导意义。 关键词:数据挖掘;关联规则;a p r i o r i 算法;决策树;聚类 堕玺鎏三堡兰堡主兰垡笙苎 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f t h er e c r u i t i n gs t u d e n t ss c a l eo fc o l l e g e sa n d u n i v e r s i t i e sa n di n f o r m a t i o nt e c h n o l o g y , e v e r yu n i v e r s i t yh a ss c tu pt h em i so f e d u c a t i o n a la d m i n i s t r a t i o n i th a sh e i g h t e n e dt h el e v e lo fe d u c a t i o n a lm a n a g e m e n t t oag r e a te x t e n t ,a n dh a sa c c u m u l a t e dal a r g ea m o u n to fd a t a h o w e v e r ,m o s to f t h e p r e v i o u st e a c h i n gm a n a g e m e n ts y s t e m s a r et h eo n l i n et r a n s a c t i o n p r o c e s s i n g ( o l t p ) s y s t e m st h a th a v en oa b i l i t yo fs y n t h e t i ca n a l y s i s ,d e c i s i o n s u p p o r t ,a n dc a nn o ta n a l y z ed e e p l ya n dc l a s s i f yt ot h ed a t aw h i c hw ec o l l e c t e d s o ,t h em a n a g e rc a nn o tf i n do u tt h ec o r r e l a t i v ei n f o r m a t i o nw h e nt h e yf a c et h e c o m p l e xc a s e sa n dt h el e a d e rh a sn ou s e f u ld a t aw h e nt h e yd e c i d e a n a l y s i so ft e a c h i n gm a n a g e m e n ti sa ni m p o r t a n tw a yt ot h et e a c h i n g e v a l u a t i o n a f t e rr e a d i n ga n da n a l y z i n gl o t so fp a p e r sa b o u td a t am i n i n g ,t h i s p a p e ra n a l y z ea n dm i n et h ed a t ao ft e a c h i n gm a n a g e m e n tm u l t i l a y e r e df r o m d i f f e r e n ta n g l e ,w h i c hc a ng u a r a n t e et h eq u a l i t yo ft e a c h i n ga n di m p r o v et h e i n t r i n s i co f s t u d e n t s i nt h i st h e s i s ,ii n t r o d u c et h ef u n d a m e n t a lt h e o r ya n dt h em a i na l g o r i t h m so f d a t am i n i n ga n dr e s e a r c ha s s o c i a t i o nr u l e ,t h em e t h o d so fc l a s s i f i c a t i o na n d c l u s t e ra l g o r i t h m si nd a t am i n i n g t l l i st h e s i s a l s o a n a l y z e s t h ep o t e n t i a l i n f o r m a t i o nb e t w e e ns t u d e n t se n g l i s hg r a d ea n dc e t - 4g r a d eb yu s i n ga d a p t e d a p r i o r ia l g o r i t h m ;u s e sd e c i s i o nt r e et oh e l po u rs t u d e n tg e tar i g h tj o ba n d a n a l y z e st h et e s tp a p e rq u a l i t yb yt h ek - m e a n sc l u s t e ra l g o r i t h m s b ya p p l y i n gt h em e t h o dt oe d u c a t i o n a la d m i n i s t r a t i o ns y s t e mw eo b t a i n m u c hv a l u a b l ei n f o r m a t i o nw h i c hi sh e l p f u lf o rc o l l e g ee d u c a t i o n k e yw o r d s :d a t am i n i n g ;a s s o c i a t i o nr u l e ;a p r i o r ia l g o r i t h m ;d e c i s i o nt r e e ; c l u s t e r 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) 丞塑一 日期:刎7 年6 月2 日 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 研究的背景及意义 近年来高校不断的扩招,学生人数逐年增加。以哈尔滨师范大学呼兰学 院为例,2 0 0 0 年在校生人数为4 0 0 0 人,到2 0 0 6 年增至8 0 0 0 人,人数净增 约1 0 0 。学生人数的大幅度增加、教学管理模式的变化( 如学分制的逐步实 行) 都给学校的教务管理工作带来了诸多问题,传统的教学手段已逐渐不适 应社会的发展。 随着计算机技术和网络技术的飞速发展和教育模式的改变,各高校纷纷 提出了教育信息化、网络化,利用计算机、校园网构建综合教务管理系统, 哈师大呼兰学院也从2 0 0 0 年开始使用了自主开发的教务管理系统。( 如图 1 1 ) 实现了成绩管理、教学评价、毕业审核等各项教务管理工作,提高了教 务管理的效率;同时也具有了对人量数据的存储、查询、报表和简单的统计 功能,但数据的分析功能则很弱。呼兰学院教务系统自运行以来收集了大量 的数据,其中包括成绩历史数据达到3 0 万条记录,交费数据1 0 0 0 0 多条记录, 学生毕业情况达到近4 0 0 0 条记录,教师课堂工作量达到1 0 0 0 0 条记录,学生 四级成绩数据近6 0 0 0 条记录。而正如前所述,原有的教学管理系统并没有从 这些数据中挖掘出所隐含的规律( 比如成绩之间的关系等) ,因而尽管我们 有如此丰富的数据,但我们却被淹没在这数据的海洋之中。教师和决策者在 进行决策时,都缺乏切实的数据作为我们决策依据。所以我们有必要对高校 数据库中的大量数据进行分析挖掘,从而提取出我们感兴趣的知识,以改善 整个学校的管理,提高管理效率和管理效果。数据挖掘技术正可以为我们解 决这一问题。总之,将数据挖掘技术应用于学校的教学管理中,必然会提高 学校的教学管理水平,并且通过对考试过程和教学环节中产生的数据进行多 层次、多角度的分析也必然能够辅助教学决策。本文正是使用数据挖掘技术 挖掘教务系统中的数据,从而提取出有利于提高教学质量和学生素质的有价 值的信息。 哈尔滨工程大学硕士学位论文 图1 1 教务管理系统网络结构图 1 2 数据挖掘的发展史及国内外研究现状 1 2 1 数据挖掘的发展史 世界上对数据挖掘的正式研究开始于1 9 8 9 年8 月举行的第一届k d d 国 际学术会议,从数据库中发现知识( k d d ) 一词首次在该会议上被提出。到 目前为止,由美国人工智能协会主办的k d d 国际研讨会己经召开了多次, 规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法 转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互 渗透。在1 9 9 3 年i e e e 的k n o w l e d g ea n de n 西n e e f i n g 会刊率先出版了k d d 技术专刊。k d d 包括数据预处理、数据挖掘、知识评价等处理过程。而数据 挖掘是k d d 过程中的关键步骤。 此外,在过去的3 0 年中,计算机硬件稳定的、由量到质的迅速发展,其 直接后果就是产生了具有强大功能的计算机和数据收集设备以及存储介质。 而这些技术的发展同时又促进了数据库技术的发展。不同类型的数据库中存 放了大量的数据,常被我们称为“数据丰富,信息贫乏”【l 】o 数据挖掘技术 也就应运而生了,应用数据挖掘工具对数据进行分析,提取出信息以帮助人 们决策,从而将数据坟墓转换成知识金块。如今数据挖掘已经成为一个自成 2 哈尔滨工程大学硕士学位论文 体系的应用学科,具有广泛的前景,涉及金融、电子商务、电信和天文气象 等多个领域【2 】。 1 2 2 国外研究现状 数据挖掘技术的研究在国外已经有很多年的历史,而且己经取得了丰硕 的成果。世界上研究数据挖掘的组织、机构和大学也有很多,比如著名的大 学有:卡内基梅隆大学( 有机器制造d m 、互联网d m 和多媒体数据库d m 三 个研究中心) ,还有斯坦福大学和麻省理工学院等。著名的研究机构有:a c m ( a c ms p e c i a li n t e r e s t g r o u po nk n o w l e d g ed i s c o v e r yi nd a t aa n dd a t a m i n i n g ) 、n c d m ( t h en a t i o n a l c e n t e rf o rd a t am i n i n g ( n c d m ) a tt h e u n i v e r s i t yo fi l l i n o i sa tc h i c a g o ( u i c ) ) 等。同时许多软件公司研制出数据挖掘 软件产品,并在北美、欧洲等国家得到应用。例如,密西根州立大学e r i c k g o o d m a n 的遗传算法,i b m 公司开发的q u e s t - = f f l i n t e l l i g e n tm i n e r ,a n g o s s s o f t w a r e 开发的基于规则和决策树的k n o w l e d g es e e k e r ,a d v a n c e ds o f t w a r e a p p l i c a t i o n 开发的基于人工神经网络的d b p r o f i l e ,加拿大s i m o nf r a s e r 大学开 发的d b m i n n e r ,s g i 公司丌发的m i n e s e t l 3 j 等。 在国外高校的教学管理中,数据挖掘也已成为提高教学管理质量和教学 水平的有力工具。例如美国的学校能够以8 5 9 6 的准确度预测学生的升学率, 这样学校就可以把注意力集中那些容易辍学的学生身上。 1 2 3 国内研究现状 国内对数据挖掘与知识发现的研究与国外相比较晚。1 9 9 7 年我国国家自 然科学基金首次支持对数据挖掘领域的研究项目。此后国内的许多科研单位 和高等院校也竞相开展数据挖掘的基础理论及其应用的研究,并且取得了比 较丰硕的研究成果,引起了学术界的高度重视,成为信息科学界的热点课题。 这些单位主要包括清华大学、复旦大学、华中理工大学、中科院计算技术研 究所和数学研究所、东南大学、中国科技大学等1 4 1 。 尽管如此,在国内数据挖掘在各领域的运用与实践并不普遍。许多的企 业或部门仍处于观望与考虑之中,在高校教学管理中的应用更是没有被人们 注意,有待于我们深入地研究。 哈尔滨工程人学硕士学位论文 1 3 本文的研究内容 本文主要是在分析了目前高校教学管理系统的不足之后,将数据挖掘技 术应用到教务管理系统中,通过在教务系统中的具体挖掘实践,得到许多有 价值的信息,这些信息可以帮助学校更好地对学生进行培养,更准确的掌握 学生的表现以及更好的指导课程的安排。具体研究内容主要涉及到以下三方 面: ( 1 ) 对教务系统中英语成绩和入学英语成绩进行分析,找出它们与四级 考试成绩的关系,从而更好的指导英语课程的教学。 采用改进的a p r i o r i 算法对我校学生的英语入学成绩和在校的英语成绩 进行分析,找出入学英语成绩与英语四级考试成绩的关系和在校英语成绩与 英语四级考试成绩的关系,从而指导学生的英语学习和教师的英语教学以及 教务部门的英语课程安排。 ( 2 ) 对教务系统中学生的课程成绩进行分析,从而对学生进行就业方向 的指导。 采用决策树算法中的i d 3 算法分析学生的各课程成绩,找出相应课程对 就业方向的影响,从而指导学生在毕业时找到自己适合的方向进行工作,以 取得更大的成绩。 ( 3 ) 对教务系统中试卷进行分析,从而使试卷更能反映学生的实际水平。 采用k 一均值聚类分析算法从难度和区分度两个方面对试卷的质量进行分 析,得出试卷是否为合格试卷,以提高试卷质量,使考试更能反映学生的实 际水平,最终达到提高教学质量的目的。 1 4 论文的组织结构 第1 章绪论简要介绍课题研究的背景及意义、数据挖掘的发展史、国内 外研究现状和课题研究的主要内容以及论文的组织安排。 第2 章数据挖掘理论主要介绍数据挖掘的概念、分类、过程以及主要方 法和工具,同时阐述了数据挖掘的应用领域,并对目前研究的热点和今后的 发展方向做了论述。 第3 章数据预处理主要概述了数据预处理有关基础理论,并详尽的介绍 4 哈尔滨1 = 程大学硕士学位论文 了本文中所采用的预处理方法。 第4 章数据挖掘在教学管理中的应用首先改进了关联规则中的a p r i o r i 算法,并使用其分别找出入学英语成绩和在校英语成绩对英语四级考试成绩 的影响,对今后英语课的教学及学生英语的学习给予相应的指导。其次通过 使用决策树算法中的i d 3 算法进行了学生就业方向的预测,使得学生可以扬 长避短,在适合自己的领域做出更大的成绩。最后使用k 均值聚类分析方法 分析了试卷的质量,使得教务部门可以提高试卷质量,使试卷更适合学生。 哈尔滨1 = 程人学硕士学位论文 第2 章数据挖掘理论 2 1 数据挖掘的概念 数据挖掘( d a t am i n i n g ,简称d m ) 自从上个世纪9 0 年代以来,发展速 度非常之快,其定义几经变动,目前为大家广泛采用的是由u s a m a m f a y y a d 等给出的:数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感 兴趣的和对决策有潜在价值的知识和规则( 5 】。这些知识是隐含的、事先未知 的、但却是潜在有用的。数据挖掘所挖掘的对象也是多种多样的,它可以是 结构化的,比如我们所熟知的关系型数据库中的数据;也可以是半结构化的, 如文本、图形和图像等数据;甚至还可以是分布在网络上的异构型数据。 数据挖掘发现的知识一般可以表示为以下几种形式:概念( c o n c e p t s ) 、 规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等。决策者可以用这些 知识来辅助决策过程;相关领域专家也可以用其来修正原有的知识体系;同 时还可以把这些知识作为新知识转存到相应系统的知识存储机构中,如规则 库( r u l eb a s e ) 、专家系统( e x p e r ts y s t e m ) 等。 总之,数据挖掘是一门交叉性学科,涉及到机器学习、数理统计、神经 网络、数据库、模式识别、租糙集和模糊数学等相关技术f 6 】。数据挖掘要经 过数据采集、预处理、数据分析、结果表示等一系列过程,采用的算法主要 有;关联规则、决策树方法、人工神经网络、遗传算法、粗糙集方法、模糊 论方法、贝叶斯模型等。 2 2 数据挖掘的分类 数据挖掘可以按数据库的类型、挖掘对象、挖掘任务、挖掘方法与技术 几个方面进行分类: , 1 按数据库类型分类 数据挖掘主要有关系数据库挖掘、面向对象数据挖掘、事务数据库的数 据挖掘、多媒体数据库的数据挖掘、模糊数据挖掘、数据仓库的数据挖掘、 6 哈尔滨工程大学硕士学位论文 空间数据挖掘等多种不同的数据挖掘类型。 2 按数据挖掘对象分类 数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、 多媒体数据挖掘、w e b 数据挖掘等。 3 按数据挖掘任务分类 数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差监测、预 测等。按任务分类可将数据挖掘分为:关联规则挖掘、序列模式挖掘、聚类 数据挖掘、分类数据挖掘、偏差分析挖掘和预测挖掘等类型。 4 按数据挖掘的方法和技术分类【1 数据挖掘的技术和方法较多。包括归纳学习类、聚类方法类、统计分析 类、仿生物技术类、模糊数学类、可视化技术类等。 2 3 数据挖掘的过程 数据挖掘是多个步骤相互连接、反复进行人机交互的过程。数据挖掘的 基本过程和主要步骤如图2 1 所示【8 】,具体包括: 图2 1 数据挖掘的基本过程和主要步骤 其主要步骤如下: 1 问题定义:理解数据和实际的业务问题,提出问题并明确目标。 2 建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。 3 数据预处理:对数据进行初步的整理和清理,去除噪声和与操作主题 明显无关的数据,消除空白数据域。 4 数据转换:将数据转换成易于进行数据挖掘的数据存储形式。 5 选定数据挖掘功能:明确数据挖掘的目的。 哈尔滨工程大学硕士学位论文 6 数据挖掘:利用数据挖掘工具和方法对经过转换后的数据进行分析, 搜索或产生一个特定的感兴趣的模式或一个特定的数据集。 7 模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证发 现模式的正确性。 8 发现知识:把分析所得到的知识结合到运行系统中,获得这些知识的 作用或证明这些知识。用预先、可信的知识检查和解决知识中可能的矛盾。 2 4 数据挖掘的方法 1 关联规则( a s s o c i a t i o nr u l e ) 关联规则的挖掘就是为了在数据库中发现两个或两个以上数据项的关联 关系,是数据挖掘最先研究的问题之一,也是数据挖掘的主要研究方向和最 成熟的主要技术之一。它是一种简单、实用的分析规则【9 1 ,主要用于发现存 在于大量数据集中的数据之间关联性或相关性,从而描述了一个事物中某些 属性同时出现的规律和模式。 关联规则在数据挖掘领域应用很广泛,因为它不受只选择一个因变量的 限制,适合于在大型数据集中发现数据之间有意义的关系。数据挖掘领域中 关联规则最典型的应用是购物篮分析,其中的一个例子就是“9 0 的客户在购 买面包的同时也会购买牛奶”,其意义就是顾客在购买某些商品的时候有多大 可能会同时购买另外一些东西。一般用“支持度”和“可信度”两个阈值来 淘汰那些无用的关联规则。 关联规则可以按不同的角度进行分类,如可以根据规则中的变量类型分 为布尔型( - - 值型) 关联规则和数值型关联规则;根据规则中数据的抽象层 次可以分为单层关联规则和多层关联规则;根据规则所涉及的数据维数,可 分为单维关联规则和多维关联规则;另外还有一些对关联规则的加以语义约 束,限制规则左部或右部所必须包含某些字段的特殊类型的关联规则。 最经典的关联规则算法是1 9 9 4 年由r a g r a w a l ,i m i e li n s k i ,s w a m 等人提 出的a p r i o r i 算法【”】。( 该算法先挖出所有的频繁项集,然后由频繁项集产生 关联规则) 。 2 决策树( d e c i s i o nt r e e ) 决策树算法 1 l 】是一种以实际数据为基础的归纳学习算法,是数据挖掘的 r 哈尔滨工程大学硕士学位论文 一个活跃领域。决策树是一个可以自动对数据进行分类的树形结构,是树形 结构表示的知识,以一组输入属性描述对象,输出类似y e s n o 的结论。树 的每个内部结点代表对一个属性( 取值) 的测试,其分支就代表测试的每个 结果;而树的每个叶结点就代表一个类别,树的最高层结点就是根结点。决 策树算法主要是用来学习以离散型变量作为属性类型的学习方法。连续型变 量必须被离散化才能被学习【1 2 】。最基本的是基于信息熵的i d 3 算法【13 1 。在1 i ) 3 方法的基础上,后人又发展了各种决策树方法,如c 4 5 ,c 5 0 ,i d 4 ,c a r t , s l i q 等算法。 决策树的优点是:与其他模型相比,决策树的速度相对较快:决策树模 型简单且易于理解;决策树模型易于转换成s o l 语句;与其它算法相比,决 策树模型可以获得相近或更好的分类准确率。缺点是:对连续性的字段比较 难预测;对有时间顺序的数据,需要很多预处理的工作;当类别太多时,错 误可能就会增加的比较快;一般的算法分类的时候,只是根据一个字段来分 类。 3 遗传算法( g e n e t i ca l g o r i t h m ) 是由美国科学家j h h o l l a n d 于上个世纪6 0 年代提出的一种全局优化算 法,具有隐含的并行性、非线性求解和易于和其他模型结合等特点。模拟生 物自然选择和遗传机制,并采用遗传结合、遗传变异以及自然选择等设计方 法,将求解的问题通过一组遗传算子,在求解空间上按一定的随机规则迭代 搜索,直到求得问题的最优解,由3 个基本算子组成:选择( s e l e c t r e p r o d u c t i o n ) 、交叉( c r o s s o v e r ) 和变异( m u t a t i o n ) 【l “。 遗传算法在模式识别、神经网络、机器学习、工业优化控制、生物科学 和社会科学方面都有广泛的应用。目前遗传算法的研究侧重于算法的收敛性 证明、遗传算法与局部优化算法的结合、遗传算子的设计以及遗传算法在各 领域的应用研究。 4 聚类分析( c l u s t e r i n g ) 是一种寻求数据的自然聚集结构的重要方法,是概念描述和偏差分析的 先决条件。聚类分析就是将一组数据分组,使其具有最大的组内相似性和最 小的组间相似性。简单的说就是达到不同聚类中的数据尽可能不同,而同一 聚类中的数据尽可能相似。它与分类不同,分类时对于目标数据库中存在哪 9 哈尔滨工程大学硕士学位论文 些类这一信息我们是知道的,我们所要做的就是将每一条记录分别属于哪一 类标记出来;而聚类是在预先不知道目标数据库到底有多少类的情况下,希 望将所有的记录组成不同的类或者说“聚类”,并且使得在这种分类情况下, 以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最 大化。在很多应用中,由聚类分析得到的每一个聚类中的成员都可以被统一 看待。 根据聚类的数据情况,我们可以把聚类可以分为两类:对象聚类( q 型 聚类) 往往用距离或相似系数来度量相似性和属性聚类( r 型聚类) 常常根 据相似系数来度量相似性【b 】。 聚类分析的算法主要有划分方法、层次方法、基于密度方法、基于网格 方法和基于模型方法等。 5 神经网络方法( n e u r a ln e t w o r k ) 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供 了一种相对来说比较有效的简单方法。最早由心理学家和神经生物学家提出, 旨在寻求开发和测试神经的计算模拟。其原理是模拟人脑的神经元结构,以 m p 模型和h e b b 学习规则建立起前馈式网络、反馈式网络和自组织网络3 大 类神经网络模型。基于神经网络的数据挖掘工具对于非线性数据具有快速建 模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络 的知识体现在网络连接的权值上。神经网络方法用于非线性数据和含噪声的 数据时具有更大的优越性,比较适合于市场数据库的分析和建模,通过对市 场数据库中行业数据的精密分析,为市场人员提供顾客、用户、市场状况和 市场走势等方面的分析结果【l “。 2 5 数据挖掘的工具 随着数据挖掘技术的不断发展, 出来。而数据挖掘工具主要有两类: 挖掘工具。 数据挖掘的商业软件工具也逐渐被开发 特定领域的数据挖掘工具和通用的数据 特定领域的数据挖掘工具就是对任何领域都可以开发特定的数据挖掘工 具。在设计算法的时候,可以充分考虑到数据、需求的特殊性,并作出优化。 往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识 0 哈尔滨工程大学硕士学位论文 可靠度也比较高。例如,加州理工学院喷气推进实验室与天文科学家合作开 发的s k i c a t 系统,能够帮助天文学家发现遥远的类星体;i b m 公司的 a d v a n c e ds c o u t 系统就是针对n b a 的数据来帮助教练优化战术组合;芬兰赫 尔辛基大学计算机科学系开发的t a s a ,就能帮助预测网络通信中的警报。 通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处 理常见的数据类型。例如,s g i 公司开发的m i n e s e t 系统,m m 公司a l m a d e n 研究中心开发的q u e s t 系统,加拿大s i m o nf r a s e r 大学开发的d b m i n e r 系 统【1 7 】。下面简单介绍几种数据挖掘工具: ( 1 ) q u e s t q u e s t 是m m 公司a l m a d e n 研究中心开发的一个多任务数据挖掘系统, 目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。面 向大型数据库,包括挖掘关联规则、序列模式、聚类、分类规则和递增式挖 掘等,并设计了相应的并行算法。 ( 2 ) m i n e s e t m i n e s e t 是由s g i 公司和美国斯坦福大学联合开发的多任务数据挖掘系 统。它集成了多种数据挖掘算法和可视化工具( 如关联规则发现、回归模式 挖掘、分类器和聚类等) ,帮助用户直观地、实时地发掘、理解大量数据背后 的知识。该系统具有先进的可视化显示方法,支持多种关系数据库,多种数 据转换功能,系统操作简单、支持国际字符、可以直接发布到w e b 等特点。 ( 3 ) d b m i n e r d b m i n e r 是由加拿大s i m o nf r a s e 大学的韩家玮教授研究组开发 ( w w w d b m i n e r c o m ) 。这是一个交互式的、多层次挖掘系统,主要挖掘特征 规则、分类规则、关联规则和预测等。具有能完成多种知识的发现,综合了 多种数据挖掘技术,提供了交互式的类s q l 语言数据挖掘查询语言 d m q l ,可以与关系数据库平滑集成和实现了基于客户服务器体系结构的 u n i x 和p cw i n d o w s 版本的系统。 ( 4 ) s p s sc l e m e n t i n e s p s sc l e m e n t i n e 是一个丌放式数据挖掘工具,曾两次获得英国政府 s m a r t 创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、 评估到最终部署的全部过程,还支持数据挖掘的行业标准c r i s p d m 。 哈尔滨工程大学硕士学位论文 具有交互式可视化的用户界面,几乎所有的操作都可以在窗口下实现;具备 开放的数据库接口,支持多种类型的关系数据库、s p s s 文件、s a s 文件和 定界或等宽格式文本文件;提供了强大的发布功能,可以将数据挖掘模型甚 至整个数据挖掘流程导出至嵌入系统;提供了完善的数据流管理和项目管理 功能,可以对工作区域内的数据流、数据挖掘模型和结果进行有效的管理, 甚至可以对整个项目进行有效的管理, 项目文件进行管理也可以按照数据流、 掘项目进行管理。 ( 5 ) e n t e r p r i s em i n e r 既可以按数据挖掘的不同阶段对相关 结点、数据挖掘模型等方式对数据挖 是由s a s 公司开发的数据挖掘工具,是目前市场占有率较高的数据挖掘 产品,是数据获取工具、数据取样工具、数据筛选工具、变量转换工具、数 据挖掘工具、数据挖掘的评价工具、多种形式的回归工具、数据剖分工具、 决策树浏览工具和神经网络工具的集成。【1 8 】 如上所述,数据挖掘的工具很多,但数据挖掘是一个过程,只有将数据 挖掘工具提供的技术与企业的需求紧密结会,并在实施的过程中不断的磨合, 才能取得成功,我们在选择数据挖掘工具的时候,要全面考虑多方面的因素, 主要包括以下几点: 。 可产生的模式种类的数量:分类,聚类,关联等 。解决复杂问题的能力 。操作性能 数据存取能力 。和其他产品的接口 2 6 数据挖掘的应用领域 数据挖掘的历史虽然较短,但其应用领域却十分广泛,主要领域有以下 几个方面: ( 1 ) 针对d n a 数据分析的数据挖掘 目前数据挖掘已成为d n a 分析中的强有力工具,对d n a 分析的贡献主 要在以下方面:异构、分布基因数据库的语义集成;关联分析:同时出现的 基因序列的识别;路径分析( p a t ha n a l y s i s ) ;发现在疾病不同阶段的致因基 1 2 哈尔滨工程大学硕士学位论文 因;可视化工具和遗传数据分析。 ( 2 ) 针对金融数据分析的数据挖掘 在银行和金融机构中产生的金融数据往往相对比较完整,可靠,和高质 量,这就为系统化的数据分析和数据挖掘提供了切实的数据基础。主要应用 有:多维数据分析、数据挖掘设计和构造数据仓库;对目标市场( t a r g e t e d m a r k e t i n g ) 客户的分类与聚类;贷款偿还预测和客户信用政策分析;洗黑钱 和其它金融犯罪的侦破等。 ( 3 ) 零售业中的数据挖掘 零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售 数据如( 顾客购买历史记录,货物进出,消费与服务记录等等) 。其数据量在 不断地迅速膨胀,特别是在日益增长的w e b 或电子商务上的商业方式的方 便,流行的今天。如今许多商店都有自己的w e b 站点,顾客可以方便地联机 购买商品。零售数据为数据挖掘提供了丰富的资源。 ( 4 ) 电信业中的数据挖掘 电信业已经迅速地从单纯的提供地话和长话服务演变为提供综合电信服 务( 如语音,传真,寻呼,移动电话,电子邮件,图像,计算机和w e b 数据 传输,以及其它数据通讯服务) 。电信、计算机网络、因特网以及各种其它方 式的通讯和计算机的融合是目前的大势所趋。而且随着许多国家对电信业的 开放和新兴计算机与通讯技术的发展,电信市场正在迅速扩张并越发竞争激 烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗 用行为、更好地利用资源和提高服务质量是非常有必要的。 ( 5 ) 化工医药 从各种文献中自动提取有关化学反应的信息,发现新的有用的化学成分, 分析和解释有利于提高质量、改进产品功能和增加公司利润的重要数据;医 药公司通过挖掘巨大的化学物质和基因对疾病的影响的数据库来判断哪些物 质可能对治疗某种疾病产生效果。 1 3 哈尔滨- 丁程人学硕j :学位论文 2 7 数据挖掘研究的热点和主要发展趋势 2 7 1 数据挖掘研究的热点 从数据挖掘的研究成果分析来看,当前数据挖掘的研究熟点主要有: ( 1 ) 复杂数据源和数据类型的处理,包括更大型的数据库、更高的维数 和属性之间的更复杂的关系 ( 2 ) 多种形式的输入数据 ( 3 ) 用户参与和领域知识 ( 4 ) 验证技术 ( 5 ) 知识的表达和解释机制 ( 6 ) 知识的维护和更新 ( 7 ) 数据挖掘算法的有效性、伸缩性与可测性 ( 8 ) 与其他系统的集成【4 】f 2 0 】 2 7 2 数据挖掘的主要发展趋势 通过对已有文献分析,我们认为,数据挖掘将呈以下发展趋势: ( 1 ) 应用领域的探索和扩张 ( 2 ) 数据挖掘系统的交互性 ( 3 ) 隐私保护与信息安全 ( 4 ) w e b 挖掘【2 l 】 ( 5 ) 数据挖掘语言的标准化 ( 6 ) 可视化数据挖掘 ( 7 ) 不同领域的理论技术的融合 ( 8 ) 模型查询与优化的方法 ( 9 ) 多数据类型、容噪的、递增性的挖掘方法 ( 1 0 ) 专家参与和领域知识的指别【1 8 】【2 2 1 2 8 本章小结 本章首先阐述了数据挖掘的概念,然后依据不同方法对数据挖掘进行了 4 哈尔滨下程大学硕士学位论文 分类,接下来介绍了数据挖掘的过程,简述了数据挖掘的过程中使用的主要 方法技术,以及目前常用的数据挖掘工具,最后介绍了数据挖掘目前研究的 热点和主要的发展趋势。 堕笙堡三垦奎堂堡主堂堡丝苎 第3 章数据预处理 数据预处理是数据挖掘过程中的一个重要步骤,因为现实世界中的数据 是肮脏的,或者是不完整的( 感兴趣的属性没有值) 、含噪声的( 数据中存在 着错误、或异常即偏离期望值的数据) 和不一致的( 数据内涵出现不一致情 况) 【2 3 【2 4 1 。我们都知道没有高质量的数据,就没有高质量的挖掘结果,因此 在挖掘之前就一定要对数据进行预处理。数据预处理技术有很多,主要方法 包括:数据清理、数据集成、数据变换、数据离散化和概念分层。数据清理 可以填写空缺值、平滑噪声数据、识别删除孤立点和解决不一致性。数据集 成将数据由多个源合并成一致的数据存储,如数据仓库或数据立方体或文件。 数据变换主要是范化和聚集。数据离散化和概念分层可以进一步用于多抽象 层挖掘。 3 1 数据清理 数据清理就是通过消除原始数据集中的错误、噪声、缺损、不一致等元 组,来提高数据质量【25 1 。对于本课题的三个主题:英语四级成绩预测,学生 就业方向指导和试卷质量分析,其中的性别、科类、民族、地区、班主任等 字符型属性,可以把为空的属性置为“n u l l ”。 而对于成绩存在着缺少成绩( 由于学生留级、退学和未参加考试等) 和 成绩重复( 存在着补考现象) 等问题。这些数值型属性就必须要进行预处理。 一般我们可以采用如下方法处理空值和噪声: ( 1 ) 均值法。如果当前数据点是空值或噪声数据,则可采用均值法进行 处理。即用数据库中该属性已知的属性的均值填充空缺,具体为当前点前( 后) k ( k 可以自定义) 个不为空的数据点的平均值来替换。其公式为: 厂卜1,+ k、 c i = i c j + c jl + 2 k ( 3 - 1 ) ,一k a + l 其中,c i 表示当前数据点的值,c 表示当前数据点前( 后) 不为空的数 哈尔滨t 程人学硕士学位论文 据点,k 表示取多少个数据点。 ( 2 ) 对于具有类别标识的数据表,可以使用与给定元组属同一类的所 有样本的平均值。这种方法尤其在进行分类挖掘时使用。 ( 3 ) 平滑法。如果当前数据点是空值或噪声数据,则取出当前点前( 后) k ( k 可以自定义) 个不为空的数据点的加权平均值来替换。公式如下: ,一ii + k、厂f il + k、 c = l 彬q + qh + l ( 3 2 ) f ki + 1 i - k i + 1 其中,c i 、c i 和k 的含义与平均值法相同,w i 表示c i 数据点的权值 ( 4 ) 预测法。采用回归、拟合、插值、判定树归纳等方法,推断空值或 噪声数据属性最可能的取值。它通过考虑其它属性的值,最大限度的保持填 入的属性值和其它属性及属性值之间的联系。 ( 5 ) 频率统计法:此方法既可以用于离散属性,也可用于经过离散化的 连续属性的数据缺损处理。具体方法为:设数据库d 中的属性a 存在空值或 噪声数据,属性a 的值域为 v 。l ,v a 2 ,v 。) ,p ( v 。,) 表示值v 。在该信息系统中 出现的频率。可以用最大出现频率的值m a x p ( v 。i ) ) 来填充。 ( 6 ) 分箱法。分箱法通过考察“邻居”( 即周围的值) 来平滑存储数据 的值。该方法首先将排序后的数据分布到一些“箱”或“桶”中。因为分箱 方法参考相邻的值进行平滑,因此它进行局部平滑。通常可以使用平均值、 中值、边界值来平滑。图3 1 示意描述了平均值和边界值平滑的分箱技术。 首先对成绩数据进行排序,然后划分并存入等深的箱中( 我们假设箱的深度 为3 ) 。这时既可以按箱平均值平滑,也即箱中每一个值被箱中的平均值替换。 例如,箱l 中的值3 7 ,4 4 和6 9 的平均值是4 7 ,这样该箱中的每一个值被替 换为4 7 。同理,可以使用按箱中值平滑,此时,箱中的每一个值被箱中的中 值替换。也可以按箱的边界值平滑,箱中的最大和最小值被视为箱边界。箱 中的每一个值都被最近的边界值替换。一般来说,宽度越大,平滑效果越大。 分箱法中的箱也可以是等宽的,每个箱的取值间距相同,与就是左右边界之 若。 哈尔滨工程大学硕士学位论文 图3 1 分箱技术 3 2 数据集成 数据挖掘常常涉及到来自多个数据源的数据,这样就需要我们把这些数 据结合在一起形成统一的数据集合,也就是数据集成。在数据集成过程中我 们主要考虑到以下几个方面问题: ( 1 ) 模式集成:即如何使来自多个数据源的现实世界的实体相互匹配, 这就涉及到实体识别问题。例如:如何确定一个数据库中的“s t di d ”与另一 个数据库中的“s t dn o ”是否表示同一实体。一般可以使用数据库与数据仓 库包含元数据来帮助避免在模式集成时发生错误。 ( 2 ) 冗余问题:若一个属性可以由其它属性推演出来,那么这个属性就 是冗余属性。比如:一个学生数据表中的总成绩、平均成绩等属性,就是冗 余属性,显然它可以根据学生的各成绩属性计算出来。除此之外属性命名的 不一致也会导致数据集成后出现不一致情况。我们可以利用相关分析来发现 一些数据冗余情况。例如:给定两个属性,则可以根据这两个属性的数值分 析出这两个属性间的相互关系。属性之间的相互关系可以根据以下计算公式 来分析 _ 矿型( 塑n - 1 ) g 坦a o 二b 里 ( 3 。) 其中n 表示元组的个数,j 和百分别代表属性a 和b 的平均值;oa 和 ub 分别表示属性的标准方差。如果r a , b 0 ,则属性a ,b 之间是正关联,也 哈尔滨工程大学硕士学位论文 就是a 增加,b 也增加;该值越大,说明两个属性的正关联关系越密。如果 轧b = 0 ,则两个属性相互独立,没有关系。如果r a , b h 1 1 = = h 0 ,其中h l 表示为最原始的 概念集;h i 1 表示为比h ,更高一层的概念;h 0 为最高一层的概念。 概念分层主要有4 种类型:模式分层是数据库模式属性间的全序或偏序; 集合分组分层是将给定的属性或维的值组织成常量组或区间值。组之间可以 定义全序或偏序;操作导出分层是根据用户、专家或数据挖掘系统说明的操 作分层;基于规则的分层是指整个概念分层或它的一部分由一组规则定义, 并且根据当前数据库数据和规则定义动态地计掣2 ”。 数值属性( 成绩等) 的概念分层,有很多种方法,分箱法己经在前面数 据清理中描述过,下面介绍另一种方法: 自然分段:用户需要将数值区间划分为归一的、易读懂的间隔,以使这 些间隔看起来更加自然直观。3 - 4 5 规则可以用于将数值数据划分成相对一 致和“自然”的区间。该规则根据最重要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论