




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学号:哈尔滨师范大学学士学位论文 题 目 关联规则在学生成绩管理中的应用研究学 生 指导教师 年 级 2004级专 业 计算机科学与技术系 别 计算机科学与技术学 院 计算机科学与信息工程哈 尔 滨 师 范 大 学学士学位论文开题报告论文题目:关联规则在学生成绩管理中的应用研究学生姓名:指导教师:年 级:2004级专 业:计算机科学与技术2008年 2 月课题来源: 指导教师指定课题与学生自主选择相结合课题研究的目的和意义:原有的教学管理系统并没有从这些数据中挖掘出所隐含的规律(比如学科之间的关系等),因而尽管我们有如此丰富的数据,但我们却被淹没在这数据的海洋之中。教师和决策者在进行决策时,都缺乏切实的数据作为我们决策依据。所以我们有必要对高校数据库中的大量数据进行分析挖掘,从而提取出我们感兴趣的知识,以改善整个学校的管理,提高管理效率和管理效果。数据挖掘技术正可以为我们解决这一问题,本文就使用数据挖掘技术挖掘教务系统中的数据,从而提取出有利于教学质量和学生素质提高的信息。从而将数据坟墓转换成知识金块。 原有的教学管理系统并没有从这些数据中挖掘出所隐含的规律(比如学科之间的关系等),因而尽管我们有如此丰富的数据,但我们却被淹没在这数据的海洋之中。教师和决策者在进行决策时,都缺乏切实的数据作为我们决策依据。所以我们有必要对高校数据库中的大量数据进行分析挖掘,从而提取出我们感兴趣的知识,以改善整个学校的管理,提高管理效率和管理效果。数据挖掘技术正可以为我们解决这一问题,本文就使用数据挖掘技术挖掘教务系统中的数据,从而提取出有利于教学质量和学生素质提高的信息。国内外同类课题研究现状及发展趋势:数据挖掘技术的研究在国外已经有很多年的历史,而且己经取得了丰硕的成果。世界上研究数据挖掘的组织、机构和大学也有很多,比如著名的大学有:卡内基梅隆大学就有机器制造DM、互联网DM和多媒体数据库DM三个研究中心)、斯坦福大学和麻省理工学院等。许多软件公司研制出数据挖掘软件产品,并在北美、欧洲等国家得到应用。例如,密西根州立大学Erick Goodman的遗传算法,IBM公司开发的QUEST和Intelligent Miner, Angoss Software开发的基于规则和决策树的Knowledge Seeker, Advanced Software Application开发的基于人工神经网络的DBProfile,加拿大Simon Fraser大学开发的DBMinner, SG工公司开发的MineSet等。在国外的高校教学管理中,数据挖掘也已成为提高教学管理质量与水平的一种有力工具。如美国学校能够以85%的精确度去预测学生的升学率,这样可以把注意力集中在辍学风险比较大的学生身上。与国外相比,国内对数据挖掘与知识发现的研究稍晚。1997年我国国家自然科学基金首次支持对数据挖掘领域的研究项目。国内的许多科研单位和高等院校也竞相开展数据挖掘的基础理论及其应用研究并且取得了比较丰硕的研究成果。引起了学术界的高度重视,成为信息科学界的热点课题。课题研究的主要内容和方法,研究过程中的主要问题和解决办法:1课题研究的主要内容和方法本文主要是在分析了目前学校教学管理系统的不足之后,将数据挖掘技术应用到教学管理系统中,通过在教学系统中的具体挖掘实践,得到许多有价值的信息,这些信息可以帮助学校更好地对学生进行培养,更准确的掌握学生的表现以及更好的指导课程的安排。具体研究内容主要涉及到以下四方面: (1)关联规则的基本概念和问题描述。(2)数据预处理技术及常用方法,并针对教学成绩数据的特点,给出了一种相应的处理方法。(3)研究了关联规则的基本理论,描述并分析了经典关联规则算法Apriori算法。研究了基于数组的改进Apriori算法。 (4)结合学生成绩数据的特点,将数据挖掘技术和关联规则算法运用到学生成绩管理中:提出学生培养模型的概念并对其进行了求解,探讨了影响学生成绩的部分因素;以实际数据源为输入,在分析课程间影响关系的基础上,将所挖掘的关联规则作为标准,提出课程成绩的预警模型;最后利用SOL为开发工具,以学生成绩为数据源,运用Apriori算法实现了上述目标,并提出了进一步完善的目标和设想。2研究过程中的主要问题和解决办法 本文主要使用Apriori算法,但是该算法本身存在着许多局限性,因此依据本课题的特点,借鉴了基于数组的改进的Apriori算法。取得了较好的教学效果。另外没有高质量的数据就没有高质量的挖掘结果,本文对数据进行了预处理操作,得出的效果较好。课题研究起止时间和进度安排:2008.12008.2 查阅相关的资料和文献、学习数据挖掘工具2008.2 开题2008.22008.3 研究数据挖掘算法(或改进已有算法),并根据本课题研究内容确定所使用的算法,进行实际的程序设计,对数据进行分析和挖掘。2008.32008.4 整理文档、撰写论文2008.5 完成论文终稿、准备毕业答辩课题研究所需主要设备、仪器及药品: 计算机一台外出调研主要单位,访问学者姓名: 黑龙江绥阳林业中学 张亚秋指导教师审查意见:指导教师 (签字) 年 月 教研室(研究室)评审意见:_教研室(研究室)主任 (签字) 年 月系(部)主任审查意见:_系(部)主任 (签字) 年 月学 士 学 位 论 文 题 目 关联规则在学生成绩管理中的应用研究学 生 指导教师 年 级 2004级专 业 计算机科学与技术系 别 计算机科学与技术系学 院 计算机科学与信息工程学院 哈尔滨师范大学2008年5月 35摘要:关联规则是数据挖掘的一种重要模式。本文在研究关联规则挖掘技术的基础上,开展了基于关联规则的学生成绩数据的分析和挖掘研究,主要内容如下: 1.综述了数据挖掘的研究背景、研究与应用现状。 2.综述了数据预处理技术及常用方法,并针对教学成绩数据的特点,给出了一种相应的处理方法。 3.研究了关联规则的基本理论,描述并分析了经典关联规则算法Apriori算法。提出一个基于数组的改进Apriori算法。4.结合学生成绩数据的特点,将数据挖掘技术和关联规则算法运用到学生成绩管理中:提出学生培养模型的概念并对其进行了求解,探讨了影响学生成绩的部分因素;并提出了进一步完善的目标和设想。关键词:关联规则 数据挖掘 学生模型 成绩分析目 录第一章 绪论11.1数据挖掘技术研究背景及研究意义11.2数据挖掘的发展历史及国内外研究现状21.3数据挖掘技术在高校教学中应用的研究现状及意义41.4本文的研究内容及论文结构51.5本章小结5第二章 数据挖掘技术62.1数据挖掘与知识发现62.2数据挖掘过程62.3结果的解释和评估72.4数据挖掘的分类72.5数据挖掘的任务82.6数据挖掘的方法和技术92.7本章小结11第三章 经典关联规则算法研究123.1研究背景123.2关联规则理论123.3关联规则相关算法及分析143.4基于规则约束的成绩数据挖掘183.5关联规则挖掘中应注意的问题183.6本章小结18第四章 关联规则在学生成绩管理中的应用194.1学生培养模型194.2基于课程分析的成绩预警模型204.3本章小结23第五章 结束语245.1总结245.2今后研究方向展望245.3本章小结25参考文献26Abstract27第一章 绪论1.1数据挖掘技术研究背景及研究意义 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。如果用芯片集成度来衡量微电子技术,用CPU处理速度来衡量计算机技术,用信道传输速率来衡量通信技术,根据摩尔定律,它们都是以每18个月翻一番的速度在增长,这一势头已经维持了十多年。在美国,广播达到5000万户用了38年;电视用了13年;Internet拨号上网达到5000万户仅用了4年。全球IP网发展速度达到每6个月翻一番,国内情况亦然。1999年初,中国上网用户为210万,现在已经达到600万。网络的发展导致经济全球化,在1998年全球产值排序前100名中,跨国企业占了51个,国家只占49个。有人提出,对待一个跨国企业也许比对待一个国家还要重要。在新世纪钟声刚刚敲响的时候,回顾往昔,人们不仅要问:就推动人类社会进步而言,历史上能与网络技术相比拟的是什么技术呢?有人甚至提出要把网络技术与火的发明相比拟。火的发明区别了动物和人,种种科学技术的重大发现扩展了自然人的体能、技能和智能,而网络技术则大大提高了人的生存质量和人的素质,使人成为社会人、全球人。现在让我们来看看网络之后的下一个技术热点是什么。让我们来注意一些身边俯拾即是的现象:纽约时报由60年代的1020版扩张至现在的100200版,最高曾达1572版;北京青年报也已是1640版;市场营销报已达100版。然而在现实社会中,人均日阅读时间通常为3045分钟,只能浏览一份24版的报纸。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。面对这一挑战,数据开采和知识发现(DMKD)技术应运而生,并显示出强大的生命力。 并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。 随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着因特网(Internet)的出现和发展,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。这样,展现在人们面前的己不是局限于本部门,本单位和本行业的庞大数据库,无限增加的数据量。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“信息爆炸但知识贫乏”的现象。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,从数据库中发现知识(Knowledge Discovery inDatabases)及其核心技术一数据挖掘(Data Mining)便应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘(DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术的应用领域十分广阔,它可以从关系数据库、数据仓库、文本和多媒体数据库、事务数据库和互联网等各种数据源上设法获取诸如分类模型、聚类模型、回归模型、关联模型和时间序列模型等多种知识模型。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。目前,数据挖掘技术在货篮数据分析、金融风险预测、产品质量分析、电信、分子生物学、基因工程研究、Internet站点访问模式发现以及信息搜索等领域得到了广泛的应用。数据挖掘技术被认为是数据库和人工智能领域中研究、开发和应用最活跃的分支之一,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成了新的技术热点。为迎接前一节中的这些挑战,来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据类型的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到高潮。特别地,数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。 一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。1.2数据挖掘的发展历史及国内外研究现状数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点.机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题.随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。随着在80年代末一个新的术语,它就是数据库中的知识发现,简称KDD(Knowledge discovery in database).它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。但最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。数据挖掘是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程就是将一些己知的并己被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题的。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。60年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。80年代末,一个新的术语一一数据库中的知识发现(KDD)一一出现,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而数据挖掘(DM)则用来描述使用挖掘算法进行数据挖掘的子过程。从数据库中发现知识(KDD)一词首次出现在1989年举行的第十一届国际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的KDD国际研讨会己经召开了多次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其它学会、学刊也纷纷把数据挖掘与知识发现列为会议议题或出版专刊,成为当前国际上的一个研究热点。当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使DMKD的应用得以普遍推广。预计在本世纪,DMKD的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互; 研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining; 加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。 1.3数据挖掘技术在高校教学中应用的研究现状及意义数据挖掘能做以下六种不同事情(分析方法): 分类 (Classification) 估值(Estimation)预言(Prediction) 相关性分组或关联规则(Affinity grouping or association rules) 聚集(Clustering) 描述和可视化(Des cription and Visualization) 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等) 数据挖掘技术在商业、金融业以及企业的生产、市场营销等方面都得到了广泛的应用,而在教育领域应用相对较少,高校中对教师信息、学生信息、成绩等数据的处理还一般停留在简单的数据的备份和查询阶段。这些教学管理系统,多半是以台帐管理为主的OLTP系统,缺乏综合分析,辅助决策的能力;并且对其历史积累的海量信息中隐含知识的利用无能为力。数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。有价值对商业而言,不外乎三种情况:降低开销;提高收入;增加股票价格。近年来随着高校的不断扩招,学生人数大幅度增加,给高校学生管理、教学工作带来了严峻考验,传统的教学管理手段己逐渐不能适应社会的发展。随着数据挖掘技术的成熟及应用领域的不断扩展,不少高校研究人员已开始研究将数据挖掘技术应用于.高校的教学、管理中,例如,将数据挖掘技术应用于课堂教学评价中,通过找出课堂效果与教师职称、年龄等因素之间的内在联系,以有效地指导教学工作;通过对毕业生数据库进行数据挖掘研究,得到了有益于高等学校教学管理决策及毕业生就业指导的挖掘结果;在制定人事激励制度时,为了针对不同类别的教师建立有针对性的制度,可以应用分类和关联规则方法挖掘隐含的规则,从而为高校管理决策提供科学依据等等。总之,将数据挖掘技术应用于学校的教学、管理中,对提高学校教学管理水平起到了很好的指导作用,而且采用先进技术对考试过程和教学环节中产生的数据进行多层次、多角度的分析,利用分析结果辅助教学决策是保证教学质量、提高学生素质的必然要求。数据挖掘这件事情成为可能的关键一点是计算机性能价格比的巨大进步。计算机计算能力价格的降低同样非常显著。每一代芯片的诞生都会把CPU的计算能力提高一大步。内存RAM也同样降价迅速,拥有上G内存的服务器已经不是什么新鲜事了。在单个CPU计算能力大幅提升的同时,基于多个CPU的并行系统也取得了很大的进步。目前几乎所有的服务器都支持多个CPU,这些SMP服务器簇甚至能让成百上千个CPU同时工作。基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。如果你有一个庞大而复杂的数据挖掘问题要求通过访问数据库取得数据,那么效率最高的办法就是利用一个本地的并行数据库。所有这些都为数据挖掘的实施扫清了道路,随着时间的延续,我们相信这条道路会越来越平坦。1.4本文的研究内容及论文结构高等学校多年来的教学和管理工作积累了大量的数据,目前这些数据还未能得到有效利用,只是一个待开发的“宝藏”。鉴于社会对高等学校发展的需求和目前高校数据管理现状,利用这些数据理性地分析学校各方面工作的成效以及学生培养过程中的得失变得十分重要。本文主要研究在高校扩招、师生比过大的教学条件下,教师如何利用丰富的信息资源,采用数据挖掘技术,获得辅助决策知识,指导教学,从而进一步提高教学质量。本文的研究内容主要包括两个方面:一是考虑一些主客观因素尤其是学生的入校成绩对学生毕业成绩的影响并建立起相应的学生培养模型,为科学地进行学生管理提供了辅助信息;二是通过对某班学生在校各门课程成绩的分析,挖掘出课程间的有趣规则,提出了基于课程分析的成绩预警模型,为今后的教学课程设置提供了参考,同时对于那些易导致学生留级、无学位、退学的课程能够显示出来,当这些课程出现问题时,能对学生起到预警作用。 论文的结构: 第一章绪论。主要介绍了本论文的研究背景和研究意义,综述了数据挖掘的理论渊源、发展现状,以及国内外数据挖掘的发展情况。 第二章数据挖掘技术。主要介绍数据挖掘的基本知识,包括数据挖掘的过程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常用技术和方法。 第三章经典关联规则算法研究。主要介绍数据挖掘中关联规则的基本概念、经典算法及研究现状。提出一个基于数组的改进Apriori算法。 第四章关联规则在学生成绩管理中的应用。主要探索在学生成绩管理中数据挖掘关联规则的应用,提出了学生培养模型并给出求解方案;以某班学生在校的各门课程成绩为例,给出了基于课程分析的成绩预警模型,完整地实现了数据关联规则挖掘的全过程。 第五章结束语。主要总结了笔者在论文研究阶段的工作,论文的创新点。并对数据挖掘技术在高校教学管理中的进一步研究进行了分析和展望。1.5本章小结 本章介绍了本论文的研究背景和研究意义,综述了数据挖掘的理论渊源、发展现状,以及国内外数据挖掘的发展情况。下章将介绍数据挖掘的基本知识,包括数据挖掘的过程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常用技术和方法。第二章 数据挖掘技术本章主要介绍数据挖掘的相关知识,包括数据挖掘与知识发现的概念、数据挖掘的过程、数据挖掘的任务、数据挖掘的分类、数据挖掘的对象,最后介绍了数据挖掘的常用技术和方法。2.1数据挖掘与知识发现数据挖掘(Data Mining,简称DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又有潜在的有用信息和知识的过程,是数据库中的知识发现(Knowledge Discovery inDatabases,简称KDD)的核心。知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步,它用专门算法从数据中抽取模式。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。因为数据挖掘算法的好坏将直接影响到KDD所发现知识的准确性,而且目前KDD研究大部分集中在数据挖掘算法和应用的技术上,因此人们往往不严格区分数据挖掘和数据库中的知识发现,两者互为使用。一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。2.2数据挖掘过程KDD过程可以概括为三部分:数据预处理(DataPreprocessing),数据挖掘(Data Mining)及结果的解释和评估。2.2.1数据预处理数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。数据预处理又可分为四个步骤:数据清洗(Data Cleaning)、数据集成(Data Integration)、和数据变换(Data Transformation)、数据消减(Data Reduction). 数据清洗处理过程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。 数据集成就是将来自多个数据源(如:数据库、文件等)数据合并到一起。由于描述同一个概念的属性在不同数据库取不同的名字,在进行数据集成时就常常会引起数据的不一致或冗余。大量的数据冗余不仅会降低挖掘速度,而且也会误导挖掘进程。因此,在数据集成中还需要注意消除数据的冗余。 数据转换主要是对数据进行规格化操作。如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续型数据,以便于神经网络计算。数据消减的目的就是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。现有的数据消减包括:(1)数据聚合 (2)消减维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数;(3)数据压缩(4)数据块消减2.2.2数据挖掘数据挖掘阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的挖掘算法。选择实现的算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘:二是要根据用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识,而有的用户只是希望获取准确度尽可能高的预测型知识。选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。2.3结果的解释和评估数据挖掘阶段发现出来的模式,经过评估可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要退回到发现过程的前面阶段,如重新选取数据,采用新的数据变换方法,设定新的参数值,甚至换一种挖掘算法等。另外,KDD由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“IF THEN”规则 。 数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性;二是用于挖掘的数据的质量和数量(数据量的大小)。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘的结果是不会好的。整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数据不太好。或是使用的挖掘技术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始。2.4数据挖掘的分类 数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术等几个方面进行分类: 1.按数据库类型分类 数据挖掘主要是在关系数据库中挖掘知识。随着数据库类型的不断增加,逐步出现了不同数据库的数据挖掘。现在,除关系数据库挖掘外,还有模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。 2.按数据挖掘对象分类 数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒体数据挖掘、Web数据挖掘等。由于对象不同,挖掘方法的差异很大。3.按数据挖掘任务分类数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差监测、预测等。按任务分类可将数据挖掘分为:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差分析挖掘和预测挖掘等类型。 4.按数据挖掘的方法和技术分类 数据挖掘的技术和方法较多。包括归纳学习类、聚类方法类、统计分析类、仿生物技术类、模糊数学类、可视化技术类等。2.5数据挖掘的任务 数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差分析等。 1.关联分析(Association Analysis) 两个或两个以上数据项的取值之间存在某种规律性,就称为关联,可以建立起这些数据项的关联规则。数据关联是数据库中存在的一类重要的、可被发现的知识,它反映一个事件和其他事件之间依赖或关联。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。例如,买面包的顾客中90%还买牛奶,这就是一条关联规则。在商场中将这两样物品摆放在一起销售,将会提高销售量。在大型数据库中,这样的关联规则可以产生很多,这就需要进行筛选。一般用“支持度”和“可信度”两个闭值来淘汰那些无用的关联规则。2.聚类分析(Clustering) 聚类是把数据按照它们的相似性归纳成若干类别,同一类别中的数据距离较小、彼此相似,不同类别中的数据距离偏大、彼此相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。 聚类方法包括统计分析方法、机器学习方法和神经网络方法等。 在统计分析方法中,聚类分析是基于距离的聚类。这种聚类分析方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。在机器学习方法中,聚类是无导师的学习。此时距离是根据概念的描述来确定的,又称为概念聚类,当聚类对象动态增加时,概念聚类则称为概念形成。 在神经网络中,自组织神经网络方法用于聚类。如ARI,模型、Kohonen模型等,这是一种无监督学习方法。当给定距离阐值后,各样本按闽值进行聚类。 3.分类(Classification) 分类就是找出一个类别的概念描述,并用这种描述来构造模型(一般用规则或决策树模式表示)。类别的概念描述代表着这类数据的整体信息,也就是该类的内涵描述。 类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述,辨别性描述是对两个或多个类之间的区别的描述。 分类的过程是:分析输入数据,通过在训练集中的数据所表现出来的特性,经过有关算法,为每一个类找到一种准确的描述或者模型,并使用这种类的描述对未来的测试数据进行分类。 4.预测(Predication) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。近年来,发展起来的神经网络方法(如BP模型),实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测既可以用于连续数值,也可以用于离散数值。 5.时序模式(Time-Series Pattern) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分比(最小支持度闽值)的规则。这些规则会随着形势的变化作适当的调整。时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方法,要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。 6.偏差分析(Deviation)数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。2.6数据挖掘的方法和技术 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法及可视化技术,以数据库为研究对象,形成了数据挖掘的方法和技术。数据挖掘的方法和技术可分为以下六大类。 1.归纳学习法 归纳学习法是目前重点研究的方向。从采用的技术上看,分为信息论方法和集合论方法。 (1)信息论方法(决策树方法) 信息论方法是利用信息论的原理建立决策树。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解。该类方法的实用效果好,影响较大。由于该方法最后获得的知识表示形式是决策树,故一般称它为决策树方法。这种方法一般用于分类任务中。信息论方法中较有特色的方法有:ID3, IBLE方法。 (2)集合论方法 集合论方法是开展较早的方法。近年来,由于粗集理论的发展使集合论方法得到了迅速的发展。这类方法中包括:覆盖正例排斥反例方法(典型的方法有AQ系列方法)、概念树方法和粗糙集方法。 2.聚类方法 聚类分析是直接比较样本中各样本之间的距离,将距离较近的归为一类,将距离较远的分在不同类中。它把一个给定的数据对象集合分成不同的簇,属于无监督分类法。其中较有特色的方法有:K-means(k-平均值)、Clara算法、BIRCH算法、Chameleon(变色龙)算法、LIQUE算法等。. 3.统计分析方法 统计分析方法是利用统计学原理对数据库中的数据进行分析的方法,统计分析既是一门独立的学科,也作为数据挖掘的一大类方法。统计分析方法包括有:常用统计(如:求大量数据中的最大值、最小值、总和、平均值等)、相关分析(求相关系数来度量变量间的相关程度)、回归分析(求回归方程来表示变量间的数量关系)、差异分析(从样本统计量的值得出差异,来确定总体参数之间是否存在差异)、判别分析(建立一个或多个判别函数,并确定一个判别标准。对未知对象利用判别函数将它划归某一个类别)、Bayes网络(利用联合概率和Bayes公式所描述的各网络变量间的因果关系来进行数据分析)。 4.仿生物技术 生物技术典型的方法是神经网络方法和遗传算法。这两类方法已经形成了独立的研究体系,它们在数据挖掘中也发挥了巨大的作用。 (1)神经网络方法 它是模拟了人脑神经元结构,以MP模型和Hebb学习规则为基础的,建立了三大类多种神经网络模型(前馈式网络、反馈式网络、自组织网络)。神经网络的知识体现在网络连结的权值上,是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或者是累加计算)。当需要从复杂或不精确数据中获得概念比较困难的时候,利用神经网络技术特别有效。经过训练后的神经网络就像是具有某种专门知识的“专家”,因此可以像人一样从经验中学习。 (2)遗传算法这是模拟生物进化过程的算法。它由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。遗传算法已在优化计算和分类机器学习方面发挥了显著的效果。 5.可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如把数据库中多维的数据变成多种图形,这对于揭示数据中的状况、内在本质以及规律性起到很强的作用。 可视化数据挖掘的目的是使用户能够交互地浏览数据及挖掘过程,提高数据挖掘效果。可视化技术在数据挖掘的各个阶段都扮演着重要角色。如在数据准备阶段,使用散点图、直方图等统计可视化技术显示源数据,可以对数据有初步的了解,为更好的选取数据打下基础。在挖掘阶段,用可视化形式描述各种挖掘过程,从中用户可以看出数据从哪个数据仓库或数据库中抽取出来,怎样抽取以及怎样预处理,怎样挖掘等。在表示结果阶段,用可视化技术使发现的知识更易于理解。 6.模糊数学方法 由于模糊性是客观的存在,而且系统的复杂性愈高,使精确化能力便愈低,这就意味着模糊性愈强。这是Zadeh总结出的互克性原理。 利用模糊集合理论可对实际问题进行模糊评判、模糊决策、模糊模式识别、模糊关联规则和模糊聚类分析。 7.其它的方法还有许多其它的方法如回归方法、最近邻方法、SVM等,也常被一些特定领域广泛采用。数据挖掘技术实现在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。数据的存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。数据的展现 在数据展现方面主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。数据挖掘与数据仓库融合发展数据挖掘和数据仓库的协同工作,一方面,可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 员工心理健康每日一句鼓励语
- 水华防治成本效益比分析报告
- 道岔钳工特殊工艺考核试卷及答案
- 不锈钢真空容器制作工技术考核试卷及答案
- 苏式园林建筑方案设计
- 农村小区化粪池施工方案
- 服装直播创业方案咨询
- 手绘建筑立面配色方案设计
- 水利工程施工监理人员岗位职责标准
- 元宵节祝福语创意大全
- 小红书介绍教学课件
- GB/T 45808-2025眼科光学接触镜和接触镜护理产品基于接触镜结合接触镜护理液评价其相互作用的细胞毒性试验
- 新闻传播学媒介素养知识
- 党务工作培训考试试题及答案
- T/CADBM 63-2022建筑室内窗饰产品百叶帘
- 天津市建华中学2025-2025学年七年级上学期期末考试数学试卷
- 老年心房颤动诊治中国专家共识2024版
- 2025至2030中国氨基酸市场行情监测与发展前景研究报告
- 2025-2030全球及中国自动制动系统行业市场现状供需分析及投资评估规划分析研究报告
- 面馆员工制度管理制度
- 初中英语仁爱版单词表(按单元顺序)(七至九年级全6册)
评论
0/150
提交评论