【毕业学位论文】(Word原稿)基于数据挖掘的试卷分析系统的研究与实现-软件工程_第1页
【毕业学位论文】(Word原稿)基于数据挖掘的试卷分析系统的研究与实现-软件工程_第2页
【毕业学位论文】(Word原稿)基于数据挖掘的试卷分析系统的研究与实现-软件工程_第3页
【毕业学位论文】(Word原稿)基于数据挖掘的试卷分析系统的研究与实现-软件工程_第4页
【毕业学位论文】(Word原稿)基于数据挖掘的试卷分析系统的研究与实现-软件工程_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 (专业学位) 基于 数据挖掘 的 试卷分析系统的 研究 与实现 姓 名: 学 号: 所在院系:软件学院 职业类型:工程硕士 专业领域:软件工程 指导教师: 副指导教师: 二 一三年 三 月 2 A in 1021170147 2013 基于数据挖掘的试卷分析系统的研究 同 济 大 学 4 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的 复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 年 月 日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 年 月 日同济大学 硕士学位论文 摘要 I 摘 要 考试是教学过程中的重要环节,是反映及评估教学质量的重要手段。通过 从试卷和成绩管理的数据中进行数据挖掘以发现知识、获取有用信息的一种重要应用,是对教育技术的丰富与发展,对指导教学、促进素质教育具有积极的意义。 试卷分析系统是用于对学生考试成绩进行管理,并以学生成绩为原始数据,根 据教育测量学和教育统计学原理,对相应的试卷进行科学分 析的系统。 系统建立在计算机自动化的基础上,主要通过系统设计的成绩录入模块和成绩分析模块等,对学生成绩进行管理和统计。最后的分析结果以直观、易懂的表格形式或图形界面展示给用户,使用户可以很容易地从结果中看出试卷的质量、学生的学习效果以及老师的教学效果,大大地提高了工作效率,为完善教学管理做出贡献 已成功地应用到了多个研究领 域 ,但它在教育领域中应用还不够深入。通过对数据挖掘技术的相关分析与比较, 选择了统计分析、关联规则、聚类分析和模糊论的方法,作为主要的数据挖掘方法, 将数据挖掘技术与统计分析相结合,从海量成绩数据中提 取 出隐藏于其中的有用信息。 挖掘的任务是从中进行基于总结规则的挖掘,就是从用户指定的数据库中以不同的角度或不同的层次上采掘出一系列的统计结果,如分布情况、关系,对比、显著性检验等,采掘结果用交叉表,特征规则,关联规则,统计的曲线、图表等表示, 完成不同情况下的成绩查询、预测及对比分析,实现学生成绩分析报告、 试 卷质量评价报告及质量分析表的自动生成。 在此基础上,完成了应用系统的开发,达到了预期设计目的。 通过在试卷分析系统中的具体挖掘实践,得到了许多有价值的信息,这 些信息对教师改进教学,提高试卷质量 ,帮助学校更好地进行学生的培养 将起到 积 极作用。 关键词 : 试卷分析系统 , 数据挖掘 , 模糊聚类分析 , 模糊模式识别 , 统计分析 I is an in of a of of of of in to to an is a of on of is of is to to of of in of In on of of so of in of an or in of to to so be of in of as as of s In to to of in of of in an to a of it is in of is of as of in to of of in a of or a a of as of so of of so of of of of of on of of On to II is to in in of a of to of to to to a 济大学 硕士学位论文 基于数据挖掘的试卷分析系统的研究 录 摘 要 . I . 录 . 1 章 绪 论 . 1 究背景及意义 . 1 卷分析技术的研究现状及发展趋势 . 2 究内容 . 4 文的组织结构 . 5 第 2 章 数据挖掘技术 . 6 据挖掘的概念 . 6 据挖掘的过程 . 7 据挖掘的分类 . 9 据挖掘的方法 . 9 结 . 3 章 试卷分析系统的分析 . 12 统需求分析 . 12 统功能模块图 . 12 卷分析系统相关技术分析 . 14 育测量理论 . 14 3 3 小结 . 28 第 4 章 试卷分析系统设计与实现 . 29 卷分析系统开发环境简介 . 29 统设计 . 30 据结构设计 . 30 统功能设计 . 33 计分析在试卷分析中功能的实现 . 35 据挖掘技术在试卷分析中功能的实现 . 40 糊聚类分析 . 40 糊模式识别 . 43 于 2012年 C 语言试卷分析 . 46 语言试卷的基本情况 . 46 度与区分度分析 . 46 第 1 章 绪论 V 结 . 48 第 5 章 系统测试与分析 . 50 试环境 . 50 . 50 . 51 能测试分析 . 52 卷分析聚类实例 . 52 于贴近度的模糊模式识别实例 . 54 . 54 第 6 章 总结与展望 . 56 结 . 56 究展望 . 57 致 谢 . 58 参考文献 . 59 个人简历、在读期间发表的学术论文与研究成 果 . 63 第 1 章 绪论 1 第 1 章 绪论 考试是教学过程中的重要环节,是反映及评估教学质量的重要手段。 考试的目的是为了检验受教育者在教学过程中是否达到预定的教育目标,也是为了评定教学质量及各种教学方法的成果。考试既可以及时检验和测定教学效果,又可以评价学生的学习状态。而考试自身的科学性、规范性是通 过试卷分析检验、证明的。 通过对试卷的分析,不仅可了解学生学习效果,也可了解教学中的薄弱环节,同时还可以发现命题及组卷中的问题,对于评价教学、规范命题等都具有现实指导意义。 试卷处理是考试过程中的重要环节,试卷数据经过处理可以提供许多重要信息,对指导教学、准确评估,提高教学质量,具有重要意义。 以往对学生成绩的管理和试卷分析的工作,大都采用人工的方式来完成,当考生数量大时,试卷处理工作量极大,教师只能简单地提供考生成绩,许多考试信息白白浪费,试卷分析工作难以展开,而且人工方式操作流程十分繁琐,统计周期长 ,且容易出错。这需要一个专业的系统,使用专门的统计和分析机制来处理这些数据,利用试卷分析系统来数据处理,不但可以大大提高试卷处理工作效率,还可以规范处理过程,开展对试卷出题质量的科学评估和利用分析结果进行教学研究,这对提高教学质量具有很强的实用价值。 本文 运用 发了基于数据挖掘的试卷分析系统 ,将 计算机信息化技术引入到学生成绩统计和试卷分析领域,利用计算机的优势,减轻工作负担,提高工作效率,为完善教学管理,提高教学质量做出贡献。 究背景及意义 从九十年代开始,国内高校 教育体制进行了大规模的改革,校与校之间合并,学校规模不断扩大,专业设置日趋多样化,招生人数逐年增加,这使得原有考务系统中存在的问题日益突出,高校原有的教学管理模式在新的环境下正面临挑战。 通过考试获得的学生成绩是衡量学生是否掌握所学知识的重要标志,也是评估同济大学 硕士学位论文 基于数据挖掘的试卷分析系统的研究 2 教学质量的重要依据。随着教学管理模式的变化,学生成绩分布越来越复杂。从表面上看,考试成绩、试卷信息仅仅是数字,但是,从这些似乎毫不相关的数字中却可以提炼出学生对该门课程的掌握程度的信息,也可以提炼出教师教学水平的差异,还可以提炼出试卷出题是否难易适当、考试 效果如何。通常方法是先对成绩和试卷作定量分析,在此基础上结合教学工作的各个环节再进行定性分析,从而综合评定考试的结果。量化分析是考试综合评价的前提与基础,有助于整个考试结果分析与评定的客观化、科学化。 现有的人工分析已经不能适应某些管理的要求,由于海量数据以不同的形式存储于不同的计算机上,从而使隐藏在其中的大量有用信息无法得到有效的利用。上述问题直接导致教学管理部门无法进行有效的评估,任课教师无法进行有效的改进教学。而如何将这些数据信息转化为知识表示,为学校决策者提供决策依据,科学指导教学,提高教学管理水平 ,将是高校迫切需要解决的问题。 卷分析技术的研究现状 及发展趋势 目前对试卷的分析研究 13,38,基本上都是用数理统计的方法手工计算,人工作图。如分析成绩分布,比较平均成绩和标准差等指标,能直观和客观地反映学生基础、学风的差异,教师的教学水平高低,还能评价试卷质量及考风考纪情况。或用显著性检验发现规律、找出影响成绩的因素,进而指导教学。至于试卷的相关性分析,如本科试卷与专科试卷的相关性分析、考试试卷与考查试卷的相关性分析、文科试卷与理科试卷的相关性分析等,大多采用手工计算作对比的方法加以研究。传 统的方法也是目前最简单的方法,就是计算出数据库的各个字段的和值、平均值、最大最小值并以直方图、饼图的形式显示。 随着数据库技术的成熟和数据应用的普及,在过去的若干年中,人们积累了大量的数据资料,但数据库中隐藏的丰富的知识及有价值的信息远远没有得到充分地发掘和利用,随着数据量的以指数速度激增,人们呼唤从数据汪洋中出现一个去粗存精、去伪存真的技术,越来越希望系统能够提供更高层次的数据分析功能,从中找出规律和模式,帮助决策者发现数据间重要的但被忽略的因素,从而更好地支持第 1 章 绪论 3 决策或科研工作。正是为了满足这种要求,从数据 库中发现知识 (其核心技术 数据挖掘技术应运而生。 数据挖掘多应用到金融业,如对 账户 进行信用等级的评估,对金融市场分析与预测, 账户 分类、银行担保、信用评估、分析信用卡的使用模式,从股票交易的历史数据中得到规则或规律等。还用在保险业,如保险业的确定和险种关联分析,预测等。用在零售业,如分析顾客的购买行为和习惯,分析商场的销售商品的构成,库存需求、零售点的选择和价格分析等。也可用在医疗保健中对病例、病人行为特征的分析和药方管理 ; 司法中对案件的调查、案例分析、犯罪监控 ; 工业部门制造业中进行零部件故障诊断 、资源优化、生产过程分析。 近年来,随着高校的不断扩招,学生人数大幅度增加,给高校学生管理、教学工作、考务工作带来了严峻考验,传统的教学管理手段已逐渐不能适应社会的发展。随着数据挖掘技术的成熟及应用领域的不断扩展,不少高校研究人员己开始研究将数据挖掘技术应用于高校的教学、管理中,例如,将数据挖掘技术应用于课堂教学评价中,通过找出课堂效果与教师职称、年龄等因素之间的内在联系,以有效地指导教学工作;通过对毕业生数据库进行数据挖掘研究,得到了有益于高等学校教学管理决策及毕业生就业指导的挖掘结果;在制定人事激励制度 时,为了针对不同类别的教师建立有针对性的制度,可以应用分类和关联规则方法挖掘隐含的规则,从而为高校管理决策提供科学依据等等。总之,将数据挖掘技术应用于学校的教学、管理中,对提高学校教学管理水平起到了很好的指导作用,而且采用先进技术对考试过程和教学环节中产生的数据进行多层次、多角度的分析,利用分析结果辅助教学决策是保证教学质量、提高学生素质的必然要求。 数据挖掘已经成功并广泛地应用到很多领域和行业,然而在教学管理方面还不多,是潜在的应用领域,具有广阔的应用前景。从试卷数据库和相应成绩数据库中进行数据挖掘以发现 知识、获取有用信息的一种有益尝试和重要应用,是数据挖掘技术与教育科学技术的有机结合。 同济大学 硕士学位论文 基于数据挖掘的试卷分析系统的研究 4 究内容 本文以 南阳理工学院相关计算机课程的 成绩数据库和试卷信息数据库为研究主体,设计一个将数据挖掘和统计分析相结合的试卷分析系统,从海量成绩数据中提取出隐藏于其中的有用信息。本文的主要研究内容如下: ( 1)根据教育统计与测评以及数据挖掘的最新理论和成果,自主开发试卷分析系统,软件中含有多项试卷数据处理分析功能,可以对试卷进行各种数据处理、试卷出题质量评估、学生成绩分析、教师违纪可能性分析 ,适合教务处 和各院系进行各种试卷数据处理工作。 ( 2) 以试卷分析评价系统的项目开发为基础,介绍了中国试卷分析评价软件的应用发展和市场需求,同时介绍了数据库的发展现状及在本系统中的应用,描述了整个系统的开发过程 ,分析了这个系统的和应用前景。着重介绍了这个系统的设计思想、技术路线、开发平台的选择、系统总体框架、程序流程、本系统应实现的功能以及具体的实现方法和步骤,并且讨论类似系统存在的局限性和解决的思路。 ( 3)采用基于聚类分析的分类挖掘方法,对试卷数据库和学生成绩挖掘库中数据进行分析,将学生分类,并对教师的教学水平 做出 评 价,能直观显示出某一试卷在不同等级学生中效果,为教学部门进行合理指导教学提供依据。 ( 4)采用基于总结规则的统计分析方法,实现学生成绩分析报告、试卷质量评价报告及质量分析表的自动生成。对教师改进教学,提高试卷质量将起到积极作用。有利于学校把握试卷的质量,即该次考试是否真正反应了学生的真实能力和学习效果,为因材施教教学提供直观的依据;近几年来,各个院校都根据自身实际情况,建立了各式各样的成绩管理系统和成绩分析系统,通过编程进行设计与实现。通常采用功能模块程序积木式设计,有利于扩充系统功能以满足不同需要,灵活性 强。试卷分析系统一般由系统编辑模块 (包括成绩及试题相关信息的输入、修改、查询、打印功能 ),系统维护模块 (包括系统设置、备份、恢复、数据维护 ),系统说明模块(包括介绍系统功能、操作说明、版本信息、帮助信息、退出 )组成。试卷分析系统可实现数据统计、分析直方图显示、报表生成、结果打印,具有用户界面友好,操第 1 章 绪论 5 作方便、运行速度快、实用性强的优点,适合高校进行试卷分析,是试卷质量分析管理的一个有力补充。 (5)对本文所做的工作进行总结,对其他挖掘方法在试卷分析中的应用进行了展望。 文的组织结构 根据上述 的研究工作,本文内容分为六章,每章内容具体如下 : 第 1 章绪论,主要阐述选题的研究背景、选题的目的和意义,并介绍试卷分析的研究现状,并在此 基础上提出了本文的主要研究内容 。 第 2 章数据挖掘技术,主要介绍了数据挖掘的概念,定义,分类,以及数据挖掘的方法 第 3章基于 试卷分析系统的分析与设计,本章主要 讨论了系统的需求分析及数据库的设计, 介绍了 试卷分析中用到的教育统计学与测量学中理论基础及相关技术,并重点介绍了各种不同的教育评测理论(统计分析方法):平均数、方差和标准差、变异系数、难度、区分度 、信度和效度的计算方法,并提出提高考试信度和效度的方法 ,提出了试卷分析系统的基木框架。 第 4 章试卷分析系统的实现,主要介绍了系统各个功能模块的实现并简单介绍了系统的运行实例。 第 5 章 试卷分析系统的测试, 提出了应用模糊聚类分析方法对试卷数据库和学生成绩数据库进行挖掘与分析的设计方案,并重点介绍聚类分析算法在试卷分析系统中的应用结果分析以及本文中用到的数据挖掘方法聚类分析,并比较各种聚类分析算法。 第 6 章总结与展望,总结本文系统实现方法,并归纳统计方法和聚类分析方法在试卷分析系统中的应用,并对其他数据挖掘技术在 试卷分析中的应用提出展望。同济大学 硕士学位论文 基于数据挖掘的试卷分析系统的研究 6 第 2 章 数据挖掘技术 随着信息技术的发展,各个行业在过去的若干年里都积累了大量的数据。数据库系统只提供数据管理和简单处理功能。虽然人们可以在这些数据之上进行分析和研究工作,但是进行更高层次的处理时,例如从中发现规律和模式,对如此庞大的数据进行人工处理是非常困难。同时,随着数据在日常决策中的重要性越来越显著,人们对数据处理技术的要求也不断提高,例如得到数据的总体特征以及预测发展趋势等,而这些功能对传统的管理系统来说是无法做到的。于是,人们希望有一种方法可以帮助处理这些十分繁杂的数据 ,从中发现有价值的信息或知识为决策服务,同时减轻工作负担。 要想使数据真正成为一个企业或学校的资源,必须充分利用它为企业或学校自身的业务决策和战略发展服务,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对人们被海量数据所淹没,而人们却在饱受知识饥渴之苦,数据挖掘 (术应运而生,并得以蓬勃发展,并且越来越显示出其强大的生命力。 据挖掘的概念 数据挖掘 15(称 是信息技术自然演化的结果, 自从上个世纪 90年代以来,发展度非常 之快,其定义几经变动,目前为大家广泛采用的是由据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。这些知识是隐含的、事先未知的、但却是潜在有用的。数据挖掘所挖掘的对象也是多种多样的,它可结构化的,比如我们所熟知的关系型数据库中的数据;也可以是半结构化的,如文本、图形和图像等数据;甚至还可以是分布在网络上的异构型数据。 数据挖掘发现的知识一般可以表示为以下几种形式:概念( 规则(规律 (模式 (。决策者可以用这知识来辅助决策过程;相关领域专家也可以用其来修正原有的知识体系;同时还可以把这些知识第 2 章 数据挖掘技术 7 作为新知识转存到相应系统的知识存储机构中,如规则库 (专家系统(。 总之,数据挖掘是一门交叉性学科,涉及到机器学习、数理统计、网络、数据库、模式识别、粗糙集和模糊数学等相关技术。数据挖掘要经过数据采集、预处理、数据分析、结果表示等一系列过程,采用的算法有:关联规则、决策树方法、人工神经网络、遗传算法、粗糙集方法、模糊论方法、 贝叶斯模型等。 数据挖掘需要一个反复迭代的过程,在这个过程中,所取得的进步用“发现”来定义。而这种发现是通过自动或手工方法取得的,在对什么将会构成一个“有趣”的结果没有预定概念的初步探测性分析方案中,数据挖掘显得非常重要。 在实践中,数据挖掘的两个基本目标往往是预测和描述。预测涉及到使用数据集的一些变量或域来预测其它我们所关心变量的未知或未来的值;另一方面,描述关注的是找出可由人类解释的数据模式。因此,可以把数据挖掘活动分成下述两类。 ( 1)预测性数据挖掘 : 生成己知数据集所描述的系统模型。 ( 2)描述性数据 挖掘 : 在可用数据集的基础上生成新的、非同寻常的信息。 据挖掘的过程 数据挖掘是一个多阶段的过程 32一般情况下,它可以分为三个主要阶段,即 :数据准备、数据挖掘、结果表达和解释。知识发现 (程是这三个阶段的反复过程。如 下页 图 2示。 1、 数据准备阶段 数据准备在整个数据挖掘过程中占的比例最大,通常达到 60%左右。它的主要工作有检查拼写错误,去掉重复的记录,补上不完全的记录,推导计算缺失数据,完成数据类型转换,等等。数据变换的主要目的是消除数据维数,即从初始特征中找出真正有 用的特征以减少数据挖掘时要考虑的特征或变量个数。 2、 数据挖掘阶段 数据挖掘过程是根据待发现的任务类别选择有效的发现算法对数据进行挖掘,这一阶段进行实际的挖掘工作。首先是算法规划,即决定采用何种类型的数据挖掘同济大学 硕士学位论文 基于数据挖掘的试卷分析系统的研究 8 方法,如数据总结、分类、聚类、关联规则发现或序列模式发现等。然后,针对该挖掘方法选择一种算法。而算法的选择直接影响着所挖掘模式的质量。完成了上述 的准备工作后,就可以运行数据挖掘算法了。这个阶段是数据挖掘分析者和相关领域专家最关心的阶段,也可以称之为真正意义上的数据挖掘。 3、 结果表达和解释阶段 结果表 达和解释阶段 包括对发现模式的评价和解释、并进一步用于决策分析或将新发现的知识扩充到知识库中去。 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来。对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或无关的模式要将其删除;对于不能满足用户要求的模式,则需要退回到上一阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至采用其他的数据挖掘算法。另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把结果转换为用户易懂的其他方式,例如把分类决策树转化为“ .”规则。 图 2据挖掘过程模型 此外,有些学者在上述三个阶段的前后又增加了两个阶段,分别是:目标定数据变换 预处理 数据选择 解释评价 数据挖掘 数据 目标数据选择 预处理后数据 变换后的数据 模式 知识 数据准备 数据挖掘 结果表达和解释和 第 2 章 数据挖掘技术 9 义阶段 (知识吸收阶段 (目标定义阶段要求定义出明确的数据挖掘目标,目标定义是否适度将影响到数据挖掘的成败,因此往往需要具有应用领域知识的人员和具有数据挖掘经验的技术人员合作进行。而知识吸收阶段主要针对各个应用领域,例如商业公司的决策者将数据挖掘 新发现的一组关联规则应用到新产品的促销活动之中。 据挖掘的分类 数据挖掘可以按数据库的类型、挖掘对象、挖掘任务、挖掘方法与技术几个方面进行分类 : 1、 按数据库类型分类 数据挖掘主要有关系数据库挖掘、面向对象数据挖掘、事务数据库的数据挖掘、多媒体数据库的数据挖掘、模糊数据挖掘、数据仓库的数据挖掘、空间数据挖掘等多种不同的数据挖掘类型。 2、 按数据挖掘对象分类 数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒体数据挖掘、 3、 按数据挖掘任务分类 数据挖掘的任务有 : 关 联分析、时序模式、聚类、分类、偏差监测、预测等。按任务分类可将数据挖掘分为 : 关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差分析挖掘和预测挖掘等类型。 4、 按数据挖掘的方法和技术分类 数据挖掘的技术和方法较多。包括归纳学习类、聚类方法类、统计分析类、仿生物技术类、模糊数学类、可视化技术类等。 据挖掘的方法 数据挖掘的通常任务有 : 总结规则、关联规则、分类规则、聚类规则、预测分同济大学 硕士学位论文 基于数据挖掘的试卷分析系统的研究 10 析、趋势分析、偏差分析。为了完成上述任务,人们从统计学,人工智能和数据库等领域借用基础研究成果和工具,提出了多种方 法。主要的挖掘方法 32其要点如下 : 统计分析方法 : 主要用于完成总结知识和关联知识采掘。利用统计学、概率论的原理对关系表中各属性进行统计分析,找到它们之间存在的关系。在关系表的属性之间一般存在两种关系 : 函数关系 (能用函数公式表示的确定性关系 )和相关关系(不能用函数公式表示的关系 ),对它们可采用回归分析、相关分析、主成分分析等统计分析方法。统计分析方法是最基本的数据挖掘方法,与统计学的传统方法相比,数据挖掘更多地采用模型抽取方法。 关联规则 14,40用来发现一组项目之间的关联关系和相关关系。它们 经常被表达为如下形式的蕴含或规则形式: XY,可以解释为满足 X 的数据库元组也很可能会满足 Y。关联规则广泛用于交易数据分析,通过分析结果来指导销售、目录设计及其他市场决策的制定。例如,在分析美国加州某连锁店的销售记录时,发现下班后购买婴儿尿布的男性顾客往往会同时购买啤酒。由此可见,从事务数据中发现关联规则,对于改进零售业等商业和活动的决策十分重要。 分类是数据挖掘的一种非常重要的方法。分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型 (即通常所说的分类器 (。该函数或模型 能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测。而预测的目的是从历史数据中自动推导出对给定数据的推广描述,从而对未来数据进行预测。二者的区别是分类模型输出的是离散型的类别值,而预测通常建立连续值函数模型,输出的也是连续数值。 聚类规则 6,42是一种常见的描述工作。它主要是把一组个体按照相似性归纳成若干类别,即“物以类聚”。其目的是属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。与分类不同的是,在开始聚类之前不知道要把数据分成几组,也不知道怎么分 (依 照哪几个变量 )。因此在聚类之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论