数据挖掘在教学系统中的应用—毕业设计

上传人：伐*** IP属地：宁夏上传时间：2021-11-20 格式：DOC 页数：47 大小：317.50KB 积分：15 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、湖南工程学院毕业设计(论文)数据挖掘在教学系统中的应用摘要：随着时代不断进步发展，大量的信息充斥在我们的社会中，这就要求我们从中及时发现有用的知识，做出正确的分析，从而提高决策的正确性。如随着基于园区网络教务管理数据仓库中学生成绩记录的急剧增长，现在的教务管理人员很难再像从前那样直接根据学生的成绩数据分布找出规律，并根据此规律进行决策。因此必须借助于相应的数据仓库分析工具，自动发现数据中隐藏的规律或模式，为决策提供支持。数据挖掘技术可以用于从大量的数据中发现隐藏于其后的规律或数据间的关系，它通常采用机器自动识别的方式，不需要更多的人工干预。采用数据挖掘技术，可以为用户的决策分析提供智能的、自

2、动化的辅助手段。本文正是从数据挖掘的角度讨论了如何在日常的教学中应用数据挖掘，从中得到教学上需要的信息，为我们的职业教育添砖加瓦。通过对数据挖掘技术的概念、挖掘过程和方法等知识的简单介绍，本文就如何在成绩分析系统中应用数据挖掘，从中得到促进教学的所需信息等内容进行了探讨, 并提出了数据挖掘技术在各部分的具体作法，接着论述了如何利用数据挖掘的技术实现题库系统的智能化。最后在教学评价数据分析中引入关联规则数据挖掘技术，通过发现和运用关联规则来提高教学评价数据的客观性和可靠性，实践证明这是一种比较科学有效的方法。给出了一个完整的数据挖掘系统一教学系统的设计与实现过程。关键词：数据挖掘；关联规则；聚类

3、规则；分类规则 47data mining in teaching system's applicationabstract : progresses unceasingly along with the time develops, the massive information flood in ours society, this requests our prompt discovery useful knowledge, makes the correct analysis, thus enhances policy-making the accuracy. if along

4、 with based on the campus network educational administration managerial data warehouse middle-school student track record's rapid rise, present's educational administration administrative personnels were very difficult to look like formerly such directly to discover the rule again according

5、to student's result data distribution, and carried on the decision-making according to this rule. must therefore draw support the corresponding data warehouse analysis tool, in the automatic diagnosis data hides the rule or the pattern, provide the support for the decision-making. the data minin

6、g technology may use from the massive data discovering hideaway in after that the rule or the data relations, it usually uses the machine automatic diagnosis the way, not need more manual interventions. uses the data mining technology, may provide intelligent, the automated supplementary means for u

7、ser's decision analysis. how was this article precisely discussed from the data mining angle in the daily teaching the application data mining, obtained the information which in the teaching needed, contributed labor and materials for ours vocational education.through to data mining knowledge an

8、d so on technology's concept, excavation process and method introduced simply how this article in the result analysis system the application data mining, did obtain the promotion teaching to need contents and so on information to carry on the discussion, and proposed the data mining technology i

9、n various part of concrete methods, how then did elaborate has realized the question bank system's intellectualization using the data mining technology. finally introduces the connection rule data mining technology in the teaching appraisal data analysis, enhances the teaching appraisal data thr

10、ough the discovery and using the connection rule the objectivity and the reliability, the practice proved that this is one quite scientific effective method. gave a complete data mining system teaching system's design with to realize the process.key words: data mining; connection rule; classifyi

11、ng rule; result analysis 前言随着科学技术的飞速发展，信息化已成为国民经济和社会发展的重要驱动力，信息产业成为未来的支柱产业和先导产业。在未来学习型的社会中，教育与信息技术的高度融合，正在成为世界各国教育发展的新趋势，这将孕育出崭新的经济增长模式和教育形态，不断推动社会经济和教育产业的跨越发展，同时也对传统的教育管理方式提出挑战。随着教育信息化进程的推进，教育管理手段逐步实现了信息化，较之传统的教育管理手段，无论是在效率、效益还是效果上都有显著的提高。并在各种教育管理系统和业务处理子系统中积累了大量的、宝贵的数据。这为数据挖掘技术在教育管理中的应用奠定了良好的基础。

12、通过数据挖掘技术可以发现隐藏在大量数据背后的一些有用的知识，用这些知识来指导管理者改进管理手段，有针对性地加强管理。随着数据库技术的不断发展，数据库和数据仓库已经被广泛的应用于企业管理、产品销售、科学计算和信息服务等领域，数据量的不断增长对数据的存储、管理和分析提出了更高的要求，急需新一代的计算技术和工具，能够智能化的从大量的数据中提取出有用的信息和知识，于是数据挖掘技术应运而生，且在零售、金融、电信等行业的到广泛的应用。但在教育领域却并没有引起人们的普遍关注, 随着教育信息化进程的推进, 产生积累了大量的、复杂的数据。面对如此巨大的数据资源, 人们去无法更充实、更有效的加以利用。因此,

13、将数据挖掘应用于教育教学中，从大量的学生成绩中发现隐藏的、有用的信息来指导老师的教学，成为当今势在必行的重要的研究课题。正是由于数据库技术的迅速发展及数据库管理系统的广泛应用，高校在该方面积累的数据越来越多。这些数据背后隐藏着许多重要的信息，但由于目前的成绩数据分析方法不能从大量原始数据中深入分析和发掘对教学工作有用的信息，致使成绩管理仍停留在学籍处理等简单的统计分析上。面对”数据爆炸却知识贫乏”的矛盾，人们希望能够利用一种更新的技术对丰富的数据资源进行更高层次的分析，以更好的利用数据。近年来一种新技术应运而生数据挖掘。数据挖掘是一种将不同数据源中的数据，通过一定的工具与方法寻找出有价值的知识

14、的一类深层次的数据分析方法。该方法主要有：关联规则挖掘、分类规则挖掘、聚类规则挖掘等。本文在成绩分析方面的运用主要介绍数据挖掘中的关联规则挖掘方法。目前许多院校采用的是传统的题库系统，虽然利用了数据库系统自身的优势，可以有效的实现数据的排序，查询，组卷，分数统计计算等操作，但还存在一些问题：例如 (1)虽然题库系统可以较好地组卷，却不能自动完成全部的阅卷工作（只能评判客观题，难以评判主观题）；(2) 当数据数量繁多时，又不能高效地完成任务，满足用户的实时性要求。基于这些问题我们提出了智能题库系统，运用数据挖掘技术实现题库系统的智能化。教育是一个复杂的系统工程，而质量则是评价该系统中的重要指标。

15、对于教学质量评价却没有一个固定的标准，如何正确、有效地评价教学质量，建立一个行之有效的教学评价模型已成为教育研究中的一项重要课题。教学评价中有几种常用的方法。如标准差，通过描述一组数据的标准差反映分散程度，虽然可以总体评价在一定范围内成绩的差异情况，但不能说明分数的高低究竟与哪些因素有关，无法得知教学中的成功与失败之处；如试卷的有效度、难度、知识含量、信度等参数也只能对考试的总体难易水平、知识点考察全面度、测量结果的可靠性进行衡量；如对教师的评价，则基本上根据学生或者相关人员对教师的各项指标打分，虽然可以统计出分数的高低，但也无法相信说明那些指标起到决定性作用，或科学得出各指标在评分当中的权重

16、。教学评价在教育教学的各个环节作用重，不断提高教学评价数据的客观性、可靠性是提高教学评价质量的重要途径和手段。本文在教学评价数据分析中引入关联规则数据挖掘技术，通过发现和运用关联规则来提高教学评价数据的客观性和可靠性，实践证明这是一种比较科学有效的方法。教育评价在当今世界教育领域中，同教育基础理论和教育发展一起，被誉为三大研究课题。教育评价对于教育发展和改革，对于教育的管理与决策，都有至关重要的作用，因而备受各国教育界和政府部门的重视。其中，教学评价尤为重要。教学评价不仅对教学起着调节、控制、指导和推动作用，而且有很强的导向性，是学校教学管理工作的重要组成部分，是评价教学工作成绩的主要手段。影

17、响教学评价成功或失败的因素很多，这不仅取决于评价方案的合理性，评价工具的有效性，评价方法的科学性，评价活动组织的严密性，还取决于获取的评价数据的可靠性。评价所采集的数据是否可靠，是保证评价结果科学、客观、公正的关键。数据挖掘技术能在错综复杂信息的海洋中发现隐藏的关系和规则。通过数据挖掘分析，其评价结果能给教学带来前所未有的收获。第1章数据挖掘基本理论 1.1 数据挖掘技术早期文献中，数据挖掘，也称为数据库中的知识发现，是从数据库中的数据抽取隐含的、未知的和潜在有用的信息(如知识规则、约束和规律等)的非平凡的过程。确切地讲，数据挖掘(简记为dm)是一种决策支持过程，它主要基于ai、机器学习、统

18、计学等技术，高度自动化地分析各组织原有的数据，做出归纳的推理，从中挖掘出潜在的模式，为管理人员决策提供支持。从功能上可以将dm的分析方法划分为以下四种(根据ibm的划分方法)：关联分析；序列模式分析；分类分析；聚类分析。关联规则挖掘算法是一种重要的数据挖掘方法。dm系统不是多项技术的简单组合，而是一个完整的整体，它还需要其他辅助技术的支持，才能完成数据准备、数据挖掘、结果表述、算法评价这一系列任务。根据功能，整个dm系统可以大致划分为三级结构(如图1.1所示) 图1.1 dm系统结构图dm的数据分析过程可以分成数据准备、数据挖掘、结果表述及评价四个步骤。数据准备阶段主要是准备适合分析的数据；数

19、据挖掘阶段是最关键的阶段，主要是选定合适的挖掘算法，对数据进行分析，以得出真正合理有用的知识；结果表述阶段是把挖掘阶段得出的知识以便于用户理解的方式进行描述；评价阶段是用户根据已有的知识对挖掘的结果进行合理性分析，若有不合理的方面，再重复上述三个步骤，以保证挖掘结果的合理性。dm与其他数据库工具既存在区别又存在联系。查询工具、验证型工具、发掘型工具各自的侧重点不同，因此适用范围和针对的用户也各不相同。发掘型的应用主要负责从大量数据中发现数据模式，预测趋势和行为，与验证型工具一个很大的不同在于，用户在整个信息的挖掘过程中无需或只需很少的指导。数据挖掘就是一种发掘型工具，与验证型工具不同，数据挖掘

20、是一种展望和预测的工具，它能挖掘数据间潜在的模式，发现经营者可能忽略的信息，并为企业作出前摄的、基于知识的决策。查询工具、验证型工具和发掘型工具是相互补充的，只有很好的结合起来，才能达到最好的效果。数据挖掘被信息产业界视为数据库技术的前沿，数据库技术的新应用领域。它在数据仓库、决策支持、市场策略和金融预测等领域具有广泛的应用前景。全世界排名前列的大型和超大型公司95以上都建立了数据仓库和应用了数据挖掘技术。1.2 关联规则挖掘算法1.2.1频繁集的发现寻找频繁子集的方法是根据所有频繁发生的集合的子集也是频繁发生的。为了生成频繁项目集，首先遍历数据库，收集每个项目集的支持度，取其支持度不低于最低

21、支持度的项目集构成频繁项目集的集合l1；然后两两连接l1中的项目集，形成二维项目集的集合，再次遍历数据库，收集每个侯选二维项目的支持数，取其支持数不低于最低支持项目集构成频繁二项集的集合i2；如此迭代，直到新的侯选集n维集合为空时为止。1.2.2 关联规则的发现假设每个频繁集的支持度都得到，记作p( )，频繁集，那么可信度confidence(lll2)=p( 1nl2)p( 1)。如果confidence(l1l2)满足最低信任度，那么这条规则存在，是有意义的。在已经提出的许多算法中，ragrawal等人在文献中提出的apriori算法是最有影响的。除了最初提出的性能较apriori差的ai

22、s算法及其面向sql的变体setm，目前已知的大多数算法都是以apriori为核心，或是其变体，或是其扩展。apriori是一种宽度优先算法，通过对数据库d的多趟扫描来发现所有的频繁项目集，在每一趟k中只考虑具有同一长度k(即项目集中所含项目的个数)的所有项目集。在第1趟扫描中，apriori算法计算i中所有单个项目的支持度，生成所有长度为i的频繁项目集。在后续的每一趟k中，首先以前一趟中所发现的所有频繁项目集为基础，生成所有新的候选项目集，即潜在的频繁项目集，然后扫描数据库d，计算这些候选项目集的支持度，最后确定侯选项目集中哪一些真正成为频繁项目集。重复上述过程直到再也发现不了新的频繁项目集

23、。算法高效的关键在于生成较小的候选项目集，也就是尽可能不生成和计算那些不可能成为频繁项目集的侯选项目集。1.3 聚类分析算法聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。1.3.1 划分方法(pam:partitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：k-means，k-medoids，clara，clarans fcm。1.3.2 层次方法(hi

24、erarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：第一个是：birch方法，它首先利用树的结构对对象集进行划分；然后再利用其它聚类方法对这些聚类进行优化。第二个是：cure方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定量（向聚类中心）进行收缩。第三个是rock方法，它利用聚类间的连接进行聚类合并。最后一个chemaloen，它则是在层次聚类时构造动态模型。1.3.3 基于密度方法根据

25、密度完成对象的聚类。它根据对象周围的密度（如dbscan）不断增长聚类。典型的基于密度方法包括：dbscan:该算法通过不断生长足够高密度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。1.3.4 基于网格方法首先将对象空间划分为有限个单元以构成网格结构；然后利用网格结构完成聚类。sting 就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。clique和wave-cluster 则是一个将基于网格与基于密度相结合的方法。1.3.5 于模型方法包括：

26、0; 统计方法cobweb：是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量（属性-值）对来加以描述的。采用分类树的形式来创建一个层次聚类。1.4 分类分析若预测的变量是离散的(如批准或否决一项贷款)，这类问题就称为分类；如果预测的变量是连续的(如预测涨跌情况)，这类问题称为回归。分类一直为人们所关注。常用的方法有决策树、神经网络、贝叶斯、粗糙集等方法。分类分析要分析数据库中的一组对象，找出其共同属性，构造分类模型，然后利用分类模型对其它的数据对象进行分类。分类目标是分析训练集中的数据，利用数据中能得到的特征，为每一类建立一个恰当的描述或模型，然后根据这些

27、分类描述对测试数据进行分类或产生更恰当的描述。第2章数据挖掘技术的应用2.1 挖掘在成绩分析中的运用2.1.1 现有成绩分析的弊端教师简单的以考试分数来评价学生学习效果,教师在成绩分析这方面所花的时间较多,在一定程度上牵扯了教师的精力, 使教师没有更多的精力关注教学的设计和过程的组织。在传统考试中,由于时间和条件的限制,教师只能从有限的几个方面来分析考试,如根据最高分、最低分、平均分了解班级的整体水平,凭自己的印象寻找错误率较高的题目加以讲解等。在进行年级成绩分析的时候,只是对成绩本身进行了简单统计的描述。2.1.2 数据挖掘的应用 (1) 对试题的分析与评价通过分析考试成绩及参与考试的样

28、本,警告出现异常反应的试题,以及对专家估计的试题属性值进行自动校正等等。主要从试题的难度、区分度、迷惑力几方面来评价。其中难度用通过率体现,通过率为组成试卷提供选题依据,影响着分数的分布形态,离散程度,从而制约着测验的信度和效度。一般而言,整个试卷的难度平均为 0.5为佳,各个试题难度均匀分布在 0.20.8之间为好。区分度反应了一个题目的鉴别能力,由其可以得到三个方面的信息,题目能否有效的测量或预测所要了解的某些特性或正态;题目能否与其他题目一致的分辨被试;以及被试在该试题的得分和测验总分数间一致性如何。区分度取值介于(+1,-1)。迷惑力指多项选择体中供选择用的非正确答案被考生选中的可能性

29、,因此这项指标只对多项选择题有意义。通常用一次测验中选中某错误答案的次数来估计大案的迷惑效力。考试中某一选项无一人选择,说明该选项无迷惑力;如果选用的人数多且低分组的选用多于高分组,说明该选项的迷惑力强。如果高、低分组选某项的人数较少且人数接近,说明该选项的迷惑力较弱。此参数对于成绩的分析意义不大,而且我们获得的数据只是学生一试题一分数,没有喧响。这样的数据,所以此参数在成绩分析中没有采纳。(2) 对试卷的分析与评价对试卷的分析可以利用关联规则对试卷数据库进行分析来得到某次考试的有效性、可信度、得分分布等信息。评价从信度、效度、标准分数几方面来进行。其中信度包括由客观题构成的试卷的信度和由主观

30、题构成的试卷的信度、由主观题和客观题并存的试卷的信度,对信度系数的大小度量,应结合测验的用途、条件、内容来看。效度用以了解测验的质量和功能,为进一步改进测验或是在几个同类测验中合理选择提供依据。利用效标关系、效度进行预测。(3) 对学生的分析与评价学生在测验后总是关心自己的成绩,关心自己成绩的排名,关心自己哪些知识点掌握的好,哪些知识点掌握得不好,想知道进一步努力的方向。可以利用分析学生的历次考试成绩及试卷中各题的得分,分析学生的进步情况、学习障碍、知识点和知识单元的掌握情况等等。其中包括利用 z分数对应曲线图对学生同时进行的各科目测试成绩进行的横向比较、利用 z分数对应曲线图及二列相关系数的

31、分析对学生分数在历次测验中进行的纵向比较、利用成绩分布曲线得出学生成绩频数分布图等。(4) 对知识点的分析与评价教师除了关心学生的考试情况,如成绩分布、平均分、与其他学生的比较等。更关心学生对知识点的掌握情况。分析学生已掌握的教学内容和未掌握的教学内容来找出教学的薄弱环节,通过分析学生的异质反应,找到需要单独辅导的学生。这是对知识点的分析与评价的主要任务,可以结合数据挖掘的相关功能帮助分析各科成绩或学生历次成绩与总体成绩的相关性、回归性和方差齐性来了解学生某测试中各知识点的掌握情况、学生对某个知识点的总体掌握情况等。2.2 分类规则挖掘在智能题库系统中的应用2.2.1 运用数据挖掘技术实现智能

32、题库系统首先，设计数据库，数据库中包含题库，答案库和答案关键字库，题型库中包含科目，题号，题型，题目，难度，分值等字段；答案库中包括科目，题号，分值，答案，答案序号（用于标识同一题的多个答案）等字段其中题号是关键字；答案关键字库中包含题号，答案序号，权值和答案关键字。其次：将答案输入答案库。对于客观题，输入唯一的答案即可；对于主观题，要求命题教师尽量给出多个参考答案并将每个答案的关键字及其所对应的权值、答案序号输入答案关键字库。2.2.2 采用决策树算法为每个问题的答案构造一个二叉树，每个分支要么是一个新的决策点，要么是一个叶子节点。在沿着决策树丛上到下的遍历过程中，对每个问题的不同回答导致

33、不同的分支，最后到达一个叶子节点，每个叶子节点都会对应确定的权值，通过对权值的计算判定得分。如：对于一道政治主观题，主要看答案是否包括得分点，因此先针对答案构造一个二叉树，查询答案表和答案关键字表，将考生的答案按答题要点进行划分，继续跟大案关键字库进行比较，如果不符合则停止向下搜索，否则继续划分直到不能再分为止。2.2.3 采用模糊论方法利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。由于主观题答案很灵活，答案不可能完全匹配，采用此方法将考生答案与答案库中的答案进行对照，以确定答案的正确度，从而更客观准确的评定主观题分数。2.2.4 答案关键字库的完善由于主观题

34、的答案具有多样性，又因为参考答案和答案特征是由命题教师根据经验给出也存在一定的主观性，因此，答案库和答案关键字库需要不断地进行完善。我们可以借助人工智能专家系统的思想，通过知识的不断积累不断完善答案库和答案关键字库，使其包越来越完善的答案相关联情况，达到自学习的目的。首先，将参考答案作为测试集，对各题的分类树进行测试，检查测试结果。然后针对结果，为满分的序列建立基本的相关性。如果结果出现问题，就对相关性进行一定的修正，再反复测试直至成功。这样基本可以确定满分的关键字序号及其中关键字之间的相关性。然后，再从实际考核试卷中挑选一些典型的零分样本作为测试集，对各题的决策树进行测试，用于确定零分的关键

35、字序列及其关键字之间的相关性。最后，从答案关键字库中提取出关键字在决策树中的有用属性剔除无用属性。2.2.5 答案特征库的维护虽然阅卷系统具有了一定的数据挖掘功能从而可以不断地自我完善，但是它并不能完全地脱离人工干预；教师还应对阅卷结果进行评价，可以由系统随机的在每个分数档挑选出一个答案供教师评价，同时，将记录在案的特殊答案调出，由教师确定其正确性。教师可以在评价过程中，给出一些新关键字组合并将其编入答案关键字库。这样不但充分保证了系统对考生的高度负责，提高了系统的客观性与公正性，而且对自身的答案特征库进行了维护。随着阅卷次数的增多，整个系统必将越来越可靠。2.2.6 题库管理 - 添加试题

36、在试题库中加入编好的试题。有两种方式加入：单题录入，按预置的试题格式一道一道地填写；批量录入，将多道试题按预定的格式形成一个txt文件，由录入程序一次性地录入题库。 - 查询试题用户在查询界面中输入试题查询参数（包括试题中所有的属性参数，并可实现逻辑组合），查出符合条件的试题，供后续修改或删除处理。 - 修改试题查询出试题后，可对试题的各项参数及试题内容进行修改。 - 删除试题查询出试题后，可删除该试题。 - 远程收集试题各地教师可通过网络提交试题，提交后试题存储在一个缓冲试题库中，自动形成标准的rtf文档，供学科专家审查修改，然后批量录入题库。 - 预置组卷策略对于一些常见的考试组

37、卷，可以预置一些常用的组卷策略，教师组卷时可以选择现成的组卷策略，无需重复输入复杂的参数便可组卷。 2.2.7 组卷策略 - 在题库系统建设中，试题质量控制与参数设置、组卷策略是最重要的两个环节；题库建成后，我们需要输入一些查询参数，系统将根据这些参数抽出最适合参数要求的试题，组成能够实际使用的试卷，定义这种查询参数以及对这些参数进行变换算法，我们称之为组卷策略。组卷策略的实质是将比较直观明了的组卷参数变换成计算机能够直接操作的试题属性项，然后根据这些属性项，在题库中抽取试题组成试卷。 - 自动组卷只需要设置试卷的一些整体属性参数和题型结构参数，便可以组出一份满意的试卷，参数设置简单直观，其组

38、卷的基本步骤为： - 设置总体参数试卷标题、考试时间、总题数、满分值、曝光时间、考察的知识点、平均难度、平均区分度。 - 设置题型比例表，检查约束条件，生成最终组卷参数原型表。题型与知识点分布对应：根据题型比例表，来计算某知识点某类题型所出的试题数，并预写最终组卷参数表。 - 试卷难度比例的分配在平均难度计算模式表中随机取一模式值，得出这份试卷的试题的难度比例，将此难度比例变换成最终组卷参数表中的难度级别参数。 - 试卷区分度比例的分配在平均区分度计算机模式表中随机取一模式值，得出这份试卷的试题的区分度比例，并将此区分度比例变换成最终组卷参数表中的区分度级别参数。 2.2.8 形成最终抽

39、题的组卷参数表 - 上面所陈述的都是为了使教师使用方便而设置的组卷参数，而计算机进行处理时，并不能直接用上述参数来抽题，我们需要对它们进行变换。在实际组卷时，每道试题选取的条件为： - 曝光时间参数：曝光时间<定义的曝光时间。- 试题编号参数：试题编号<>已抽出的试题编号。 - 抽题时的最终条件为：最终组卷参数表中的每一项（表与表中的每一项为逻辑“与”的关系，不包括试题编号）and 曝光时间<定义的曝光时间 and试题编号<>已抽出的试题编号。 - 若某个条件抽出的试题数大于一道，则从抽出的试题中随机取一道，若抽不出试题，则顺次取消的控制条件为：曝光时间、认

40、知分类、区分度；若仍抽不出试题，则难度进行最小程度的变化（变一级）；若还抽不出试题，则在考察的知识点中抽随机知识点值。 2.3 系统功能(1) 专业代码及课程代码设置：根据现有专业设置专业代码库，统一管理专业代码，可方便地增、减及修改专业代码，适应专业变化的需要；在专业代码系统中下设课程代码系统，形成课程代码库，便于按照专业课程进行试题录入、浏览及试卷生成。(2) 试题录入：试题库按专业分别建立，同一专业的各门课程试题混合存放在试题库中，检索或生成试卷时，按专业代码加课程代码搜索本课程试题，录入工作可集中进行也可随时进行，录入过程中可方便地编辑或增、删试题，试题录入过程也包括参考答案或评卷答案

41、的录入，可同时进行也可单独进行。(3) 试题检索：试题检索过程中提供按专业课程进行的各种检索方法，包括：全部浏览、浏览必选题、浏览复习题、浏览已生成的试卷、按题型浏览、按难度等级浏览等检索功能，如需要也可同时浏览相关试题的答案部分。 (4) 试卷生成：提供按预定要求全自动或人工控制的自动生成功能，同时提供生成试卷对应答案的功能。(5) 复习题生成：提供按给定条件限制的复习题册或练习题册的自动生成功能，与试卷生成功能类似。(6) 试卷打印：试卷生成的结果有两种，一种是固定的打印输出格式，可直接打印输出；另一种是生成一个自由格式的文本文件，可利用本功能直接启动word2000进行编辑排版，也可退出

42、本系统，启动其他文字处理软件（如wps2000、wps97等）进行编辑处理，处理完毕后可直接打印输出；复习题打印过程与此基本相同；对应的试卷答案或复习题答案可同时或单独打印，过程类似。(7) 系统维护：提供简捷方便的修改系统密码、代码系统维护、试题库维护及生成试卷时使用的各种标志（如组卷标志、复习题标志、难度等级、试题类型、分值等）的维护等功能。(8) 退出系统：释放所占资源并退出本系统。2.4 关联规则在教学评价数据分析中的应用教育评价在当今世界教育领域中，同教育基础理论和教育发展一起，被誉为三大研究课题。教育评价对于教育发展和改革，对于教育的管理与决策，都有至关重要的作用，因而备受各国教育

43、界和政府部门的重视。其中，教学评价尤为重要。教学评价不仅对教学起着调节、控制、指导和推动作用，而且有很强的导向性，是学校教学管理工作的重要组成部分，是评价教学工作成绩的主要手段。影响教学评价成功或失败的因素很多，这不仅取决于评价方案的合理性，评价工具的有效性，评价方法的科学性，评价活动组织的严密性，还取决于获取的评价数据的可靠性。评价所采集的数据是否可靠，是保证评价结果科学、客观、公正的关键。 2.4.1如何保证评价数据的可靠性评价是一种主体性活动，评价者的态度认真与否对评价结果有直接影响。如果评价者的态度不认真，必然会严重扭曲评价结果。例如，在进行教师评价时，学生作为主评者，是整个评价工作成

44、败的关键，但目前学生对这种教学评价在认识上存在一定的偏差，或出于某种心理，故意抬高或压低评分；或认为这是例行公事，与己无关，敷衍了事。这样得到的结果显然是不公正的。所以，通常需要在评价前对评价者推行思想教育和评价方法的指导，尽可能地减少评价活动的干扰因素，提高评价的客观性、准确性和一致性。但是，教学评价的过程毕竟是评价者和被评价者的整体综合心理活动的过程，要把握人的心理，保证人人都认真负责地履行了自己的义务是件很困难的事。因此，将获取的评价数据进行科学的处理，是保证评价质量的重要环节。也就是，除了对评价者进行思想教育外，还应该在技术上采取一些措施，尽可能地找出那些不负责任的评价者所给的评价数据

45、。特别是那些评价时敷衍了事的评价者，他们所给的评价结果数据通常是前后矛盾、漏洞百出的，比如给所有的项都打满分或者相同的分。在实践中，我们收集到评价数据后，会把全满分或评分全部相同的可疑数据剔除掉，但是这样做，只能剔除一小部分无效数据。因此，能否找到一种更行之有效的方法，来检验评价数据的可靠性至关重要。我们发现，在制定评价指标体系时，各个指标虽然具有相对独立性，但是由于指标是根据同一目标派生而来的，各个指标之间必然存在着某种内在联系，这也导致不同评价指标的各项评价数据之间存在某种关联性。如果能找出各项评价数据之间的关联性，就能根据这种关联性来检验所得评价数据是否可靠。如果所得评价数据不满足这种关

46、联性，则可以被认为是无效评价数据。本文就运用了数据挖掘技术中的关联规则挖掘技术来寻找各项评价数据之间的关联性，从而检验评价数据的可靠性。2.4.2 关联规则的基本概念关联规则挖掘的研究是近几年研究较多的数据挖掘方法，在数据挖掘的各种方法中应用得也最为广泛。在数据挖掘的知识模式中，关联规则模式是比较重要的一种。关联规则的概念是agrawal在1993年提出的，是数据中一种简单但很实用的规则。关联规则模式属于描述型模式，发现关联规则的算法属于无监督学习的方法。令i= ( il i i2 i i3 i . i im为一组属性的可能取值，称为数据项集，其中ik(l,<k<n)称为数据项(i

47、tem)，通常是数据库中记录某一属性的值。i中元素的个数称为数据项集的长度，长度为n的数据项集称为n维数据项集(n-item-set)。一条关联规则是如下形式的蕴涵式x-y，其中x,yci且xny=o，则称规则x->y在事务集合d中成立。一般用如下两个参数描述一条关联规则的属性:(1) 置信度如果d中包含x的事务有c%也同时包含y，则c为关联规则x -y的置信度。即，置信度c% =tthhe e number of transactions(x u y) /the number of transactions。简单地说，置信度就是指在出现了数据项集x的事务中，数据项集y也同时出现的概率

48、有多大。置信度是对关联规则的准确度的衡量。(2) 支持度如果d中有s%的事务同时包含数据项集x和y，则称s%为关联规则x->y的支持度。即，支持度s% =the number of transactions (x u y) /the number of transactions(d)。支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性，显然支持度越大，关联规则越重要，应用越广泛。如果不考虑关联规则的支持度和置信度，那么在数据库中可以发现很多关联规则。事实上，人们一般只对满足一定的支持度和置信度的关联规则感兴趣。因此，为了发现有意义的关联规则，需要给定两个阑值

49、:最小支持度和最小置信度，一般称满足一定要求的(如较大的支持度和置信度)的规则为强规则。关联规则挖掘就是在给定的事务集合d中产生所有满足最小支持度和最小置信度的关联规则的过程。挖掘关联规则间题可以分为两个子问题: 寻找所有这样的数据项集，它们的支持度超过用户给定的最小支持度。这样的数据项集称为频繁数据项集，简称频繁集或大项集。由于一般情况下，我们所面临的数据库都比较大，所以此步是算法的核心。应用频繁集产生规则。一般的想法是:如果 abcd和ab是频繁集，那么可以通过计算置信度conf = supp(ab-cd)/supp(ab)来确定规则ab-cd是否成立。当置信度conf最小置信度时，规则

50、成立。其中supp (x)表示x的支持度。关联规则挖掘算法一apriori算法 i叩ut: db，而nsupp output: result=所有的频繁项集，和它们的支持度。方法: result:二； k: =1； c:=所有的1一项集 while(q)do begin 为每一个ck中的项集生成一个计数器； for(i=1; i<=db i;i+) begin/，所有db中的记录t*/ 对第i个记录t支持的每一个q中的项集，其计数器加1； end lk:=瓜中满足大于minsupp的全体项集； lk的支持度保留； result: =result(lk； ck+1=所有的(k+1)一项集

51、中满足其k一子集都在lk里的全体； k: =k+1； enddoapriori是一种宽度优先算法，该算法通过对数据库d的多趟扫描发现所有的频繁数据项集，在每一趟扫描中只考虑具有同一长度k(即项集中所含项目的个数)的所有k一项集。在第一趟扫描中，apriori算法计算d中所有单个项的支持度，生成长度为1的频繁项集l,。在后续的每一趟扫描中，需要使用前一趟生成的频繁项集lk生成候选项集ck十；即合并有k-1个公共项的两个玩频繁项(表示为从x玩)，然后扫描数据库d，计算ck+1中各候选项集的支持度，最后确定哪些候选项集真正成为该趟扫描的频繁项集lk+l。重复上述过程直到没有新的频繁项集生成。2.4.

52、3 关联规则在教师教学评价中的应用关联规则广泛地应用于商业、金融、司法等行业。例如，关联规则可以表示为"购买了物品a和b的顾客中有95%的人又买了c和d"。从这些规则可找出顾客购买行为模式，可以应用于商品货架设计、生产安排、针对性的市场营销等。下面是运用关联规则对教师教学质量评价数据进行分析的一个实例。为了叙述简单，我们只取10个教师的样本，分别用1,2, 3,""-10代表，共有6条评价指标i=i12113山,15 .16，依次为:11(有责任感，对自己的工作专心而负责);12(尊重学生的意见);13(仪表整洁大方);in(教师的讲授十分清楚)l(教学

53、时重点、要点突出)出；16(与其他教师相比，你对此教师教学的总体评价)。假定本次挖掘的最小支持度=600o，最小置信度=9000,对表1根据取值进行变形，得到表2，表2相当于上述算法中的数据库d。如图1所示，在第一遍扫描数据库过程中，通过简单地扫描整个事务集中每个数据项发生的次数，得到候选数据项集c1，由于给定的支持度为60 (也就是6)，则可得到一维数据项集l,。为了生成l2，注意到频繁数据项集的任何子集也具有最小支持度，彻riori算法用运算l, x l,产生数据项集l2，这里，运算x定义为：1. xl= xuyx, ye lkxnyi=k-1) 由此得到候选项集c2，再由最小支持度得到1

54、2。再从12生成c3，最后得到l3。到此为止，我们得不到更高维的数据项集了，所以，整个频繁数据项集就确定了。根据最小支持度和最小置信度，最后得到规则1,12 -> 16，即当某教师符合指标1(有责任感，对自己的工作专心而负责)和指标2(尊重学生的意见)时，他必定符合指标6(与其他教师相比，你对此教师教学的总体评价)。该条规则的支持度是6/10二60%，置信度是10000。根据这条规则，如果收集到的评价数据在指标1、指标2和指标6上不存在关联性，则可认为该份评价数据为无效数据，从而尽可能地提高评价的准确性、公正性和客观性。2.5 基于教学评价的数据挖掘技术介绍及举例数据挖掘技术已经在各种应

55、用领域显示出巨大的潜力，但并非都适用于教学评价的所有数据。根据教学评价数据的特点和数据挖掘的技术应用，可将数据挖掘技术进行以下划分。2.5.1 数据总结数据总结的目的是对数据进行浓缩，给出它的紧凑描述。目前主要有两种技术：多维数据分析方法和面向属性的归纳方法。多维数据分析方法，也称作联机分析处理。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作，这类操作的计算量特别大，可把汇集操作结果预先计算并存储起来，以便于决策支持系统使用。在对学生历年(历次)考试成绩分析中可采用联机分析处理来对学生的相同科目成绩进行分析，对

56、查询的成绩进行智能对比分析，科学得出学生成绩变化规律和结论。2.5.2 关联分析关联分析，即利用关联规则进行挖掘。在数据挖掘研究领域，对于关联分析的研究开展得比较深入，提出了如apriori、抽样算法、dic等算法。其目的是挖掘数据项的相互关系，发现不同数据项直接的相关性，如“70%的学生在某次考试中a课程优秀b可能也是优秀”之类的知识。关联规则挖掘的形式描述是：设i =i1, i2 ,i3 ,im 是 m 个不同项目的集合，每个ik (1 k m )称为数据项，数据项的集合称为数据项集，d是针对i 的事务集合，每一笔事务包含若干项目i1ik ，其中ik i ，若t是i 中一组项目的集合，即

57、，一条关联规则就是形如的蕴涵式，其中如果d中c%的包含 x 的交易同时包含y，则关联规则在d中置信度c成立。如果d中s%的交易包含，则关联规则在d中具有支持度s。关联规则分析可以运用对学生多课程成绩分析上，通过关联分析，可以得出其四属性含义：可信度：指学生在a科成绩为优时，b科也为优的概率；支持度：描述学生a、b两科成绩均为优的概率；期望可信度：在没有任何条件约束时，学生a科成绩为优的概率；作用度：是可信度与期望可信度的比值，它描述了学生在a科成绩为优时对b科也为优的影响。 2.5.3 分类分析若预测的变量是离散的(如批准或否决一项贷款)，这类问题就称为分类；如果预测的变量是连续的(如

58、预测涨跌情况)，这类问题称为回归。分类一直为人们所关注。常用的方法有决策树、神经网络、贝叶斯、粗糙集等方法。分类分析要分析数据库中的一组对象，找出其共同属性，构造分类模型，然后利用分类模型对其它的数据对象进行分类。分类目标是分析训练集中的数据，利用数据中能得到的特征，为每一类建立一个恰当的描述或模型，然后根据这些分类描述对测试数据进行分类或产生更恰当的描述。在记录教师的教学评价数据库中保存着教学评价记录，根据评价结果将教学评价分成四类：优秀、良好、一般、较差，并且类别标记己赋给了各个记录。分类分析就是分析该数据库的记录数据，对每个评价等级做出准确描述，如“教学评价好的是指那些教龄在5年以上，职称在副教授以上，态度认真教师”，然后根据这些描述对其它具有相同属性的数据库记录进行分类。2.5.4 聚类分析聚类用于从数据集中找出相似的数据并分成不同的组。与分类分析不同，聚类分析输入的是一组未分类记录，并且这些记录应分成几类事先也不知道。聚类分析就是通过分析数据库中的记录数据，根据一定的分类规则，合理地划

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘在教学系统中的应用—毕业设计

文档简介

温馨提示

最新文档

评论

数据挖掘在教学系统中的应用—毕业设计

文档简介

温馨提示

最新文档

评论

相关文档