毕业论文试卷自动生成系统的设计和实现_第1页
毕业论文试卷自动生成系统的设计和实现_第2页
毕业论文试卷自动生成系统的设计和实现_第3页
毕业论文试卷自动生成系统的设计和实现_第4页
毕业论文试卷自动生成系统的设计和实现_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、试卷自动生成系统的设计和实现摘 要 随着计算机技术的发展和智能优化算法研究的深入,组卷系统的研究正被越来越多的专家学者所注意。它不仅涉及到组卷数学模型建立的问题,而且还包括相应组卷算法的研究。组卷问题是一个在一定约束条件下的多目标参数优化问题,采用传统的数学方法求解十分困难,自动组卷的效率和质量完全取决于试题库的设计以及组卷算法的设计。因此如何设计一个算法从试题库中既快又好地抽出一组最符合考试要求的试题,并基于此实现智能组卷系统,是本文的研究目的。遗传算法(Genetic Algorithm)是一种模拟大自然生物进化过程的智能算法,它以其简单、鲁棒性强、全局寻找以及不受搜索空间限制性条件约束等

2、特点而备受关注。遗传算法的群体搜索策略为多目标优化提供了非常合适的解决方案,因此将其应用于组卷问题能取得良好的效果。本文为实现试卷自动生成系统,从教育测量学、人工智能、软件工程等领域出发,基于改进遗传算实现了自动组卷算法,建立了试卷自动生成系统,验证了该算法的可行性和有效性。关键词:遗传算法,自动组卷,数学模型,目标约束design and implememtation of test paper automatic generating system ABSTRACTWith the development of computer technology and intelligent in-

3、depth study of optimization algorithm, the research of automatic generating test paper system is being paid attention to by more and more experts and scholars. It not only refers to the establishment of test paper generating mathematical model, but also includes the research of corresponding algorit

4、hms. The test paper auto-generating is an optimized problem to multi-objective parameter with a certain constraints. The optimization is implemented very difficulty by traditional mathematical methods. The efficiency and quality of automatic generating test paper is absolutely determined by the desi

5、gn of test questions database and corresponding automatic generating test paper algorithm. So how to design a algorithm to select a group of test questions most matching the requirements of examination effectively and efficiently, while basing on it to realize the intelligent test paper generating s

6、ystem, which is the purpose of this paper.Previous paper generating algorithms are mostly based on random selective strategy and recall-test strategy. The former is easy to realize with high time complexity, the latter occupies high space complexity while total question number is comparatively large

7、, neither has the intelligence. Genetic Algorithm (GA) is an intelligent algorithm, which simulates the natural process of biological evolution. It is being paid more and more attention to with the characteristics of simple, strong robustness, global search and unfettered by the restrictive conditio

8、ns of search space. The population search strategy in GA provides a very suitable solution for multi-objective optimization, so applying it to the issue of test paper auto-generation can achieve good results. In order to realize test paper automatic generating system, this paper starts from the fiel

9、ds of education surveying, artificial intelligence, software engineering, realizes the auto-generation algorithm with the basis of improved Genetic Algorithm, and establishes the test paper automatic generating system to verify the feasibility and effectiveness of this algorithm. Key Words: Genetic

10、Algorithms, automatic generating test paper,mathematical model,goal constraints目 录 TOC o 1-4 h z u HYPERLINK l _Toc28264 摘 要 PAGEREF _Toc28264 1 HYPERLINK l _Toc20356 ABSTRACT PAGEREF _Toc20356 2 HYPERLINK l _Toc31830 第一章 绪论 PAGEREF _Toc31830 1 HYPERLINK l _Toc16223 课题研究背景 PAGEREF _Toc16223 1 HYPERL

11、INK l _Toc11255 课题研究现状 PAGEREF _Toc11255 2 HYPERLINK l _Toc20101 1.2.1 基于随机抽取的自动组卷算法 PAGEREF _Toc20101 2 HYPERLINK l _Toc20876 1.2.2 基于深度与广度搜索算法的自动组卷算法 PAGEREF _Toc20876 3 HYPERLINK l _Toc23892 1.2.3 基于项目放映理论的自动组卷算法 PAGEREF _Toc23892 3 HYPERLINK l _Toc15506 1.2.4 基于数据挖掘和知识发现的自动组卷算法 PAGEREF _Toc15506

12、 4 HYPERLINK l _Toc5003 1.2.5 基于遗传算法的自动组卷算法 PAGEREF _Toc5003 4 HYPERLINK l _Toc31542 课题研究目的及成果 PAGEREF _Toc31542 5 HYPERLINK l _Toc24159 论文内容概述 PAGEREF _Toc24159 6 HYPERLINK l _Toc1685 第二章 组卷的评价体系与建模 PAGEREF _Toc1685 7 HYPERLINK l _Toc30800 组卷的基本原则 PAGEREF _Toc30800 7 HYPERLINK l _Toc1464 试题的几个重要属性指

13、标 PAGEREF _Toc1464 7 HYPERLINK l _Toc4260 2.2.1 题型 PAGEREF _Toc4260 8 HYPERLINK l _Toc1450 2.2.2 知识点 PAGEREF _Toc1450 8 HYPERLINK l _Toc6057 2.2.3 难度 PAGEREF _Toc6057 8 HYPERLINK l _Toc14116 2.2.4 认知层次 PAGEREF _Toc14116 9 HYPERLINK l _Toc7737 2.2.5 时间 PAGEREF _Toc7737 10 HYPERLINK l _Toc1691 2.2.6 曝

14、光度 PAGEREF _Toc1691 10 HYPERLINK l _Toc27145 指标体系 PAGEREF _Toc27145 10 HYPERLINK l _Toc18865 试卷指标 PAGEREF _Toc18865 11 HYPERLINK l _Toc11727 2.4.1 试卷的平均难度 PAGEREF _Toc11727 11 HYPERLINK l _Toc21860 2.4.2 效度 PAGEREF _Toc21860 12 HYPERLINK l _Toc2887 2.4.3 信度 PAGEREF _Toc2887 12 HYPERLINK l _Toc10857

15、2.4.4 考试目的 PAGEREF _Toc10857 12 HYPERLINK l _Toc30357 试卷模式 PAGEREF _Toc30357 13 HYPERLINK l _Toc4493 2.5.1 难度-分数分布 PAGEREF _Toc4493 13 HYPERLINK l _Toc3489 2.5.2 知识点-分数分布 PAGEREF _Toc3489 14 HYPERLINK l _Toc4129 2.5.3 题型-分数分布 PAGEREF _Toc4129 15 HYPERLINK l _Toc19289 2.5.4 认知层次-分数分布 PAGEREF _Toc1928

16、9 15 HYPERLINK l _Toc7350 2.5.5 总时间 PAGEREF _Toc7350 16 HYPERLINK l _Toc32256 2.5.6 总分数 PAGEREF _Toc32256 16 HYPERLINK l _Toc32430 偏差的计算 PAGEREF _Toc32430 16 HYPERLINK l _Toc24816 解得偏好关系定义 PAGEREF _Toc24816 17 HYPERLINK l _Toc22388 目标函数 PAGEREF _Toc22388 18 HYPERLINK l _Toc32126 第三章 遗传算法 PAGEREF _To

17、c32126 20 HYPERLINK l _Toc2646 遗传算法的概述 PAGEREF _Toc2646 20 HYPERLINK l _Toc21465 遗传算法的特点 PAGEREF _Toc21465 20 HYPERLINK l _Toc8283 遗传算法的运用领域 PAGEREF _Toc8283 21 HYPERLINK l _Toc5157 遗传算法中的基本概念 PAGEREF _Toc5157 22 HYPERLINK l _Toc28549 遗传算法中的基本操作 PAGEREF _Toc28549 23 HYPERLINK l _Toc12573 3.5.1 选择 PA

18、GEREF _Toc12573 23 HYPERLINK l _Toc18780 3.5.2 交叉 PAGEREF _Toc18780 24 HYPERLINK l _Toc8441 3.5.3 变异 PAGEREF _Toc8441 24 HYPERLINK l _Toc21185 遗传算法中的主要步骤 PAGEREF _Toc21185 25 HYPERLINK l _Toc1657 遗传算法应用中的关键问题 PAGEREF _Toc1657 26 HYPERLINK l _Toc30546 3.7.1 编码方式 PAGEREF _Toc30546 26 HYPERLINK l _Toc2

19、873 3.7.2 适应度函数的确定 PAGEREF _Toc2873 27 HYPERLINK l _Toc15584 3.7.3 遗传算法主要参数设定 PAGEREF _Toc15584 28 HYPERLINK l _Toc15807 第四章 自动组卷算法设计 PAGEREF _Toc15807 29 HYPERLINK l _Toc8151 组卷策略分析 PAGEREF _Toc8151 29 HYPERLINK l _Toc6371 组卷约束条件分析 PAGEREF _Toc6371 29 HYPERLINK l _Toc10105 组卷问题数学模型的分析 PAGEREF _Toc1

20、0105 29 HYPERLINK l _Toc18298 组卷过程分析 PAGEREF _Toc18298 30 HYPERLINK l _Toc6492 基于改进遗传算法的自动组卷的研究 PAGEREF _Toc6492 31 HYPERLINK l _Toc3702 4.5.1 染色体编码方案 PAGEREF _Toc3702 31 HYPERLINK l _Toc11672 4.5.2 生成初始种群 PAGEREF _Toc11672 32 HYPERLINK l _Toc22737 4.5.3 适应度函数设计 PAGEREF _Toc22737 32 HYPERLINK l _Toc

21、29049 4.5.4 遗传算子的改进 PAGEREF _Toc29049 32 HYPERLINK l _Toc31739 4.5.5 遗传算法控制参数 PAGEREF _Toc31739 34 HYPERLINK l _Toc13494 4.5.6 最优个体保存策略 PAGEREF _Toc13494 34 HYPERLINK l _Toc16558 4.5.7 各难度级别分数的计算 PAGEREF _Toc16558 35 HYPERLINK l _Toc32129 4.5.8 自动组卷算法的实现 PAGEREF _Toc32129 35 HYPERLINK l _Toc23366 第五

22、章 自动组卷系统实现与实验结果 PAGEREF _Toc23366 37 HYPERLINK l _Toc8680 5.1 数据库结构的设计 PAGEREF _Toc8680 37 HYPERLINK l _Toc6175 5.2 遗传算法核心模块 PAGEREF _Toc6175 38 HYPERLINK l _Toc22874 5.3 试卷自动生成系统的运行演示 PAGEREF _Toc22874 42 HYPERLINK l _Toc25466 第六章 总结与展望 PAGEREF _Toc25466 49 HYPERLINK l _Toc28502 6.1 论文总结 PAGEREF _T

23、oc28502 49 HYPERLINK l _Toc20988 6.2 进一步工作 PAGEREF _Toc20988 49 HYPERLINK l _Toc18571 参考文献 PAGEREF _Toc18571 51 HYPERLINK l _Toc13771 致谢 PAGEREF _Toc13771 53 HYPERLINK l _Toc13807 附录 PAGEREF _Toc13807 54 HYPERLINK l _Toc28106 附录1 毕业设计文献综述 PAGEREF _Toc28106 54 HYPERLINK l _Toc11671 附件2 毕业设计开题报告 PAGER

24、EF _Toc11671 54 HYPERLINK l _Toc18312 附件3 毕业设计外文翻译(中文译文与外文原文) PAGEREF _Toc18312 54第一章 绪论课题研究背景在教育领域中,考试是整个教育过程中的重要环节,它是对学生所学知识和能力的一种评价,也是衡量教师教学效果优劣的一种教育测量手段。目前的许多考试的实施过程并不完全科学,考试手段落后,命题内容、评分标准等由于受各种人为因素的干扰,缺乏普遍的可比性,考试信度和效度较低。例如,传统的检验型考试是由任课教师分别主持,命题原则不同,评分标准和评分方法不同,带有较大的主观性,不够客观和准确。并且组卷这一过程是一项非常繁重的脑

25、力劳动,从收集资料到试题的选取、试题分值的设置等工作非常繁琐。因此如果仍然采用传统的组卷方式就很难跟上时代的步伐,随着计算机科学的迅速发展和广泛应用,计算机辅助教学CAI(Computer Aided Instruction)的产生与发展对促进教育、教学技术的变革与发展具有巨大的推动作用。利用计算机建立试题库,实现计算机自动选题组卷,是CAI工程的重要组成部分,是实现考试规范化、科学化的重要措施,更是实现教考分离的一个重要手段。自动组卷系统,不仅能节省教师宝贵的时间,提高工作效率,还能消除人为因素的干扰,使考试更加标准化,更能客观、真实、全面地反映教学的实际效果。有利于促使任课教师必须按照教学

26、大纲的要求认真备课,认真组织教学内容,改进教学方法,因此对教学质量和整体教学水平的提高有着重要意义。还可利用智能组卷系统对试卷和考试分数进行分析和评价,使考试这一教学环节更加科学化。为了提高考试的科学化程度,把数理统计的方法引入考试工作,对试卷的编制和考试的质量进行定量分析。建立试题库,实现智能组卷得以实施科学化的考试,有助于是对教学工作加强宏观指导和管理,将课程教学的科学管理变成现实。设计实现自动组卷系统,是一项自然科学与教育科学,学术研究与教学研究相结合的研制课题,它运用教育测量学、考试学、教育统计学的理论和方法,总结教师的考试经验,建立科学的组卷理论,从而借助于计算机的先进技术来实现。课

27、题研究现状在国外,一些标准化考试系统,如美国的TOEFL、GRE等考试系统早已建立并成功运行了几十年,一直都能科学地测试出学生的实际水平。这说明自动组卷式可能的而且有效地,但这些系统所涉及到的具体内容以及其设计思想与原理几乎都是保密的。因此我们必需依靠自己的努力研制一套符合中国国情的试题库组卷系统。在国内,已研制成功的计算机考试系统有高等数学试题库系统MATBAS1,南京大学计算机科学与技术系研制的PASCAL题库系统,高教司的重点项目基于知识的成卷系统使用外壳软件2等系统,但是这些系统大多数没有自动组卷功能,考试所需的试题仍需要人工定制,因此在近十几年又出现了大量针对各种考试的计算机考试系统

28、。计算机考试系统的发展同时推动了组卷系统的研究。组卷问题是一个带约束的多目标优化问题,采用经典的数学方法很难解决这个难题,自动组卷的效率和质量完全取决于抽题算法的设计。如何设计一个算法从试题库既快又好地抽出一组最符合考试要求的试题,涉及到一个全局寻优和收敛速度慢的问题。目前的自动组卷系统根据其所使用的组卷策略大致分为五类: 基于随机抽取的自动组卷算法3 基于深度与广度搜索算法的自动组卷 基于项目反映理论的自适应测试 基于数据挖掘和知识发现的自动组卷理论 基于遗传算法的自动组卷1.2.1 基于随机抽取的自动组卷算法由于用户在操作该系统生成试卷时会提出一系列的约束条件,如试卷专业类别、题目类型、难

29、度分布、知识点分布、试题分值等等。而在理论与实际应用中都无法将这些约束条件用一种单一的表达式进行综合处理,因此也不存在最优化的思想。随机抽取的策略,通常是从试题库中随机抽取某个试题与用户提出的约束条件进行比较,取出满足某项约束指标的加入试卷,若所有试题都试探过多不能满足当前试卷约束条件,则组卷过程失败。1.2.2 基于深度与广度搜索算法的自动组卷算法该类型的自动组卷算法又被称为回溯试探法。它在组卷过程中采用随机的方法抽取试题,而在抽取过程中通过验证所选择的试题是否满足给定的约束条件来决定是否抽取,当发现目前没有任何试题满足要求而组卷过程又没有完成时,则采用回溯试探方法,通过废弃前一段时间所做的

30、组卷来重新组卷。由于这种方法在组卷过程中通过废弃部分工作而不是废弃本次组卷过程中的全部操作,从而有效地降低了无效组卷的次数,使得自动组卷算法性能得到提高,同时算法实现也容易。熊文清等于1999年通过对试题按某个性能指标进行排序,当发生组卷失败情况时,将发生组卷失败的试题与前面的试题进行呼唤,以调整原有的组卷次序,重新进行组卷过程4;叶勇等于1998年分析了三种基于回溯算法的组卷匹配方法,并进行了相应的比较,在其基础上给出了智能试题库管理系统的设计思想5。1.2.3 基于项目放映理论的自动组卷算法项目反映理论(Item Response Theory, IRT)是一系列心理统计学模型的总称,是针

31、对经典测量理论(Classical Test Theory, CTT)的局限性提出来的。基于IRT的自动组卷算法是由最早的适应性测试发展而来的。William W. Turn Bull于1951年最早提出了适应性测试这一概念,当时,适应性测试是指针对被试先前经验或者说被试先前测试的历史信息选取适合被试的题目进行组卷测试,作答后立即评分,并以上一题的作答情况决定下一道被使用的测试试题,直至测试结束为止。测试的整个过程即是从题库中选取符合被试能力水平的题目进行测试的过程。在考试开始时,系统被测者的潜在特质一般一无所知,所以通常的方法是选取中等难度的试题,即假定所有考生的能力值为中等,在题库中随机抽

32、取难度为中等的题目,作为测试的开始点。随后,每当考生回答一道题后,系统将对学生的能力值重新评估并修正原先的能力值,然后从试题库中选取下一道试题,该过程直到对考生能力的测量精度达到指定的水平。Win J.vander Linden等在2000年试图利用学生的实际参与考试的情况对试题库中的各个单元实体的性能指标进行评估,以便得到较为真实反映单元试题难度、时间等性能指标的标准值,提出了利用基于项目发音理论的方法,通过建立一个反映考生做大反应与题目质量及水平间的线性模型,对考生的能力水平进行估算,从而得出该考生能力的测量6,7。1.2.4 基于数据挖掘和知识发现的自动组卷算法数据挖掘和知识发现作为一门

33、新的研究领域,涉及到机器学习、模式识别、统计学、数据库和人工智能等学科。特别是它被看作是数据库理论和机器学习的交叉学科8。作为一种独立于应用的技术,受到了广泛的关注,有着广泛的前景,可以应用于商业管理、科学研究、智能决策、故障诊断等方面,当然也被应用于组卷系统中。目前国内数据挖掘的研究重点是找出频繁项目集(frequent item-sets)。典型的关联规则挖掘算法有等人提出的Apriori 算法 DHP算法等。它们都属于数据库遍历类算法。提出的Apriori-Hybrid算法,Park9等人提出的DHP算法(Direct Hashing and Pruning)使用哈希(Hashing)

34、技术有效地改进了候选集Ck的产生过程。SavaSers等人在1995年提出了一种把数据库分割处理的算法,降低采掘过程中的I/O次数,减轻了CPU的负担。使用抽样(sampling)的方法可以用较小的代价从大型数据库中找出关联规则10。1.2.5 基于遗传算法的自动组卷算法 遗传算法(Genetic Algorithm, GA)是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型11,它的产生归功于美国的Michigan大学的Holland在20世纪60年代末、70年代初的开创性工作,其本意是在人工适应系统中设计的一种基于自然演化原理搜索机制。它通过模拟达尔文“优胜劣汰、适者生存”的原理激励

35、好的结构:通过模拟孟德尔遗传变异理论的迭代过程中保持已有的结构,同时寻找更好的结构。从某种程度上说遗传算法是对生物进化过程进行的数学方式仿真。遗传算法作为一种新的全局优化搜索算法,以其简单通用、适用于并行处理以及应用范围广等显著特点,奠定了它作为21世纪关键智能计算方法之一的地位。 遗传算法是具有“生成+检测”迭代过程的搜索算法,其基本出流程如图所示。 NY开 始编码,生成初试群体满足停止准则?选 择交 叉变 异结 束 图1.1 遗传算法基本流程图遗传算法是一种群体型操作,该操作以群体中的所有个体为对象,选择(Selection)、交叉(Crossover)和变异(Mutation)是遗传算法

36、的三个主要操作算子(Genetic Operation),它们构成了所谓的遗传操作,使遗传算法具有了其他方法所没有的特性。 基于遗传算法的自动组卷将每道试题作为一个独立的编码位,利用遗传算法的三个基本操作:遗传、交叉与变异并最终完成试题的选取,从而得到满足各种条件的试题集合,完成组卷工作。在目前的计算机自动组卷算法研究中,许多研究者利用遗传算法在计算机自动组卷方法的应用展开了大量的研究。魏平、毛秉毅等12,13采用传统的遗传算法(SGA)来实现试题库的自动组卷,取得了较好的效果。但传统遗传算法容易产生“早熟收敛”现象。目前已经有很多研究人员把改进的遗传算法应用到组卷中,以提高组卷运行效率。刘彬

37、等14对题型确定过程中的知识进行改进,相对于简单遗传算取得了较好的结果。课题研究目的及成果本课题的研究目的:对组卷算法进行深入研究,在高校题库管理系统的基础上,将遗传算法实现并运用到智能组卷系统中,实现自动组卷系统的基本功能。本课题的成果:(1) 在传统遗传算法的基础上对编码方式、适应度函数、遗传算子进行了一些研究和改进;(2) 根据遗传算法自动组卷的需要设计了相应的试题库结构;(3) 建立了一个以难度系数、知识点、题型等为核心属性的智能组卷数学模型;(4) 设计并实现了一个基于改进遗传算法实现自动组卷的方法。论文内容概述论文主要分为6个章节:第1章绪论,主要是本课题研究背景、研究现状的介绍,

38、对几种组卷算法作了介绍,然后给出了毕业课题的研究目的和成果。第2章介绍了自动组卷系统的组卷基本原则,分析了试题的属性指标、试卷的评价指标、各项指标的作用及几个重要指标间的关系。第3章介绍了遗传算法的基本概念和基础知识、遗传算法的设计与实现等。第4章基于遗传算法建立了自动组卷的数学模型,并将遗传算法具体应用于试题抽取。第5章基于遗传算法自动组卷系统的研究对试卷生成系统进行了分析设计,并基于Java技术实现了算法原型。第6章对文章进行了总结,提出了自动组卷过程中还存在的其他问题,并对论文下一步的工作进行了展望。第二章 组卷的评价体系与建模组卷的基本原则对于一般的测试来说,一方面主要是用于学生自测,

39、检验自己对学科知识的掌握程度;另一方面用于教师对学生进行考试,考察教学效果,进而改进教学方法。这两个方面的用处均在于考察学生知道什么、能做什么,因此属于目标参照性测验。对于大规模的人才选拔,考虑到公平性和保密性,一般不会采用自动组卷系统;而对于小规模的人才考核,一般也不会采用这种复杂的考察方式,而是采用最新的项目反应理论进行测试。因此本文研究的自动组卷系统主要侧重于目标参照性测验。对于目标参照性测验,组卷的基本原则15主要体现在:组卷的主要依据是考试大纲,组卷必须全面反映大纲的广度和深度;组卷要利于考核考生能力和促进考生智力发展;组卷要讲究层次,要有难度台阶,才能在分数上拉开距离;命题要注重发

40、挥考题对考生学习方法的引导;考试不能出现偏题、怪题,但要有一定得深度,要能测量出考生的不同知识水平和智能差异;命题的表达语或指导语要清楚无误,以提高考试的信度。组卷工作是一项复杂的智力劳动,组卷者首先要研究考试大纲和命题计划,明确考试的目的、对象、性质,试题的形式、数目,试题数量和分数在各部分中的分配比例,考查的重点和其它要求。其次,根据命题计划编制试题,给出答案,并对编出的试题进行审查、修改和筛选,同时注明各试题的预计难度、所属知识点和认知层次,分数及预计答题时间。试题的几个重要属性指标试题都是存放在试题库中,而试题本身含有固有的属性,试题各项属性指标的确定直接影响到组卷系统的准确性和工作效

41、率。试题库中的内容将直接用于试卷之中,所以试题库结构的设计师组卷问题的重要内容。试题的属性指标定量地描述了每一道试题的内在属性、外部特征以及它在考试测验中的功能,是计算机进行抽题组卷的基础。试题的难度、区分度都是试题的重要质量指标,然而考虑到区分度需由试题被使用后统计计算所得,一般难以在试题入库之时确定,而试题难度可在试题入库时由输题教师预测下故本文未采用,本文定义的试题指标体系为B=题型,知识点,难度,认知层次,答题时间,曝光度,以下对试题指标体系的构成进行详细的阐述。2.2.1 题型试题的类型有多种形式,一般是指从试题形式上区分,具体的试题类型可分为:选择题(包括单选、多选和不定项选择)、

42、填空题、判断题、计算题、编程题、解答题等。2.2.2 知识点知识点一般是以课程的章节进行划分的,考虑到同一科目可能前后会使用不同的教科书,所以本文采用对应课程的单个知识要点作为试题指标体系的知识点。知识点是考察能力的载体,因此以知识点的分值分布来组织试题是合理的。2.2.3 难度在组卷过程中,针对不同的考试目的、不同阶段的考试,考试的命题难度应该相应地不同,这对试题来说是非常重要的一个属性。本文设计的试题难度分为五个等级,具体参见表所示。 表2.1 试题的难度级别和难度系数对照表难度级别易较易中等较难难难度系数0.30.4试题的难度16值是指全体被试对该题的失分率,用符号D表示。其计算公式为:

43、 (2-1)式中,D是试题的难度值;为全体被试在该题上得分的平均数;为该题的满分值。从公式可知,越大,越小,当;越小,越大,当。的取值范围:。上面公式中定义的难度,是指某道试题的难度;一次测验的难度,是指测验卷中所有试题的平均难度。测验的难度,要根据测验的目的、测验的性质和测验项目的形式等因素来确定。当测验用于考查被试某种知识技能的掌握情况时,对难度可以不作严格限制,只要是应该掌握的内容,即使它的难度值为0或者难度值为接近1,也应该采用;当测验用于最大程度地区分考生时,难度恒定在左右最为合适。例如全国高等学校入学考试其难度规定为3:5:2,即较容易的题目占30%,中等难度的题目占50%,较难的

44、题目占20%,整个试卷的平均难度大约为。2.2.4 认知层次认知层次是反映学生对知识独立获取和驾驭的程度。布卢姆等人把认知领域的教育目标,从低级到高级共分为识记、领会、运用、分析、综合、评价六个层次、如下图所示。 评 价 综 合 分 析 运 用 领 会 识记最高层次差异性最多最低层次共通性最多图2.1 认知领域教育目标分类及层次结构示意图2.2.5 时间 完成该试题所需的估计时间2.2.6 曝光度试卷中试题曾被考过的次数愈多,该试题曝光度就愈大。一般要求曝光度值越小越好,以保证试题的保密性和有效性。题目的已出题次数和最近使用时间两个参数可以控制题目的曝光度。为了试卷的保密性、公平性和安全性起见

45、,在抽取题目组成试卷的时候,需要控制题目的曝光度。控制曝光度有两方面的考虑,一方面,如果题目在规定的日期范围之后被使用过,本次就不再使用;另一方面,如果有几次同时都满足条件的题目可供选择,那么在抽取试题的时候应该选择使用次数少的题目,以达到使用上的平衡和控制曝光度的目的。指标体系指标体系是指试题参数,是对试题的内在属性、外在特征及其在红的功能进行的定性的或定量的描述。它是建立是题库管理系统,实现计算机自动命题组卷的关键,实践证明试题本身含有一些固有的特性参数。这些固有的特性参数都需要用相应的指标来刻画;另外,对于组卷来说这些指标同时指导组卷的选题,因此,我们有必要建立一个试题的指标体系,支持组

46、卷模块功能。整个指标体系确定如表2.2所示。表2.2 试题的指标体系指标名称符号说明试题编号学科试题的唯一标识,不同的试题编号也不同题型TP序号所属科目S标识试题属于哪一门科目难度D标识试题的难易程度,以试题的得分率作为划分难度等级的依据知识点K标识该试题在这该门科目的教学大纲中所属的知识点认知层次A本文的系统将认知层次分为4个部分,识记、领会、应用、综合时间t标识学生在会做该题的前提下,完成该试题所需的估计时间(包括读题、审题、思考和解答),以分钟为单位分值m试题的百分制下满分值曝光度B标识试题的累积使用次数,选题时可设置最高选题次数,选择小于最高选题次数的试题,保证试题的科学性和实效性试卷

47、指标试题指标是建立试题库的基础,试题库的建立就是为了克服人为地主观性和片面性,提高组卷的客观性和科学性,以及组卷的质量和效率。试卷指标也是组卷过程中的一个关键因素,用户在提出组卷需求时,不能对单个试题指标提出要求,但是可以对整份试卷提出相关要求,因此也需要了解试卷指标。本文定义的试卷指标体系为S=试卷的平均难度,效度,信度,考试目的。以下对试卷指标体系的构成进行详细的阐述。2.4.1 试卷的平均难度试卷的平均难度即试卷的难度期望值,可采用题分题数加权法计算,公式为: (2-2)其中,n为试卷题目总数,为第i道题的分值,为第i道题的难度值。一份试卷的难度期望值也决定了考生的平均成绩。通过对大量样

48、本试卷的分析表明,学生成绩应大致呈正态分布。 (2-3) 其中,为学生的平均成绩,为试卷的总分,通过给定试卷的平均难度,可以预估计考生的平均成绩。2.4.2 效度 即有效性,指考试实现时所要测量的知识、技能和能力的精确程度。对结果而言,效度反映了考试是否准确、真实地测量了所要测量的内容,它是综合衡量系统误差和随机误差控制程度的指标,由下面三种形式反映17。内容效度:侧重于测验题目取样的代表性,考查这些题目对所欲测量的内容的有效程度;结构效度:侧重于测验能够测量到心理学和教学理论上的抽象概念和特质的程度;效标效度:侧重于测验分数预测我们所关心的外在行为的准确程度。2.4.3 信度 又称可靠性,是

49、指考试的一致性程度。通常是以估计的方法得到信度系数,以它的大小来表示考试信度的高低,常用的估计方法17有: (2-4) 其中,表示所有题目数,为题目i通过率,是考试总分的方差,为信度系数。2.4.4 考试目的 考试目的可分为一般综合性考试、竞赛考试和单元测验等。考试目的决定下面两个方面的内容: 第一方面是组卷时试卷难易程度的设置。考试目的不同,试卷的平均难度不同,则不同难度等级试题的分数比例分别不同。 第二方面是试题的各种考查要求比例设置。考试目的不同,则不同考查要求的试题比例也不相同。试卷模式上述两小节讨论了试题和试卷各项属性指标。试卷模式是对用户需求的一个定量反映,是建立在详细分析试题和试

50、卷各项指标要求基础之上。由用户输入对一份试卷的基本要求,组卷系统将用户对试卷的命题要求量化处理生成当前试卷模式,并将此模式作为抽题组卷的依据。试卷模式并不是可以任意构造的。在系统分析的过程中,我们发现试卷模式必须体现如下三个因素17:专家知识性;与试题库结构分布相容性;典型性,从而体现灵活性。建立试卷模式的基本思想是:通过研究专家对大量试卷的统计分析,获得试卷属性间的一些转换关系,最终产生符合用户命题信息设计要求的当前试卷模式17。试卷模式可通过确定性参数和分布曲线来描述。分布曲线是试题相应的指标在试卷中所占的比例,也称之为“指标曲线”,它是控制和描述试卷质量的具体要求17。本文用到的试卷模式

51、是由文献18提出的,其详细描述如下:2.5.1 难度-分数分布把难度级别划分为五个等级,D=易,较易,中等,较难,难,设难度-分数分布为:18 (2-5)其中,为第i个难度级别的分数,为难度级别数。对于一套试卷,为试卷的总题数,为试卷中的第i道试题。难度-分数分布为:18 (2-6)其中, 18 (2-7)其中,为试题的分数,为试题的难度级别数。难度-分数分布曲线LD反映试卷的难易程度。不同难度等级的试题在试卷中应占有一定得比例。在试卷的期望难度值给定后,计算出不同难度等级试题的分数。期望第j种难度等级的试题分数为,则: (2-8)曲线LD在很大程度上决定了考试成绩的分布,是很重要的一条曲线,

52、高等数学试题库MATBAS中,将它称为中心曲线,系统的默认曲线不一定满足用户要求,但是要用户用难度分布曲线LD表示对试卷的难度要求又比较困难,为此本文在4.5.7节建立了一个数学模型,在组卷时只要求用户输入期望的平均分S,由系统计算得到难度分布曲线LD。2.5.2 知识点-分数分布知识点标识该试题在这个学科的教学大纲中所述的知识。在一份试卷中,出现的题目数可能会少于考试科目的所有章节数。以K代表知识点,设知识点-分数分布为:18 (2-9)对于一套试卷,计算知识点-分数分布为:18 (2-10)其中, 18 (2-11)知识点-分数分布曲线LK反映试卷的内容效度,是用来描述试卷中知识点的分布情

53、况。学科的知识点代表考试内容。一般一个知识点就是一个考察点,试卷应合理涵盖所有考查内容。同一知识点的题内容相近,组卷系统应保证任何情况下不出重题,除非当知识点数目少于需要的试题数目。期望第i种知识点的总分为,则: (2-12)2.5.3 题型-分数分布根据考试科目不同,一套试卷的试题类型也不尽相同,试题类型一般有选择、填空、判断、改错、计算、编程、解答、证明、分析等等。用TP标识试题类型,设题型-分数分布为:18 (2-13)对于一套试卷,计算题型-分数分布为:18 (2-14) 其中, 18 (2-15)题型-分数分布曲线LTP对一种考试而言经常保持相对稳定。描述考试所用的题型及每个题型的题

54、目数和分数。期望第k种题型的总分为,则: (2-16)2.5.4 认知层次-分数分布按布卢姆等人对认知领域的教育目标的划分,一般把认知层次分为六个部分。A=识记,领会,运用,分析,综合,评价,设认知层次-分数分布为:18 (2-17)对于一套试卷,计算认知层次-分数分布为:18 (2-18)其中, 18 (2-19)认知层次-分数分布曲线LA反映考试目的,是指测试考生不同能力的试题在试卷中应占不同的比例。期望第i种认知层次的总分为,则: (2-20)2.5.5 总时间设考试的总时间为,完成试卷所需的预估时间为,预留检查的时间为,则完成试卷所需的实际时间18 (2-21)2.5.6 总分数设试卷

55、期望总分数为,实际组成试卷的总分数为,则:18 (2-22)偏差的计算(1) 难度-分数分布偏差的计算 18 (2-23)(2) 知识点-分数分布偏差的计算18 (2-24) (3) 题型-分数分布偏差的计算 18 (2-25)(4) 认知层次-分数分布偏差的计算 18 (2-26)(5) 总时间偏差的计算18 (2-27)(6) 总分数偏差18 (2-28)解得偏好关系定义令分别表示上述6个指标的偏差,即18 (2-29)设有两个解,则由它们的偏差可以定义它们的偏好关系:若对任意 18 (2-30) 都成立,则称比好。其意义是的组卷模式拟合得比更好。若对任意18 (2-31)都成立,则称和无

56、差异。其意义是的组卷模式拟合效果和相同。目标函数组卷的目标就是从一个试题库中,寻找一个子集,使得这个子集满足2.5节中所描述成卷模式中的各个约束分布。其中,是试题库的总体量,为一套试卷中的总体量。因此目标函数就是要使实际得到的组卷中的各目标分布与理论要求分布的偏差最小。这里采用对各分布的所有偏差加权求和,取该和的最小的方法来定义组卷问题的目标函数。令: (2-32) 其中,为各指标的权重,且 (2-33)所以目标函数为: (2-34)至此,由式(2-34)的目标函数和2.5节讨论的成卷模式就已经建立了实现成卷模块的数学模型。 第三章 遗传算法遗传算法的概述遗传算法(Genetic Algori

57、thm, GA) 19是一种模拟生物界自然选择和遗传变异的机制来求解复杂问题的随机搜索和优化方法。它模拟自然界生物体的进化过程,采用“优胜劣汰,适者生存”的自然法则选择个体,通过交配、变异来产生下一代种群,逐代演化直到满足条件为止。在演化计算中,我们不必非常明确地描述问题的全部特征,只根据自然法则来产生新的更好解,它采用简单的编码技术来表示各种复杂的数据结构,通过对相应的编码进行简单的遗传操作和自然选择机制来确定搜索的方向。其主要特点是群体搜索策略和群体中个体之间的信息交换,搜索不依赖于梯度信息。遗传算法的提出,可以追溯到1967年,两位先驱者Bagley和Rosengerg在他们的博士论文中

58、就提出了遗传算法的概念,特别是在1975年John H.Holland对遗传算法的理论和机理做出了出色的工作,发表了第一本比较系统论述遗传算法的专著自然系统与人工系统中的适应性(Adaptation In Natural And Artificial Systems),奠定了遗传算法的理论研究工作。遗传算法最初被研究的出发点不是为专门解决最优化问题而设计的,它与进化策略、进化规划共同构成了进化算法的主要框架,都是为当时人工智能的发展服务的。迄今为止,遗传算法是进化算法中最广为人知的算法。遗传算法的特点同常规优化算法相比,遗传算法具有以下特点20,21:(1) 是对参数的编码进行操作,而不是对参

59、数本身。因此提供的参数信息量大,优化效果好。(2) 是从问题的解集开始搜索,而不是从单个解开始,因此覆盖面大,适用于全局择优,可有效地防止搜索过程收敛于局部最优解。(3) 通过目标函数来计算适应值,而不需要其他的推导和附属信息,从而对问题的依赖性较小,故几乎可处理任何问题,容易形成通用算法程序。(4) 用随机方法进行最优解搜索,选择体现了向最优解迫近,交叉体现了最优解的产生,变异体现了全局最优解的覆盖。算法中的选择、交叉和变异操作都是由概率决定的,即具有随机操作算子,而不是确定的精确规则。(5) 通过群体和遗传算子(选择、交叉、变异)可实现扬弃性的搜索,克服局部陷阱和模式欺骗,实现在整个解空间

60、进行高校启发式搜索,提高全局寻优能力,而不是盲目地穷举或完全随机搜索。(6) 对于待寻优的函数基本无限制,它既不要求函数连续,也不要求函数可微,既可以是数学解析式所表达的显函数,又可是映射矩阵甚至是神经网络等隐函数,因而应用范围广。(7) 具有并行计算的特点,因而可通过大规模并行计算来提高计算速度。(8) 初始种群就带有大量与最优解相差甚远的信息,通过选择、交叉、变异操作能迅速排除与最优解相差极大地串,这是一个强烈的滤波过程,并且是一个并行滤波机制,因而有很强的容错能力。(9) 更适合大规模复杂问题的优化,在世纪领域中存在各种高复杂的优化问题,其目标函数可能表现形式为非连续或非处处可微、非凸、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论