考试成绩相关性分析的实用性研究.doc_第1页
考试成绩相关性分析的实用性研究.doc_第2页
考试成绩相关性分析的实用性研究.doc_第3页
考试成绩相关性分析的实用性研究.doc_第4页
考试成绩相关性分析的实用性研究.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

考试成绩相关性分析的实用性研究孟宪武 (周口市招生办公室 466000)摘要:根据对长度为n的两个序列之间相关系数分布规律的理论探讨,本文得出相关系数的分布为正态分布且方差为1/n的结论,并用以找出大规模考试中成绩记录整场出错的考场。通过对考生成绩的相关性分析,根据相关系数即可迅速锁定可能出错考场,使得只需要抽检不到0.5%的考场,即可基本上找出全部整场出错的考场,从而提高了校对审核的效率。关键词:相关系数 大规模考试 错误检查中图分类号:C8 文献标识码:A作者简介:孟宪武 河南周口市招生办,高级程序员。1 问题的提出目前,全国性和地方性的大规模考试非常普遍,如普通高招、中招、自学考试、高中会考,还有许多行业的考试、资格考试等。大部分考试采用主观试卷方式或主观试卷与客观试卷相结合的方式。为了保证评卷和登分过程的客观公正,在对主观试卷评卷和登分的过程中,通常采用对考场号加密的方式进行。即在整个评卷和登分过程中,隐去每场试卷的原始考场号而改用考场密码,待评卷、登分、复核等过程结束后,再根据密码与考场对照表转换成实际考生成绩,所有评卷、登分和复核人员只能见到考场密码而无法知道实际考场号。这样做的好处是从技术上保证了评卷的公正性,但也带来一个非常大的问题:如果在对试卷更换密码的过程中,将两场试卷的密码颠倒或多场密码串位,或在试卷运转过程中密码丢失、出错,必然会导致一个考场甚至多场考生成绩整体出错。由于这些考试的考场数量巨大,整个评卷登分的环节又比较多,因此这种密码出错的情况很难避免。如果这种错误不能及时得到纠正,必将大大增加后续校对审核的工作量。笔者通过对考生考试成绩的分布规律的研究,根据相关性分析原理,在登分结束后,对每个考场成绩分布情况进行相关性分析,并根据相关系数迅速锁定有可能整场出错的考场,大大提高了校对审核的效率。2 相关性分析的基本原理2.1 两个序列的相关性假设有两个序列:X:Y:根据统计学原理,两序列之间的相关系数 式中=、分别是两个序列的平均值,n为两序列的样本个数。由于相关系数的基本公式不易计算,可从基本公式导出以下的计算式相关系数r的取值范围为1r-1,r的各种取值的意义为:r=1,序列X和Y是线性正相关;r=-1,序列X和Y之间是线性负相关;r=0,序列X和Y之间不相关;1r0,序列X和Y之间正相关,r越大相关度越高;0r-1,序列X和Y之间负相关,r越接近-1负相关度越高。2.2 相关系数r与样本个数n之间的关系将通过n个样本计算出的相关系数记为。理论上讲,只有当样本个数n趋于无穷大时所得到的才能真正表示两个序列的相关程度。当样本个数为有限时,的值会在附近波动,n越大则与的偏离程度越小。由于通过数学公式导出分布的解析式非常复杂,下面,用蒙特卡罗方法来研究的分布规律(为简便起见,只研究两个不相关序列的相关系数分布情况)。由计算机产生两个相互无关的随机序列(记为一组)图1 50000组不相关随机序列的相关系数分布X:Y:由于两序列是无关的,理论上讲其相关系数应为0,实际上,当样本个数n为有限值时,不一定为0,而是一个在0附近的随机数。由计算机产生M组随机序列,即可得到M个,其分布如图1所示(M=50000):图中,当n=100时,0.1655的概率为90,0.1964的概率为95,=0.0101;当n=50时,0.2362的概率为90,0.2811的概率为95,=0.0206;当n=30时,0.3064的概率为90,0.3608的概率为95,=0.0347;由以上结果可以看出,的分布基本为正态分布,其方差与n成反比,约等于1/n。由此也可以得出这样的结论,当求出两个序列的相关系数不为0时,并不能简单得出两个序列相关的结论;反之,当两个序列的相关系数为0时,也不能得出两序列不相关的结论,两者都只能得出有多大可能性是相关或不相关的结论,n越大结论的确定性也越大。3 考试成绩的相关性3.1 单科成绩的相关性如果在考试中,一科的考试一部分内容使用客观卷(采用涂答题卡方式),另一部分使用主观卷(传统答题方式),则一个考生考试后即得到两个成绩,客观卷成绩和主观卷成绩。一般情况下,若一个考生的成绩较好,则客观卷成绩和主观卷成绩都比较好,反之,则客观卷成绩和主观卷成绩都比较差,即这两个成绩之间存在一定的相关性。考虑到客观卷和主观卷考察的重点不同和一些其它因素的干扰,两个成绩不会是线性相关,但一定是相关度比较高的正相关。理论上讲,两个没有任何联系的考生甲和乙,考生甲的客观卷成绩和考生乙的主观卷成绩之间、考生乙的客观卷成绩和考生甲的主观卷成绩之间不应该存在相关性。当然,这种相关性和不相关性必须是在对一定数量的考生(例如一个考场的考生)成绩进行统计分析中才能够显现出来。如果在评卷和登分过程中出现了差错,使一个考场的主观卷成绩登到另一个考场中,由于两个考场的考生之间无任何联系,即所得到的每个考生的客观卷成绩和其主观卷成绩是不相关的。理论上讲,如果进行相关性分析,出错的考场应能得出不相关的结论。但由于只能以考场为单位进行分析,样本数量较少,根据2.2的分析,实际进行相关性分析时,出错的考场有可能得出的是相关度较低或负相关的结论。根据这种思想,我们可以对考生的成绩以考场为单位进行相关性分析,对相关度较低或负相关的考场作为重点怀疑对象进行排查,以检查是否有登分错误的现象发生。3.2 多科成绩的相关性单科的客观卷成绩和主观卷成绩之间具有较强的相关性,其相关性分析结果较适宜作为判断是否出现整场成绩出错的依据。在有些考试中未使用客观卷,无法进行客观卷成绩和主观卷成绩之间的相关性分析,但还可以利用科目之间的相关性进行判断。很多考试,尤其是升学考试,通常要考多科。例如,某地的中招升学考试要考政治、语文、数学、外语、物理、化学、史地生(三门中的一门),共七门。一般来讲,一个好学生往往是各科的成绩都比较好,差学生则各科成绩都比较差。虽然有部分学生的单科成绩比较突出或单科成绩比较差,但从大量数据的统计结果来看,考生的各科成绩之间仍然存在一定的相关性。因此,可以对各科成绩之间进行相关性分析,并根据分析结果来判断各考场成绩是否出现整场出错。4 对多科成绩之间相关性的实验验证4.1 对一组已知正确的考试成绩的分析笔者根据以上理论对某地一次已校对准确的中招考试成绩进行了分析。该地共设3466个考场(标准考场,每场30人),考试科目共7门,除去29个人数不足20人的尾场,共24059场科(一个考场考一个科目为一个场科,下同),以考场为单位进行相关性分析。由于考生每科成绩好坏偶然性较大,两科成绩之间的相关性较弱,因此,用一个单科的成绩与除去该科成绩之后的总成绩进行相关性分析。结果如表1所示:表1 正常考场成绩之间的相关性相关系数(r)场科个数所占比例010.005%00.0500.00%0.050.1020.01%0.100.1520.01%0.150.2090.04%0.200.30180.07%0.300.40730.30%0.400.503301.37%0.500.601,0784.48%0.600.703,18213.23%0.700.807,33130.47%0.800.9010,54743.84%0.901.001,4866.18%注:表中r的各取值范围均包含下限,不包含上限。其中有一个场科的相关系数为-0.23,属于一个例外。主要的分布区域为0.501.00,平均值为0.78,基本符合正态分布。4.2 对一组未经校对的考试成绩的分析笔者在上述考试登分过程中,对已进行过登分还未进行核对的成绩进行了相关性分析,也是以考场为单位,分析单科成绩与除去该科成绩之后的总成绩之间的相关性。共分析了3409个考场,7科,共23863场科,结果如表2所示:表2 未校对之前考场成绩之间的相关性相关系数(r)场科个数所占比例0340.14%00.0540.02%0.050.1070.03%0.100.1540.02%0.150.20140.06%0.200.30240.10%0.300.40930.39%0.400.503561.49%0.500.601,1394.77%0.600.703,27313.72%0.700.807,25930.42%0.800.9010,21542.81%0.901.001,4416.04%注:表中r的各取值范围均包含下限,不包含上限。通过对试卷进行拆封复核,共发现因密码错位或其它原因而造成整场成绩出错的考场55个场科,出错场科分布如表3所示:表3 整场出错的考场分布情况统计相关系数(r)场科个数出错场科数所占比例0343397%00.0544100%0.050.1077100%0.100.154250%0.150.2014429%0.200.3024417%0.3023,7761理论上讲,总成绩与单科成绩之间应存在显著正相关关系。因此,如果出现了负相关关系或相关系数较小,首先要怀疑是否是由于分数登错考场而引起的。从表3可以看出,出现负相关的34场科中,有33场科是出现了整场错误;相关系数在00.10之间的11场科全部是出现了整场错误;相关系数在0.1以下的共45场科,出错44场科,出错比例98%;相关系数在0.3以下的共87场科,出错场科54个,出错比例为62%。在整个分析结果中,有两个场科的情况比较特殊:有一个场科其相关系数为0.49,通过拆封复核后发现登分出现整场错误。还有一个场科其相关系数为-0.21,通过拆封复核发现登分未出现整场错误,但有个别错误。5 影响多科成绩相关性分析结果的因素5.1 考场人数对相关性分析结果的影响理论上,样本个数越多,两个序列之间的相关性分析结果越可靠。当样本个数较少时,其相关性分析结果波动较大,甚至无法正确反映两个序列之间的相关性。有部分考场(尾场)人数较少,对这些考场进行相关性分析的结果无统计意义,因此,在进行实际分析时,应予排除,以上分析中,排除了人数不足20的尾场。5.2 影响相关性分析结果的其它因素1考生因素。前已述及,虽然大部分学生的各科成绩之间存在一定的相关性,但仍然有个别学生存在某一科特别突出或特别差的情况,即这些学生的某科成绩与其它科成绩之间不相关甚至负相关。如果某一个考场这样的考生比较多,即可能出现该考场该科的相关系数极小甚至为负相关的结果,在上述实验中,即有一例负相关出现。2考生缺考。考生在某一科的考试中缺考,会对成绩分布产生较大影响,必然会对相关性分析结果产生一定的影响。如果一个考场在某科考试中同时有几名学生缺考,可能导致相关性分析结果发生质的改变。3考试成绩的分布。对一些竞赛性的考试,可能有大部分考生的成绩偏低且成绩好坏的偶然性非常大,导致各科成绩之间的相关性较小,相关性分析的结果会失去参考价值。有一些对成人的考试,虽然也考多科,但由于考生的教育背景不同,各科成绩之间本身就没有相关性,相关性分析的结果也无参考价值。监考不严,考生超袭严重也会导致相关性分析结果失去意义。6 结束语笔者利用相关性分析的方法,提供了一种利用数学方法检查评卷登分错误的手段。虽然这种办法不是绝对可靠的,但是具有比较高的命中率。笔者所做多科考试成绩分析实验中,对相关系数0.3的场科进行检查,检查的场科数量为87个,占总场科数0.36,检查出出错场科54个,命中率在60%以上,且只有1个出错的场科未包含其中。在此基础上进行考卷的复核,大大提高了工作效率。由于客观条件限制,笔者没有进行单科成绩相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论