认知诊断计算机化自适应测验选题策略:理论、实践与优化_第1页
认知诊断计算机化自适应测验选题策略:理论、实践与优化_第2页
认知诊断计算机化自适应测验选题策略:理论、实践与优化_第3页
认知诊断计算机化自适应测验选题策略:理论、实践与优化_第4页
认知诊断计算机化自适应测验选题策略:理论、实践与优化_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

认知诊断计算机化自适应测验选题策略:理论、实践与优化一、引言1.1研究背景与意义在教育测量领域,随着计算机技术、通信设备和网络技术的迅速发展,教育信息化的发展面临着重大变革,由数据主导的“大时代”正在走入教育领域,进而渗透到教育发展与改革的战略中。复杂的、数据驱动的个性化教学一般需要提供非线性的教学辅导,以及能够满足学习者个别化、具有差异的认知水平和能力水平的诊断评估。认知诊断计算机化自适应测验(ComputerizedAdaptiveTestforCognitiveDiagnosis,CD-CAT)应运而生,它是计算机化自适应测验理论和认知诊断理论相结合的产物。认知诊断测验(CDT)是认知心理学与现代测量学相结合的成果,它突破了传统测验仅对被试能力层面评估的局限,深入到个体内部微观的认知状态(KS)进行诊断,从而进一步揭示个体内部心理加工过程和各种认知特征,如同医生通过各种检查最终确认病人的疾病类型一样。项目反应理论(IRT)的测量目标是一个连续的变量,即宏观能力(θ);而认知诊断模型的测量目标则是一个离散向量,即认知状态(KS)。这里的属性是认知诊断理论中的重要概念,它表示测验项目的特征,也就是我们通常所说的知识点。计算机化自适应测验(CAT)依据被试的能力水平动态选择测试题目,能更高效地测量被试能力。而CD-CAT则是将CAT和认知诊断测验这两种现代测量形式有机结合,把传统CAT自适应化的原理应用到被试知识状态估计目标上。其优势在于可以更精确、更迅速、更灵活地测量出被试的潜在知识结构。从发展历程来看,最初是传统的测量理论指导下的纸笔测验,随后发展到微观的项目反应理论纸笔测验。在这个阶段,将宏观的测量目标改为离散变量,便形成了认知诊断测验,从而能够对被试者认知状态(KS)进行诊断。接着,项目反应理论指导下的纸笔测验进行自适应化,形成了计算机自适应测验(CAT),最后将测量目标也改为离散变量并与认知诊断测验相结合,就产生了认知诊断计算机自适应测验(CD-CAT)。例如,传统纸笔测验只能给出试卷分数;项目反应理论纸笔测验可根据试卷分数估计学生的能力;认知诊断测验不仅能知道学生的能力,还能准确了解学生的知识状态,明确哪些知识点掌握得好,哪些较为薄弱;计算机化自适应测验会根据学生的能力掌握程度,尽量提供相匹配能力的题目;而认知诊断计算机化自适应测验则能够依据学生的能力和知识状态(KS),动态地给出相匹配的题目,使其更趋近于学生的实际能力和知识状态水平。选题策略作为CD-CAT的核心组成部分,对测验的准确性和效率起着关键作用。测验的准确性关乎能否精准判断被试的知识状态和能力水平,这直接影响到对被试的评估结果以及后续的教学决策。例如,在教学中,如果不能准确诊断学生的知识掌握情况,教师可能会采取不恰当的教学方法,导致教学效果不佳。而效率则涉及到测验所需的时间和资源,合理的选题策略能够在保证测量精度的前提下,减少测验题目数量,缩短测验时间,提高测量效率,节省人力、物力和时间成本。例如,在大规模的学业水平测试中,如果测验时间过长,不仅会增加组织难度,还可能使学生产生疲劳,影响测试结果的真实性。因此,研究具有认知诊断功能的计算机化自适应测验的选题策略,对于提高教育测量的质量和效率,实现个性化教学,具有重要的理论和实践意义。1.2国内外研究现状认知诊断计算机化自适应测验(CD-CAT)作为教育测量领域的前沿研究方向,在选题策略方面取得了丰硕的理论和实践成果。国外对CD-CAT选题策略的研究起步较早。早期研究主要集中在将传统CAT的选题策略进行调整以适应认知诊断的需求,例如将经典的最大信息量选题策略应用于CD-CAT中,通过计算项目对被试知识状态估计的信息量来选择题目。随着研究的深入,学者们开始关注如何更精准地利用认知诊断模型中的信息进行选题。有研究提出基于后验分布信息对KL(Kullback-Leibler)指标进行加权的PWKL选题策略,结合被试的后验分布信息,提高了对被试知识状态判准率。还有研究从属性层面出发,分析项目对不同属性的诊断能力,以此为依据构建选题策略,使得所选题目能更全面、准确地诊断被试在各个属性上的掌握情况。在实践方面,一些国外的教育测评机构将CD-CAT选题策略应用于实际的测评项目中,如针对学生的学科能力诊断测试,通过自适应的选题,能够快速、准确地了解学生在不同知识板块的学习状况,为教学提供有针对性的建议。国内在CD-CAT选题策略的研究上也呈现出蓬勃发展的态势。众多学者从不同角度对选题策略进行了创新和优化。有学者结合认知诊断中的项目区分度信息,对PWKL进行修正,提出了GIDPWKL、AIDPWKL、CIDPWKL和KLEDPWKL等新的多源选题策略。还有研究针对双目标CD-CAT,将六种项目区分度(鉴别力D、一般区分度GDI、优势比OR、2PL的区分度a、属性区分度ADI、认知诊断区分度CDI)分别与信息量乘积方法(IPA)结合,得到新的选题策略,模拟研究表明新方法能明显提高知识状态的判准率和能力估计精度。在实践应用上,国内一些学校和教育研究机构开展了基于CD-CAT选题策略的实验研究,如在数学、语文等学科的教学诊断中应用CD-CAT,通过动态选题来评估学生的知识掌握情况,为个性化教学提供数据支持。尽管国内外在CD-CAT选题策略研究上已取得显著成果,但仍存在一些不足。一方面,现有选题策略在平衡测验精度和效率方面还需进一步优化。部分策略过于追求测量精度,导致测验题目数量过多,增加了被试的测试负担和时间成本;而一些旨在提高效率的策略,又可能会牺牲一定的测量精度。另一方面,对于复杂认知结构和多样化属性关系下的选题策略研究还不够深入。现实中的知识体系往往具有复杂的层级结构和相互关联的属性关系,当前的选题策略在处理这类复杂情况时,还难以充分发挥CD-CAT的优势,不能很好地满足对被试进行全面、深入认知诊断的需求。1.3研究目标与内容本研究旨在深入探索具有认知诊断功能的计算机化自适应测验(CD-CAT)的选题策略,通过理论分析与实证研究,构建更加科学、高效的选题策略体系,以提升CD-CAT在教育测量中的准确性和效率。具体研究内容如下:选题策略理论分析:系统梳理现有的CD-CAT选题策略,深入剖析其理论基础、计算方法以及在实际应用中的优缺点。例如,对基于信息量的选题策略,分析其如何通过计算项目对被试知识状态估计的信息量来选择题目,以及在面对复杂知识结构时存在的局限性;对于考虑项目区分度的选题策略,探讨其如何利用项目区分度信息提高对被试不同知识水平的鉴别能力,以及在实际应用中可能面临的问题,如区分度指标的选择和权重确定等。通过全面的理论分析,为后续的策略改进和创新提供坚实的理论依据。基于多源信息融合的选题策略构建:为了弥补现有选题策略在平衡测验精度和效率方面的不足,本研究尝试融合多种信息源,构建新的选题策略。一方面,综合考虑被试的能力水平、知识状态、答题反应时间等个体层面信息。例如,通过分析被试的答题反应时间,可以了解其对不同知识点的熟悉程度和思考过程,将这一信息融入选题策略中,能够更精准地选择符合被试当前认知状态的题目。另一方面,充分挖掘项目层面的信息,如项目难度、区分度、知识点覆盖范围等。通过将这些多源信息进行有机融合,利用数据挖掘和机器学习算法,建立更加精准的选题模型,实现对测验精度和效率的优化平衡。复杂认知结构下选题策略的适应性研究:针对现实中知识体系复杂的层级结构和多样化属性关系,开展选题策略的适应性研究。首先,深入分析不同认知结构和属性关系对选题策略的影响机制。例如,在具有层级关系的知识体系中,下层属性的掌握往往是上层属性学习的基础,选题策略需要考虑如何在保证对下层属性准确诊断的基础上,逐步向上层属性拓展,以实现对整个知识体系的全面诊断。其次,根据分析结果,对现有选题策略进行针对性的改进和调整。例如,引入知识图谱技术,将知识体系的结构和属性关系以图谱的形式呈现,为选题策略提供更直观、全面的知识结构信息,从而使选题策略能够更好地适应复杂认知结构,提高对被试认知诊断的全面性和深入性。选题策略的实证研究与效果评估:通过蒙特卡罗模拟实验和实际测试,对所构建的选题策略进行实证研究和效果评估。在模拟实验中,设置不同的实验条件,如不同的题库规模、被试群体特征、知识结构复杂度等,对比新选题策略与现有策略在测量精度、测验效率、题库利用率等方面的表现。在实际测试中,选取具有代表性的学科和被试群体,应用新选题策略进行CD-CAT测试,并收集被试的实际答题数据和反馈信息。通过对模拟实验和实际测试数据的深入分析,验证新选题策略的有效性和优越性,为其在实际教育测量中的应用提供有力的实证支持。本研究的创新点在于融合多源信息构建选题策略,以及针对复杂认知结构开展适应性研究,有望为CD-CAT选题策略的发展提供新的思路和方法,推动教育测量领域的技术进步。二、CD-CAT的理论基础2.1计算机化自适应测验(CAT)原理与特点计算机化自适应测验(CAT)是近年来在教育测量领域发展迅速的一种新型测验形式,它以项目反应理论(ItemResponseTheory,IRT)为基石,借助计算机技术实现了测验过程的智能化与个性化。2.1.1基于项目反应理论的自适应选题原理项目反应理论假设被试对测验项目的反应仅取决于其潜在特质水平,即被试的能力水平与对项目的作答反应之间存在一种稳定的数学关系。在CAT中,题库中的每个项目都具有一系列的参数,如难度参数、区分度参数等,这些参数描述了项目的特性以及项目与被试能力之间的关系。测验开始时,通常会呈现一道难度中等的题目。当被试作答后,计算机会根据被试的回答情况(正确或错误)以及项目的参数,运用IRT模型来重新估计被试的能力水平。若被试答对题目,表明其能力可能高于当前题目的难度水平,计算机则会从题库中选择一道难度稍高的题目;反之,若被试答错,说明其能力可能低于当前题目难度,计算机将选择一道难度较低的题目。通过这种不断调整题目难度以适应被试能力的方式,CAT能够在较少的题目数量下,更准确地估计被试的能力。例如,假设一个学生参加数学CAT,初始题目难度为中等,该学生答对后,计算机依据IRT模型估计其能力较高,于是选择一道难度更高的代数题目。若学生再次答对,计算机进一步提高题目难度,选择一道涉及函数与几何综合应用的难题。随着测验的推进,计算机对学生能力的估计愈发精准,所选题目也与学生的真实能力水平更加匹配。2.1.2基于项目反应理论的能力估计原理在CAT中,能力估计是一个动态的过程。随着被试对每个项目的作答,计算机都会根据IRT模型对被试的能力进行更新估计。常用的IRT模型有单参数Logistic模型(1-PL)、双参数Logistic模型(2-PL)和三参数Logistic模型(3-PL)。以2-PL模型为例,其项目特征曲线函数为:P(X_{ij}=1|\theta_i)=\frac{1}{1+e^{-1.7a_j(\theta_i-b_j)}}其中,P(X_{ij}=1|\theta_i)表示能力为\theta_i的被试答对项目j的概率,a_j为项目j的区分度参数,反映项目对不同能力水平被试的区分能力;b_j为项目j的难度参数;e为自然常数。在测验过程中,计算机根据被试的作答反应和项目参数,利用极大似然估计法、贝叶斯估计法等方法不断更新被试的能力估计值\theta。随着题目数量的增加,能力估计值逐渐收敛到被试的真实能力水平,从而实现对被试能力的精确测量。例如,在一次英语词汇CAT中,通过被试对不同难度词汇题目的作答,计算机运用2-PL模型,不断调整对被试词汇能力的估计,最终得到较为准确的能力估计值。2.1.3CAT的优势与传统的纸笔测验相比,CAT具有显著的优势:测量效率高:CAT能够根据被试的能力水平动态选择题目,避免了给能力高的被试呈现过于简单的题目,或给能力低的被试呈现过难的题目。这样可以用较少的题目数量达到与传统测验相当甚至更高的测量精度,从而大大缩短了测验时间,提高了测量效率。例如,在传统的数学期末考试中,所有学生都要完成相同的试卷,其中部分题目对于一些学生来说可能过于简单或困难,导致时间浪费。而CAT可以根据每个学生的能力,提供最适合他们的题目,使测验时间得到更有效的利用。测量精度高:由于CAT始终选择与被试能力水平相匹配的题目,每个题目都能为能力估计提供最大的信息量,从而提高了能力估计的准确性。研究表明,在相同的测验时间或题目数量下,CAT对被试能力的估计精度往往高于传统测验。例如,在托福(TOEFL)考试中采用的CAT形式,能够更准确地评估考生的英语语言能力,为高校和教育机构提供更可靠的参考依据。个性化程度高:CAT为每个被试提供了个性化的测验体验,满足了不同被试的需求。每个被试的测验路径都是独一无二的,根据其自身的能力水平和作答情况动态生成,这种个性化的测量方式更符合现代教育对因材施教的要求。例如,在在线学习平台中,利用CAT对学生的学习成果进行评估,可以根据学生的答题情况,为其提供个性化的学习建议和资源推荐,帮助学生更好地提升学习效果。测验安全性好:由于每个被试所接受的题目不同,减少了测验题目泄露的风险,提高了测验的安全性。同时,计算机还可以对测验过程进行实时监控,防止作弊行为的发生。例如,在一些重要的职业资格考试中,采用CAT形式可以有效保障考试的公平性和安全性,维护考试的权威性。数据收集与分析便捷:CAT在测验过程中自动收集被试的答题数据,包括作答时间、作答顺序等,这些丰富的数据为后续的分析提供了更多的信息。同时,计算机可以快速生成测验报告,对被试的能力水平、知识掌握情况等进行详细分析,为教育决策提供有力支持。例如,学校可以通过对学生在CAT中的答题数据进行分析,了解学生在不同学科知识点上的优势和不足,从而有针对性地调整教学策略,提高教学质量。2.2认知诊断测验(CDT)的概念与作用认知诊断测验(CDT)作为认知心理学与现代测量学深度融合的结晶,在教育测量领域中发挥着独特而关键的作用,它为深入了解个体的认知状态提供了全新的视角和方法。从概念上讲,CDT突破了传统测验仅聚焦于宏观能力测量的局限,将测量目标深入到个体内部微观的认知状态(KS)。这里的认知状态是由一系列认知属性构成,认知属性则代表了完成特定任务或解决特定问题所需的知识、技能、策略等。例如,在数学学科中,认知属性可以包括对函数概念的理解、解方程的技能、几何图形的识别策略等。通过CDT,能够对被试在这些具体认知属性上的掌握情况进行细致的诊断,从而清晰地揭示个体内部心理加工过程和各种认知特征。这就如同医生借助各种先进的检查手段,对病人的病情进行全面、深入的诊断,以准确确定疾病类型和病因一样。与传统测验相比,CDT具有显著的优势。传统测验通常只能给出一个笼统的分数,如考试成绩,这个分数虽然在一定程度上反映了被试的整体水平,但无法提供关于被试在具体知识和技能掌握上的详细信息。例如,在一场传统的语文考试中,学生的总分可能处于中等水平,但我们无法从这个分数得知该学生是在阅读理解、写作表达还是字词积累等方面存在不足。而CDT则能够深入剖析被试的认知结构,明确指出被试哪些认知属性已经掌握,哪些还存在欠缺。以数学运算测验为例,CDT可以精确地判断被试是在整数运算、小数运算还是分数运算上存在问题,甚至可以进一步分析是运算规则的理解有误,还是计算过程中的粗心大意导致错误。这种对认知状态的精准诊断,为后续的教学和学习提供了极具针对性的指导。在教育实践中,CDT的作用尤为突出。对于教师而言,CDT的诊断结果可以帮助他们更好地了解学生的学习状况,发现学生在学习过程中存在的具体问题,从而制定更加个性化的教学计划和干预措施。例如,当教师得知某个学生在数学函数部分的多个认知属性上存在缺失时,就可以有针对性地设计教学活动,加强对函数概念、性质和应用的讲解与练习,为学生提供更具针对性的辅导。对于学生来说,CDT能够让他们清晰地认识到自己的学习优势和不足,从而调整学习策略,提高学习效率。例如,学生通过CDT了解到自己在英语阅读理解中的推理判断能力较弱,就可以有针对性地进行相关的专项训练,提升这方面的能力。此外,CDT还可以为教育政策的制定和教育资源的分配提供科学依据,有助于实现教育的公平与高效。例如,教育部门可以根据CDT对不同地区学生的认知诊断结果,合理分配教育资源,加强对薄弱地区和薄弱学科的支持。2.3CD-CAT的融合与实现CD-CAT巧妙地融合了CAT和CDT的优势,其结合方式主要体现在将CAT基于被试能力动态选题的机制应用于对被试认知状态(KS)的诊断上。具体而言,在测验过程中,计算机根据被试对前序题目的作答情况,运用认知诊断模型实时更新对被试知识状态的估计,然后依据这一估计结果,从题库中选择能够最有效区分被试当前知识状态的题目。例如,若被试在某一知识点相关的题目上表现不佳,计算机判断其在该知识点对应的认知属性上可能存在缺失,接下来就会选择更多与该属性相关的题目,以进一步精确诊断被试的知识掌握情况。这种结合方式使得CD-CAT既能像CAT一样根据被试的实际水平灵活选题,提高测验效率,又能像CDT一样深入剖析被试的认知结构,实现对被试知识状态的精准诊断。CD-CAT的实现依赖于一系列条件和关键技术。首先,高质量的题库是基础条件。题库中的题目不仅要涵盖全面的认知属性,还需准确标定项目参数,包括项目与属性的关联关系(通过Q矩阵体现)、题目难度、区分度等。例如,在构建数学学科的CD-CAT题库时,要确保涵盖代数、几何、统计等各个知识板块的不同认知属性,如对函数概念的理解、几何图形的证明方法等,并且精确确定每个题目的难度等级和对不同属性的诊断能力。其次,合适的认知诊断模型是核心技术之一。不同的认知诊断模型有其各自的特点和适用范围,如规则空间模型(RSM)通过构建规则空间,将被试的作答反应模式与典型项目反应模式进行对比,从而实现对被试认知结构的诊断;确定性输入噪声“与”门模型(DINA)则基于被试对项目所测属性的掌握情况来预测其作答反应。在实际应用中,需要根据测验目的、题库特点和被试群体特征等因素选择合适的模型,以准确估计被试的知识状态。再者,高效的选题策略是实现CD-CAT自适应的关键。选题策略需要综合考虑多个因素,如项目对被试知识状态估计的信息量、项目的区分度、被试已作答的题目情况等。例如,基于香农熵的选题策略通过计算项目选择后被试知识状态分布的不确定性变化来选择题目,使所选题目能最大程度地减少知识状态估计的不确定性;而KL信息量选题策略则衡量项目选择前后被试知识状态分布的差异,选择能使这种差异最大的题目。此外,兼顾认知状态与能力的选题策略,如双信息选题法(DI),将被试的能力信息和知识状态信息相结合,以更全面地指导题目选择,提高测验的准确性和效率。最后,合理的终止规则也是CD-CAT实现的重要环节。终止规则用于确定测验何时结束,常见的终止规则包括定长测验和变长测验。定长测验事先设定好测验的题目数量,当被试完成规定数量的题目后,测验结束;变长测验则根据测量精度来决定测验的终止,如当被试知识状态估计的标准误小于某个预设值时,认为测量精度已达到要求,测验结束。例如,在一场英语词汇CD-CAT中,若采用定长测验,可能设定为30道题目;若采用变长测验,可能设定当词汇知识状态估计的标准误小于0.1时终止测验。通过合理的终止规则,可以在保证测量精度的前提下,避免不必要的题目施测,提高测验效率。三、现有选题策略剖析3.1基于认知状态的选题策略3.1.1香农熵(信息熵)选题法香农熵选题法源于信息论中香农熵的概念,其核心在于利用信息熵来衡量被试认知状态的不确定性,进而实现选题。在认知诊断测验中,被试的认知状态由其对一系列认知属性的掌握情况构成,这些属性的不同掌握组合形成了多种可能的认知状态。从信息熵的定义来看,若一个随机变量X有n种可能的取值,其概率分布为P(X=x_i)=p_i,i=1,2,\cdots,n,则香农熵H(X)的计算公式为:H(X)=-\sum_{i=1}^{n}p_i\log_2p_i在CD-CAT的情境下,被试的认知状态可视为一个随机变量,每种可能的认知状态对应一个概率p_i。当被试的认知状态不确定性较高时,即各种可能的认知状态出现的概率较为均匀,香农熵的值较大;反之,若被试的认知状态相对确定,某一种或少数几种认知状态出现的概率占主导,香农熵的值较小。香农熵选题法的具体操作是,对于题库中的每一个项目,计算选择该项目后被试认知状态分布的香农熵变化。选择能使香农熵减小最多的项目作为下一个测试题目。这是因为选择这样的项目可以最大程度地降低被试认知状态估计的不确定性,使测验能够更快速、准确地确定被试的真实认知状态。例如,在一场数学CD-CAT中,对于一道涉及函数和方程两个属性的题目,若选择该题后,被试关于函数和方程属性掌握情况的认知状态分布的香农熵大幅减小,说明该题能够有效减少对被试这两个属性掌握情况判断的不确定性,那么这道题就有较大的概率被选中。香农熵选题法的优点在于其理论基础扎实,能够从信息论的角度有效降低认知状态估计的不确定性,提高诊断的准确性。然而,它也存在一定的局限性,在实际计算中,由于需要考虑被试所有可能的认知状态及其概率分布,计算量较大,尤其是当属性数量较多时,计算复杂度会显著增加,可能影响测验的实时性和效率。3.1.2KL信息量(相对熵)选题法KL信息量选题法,也称为相对熵选题法,是通过计算相对熵来选择最能有效区分被试认知状态的项目。相对熵(KL散度)用于衡量两个概率分布之间的差异,在CD-CAT中,主要用于衡量选择项目前后被试认知状态分布的差异。设P和Q是两个概率分布,P表示选择项目前被试认知状态的概率分布,Q表示选择项目后被试认知状态的概率分布,KL散度D_{KL}(P||Q)的计算公式为:D_{KL}(P||Q)=\sum_{x\in\mathcal{X}}P(x)\log\frac{P(x)}{Q(x)}其中,\mathcal{X}是认知状态的所有可能取值集合。KL散度的值越大,说明两个分布之间的差异越大,即选择该项目后被试认知状态的变化越显著。在实际选题过程中,对于题库中的每个项目,计算其对应的D_{KL}(P||Q)值,选择D_{KL}(P||Q)值最大的项目作为下一个测试题目。这是因为选择这样的项目能够最大程度地区分被试在不同认知状态下的表现,从而更准确地诊断被试的认知状态。例如,在一场物理CD-CAT中,对于一道关于电场和磁场知识的题目,若选择该题后,被试在不同电场和磁场属性掌握情况的认知状态分布与选择前的分布差异很大,即D_{KL}(P||Q)值较大,说明该题能够有效区分被试在这两个属性上的掌握程度,那么这道题就会被优先选择。KL信息量选题法的优势在于能够突出项目对被试认知状态的区分能力,使测验能够更有针对性地选择那些能够提供最大信息增益的题目,从而提高诊断的准确性和效率。然而,它也存在一些不足。与香农熵选题法类似,在计算KL散度时,需要对被试所有可能的认知状态进行计算,计算量较大,对计算资源和时间要求较高。此外,KL信息量选题法依赖于准确的概率分布估计,若估计不准确,可能会导致选择的项目并非最优,影响测验结果的准确性。3.2兼顾认知状态与能力的选题策略3.2.1使用影子测验的算法使用影子测验的算法是一种在认知诊断计算机化自适应测验中,兼顾认知状态与能力的有效选题策略。该算法的核心在于利用影子测验来辅助估计被试的能力和认知状态,进而实现更精准的选题。具体而言,在测验开始前,先从题库中选取一部分题目组成影子测验。这些题目并不直接用于对被试的正式测量,而是作为辅助工具。在被试进行正式测验的过程中,同时对影子测验中的题目进行作答分析。通过被试对影子测验题目的反应,运用项目反应理论(IRT)等方法,可以更准确地估计被试的能力水平。例如,若被试在影子测验中对难度较高的题目回答正确率较高,说明其能力水平可能较高;反之,若对简单题目也频繁出错,则能力水平可能较低。在估计被试的认知状态时,影子测验同样发挥着重要作用。通过分析被试在影子测验中对不同认知属性相关题目的作答情况,可以初步判断被试在各个认知属性上的掌握程度。然后,结合被试在正式测验中的答题情况,利用认知诊断模型,如确定性输入噪声“与”门模型(DINA)等,对被试的认知状态进行更精确的估计。例如,在一场数学CD-CAT中,影子测验包含了代数、几何、概率等不同认知属性的题目。若被试在影子测验中代数题目错误较多,而几何和概率题目表现较好,那么在后续的正式测验中,就可以重点关注代数相关的认知属性,选择更多代数方面的题目,以进一步确定被试在代数知识上的具体认知状态。在选题阶段,根据被试通过影子测验和正式测验所呈现出的能力水平和认知状态,从题库中选择能够最大程度区分被试当前状态的题目。若发现被试在某个认知属性上的掌握情况不确定,且能力水平处于中等范围,那么就选择一道难度适中、对该认知属性诊断力较强的题目,以提高对被试认知状态和能力的估计精度。使用影子测验的算法能够综合考虑被试的能力和认知状态,为选题提供更丰富、准确的信息,从而提高测验的质量和效率。然而,该算法也存在一定的局限性,如影子测验题目的选择需要谨慎,若选择不当,可能会影响对被试能力和认知状态的估计;同时,额外的影子测验增加了测验的时间和复杂度,需要在实际应用中进行合理的权衡。3.2.2综合指标算法综合指标算法是一种全面且灵活的选题策略,它综合考虑了多种因素,通过生成一个综合指标来指导题目选择,从而实现对被试认知状态和能力的有效评估。该算法的核心在于将被试的能力信息、认知状态信息以及项目层面的信息进行有机整合。在被试能力信息方面,利用项目反应理论中的能力估计值,如极大似然估计法或贝叶斯估计法得到的被试能力参数\theta,来反映被试的整体能力水平。例如,在一场英语词汇CD-CAT中,通过被试对一系列词汇题目的作答,运用极大似然估计法得到其词汇能力参数\theta,该参数可以体现被试在词汇量、词汇运用等方面的综合能力。对于认知状态信息,借助认知诊断模型,如统一模型(UM)等,获取被试在各个认知属性上的掌握概率。这些概率反映了被试对不同知识点或技能的掌握程度。例如,在数学运算的CD-CAT中,通过UM模型可以得到被试在整数运算、小数运算、分数运算等认知属性上的掌握概率,从而明确被试在数学运算领域的具体知识状态。项目层面的信息则包括项目难度、区分度、项目与属性的关联程度(通过Q矩阵体现)等。项目难度参数b表示项目的难易程度,区分度参数a反映项目对不同能力水平被试的区分能力,而Q矩阵则确定了项目所测量的认知属性。例如,一道数学函数题,其难度参数b较高,说明该题难度较大;区分度参数a较大,表明它能有效区分不同能力水平的被试;通过Q矩阵可知该题主要测量函数的概念、性质和应用等认知属性。综合考虑这些因素后,通过一定的数学公式或算法生成选题的综合指标。一种常见的方法是对各个因素进行加权求和,如:综合指æ

‡=w_1\times信息量+w_2\times区分度+w_3\times(能力水平-项目难度)^2+\cdots其中,w_1、w_2、w_3等为各个因素的权重,它们的取值根据测验目的、题库特点以及被试群体特征等因素确定。信息量可以通过香农熵或KL信息量等指标来衡量,反映项目对被试认知状态或能力估计的信息增益;区分度体现项目对不同被试的鉴别能力;(能力水平-项目难度)^2则表示被试能力与项目难度的匹配程度,该值越小,说明项目难度越适合被试当前能力水平。在实际选题时,计算题库中每个项目的综合指标,选择综合指标最大的项目作为下一个测试题目。这样可以确保所选题目既能最大程度地提供关于被试认知状态和能力的信息,又能与被试的实际水平相匹配,从而提高测验的准确性和效率。例如,在一场物理CD-CAT中,对于一道关于电场和磁场的题目,计算其综合指标,若该指标在所有备选题目中最大,说明选择这道题能够最有效地评估被试在电场和磁场知识方面的认知状态和能力水平,因此将其选作下一题。综合指标算法通过全面考虑多方面因素,为选题提供了更科学、合理的依据,但在确定权重和计算综合指标时,需要进行大量的数据分析和实验验证,以确保其有效性和可靠性。3.3其他常见选题策略3.3.1最大信息量(MI)最大信息量(MI)选题策略是计算机化自适应测验(CAT)中一种经典且基础的选题方法,其核心原理基于项目反应理论(IRT)。在IRT框架下,每个测验项目都具有一定的参数,这些参数描述了项目与被试能力之间的关系。项目信息量是衡量项目对被试能力估计贡献大小的重要指标,它反映了项目能够为确定被试能力水平提供多少有用信息。具体而言,对于一个给定的项目,其信息量I(\theta)的计算通常基于项目特征曲线(ICC)。以常用的双参数Logistic模型(2-PL)为例,项目特征曲线函数为:P(X_{ij}=1|\theta_i)=\frac{1}{1+e^{-1.7a_j(\theta_i-b_j)}}其中,P(X_{ij}=1|\theta_i)表示能力为\theta_i的被试答对项目j的概率,a_j为项目j的区分度参数,反映项目对不同能力水平被试的区分能力;b_j为项目j的难度参数;e为自然常数。项目信息量I(\theta)的计算公式为:I(\theta)=a^2P(\theta)[1-P(\theta)]从公式中可以看出,项目信息量与区分度a的平方成正比,与被试答对项目的概率P(\theta)及其答错概率1-P(\theta)的乘积成正比。这意味着区分度越高,且在被试能力水平附近答对概率适中(既不过高也不过低)的项目,其信息量越大。在最大信息量选题策略中,每次选题时,计算题库中所有项目在当前被试能力估计值\theta下的信息量,然后选择信息量最大的项目作为下一个测试题目。这是因为选择信息量最大的项目能够最大程度地减少被试能力估计的不确定性,从而提高能力估计的精度。例如,在一场英语词汇能力的CAT中,当被试回答完前一题后,计算机根据其作答情况更新对被试能力的估计值\theta,然后计算题库中每个词汇题目的信息量。若一道关于高级词汇辨析的题目在当前\theta下信息量最大,说明选择这道题能够最有效地帮助确定被试的词汇能力水平,于是该题被选中作为下一题。最大信息量选题策略在能力估计精度方面表现出色,能够快速且准确地逼近被试的真实能力。然而,它也存在一些局限性,由于过于追求信息量最大化,可能会导致某些项目被频繁选择,而另一些项目则很少被使用,从而影响题库的均衡使用和测验的安全性。此外,在实际应用中,当题库规模较大时,计算所有项目的信息量会消耗较多的计算资源和时间。3.3.2双信息选题法(DI)双信息选题法(DI)是一种在认知诊断计算机化自适应测验(CD-CAT)中,综合考虑被试能力信息和认知状态信息的选题策略,旨在更全面、准确地评估被试的知识水平和认知结构。在CD-CAT中,被试的能力信息反映了其在某个学科领域的总体水平,而认知状态信息则深入到具体的认知属性层面,揭示被试对各个知识点或技能的掌握情况。双信息选题法将这两种信息有机结合,以指导题目选择。具体来说,它首先分别计算项目对被试能力估计的信息量(记为I_{ability})和对被试认知状态估计的信息量(记为I_{cognitive})。对于I_{ability}的计算,可以基于项目反应理论中的方法,如在双参数Logistic模型下,按照前面提到的信息量计算公式I(\theta)=a^2P(\theta)[1-P(\theta)]进行计算,其中\theta为被试的能力估计值。而I_{cognitive}的计算则依赖于认知诊断模型,例如在确定性输入噪声“与”门模型(DINA)中,通过分析项目与认知属性的关联关系以及被试在这些属性上的掌握概率,来确定项目对认知状态估计的信息增益。然后,通过一定的方式将I_{ability}和I_{cognitive}进行融合,得到一个综合信息量指标I_{total}。常见的融合方式是加权求和,即:I_{total}=w_1\timesI_{ability}+w_2\timesI_{cognitive}其中,w_1和w_2为权重,它们的取值根据测验目的、题库特点以及被试群体特征等因素确定。权重的确定需要综合考虑多个因素,一般通过实验或数据分析来确定合适的比例。若测验更关注对被试能力的整体评估,可能会适当提高w_1的权重;若希望更深入地了解被试的认知结构,w_2的权重则可相应增大。在实际选题时,计算题库中每个项目的I_{total},选择I_{total}最大的项目作为下一个测试题目。例如,在一场数学CD-CAT中,对于一道涉及函数和方程知识点的题目,计算其I_{ability}和I_{cognitive},然后得到I_{total}。若该题目的I_{total}在所有备选题目中最大,说明选择这道题能够同时有效地提升对被试数学能力和函数、方程认知状态的估计,因此将其选作下一题。双信息选题法充分利用了被试的能力和认知状态信息,能够更全面地评估被试,提高测验的准确性和有效性。然而,确定合适的权重是一个复杂的过程,需要大量的前期研究和数据分析,且权重的设定可能会受到主观因素的影响。此外,该方法的计算复杂度相对较高,对计算资源和时间有一定的要求。3.3.3综合指标DWI法综合指标DWI法是一种更为全面和灵活的选题策略,它在双信息选题法的基础上,进一步拓展了信息源,综合考虑了多个因素来构建选题的综合指标,以实现更精准、高效的题目选择。除了被试的能力信息和认知状态信息外,DWI法还纳入了项目层面的多种信息,如项目难度、区分度、项目与属性的关联程度(通过Q矩阵体现)以及项目的曝光率等。项目难度参数b反映了项目的难易程度,合适的项目难度应与被试当前的能力水平相匹配,这样才能最大程度地发挥项目的诊断作用。区分度参数a体现了项目对不同能力水平被试的区分能力,区分度越高,项目越能有效地区分不同能力层次的被试。Q矩阵则明确了项目所测量的认知属性,通过分析Q矩阵,可以了解项目在认知结构诊断中的针对性。项目曝光率是指项目在以往测验中被选择的频率,控制项目曝光率有助于保证题库中项目的均衡使用,提高测验的安全性。DWI法通过构建一个综合指标来综合考量这些因素,常见的构建方式是采用加权线性组合的形式,如:综合指æ

‡DWI=w_1\timesI_{ability}+w_2\timesI_{cognitive}+w_3\times(能力水平-项目难度)^2+w_4\times区分度+w_5\times项目与属性关联度+w_6\times(1-项目曝光率)其中,w_1、w_2、w_3、w_4、w_5、w_6等为各个因素的权重,它们的取值需要根据具体的测验目的、题库特征以及被试群体特点等进行精心设定。权重的确定通常需要进行大量的实验和数据分析,以找到能够使测验效果最优的权重组合。例如,若测验旨在快速筛选出能力水平较高的被试,可能会适当提高能力信息I_{ability}和区分度的权重;若重点关注对被试认知结构的全面诊断,则会增大认知状态信息I_{cognitive}和项目与属性关联度的权重。在实际选题过程中,计算题库中每个项目的综合指标DWI,选择综合指标最大的项目作为下一个测试题目。例如,在一场物理CD-CAT中,对于一道关于电场和磁场的题目,计算其各项因素对应的指标值,然后按照上述公式计算综合指标DWI。若该题目的综合指标在所有备选题目中最大,说明选择这道题能够在综合考虑各种因素的情况下,最有效地评估被试在电场和磁场知识方面的能力和认知状态。综合指标DWI法通过全面整合多方面信息,为选题提供了更科学、合理的依据,能够有效提高测验的质量和效率。然而,该方法的复杂性也带来了一些挑战,权重的确定过程繁琐且需要大量的数据支持,同时,计算综合指标的过程对计算资源和时间要求较高。3.4现有策略的优势与局限现有选题策略在认知诊断计算机化自适应测验(CD-CAT)中发挥着重要作用,各自展现出独特的优势,同时也存在一定的局限性。基于认知状态的选题策略,如香农熵选题法和KL信息量选题法,在理论层面具有显著优势。香农熵选题法从信息论角度出发,通过计算信息熵来衡量被试认知状态的不确定性,能够有效降低这种不确定性,为认知诊断提供了坚实的理论基础,有助于提高诊断的准确性。例如,在一场物理概念的CD-CAT中,香农熵选题法可以通过选择能最大程度降低关于被试对电场、磁场等概念认知不确定性的题目,来快速明确被试的知识状态。KL信息量选题法同样基于信息论,通过计算相对熵来衡量选择项目前后被试认知状态分布的差异,突出了项目对被试认知状态的区分能力,能够使测验更有针对性地选择那些能够提供最大信息增益的题目,从而提高诊断的准确性和效率。在化学元素性质的CD-CAT中,KL信息量选题法可以准确选择出能最大程度区分被试对不同元素性质认知差异的题目,精准判断被试的知识掌握情况。然而,这两种选题策略在实际应用中面临计算复杂度高的问题。由于需要考虑被试所有可能的认知状态及其概率分布,随着认知属性数量的增加,计算量呈指数级增长,这不仅对计算资源要求极高,还可能导致测验时间延长,影响测验的实时性和效率。兼顾认知状态与能力的选题策略,像使用影子测验的算法和综合指标算法,具有全面性和灵活性的优势。使用影子测验的算法通过引入影子测验,能够同时考虑被试的能力和认知状态,为选题提供更丰富、准确的信息。在数学CD-CAT中,影子测验可以包含代数、几何、概率等多个领域的题目,通过被试对这些题目的作答,更准确地估计其能力水平和在不同认知属性上的掌握程度,进而选择出更合适的题目,提高测验的质量和效率。综合指标算法则综合考虑了被试的能力信息、认知状态信息以及项目层面的信息,通过构建综合指标来指导选题,能够更全面地评估被试。在英语CD-CAT中,该算法可以将被试的词汇能力、语法能力等能力信息,对不同语法规则、词汇运用等认知属性的掌握情况,以及题目难度、区分度等项目信息进行整合,生成综合指标,从而选择出最能有效评估被试英语水平和知识结构的题目。但是,使用影子测验的算法中影子测验题目的选择至关重要,若选择不当,可能会误导对被试能力和认知状态的估计;同时,额外的影子测验增加了测验的时间和复杂度,需要在实际应用中进行谨慎权衡。综合指标算法在确定权重和计算综合指标时,需要进行大量的数据分析和实验验证,过程繁琐且复杂,权重的设定还可能受到主观因素的影响,从而影响选题的科学性和准确性。其他常见选题策略也各有优劣。最大信息量(MI)选题策略作为CAT中的经典方法,在能力估计精度方面表现出色。它基于项目反应理论,通过选择信息量最大的项目,能够快速且准确地逼近被试的真实能力。在一场语文阅读理解能力的CAT中,MI选题策略可以迅速选择出最能反映被试阅读理解水平的题目,高效地确定被试的能力。然而,该策略过于追求信息量最大化,可能会导致某些项目被频繁选择,而另一些项目则很少被使用,这不仅会影响题库的均衡使用,降低题库的使用寿命,还可能增加测验题目泄露的风险,影响测验的安全性。双信息选题法(DI)综合考虑被试能力信息和认知状态信息,能够更全面地评估被试,提高测验的准确性和有效性。在生物CD-CAT中,DI选题法可以同时关注被试对生物概念、实验操作等认知属性的掌握情况以及整体的生物学科能力,使测验结果更全面、准确。但确定合适的权重是一个复杂的过程,需要大量的前期研究和数据分析,且权重的设定可能会受到主观因素的影响,导致选题的偏差。综合指标DWI法在DI法的基础上进一步拓展,综合考虑了更多因素,为选题提供了更科学、合理的依据。在历史CD-CAT中,它可以将被试对不同历史时期、事件的认知状态,历史学科的综合能力,以及题目与历史知识点的关联程度、题目难度等因素进行综合考量,提高测验的质量和效率。但该方法的复杂性也带来了挑战,权重的确定过程繁琐且需要大量的数据支持,计算综合指标的过程对计算资源和时间要求较高,限制了其在一些资源有限场景中的应用。四、案例分析与实证研究4.1研究设计本研究旨在通过实证分析,深入比较多种选题策略在认知诊断计算机化自适应测验(CD-CAT)中的表现,为教育测量领域的选题策略优化提供实践依据。研究选取了某中学高一年级的200名学生作为被试,涵盖了不同学习能力和知识水平的学生,以确保样本的多样性和代表性。将这200名学生随机分为四组,每组50人。其中,前三组分别采用香农熵选题法、KL信息量选题法和双信息选题法进行CD-CAT测试,第四组作为对照组,采用传统的固定题目测验方式。研究采用了自行编制的数学知识题库,该题库包含代数、几何、概率统计等多个知识模块,共计500道题目。每个题目均经过严格的筛选和专家审核,确保其质量和有效性。在认知诊断模型方面,选用了确定性输入噪声“与”门模型(DINA)。DINA模型能够基于被试对项目所测属性的掌握情况来预测其作答反应,在认知诊断领域具有广泛的应用和良好的效果。通过该模型,可以准确地估计被试在各个认知属性上的掌握概率,为选题策略的实施提供基础数据。在数据收集工具方面,利用专门开发的CD-CAT测试系统进行测验。该系统具备智能化选题、实时记录被试答题信息等功能。在测验过程中,系统能够根据不同的选题策略,为每组被试动态选择题目,并详细记录被试的作答情况,包括答题时间、答案对错等信息。同时,还设计了详细的学生背景信息调查问卷,收集学生的性别、学习成绩、学习习惯等信息,以便在后续分析中探究这些因素对测验结果的影响。4.2实验过程在实验准备阶段,对测试系统进行了全面的调试与优化,确保系统稳定运行,避免因技术故障影响实验结果。同时,组织被试学生进行了预测试,向他们详细介绍测验的目的、流程和注意事项,使其熟悉测试系统的操作方式,减少因对测验形式不熟悉而产生的误差。例如,在预测试中,安排专门的教师为学生演示如何登录系统、作答题目、提交答案等操作,并解答学生的疑问。正式测验时,四组学生在相同的环境下进行测试,每组测试时间均为60分钟。采用香农熵选题法、KL信息量选题法和双信息选题法的三组学生,在测验开始时,系统均呈现一道难度中等的题目。学生作答后,系统依据各自的选题策略,结合被试的作答情况和认知诊断模型的估计结果,动态选择下一道题目。如采用香农熵选题法的小组,系统会计算每个备选项目选择后被试认知状态分布的香农熵变化,选择使香农熵减小最多的项目;采用KL信息量选题法的小组,系统则计算每个项目对应的KL散度,选择KL散度值最大的项目;采用双信息选题法的小组,会综合考虑项目对被试能力估计和认知状态估计的信息量,选择综合信息量指标最大的项目。对照组的学生则按照预先设定的固定题目顺序依次作答。在整个测验过程中,实验人员密切监控学生的答题情况,确保学生遵守测验规则,防止作弊行为的发生。同时,详细记录学生的答题时间、答题过程中的操作行为(如是否修改答案、答题停顿时间等)等信息,以便后续对数据进行深入分析。例如,利用系统的日志功能,记录学生每次点击答案、提交题目等操作的时间戳,以及学生在每道题目上的停留时间,这些信息有助于分析学生的答题思路和对知识的掌握程度。测验结束后,及时收集学生的答题数据,包括答案、答题时间、题目曝光率等。同时,回收学生背景信息调查问卷,确保问卷填写的完整性和真实性。对收集到的数据进行初步整理和清洗,检查数据的准确性和一致性,剔除异常数据。例如,对于答题时间过短或过长、答案呈现明显规律性等异常数据进行排查和处理,以保证后续数据分析的可靠性。4.3结果与讨论在测量精度方面,通过对被试认知状态估计的准确性进行分析,结果显示采用香农熵选题法的小组在降低认知状态估计的不确定性上表现出色,其平均模式判准率达到了80%,能够较为准确地确定被试在各个认知属性上的掌握情况。例如,在代数知识模块,对于函数、方程等认知属性的判断,香农熵选题法能够精准识别被试的掌握状态,为后续教学提供准确依据。KL信息量选题法在区分被试不同认知状态方面效果显著,平均模式判准率为78%,尤其在对被试知识掌握程度差异较大的情况下,能够有效选择出最具区分度的题目,提高诊断的准确性。双信息选题法由于综合考虑了被试的能力信息和认知状态信息,在整体测量精度上表现较为均衡,平均模式判准率为82%,能够全面地评估被试的知识水平和认知结构。对照组采用固定题目测验方式,平均模式判准率仅为65%,明显低于采用自适应选题策略的小组。这表明自适应选题策略在提高测量精度方面具有显著优势,能够更准确地反映被试的真实认知状态。在测验效率方面,香农熵选题法和KL信息量选题法的平均测验题目数量分别为35道和38道,测验时间平均为45分钟和48分钟。这两种方法能够根据被试的作答情况快速调整题目难度和类型,避免了过多冗余题目的呈现,从而提高了测验效率。双信息选题法由于需要综合考虑多种信息,计算复杂度相对较高,平均测验题目数量为40道,测验时间平均为50分钟。虽然其测验效率相对前两种方法略低,但在保证测量精度的前提下,仍优于传统的固定题目测验方式。对照组的固定题目测验由于无法根据被试的能力和认知状态进行选题,所有被试都要完成相同的题目,导致测验题目数量较多,平均为50道,测验时间平均为60分钟。这说明自适应选题策略能够在保证测量精度的同时,有效减少测验题目数量和时间,提高测验效率。进一步分析不同选题策略在不同能力水平被试上的表现,发现香农熵选题法在中等能力水平被试中的测量精度最高,模式判准率达到了85%,因为该方法能够根据中等能力被试的特点,快速降低认知状态估计的不确定性。KL信息量选题法在高能力和低能力被试中的区分效果更好,在高能力被试中的模式判准率为80%,在低能力被试中的模式判准率为75%,能够有效识别不同能力水平被试的知识掌握差异。双信息选题法在不同能力水平被试中的表现较为稳定,模式判准率均保持在80%左右,这得益于其综合考虑能力和认知状态信息的优势。从不同知识模块的诊断效果来看,在代数知识模块,三种自适应选题策略的模式判准率均较高,都在80%以上,能够准确诊断被试在代数概念、运算等方面的知识掌握情况。在几何知识模块,香农熵选题法和双信息选题法的表现较好,模式判准率分别为83%和85%,能够有效识别被试在几何图形性质、证明等方面的认知状态。而在概率统计知识模块,KL信息量选题法的模式判准率最高,达到了82%,能够更准确地判断被试在概率计算、统计分析等方面的能力。综上所述,不同选题策略在测量精度和测验效率上各有优势。双信息选题法在整体测量精度上表现最佳,能够全面评估被试的知识水平和认知结构;香农熵选题法在降低认知状态估计不确定性方面表现突出,尤其适用于中等能力水平被试;KL信息量选题法在区分被试不同认知状态方面效果显著,在高能力和低能力被试以及概率统计知识模块的诊断中表现较好。在实际应用中,应根据测验目的、被试群体特点以及知识模块的特性,选择合适的选题策略,以提高认知诊断计算机化自适应测验的质量和效果。五、选题策略的优化与改进5.1考虑项目曝光率的优化策略在认知诊断计算机化自适应测验(CD-CAT)中,项目曝光率是一个关键问题。过高的项目曝光率可能导致题库中部分项目频繁出现,增加题目泄露的风险,影响测验的安全性和公平性;而过低的曝光率则会造成题库资源的浪费,无法充分发挥题库中所有项目的作用。因此,控制项目曝光率对于CD-CAT的有效实施至关重要。分层选题是一种有效的控制项目曝光率的方法。该方法将题库中的项目按照一定的标准进行分层,常见的分层标准包括项目难度、区分度、知识点类别等。例如,按照项目难度可以将题目分为高、中、低三个层次。在选题过程中,首先根据被试的当前状态确定需要从哪个层次中选题。若被试在前序题目中的表现较好,显示其能力较高,可能优先从高难度层次的题目中选择;反之,则从低难度层次选题。然后,在选定的层次内,再根据其他选题策略,如基于香农熵或KL信息量的方法,选择具体的题目。这样可以确保不同层次的项目都有一定的曝光机会,避免某些层次的项目被过度或过少选择。研究表明,分层选题策略能够有效控制项目曝光率,使项目的使用更加均衡。在一个包含数学不同知识点和难度层次的题库中,采用分层选题策略后,各层次项目的曝光率差异明显减小,高难度项目不再被频繁选择,低难度项目也能得到合理利用,从而提高了题库的使用寿命和测验的安全性。随机化选题也是一种常用的控制项目曝光率的手段。它通过在一定范围内随机选择题目,增加了选题的不确定性,从而降低了某些项目被固定选择的概率。一种简单的随机化选题方法是在符合一定条件的项目集合中进行随机抽取。在选择题目时,先筛选出与被试当前认知状态相关且难度适宜的项目集合,然后从这个集合中随机抽取一个项目作为下一题。这种方法能够在一定程度上保证项目曝光率的均衡性。例如,在一场语文CD-CAT中,对于涉及诗词鉴赏和阅读理解的题目,当被试在诗词鉴赏部分表现出一定能力后,从与阅读理解相关且难度匹配的题目集合中随机抽取题目,避免了某些阅读理解题目被过度曝光,同时也给予了其他题目展示的机会。然而,随机化选题也存在一定的局限性,由于其随机性,可能会导致选择的题目并非是对被试认知状态诊断最有效的题目,从而在一定程度上影响测验的精度。为了进一步优化项目曝光率的控制,可以将分层选题和随机化选题相结合。在分层的基础上,对每个层次内的项目进行随机选择。在按照难度分层后,在每个难度层次内,先根据被试的认知状态和其他选题策略确定一个较小的候选项目子集,然后从这个子集中随机选择题目。这样既保证了项目曝光的均衡性,又在一定程度上考虑了选题的针对性,能够在提高测验安全性的同时,尽量减少对测验精度的影响。在一个包含物理多个知识点和难度层次的题库中,采用分层与随机化相结合的选题策略后,不仅各层次项目的曝光率更加均衡,而且通过合理的子集筛选和随机选择,测验对被试认知状态的诊断精度也得到了较好的维持。5.2结合机器学习的动态选题策略在认知诊断计算机化自适应测验(CD-CAT)中,机器学习算法的引入为动态调整选题策略带来了新的契机和变革。机器学习算法具有强大的数据处理和模式识别能力,能够从大量的被试答题数据和项目信息中挖掘出潜在的规律和特征,从而为选题策略的动态优化提供有力支持。决策树算法在动态选题中展现出独特的优势。决策树通过对被试的能力水平、答题历史、认知属性掌握情况等多维度数据进行分析,构建出一个树形结构的决策模型。在这个模型中,每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种决策结果,即选择的题目。例如,以被试在代数和几何知识模块的答题正确率作为内部节点的测试属性,若被试在代数模块的答题正确率较高,而在几何模块的答题正确率较低,决策树可以根据预先设定的规则和阈值,判断出被试在几何知识上可能存在不足,进而从题库中选择与几何相关的题目作为下一题。决策树算法的优点在于其决策过程直观、易于理解,能够清晰地展示出选题的依据和逻辑。它可以同时处理标称型和数值型数据,对于被试的各种属性信息都能进行有效的整合和分析。而且,在测试数据集时,决策树算法的运行速度相对较快,能够满足CD-CAT对实时性的要求。然而,决策树算法也存在一些局限性,它对缺失数据的处理比较困难,容易出现过拟合问题,并且在一定程度上忽略了数据集中属性的相互关联。为了克服这些问题,可以采用对决策树进行剪枝的方法,如通过交叉验证法和加入正则化的方式,减少过拟合现象;还可以使用基于决策树的组合算法,如bagging算法、randomforest算法等,提高模型的稳定性和泛化能力。神经网络算法也是一种极具潜力的用于动态选题的机器学习方法。神经网络由大量的神经元相互连接组成,通过对大量被试答题数据的学习,神经网络能够自动提取数据中的复杂特征和模式,建立起被试特征与题目选择之间的非线性关系模型。在一个包含数学、语文、英语等多学科知识的CD-CAT中,神经网络可以学习到不同学科知识之间的关联,以及被试在不同学科能力表现上的相互影响。当被试在数学运算部分表现出较强的能力,但在数学应用题部分存在不足时,神经网络能够综合考虑这些信息,从题库中选择既涉及数学运算又包含一定应用场景的题目,以更全面地评估被试的数学能力。神经网络算法具有强大的学习能力和非线性映射能力,能够处理复杂的模式和关系,对噪声数据具有较强的鲁棒性和容错性。它可以逼近任意非线性关系,为动态选题提供了更加灵活和准确的模型。然而,神经网络算法也面临一些挑战,其参数较多,训练过程复杂,需要大量的计算资源和时间。而且,神经网络是一个黑盒模型,难以观察其中间结果和决策过程,这在一定程度上限制了其可解释性。为了提高神经网络的训练效率和可解释性,可以采用优化的训练算法,如自适应学习率算法等,加快模型的收敛速度;同时,近年来发展的可解释性神经网络技术,如注意力机制、可视化技术等,也为理解神经网络的决策过程提供了新的途径。将机器学习算法应用于CD-CAT的动态选题策略,能够显著提升选题的科学性和准确性。通过对被试答题数据和项目信息的深度挖掘和分析,机器学习算法可以实时根据被试的状态动态调整选题策略,使所选题目更贴合被试的实际能力和认知状态。在实际应用中,应根据具体的测验目的、题库特点和被试群体特征,选择合适的机器学习算法,并结合其他选题策略和技术,进一步优化选题过程,提高CD-CAT的整体性能和效果。5.3针对不同测验目的的策略定制在教育测量中,不同的测验目的对认知诊断计算机化自适应测验(CD-CAT)的选题策略有着不同的要求。对于学业成就评估,如学期末的学科考试,其目的是全面、准确地了解学生对本学期所学知识的掌握程度。在这种情况下,选题策略应注重覆盖课程标准所要求的各个知识点和认知属性。可以采用综合指标DWI法,将项目对学生能力估计的信息量、对认知状态估计的信息量、项目难度、区分度以及项目与属性的关联程度等因素进行综合考虑。通过合理设置权重,确保所选题目既能涵盖不同难度层次,又能有效诊断学生在各个认知属性上的掌握情况。在数学学业成就评估中,对于函数、几何、概率等不同知识板块,根据其在课程标准中的重要性和学生的学习情况,为每个板块的题目设置相应的权重。对于重点知识板块,如函数,提高与之相关题目的权重,使其在测验中得到更充分的考查,从而全面评估学生的数学学业成就。对于学习困难诊断,其目的是精准找出学生在学习过程中存在的具体问题和困难,以便提供针对性的辅导和干预。此时,选题策略应更侧重于对学生认知弱点的探测。可以采用基于认知状态的香农熵选题法或KL信息量选题法。以香农熵选题法为例,它通过选择能最大程度降低学生认知状态不确定性的题目,来逐步明确学生的知识缺陷。在语文学习困难诊断中,若发现学生在阅读理解部分存在困难,通过香农熵选题法,优先选择与阅读理解相关且能最大程度降低对学生阅读理解认知状态不确定性的题目,如不同文体的阅读理解题,进一步分析学生是在词汇理解、句子分析还是文章主旨把握等方面存在问题。对于选拔性考试,如高校招生考试、职业资格考试等,其目的是从众多考生中筛选出符合特定标准的优秀人才。在这种测验目的下,选题策略应突出区分度,能够有效区分不同能力水平的考生。最大信息量(MI)选题策略和双信息选题法(DI)较为适用。最大信息量选题策略通过选择信息量最大的项目,能够快速且准确地逼近考生的真实能力,从而实现对考生能力的精准区分。双信息选题法综合考虑考生的能力信息和认知状态信息,能够更全面地评估考生,提高选拔的准确性。在高校招生考试中,对于数学学科,采用双信息选题法,既关注考生的数学综合能力,又深入分析其在代数、几何、统计等不同认知属性上的掌握情况,从而选拔出数学能力优秀且知识结构合理的考生。针对不同测验目的定制选题策略,能够使CD-CAT更好地发挥其功能,满足教育测量的多样化需求,提高测验的有效性和实用性。六、结论与展望6.1研究总结本研究围绕具有认知诊断功能的计算机化自适应测验(CD-CAT)的选题策略展开深入探究,取得了一系列具有重要理论和实践价值的成果。在理论分析方面,系统梳理了现有的CD-CAT选题策略,对基于认知状态的选题策略(如香农熵选题法、KL信息量选题法)、兼顾认知状态与能力的选题策略(如使用影子测验的算法、综合指标算法)以及其他常见选题策略(如最大信息量选题法、双信息选题法、综合指标DWI法)进行了全面剖析。详细阐述了这些策略的原理、计算方法以及在实际应用中的优缺点,为后续的策略优化和创新奠定了坚实的理论基础。通过对香农熵选题法的分析,明确了其从信息论角度降低认知状态估计不确定性的优势,同时也指出了其在计算复杂度高方面的局限性,这为后续改进策略提供了方向。在实证研究中,精心设计了实验,选取某中学高一年级200名学生作为被试,采用自行编制的数学知识题库和确定性输入噪声“与”门模型(DINA),对比了香农熵选题法、KL信息量选题法、双信息选题法和传统固定题目测验方式的效果。结果显示,自适应选题策略在测量精度和测验效率上均显著优于传统固定题目测验方式。双信息选题法在整体测量精度上表现最佳,平均模式判准率达到82%,能够全面评估被试的知识水平和认知结构;香农熵选题法在降低认知状态估计不确定性方面表现突出,尤其适用于中等能力水平被试,其在中等能力被试中的模式判准率达到85%;KL信息量选题法在区分被试不同认知状态方面效果显著,在高能力和低能力被试以及概率统计知识模块的诊断中表现较好,在高能力被试中的模式判准率为80%,在低能力被试中的模式判准率为75%。这些实证结果为不同选题策略的实际应用提供了有力的证据,明确了各种策略的适用场景和优势,有助于教育工作者根据具体需求选择最合适的选题策略。在选题策略的优化与改进方面,提出了一系列具有创新性和实用性的策略。考虑项目曝光率的优化策略,如分层选题和随机化选题相结合,有效控制了项目曝光率,使项目的使用更加均衡,提高了题库的使用寿命和测验的安全性。在一个包含多学科知识的题库中,采用分层与随机化相结合的选题策略后,各学科项目的曝光率差异明显减小,高曝光率项目不再频繁出现,低曝光率项目也能得到合理利用,从而保障了测验的公平性和有效性。结合机器学习的动态选题策略,利用决策树算法和神经网络算法,能够根据被试的答题数据和项目信息动态调整选题策略,使所选题目更贴合被试的实际能力和认知状态。决策树算法通过对被试多维度数据的分析,构建树形决策模型,直观地展示选题依据,提高了选题的针对性;神经网络算法则通过学习被试答题数据中的复杂特征和模式,建立非线性关系模型,为动态选题提供了更灵活和准确的支持。针对不同测验目的的策略定制,根据学业成就评估、学习困难诊断和选拔性考试等不同目的,分别提出了相应的选题策略,满足了教育测量的多样化需求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论