重参数化多分属性DINA模型的多级评分拓广研究_第1页
重参数化多分属性DINA模型的多级评分拓广研究_第2页
重参数化多分属性DINA模型的多级评分拓广研究_第3页
重参数化多分属性DINA模型的多级评分拓广研究_第4页
重参数化多分属性DINA模型的多级评分拓广研究_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重参数化多分属性DINA模型的多级评分拓广研究一、引言1.1认知诊断评估在教育和心理测量领域,精准把握个体的认知状态与能力水平始终是核心追求。认知诊断评估作为一种前沿且重要的手段,近年来备受瞩目。它致力于揭示被试在完成任务或测验时所运用的认知过程、掌握的技能以及知识结构,这与传统测量方式仅关注最终得分有着本质区别。传统测验提供的单一总分,无法深入剖析学生在知识掌握和能力发展上的具体情况。例如,两个在数学考试中获得相同分数的学生,其在代数、几何等不同知识板块的掌握程度以及解题思维方式可能大相径庭。而认知诊断评估突破了这一局限,能为教育者和研究者提供更为丰富、细致且具有针对性的信息。在教育实践中,认知诊断评估应用广泛。在课堂教学里,教师可以借助它了解学生对各个知识点的掌握状况,明确哪些学生在哪些内容上存在学习困难,进而及时调整教学策略,开展有针对性的辅导。比如在语文教学中,通过分析学生在阅读理解、写作等不同题型上的表现,判断他们在词汇理解、语法运用、逻辑思维等方面的能力水平,从而为学生提供个性化的学习建议。在大规模教育测评,如学业水平考试、高考等中,认知诊断评估能够为考试结果提供更全面的解读,不仅能反映学生的整体成绩,还能深入分析他们在不同学科能力维度上的优势与不足,为教育政策的制定和教育质量的提升提供有力支持。在心理测量领域,认知诊断评估可用于评估个体的认知能力发展、心理健康状况等,为心理咨询、治疗以及职业规划等提供科学依据。认知诊断评估对于理解个体认知状态和能力具有不可替代的意义。它为因材施教提供了关键依据,使教育者能够根据每个学生的独特认知特点和学习需求,量身定制教学方案,实现真正意义上的个性化教育。它有助于学生更好地认识自己的学习状况,发现自身的优势和不足,从而有针对性地进行学习和改进。认知诊断评估还能为教育研究提供丰富的数据支持,推动教育理论的发展和创新,促进教育教学质量的不断提升。1.2认知诊断模型1.2.1DINA模型DINA模型,即DeterministicInputs,Noisy“And”gatemodel(确定性输入噪声“与”门模型),是认知诊断模型中具有代表性的离散型模型。该模型的核心在于通过对学生答题数据的分析,深入挖掘学生对知识点的掌握情况。它主要涉及三个关键矩阵,分别为学生试题得分矩阵X、知识点考察矩阵Q以及学生知识点掌握矩阵A。学生试题得分矩阵X记录了学生在各个试题上的作答结果,通常用X_{ij}表示第i个学生对第j道题的回答情况,X_{ij}=1表示回答正确,X_{ij}=0表示回答错误。知识点考察矩阵Q明确了每道试题与知识点之间的关联,其中q_{jk}表示在正确回答第j道题时是否需要知识点k,q_{jk}=1表示需要,q_{jk}=0表示不需要。学生知识点掌握矩阵A刻画了学生对各个知识点的掌握状态,α_{ik}表示第i个学生对第k个知识点的掌握情况,α_{ik}=1表示掌握,α_{ik}=0表示未掌握。在DINA模型中,学生答对试题的概率基于其对试题所涉及知识点的掌握情况。假设学生i的知识点掌握向量为α_i,则其答对试题j的概率P_j(α_i)为:P_j(α_i)=P(X_{ij}=1|α_i)=g_j^{1-η_{ij}}(1-s_j)^{η_{ij}}。其中,s_j是学生在掌握了试题j所考察的所有知识点的情况下做错的概率,即失误参数;g_j是学生在并不完全掌握试题j所考察的所有知识点下猜对的概率,即猜测参数;η_{ij}=\prod_{k=1}^Kα_{ik}^{q_{jk}},η_{ij}=1表示学生i答对试题j,即已掌握试题j包含的全知识点,η_{ij}=0表示答错,即学生i对于试题j中的知识点至少有一个没有掌握。DINA模型具有诸多优势。其模型结构简单,易于理解和操作,在实际应用中,教育工作者和研究者能够较为轻松地运用该模型对学生的认知状态进行分析。该模型参数具有良好的可解释性,如失误参数和猜测参数能够直观地反映学生在答题过程中的行为特点,为教学提供明确的参考。此外,DINA模型的复杂性不受属性个数的影响,这使得它在处理不同规模的知识点和属性时都能保持稳定的性能。然而,DINA模型也存在一定的局限性。它主要适用于二值计分项目测验,对于具有多级评分的题目或测验,无法直接应用,这在一定程度上限制了其应用范围。在实际应用中,学生的答题行为可能受到多种复杂因素的影响,DINA模型的假设相对简化,可能无法全面准确地描述学生的真实认知过程。1.2.2多级评分DINA模型(P-DINA模型)传统的DINA模型主要针对二值计分的测验数据,然而在现实的教育和心理测量中,许多测验项目的评分并非简单的对错二分,而是采用多级评分的方式,如主观题的评分可能分为多个等级。为了适应这种更广泛的实际需求,多级评分DINA模型(P-DINA模型)应运而生,它是对DINA模型在评分方式上的重要拓展。P-DINA模型允许对项目进行多级评分,从而更细致地捕捉学生在测验中的表现。该模型在处理数据时,不仅考虑学生是否答对或答错题目,还关注学生在不同评分等级上的分布情况。例如,在作文评分中,可能分为优秀、良好、中等、及格和不及格等多个等级,P-DINA模型能够充分利用这些多级评分信息,对学生的写作能力和知识掌握程度进行更全面、深入的分析。在参数估计方面,P-DINA模型通常采用马尔可夫链蒙特卡罗(MCMC)算法。MCMC算法是一种强大的计算方法,它通过构建马尔可夫链,在高维空间中进行随机抽样,从而实现对模型参数的估计。这种算法能够有效地处理复杂的概率分布,提高参数估计的精度和稳定性。在实际应用中,P-DINA模型展现出独特的特点和优势。由于它能够处理多级评分数据,因此可以更准确地反映学生在不同能力水平上的差异,为教育者提供更丰富、详细的学生认知信息。在评估学生的阅读理解能力时,通过多级评分可以区分出学生对文章理解的深度和准确性,而不仅仅是简单的是否理解正确。P-DINA模型在适应性和灵活性方面表现出色,能够适应不同类型的测验和评分标准,为教育评价提供了更广泛的应用可能性。然而,P-DINA模型也存在一些挑战。MCMC算法的计算复杂度较高,需要较大的计算资源和时间成本,这在一定程度上限制了其在大规模数据处理中的应用。模型的参数估计和结果解释相对复杂,需要专业的知识和技能,对使用者的要求较高。1.2.3多分属性DINA模型(Pa-DINA模型)多分属性DINA模型(Pa-DINA模型)是在传统DINA模型基础上发展而来的,旨在更有效地处理复杂的属性结构和学生的认知状态。传统的DINA模型假设学生对属性的掌握情况为二分状态,即掌握或未掌握,然而在实际的学习和认知过程中,学生对属性的掌握程度往往呈现出更为复杂的情况,可能存在多种不同的水平或程度。Pa-DINA模型突破了这一传统假设,允许属性具有多分状态,从而能够更细致、准确地描述学生对属性的掌握程度。在Pa-DINA模型中,属性不再简单地划分为掌握和未掌握两种情况,而是可以根据实际情况分为多个不同的水平。在数学学习中,对于函数这一属性,学生的掌握程度可能包括初步了解、能够运用基本公式解题、熟练掌握各种函数性质并能灵活应用等多个层次。Pa-DINA模型通过引入更多的参数来刻画这些不同的掌握水平,使得模型能够更精确地反映学生的真实认知状态。与传统DINA模型相比,Pa-DINA模型在处理复杂属性时具有明显的优势。它能够提供更丰富的信息,帮助教育者和研究者更深入地了解学生在各个属性上的具体掌握情况,从而为个性化教学和针对性辅导提供更有力的支持。在教学实践中,教师可以根据Pa-DINA模型的诊断结果,针对学生在不同属性水平上的表现,制定更具针对性的教学计划和策略。Pa-DINA模型能够更好地适应多样化的学习场景和学生群体,提高认知诊断的准确性和有效性。然而,Pa-DINA模型也面临一些挑战。由于模型中参数的增加,其计算复杂度和模型估计的难度也相应提高,需要更强大的计算资源和更复杂的算法来实现准确的参数估计。多分属性的划分和定义需要更深入的理论研究和实践验证,以确保其合理性和有效性。1.3属性和评分方法1.3.1二分属性与多分属性在认知诊断模型中,属性是对个体完成任务或测验所需的认知过程、技能或知识的抽象表征,其形式可分为二分属性与多分属性。二分属性是一种简单直接的属性划分方式,它将个体对属性的掌握情况明确地划分为两个状态,即掌握或未掌握。在数学运算中,对“两位数乘法”这一属性,学生要么掌握了相应的计算方法和规则,能够正确解答相关题目;要么没有掌握,无法准确得出答案。这种划分方式在许多基础的认知诊断研究和实践中被广泛应用,因为它具有简洁明了的特点,易于理解和操作,能够快速地对学生的知识掌握情况进行初步判断。在传统的教育测试中,常通过判断题或选择题来考察学生对某个知识点的掌握,答案只有对错之分,对应的属性就是二分属性。然而,在实际的学习和认知过程中,个体对属性的掌握程度往往并非如此简单的二元对立,而是呈现出更为丰富和复杂的状态。多分属性正是基于这种现实情况而提出的,它允许属性存在多个不同的水平或程度。在语言学习中,对于“阅读理解能力”这一属性,学生的掌握程度可能包括初步理解文章大意、能够理解文中具体细节、能够分析文章的结构和主旨、能够对文章进行批判性思考等多个层次。这种多分属性的划分方式能够更细致、准确地描述学生在不同认知水平上的差异,为教育者提供更全面、深入的学生认知信息。在语文考试的阅读理解部分,会设置不同难度层次的题目,从简单的事实判断到复杂的文意理解、写作手法分析等,通过学生对这些题目的作答情况,可以更精准地评估他们在阅读理解能力属性上的不同水平。在不同的测量情境下,二分属性和多分属性各有其适用性。当测量的目的是对学生的知识掌握情况进行快速的初步筛查,或者测量的属性本身较为基础、简单,易于明确划分为掌握和未掌握两种状态时,二分属性更为合适。在单元测试中,通过简单的题目来判断学生是否掌握了本单元的基本概念和公式,二分属性能够高效地实现这一目标。而当需要深入了解学生在某个复杂属性上的具体能力水平,或者测量的属性本身具有明显的多个层次和程度差异时,多分属性则能发挥更大的优势。在评估学生的综合能力时,如对学生的科学探究能力进行评价,涉及提出问题、设计实验、收集数据、分析结果等多个环节,每个环节都有不同的能力层次,此时采用多分属性可以更准确地反映学生在科学探究能力上的实际水平。1.3.2二级评分与多级评分二级评分是一种较为常见且基础的评分方式,它主要将被试的作答结果划分为两个等级,通常表现为答对得1分,答错得0分。这种评分方式在传统的标准化考试中广泛应用,如常见的选择题、判断题等题型的评分。在一场数学考试中,对于选择题,学生选择正确答案则得1分,选择错误答案则得0分。二级评分的优点在于简单易行,数据处理和分析相对便捷,能够快速地对学生的答题情况进行量化统计。它可以直观地反映学生对基础知识和简单技能的掌握情况,为初步评估学生的学习水平提供了基本的数据支持。然而,随着教育和心理测量领域对测量精度要求的不断提高,二级评分的局限性也逐渐显现。在许多实际的测验情境中,学生的能力表现并非仅能用答对或答错来简单概括,他们在答题过程中所展现出的思维深度、理解程度以及解决问题的方法等方面存在着丰富的差异。多级评分正是为了更全面、细致地捕捉这些差异而产生的。多级评分将被试的作答结果划分为多个不同的等级,每个等级对应着不同的能力水平或表现层次。在作文评分中,可能分为优秀、良好、中等、及格和不及格等多个等级。优秀等级的作文可能在立意、结构、语言表达等方面都表现出色,展现出学生较高的写作能力;而良好等级的作文在某些方面可能稍逊一筹,但整体仍有较好的表现;中等、及格和不及格等级则依次反映出学生在写作能力上的不同程度的欠缺。多级评分在更细致反映被试能力方面具有显著优势。它能够提供更丰富的信息,使教育者和研究者能够更全面地了解学生的能力发展状况。通过多级评分,可以区分出学生在同一知识点或技能上的不同掌握程度,为个性化教学提供更精准的依据。在阅读理解测试中,采用多级评分可以不仅能判断学生是否理解了文章,还能进一步分析他们对文章理解的深度和准确性,从而为后续的教学和辅导提供更有针对性的建议。多级评分能够提高测量的信度和效度,因为它更充分地利用了被试的作答信息,减少了信息的丢失,使得测量结果更能真实地反映被试的实际能力水平。1.3.3属性与评分方法间的关系属性类型与评分方法之间存在着紧密的相互影响和适配性。不同类型的属性需要与之相匹配的评分方法,才能更准确地反映被试的认知状态和能力水平。对于二分属性,由于其本身的二元特性,二级评分通常是一种较为适配的方法。因为二级评分的简单二元划分与二分属性的掌握或未掌握两种状态能够形成直接对应,二者结合能够快速、有效地对被试在二分属性上的表现进行评估。在考察学生对数学公式的记忆这一属性时,通过判断题的形式进行测试,采用二级评分,学生答对则表示掌握了该公式(对应二分属性的掌握状态),答错则表示未掌握(对应二分属性的未掌握状态),这样的组合方式简洁明了,能够高效地获取学生在该属性上的信息。然而,当属性为多分属性时,二级评分就难以充分体现被试在不同属性水平上的差异。此时,多级评分方法则更为合适。多分属性所包含的多个层次和程度,需要通过多级评分的多个等级来进行细致的区分和反映。在评估学生的阅读理解能力这一多分属性时,采用多级评分,如根据学生对文章主旨的理解、细节的把握、推理判断能力等多个维度进行综合评分,划分为多个等级,能够更准确地反映学生在阅读理解能力属性上所处的不同水平。评分方法也会对属性的测量和分析产生影响。不同的评分方法提供的信息丰富程度不同,这会直接影响到对属性的诊断和理解。二级评分提供的信息相对有限,主要关注被试是否达到了某个基本的掌握水平,对于被试在属性掌握程度上的细微差异难以察觉。而多级评分提供了更丰富的信息,能够帮助研究者更深入地分析被试在属性上的表现,挖掘出更多潜在的认知特征和能力差异。在研究学生的科学探究能力属性时,采用多级评分的实验报告评价方式,能够从实验设计、操作过程、数据处理、结果分析等多个方面对学生的表现进行评分,从而更全面地了解学生在科学探究能力属性上的具体情况。在实际应用中,应根据属性特点谨慎选择合适的评分方法。这需要充分考虑测量的目的、属性的复杂程度以及被试群体的特点等因素。当测量目的是对学生进行初步筛选或快速评估基础知识掌握情况时,对于二分属性可选择二级评分;而当需要深入了解学生在复杂属性上的能力发展状况,为个性化教学提供详细依据时,对于多分属性则应优先考虑多级评分。二、问题提出2.1已有研究的局限在认知诊断领域,虽然多分属性DINA模型(Pa-DINA模型)在描述学生对属性的复杂掌握程度方面取得了显著进展,且多级评分DINA模型(P-DINA模型)有效解决了传统DINA模型在处理多级评分数据时的局限,但当前关于多分属性DINA模型的多级评分拓广研究仍存在一些关键问题。在参数估计的准确性方面,现有模型面临诸多挑战。由于多分属性的引入,模型中的参数数量大幅增加,这使得参数估计变得更加复杂和困难。在估计学生对每个多分属性不同水平的掌握概率以及与多级评分相关的参数时,容易出现估计偏差。当属性水平划分较多时,数据的稀疏性问题会更加突出,导致参数估计的稳定性下降。在小样本数据情况下,现有的估计方法可能无法准确地捕捉到数据中的信息,从而影响模型对学生认知状态的准确诊断。以学生对数学函数知识的多分属性掌握情况为例,若要准确估计学生在函数的概念理解、公式运用、图像绘制等多个属性水平上的参数,需要大量的数据支持,否则参数估计的误差可能会较大。模型的复杂性也是一个突出问题。多分属性和多级评分的结合,使得模型的结构变得极为复杂。这种复杂性不仅增加了模型理解和解释的难度,也对计算资源和时间提出了更高的要求。教育工作者和研究者在实际应用中,可能难以快速、准确地理解模型的诊断结果,从而影响了模型在教育实践中的推广和应用。复杂的模型在计算过程中容易出现收敛速度慢甚至不收敛的情况,这限制了模型在大规模数据处理和实时诊断中的应用。在大规模的学业水平测试中,需要对大量学生的答题数据进行快速分析,复杂的模型可能无法满足时间上的要求。现有研究在属性划分和评分标准的确定上也存在不足。多分属性的划分往往缺乏统一、明确的理论依据,不同的研究可能根据不同的经验或假设进行划分,这导致属性划分的合理性和有效性难以保证。多级评分标准的制定也可能存在主观性和不一致性,不同的评分者对同一作答的评分可能存在差异,从而影响了数据的质量和模型分析结果的可靠性。在语文作文评分中,不同评分者对作文立意、结构、语言表达等方面的评价标准可能存在差异,这使得学生的作文得分可能不能准确反映其真实的写作能力。在模型的适用性和普适性方面,现有研究也有待完善。许多模型是在特定的数据集或情境下开发和验证的,其在不同学科、不同年级以及不同教育背景下的适用性需要进一步验证。不同学科的知识结构和认知特点存在差异,同一模型可能无法有效地适应所有学科的认知诊断需求。在数学和语文这两个学科中,学生的认知过程和知识掌握方式有很大不同,现有的多分属性DINA模型的多级评分拓广可能无法同时满足这两个学科对学生认知诊断的要求。2.2研究目的本研究旨在对多分属性DINA模型进行多级评分拓广,以克服现有研究的局限,提升认知诊断的精度和有效性,具体目标如下:优化参数估计方法:针对多分属性DINA模型在多级评分情境下参数估计的难题,探索新的估计方法,以提高参数估计的准确性和稳定性。通过引入先进的算法和技术,如改进的贝叶斯估计方法或基于深度学习的参数估计策略,减少参数估计偏差,降低数据稀疏性对估计结果的影响。利用马尔可夫链蒙特卡罗(MCMC)算法的变体,结合自适应抽样技术,提高参数估计的精度和收敛速度,从而更准确地刻画学生对多分属性不同水平的掌握概率以及与多级评分相关的参数。降低模型复杂度:在保证模型诊断能力的前提下,简化多分属性DINA模型与多级评分相结合后的复杂结构,使其更易于理解和应用。通过模型结构的优化和参数的精简,降低模型对计算资源和时间的要求,提高模型的运行效率。采用模型压缩技术,去除冗余参数和结构,同时保持模型的关键诊断信息,实现模型复杂度的有效降低。探索将复杂模型分解为多个简单子模型的方法,通过子模型之间的协同工作来完成认知诊断任务,从而在不损失诊断精度的基础上提高模型的可操作性。完善属性划分和评分标准:建立科学、合理、统一的多分属性划分理论和方法,确保属性划分的有效性和可靠性。制定客观、明确、一致的多级评分标准,减少评分过程中的主观性和不一致性,提高数据质量和模型分析结果的可信度。通过深入的理论研究和实证分析,结合教育教学实践和认知心理学理论,确定多分属性的划分维度和水平。采用评分者培训、评分细则细化以及多轮评分和交叉验证等方式,确保多级评分标准的准确执行,提高评分的一致性和可靠性。提高模型的适用性和普适性:验证拓广后的模型在不同学科、不同年级以及不同教育背景下的有效性和适用性,增强模型的普适性。通过在多种实际教育场景中应用模型,收集不同类型的数据进行分析和验证,为模型的广泛应用提供实践支持。针对不同学科的知识特点和认知需求,对模型进行针对性的调整和优化,使其能够更好地适应各学科的认知诊断。考虑不同年级学生的认知发展水平和学习特点,以及不同教育背景下教学方法和评价标准的差异,对模型进行灵活调整和适配,提高模型在各种教育情境中的应用效果。2.3研究意义2.3.1理论意义本研究对多分属性DINA模型进行多级评分拓广,具有重要的理论意义。在丰富认知诊断模型理论体系方面,通过将多分属性与多级评分相结合,突破了传统认知诊断模型在属性和评分方式上的限制,为认知诊断理论的发展开辟了新的方向。以往的认知诊断模型多局限于二分属性和二级评分,难以全面、细致地描述学生复杂的认知状态和能力水平。本研究的拓广使得模型能够更真实地反映学生在学习过程中对知识的掌握程度以及能力的发展层次,为认知诊断提供了更丰富、准确的理论框架。为后续相关研究提供新的思路和方法是本研究的另一大理论贡献。在参数估计方法的探索上,引入的新算法和技术,如改进的贝叶斯估计方法或基于深度学习的参数估计策略,不仅有助于解决当前模型参数估计的难题,也为其他认知诊断模型在参数估计方面提供了借鉴。在模型结构优化方面,采用的模型压缩技术和子模型协同工作方法,为降低复杂模型的计算复杂度提供了可行的途径,可启发后续研究在构建和应用复杂认知诊断模型时,更加注重模型的可解释性和计算效率。在属性划分和评分标准的确定上,建立的科学理论和方法,为其他研究提供了统一、明确的参考依据,有助于提高认知诊断研究的规范性和可靠性。2.3.2现实意义本研究成果在教育教学和心理评估等实际领域具有广泛的应用价值。在教育教学方面,能够为个性化学习提供有力支持。通过更准确地诊断学生对多分属性不同水平的掌握情况以及多级评分所反映的能力差异,教育者可以深入了解每个学生的学习状况和特点。教师可以根据诊断结果,为学生制定个性化的学习计划,提供针对性的学习资源和辅导,满足不同学生的学习需求。对于在数学函数知识的某些多分属性水平上存在困难的学生,教师可以提供专门的练习题、讲解视频或个别辅导,帮助他们逐步提高掌握程度。在教学干预方面,研究成果也发挥着重要作用。教育者可以依据诊断结果及时调整教学策略,优化教学内容和方法。如果发现大部分学生在某个知识点的多分属性掌握上存在问题,教师可以重新设计教学活动,采用更直观、生动的教学方法,增加相关的案例和练习,以提高学生的学习效果。在心理评估领域,本研究的模型可以更全面、准确地评估个体的认知能力和心理状态。在智力测验中,多级评分和多分属性的结合能够更细致地反映个体在不同认知维度上的能力水平,为心理咨询和治疗提供更精准的依据。对于学习困难的学生,通过本模型的评估,心理专家可以更深入地了解他们的认知特点和潜在问题,从而制定更有效的干预方案。三、多分属性DINA模型多级评分拓广基本思路3.1模型构建原理重参数化多分属性DINA模型多级评分拓广基于对传统DINA模型的深入剖析和对实际测量需求的精准把握。在传统DINA模型中,学生对属性的掌握情况被简单划分为二分状态,且评分方式多为二级评分,这在一定程度上限制了模型对学生复杂认知状态的描述能力。随着教育测量的发展,对学生认知水平的评估需要更细致、全面,因此重参数化多分属性DINA模型多级评分拓广应运而生。该拓广模型的理论基础融合了项目反应理论和认知诊断理论。项目反应理论强调被试的潜在特质与项目反应之间的关系,通过数学模型来描述被试在不同难度项目上的作答概率。认知诊断理论则关注被试对知识和技能的掌握情况,旨在揭示被试的认知结构和认知过程。重参数化多分属性DINA模型多级评分拓广将两者有机结合,既考虑了学生在不同属性水平上的掌握程度,又通过多级评分更精确地反映学生在测验项目上的表现。在构建逻辑上,新模型首先对属性进行了重参数化处理。传统DINA模型中的二分属性被拓展为多分属性,即每个属性不再只有掌握和未掌握两种状态,而是可以有多个不同的水平。在数学学习中,对于函数这一属性,学生的掌握水平可能包括初步了解函数概念、能够运用基本函数公式解题、熟练掌握函数图像与性质以及能够灵活运用函数解决复杂问题等多个层次。通过引入新的参数来表示这些不同的属性水平,使得模型能够更准确地刻画学生对属性的掌握程度。为了实现多级评分,模型引入了等级反应模型的思想。等级反应模型假设被试在不同等级上的作答概率是基于其潜在特质水平的连续函数。在重参数化多分属性DINA模型中,将学生对多分属性的掌握水平与项目的多级评分联系起来,通过建立概率模型来描述学生在不同属性水平下获得不同评分等级的可能性。假设学生在数学函数属性上处于某个特定水平,根据该模型可以计算出其在一道函数相关的主观题上获得优秀、良好、中等、及格或不及格等不同评分等级的概率。具体而言,设学生i对属性k的掌握水平为a_{ik},a_{ik}可以取多个值来表示不同的掌握程度。对于项目j,其有m个评分等级,用x_{ij}表示学生i在项目j上的得分,x_{ij}\in\{1,2,\cdots,m\}。模型通过引入参数\beta_{jk}和\gamma_{jk}来描述项目j在不同评分等级上的难度和区分度。学生i在项目j上获得评分等级x的概率P(x_{ij}=x|a_{ik})可以表示为:P(x_{ij}=x|a_{ik})=\frac{\exp(\sum_{l=1}^{x}\beta_{jl}+\gamma_{jk}a_{ik})}{\sum_{y=1}^{m}\exp(\sum_{l=1}^{y}\beta_{jl}+\gamma_{jk}a_{ik})}其中,分子表示学生在属性掌握水平为a_{ik}时,获得评分等级x及以下等级的概率之和,分母表示获得所有评分等级的概率之和。通过这种方式,模型将多分属性与多级评分有效地结合起来,能够更全面、准确地反映学生的认知状态和能力水平。3.2与传统模型的差异与传统DINA模型相比,重参数化多分属性DINA模型多级评分拓广在原理、参数设置和应用效果上存在显著差异。在原理方面,传统DINA模型基于二分属性和二级评分,假设学生对属性的掌握只有掌握和未掌握两种状态,且评分结果仅为答对或答错。这种简单的假设虽然在一定程度上便于理解和计算,但在实际应用中,难以全面反映学生复杂的认知状态和能力水平。而重参数化多分属性DINA模型多级评分拓广引入了多分属性和多级评分的概念,认为学生对属性的掌握程度是多水平的,评分结果也可以分为多个等级,更符合学生的真实学习情况。在数学学习中,学生对函数知识的掌握可能存在多个层次,如初步了解、熟练运用、拓展创新等,传统DINA模型无法区分这些不同层次的掌握情况,而新模型则可以通过多分属性和多级评分进行精确刻画。从参数设置来看,传统DINA模型主要包含失误参数和猜测参数,用于描述学生在掌握或未掌握知识点时的答题情况。这些参数相对较少,且对于复杂的认知结构和评分情况的描述能力有限。重参数化多分属性DINA模型多级评分拓广则引入了更多的参数,以适应多分属性和多级评分的需求。除了传统的失误和猜测参数外,还增加了用于表示属性水平的参数,以及与多级评分相关的难度参数和区分度参数。这些参数能够更细致地描述学生在不同属性水平下获得不同评分等级的概率,从而提供更丰富的认知诊断信息。在评估学生的写作能力时,新模型可以通过参数分析学生在立意、结构、语言表达等多个属性水平上的表现,以及这些表现与不同评分等级之间的关系。在应用效果上,传统DINA模型在处理简单的认知诊断任务时具有一定的优势,能够快速地对学生的知识掌握情况进行初步判断。然而,当面对复杂的认知结构和多级评分数据时,其诊断的准确性和有效性会受到较大影响。重参数化多分属性DINA模型多级评分拓广由于能够更全面、准确地反映学生的认知状态和能力水平,在复杂的测量情境中表现出更好的诊断效果。它可以为教育者提供更详细的学生学习信息,帮助教师更有针对性地制定教学计划和辅导策略。在个性化学习中,教师可以根据新模型的诊断结果,为每个学生提供个性化的学习资源和指导,满足学生的不同学习需求。与其他衍生模型相比,重参数化多分属性DINA模型多级评分拓广也具有独特之处。一些衍生模型可能仅在属性或评分方式上进行了单一的拓展,而本模型同时实现了多分属性和多级评分的结合,这种综合拓展使得模型能够更全面地捕捉学生的认知信息。在某些只考虑多分属性的模型中,评分方式仍然局限于二级评分,无法充分利用多级评分所提供的丰富信息;而一些只考虑多级评分的模型,在属性描述上可能不够细致,无法准确反映学生对知识的多层次掌握情况。重参数化多分属性DINA模型多级评分拓广则克服了这些局限性,通过将多分属性和多级评分有机融合,为认知诊断提供了更强大的工具。四、PRPa-DINA模型参数估计4.1参数估计算法在多分属性DINA模型多级评分拓广(PRPa-DINA模型)中,参数估计是关键环节,直接影响模型对学生认知状态诊断的准确性。本研究采用马尔可夫链蒙特卡罗(MCMC)算法进行参数估计,该算法基于马尔可夫链的原理,通过在高维空间中进行随机抽样来逼近目标概率分布,从而实现对模型参数的有效估计。MCMC算法的基本原理基于马尔可夫链的遍历性和细致平衡条件。马尔可夫链是一种随机过程,其未来状态仅依赖于当前状态,而与过去的历史状态无关。在MCMC算法中,通过构造一个马尔可夫链,使其平稳分布与模型参数的后验分布一致。具体来说,从一个初始状态开始,算法在每一步中根据当前状态和一个提议分布生成一个候选状态,然后根据一定的接受概率决定是否接受该候选状态作为新的状态。如果接受,则将新状态加入马尔可夫链;如果拒绝,则保持当前状态不变。经过大量的迭代,马尔可夫链会逐渐收敛到平稳分布,此时链上的样本可以看作是从目标后验分布中抽取的,从而可以利用这些样本对模型参数进行估计。在PRPa-DINA模型中应用MCMC算法进行参数估计,主要包括以下步骤:模型设定与数据准备:明确PRPa-DINA模型的结构和参数,将学生的答题数据整理为适合模型输入的格式。确定模型中的多分属性数量、每个属性的水平数、项目的评分等级数等关键信息,并将学生在各个项目上的得分以及对应的属性掌握情况等数据进行编码和预处理。定义先验分布:为模型中的参数设定先验分布,这是贝叶斯估计的重要步骤。先验分布反映了在观测数据之前对参数的初始认知和假设。对于PRPa-DINA模型中的属性参数、项目参数等,根据已有研究和经验,选择合适的先验分布,如正态分布、均匀分布、Beta分布等。为属性掌握概率参数选择均匀分布作为先验,以表示在没有数据时对每个属性水平的掌握概率没有先入为主的偏好。构建提议分布:选择一个易于采样的提议分布,用于在每一步中生成候选状态。常见的提议分布包括正态分布、均匀分布等。在PRPa-DINA模型中,根据参数的特点和问题的性质,选择合适的提议分布。对于连续型参数,可以使用正态分布作为提议分布,通过调整正态分布的均值和标准差来控制候选状态的生成范围和步长。计算接受概率:根据Metropolis-Hastings算法,计算从当前状态转移到候选状态的接受概率。接受概率的计算基于目标后验分布和提议分布,确保马尔可夫链满足细致平衡条件,从而使链能够收敛到目标分布。具体计算公式为:A(x\toy)=\min\left(1,\frac{P(y|D)q(x|y)}{P(x|D)q(y|x)}\right)其中,A(x\toy)表示从状态x转移到状态y的接受概率,P(y|D)和P(x|D)分别是状态y和状态x在给定数据D下的后验概率,q(x|y)和q(y|x)分别是从状态y到状态x和从状态x到状态y的提议概率。5.迭代采样与参数估计:从初始状态开始,按照提议分布生成候选状态,并根据接受概率决定是否接受该候选状态。重复这个过程进行大量的迭代,在迭代过程中,记录马尔可夫链上的状态,即模型参数的采样值。当马尔可夫链达到收敛状态后,丢弃前一部分不稳定的样本(通常称为“烧瓶期”样本),利用剩余的样本对模型参数进行估计,如计算参数的均值、中位数、标准差等统计量,作为参数的估计值。4.2简单介绍参数估计所选用的软件4.2.1R软件(R3.3.0)R软件是一款在数据处理、统计分析和绘图等方面功能强大的开源软件。在多分属性DINA模型多级评分拓广的研究中,R软件发挥了至关重要的作用。它拥有丰富的扩展包,为数据处理提供了便捷高效的工具。dplyr包可以方便地对数据进行清洗、筛选、合并等操作,确保数据的质量和格式符合模型分析的要求。在将学生的答题数据整理为适合PRPa-DINA模型输入的格式时,利用dplyr包的函数可以快速地完成数据的预处理工作,提高数据处理的效率。在模型拟合过程中,R软件提供了多种算法和函数,能够有效地实现PRPa-DINA模型的构建和参数估计。rstan包是R软件中用于实现贝叶斯推断的重要工具,它支持使用MCMC算法对复杂模型进行参数估计。在本研究中,借助rstan包,可以方便地实现基于MCMC算法的PRPa-DINA模型参数估计,通过调整相关参数和设置,可以获得准确的参数估计结果。R软件还提供了丰富的统计分析函数,能够对模型的拟合效果进行评估和诊断。通过计算模型的对数似然值、信息准则等指标,可以判断模型对数据的拟合程度,为模型的改进和优化提供依据。在结果分析方面,R软件的绘图功能为直观展示参数估计结果和模型性能提供了便利。ggplot2包是R软件中用于数据可视化的优秀工具,它可以绘制各种类型的图表,如柱状图、折线图、散点图等。利用ggplot2包,可以将参数估计结果以直观的图表形式呈现出来,便于研究者观察和分析参数的分布情况、变化趋势等。通过绘制模型性能指标的图表,如属性参数返真性、项目参数返真性等,可以清晰地评估模型的诊断效果,及时发现模型存在的问题。4.2.2OpenBUGS软件(OpenBUGS3.2.3)OpenBUGS软件是一款专门用于贝叶斯统计分析的工具,在实现贝叶斯参数估计方面具有独特的功能和特点。它基于马尔可夫链蒙特卡罗(MCMC)方法,能够从任意复杂模型的后验分布中产生样本,从而实现对模型参数的有效估计。在多分属性DINA模型多级评分拓广的研究中,OpenBUGS软件为贝叶斯参数估计提供了可靠的平台。OpenBUGS软件的操作界面简洁明了,易于上手。用户可以通过简单的操作步骤,完成模型的构建、数据的导入以及参数估计的设置。在构建PRPa-DINA模型时,用户只需按照软件的提示,定义模型的结构、参数和先验分布等信息,即可快速完成模型的搭建。软件提供了丰富的分布类型,包括常见的正态分布、二项分布、泊松分布等,用户可以根据实际情况选择合适的分布来定义模型的先验分布和似然函数。在参数估计过程中,OpenBUGS软件通过迭代计算,从后验分布中抽取样本,进而估计模型的参数。软件会自动输出参数的后验分布的统计量,如均值、标准差、95%置信区间等,这些统计量为研究者提供了关于参数估计的详细信息。研究者可以根据这些统计量,判断参数估计的准确性和稳定性,评估模型的性能。OpenBUGS软件还可以生成参数的抽样动态图、核密度图等,使抽样结果更加直观、可靠。通过观察这些图形,研究者可以直观地了解参数的分布情况和变化趋势,进一步验证参数估计的合理性。4.3实验设计4.3.1固定参数设置在本次实验中,固定参数的设置对模型的性能和实验结果的准确性有着重要影响。马尔可夫链蒙特卡罗(MCMC)算法的迭代次数被固定设置为10000次。这一选择基于前期的预实验和相关研究经验。通过多次预实验发现,当迭代次数少于10000次时,模型的参数估计结果不稳定,不同次运行得到的结果差异较大,无法准确收敛到真实的参数值。而当迭代次数达到10000次及以上时,参数估计结果逐渐趋于稳定,能够较好地逼近真实参数。过多的迭代次数会增加计算时间和资源消耗,综合考虑计算效率和结果准确性,将迭代次数固定为10000次。烧瓶期(burn-inperiod)设置为2000次。烧瓶期是MCMC算法中初始阶段的迭代次数,在这个阶段,马尔可夫链尚未充分混合,样本不能代表目标分布。根据相关理论和实践经验,一般将烧瓶期设置为总迭代次数的一定比例,常见的比例范围在10%-30%之间。在本次实验中,经过多次测试和分析,发现将烧瓶期设置为2000次,能够有效地去除初始阶段不稳定的样本,保证后续用于参数估计的样本来自稳定的目标分布,从而提高参数估计的准确性。先验分布的选择也至关重要。对于属性参数,选择均匀分布作为先验分布,即假设在没有观测数据之前,学生对每个属性水平的掌握概率是均匀分布的。这一选择基于对学生初始认知状态的假设,在没有任何先验信息的情况下,认为学生对各属性水平的掌握概率没有明显的偏好。对于项目参数,根据项目的特点和已有研究,选择正态分布作为先验分布,通过合理设置正态分布的均值和标准差,来反映对项目难度和区分度的初始认知。在估计项目难度参数时,根据经验将正态分布的均值设置为0,标准差设置为1,这样的设置能够在一定程度上平衡不同项目的难度估计,避免出现极端的难度值。4.3.2项目参数设置项目参数设置对模型性能有着显著影响。本实验设置了不同难度水平的项目,项目难度参数β的取值范围为-2到2,分别取-2、-1、0、1、2这五个值。其中,β=-2表示项目难度较低,大部分学生都有较高的概率答对;β=2表示项目难度较高,只有少数掌握程度较高的学生能够答对。通过设置不同难度的项目,可以全面考察模型在不同难度项目上对学生认知状态的诊断能力。当项目难度较低时,模型应能够准确识别出掌握了相关属性的学生;当项目难度较高时,模型应能够区分出不同掌握程度的学生,判断哪些学生具备较高的能力水平。项目区分度参数γ的取值范围为0.5到2,分别取0.5、1、1.5、2这四个值。γ值越大,表示项目的区分度越高,能够更好地区分不同能力水平的学生。γ=2的项目可以清晰地区分掌握程度高和掌握程度低的学生,而γ=0.5的项目区分能力相对较弱。不同区分度的项目组合可以模拟真实测验中项目的多样性,检验模型在不同区分度项目下的性能。在实际测验中,既需要有区分度高的项目来选拔优秀学生,也需要有区分度适中的项目来全面评估学生的能力,模型应能适应这种多样性,准确诊断学生的认知状态。失误参数s和猜测参数g的取值也进行了设定。失误参数s表示学生在掌握了项目所考察的所有知识点的情况下做错的概率,取值范围为0.05到0.2,分别取0.05、0.1、0.15、0.2这四个值。猜测参数g表示学生在并不完全掌握项目所考察的所有知识点下猜对的概率,取值范围为0.2到0.5,分别取0.2、0.3、0.4、0.5这四个值。这些取值反映了学生在答题过程中的不同行为特点,失误参数和猜测参数的不同组合会影响模型对学生答题概率的估计。当失误参数较高时,模型需要更准确地判断学生是真正未掌握知识点还是由于失误答错;当猜测参数较高时,模型要考虑学生猜对的可能性对答题结果的影响。4.3.3多分测验QP矩阵构建多分测验QP矩阵构建是实验的关键环节。QP矩阵描述了测验项目与属性之间的关联关系,其中Q矩阵表示项目与属性的关联,P矩阵表示属性的水平。构建Q矩阵时,首先确定测验所涉及的属性数量,假设本实验中属性数量为5个。对于每个项目,根据其考察的属性,在Q矩阵中相应位置赋值为1,否则为0。项目1考察属性1和属性3,则在Q矩阵中第1行第1列和第1行第3列的值为1,其余列的值为0。P矩阵的构建则根据属性的多分状态进行。假设属性1有3个水平,属性2有2个水平,属性3有4个水平,属性4有3个水平,属性5有2个水平。则P矩阵中第1行表示属性1的水平,取值为1、2、3;第2行表示属性2的水平,取值为1、2;以此类推。P矩阵的构建需要结合具体的属性划分理论和实际情况,确保能够准确反映属性的多分状态。在数学知识属性划分中,根据学生对知识点的理解深度、应用能力等方面进行水平划分,构建相应的P矩阵。QP矩阵在模型中的作用至关重要。它是模型进行参数估计和学生认知状态诊断的基础,通过QP矩阵,模型能够将学生的答题数据与属性掌握情况联系起来。在估计学生对属性的掌握概率时,模型会根据QP矩阵中项目与属性的关联,结合学生的答题结果进行计算。QP矩阵还能够帮助分析测验项目的质量和有效性,通过对QP矩阵的分析,可以了解哪些属性在测验中得到了充分考察,哪些项目对属性的区分能力较强,从而为测验的优化和改进提供依据。4.3.4被试属性掌握模式生成被试属性掌握模式的生成模拟了真实情况下被试的能力分布。采用随机生成的方法,根据属性的多分状态和一定的概率分布来确定每个被试对各个属性的掌握模式。对于每个属性,假设其水平概率分布为均匀分布。属性1有3个水平,则每个水平被选中的概率为1/3。通过随机数生成器,为每个被试在每个属性上生成一个对应的水平值,从而得到被试的属性掌握模式。为了更真实地模拟被试的能力分布,还考虑了属性之间的相关性。通过设置属性之间的相关系数,来调整被试在不同属性上的掌握模式。假设属性1和属性2之间存在正相关,当被试在属性1上处于较高水平时,在属性2上也更有可能处于较高水平。具体实现时,可以利用多元正态分布等方法,根据设定的相关系数生成满足相关性要求的属性掌握模式。生成的被试属性掌握模式用于后续的模拟作答和模型验证。通过将被试的属性掌握模式与测验项目相结合,根据模型的概率公式生成模拟作答数据,从而检验模型在不同属性掌握模式下对学生答题情况的预测能力和认知诊断能力。在模拟作答过程中,根据被试的属性掌握模式和项目的参数,计算每个被试在每个项目上的作答概率,然后根据概率生成实际的作答结果,以此来评估模型对真实情况的模拟程度和诊断准确性。4.3.5评价指标本实验采用了多种评价指标来全面评估模型性能。属性参数返真性用于衡量模型估计的属性参数与真实属性参数之间的接近程度。计算方法为:对于每个属性参数,计算其估计值与真实值之间的均方误差(MSE),然后对所有属性参数的MSE求平均值。设属性参数的真实值为a_{k}^{true},估计值为a_{k}^{est},则属性参数返真性PA的计算公式为:PA=\frac{1}{K}\sum_{k=1}^{K}(a_{k}^{true}-a_{k}^{est})^2其中,K为属性的数量。PA值越小,说明模型估计的属性参数越接近真实值,模型对属性的刻画越准确。项目参数返真性用于评估模型估计的项目参数与真实项目参数的一致性。同样采用均方误差来计算,对于每个项目参数(如难度参数β、区分度参数γ等),计算其估计值与真实值之间的MSE,然后对所有项目参数的MSE求平均值。设项目参数的真实值为b_{j}^{true},估计值为b_{j}^{est},则项目参数返真性PI的计算公式为:PI=\frac{1}{J}\sum_{j=1}^{J}(b_{j}^{true}-b_{j}^{est})^2其中,J为项目的数量。PI值越小,表明模型对项目参数的估计越准确,能够更好地反映项目的实际特征。判准率用于衡量模型对被试属性掌握模式的判断准确性。计算方法为:统计模型正确判断被试属性掌握模式的数量,除以被试的总数量。设被试总数为N,模型正确判断的被试数量为n,则判准率CR的计算公式为:CR=\frac{n}{N}CR值越高,说明模型在判断被试属性掌握模式方面的能力越强,能够更准确地诊断被试的认知状态。4.4研究结果4.4.1PRPa-DINA模型属性参数返真性本研究通过模拟实验,深入探究了PRPa-DINA模型对属性参数估计的准确性,即属性参数返真性。结果显示,模型在属性参数估计方面展现出了一定的性能表现,然而不同因素对其属性参数返真性产生了显著影响。从样本量的角度来看,随着样本量的增加,属性参数返真性得到了明显提升。当样本量较小时,属性参数估计值与真实值之间的均方误差相对较大,这表明模型在小样本情况下对属性参数的估计不够准确。随着样本量逐渐增大,均方误差逐渐减小,属性参数返真性显著提高。当样本量从100增加到500时,属性参数的均方误差从0.15下降到0.08。这是因为大样本能够提供更丰富的信息,使得模型在参数估计过程中能够更准确地捕捉到属性的真实特征,减少估计偏差。属性水平数量也对属性参数返真性产生了重要影响。随着属性水平数量的增多,模型的估计难度增大,属性参数返真性呈现下降趋势。当属性水平从3个增加到5个时,均方误差从0.09上升到0.12。这是由于属性水平的增加导致模型的复杂度提高,参数空间增大,使得模型在搜索最优参数时面临更大的挑战,容易出现估计误差。项目区分度与属性参数返真性之间也存在着密切关系。项目区分度越高,属性参数返真性越好。当项目区分度参数γ从0.5增加到2时,均方误差从0.13下降到0.07。高区分度的项目能够更有效地分离不同属性水平的被试,为模型提供更清晰的信息,从而帮助模型更准确地估计属性参数。通过对不同因素的分析可以发现,PRPa-DINA模型在属性参数估计方面受到多种因素的综合影响。在实际应用中,为了提高模型的属性参数返真性,应尽量获取较大的样本量,合理控制属性水平数量,并设计具有较高区分度的项目。4.4.2PRPa-DINA模型项目参数返真性在项目参数返真性方面,PRPa-DINA模型的表现也受到多种因素的制约。实验结果表明,模型对项目参数的估计与真实值之间存在一定的差异,不同因素对项目参数返真性有着不同程度的影响。项目难度是影响项目参数返真性的关键因素之一。当项目难度较低时,模型对项目参数的估计较为准确,项目参数返真性较高。随着项目难度的增加,模型的估计误差逐渐增大,项目参数返真性下降。当项目难度参数β从-2增加到2时,项目难度参数的均方误差从0.05上升到0.11。这是因为高难度项目的作答情况更为复杂,受到多种因素的影响,模型在估计项目参数时难以全面捕捉这些因素,从而导致估计误差增大。样本量对项目参数返真性同样具有重要作用。与属性参数返真性类似,样本量越大,项目参数返真性越高。在小样本情况下,模型对项目参数的估计容易受到随机因素的干扰,导致估计结果不稳定。随着样本量的增大,模型能够更好地学习到项目参数的真实分布,提高估计的准确性。当样本量从100增加到500时,项目区分度参数的均方误差从0.10下降到0.06。属性与项目的关联程度也会影响项目参数返真性。当属性与项目的关联紧密时,模型能够更准确地利用属性信息来估计项目参数,项目参数返真性较好。而当属性与项目的关联较弱时,模型缺乏足够的信息支持,项目参数返真性下降。在某些属性与项目关联度较低的情况下,项目难度参数的均方误差比关联度高时增加了0.03。综合来看,PRPa-DINA模型在项目参数返真性方面的表现受到项目难度、样本量以及属性与项目关联程度等多种因素的影响。在实际应用中,为了提高模型对项目参数的估计准确性,需要充分考虑这些因素,优化项目设计和数据收集,以提升模型的性能。4.5小结通过对PRPa-DINA模型参数估计的研究,我们深入了解了该模型在不同条件下的性能表现。在属性参数返真性方面,样本量、属性水平数量和项目区分度等因素对模型估计准确性产生显著影响。随着样本量增加,模型能够获取更多信息,从而更准确地估计属性参数,属性参数返真性提高。然而,属性水平数量的增多会增加模型复杂度,导致估计难度增大,属性参数返真性下降。项目区分度越高,越有助于模型区分不同属性水平的被试,提升属性参数返真性。在项目参数返真性方面,项目难度、样本量以及属性与项目的关联程度是重要影响因素。项目难度增加会使作答情况更复杂,模型估计误差增大,项目参数返真性下降。大样本能为模型提供更稳定的信息,有助于提高项目参数返真性。属性与项目关联紧密时,模型能更好地利用属性信息估计项目参数,项目参数返真性较好。PRPa-DINA模型在参数估计方面展现出一定的优势,能够在一定程度上准确估计属性参数和项目参数,为认知诊断提供了有价值的信息。该模型也存在一些问题,如在属性水平数量较多或项目难度较大时,参数估计的准确性会受到影响。在未来的研究中,可以进一步优化模型的参数估计方法,探索更有效的算法和策略,以提高模型在复杂情况下的性能。还可以深入研究属性划分和评分标准的优化,以提高模型的准确性和可靠性。五、二分属性与多分属性的对比研究5.1多分属性和二分属性对比研究实验设计5.1.1自变量设定本实验设置了多个自变量,以全面探究多分属性和二分属性在认知诊断模型中的差异。属性类型作为关键自变量,分为二分属性和多分属性。二分属性仅有掌握和未掌握两种状态,而多分属性则包含多个不同的掌握水平,如在数学函数知识中,多分属性可分为初步了解、熟练运用、拓展创新等多个层次。属性类型的不同设置旨在对比两种属性在反映学生认知状态上的差异,分析多分属性是否能更精准地描述学生的知识掌握程度和能力水平。属性个数也是重要的自变量之一,分别设置为3个、5个和7个。不同的属性个数可以模拟不同复杂程度的知识结构。当属性个数较少时,知识结构相对简单,模型对学生认知状态的诊断可能相对容易;而随着属性个数的增加,知识结构变得复杂,模型需要处理更多的信息,这对模型的诊断能力提出了更高的挑战。通过设置不同的属性个数,可以研究属性数量对模型性能的影响,以及模型在不同知识复杂度下对二分属性和多分属性的处理能力。样本量同样被纳入自变量范畴,分别设定为100、300和500。样本量的变化直接影响模型参数估计的准确性和稳定性。较小的样本量可能导致模型无法充分学习到数据中的信息,从而使参数估计出现偏差;而较大的样本量则能提供更丰富的数据,有助于模型更准确地估计参数。通过对比不同样本量下二分属性和多分属性的模型表现,可以了解样本量对两种属性类型模型性能的影响差异,为实际应用中样本量的选择提供依据。5.1.2多分测验QP矩阵构建多分测验QP矩阵构建是实验的关键环节。QP矩阵描述了测验项目与属性之间的关联关系,其中Q矩阵表示项目与属性的关联,P矩阵表示属性的水平。构建Q矩阵时,首先确定测验所涉及的属性数量,假设本实验中属性数量为5个。对于每个项目,根据其考察的属性,在Q矩阵中相应位置赋值为1,否则为0。项目1考察属性1和属性3,则在Q矩阵中第1行第1列和第1行第3列的值为1,其余列的值为0。P矩阵的构建则根据属性的多分状态进行。假设属性1有3个水平,属性2有2个水平,属性3有4个水平,属性4有3个水平,属性5有2个水平。则P矩阵中第1行表示属性1的水平,取值为1、2、3;第2行表示属性2的水平,取值为1、2;以此类推。P矩阵的构建需要结合具体的属性划分理论和实际情况,确保能够准确反映属性的多分状态。在数学知识属性划分中,根据学生对知识点的理解深度、应用能力等方面进行水平划分,构建相应的P矩阵。QP矩阵在模型中的作用至关重要。它是模型进行参数估计和学生认知状态诊断的基础,通过QP矩阵,模型能够将学生的答题数据与属性掌握情况联系起来。在估计学生对属性的掌握概率时,模型会根据QP矩阵中项目与属性的关联,结合学生的答题结果进行计算。QP矩阵还能够帮助分析测验项目的质量和有效性,通过对QP矩阵的分析,可以了解哪些属性在测验中得到了充分考察,哪些项目对属性的区分能力较强,从而为测验的优化和改进提供依据。5.1.3被试的多分属性掌握模式生成被试的多分属性掌握模式生成采用随机生成与概率分布相结合的方法。对于每个属性,根据其水平数量和预设的概率分布来确定被试对该属性的掌握模式。假设属性1有3个水平,其水平概率分布为均匀分布,即每个水平被选中的概率为1/3。通过随机数生成器,为每个被试在属性1上生成一个对应的水平值,从而确定被试在该属性上的掌握模式。为了更真实地模拟被试的能力分布,考虑属性之间的相关性。假设属性1和属性2之间存在正相关,当被试在属性1上处于较高水平时,在属性2上也更有可能处于较高水平。具体实现时,利用多元正态分布等方法,根据设定的相关系数生成满足相关性要求的属性掌握模式。生成的被试多分属性掌握模式用于后续的模拟作答和模型验证。通过将被试的属性掌握模式与测验项目相结合,根据模型的概率公式生成模拟作答数据,从而检验模型在不同属性掌握模式下对学生答题情况的预测能力和认知诊断能力。在模拟作答过程中,根据被试的属性掌握模式和项目的参数,计算每个被试在每个项目上的作答概率,然后根据概率生成实际的作答结果,以此来评估模型对真实情况的模拟程度和诊断准确性。5.1.4数据生成模型和模拟作答数据生成模型基于多分属性DINA模型的原理构建。在该模型中,学生的作答结果由其对多分属性的掌握模式以及项目参数共同决定。具体而言,对于每个项目,根据学生对该项目所涉及属性的掌握水平,结合项目的难度、区分度、失误参数和猜测参数等,计算学生在该项目上获得不同得分的概率。假设项目1考察属性1和属性2,学生在属性1上处于水平2,在属性2上处于水平1,根据模型公式和项目参数,可以计算出该学生在项目1上答对、答错或获得其他得分的概率。模拟作答过程通过随机抽样的方式进行。根据计算得到的作答概率,利用随机数生成器为每个学生在每个项目上生成实际的作答结果。若学生在项目1上答对的概率为0.6,答错的概率为0.4,通过随机抽样,以0.6的概率生成答对的结果,以0.4的概率生成答错的结果。这样可以模拟出学生在实际测验中的答题情况,为后续的分析提供数据支持。在生成数据时,充分考虑了各种因素对学生作答的影响,以确保数据的真实性和可靠性。不仅考虑了属性掌握模式和项目参数,还考虑了学生在答题过程中的随机性和不确定性,使生成的数据更接近真实的测验数据。通过多次模拟生成不同的数据集,对模型进行全面的验证和分析,提高研究结果的准确性和稳定性。5.1.5多分属性的二分化及对比条件将多分属性转化为二分属性是对比研究的重要步骤。采用阈值划分的方法进行二分化,根据属性的多分水平,设定一个或多个阈值,将多分属性划分为两个状态。对于一个有4个水平的属性,设定阈值为2,当学生的属性水平大于等于2时,将其转化为二分属性的掌握状态(赋值为1);当学生的属性水平小于2时,转化为未掌握状态(赋值为0)。对比条件设置包括属性类型(二分属性和多分属性)、属性个数、样本量等方面。在相同的属性个数和样本量条件下,分别使用二分属性和多分属性进行模型拟合和参数估计,对比两种属性类型下模型的性能指标。在属性个数为5个、样本量为300时,对比二分属性DINA模型和多分属性DINA模型的属性参数返真性、项目参数返真性和判准率等指标,分析两种属性在不同条件下对模型性能的影响。还考虑了不同的测验项目难度和区分度对对比结果的影响。在设置测验项目时,涵盖了不同难度和区分度的项目,以全面考察二分属性和多分属性在不同项目特征下的表现。通过控制变量的方法,单独改变项目难度或区分度,观察二分属性和多分属性模型的性能变化,进一步探究属性类型与项目特征之间的交互作用。5.1.6参数估计对于二分属性和多分属性的数据,均采用马尔可夫链蒙特卡罗(MCMC)算法进行参数估计。在估计过程中,为确保结果的准确性和可靠性,设置了一系列关键参数。迭代次数设定为10000次,这是基于前期预实验和相关研究经验确定的。经过多次测试发现,当迭代次数达到10000次时,模型的参数估计结果能够较好地收敛,不同次运行得到的结果差异较小,能够稳定地逼近真实参数值。烧瓶期设置为2000次。烧瓶期是MCMC算法中初始阶段的迭代次数,在这个阶段,马尔可夫链尚未充分混合,样本不能代表目标分布。将烧瓶期设置为2000次,可以有效地去除初始阶段不稳定的样本,保证后续用于参数估计的样本来自稳定的目标分布,从而提高参数估计的准确性。先验分布的选择也至关重要。对于属性参数,二分属性采用均匀分布作为先验分布,假设在没有观测数据之前,学生对属性的掌握概率是均匀分布的,即对掌握和未掌握两种状态没有先入为主的偏好。多分属性同样采用均匀分布作为先验分布,假设学生对每个多分属性水平的掌握概率在初始阶段是均匀的。对于项目参数,根据项目的特点和已有研究,选择正态分布作为先验分布,通过合理设置正态分布的均值和标准差,来反映对项目难度和区分度的初始认知。在估计项目难度参数时,将正态分布的均值设置为0,标准差设置为1,这样的设置能够在一定程度上平衡不同项目的难度估计,避免出现极端的难度值。5.1.7评价指标本实验采用了多种评价指标来全面评估二分属性和多分属性模型的性能。属性参数返真性用于衡量模型估计的属性参数与真实属性参数之间的接近程度。计算方法为:对于每个属性参数,计算其估计值与真实值之间的均方误差(MSE),然后对所有属性参数的MSE求平均值。设属性参数的真实值为a_{k}^{true},估计值为a_{k}^{est},则属性参数返真性PA的计算公式为:PA=\frac{1}{K}\sum_{k=1}^{K}(a_{k}^{true}-a_{k}^{est})^2其中,K为属性的数量。PA值越小,说明模型估计的属性参数越接近真实值,模型对属性的刻画越准确。项目参数返真性用于评估模型估计的项目参数与真实项目参数的一致性。同样采用均方误差来计算,对于每个项目参数(如难度参数β、区分度参数γ等),计算其估计值与真实值之间的MSE,然后对所有项目参数的MSE求平均值。设项目参数的真实值为b_{j}^{true},估计值为b_{j}^{est},则项目参数返真性PI的计算公式为:PI=\frac{1}{J}\sum_{j=1}^{J}(b_{j}^{true}-b_{j}^{est})^2其中,J为项目的数量。PI值越小,表明模型对项目参数的估计越准确,能够更好地反映项目的实际特征。判准率用于衡量模型对被试属性掌握模式的判断准确性。计算方法为:统计模型正确判断被试属性掌握模式的数量,除以被试的总数量。设被试总数为N,模型正确判断的被试数量为n,则判准率CR的计算公式为:CR=\frac{n}{N}CR值越高,说明模型在判断被试属性掌握模式方面的能力越强,能够更准确地诊断被试的认知状态。5.2多分属性与二分属性的对比研究结果5.2.1属性参数返真性情况在属性参数返真性方面,本研究对二分属性和多分属性的模型表现进行了深入对比分析。结果显示,属性类型对属性参数返真性有着显著影响。多分属性模型在属性参数返真性上呈现出独特的表现。随着样本量的增加,多分属性模型的属性参数返真性有明显提升。当样本量从100增加到500时,多分属性模型的属性参数均方误差从0.18下降到0.10。这表明在大样本情况下,多分属性模型能够更准确地估计属性参数,因为大样本提供了更丰富的信息,使得模型能够更好地捕捉到属性的真实特征。属性个数的变化也对多分属性模型的属性参数返真性产生影响。当属性个数从3个增加到7个时,属性参数均方误差从0.12上升到0.15。这是因为属性个数的增加使得模型的复杂度提高,参数估计的难度增大,容易导致估计误差的增加。属性水平数量对多分属性模型的属性参数返真性影响显著。随着属性水平数量的增多,属性参数返真性呈现下降趋势。当属性水平从3个增加到5个时,均方误差从0.10上升到0.13。这是由于属性水平的增加使得模型需要估计更多的参数,参数空间增大,模型在搜索最优参数时面临更大的挑战,从而降低了属性参数返真性。相比之下,二分属性模型在属性参数返真性上的表现与多分属性模型存在差异。在小样本情况下,二分属性模型的属性参数返真性相对较好,均方误差为0.15,而此时多分属性模型的均方误差为0.18。这是因为二分属性模型结构相对简单,在小样本时更容易收敛到真实参数值。随着样本量的增加,多分属性模型的优势逐渐显现,当样本量达到500时,多分属性模型的均方误差下降到0.10,低于二分属性模型的0.13。这说明在大样本情况下,多分属性模型能够利用其对属性的细致刻画能力,更准确地估计属性参数。在不同属性个数条件下,二分属性模型的属性参数返真性受属性个数的影响相对较小。当属性个数从3个增加到7个时,二分属性模型的均方误差仅从0.13上升到0.14。这是因为二分属性模型的参数相对较少,属性个数的变化对模型复杂度的影响不大。而多分属性模型在属性个数增加时,由于需要估计更多的属性水平参数,属性参数返真性下降较为明显。属性类型对属性参数返真性有显著影响,多分属性模型在大样本和合理属性设置下,能够更准确地估计属性参数,但随着属性复杂度的增加,其属性参数返真性会受到一定影响。在实际应用中,应根据样本量和属性的复杂程度,合理选择属性类型,以提高认知诊断模型对属性参数的估计准确性。5.2.2项目参数返真性情况在项目参数返真性方面,二分属性和多分属性的模型表现也存在差异。研究结果表明,项目参数返真性受到属性类型、项目难度、样本量等多种因素的综合影响。对于多分属性模型,项目难度对项目参数返真性影响显著。随着项目难度的增加,模型对项目参数的估计误差逐渐增大,项目参数返真性下降。当项目难度参数β从-2增加到2时,多分属性模型的项目难度参数均方误差从0.06上升到0.12。这是因为高难度项目的作答情况更为复杂,受到多种因素的影响,多分属性模型在估计项目参数时难以全面捕捉这些因素,从而导致估计误差增大。样本量的增加对多分属性模型的项目参数返真性有积极作用。随着样本量从100增加到500,项目区分度参数的均方误差从0.11下降到0.07。大样本能够提供更稳定的信息,使模型能够更好地学习到项目参数的真实分布,提高估计的准确性。与多分属性模型相比,二分属性模型在项目参数返真性上表现出不同的特点。在低难度项目中,二分属性模型和多分属性模型的项目参数返真性差异不大。当项目难度参数β为-2时,二分属性模型的项目难度参数均方误差为0.06,多分属性模型为0.06。随着项目难度的增加,二分属性模型的项目参数返真性下降幅度相对较小。当项目难度参数β增加到2时,二分属性模型的项目难度参数均方误差上升到0.09,而多分属性模型上升到0.12。这是因为二分属性模型相对简单,对项目难度变化的敏感性较低。在样本量对项目参数返真性的影响方面,二分属性模型和多分属性模型表现出相似的趋势。随着样本量的增加,两者的项目参数返真性都有所提高。在样本量为100时,二分属性模型的项目区分度参数均方误差为0.10,多分属性模型为0.11;当样本量增加到500时,二分属性模型下降到0.07,多分属性模型下降到0.07。这表明在大样本情况下,两种属性类型的模型都能更准确地估计项目参数。属性与项目的关联程度也会影响项目参数返真性。当属性与项目的关联紧密时,多分属性模型能够更准确地利用属性信息来估计项目参数,项目参数返真性较好。而当属性与项目的关联较弱时,模型缺乏足够的信息支持,项目参数返真性下降。在某些属性与项目关联度较低的情况下,多分属性模型的项目难度参数均方误差比关联度高时增加了0.03。二分属性模型在属性与项目关联程度方面的表现相对稳定,受关联程度变化的影响较小。综合来看,属性类型与项目参数返真性之间存在复杂的关系。多分属性模型在处理高难度项目和属性与项目关联紧密的情况时,具有一定的优势,但在项目难度增加时,项目参数返真性下降较为明显。二分属性模型相对简单,对项目难度变化的适应性较强,但在利用属性信息估计项目参数方面相对较弱。在实际应用中,应根据项目的特点和属性与项目的关联情况,选择合适的属性类型,以提高认知诊断模型对项目参数的估计准确性。5.3小结通过对二分属

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论