(概率论与数理统计专业论文)教育测量学中的项目反应理论irt的发展及其应用.pdf_第1页
(概率论与数理统计专业论文)教育测量学中的项目反应理论irt的发展及其应用.pdf_第2页
(概率论与数理统计专业论文)教育测量学中的项目反应理论irt的发展及其应用.pdf_第3页
(概率论与数理统计专业论文)教育测量学中的项目反应理论irt的发展及其应用.pdf_第4页
(概率论与数理统计专业论文)教育测量学中的项目反应理论irt的发展及其应用.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及 取得的研究成果除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表的研究成果,也不包含他人为获得东北师范大学或其它教学机 构的学位或证书而取得的研究成果与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意 学位论文版权使用授权书 本人了解并遵守东北师范大学有关保留、使用学位论文的规定,即;学校 有权保留,向国家有关部门送交学位论文的复印件,允许论文被查阅和借阅; 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其它复印手段 保存论文 ( 保密的论文在解密后应遵守此规定) 毖 日期:2 :! :,日期;五翌2 :! + 乒 学位论文作者毕业后去向: 工作单位: 通讯地址。 电话: 邮编: 中文摘要 近几十年来,教育测量学的发展迅速,项目反应理论的应用也越来越广 泛,尤其在分析大中小学生成绩中的发展潜力是非常大的,许多研究人员和 教育工作者都正在投入到项目反应理论的研究和实践当中,可见其作用之大 本文在简单介绍教育测量学的发展概况和分析项目反应理论和经典测量理论 两种理论的基础上,找到了二者的相同和不同,各自的优势极其缺点,并且 针对项目反应理论中的正态卵形模型加以详细的阐述,给出了模型极其参数 意义,利用e m 算法和g i b b 6 抽样证明了求解项目参数的公式和方法,并根据 我系本科生的期末成绩数据编程运算得出了项目参数,然后加以分析成果 为得到了实际数据的项目参数,即难度参数和区分度,从而判断题目出的好 坏,以及分析学生的学习和掌握的情况,并在教学和考试中进行改进最后 介绍了项目反应理论在各个方面的应用和发展项目反应理论在运动测量领 域,远程教育领域,数据分析,人才测评领域等各个领域的发展都起到了重 要的作用。 关键词:教育测量学项目反应理论i r t 经典测量理论c t te m 算 法g i b b s 抽样 a b s t r a c t i nr e c e n td e c a d e s ,t h er a p i dd e v e l o p m e n ti ne d u c a t i o nm e a s u r e m e n t ,t h ea p p l i c a t i o n o fi t e mr e s p o n s et h e o l yh a sb e c o m ew i d e r a n a l y s i so fc o l l e g es t u d e n t si np a r t i c u l a r , ah i g hs c h o o ls t u d e n ta n dt h ep r i m a r yr e s u l t si sav e r yg r e a tp o t e n t i a lf o rd e v e l o p m e n t m a n yr e s e a r c h e r sa n de d u c a t o r sa r eb e i n gi n p u t t ot h es t u d ya n dp r a c t i c eo fi t e mr e s p o n s e t h e o r y 弛s h o w sg r e a tr o l e i nt h i sp a p e r ,ab r i e fa c c o u n to fd e v e l o p m e n t si ne d u c a t i o nm e a s u r e m e n t ,m e a s u r e - m e r i ta n a l y s i so fi t e mr e s p o n s et h e o r ya n dt h ec l a s s i c a lt h e o r yo ft h et w ot h e o r i e s ,f i n d t h es i m i l a r i t i e sa n dd i f f e r e n c e sb e t w e e nt h et w o ,t h e i ra d v a n t a g e se x t r e m e l ys h o r t c o m i n g s i na d d i t i o n 。i nv i e wo fi t e mr e s p o n s et h e o r yt ob et h en o r l n a lo v a lm o d e ld e t a i l e d ,v e r y m e a n i n go ft h ep a r a m e t e r so ft h em o d e l g i b b ss a m p l i n ga l g o r i t h ma n dt h ee mp r o v e n f o r m u l aa n dt h ep a r a m e t e r so ft h ep r o j e c t a c c o r d i n gt ot h ee x a m i n a t i o nr e s u l t sa n d c o m p u t a t i o n a lm a t h e m a t i c ss t u d e n t sc o m et ot h ep r o j e c tp a r a m e t e r s ,a n dt h e na n a l y z e d t h ea c t u a lp a r a m e t e r so ft h ep r o j e c th a v eb e e nd i f f i c u l tp a r a m e t e r sa n dd i s t i n c t i o n , a n dt h u st h es u b j e c to fg o o da n db a d ,a n dt h ea n a l y s i so ft h es t u d ya n du n d e r s t a n d i n g o ft h es i t u a t i o na n dt oi m p r o v et h et e a c h i n ga n de x a m i n a t i o n s f i n a l l y , i t e mr e s p o n s et h e o r yi nt h ev a r i o u sa s p e c t so ft h ea p p l i c a t i o na n dd e v e l o p - m e n t i t e mr e s p o n s et h e o r yi ns p o r t sm e a s u r e m e n tf i e l d ,t h ef i e l do fd i s t a n c ee d u c a t i o n , d a t aa n a l y s i s p e r s o n n e la s s e s s m e n tf i e l d sa n do t h e ra r e a 8h a v ep l a y e dmi m p o r t a n tr o l e i nt h ed e v e l o p m e n t k e yw o r d s : e d u c a t i o nm e a s u r e m e n t i t e mr e s p o n s et h e o r y i r tc l a 8 s i - c a lt e s tt h e o r y c t te ma l g o r i t h mg i b b ss a m p l i n g 2 引言 教育测量学是在本世纪二三十年代兴起,四五十年代定型,六七十年代迅速发展起 来的一门教育学科回顾与展望教育测量学的历史,可以使我们进一步了解和确认教育 测量产生与发展的历史的必然性和合理性它在各个方面应用是非常广泛的,比如心理 测量学心理测量学是测量人的心理特制的主要方法之一随着心理学的日益科学化, 对心理测验的要求也越来越高,这需要心理测验理论不断更新与发展 5 第一章、教育测量学的发展概况及i r t 和c t t 的对比 一、教育测量学的发展概况 ( 1 ) ,必然性 教育测量学是在本世纪二三十年代兴起,四五十年代定型,六七十年代迅速发展起 来的一门教育学科回顾与展望教育测量学的历史,可以使我们进一步了解和确认教育 测量产生与发展的历史的必然性和合理性 ( 2 ) 重要性 教育测量学从公元6 0 6 年到1 9 8 8 年,我国正式加入了国际教育成就评价协会( i n - t e r n a t i o n a la s s o c i a t i o nf o re d u c a t i o n a la s s e s s m e n t ,i a e a ) 可以说,1 9 7 9 年以来的2 0 年中,我国的教育测量学的教学与研究工作者以优良的成绩,使教育测量学在教育科学 领域中占据了重要的一席 二、i r t 与c t t 的内容简介及二者的优势和缺点 ( 1 ) 、c t t 和i r t 的基本内容 c t t 是心理学研究者所熟悉的,其基本思想是把测验的得分( 通常成为测验的观察 分) 看作真分数和误差分数的线形组合 i r t 虽然在国外发展很快,但在国内研究不多,因此对多数心理学工作者来说是比 较陌生的,其基本思想与心理学中关于潜在特制的一般理论有关它是假设被试对测验 的反应受某种心理特质( 因其无法直接测量,成为潜在特质) 支配,于是我们就可对这 6 种特质进行界定i r t 然后估计出该被试这种特质的分数,并根据其高低来预测,解释 被试对项目或测验的反应 ( 2 ) 、c t t 的缺点和i r t 的优势 从基本假设到具体实施六个方面居然阐述了二者的特点,并指出i r t 优于c t t 的 方面 7 第二章、i r t 中的正态卵形模型 一、i r t 中正态卵形模型的基本模型 ( 1 ) 、给出模型形式,并指出各个参数的含义 ( 2 ) 、提出所要研究的问题是估计双参数正态卵形模型的项目参数( 区分度和难度) , 手段是用g i b b s 抽样来模拟从项目参数和能力参数的联合后验分布中抽样 二、公式推导及计算 ( 1 j 、公式推导 根据模型给出的形式,再根据e m 算法的基本原理,本文给出了利用e m 算法计算 项目参数的公式同时,又用g i b b s 抽样的原理和模型结合推导出一系列关于项目参数 的计算公式,并用m a t l a b 软件编程,就可以得到项目参数的数值。 ( 2 j ,联系实际 利用我系本科学生的期末考试成绩作为数据,经过分析处理代入到模型中运算,得 到项目参数,并加以分析 8 第三章、i r t 的不足以及教育测量学的未来发展 一,i r t 的不足之处 i r t 的理论体系构建于更复杂的数学模型之上,其概念和理论推导更加严谨,但应 该看到,i r t 也并不是完美的,其不足之处表现在五个方面;同时c t t 也有它的优点 = ,i r t 的应用和教育测量学未来的发展 ( 1 ) ,i r t 的应用 w a r m ( 1 9 8 7 ) 称”项目反应理论对经典测验理论好比爱因斯坦相对论对牛顿定律”, 可见其影响之深远随着计算机技术的发展,i r t 得以迅速推广应用目前一些大型的 考试t o e e l ,g r e 等,都相继采用了以i r t 为基础的计算机化适应性测验( c a t ) ,一 些传统的智力测验如比奈测验、韦氏智力测验、瑞文测验等也使用i r t 作为分析的理论 依据所以,i r t 的前景是无可争议的 ( 2 j ,教育测量学未来的发展 。 从测量学的现状及发展趋势来看,其应用范围和功能地位正在日益扩大和提高因 而,测量成为人们关注的社会问题便不足为奇因此我们还要掌握如何正确使用教育测 量学的理论与方法 9 教育测量学是在本世纪二三十年代兴起,四五十年代定型,六七十年代迅速发展起 来的- f 教育学科 1 9 8 8 年1 1 】经中国教育学会批准中国教育学会教育统计与测量研究会正式成立, 由张厚粲任第一界理事长在研究会成立以后,多次举办高层次的讲习班研究会的部 分会员自1 9 8 5 年以来积极参加全国高考标准化改革实验,在全国高考命题标准化,施测 标准化,评卷记分标准化,分数报告标准化等方面的策划和实践中作出了积极的贡献 1 9 8 8 年,我国正式加入了国际教育成就评价协会( i n t e r n a t i o n a la s s o c i a t i o nf 。re d - u c a t i o n a la s s e s s m e n t ,i a e a ) 可以说,1 9 7 9 年以来的2 0 年中,我国的教育测量学的教 学与研究工作者以优良的成绩,使教育测量学在教育科学领域中占据了重要的一席 它在各个方面应用是非常广泛的,比如心理测量学心理测量学是测量人的心理特 制的主要方法之一随着心理学的日益科学化,对心理测验的要求也越来越高,这需要 心理测验理论不断更新与发展 心理测验理论是对心理测验中诸如误差,样本容量,测量单位等问题进行研究,并 设计方法加以解决的理论研究它与心理学的发展紧密相联心理学中的个别差异的 研究引起丁心理测验运动,高尔顿,皮尔逊等人对此作出了杰出的贡献在此研究基础 上,本世纪初,斯皮尔曼发表丁认知的规律和智慧的本质与人类的能力等文。 提出因素分析的方法后,经典测验理论c t t ( c l a s s i ct e s tt h e o r y ) 研究开始蓬勃发展, 至今已有九十余年 c t t 主要是指真分数理论,虽然它是编制心理测验常用的方法,而且在不断的完善 自身。但作为一种理论,其不足之处不是修修改改就能够解央的针对这些,现代测验 理论应运而生在项目分析部分,主要出现了项甘反应理论( i t e mr e s p o n s et h e o r y ) 美国溯量专家洛德1 9 5 2 年矧在其博士论文中首次提出了项目厦应模型,即双参数正态 卵形模型,并提出了与此相关的参数估计方法,使得i r t 可被用于解央实际的二值记分 1 0 的测验问题它标志着i r t 的正式诞生 在这之后,i r t 得到了充分发展,尤其七,八十年代在大多数发达国家得到测量专 家的关注,在心理学研究中的使用频率大幅度上升,超过经典理论和概化理论i r t 解 决了c t t 未能解决的许多问题 4 】, 一c t t 与i r t 的主要内容 c t t 是心理学研究者所熟悉的,其基本思想是把测验的得分( 通常成为测验的观察 分) 看作真分数和误差分数的线形组合,可归结为如下简单数学模型;x = t + e ,其中, x 是观测分数,t 是真分数,e 是误差分传统信度,效度,项目分析的原理与方法均 建立在这一模型之上 i r t 虽然在国外发展很快【5 ,但在国内研究不多,因此对多数心理学工作者来说是 比较陌生的,其基本思想与心理学中关于潜在特制的一般理论有关它是假设被试对测 验的反应受某种心理特质( 因其无法直接测量,成为潜在特质) 支配,于是我们就可对 这种特质进行界定i r t 然后估计出该被试这种特质的分数,并根据其高低来预测,解 释被试对项目或测验的反应因此,i r t 主要在于建立各种与数据拟合的模型一确定被 试的潜在特质值和他们对于项目反应之间的关系 二假设的不同 c t t 是建立在弱假设基础上的,i r t 则是建立在强假设基础上的后者有三条基 本假设; 1 潜在特质空间的单维性假设指组成某个测验的所有项目都是测量同一潜在特 质; 2 局部独立性假设一指对某个被试而言,项目闻无相关存在; 3 项目特征曲线假设则是对被试某项目的正确反映概率与其能力之间的函数关系所 作的模型 1 1 i r t 有各种各样的模型,其中著名的是二级评分模型中的单参数逻辑斯蒂模型( 即 拉什模型) 和三参数逻辑斯蒂模型,后者有项目难度,项目区分度,猜测三个参数只要 找到适合数据的模型,就可以对项目进行比较精确的分析。 二c t t 之不足与i r t 之优点 c t t 经过长期的发展,在理论与实践上都有公认的成就,但仍存在许多无法克服的 技术问题在这些方面,i r t 却有较大的突破这里就c t t 的缺点,结合i r t 的解决 方法,对两者进行比较 1 c t t 依据其项目分析法所得的项目统计量受样本的抽样变动影响大即项目统计 量依赖于测验所实旋的被试样组c t t 中项目统计量主要是项目难度( p 值) 和项目 鉴别力( d 值或项目得分与测验总分的相关系数) 项目难度p r n 是答对该项目 的被试比率。如果抽取的样本中,能力高的被试多,那么r 值就高,p 值也随之增高; 若抽取的样本中,能力低的被试多,p 值就会降低在以d 值为项目鉴别力的项目分析 中,如果样本同质,那么被试能力高低差不多,高分组与低分组答对项目的比例就会相 差无几,d 值就小;若样本异质。d 值就会大以相关系数为鉴别力也是一样的情况 由此可见,抽样变动是c t t 无法解决的问题 i r t 能够解决这一问题,它采用局部独立性假设与样本独立项目较准的方法因为 每个项目都各自有一条项目特征曲线,其项目参数固定,不需要根据抽样计算答对率来 计算项目参数医此针对曲线的横轴一能力水平上的某点0 ,被试有一相应的答对概率 c t t 是确定性模型,某个被试确定为答对,或答错,而i r t 是概率陛模型,每个被试有 答对概率,随被试能力水平提高,答对该项目的概率提高( 这儿的答对概率与c t t 总 的p 值不同,后者旨答对人数,前者是某个被试的答对概率) 至于样本独立项目较准, 是指在i r t 中,即使抽取不同被试样组,估计出的项目参数仍旧是相对不变的,因此就 可以用任何能力的一组被试的数据估计参数这些估计值无疑就能运用于其它被试组, 1 2 包括全部被试另一方面,即使某个被试没有回答个测验的全部项目,也可估计出项 目的参数 2 c t t 中,被试测验分数依赖于项目的难度,使得进行不同测验的被试难以比较 不同测验测量同一种心理特质时,会得到不同测验分数项目难度高,被试测验分数就 低为了解决这个问题,c t t 要求所有被试都实施相同的测验项目,才能对测验结果 进行比较,即利用相同测验或平行复本测验被试但是一般成就测验和能力测验适于中 等能力的被试,对一般能力特别高或特别低的被试,估计时就不太精确了,因此需要有 适合不同能力被试的测验这就又回到了源头一适合不同能力的测验,势必项目难度不 同这样,被试的能力仍然难以比较 为此,i r t 提出了适性测验、测验独立被试测量、测验等值化来解决这一困难 ( 1 ) 适性测验是根据每个被试的不同水平,对不同的被试实旌不同的测验项目,并使 这些项目的难度和被试的水平相适应其方法是先给被试呈现道中等难度的项目,根 据被试的反应情况( 答对或答错) ,再从题库中选择下个项目呈现给被试可以采用固 定分枝或灵活分枝等多种方法选择和被试能力相适应的项目在这种情况下,被试能力 当然就很容易比较了适性测验另一优点是,能力高的被试不会要求回答低难度的项目, 于是增加了挑战性;而能力低的被试又不会由于要求回答高难度的项目而失去信心 ( 2 ) 测验独立被试测量,是指被试能力的测量不依赖于所选择的测验的难度,因此不 管何种难度的测验项目,根据其项目特征曲线,都可估计出相应的能力值这样就可以 对这些被试的能力进行比较了 ( 3 ) 另一种解决方法是测验等值化经典测验理论也有等值化方法,但是依赖予被试 样组,因此它在公平性,对称性和不变性方面都存在严重的困难i r t 则不同,因为它 具有参数不变性的优点,只要测验数据和模型是拟合的,就能克服上述困难因为项目 参数在同一量表上,同一被试的能力估计值不变。 1 3 3 c t t 中经常用到的甲行测验假设是不可能实现的c t t 在平行测验( 又称复本) 的假设下估计测验信度、测量标准误,以及达到预期信度所需的测验长度事实上,平 行测验是不可能实现的,即使是同一组测验项目对同一组考生旖测。因为遗忘、动机、 焦虑程度、新知识与新技能获得的影响,也不可能达到完全平行的程度 i r t 就不存在这个问题,因为它完全没有必要用到平行测验这一概念 4 c t t 无法预测被试在一个新测验项目上的正确反应概率,这一正确反应概率在适 性测验中是十分重要的更为重要的是,在实际工作中往往要对这一概率进行估计,以 使编制的测验与被试的能力水平相适应比如编制研究生入学英语考试,就要求有一定 难度,以使最后的分数分布情况利于录取工作如果测验能配合被试的能力水准,那就 可得知其答对某题的概率如果测验的项目都具有不同被试能力可能答对的概率,那么 测验编制者就可以根据项目概率资料来预测某些被试组的得分情况 i r t 的项目特征曲线就明确表示出被试能力e 与项目的关系,横轴e ,纵轴p ( o ) , 它表示具有某能力e 的被试答对某项目的概率p 因此,只要已知被试的能力值,就可 预测出他们可能答对某个项目的概率这在某些入学考试中用处较大 5 c t t 假设所有被试的测量标准误差都相等,这是不太可能的,因为不同能力组在 测验上的稳定性也不同一方面,让能力低的被试参加一个较难的测验时,由于猜测性, 其测量误差肯定比高能力被试参加该测验时的测量误差大另一方面,再进行一次平行 测验,就会发现低能力组被试成绩变动大,所以其测量标准误差也大所以c t t 的等测 量标准误差也是一个不小的缺点良好的i 厦l 验模式应能针对某一测验得分或被试能力进 行精确的估计,不同的得分或能力有其不同的测量标准误差 i r t 理论就无此假设,它采用信息函数( 包括测验信息函数、项目信息函数、分数信 息函数。其中,测验信息函数量是各项目信息量之和) 来说明这一问题项目信息函数 是将反映项目特征的难度、区分度和猜测参数合而为一,它反映各个项目对不同能力水 1 4 平被试所能提供信息的多少,信息量大,测量标准误差小而分数信息函数i ( e ,y ) 则表示对于能力为e 的被试得分为y 时所得到的信息量,它反映了测量的精确度信息 量越大,测量的标准误差越小 6 实际应用中,c t t 也存在些问题c t t 无法向测验编制者提供各项目及测 验在其分数量表上具有最大区分能力的位置应用:比如高考要设定录取分数线,该点 具有最大的区分能力,但c t t 却无法确定这分界点i r t 却可以根据一定的被试能 力o ,综合测验中各项目的特征曲线,利用计算机程序确定临界点另外,c t t 在对项 目偏差、测验等值的研究上,所用方法不尽如人意,i r t 却有了较好的解决方法( 在前 面几点中已有论述,此处不再重复) 此外,c t t 认为项目难度p 是非等距的,因此要 转化为等距量表,这样提高了计算复杂性;更主要的是项目统计量的计算中,仍然未考 虑到”不等距”的这一面比如以分组法计算p 值,是高分组通过的比率与低分组通过 的比率的平均数,此处就用到了加法和除法,事实上是不能进行四则运算的应该说这 是项目统计量存在的问题之一在i r t 中直接用项目参数代替了项目统计量,就不再受 这些问题的困扰了 下面我们具体研究项目反映理论中的正态卵形模型; 问题;估计双参数正态卵形模型的项目参数( 区分度和难度) 手段。g i b b s 抽样被用来模拟从项目参数和能力参数的联合后验分布中抽样f 8 l 目的;这种方法能给出我们关心参数的边际后验密度这些密度能用来衡量基于最 大似然估计的正态近似的准确性 引言:项目反应模型被广泛的应用在教育和心理测试的数据分析上,h a m b l e t o n l 7 8 l 和s w a m i n a t h a n 在1 9 8 5 年给出了最新的项目反应理论,关于正确反应概率的非常著名的 模型由洛德在1 9 5 2 年给出,他在测验分数理论中提出双参数正态肩形模型或p r o b i t 模型,模型如下: 1 5 p ( y i j = 1 ) = 疡= 垂( 矾一) 其中,之间相互独立,并且 场= 1 ,第i 个学生答对问题 场= 0 ,第i 个学生没有答对问胚 i = l ,n ,表示n 个被试 j 1,k ,表示k 个题目 圣表示标准正态的累积分布函数 1 ,表示第j 题的区分度h = 高分通过率一低分通过嗣 并且 一1 ,1 】 如果q o ,则称为积极区分; 如果a j = 0 ,则称为无区分 一般的,我们认为a j 0 ,表明能力越高通过的概率越大 2 ,竹表示第j 题的难度,用通过率r n 表示 3 ,哦表示第i 个学生的能力,以( 一。,+ o 。) 令 其似然函数 y = ( y n ,y 1 2 ,讥,抛1 ,- r ,抛,- 一,鲰l ,一,蜘k ) 口= ( 吼,如,一,) 白= ( q ,) f = ( f l ,。缸) 1 6 n p ( y o ,f ) = p ( y 1 1 ,y 1 2 ,蚍f ) = i i i i p ( y i j l o 。,白) = l j = l 在此模型中有2 七+ n 个参数,参数过多,一般令0 为随机变量, 给出0 1 , 0 2 ,o n 蜘( _ 1 ,口2 ) 通常令 “= 0 盯2 = 1 即说明被试总体的能力服从正态分布,被试是来自此总体的一个随即样本,则参数变为 2 k 个 9 1 ,有时候还会加上限制条件, 令 女七 n q = 1 ,竹= 0 j = lj = l 在这篇文章里我们感兴趣的是项目参数( a ,- y ) ,0 当作讨厌的参数 f ( 口,f i ) = 1 ;i ;i 业= g ,( 日,g ) = ,( f ) ,( 可,p l ) 其中f 的先验为平坦分布 f ( f ) = i i i ( c y j 0 ) j = l 0 和y 的联合密度 f ( o ,引f ) = ( o l f ) f ( y l o ,f ) = f ( o ) f ( y l o ,f ) n lk = i i 慨) i i i i p ( y i j l o i 白) i = l i = l j = l 用e m 算法i l o l 求f ( ( 1 y ) = ,f ( 日,f l y ) d o 的众数 i l l ; e 步: 1 7 k d q q嘭 。 。h | | 将0 当作不可观测的数据,y 是可观测的数据,( y ,口) 是完全数据 q ( f ,f + ) = e ( 1 0 9 f ( l y ,o ) l y ,) 则 ! ! :! :盟:塑! ! :! 盟 f ( y ,0 )f ( y ,0 ) = c ( y ,口i f ) q ( ,f ) = c e ( 1 0 9 f ( y ,o l ) l y ,+ ) l o g f ( o ,y l f ) = 墨1f d g 西( 日。;0 ,1 ) + :1 翳:1l o g p ( y i i l o i ,白) = 争q 任,f 4 ) = c 冬1 西( 日;0 ,1 ) f ( o d y ,+ ) d o i + 1 ;:l ( y l j l o i ,f 5 ) f ( o d y ,+ ) d o i 前一项跟无关,后一项跟f 有关 其中 帅名) = 帮= ! 锴叫) 旦k 蚓 f ( o ,f i 可) = g ( f ) ,( 可,口l f ) = c ( y ,口i f ) = f ( o ) f ( y l o f ) = 曲( e ) f ( y l o ,f ) p ( g 珏i 巩,白) = 磺( 1 一只j ) 1 - 聊 m 步: 求q ( f f ) 的最大值 已知:白= ( ,) 令 ;h i = q 仇一b = o i ,一l h , = o i ,一1 1 或者 侪j = o o 仇一= 【“j ,】 巩,一l 】7 = 6 【巩,一1 】 坌g ! ! 呈! 塑i 鱼:鱼! j :皇f 堕2 1 1 1 鱼! ! 二麴2 1 1 11 1 二垒! 8 j8 1 8 皇堕苎掣= 稿p , j 皇掣+ 呈掣曲( ) 【哦,一- 】a 6 a 弓( 1 一岛)蟛。a 0 ”“1 其中 :去唧;磅 = 鱼舞皿= a 瓦e x p 一 磅( 一) 【矾,一1 1 = 毋( ) ( 一啦j ) 限,一1 】 盥:型竺2 垫二竺! 型 a 霸( 1 一) 2 其中 则 掣= 毋( a j s t 刊】 。塑丝! ! 致堕曼! | ? 8 5 8 i :一f 穹满+ ! 兰;i 豁西( ) 】曲( ) 慨,一l 】【晚,一1 】 焉( 1 一) 。焉( 1 一) 2 ”。”“”r ”1 = ( 白;嘲 等盟= 耋g ( 白,o o f ( o d 瓜。媳= 薹n 肋( 白 鬻= 耋 ( 白,o , ) f ( o d g ) 觑= 蚤ne ( 白, 号g “= 一( e g ( f j ,以) ) 7 ( e h ( e j ,以) ) 一1 算法:给定g ,由上式可以得到g ,继续循环可得到结果 g i b b s 抽样i t 2 :从联合后验很难抽( 多维的) 、从边际后验抽,则可得 1 9 假设有p 个参数( ”t ,w , z ,m ,) ,给定初值( ”( 0 ) ,”扩,世) 1 1 从口( t 1 l ( o 】,1 ) ”5 1 从n ( w 。1 w 硝抄2 ) 一”;1 ) ,w l o ,一,蟛) w ;1 从n ( 嘶衍,掣1 ) 兮( w ”,螂) 来自( w l j - ,郇i ) 从f ( 口,引y ) 中抽样由g i b b s 抽样即从f ( o l f ,y ) 和f ( f l o ,y ) 中抽9 f 则口,f f ( 目,f i y ) 为了方便计算,我们引入如r f 潜在变量: 潜在变量 z = ( z n ,2 。k ) ,z i 拥( ,1 ) ,= 叶吼一 已知 当z o 0 当z i j 0 ) = p 【弼一( q 峨一) 一( a j o i 一) 】一1 e l ( a i o , 一) :母f ( o ,晚一* ) l j p ( y 。j = 1 ) = p ( z i j o ) 证毕 从而 f ( z ,8 ,f l y ) = :i ;f 蔓生= c ,( p ,z ,f ,! ,) = ,( 8 ) ,( 引口) ,( z i 口,e ) y ( y l ,0 ,。) = ,( 口) ,( f ) ,( 。限f ) ,( ! ,i 。) n n k = 1 7 曲协;0 ,1 ) i i i ( a i o ) i i 西( 锄;,1 ) j ( 铴 o ) 1 ( y , j = 1 ) + i ( z , j 0 ) = c e ) 【p 【一 e j - _ l ( 麓j 一( a j o , 一) ) 2 :e e x p - 显也塑生篓2 叠型 a i o 。一b = ( o j ,- r j ) o , ,一1 1 = 白z 7 对比多元正态的形式f 1 3 0 弓| | 。芦 | | | | 一萨 矿 鬻抑 晚 e x p ( z i t ) 一1 扛一p ) z i t ) 一1 ( z p ) = ( 一p ) 一1 ( z p ) = z 7 一z z 一1 i l i t 7 一1 。+ i t 一1 p = 一1 z 一2 x 一1 p + p 7 一1 一 = z 7 。= 限,一1 1 巩,一1 】 一1p = 。:巧= 争p = ( z z ) 一1 z 。巧 证毕( 1 5 】 m a t l a b 1 6 j 的程序将在后面给出,经过计算,得到如下结果, o t = ( 4 6 3 5 5 2 ,1 5 3 7 0 ,1 8 9 4 2 ,一o 5 6 5 4 ,1 3 1 0 7 ,1 3 0 3 1 o 7 8 1 9 1 1 6 7 0 l 对应的学科顺序依次为【数学分析,代数与几何,( 实变函数,复变函数,泛函分析) , 微分几何,常微分方程,拓扑学,概率统计】 显然,数学分析的区分度是最大的,微分几何的区分度是最小的 ,y = 0 4 9 9 2 , 一o 4 2 9 7 , 一2 3 5 3 6 ,4 3 6 6 7 ,1 3 8 3 1 , 一0 0 2 1 0 ,o 0 0 8 2 ,o 2 9 4 3 】 其中,微分几何的难度参数最大,( 实变函数,复变函数,泛函分析) 的难度参数最 小 分析上述结果,可以看到微分几何的区分度最小,并且难度最大,说明微分几何的 题目出得过于有难度,而且,不能够最好的检验学生学习这门课程的好坏,导致大部分 人的成绩不是十分理想,所以微分几何的题目有待改进 而数学分析作为数学系大学一年级的最最基础的学科,考试题目不论从难度还是从 区分度来看都是非常适合学生的,难度适中,并且有非常大的区分度,即能力越高的学 生就可以越好的发挥出自已的能力,掌握得相对不熟练的学生就表示得不是那么好了, 正好达到了教师检验学生学习成果的目的 ( 实变函数,复变函数,泛函分析) 的难度参数过小,区分度还可以,但是作为基础 学科,我个人认为可以出一些比较活用的题目,使得有能力的同学可以更好的发挥,即 增加区分度,同时再相对提高部分题目难度,从而达到更好的效果 以上均为个人意见 i r t 的理论 1 7 1 体系构建于更复杂的数学模型1 1 8 1 9 1 之上,其概念和理论推导更加 严谨,但应该着到,i r t 也并不是完美的,其不足【2 1 】之处表现在以下几方面; ( 1 ) 单维性假定难以满足这是i r t 受到攻击的最主要原因单维性是指测验测量 的是单一潜在特质,但严格的单维性是难以满足的目前的现实问题是,单维性需达到 什么程度才能应用i r t ,但这一标准的确定尚缺乏充分的理论依据; ( 2 ) 目前i r t 的应用仍以两级记分模型为主,且局限于单维反应模型,更高级的i r t 模型尚处于理论上的探索阶段; ( 3 ) m t 建立在更复杂的数学模型之上,依赖更强的假设,计算复杂,不易被人掌握; ( 4 ) i r t 对测验条件要求较严格,样本容量要大,被试的能力分布范围要广,测题数 量要多,这些条件不满足就会影响其精确性; ( 5 ) 对c t t 的一些研究领域,如测验效度问题等,i r t 并没有提出独到的见解 同时我们也应该看到c t t 是体系上最成熟的,以其为基础的测验在各行各业得到 了成功的应用,可以说,c t t 是其他测验理论赖以产生的基石在新的测验理论崛起的 冷天,c t t 仍然占据着不可替代的地位之所以如此,是因为c t t 有以下的优点: ( 1 ) 建立在较简单的数学模型之上,易于被人理解和接受,且计算简便,容易推广; ( 2 ) 理论假设较弱,对实旎条件要求不严格,适用性广; ( 3 ) 在多数情况下c t t 是足够精确的,可以放心地应用 w a r m ( 1 9 8 7 ) 称”项目反应理论对经典测验理论好比爱因斯坦相对论对牛顿定律”, 可见其影响之深远 随着计算机技术的发展,i r t 得以迅速推广应用目前一些大型的考试t o e e l g r e 等,都相继采用了以i i 盯【船】为基础的计算机化适应性测验( c a t ) ,一些传统的智力 测验如比奈测验,韦氏智力测验,瑞文测验等也使用i r t 作为分析的理论依据,所以, i r t 的前景是无可争议的 关于项目反应理论的应用; 1 近年来,随着教育测量理论的发展,以项目反应理论( i r t ) 为基础的自适应测 验嘲逐渐得到广大教育工作者的认可自适应测验是根据每个学生的不同情况,用几组 不同的试题来测量学生能力水平的一种测验在自适应测验中,考试系统向应试学生提 出一个或几个试题。并对学生答题进行判断,根据学生答题情况,再从题库中选择最适 合于测量学生个体的题目通过这种方式,使试题与应试学生的能力水平相符合,向他 们提出的题目,既不太容易,也不太难,可以为估测学生的能力提供最大的信息量自 适应测验比常规测验具有更高的效率,它可以用比常规测验更少的试题而获得可与之相 比或更佳的测量效果,有实验表明,在同等测量精确度的条件下,自适应测验可缩短4 0 参与远距离学习的学生范围很广,能力参差不齐,这就要求这种诊断性测试具有相 当高的效率,要用尽量少的试题,测试出学生的真实能力,否则会引起学生在学习时间 上和浪费,也可能引起学生的厌烦或恐惧的情绪,从而影响学生的学习;另外,由于基 于i r t 的题库中,试题的属性可以与施测样本无关,故不同时闻内进行的考试,其测量 结果是可以比较的,比如美国的大学及研究生入学考试( t o f e l 和g r e ) 都采用基于 2 5 i r t 的计算机化适应性测试,学生可以随时参加他所选择的考点举行的考试,而不象过 去,必须同时参加定期举行的考试这种不同考试之间测量结果的可比性,正好可以满 足远程学习中考核的异步性的要求因此,未来远程教育中的考核测量,必然是计算机 化的适应性测试 2 运动测量领域i r t 研究的未来发展1 2 4 1 虽然运动心理测量工作者已经开始从i r t 在教育和心理学领域的五十年研究中获 益,并且在一些运动项目测验方面,i r t 也体现了它的优越性与有用性目前,i r t 正 迅速成为测量领域的研究热点。但必须清楚,i r t 所取得的进步主要限于几种较简单的 模式,且多为从书面测验中得出的二分数据,i r t 的真正发展还很短暂,一些基本的概 念和结构框架还需进一步澄清,已有的研究结果也还很不一致;理解这一理论需要较高 的数学能力和较多的计算机程序的支持,再加上运动领域自身的复杂性,要将每次运动 测验转化为相应的书面测验是极其困难的,所以目前i r t 在运动领域全面推广的可能性 很小,更多的还是对这项工作感兴趣的测量专家的事情可以想象,在理论发展和实际 运用之间,还有很长的路要走,而要改变运动领域已形成的习惯测量要领所需的时间可 能会更长 3 项目反应理论的堀起提供了数据分析的新工具【2 5 】 人才浏评数据主要是指通过调查、测验等方法获得的结果,分数则是这些结果的数 量化的主要表现随着社会的进步,对人才测评的科学性、公正性提出的要求越来越高, 从而对数据的研究也越来越深入如何科学地分析、准确地处理人才测评数据,是当前 国内外人才测评领域的重要课题之一 7 0 - 8 0 年代,在测量理论中,最显著的进步是项目反应理论的应用,它是继经典 测量理论之后的一个重要的测量里程碑项目反应理论之所以优于经典测量理论,在于 它克服了后者分析数据对”考分= 能力”的局限,而将能力看作是一个潜在的变量,又 将项目的难度、区分度等重要参数看作是项目本身的固有特性,独立于被试团体目前 该理论主要应用于客观性考试、试题库的建立、不同团体被试在不同测验中能力反应的 等值化、跨文化比较等多种测量领域在发达国家的人才测评数据分析中,项目反应理 论已经成为一种常规的分析工具 既然测量理论尤其是经典测量理论和项目反应理论对于基础教育中的学业评价有如 此重要的价值,那么如何实现这种价值呢? 我们认为实现测量理论的价值有以下几个途 径: 第一是以测量技术为指导,形成我国学业评价的标准化、规范化的程序尽管现行 的学业评价体系受到众多的质疑,但是我们认为形成规范化的学业评价体系不仅是回应 众多质疑的有效措施,而且可能也是学业评价乃至各类考试在未来的根本出路 第二是强调测量专家教育专家和命题人员的结合要应用心理与教育测量理论, 一个主要的障碍是现在的测量与考试理论高度数学化这就要求从事测量理论研究的人 员不仅要进行理论研究,而且要将测量理论介绍给其他领域的研究者和实践者同时。 从国外学业评价与考试,特别是大型考试的经验来看,加强测量专家、教育教学专家和 考试命题人员的结合,发挥各自所长,是提高学业评价质量和效果的关键因素 第三是要重视信息技术的应用信息技术和测量与考试理论的结合是当前测量理论 发展的重要趋势,其标志性的成果就是计算机自适应考试 ( c o m p u t e r i z e d - a d a p t i v et e s t i n g ,c a t ) 的出现。所谓计算机自适应考试就是依据项目反 应理论。由计算机自主呈现测验题目,如果学生正确回答一个问题,计算机则自动估计 其能力水乎,然后呈现更困难的问题;如果学生不能正确回答一个问题,计算机则自动 估计其能力水平,然后呈现更容易的问题,直到计算机对其能力的估计稳定在某一水平 为止c a t 之所以引起人们的高度关注,是因为它表现出一些非常诱人的特点:其一, 采用c a t 大约节省百分之五十的考试时间;其二,采用c a t ,不同的学生将接受不同 的考试内容;其三,此方法对学生能力的估计更为准确;其四,将对学生不同能力水平的 估计放在同一尺度上,便于报告和分析到目前为止,我国还没有真正意义上的c a t , 但在可以预见的未来,信息技术在学业评价中的应用将是不言而喻的 正确应用教育测量学的理论与方法 从测量学的现状及发展趋势来看,其应用范围和功能地位正在日益扩大和提高因 而,测量成为人们关注的社会问题便不足为奇。在这里我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论