第五章项目反映理论与自适应测验ppt课件_第1页
第五章项目反映理论与自适应测验ppt课件_第2页
第五章项目反映理论与自适应测验ppt课件_第3页
第五章项目反映理论与自适应测验ppt课件_第4页
第五章项目反映理论与自适应测验ppt课件_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 测试与测试实际测试与测试实际 丈量的意义与分类 教育丈量普通概念及量表 丈量数据的记述与处置 工程反响实际 工程反响实际的运用一、丈量的意义和分类狭量测试:针对详细的技艺、知识、才干、顺应性等特性的测试1、丈量的分类器具测试与笔纸测试客观测试与非客观测试综合测试与分析测试规范测试与非规范测试集团基准测试与到达基准测试二、教育丈量普通概念及量表丈量:根据一定规那么用数字对事物的特性加以描画和确定的过程。采用的方法采用的方法丈量包含1要明确被丈量对象的属性或性质要明确被丈量对象的属性或性质2确定能使这些属性显示出来并又可确定能使这些属性显示出来并又可以被感知的一系列操作以被感知的一系列操作

2、3制定一个程序使得结果可以量化制定一个程序使得结果可以量化1、教育丈量的普通概念参照点参照点计算的起点,有绝对零点和相计算的起点,有绝对零点和相对零点人为定的参照点。对零点人为定的参照点。教育丈量中的参照点为相对零点。教育丈量中的参照点为相对零点。单位单位丈量的根底。理想单位的条件:丈量的根底。理想单位的条件: 要有确定的意义;具有相等的要有确定的意义;具有相等的价值价值?教育丈量:根据教育目的的要求,按一定规那么用数字对教育效果加以描画和确定的过程。即,遵照教育学、心思学和丈量学的实际和原那么,经过各种检验来确定由于教育引起的学生知识、才干变化的方向和数量。间接丈量。经过丈量学生对所学知识的

3、掌握程度来了解其智力或学业程度的现状和开展情况。丈量的结果是相对的。学生学业成果只需在某种规范的比较中才有意义。只需把它们和集体的平均程度比较,或者和教学方案规定的教学内容、教学目的比较,才干确定检验分数的含义。2、教育丈量的量表量表丈量工具。具有一定单位和参照点的延续体,为获得有用的数据而设计。根据准确度1类别称名量表类别称名量表2等级顺序量表等级顺序量表3等距间隔量表等距间隔量表4等比比率量表等比比率量表1类别量表类别量表对被测对象进展分类,并赋予各类以不同的符号。类之间只具有类之间只具有“质的差别而不具有质的差别而不具有“量的差别。量的差别。功能标志标志分类分类适用的统计百分比百分比卡方

4、检验卡方检验2等级量表等级量表数字或符号表示丈量对象在某一属性上的顺序或等级关系。不阐明各数字间的差距相等,不能进展四那么运不阐明各数字间的差距相等,不能进展四那么运算。算。适用的统计中位数中位数百分位数百分位数3等距量表等距量表具有类别量表和等级量表的性质外,还具有延续数量之间的差距相等。数值间不能进展乘除运算,但可以进展加减运算。数值间不能进展乘除运算,但可以进展加减运算。量表的数值加或减一个常数或用一个常数乘除,量表的数值加或减一个常数或用一个常数乘除,不会破坏原有数据间的关系。不会破坏原有数据间的关系。适用的统计均数均数相关系数相关系数Ft检验检验教育丈量教育丈量4等比量表等比量表具有

5、最高的程度量度,除了具有前三者性质外,还具有绝对零度,可进展四那么运算。物理丈量物理丈量心思丈量中,反响时间属于该类。心思丈量中,反响时间属于该类。教学与时间数据进展分析即可采用等比量表。教学与时间数据进展分析即可采用等比量表。3、教育丈量的误差丈量误差:在丈量过程中由与目的无关的要素产生的不准确的或不一致的结果。随机误差:系统误差:由与丈量目的无关的偶尔要素引起的变化无规律的误差由与丈量目的无关的要素引起的恒定的有规律的误差随机误差:系统误差:多次丈量结果不一致,大小和方向是随机的。既影响丈量的准确性又影响一致性。稳定地存在于每一次丈量中。只影响丈量的准确性。检验试题方式选择不当、指点语不明

6、晰、评分规范不一致等。系统误差:随机误差:检验设计人员有偏见。经典丈量实际关于误差三个假设1检验的察看分数检验的察看分数X可看作真分可看作真分数数T和检验误差分数和检验误差分数E的线性组合;的线性组合;2误差分数误差分数E的数学期望为的数学期望为0;3任何两次丈量所产生的误差相任何两次丈量所产生的误差相互独立。互独立。误差的来源1检验本身所引起的误差;检验本身所引起的误差;2检验过程所引起的误差;检验过程所引起的误差;3被试本身所引起的误差。被试本身所引起的误差。三、丈量数据的记述和处置一丈量数据的统计测度1、平均值、分散和规范偏向X x1x2x3xNN1N1 i=1 N xi平均值平均值x方

7、差分散方差分散S2x丈量得分的分散程度S2xN1 i=1 N XiX2变异数变异数规范偏向规范偏向SxSxS2x N1 i=1 N XiX22、协方差和相关系数协方差协方差SxySxyN1 i=1 N XiXyiy相关系数相关系数xy xySxySx SyN1 i=1 N XiXyiyN1 i=1 N XiX2 i=1 N yiy2 N1二丈量数据应具备的特性1、丈量的误差模型xi测试值ti 真值ei 丈量误差xitieiN足够多e i=1 N 0eiXN1 i=1 N xiN1 i=1 N tieiN1 i=1 N tiN1 i=1 N eitet假设丈量误差与得分真值间是完全独立的,那么:

8、SteN1 i=1 N titeie0S2xN1 i=1 N XiX2N1 i=1 N ti+ei ti+e2S2t+S2e+2SteS2t+S2e2、丈量的信度信度:当一个检验多次丈量的结果一致或稳定时,它就被以为是可靠的。而估计丈量一致性或稳定性程度的目的,称为信度。rXXS2T/ S2X即指:检验中,被试的实得分数与真实分数差距越小,检验的分数就越可靠,信度就越高;反之,信度就越低。估计信度的方法:1再测信度再测信度2复本信度复本信度3分半信度分半信度4内部一致性信度内部一致性信度5评分者信度评分者信度1再测信度再测信度rXXS1S2N1X1X2X1X2用同一个检验,对同一组被试前后两次

9、施测,两次检验分数之间的相关程度就是再测信度。检验跨时间的一致性稳定性系数。例1假设有20个学生在1月1日接受了一个检验,到2月1日,又再一次接受同一检验,把1月1日的首测与2月1日的再测的分数分别记为X1X2,检验结果为:学生1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20X115 14 13 12 12 11 11 10 10 10 10 10 9 9 9 8 8 7 6 5X215 14 16 15 13 12 11 13 13 12 10 11 11 11 10 9 10 7 8 8计算得:X1X2S2S19.9511.452.462

10、.422385X1X2rXX2.462.422385/209.9511.450.9再测信度满足条件所丈量的特性必需是稳定的;所丈量的特性必需是稳定的;遗忘与练习的效果一样;遗忘与练习的效果一样;两次施测期间被试的学习效两次施测期间被试的学习效果没有差别。果没有差别。优点:提供检验结果能否随时间而变化的资料,可作为预测被试未来行为的根据;缺陷:易受练习和记忆的影响。适用于速度检验,不适用于难度检验适用于速度检验,不适用于难度检验2复本信度复本信度平行测试法平行测试法根据一组被试在两个等值检验上的得分计算的相关系数即为复本信度系数。反映的是两个检验之间的等值程度等值系数,公式与稳定性系数公式一样,

11、即再测信度公式。优点:一定程度上防止了受练习和记忆的影响缺陷:很难编制两份等值的试卷3分半信度分半信度折半法折半法按正常的程序实施检验,然后将全部试题分成相等的两半,被试组在这两半检验上的分数之间的相关系数即为信度系数。如何如何分半?分半?优点:分半法估计信度比再测法和副本法优点:分半法估计信度比再测法和副本法简便,减少了学生的疲劳、腻烦等要素;简便,减少了学生的疲劳、腻烦等要素;局限:分半信度系数只能表示两半试题的局限:分半信度系数只能表示两半试题的等值程度,不能提供时间稳定性的信息。等值程度,不能提供时间稳定性的信息。不采用前后分半,采用奇偶分半法,即将标题的奇数号分为一组,偶数号分为一组

12、;求出一切被试在奇数和偶数题上总分的相关系数;求得的信度为半个检验信度,整个检验的信度需求进展矫正。rXX2rAB/1rAB 求得当两半检验等值时,两半检验求得当两半检验等值时,两半检验分数具有一样的平均数和规范差,可用分数具有一样的平均数和规范差,可用斯皮尔曼布朗公式校正:斯皮尔曼布朗公式校正: 当两半检验具不同的均值和方差时,当两半检验具不同的均值和方差时,可用卢伦公式校正:可用卢伦公式校正:rXX1Sd2/ Sx2Sd2两半检验分数两半检验分数之差的方差之差的方差Sx2整个检验总分整个检验总分的方差的方差4内部一致性信度内部一致性信度也称同质性,指检验内部一切标题间的一致性。假设在一个检

13、验中各道试题得分有较大的正相假设在一个检验中各道试题得分有较大的正相关时,我们说这个检验是同质的,也就是说,关时,我们说这个检验是同质的,也就是说,在该检验工程中一切的工程都丈量一样的特质在该检验工程中一切的工程都丈量一样的特质或程度略同的特质。或程度略同的特质。估计检验内部一致性的常用方法: 库德理查逊公式库德理查逊公式rKR20kk1(1 )Sx2piqipiqirKR21kSx2XkXk1 Sx2k检验标题数检验标题数 pi经过第经过第i题的人数比例题的人数比例qi为未经过第为未经过第i题的人数比例题的人数比例 Sx2检验总分数的方差检验总分数的方差X检验总分数的平均数检验总分数的平均数

14、例2假设在一次有100人参与的客观性试题的检验中,题量为20道,学生考试分数的规范差为4分,各试题的答对人数如表所示:试题号试题号1 2 3 4 5 6 7 8 9 10答对人数答对人数60 70 50 45 80 90 40 30 25 47 试题号试题号11 12 13 14 15 16 17 18 19 20答对人数答对人数82 74 20 10 24 25 19 15 12 10piqipiqi3.523.52Sx216k20rKR2020201(1 )163.523.520.82例3假定某次考试共有105道题,学生平均分数为75分,规范差为19分,那么利用kR21公式可计算得这次考试

15、的信度是:rKR21kSx2XkXk1 Sx210519275105751051 1920.95库德理查逊法只适于客观性检验,不适用于客观性检验;只适用于标题得分不为1那么为0的检验,不适用于其他判分方式的检验。克伦巴赫克伦巴赫系系数数可用于多重评分检验kkkk1(1 )Sx2Si2Si2k检验的标题数Si2第I道标题分数的方差Sx2检验总分的方差与库德理查逊法不适用于速度检验5评分者信度评分者信度调查评分者信度的方法是随机抽取部分试卷,由两个或多个评分者按评分规范打分,然后求其间的相关。普通以为,当经过训练的成对评分者之间的相关系数到达0.9以上时,才干以为评分客观。评分者之间的一致性越好,

16、其信度也越高。15估计信度的方法,只适用于常模参照检验,而不适用于规范参照检验;信度系数是衡量检验好坏的一个重要目的。最理想的情况是信度为;普通才干与学绩检验的信度系数常在0.90以上,性格、兴趣、态度等人格检验的信度系数通常在0.800.85之间。6信度系数与个人检验真分数的估计信度系数与个人检验真分数的估计常经过估计丈量规范误的方法对个人真正才干作置信区间的估计。丈量规范误的大小影响实得分数对真分数估计的准确度,其数值与信度有关,两者之间的关系:SESX1rxx1/2SE丈量的规范误丈量的规范误SX 所得分数的规范差所得分数的规范差rxx检验的信度检验的信度个人在检验中所得分数X有95的能

17、够性落在真分数T加减1.96个规范误的范围内,即:X1.96SE T X1.96SE7影响信度的要素影响信度的要素被试、主试、检验内容和施测环境等均能引起随机误差,导致分数不一致,从而降低检验的信度。检验的标题数越多,那么其信度越检验的标题数越多,那么其信度越高。高。标题越多,试题的取样越适当;标题标题越多,试题的取样越适当;标题越多,检验分数受猜测要素的影响越越多,检验分数受猜测要素的影响越小。小。团体的异质程度与检验信度有关,分团体的异质程度与检验信度有关,分数分布的范围越大,信度越高;数分布的范围越大,信度越高;(S2XS2E)/ S2X1S2E/ S2XrXXS2T/ S2X信度系数与

18、样本团体的异质性有关。信度系数与样本团体的异质性有关。对不同的团体需求重新确定丈量的信度;对不同的团体需求重新确定丈量的信度;检验难度程度使检验分数分布范围最检验难度程度使检验分数分布范围最大时,检验的信度才会最高。大时,检验的信度才会最高。3、丈量的效度指丈量的有效性,即一个检验对它所要丈量的特性准确丈量的程度。一个检验,假设能正确地丈量出所要测的东西,那么它就是高效度的检验。效度:与丈量目的有关的分数的方差与实得分数的方差之比S2V/S2XS2V/S2X检验的效度除受随机误差影响外,还受系统误差的影响;可信的检验未必有效,而有效的检验未必可信;检验本身、检验的实施和被试等对检验的信度有影响

19、的要素对效度也有影响。根据调查一个检验有效程度的途径,把检验的效度分为:1 1内容效度内容效度2 2想象效度想象效度构成概念效度构成概念效度3 3校标关联效度校标关联效度基准关联效度基准关联效度1 1内容效度内容效度指标题对欲测的内容或行为范围取样的适当程度。通俗地说,它就是一个检验的覆盖问题,用于丈通俗地说,它就是一个检验的覆盖问题,用于丈量某一范围知识和才干的一个检验,它所采用的量某一范围知识和才干的一个检验,它所采用的那些标题能否充分代表了该范围内的根本知识和那些标题能否充分代表了该范围内的根本知识和根本才干。根本才干。具备较好的内容效度必需满足的两个条件:要有确定好的内容范围,并使检要

20、有确定好的内容范围,并使检验的全部标题均落在此范围内;验的全部标题均落在此范围内;检验标题应是已界定的内容范围检验标题应是已界定的内容范围的代表性样本,即选出的标题应能的代表性样本,即选出的标题应能包含所测的内容范围的主要方面,包含所测的内容范围的主要方面,并且使各部分标题所占比例适当。并且使各部分标题所占比例适当。确定内容效度的方法:专家判别法定性专家判别法定性由专家由专家对检验标题与所涉及的内容范围进对检验标题与所涉及的内容范围进展符合性判别;展符合性判别;再测法再测法在教学之前先将检验施在教学之前先将检验施测于被试。然后对被试进展教学训练,测于被试。然后对被试进展教学训练,终了时再测一次

21、。终了时再测一次。内容效度适宜于评价教育成就检验和职业选拔检验内容效度适宜于评价教育成就检验和职业选拔检验局限:缺乏可靠的数量目的,妨碍了检验间的比较2 2想象效度想象效度构成概念效度构成概念效度指检验对实际上的想象或特质的丈量程度。或者说检验所提供的数据同实际假设的符合程度。确定想象效度的步骤:首先,从某一实际出发,提出关于某一心思首先,从某一实际出发,提出关于某一心思特质的假设;特质的假设;然后,设计和编制检验并进展施测;然后,设计和编制检验并进展施测;最后,对检验的结果采用相关或因子分析等最后,对检验的结果采用相关或因子分析等方法进展分析,验证与实际假设相符的程度。方法进展分析,验证与实

22、际假设相符的程度。3 3校标关联效度校标关联效度基准关联效度基准关联效度对于效标的了解:对于效标的了解:衡量检验有效性的一个重要方法是看根据检验所作出的预测能否能被证明,假设一个检验的预测与未来实践发生的事情非常接近,那么它就是一个好检验。因此,被预测的行为是衡量检验能否有效的规范,简称效标。效标关联效度就是调查检验分数与效标的关系,效标关联效度就是调查检验分数与效标的关系,分析检验对我们所感兴趣的行为的预测程度。分析检验对我们所感兴趣的行为的预测程度。效标关联效度可以经过统计分析而得出一个数量目的,该目的是一个检验与作为准那么的另一个检验、评定或任务成果等之间的相关系数。以此来表示被衡量的检

23、验变量与作为准那么的另一变量之间的相关强弱,从而反映出前者的有效性程度。例4计算大学入学考试的效标关联效度。表中列出的仅是一组人为紧缩了容量的样本数据,实践计算效标关联效度时,样本容量还应大大添加。学生编号学生编号1 2 3 4 5 6 7 8大学入学某科成绩大学入学某科成绩77 59 90 98 66 85 69 84入学后相关科目成绩入学后相关科目成绩68 66 81 99 75 91 75 80学生编号学生编号9 10 11 12 13 14 15 16大学入学某科成绩大学入学某科成绩72 76 88 75 95 84 79 65入学后相关科目成绩入学后相关科目成绩80 69 72 63

24、 91 84 92 734、检验工程标题分析1 1标题的难度标题的难度 标题的难度是衡量标题难易程度的目的,通常以标题的答对比率来表示。难度的计难度的计算算二分法计分的标题二分法计分的标题PR/N100非二分法计分的标题非二分法计分的标题PX/Xmax100答对或经过该标题的人数被试在某标题上的平均分标题难度程度确实标题难度程度确实定定 标题的难度能否适宜取决于检验的目的、性质以及标题的方式。假设检验是为了了解被试在某方面知识技艺的情况,那么不用思索难度;假设检验是为了丈量个体之间的差别,那么以选择接近中等难度的标题为好;假设检验用于选拔录用人员时,就应该比较多地采用那些难度值接近录取率的标题

25、。检验难度对分数分布的影检验难度对分数分布的影响响假设被试的取样具有代表性,对于中等难度的检验,其分数分布应呈正态分布。标题难度普遍较大,被试的得分普遍较低,使得低分端出现顶峰,呈正偏态;标题难度普遍较小,被试的得分普遍较高,使得高分端出现顶峰,呈负偏态。当检验的分数分布明显偏态时,可以经过改动不同难度标题的比例来进展调整。2 2标题的区分度标题的区分度 指标题对不同程度的被试的心思特质的区分才干。假设在某道试题上得高分的被试实践才干程度也高;得低分的被试实践才干程度也低,那么该题就具有较高的区分度。区分度的取值范围都介于区分度的取值范围都介于1至至1之间,绝对值越大,区之间,绝对值越大,区分

26、的效果越好。分的效果越好。鉴别指数鉴别指数法法比较检验总分高和总分低的两组被试在标题经过率上的差别。计算公式如下:DPHPLD:鉴别指数PH:高分组被试在该题上的经过率PL:低分组被试在该题上的经过率D值越大,标题的区分度越高,标题越有效标题鉴别指数与评价规范标题鉴别指数与评价规范鉴别指数D题目评价0.4以上0.30.390.20.290.19以下很好良好,修改会更佳尚可,仍需修改差,必须淘汰方差法方差法标题分数的离散程度越大,该题的区分度也越大。S2xN1 i=1 N XiX2缺陷:当标题总分值不同时,标题之间不能比较。变异系数CV作为区分度的目的: CVS/X相关法相关法以标题分数与效标分

27、数或检验总分的相关程度作为标题区分度的目的。相关程度越高,标题区分度越高。相相关关适用于标题分数与检验总分数都是二级评分的场所。如,标题得分为“经过、“未经过,检验总成果为“合格、“不合格。对于恣意两个二分称名变量的数据资料,之间的相关系数可用如下公式计算:abcdr adbc/abcdacbdabaccdbd 1 0 1 0 变量j变量k1/2例545名学生参与高考,录取情况与在某题上的经过情况如下图,假设以录取情况作效标,那么此题对学生能否有区分才干?137520合计 18 2720 25考取 未考取 合计未经过经过标题反响标题反响升学情况升学情况r adbc/abcdacbd 13207

28、5/202518271/21/20.456三测试数据的变换测试数据的变换多用于以相对评价为主要目的的集团基准测试NRT。1、百分排位、百分排位2、规范得分、规范得分3、正那么化得分、正那么化得分4、多级评定值、多级评定值1、百分排位 指被测试集团人数为100名,从低位开场,相当于指定的某一位的成果是多少,或者说,从低位开场,相当于百分之多少位的成果是多少的一种排位方法。只能用于同一次测试中不同窗生的得分进展比较只能用于同一次测试中不同窗生的得分进展比较和评价和评价某一被测试者的得分为x,在x分以下的被测试者的人数为参与测试总人数的P,此时,称该被测试者的得分为P百分排位,或简称P百分位。百分排

29、位的计算百分排位的计算从低位开场,对每一个得分或每一得分级别从低位开场,对每一个得分或每一得分级别求累积频度,基于累积频度的百分位为:求累积频度,基于累积频度的百分位为:百分排位百分排位 100 被测试人数被测试人数累积频度累积频度例6设给定的成果为80,从低位开场,出现低于80分以下的频度为45,被测试人数为60,80分的成果对应的百分位为:10075 60452、线性变换与规范得分yiaxibXi原始得分yi变换得分其中:1 1线性变换线性变换将多个测试得分变换为具有一样的平均值、规范偏向的规范分,便于对多个不同的测试进展比较易知:S2ya2S2xyaxb设a bSxSxx1那么:yiaxibzi xiSx1SxxSxxix可得:xSxxzSx0S2z 2x1Sx1z z变换中,变换中,z z得分的平均值为得分的平均值为0 0,规范偏向为,规范偏向为1 1假设对z进展如下变换:yiAziBSxxixAB那么得:S2yA2S2zA2yAzBBSy=AA0可以将原始得分变换为具有指定的平均值为可以将原始得分变换为具有指定的平均值为B B、规、规范偏向为范偏向为A A的得分。的得分。3、正态那么分布与正态那么化得分 某一测试的得分满足正态分布,或近似于正态分布。经线性变换后的得分仍满足正态分布或近似于正态分布。正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论