




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 教育测量的质量指标衡量教育测量的质量,可采用四个指标:信度 主要对整个测量而言。效度 难度 主要对测量的项目而言。区分度 第一节 信度一、信度概念信度是指测量结果结果的稳定性或可靠性程度。用同一种工具反复测同一种特质对象,结果的一致性程度就叫信度一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。 或者说,测验的抗干扰能力强,误差因素控制得好,测值的一致性高,就叫信度高,人们感觉可靠。可以从以下三个方面去理解测量的信度P29:信度指实测值(X)和真值(T)相差的程度信度是指统计量与
2、参数之间的接近程度信度指两次重复测量或等值测量之间的关联程度。三、信度的估计方法(信度类型)1、重复信度(再测信度)指的是同一个量表对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用积差相关的公式来计算。(板书、推导该公式)积差相关的使用条件:两个变量的总体都呈正态分布,至少是单峰对称的分布。作此判断需要总体分布的卡方检验。必须是成对数据,每对数据之间相互独立两个变量之间呈线性关系,可由散布图的形状来决定。例一用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?学生序
3、号 1 2 3 4 5 6 7 8 9 10 11 12X 20 20 21 22 23 23 232425262627Y 20 21 21 20 23 23 252526262729在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值范围为0,1,当信度值较大时,说明前后两次测量结果比较一致;2、两次测验之间的时间间隔要适宜。太长,身心发展、遗忘、环境改变等使信度降低;太短,练习与记忆等提高了成绩,信度降低。3、重测法适用于速度测验而不适用于难度测验;因被试很难记忆第一次,而难度测验相反。还适用于运动技能的测验。4、适用于异质测验,即一个测验包含几个不同的部分,分别测量不同的心理特质
4、。因为这种测试不适于计算内部一致性信度。4、应注意提高被试者的积极性。2、复本信度指的是两个平等的测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓复本测验是指在格式、内容、题型、题数、难度、指导语说明、施测要求等方面都一致(或相等)的两份或多份测验。例二以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号 1 2 3 4
5、 5 6 7 8 9 10X 19 19 18 17 16 15 15 14 13 12Y 20 17 18 18 17 15 13 15 12 12复本信度的优缺点表现:优点:1、两个复本在同时使用同时使用时,可以避免再测信息的一些缺点如首测对再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。反映究竟是不是真正的平行测验;换言之,反映了测验内容造成的误差。2、测验的两个复本,如果在不同的时间不同的时间使用,其信度既可以反映被试在不同时间的稳定性,又可以反映测验内容的一致性。换言之,既反映了时间影响,又反映了测
6、验内容的抽样误差。 这种同时兼顾试题抽样与时间影响的信度,称为等值稳定性系数,与其他信度系数相比,该系数最小,也就是说,此种复本信度是对信度最严格的检验。3、在追踪研究或探讨某些影响测验成绩的因素时,大多使用复本测验,分析复本信度。缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过份相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;(因内容造成的误差)。3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去
7、复本的意义。3.1、同质信度之分半信度就是将测验分半,被试在每一半测验上所得分数的相关系数。反映了2半题目间的一致性。 分半的方法很多,如,按题号奇偶,按难度、按题目内容。无论如何分半,都要在分开后做微调,最终目的是分成对等的两半。如果做不到对等,就不适合求分半信度。 在实际运用中,由于题目一般是按难度大小排列,采用奇偶分半可以使两半测验的题目在难度上基本相等,因此常被采纳。 分半后,计算每个被试在两个分半测验分数的积差相关系数,由于只是半个测验之间的信度,故,再用斯皮尔曼布朗公式加以校正。3.2 同质信度之库德尔-理查森信度适合于全部二分计分题测验的内部一致性信度分析。常用的两个公式有:(板
8、书,P33)例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的库德-理查森信度?学生序号 题 序 1 2 3 4 5 6 总分1 1 0 0 0 0 0 12 1 0 0 1 0 0 23 0 0 0 0 1 1 24 1 1 1 0 0 0 35 0 1 0 0 1 1 36 1 1 1 0 0 0 37 1 1 1 1 0 0 48 1 1 1 1 0 0 49 1 1 0 1 1 1 510 1 1 1 1 1 1 6pqpq 请比较两个公式所算出来的值当测验中所有的试题难度都一样,或平均难度接近0.50时,两个公式所估计出来的信度值
9、将相等。但是,当测验中所有试题难度值极不相同时,差距将较大。一般KR21比KR20信度值小。4、论文式测验信度论文没有严格评分标准,同样题目,不同应试者回答与得分不一样,可用克龙巴赫阿尔法系数公式。P34该公式适用于:测验题型多并非都是2分计分题时。板书公式请阅读,并解释公式含义。 例4用一个包含6个论文式试题的测验,测5个被试,结果如下,试求该测验的信度?题序 学生序号 1 2 3 4 5 某题得分方差1 3 6 1 6 5 2 4 3 3 2 3 3 3 4 1 2 1 4 2 5 2 1 2 5 1 4 4 5 4 6 4 6 5 3 2 总分 17 28 16 19 17 四、提高信度
10、的方法(一)信度系数多大为宜?学科测验0.9以上;智力测验0.8以上;品德测验,达到0.6就不错了。作业1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠?学生序号 1 2 3 4 5 6 7 8 9 10X 8 10 9 6 10 7 5 7 9 4Y 9 10 10 6 10 8 4 8 9 42、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、难度类似的第二次测验Y,试求测验的复本信度?应试者 1 2 3 4 5 6 7 8 9 10X 9 10 10 6 10 8 4 8 9 4
11、Y 4 9 7 9 4 3 5 3 2 43、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度?学生序号 1 2 3 4 5 6 7 8 9 10奇X 38 37 38 41 40 36 38 39 40 35偶Y 37 37 36 39 39 34 38 39 39 36四、提高信度的方法1、影响测量信度的主要因素自行阅读P34-35,请同学们讨论、解释。(1)测量工具方面(对照教材重点解释)(2)主试、施测情境方面(对照教材举例)(3)被试方面(同上)(4)两次施测的间隔时间方面2、提高测量信度的常用方法阅读p36-37,请
12、学生解释:(1)适当增加测验的长度(2)测验的难度要适中(3)测验的内容应尽量同质(不同质是如何影响信度的?)(4)测验的程序应统一(5)测验的时间要充分(6)测验的评分要尽量做到客观化,减少评分误差第二节 效度一 、什么是效度效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。 测量的效度是相对一定的测量目的而言的2、一种测量的效度只是高或低的问题测量结果总是有一定效度的,只是效度高低不同罢了。3、教育领域的效度问题比其他领域的测量更重要。二、效度的理论公式板书P39及参考书P58重申变量和的方差运算公式目标真分数、非目标真分数根据理论公式,
13、怎样才算测量效度高?请同学们回答。 三、效度的估计效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。(一)内容效度就是指测验题目样本对于应测内容与行为领域的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。2、内容效度的估计逻辑分析法其工作思路是请有关专家对测验题目与应测内容范围的吻合程度作出判断。把所有题目按考试内容和考查目标分布进行双向分类,形成实际的“题目双向分类表”。与事先预定的
14、“命题双向分类表”作比较,看是否偏离了原命题计划。内容效度主要应用于成就测验、学科测验。内容效度不适合用于能力倾向和人格测验。(二)结构效度结构:心理学或社会学上的一种理论构想或特质。本身观察不到,也无法直接测量,但学术理论假设它是存在的。举例:结构效度:测量能测出这种结构的程度(1)结构效度的特点结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。比如智力(2)建立结构效度的步骤A、提出理论假设;B、根据假定结构,导出各项关于心理功能或行为的基本假设。拟定测题,编制测验;C、以测验结果为根据来验证假设
15、结构中的各种因素是否成立。例如智力P42测量甲与其他理论上认为应该与之有关的其他测量有显著相关。与其他理论上认为不应该与之有关的其他测量没有显著相关。与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。(三)效标关联效度是以测验分数和效标之间的相关系数来表示测验效度高低的方法。什么是效标?例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测
16、验选择一个最有效的效标,这是最重要的事情。教育测验的效标,可采用各学科成绩和教师评定的结果;智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;人格测验的效标,可采用被试以后行为或临床资料。效标关联效度的种类同时效度预测效度效标关联的计算方法:计算相关系数(多采用积差相关法,略)P41,其他方法参阅教育统计学教材2、提高测量效度的方法P44对效度系数的要求:P42,阅读1分钟控制系统误差精心编制测验量表扩充样本的容量(增加样本对总体的代表性)合理处理效
17、度和信度的关系(信度是效度的前提,效度不大于信度的平方根)妥善组织测验适当增加测验长度三、难度难度是指试题的难易程度。一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。难度由被试群体整体水平所确定。是相对概念。难度的计算(一)基本公式1、客观题难度的计算P=R/N R为答对该试题人数,N为参加测验总人数例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难?2、主观题难度的计算例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度?例3:语文测验第五题最高得分为12分,这
18、道题考生的平均得分是8.5分,求该题难度?例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度?(2)极端分组法客观题步骤:将测验总分进行高低排序(由高到低)进行高低分组(各取27%),并计算某题的得分率求两组的平均值公式:P=(PH+PL)/2PH为高分组答对该题的百分比;PL为低分组答对该题的百分比。例5某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度?如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度?论文题的步骤:将测验总分进行高低排序(由高到低)进行高低分组(各取25%)分别为高分组、低分组
19、编制每道试题的分析表按下列公式计算难度:P=板书P48 例某道论文题,高分组得分总和40分,低分组得分总和15分,40人参加考试,此题最高得分为5分,最低得分为2分,则此题的难度为P48:2、难度的分析与控制(1)难度分析进行难度分析的主要目的是为了筛选题目。A、测验题目难度水平的确定测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接近于0.50时,题目才能把被试作最大的程度的区分。(离散程度最大)对于常模参照性测验,大多数难度在0.3-0.7之间,平均0.5。但对于奥林匹克竞赛或
20、补习功课的学生,例外。B、测验难度对分数分布的影响测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。由于人的心理特性值多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。测验分数背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。(2)难度的控制一般说来,影响题目难度的主要因素有:考察知识点的多少;考察能力的复杂程度或层次的高低;考生对题目的熟悉态度;命题的技巧。难度控制:正确估计考生水平与
21、否;弄清弄懂各知识点与否;掌握命题技巧与否。四、区分度(一)区分度的含义指测验题目对考生实际水平的区分程度或鉴别能力。如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则可认为该题目有好的区分度。区分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。区分度(D)的取值范围介于- 1.00+1.00之间,值越大,区分度的效果越佳。区分度D0为正区分,D0为负区分,D=0为零区分区分度与测验信度、难度的关系,请自行阅读P51。(二)区分度的计算1、极端分组法(1)客观性试题D=PH-PL例6:有道试题,高分组有70%学生通过
22、,低分组有30%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?P51(2)主观题D=(XH-XL)/N(H-L)XH为高分组得分总数XL为低分组得分总数H为该道题的最高分L为该道题的最低分N为应试总人数的25%。例7 高分组 低分组得分X 人次f 得分X 人次f 5 4 5 0 4 3 4 1 3 2 3 1 2 1 2 3 1 0 1 1 0 0 0 4此题最高得分5分,最低得分0分2、相关法点二列相关法例8:15个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度?学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14
23、15测验 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42第一题 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0二列相关例9:已知一测验中某选择题的通过率为0.5,答对者的测验总分平均为76分,答错者的测验总分平均为63分,全体被试20人总分的标准差为16,求该题的区分度?(三)提高区分度的方法1、使题目的难度适中,使整个考试难度适中题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。2、着重考察复杂的学习结果使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。3、掌握区分度的评价标准。P53,评价标准表
24、第三章测验目标定义1、深入分析课程教学目标;阅读5分钟后,请合上课本描绘教育目的、教学目标、课程目标、单元教学目标、课时教学目标、知识点教学目标、行为目标、学习目标及程序教学诸概念之间的关系。双向细目表的概念内容类的概念 P76,认真阅读3分钟。目标层次的概念 第四章 教育评价方案的编制与实施第二节 教育评价方案的制定一、教育评价指标体系的的构建(一)教育评价指标体系的结构1、框架指标体系的构成:指标集、评价标准、量化符号。板书解释“评价对象”与“指标”的相对性 2、模型一般模型:评价普遍现象分类模型:评价特殊现象举例:“一间中学,教师的教学工作”一般模型与分类模型的相对性,例如:“一间中学,
25、教师的教学工作” “一间中学,中学的全面工作”指标体系由指标、评价标准和量化符号组成3、指标(与“评价对象”相对)必达指标与期望指标对教师学历、设备等设置;违纪犯罪率最低限度;表彰、奖项稳定性指标与变动性指标“教学方法”/“德育”,“计算机辅助教学”软指标与硬指标设备、场地/办学特色,决策水平初拟评价指标头脑风暴/因素分解/理论推演/筛选评价指标(1)经验法:理由充分否?/主次/指标关系(近似、交叉、因果、矛盾等)/去难存易,删繁就简(2)统计调查:按5档给专家问卷,统计“很重要”“重要”人数比例,按人数比例高低排列,删除三分之二或四分之三。4、标准概念:达标程度/末级指标必须明确规定评价标准
26、从内容上分:效能标准:效果标准和效率标准职责标准素质标准从参照点分:社会标准;规范性法则,参照点在外部科学标准:社会学或自然法则,参照点在内部5、量化符号权数:一般把同一级指标群集视为整体,权值 1 分数:指标赋分;等级赋分标度:达到标准的程度,说明什么样的程度属于什么 等级。表示方法有:描述性语言,如,好、中、差; 量化形式,如,用分数阈划分,100-90属于优秀, 89-75属于良好。(二)教育评价指标体系的建造1、信度和效度信度:a、同一评价者用同一指标体系去重复评价某一对象,所得结果的一致程度;(再测信度)b、不同评价者用同一指标体系在相隔较短的时间去评价同一对象,看一致性程度。(评分
27、者信度)c、同一评价者、使用多种指标体系,几乎同时评价同一对象,考察结果的真实程度(一致程度)(复份信度)一般来说,指标内涵客观;指标与指标之间相互独立;硬指标比例大;评价标准的规定明确,等级间的界限分明,信度就高。如果软指标多;指标、等级间界限模糊,评价者较难区分指标之间的差异,难以掌握评判准则,则会降低信度。效度:考察的是,我们所要评的,与指标体系能评的之间的关系。越接近,说明指标体系各要素(指标、标准、量化符号)的设置越准确,越有代表性。哪些做法影响效度?P1022、方法前人的启示:量表与问卷/泰勒的“教育目标”以及目标达到的评价模式/“行为目标”的研究/教育目标分类学及教育评价的研究成
28、果/我国的有关探索等。P103(1)掌握构建教育评价指标体系的依据:理念问题/实证问题。P103 (2)掌握评价对象逐级分解的方法。对内涵的理解正确、深刻。如“师德”指标。/理解、分解的多路向性/抓大放小原则/实施评价指标的可行性/(3)掌握评价等级和标准确定的方法。 等级数应根据指标的类型和性质来确定。/四级分等,两级定标的简便方法。 标准:根据不同类型指标的不同特点,综合运用,如“教改实验”、“教师队伍结构”/各等级规定的评价标准,界限要清楚。(4)掌握指标与等级数值分配的方法。集体讨论、咨询、同行专家意见、调查研究,注重程序。参与人员必须:a、知识经验、判断鉴别力;b、明确赋值依据和原则
29、;c、认真严谨二、教育评价方案的编制以评价指标体系的撰写为核心1、期望评语式编写法2、积分评语式编写法(1)等分积分评语式 (2)累计积分评语式复习:设计教育评价指标体系实操(一)确立目标与指标1、目标目标即目的,泛指人们从事活动所达到的目的。2、指标简单地说,指标是用来反映、测量和说明上一级项目的下一级项目。是目标一个方面的规定,它是具体的、可测量的、行为化和操作化的目标。(二)选择指标体系的结构1、直线式结构 二级指标11一级指标1 二级指标12 二级指标21一级指标2 二级指标22 二级指标31一级指标3 二级指标32例1:小学生最优发展的整体评价指标体系 思想品德 思想素质 科学素质
30、性格 情趣爱好小 审美素质 美的感受和鉴赏学 美的表达和创造生 学业成绩最 知识素质 知识结构优 百科知识面发 自学能力展 能力素质 自理生活能力 人际交往和组织能力 体态和机能 身体素质 运动能力 卫生保健2、树状式结构一级指标一级指标一级指标总目标二级指标例2:学生主体性的基本结构主体性自主性主动性创造性自尊自信自我调控独立判断决断自觉自理成就动机竞争意识兴趣和求知欲主动参与社会适应性创新意识创造性思维能力动手实践能力(三)教育评价指标体系建立的步骤和方法1、步骤:(1)分解目标,提出初拟指标(2)归类合并,进行筛选(3)专家评判(4)预试修订(1)分解目标,提出初拟指标一般较为注意指标的
31、科学性、完备性,唯恐挂一漏了或包罗不尽。这些指标不仅是较为粗疏的,数量也可能是比较多的。方法(1)头脑风暴法是利用头脑积极思维,进行智力碰撞,激发智慧的灵感,从而提出评价指标的一种常用方法。(2)因素分解法是一种将评价指标按照评价对象本身的逻辑结构逐级进行分解,把分解出来的主要因素作为评价指标的方法。应当注意:分解出来的因素,从高到低逐层缩小内涵,越往下层次指标越明确、越具体、范围越小,越可以观测。(3)理论推演法是根据有关学科的理论推演出评价指标的方法。(4)典型研究法是通过少数典型事例进行研究而设计评价指标的方法。(2)归类合并,进行筛选在初拟指标中,有的能反映评价对象的本质,有的则未必;
32、有的算得上主要因素,有的可能只是次要因素。各因素之间出现交叉、重复、包含、矛盾、因果等关系,也难以避免,必须对初拟指标进行归类合并和筛选,以达到“少而精”的要求。筛选指标的方法(1)经验法一般遵循以下几个要点:A、理由是否充分或必要判断每项指标是否是必要的,缺了它有什么不好,保留它有什么理由,被保留的要有充分的依据,在指标体系中,属于非要不可的因素。B、取主舍次区分每项指标反映评价对象本质的程度,保留能反映本质的主要因素,舍弃不能充分反映本质的次要因素。C、从各指标之间的关系上进行比较内涵相同或近似的合并,内涵交叉的保留其一;有因果关系的,保留“因”而去掉“果”;相互矛盾的保留既符合方针、政策
33、规定又切合当地实际的指标。D、去难存易,删繁就简确实难测的指标可以舍弃;指标内涵复杂的,尽量求其单一。(3)专家评判这是指标设计从设计者手中走向管理实践的重要步骤。专家通常包括评价理论研究者、上级领导、富有经验的教育行政干部、教师等。专家评判可采用个别访问、座谈、问卷征询、现场调查等方式,应根据不同情况选择。调查统计法是在调查获取资料的基础上进行统计的方法。其具体的做法是:把初拟指标制成问卷,发给有关专家和有经验的教育工作者,请他们对初拟指标每一项作出判断。一般分为五档,即很重要、重要、一般、可要可不要、不要。答卷者在每项指标后记上自己判断该项指标相比之下的重要程度(只能定一个档次),然后,收
34、回问卷,统计“很重要”、“重要”两档的人数比例,按评为“很重要”、“重要”人数比例由高到低顺序排列,把低于某数值(一般低于三分之二或四分之三处作为划界)的指标删除,就得到筛选的指标。(4)预试修订指标体系经过筛选、修订,初步确定以后,可以同评定标准相匹配,选点在小范围试验,看是否可行,试验后对指标体系再作修改,然后投入使用。例3:学校领导班子评价指标体系的建立1、首先分4个层次提出了16项指标(1)政治素质(政治理论和政策水平、思想品德修养、事业心和责任感)(2)业务素质(文化专业达标、教育理论修养、管理实践经验)(3)工作效能(职务与能力相称、分工明确和各尽其责、团结协作、指挥灵便、工作效率
35、高)(4)工作作风(深入实际、发扬民主、决策果断、以身作则、开拓精神)2、把以上16项指标,分为五档(很重要、重要、一般、可要可不要、不要),分别征询意见,获得以下结果:政治素质(事业心和责任感1、政治理论和政策水平3、思想品德修养11)业务素质(教育理论修养2、管理实践经验10)工作效能(团结协作5、分工明确和各尽其责8、工作效率高9)工作作风(决策果断4、以身作则6、开拓精神7、发扬民主12)第五章 教育评价的方法第一节 教育评价方法概观绝对评价法相对评价法个体内差异评价法定性分析评价法定性综合判断法行为目标评价法临床督导评价法指标评分法确定评价指标权重的方法(1)关键特征调查法 (2)两
36、两比较法 (3)专家评判平均法 (4)倍数比较法等级换分法把具体项目的等级评定换算成分数,然后将各项分数相加,满分100.具体做法:1、大项目,分数和(X+Y+Z):100;2、某个大项目(X)再细分若干具体项目(x1,x2,x3), 为x1,x2,x3分配分数;3、将x1(或x2、x3)分等级(评语论域v),每一等级需确定具体的评价标准:合格/不合格;优/中/劣;.4、将各等地折算成分数。如x1满分11分,则可将优算成11分,良-9分,中-7分,差-5分。5、将各项目得分相加。加权平均法权重分配方法已经介绍;自行阅读3分钟即可。模糊综合评判法P137再介绍集体综合评价法主要用于思想品德评价1
37、、确定德育评价的具体项目(X+Y+Z)2、对每一个具体如X项目评分(100分):自评、他评。3、板书公式S=(r1+r2+r3+.rn)/Nr为每一德育项目自评分数,N为项目数Fi=(Li-Si)/(R-1)Fi表示对思想品德的集体综合评价,表示对思想品德的集体综合评价,Li表示集体中每个成表示集体中每个成员对评价对象作出的评价(各个项目得分的平均数)员对评价对象作出的评价(各个项目得分的平均数);Si表示自表示自我总评价分,我总评价分,R表示被试人数。表示被试人数。 案例:先打分,再计算 同学甲分数 同学乙分数 .尊敬师长学习态度遵纪守法团结互助集体观念社会活动劳动态度 平均分 第三节 处理
38、教育评价信息的方法一、定性分析描述法(一)等级评定法 : 制定评分等级及评定标准。应用到如操行、能力、职称、学校等级等方面。(二)评语鉴定法:单方面、多方面评语法/简易、结论明晰,能对一些模糊现象进行描述鉴定,解决了一些定量研究不能解决的问题,但难以客观,信度和效度较低。(三)写实分析法:集事实资料/整理、描述资料,一般先概括描述一般情况,再描述典型事例/分析评价:简要、中肯、抓住本质。 写实法的优点是有依据,新都高。缺点是全面地收集资料很难,耗时多。二、定量分析评判法(一)统计分析评判法自行阅读P135-137的平均数、加权平均数、标准差、标准分数、T分数内容,8分钟。(二)模糊综合评判简介
39、补充概念:隶属度 若对论域(研究的范围)U中的任一元素x,都有一个数A(x)0,1与之对应,则称A为U上的模糊集,A(x )称为x对A的隶属度。当x在U中变动时,A( x)就是一个函数,称为A的隶属函数。隶属度A(x)越接近于1,表示x属于A的程度越高,A(x)越接近于0表示x属于A的程度越低。用取值于区间0,1的隶属函数A(x)表征x 属于A的程度高低,这样描述模糊性问题比起经典集合论更为合理。举例 例如,对于模糊集A = 高个子,如果论域是“成年男性”,则可构造隶属函数如图所示:板书确定因素论域X=x1,x2,xn(如全班学生)和评语论域Y=y1(如侏儒),y2(矮子),ym(巨人),其中
40、xi表示问题中所考虑的因素(i=1,2,n),yj表示要判断的等级(j=1,2,m)。则称X与Y之间的模糊关系矩阵为单因素评判(单单只是一个个因素,未涉及“综合”之意,即,只有各行向量有意义,整个矩阵没意义),其中行向量(ri1,ri2,rim)是考虑单因素xi在Y上的评判,rij称为因素xi对评价等级yi的隶属度,R为Y上模糊子集。设X上的模糊子集A表示因素xi在本问题的加权数(也称权重),则合成称为对各因素的综合评判,且 bj= 板书(四种之一) (j=1,2,.m)其中算符“”为取大,“”为取小,称为扎德算子。与矩阵乘法运算顺序相同。举例P57及A为1行m列矩阵的例子,请同学来算。当b1
41、=b2=bm时,称综合评判全同失效;当b1,b2,bm中至少有两个相等的最大分量时,称综合评判义性失效。书上例题讲解,P139例:根据某生测评表用1、4模型进行模糊综合评判 优秀 良好一般较差 差道德观念 0.250.540.180.030尊敬师长 0.390.500.080.030学习态度 0.640.250.080.030尊纪守法 0.580.390.0300团结互助 0.080.500.310.080.03集体观念 0.100.640.180.050.03社会活动 0.200.520.230.050劳动态度 0.410.370.140.080权重分配:A=(0.18,0.14,0.14,
42、0.13,0.09, 0.12, 0.12, 0.08)教育评价结果的合成方法(1)单纯普通数据的合成加权平均,逐级向上,直到在一级指标上归并为一个合成的分值。举例(2)单纯模糊数据的合成方法A、多级模糊综合评判法1、对末级(二级)指标进行第一次综合评判:W、R合成。如上例“某课堂教学质量”2、将二级指标对一级指标所形成的若干综合评判结果(即第一次综合评判结果)组成一个新的模糊矩阵。如“某课堂教学质量”再加上.3、将新矩阵与一级指标权重向量合成 计算综合评判结果。B、二维加权 综合合成法P143纵向加权/横向加权板书画图:(3)混合数据的合成方法1、普通数据转模糊数据2、模糊数据转换成普通数据
43、第六章 教育测量结果的整理、转换与组合第一节 教育测量数据的特点与种类数据的特点:波动性、规律性数据种类:点计数据、度量数据/间断性数据、连续型数据/类别变量、等级变量、等距变量、比率变量教育测量数据的特点:1、多属等级变量;2、多属主观的;3、多属随机的(概率为1则为确定性);4、模糊性第二节 教育测量分数的初步整理一、统计表的结构(自学2分钟)二、频数分布表的编制由同学自习5分钟后,上台讲解书本例题。第三节 教育测量分数的转换原始分(卷面分)的缺点:意义模糊,不能直接比较导出分数:由原始分转换而成,如标准分、T分数、百分等级分数等。一、标准分方差概念:随机变量离差平方的数学期望样本方差?计
44、算P153的方差公式例题P155,自学5分钟例题:甲、乙、丙、丁四人在某次语文考试中分别得72、60、48、90,而全体学生的语文平均分60,标准差12分,求四人相应的标准分数。例题:对某校高二学生进行期中学习质量测验,语文、数学和英语成绩的平均分数分别是80、70、85,标准差分别为10分、15分、12分。若某学生三科成绩分别为85、82、90分,问该生成绩哪一科最好?标准分数Z的性质与特点1、均值0,标准差1。(补充证明,概率论P97)Z=0表示成绩与平均数相等;2、有相对0点作参照点,有相等单位的导出分数,可加减;3、由于是对原始分数的线性变换,所以不改变原始分数的分布形态(其证明同1)
45、;4、若原始分数接近正态分布,则标准分范围大致在-4+4之间。课后思考:常模团体不服从正态分布则不能直接用标准分数,怎么办?自行查找资料。标准分的进一步转换1、T分数:10Z+502、标准九:2Z+5标准9分与其他评分制的相互关系(P139)3、CEEB分数(美国大学入学考试报告分数):500+100Z4、TOEFL:500+70Z5、IQ=100+15Z三、百分等级分数概念计算:100-(100R-50)/N例1、52名同学考试,甲第4名,求其百分等级分数。例2、52名同学考试,甲、乙、丙、丁戊己庚辛壬癸共10人并列第4名,求其百分等级分数。百分等级常模建立方法基本思想:把某个测验分数分布的
46、全距划分为100个等级,建立原始分与百分等级间的一一对应关系。步骤:1、从高到低排列2、逐个统计次数3、计算“以下累计次数”4、计算“以下累计相对次数”5、将第四步换成百分制以P154的36个分数为例,示范1例,其余同学们自己算。基于分组归类数据建立百分等级常模方法:编制“成绩次数分布统计表”只不过是在P154页的表的基础上增加“相对次数”、“累计次数”、“累积相对次数”等条目。计算公式:(100/N)*Fb+f(X-Lb)/iN为常模团体总人数,X为原分数,Lb为X所在组别的组下限,Fb为小于Lb的各组次数之和,f为X所在组的次数,i为组距。请计算P154页例子中,67分、89分的百分等级。
47、几种标准分数关系图手绘,参考书P140P219第十六章 课程评价第二节 课程评价模式的演变课程评价模式:评价人员或研究人员依据某种教育思想、课程理念或特定的评价目的选取一种或几种评价途径所建立起的相对完整的评价体系。它介于评价理论与具体的评价方法之间,既涉及标准又涉及方法,既包含了评价者的评价取向,也规定了评价的具体操作方式。回顾P22 -23,“八年研究”。3分钟目标模式的观点:在课程与教学的基本原理一书中,泰勒认为,一个有效的课程必须回答四个问题:1、学校应力求达到何种教育目标。2、要为学生提供怎样的教育经验(学习经验),才能达到这些目标。3、如何有效地组织好这些教育经验;4、我们如何确定
48、这些教育目标正在实现。泰勒的主要观点:评估的过程从本质上说就是判断课程和教学计划在多大程度上实现了教育目标的过程。评价应针对学生的行为而进行,因为教育寻求的正是学生行为的改变。评价应是任意一段时间内做的一次以上的评价,因为评价要反映的是行为的变化,而这种变化必须通过更多的评价对比才能反映出来。评价步骤:1、建立课程计划的目的和目标;2、以具体行为和具体内容的方式阐述每个目标;3、确定使用目标的情景;4、确定情景呈现的方式;5、确定获取信息的记录方式;6、收集反映学生行为变化的信息;7、将收集到的信息与行为目标作比较。有学者将其简化为四步:确定教育目标、设计评价情景、选择和编制评价工具、分析评价
49、结果。实例:目标评价模式在体育专业背越式跳高教学中的应用首先,确定教学目标:背越式跳高学习结束时,学生获得一定的技能和能力;其次,进行任务分析:再次,设计和实施教学过程。进行任务分析后,对不同的教学单元实施教学,确认学生在各个环节应当实现的目标行为。最后,评价环节:教学过程中对技能目标进行形成性评价至最终总结性评价,确认其实现课程目标的程度。目标模式的功能:1、修订课程与教学计划;2、进一步明确教育目标;3、影响教学与学习;4、可诊断出学生学习状况。泰勒模式的特点及局限局限:1、对目标自身的合理性缺乏评价;2、只观察了预期目标是否达到,非预期效果没有评价;3、所定目标多数为教育管理者提出的,没
50、有考虑学生的需要;4、不应用统一的目标来评价自由发展的人;5、重结果轻过程。结论:泰勒模式第一次指出了教育目标、课程设计和评价过程之间存在着密切联系。泰勒认为,评价的目的要比较全面地检验学习经验在实际上是否起作用,指导教师去引起所期望的那种结果。泰勒模式风靡全球,即使在评价模式多样化的今天,也有举足轻重的地位。CIPP模式课程评价的CIPP模式即背景-输入-过程-成果模式(context-input processproduct),是美国教育评价学家斯塔夫尔比姆倡导的课程评价模式。该模式于20世纪60年代后期发展起来。主要观点:评价不应该局限于评定课程目标的达成程度,而应该是为课程决策者提供有
51、用的信息。如:“评价最重要的目的不是证明,而是改善。”“评价是提供有用资料以作决定的历程”背景评价:提供整个课程方案运行的各种依据和信息,了解评价对象的需要与课程目标之间的一致性程度,以调节现存的目的及其优先秩序。输入评价:对可供选择的各种课程计划评价择优,即可行性的评价。过程评价:对计划实施情况进行不断检查,描述课程实施情况,为决策者的修正提供可靠信息。成果评价:测量、解释和判断课程方案的实效,帮助决策者决定课程方案终止、修正还是继续实施。优点:1、将目标本身也列入评价对象范围;2、重视形成性评价,强调为决策提供信息,使评价活动更具有方向性和实用性;3、评价教育的全过程,相对全面;4、目的不是简单评价一个方案的好坏,而是决策,所以研究者相对客观。目标游离模式斯里克文(M.Scriven)提出。它针对目标模式忽视非预期效应的弊端提出来的。他说,“对目的的考虑和评价是一个不必要的,而且很可能是有害的步骤”。因为目标评价很容易使评价人受方案既定目的的约束,限制了评价的范围,削弱了评价的意义。他建议把评价的重点由“方案想干什么”转移到“方案实际干了什么”上来,全面收集关于方案实际结果的各种信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深圳奶粉销毁协议书
- 民生通讯认证协议书
- 搬运建筑垃圾协议书
- 教授酒驾免责协议书
- 洗浴中心承包协议书
- 打造品质工程协议书
- 摔伤纠纷调解协议书
- 殡葬合作合同协议书
- 清华北大就业协议书
- 教育培训转让协议书
- GB/T 19670-2023机械安全防止意外启动
- GB/T 9128.1-2023钢制管法兰用金属环垫第1部分:PN系列
- 完全病历模板
- 食材配送服务人员配置方案
- 幼儿园新生入园报名登记表
- 人工流产-清宫术知情同意书
- 中国临床戒烟指南的指导意义
- (完整版)EORTC生命质量测定量表QLQ-C30(V3.0)
- 医院医学影像科CT-MR室诊疗指南和操作规范2022版
- 金税工程(三期)总体实施方案
- ABAQUS官方培训资料PPTlecture7-job-visualization
评论
0/150
提交评论