心理与教育测量

上传人：扣*** IP属地：宁夏上传时间：2020-07-10 格式：DOC 页数：17 大小：118KB 积分：10.8 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第一章心理与教育测量概论一、测量及其种类：1、定义：测量就是依据一定的法则使用量尺对事物的属性进行定量描述的过程。2、数量化的特征：区分性、序列性、等距性、可加性。二、测量的基本要素：1、测量的参照点：绝对参照点，即以绝对的零点作为测量的起点相对参照点，即以人为确定的零点为测量的起点。2、测量的单位：理想的（好的）测量单位应当具备两个条件：要有确定的意义，即对同一单位，所有人的理解都是相同的，不允许做出不同的理解。要有相等的价值，即第一个单位与第二个单位之间的距离等于第二个单位与第三个单位之间的距离。三、测量的量表（名称）：能够使事物的特征数量化的数字的连续体就是量表。sevens将量表从低

2、到高分为4个等级：1、称名量表/命名量表：只是用数字代表事物的成分或用数字对事物进行分类，其中的数字只是事物属性的符号，并不具有有意义的固定原点、单位的等距性和数字的顺序性，因而该类数字没有数量意义。2、顺序量表/次序量表：无单位、无绝对零点、有相对零点。数字不仅能指代类别，而且能够表明不同类别的大小、等级或事物具有某种特征的程度。（心理测量上的量表本质上属于顺序量表。）3、等距量表：相对零点、相等单位。不仅能够指代事物的类别和等级，而且具有相等距离的测量单位。4、比率量表：绝对零点、相等单位。是最完善的测量量表，因为它除了具有类别、等级和等距的特征外，还具有绝对零点和固定的原点。不仅可以知道

3、测量对象之间相差的程度，而且可以知道他们之间的比例。能做加减乘除运算。四、测量量表的等级间的区别：1、命名量表：识别、区别个体。2、次序量表：识别、区别个体；按特性排序个体。3、等距量表：识别、区别个体；按特性排序个体；指出个体特性的差异。4、比率量表：识别、区别个体；按特性排序个体；指出个体特性的差异；指出个体特性间的比率。五、心理测量的定义：1、安娜斯塔西：心理测验实质上是对行为样本的客观的和标准化的测量。2、郑日昌：心理测验就是通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。六、心理测量的基本条件：1、行为样本：从总体行为中抽取出

4、来的能够反映个人特定心理特质的一组行为作为直接的测量对象。注意取样研究的有效与否，关键在于样本的代表性，即不是任何部分都可以代表全体构成样本的行为应当是系统的、有理论思考的不可能包括所有可用来测量或定义某种心理特质的具体行为。因此，心理测验质量高低很大程度上决定于行为样本的代表性：只有在全部了解行为样本的意义后，才能正确使用心理测验心理测验的最终目标不是对行为样本的测量，而是通过行为样本的测量来预测被试以后将会出现的行为行为样本与所要预测的行为并不一定相似，可以相似也可以完全不同，如投射测验和能力倾向测验，其测查的行为与将来要预测的行为有很大差异，但两者之间有必然联系（相关），例：霍兰德。2、

5、标准化：测验内容的标准化施测条件的标准化：相同的测验情境、相同的指导语、相同的测验时限评分规则的标准化测验常模的标准化：常模参照测验、目标参照测验（标准参照测验）。3、难度或应答率4、信度和效度（可信性和有效性）七、心理测验的性质：1、心理测验的间接性：通过测量外显行为来推断内隐的心理特质。特质：是描述一组内部相关或有内在联系的行为时所使用的术语，是在遗传与环境影响下个人对刺激做反应的一种内在倾向。特质的特征：独特性、稳定性、可辨别性、抽象性。2、心理测验的相对性：没有绝对的标准。3、心理测验的客观性：就是心理测验标准化的过程。测验内容的标准化施测条件的标准化：相同的测验情境、相同的指导语、相

6、同的测验时限评分规则的标准化测验常模的标准化。八、概念区分：评估（a）测验（t）测量（m）九、戴海琦分类：1、按测量对象分类：智力测验、能力倾向测验、成就测验、人格测验。2、按测量方式分类：个别测验、团体测验。3、按测验内容表达和反应形式分类：文字（纸笔）测验、非文字（操作）测验。4、按测验功能分类：成就测验与预测测验、难度测验与速度测验、描述测验与诊断测验。5、按评价所参照的标准分类：常模参照测验、目标参照测验（标准参照测验）、潜力参照测验。6、按测验的解释分类：常模参照测验、目标参照测验。十、心理测验的功能：1、理论研究功能：收集研究资料；建立和检验理论假设；实验分组。2、实际应用功能：人

7、才选拔；人员安置；心理诊断；描述评价；心理咨询。十一、对待测验的正确态度：1、心理测验是研究心理学的重要方法之一，是决策的辅助工具。2、心理测验作为研究方法和测量工具尚不完善。3、防止乱编和滥用心理测验。十二、为了防止测验乱编滥用，要注意以下问题：1、测验的编制和修订要注意科学性。2、测验的首要条件是标准化。3、测验的出版和发行要严加控制。4、测验使用者要具备一定的资格。5、要学习和宣传测量理论。十三、心理特质的特点：1、独有性/独特性；2、稳定性；3、可辨性；4、抽象性。第二章心理与教育测量简史一、能力测量：1、孔子：中上之人、中人、中下之人（顺序量表）；上智，中人，下愚（称名量表）；“

8、中人以上者，可以语上也；中人以下，不可以语上也。”。2、董仲舒：一手画方，一手画圆（分心测验）。3、刘邵：12种人才类型。4、抓周。5、七巧板（应用于智力测验和创造性测验）、九连环。二、人格测量：1、孔子：狂者、狷者、中行（称名量表）。2、刘邵：12种性格类型。三、教育测量：1、西周：小成，大成。2、汉代：太学考试（口试、策试、射策）。3、隋朝：科举考试。4、世界上最早的教育测验-中国西周时期。四、对测验理论的最初探索：1、刘邵：九征，八观，五视。2、“观其感变以审常度”。3、“所得者少，所失者多”。4、“人观与五视”“必待居止然后识之”5、人物志刘邵，三国时期魏人。五、中国古代心理测量思想的

9、特点：描述性；分类式注重整体评价，和人的道德品质联系起来；实用性。六、西方心理测验发展简史（总结）：1.法国医生艾斯克罗尔是第一位正式在文献中提到智力之间区别。2.法国医生沈干（谢奎），他是训练智力落后者先驱，1837年他创建了第一座教育智力落后儿童的学校。3.1879年，冯特建立第一个心理学实验室（以自然科学方法探索心理一般规律），对心理测量的贡献：对个别差异进行了最初探索提出了对测量条件的控制，即测验的标准化。4.1884年，高尔顿利用统计方法研究个体差异（反应时、肌力、视、听，等）。倡导科学心理测验。5.1890 卡特尔发表心理测验与测量一文，首次提出“心理测验”一词，主张测验方法的标

10、准化，提出建立“常模”，第一个提出人格测验。6.比奈（ 1895）和西蒙（1905）编制第一个智力量表，用以辨别智力落后儿童。7克雷培林是人格测验的先驱。七、现代心理在中国的发展：1、1931年6月在南京成立中国测验学会。2、1932年测验杂志创刊。3、1924年陆志韦根据中国南方的测验结果发表了订正比内西蒙智力测验说明书，1936年他和吴天敏合作将测验范围扩大到北方，做了第二次修订。1982年，吴天敏修订了第三次中国比内测验。4、1984年我国正式加入在世界最有影响力的“国际教育成就评价协会（iea）”并与“国际教育成就评价协会”合作，在我国进行了全国规模的教育测量抽样研究。5、1980年北

11、师大开设心理测验课6、1984年中国心理学会成立心理测量专业委员会。7、1990年中国加入国际测验委员会（itc）。八、波林说：“19世纪80年代是高尔顿的10年，90年代是卡特尔的10年，20世纪头10年则是比内的10年。”九、冯特为实验心理学的鼻祖，比内是心理智力测量的鼻祖，桑代克是教育测验的鼻祖。十、心理测量的当代趋势：1、信息加工测验的产生；2、计算机化测验的产生；3、项目反应理论和概化理论理论的兴起。第三章经典测验理论的基本假设一、心理特质的含义：心理特质：就是表现在一个人身上所特有的相对稳定的行为方式。1、特质是一组具有内部相关的行为的概括，具有一定的抽象性；2、比较稳定，对不同

12、的刺激做出相同的反应；3、通过特质可以对人的行为做出预测；4、特质可以分为多个层次，智力可以分为语言和操作，语言可以分为词汇和文法。二、测量误差的含义：（一）误差就是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。（二）理解：1、测量误差是由那些与测量目的无关的变因所致；2、测量误差表现为不准确或不一致两种方式。三、测量误差的种类：（简答题）1、随机误差：那种由与测量目的无关的偶然因素引起的而又不易控制的误差。特点：误差大小、方向变化是随机的；测量结果既无准确性又无一致性。2、系统误差：那种由与测量目的无关的变因引起的一种恒定而有规律的效应，误差稳定存在于每一次

13、测量之中。特点：大小、方向是恒定的；测量结果一致性好准确性差。（系统误差只影响测量的准确性，不影响稳定性（一致性）；而随机误差既影响准确性又影响一致性。）四、误差的来源：1、测量工具方面：题目取样（是否具有代表性）；指导语（是否统一和明确）；难度（难度或大或小都会影响，适中最好）；时限（合理）；测验复本不等值。2、测量对象方面：测验的经验；练习因素；应试动机；测验焦虑（倒u型曲线，中等水平发挥最好）；反应定势、；生理因素。3、施测过程方面：物理环境（灯光、光线、声音.)；主试者方面（年龄、性别、外表.）；意外干扰（停电、噪声、人突然闯入.)；评分计分。五、真分数的含义：1、特质真分数：理论性定

14、义：反映被试某种心理特质真正水平的那个数值。操作性定义：无数次测量结果的平均数。2、特质的观察分数：指实测的分数。当观察分数接近于t分数时，就是说这次测量的误差较小。六、数学模型及其假设：1、经典测验理论（ctt模型）：观察分数x与真分数t之间是一种线性关系，并只差一个随机误差e，x=t+e（x：观察分数；t：真分数；e：随机误差）。2、三个假设公理：若一个人的某种心理特质可以用平行的测验反复测量足够多次，则其观察分数的平均值会接近于真分数。（x）=t。真分数和误差分数之间的相关为零。et=0。各平行测验上的误差分数之间相关为零。e1e2=0。3、推导： = + ，即在一次测量中，被试观察分

15、数的方差等于其真分数方差与误差分数方差之和。 = + + ，即一次测验中，一个团体的实测分数之间的变异性是由与测量目的有关的变异数（）、稳定的但出自无关来源的变异数（）和测量误差的变异数（）所决定的。第四章测量信度一、信度的一般定义：信度指的是测量结果的稳定程度。换句话说若能用同一测量工具反复测量某人的同一种心理特质，则其多次测量的结果间的一致性程度叫信度，也叫测量的可靠性。（可信性、客观性、稳定性、一致性、可靠性）二、信度的等价定义：1、定义一、在测量学中信度被定义为一组测验分数的真变异数与总变异数的比率。（理论上的构想)（注意：信度是非随机误差所占的比率）2、定义二、信度是一个被试

16、团体的真分数与实得分数的相关系数的平方。（理论上的构想)3、定义三：信度是一个测验x（a卷）与它的任意一个任意“平行测验”x（b卷）的相关系数。（实际意义）三、信度的指标：（一）信度系数与信度指数：1、信度系数（相关系数）：在观察分数的变异数中有多少是真分数变异数占得比例。注意在不同情况下对不同样本采用不同方法会得到不同的信度系数，一个测验可能不止一个系数信度系数只是对测验分数不一致性程度的估计并没有指出不一致的原因一个测验只有在很多情况下都被证明具有较高信度时，才可以说是可靠的。2、信度指数：就是指真分数的标准差与实得分数的标准差的比值。（信度是信度指数的平方表示）3、标准误（测验的标准误就

17、是测量误差的标准误）：计算公式：se=sx（se大，信度小；se小，信度大）。四、信度的作用（重点看标准误的计算公式）：1、信度是随机误差大小的反映。2、信度可以用来解释个人测验分数的意义：估计真分数的范围；再测时，观察分数变化的范围。3、信度用来进行不同测验分数的比较。（用差异的标准误来检验差异的显著性）差异的标准误计算公式：sed=五、重测信度（再测法）稳定性系数。1、含义：指用同一个量表对同一组被试施测两次所得的结果的一致性程度。（皮尔逊积差相关公式）2、前提条件：所测特质必须是稳定的遗忘和练习的效果基本上相互抵消在两次施测的间隔期内，被试在所要测查的心里特质方面没有获得更多的学习和训练

18、。3、注意事项：两次测验的时间间隔要适度重测信度适用于速度测验或人格测验，而不适用于难度测验注意提高被试的积极性。4、优缺点：优点：能提供测验结果随时间变化，可作为预测被试将来行为的依据。缺点：易受记忆和练习的影响。六、复本信度（复本法）等值性系数、稳定性与等值性系数。1、含义：指的是两个平行测验测量同一批被试所得的结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。（皮尔逊积差相关公式）2、注意事项：两个测验必须是真正的平行测验。在项目的内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似。换句话说，平行测验就是那种用不

19、同的题目测量同样的内容而其测验结果的平均值和标准差都相同的两个测验。两次测验的时间间隔要适当。3、优点：避免了重测信度易受时间的影响还避免了练习和记忆的影响。缺点：平行测验很难建立只是减少了练习和记忆的影响，不能够完全避免。七、分半信度（分半法)1、含义：指的是将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。2、公式：斯皮尔曼布朗公式弗朗那根公式卢仑公式。3、使用的前提条件：测验必须分成对等的两半。（当一个测验无法分成对等的两半时，分半信度不宜使用。）分半方法不同，分半信度不同。当试卷中存在任选题或是速度测验时，不宜采用分半信度。八、同质性信度内部一致性系数。1、含义：指测

20、验内部所有题目间的一致性程度。（题目间一致性程度含有两层含义：同一种心理特质题目得分之间具有较高的正相关。2、计算公式：库-理信度系数：a、kr20公式（用于0,1计分）b、kr21(当所有题目的难度接近时才适用）克隆巴赫系数（人格测验）：荷伊特信度：九、评分者信度（肯德尔和谐系数）：1、含义：指的是多个评分者给同一批人的答卷进行评分的一致性程度。2、计算：当评分者是2个人时，用皮尔逊积差相关公式。当评分者多于2个人时，肯德尔和谐系数w。当评分者k为3-20人，被评对象（考卷n）为3-7个时，信度是否要求可直接查w表检验。当实际计算的w值大于表中的相应值时，说明评分所得信度较高。如果被评对象

21、多于7人，用卡方值。有相同等级出现，则要使用以下公式。十、影响测量信度的主要因素：（一）被试方面：1、对单个被试而言，被试的身心健康、应试动机、注意力、耐力等都会产生误差。2、就被试团体而言：同质性高（异质性低)，个体之间的差异小，这样得到的信度就越低同质性低（异质性高），信度就越高。（二）主试方面：指导手册（态度、指导语、期望、评分计分）（三）施测情境方面：安静、光线、温度、桌椅（四）测量工具方面：测量长度（测试题目多少）：测量长度越长，信度就越高。测量的难度：过难或过易，使个体得分间的差异变小，信度就越低。（降低信度）中等难度水平。测验的内容（具体题目)：试题取样不当，内部一致性低，或是题

22、意模糊降低信度（五）两次施测的间隔时间：间隔时间短，信度值就越大间隔时间长，信度值就越低。（适中最好）十一、提高测量信度的常用方法：1、适当增加测验的长度（注意：与原有的项目同质必须适度报酬递减规律）2、使测验中所有试题的难度接近正态分布，并控制在中等水平3、努力提高测验试题的区分度4、选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。5、主试者严格执行实测规程，评分者严格按照给分，实测场地按测验手册的要求进行布置，减少无关因素的干扰。（施测情境方面；主试方面；两次施测的间隔时间）十二、各种信度系数的误差来源：（补充）1、再测信度：时间取样。2、复本信度：内容取样（连续施测）；时间取

23、样和内容取样（间隔施测）。3、分半信度：内容取样。4、同质性信度：内容取样和内容的异质性。5、评分者信度：评分者间的差异。十三、关于信度的几点说明：提高测量的方法还有很多，以上只是其中的几种常用方法；本章所讨论的各种信度计算方法仅适用于常模参照参照性测验。其中，分半信度、kr20、kr21和也称为内部一致性信度。（荷伊特信度）关于测量的信度要达到多高才被认为可靠，是一个比较复杂的问题。一般来说，标准化能力或学绩测验信度应在0.90以上，人格测验的信度应在0.80以上，教师自编学绩测验的信度能达到0.60以上。第五章测量效度一、效度的定义：1、一般定义：效度是指一个测验或量表实际能测出其所要

24、测的心理特质的程度。（有效性、可靠性）效度回答的问题：测验测量的是什么？对所要测量的特质、测量的程度多准（程度)。 2、等价定义（测量学中的定义）：在测量学中，效度为一组测量中，与测量目的有关的真实变异数与总变异数（实得变异数）的比率。3、理解效度定义的注意问题：效度是一个相对的概念：a、测量目的；b、心理特质的隐蔽性，效度只是一个相对准确的程度效度是随机误差和系统误差的综合反映判断一个测量是否有效要从多方面搜集证据。二、效度与信度的关系：1、信度高是效度高的必要而非充分条件。(信度高,效度不一定高；效度高,信度必须高）2、测量的效度受它的信度制约。三、内容效度1、含义：一个测验实际测到的内容

25、与所要测量的内容之间的吻合程度2、好的内容效度必备的两个条件：确定内容范围，并使测量的主要项目均在此范围内测验项目应是已界定内容范围代表性样本3、应用范围：适用范围：选拔分类的职业测验、成就测验不适用于人格测验、能力倾向测验4、表面效度：是外行人在表面上看测验是否有效表面效度不是一种效度，但它影响被试的动机，从而影响测验的结果最佳行为测验需要表面效度高，其他测验都希望表面效度低5、确定方法：专家判断法（逻辑分析法）复本法再测法经验法。四、结构效度（构想效度）1、含义：指一个测验实际测到所要测量的理论结构和特质的程度，或说它是指测验分数能够说明心理学理论的某种结构或特质的程度。2、确定方法：（1

26、）测验内法（测验内部寻找证据法）：内容效度：a、专家判断法(逻辑分析法）b、复本法c、再测法d、经验法分析被试的答题的答题过程考查测验的同质性：a、分半法b、克龙巴赫系数（一切）c、荷伊特信度。(2)测验间法（测验之间寻找证据法）：相容效度法：新旧两个测验，测同一种心理特质，r高，证明结构效度就高；区分效度法：新旧两个测验，不同特质，r高，区分效度低，r低，区分效度高；因素效度法：因素分析共同因素上的负荷量。（3）实证效度法（效标关联效度）：相关法区分法命中率法基础率、灵敏度、确认度功利率法。（4）多种特质多种方法矩阵法：相容效度和区分效度综合（综合应用）。（5）因素分析法：探索测验结构或验证

27、测验结构的一种十分有效的方法：探索性因素分析efa验证性因素分析cfa。3、结构效度的确立一般包括3个步骤：提出理论假设，并把这一假设分解成一些细小的纲目，以解释被试在测验上的表现依据理论框架，推演出有关测验成绩的假设用逻辑的和实证的方法来验证假设。五、实证效度（校标关联效度、校标效度）：（一）校标：1、定义：校标是指衡量测验有效的外在标准，它是独立于测验并可以从实践中直接获得我们所感兴趣的行为。2、对定义的理解：校标是反映测验目的的校标必须是独立于测验的作为校标变量可以有很多，可以是连续的，也可以是分类的。3、校标测量（观念校标赋值）：我们所感兴趣的行为往往是一个观念上的东西（观念校标），它

28、必须用一个数字或等级来进行表达（校标测量）同一个观念校标可以有多个校标测量（多样性），而且每一种校标行为往往都是有多种特质构成，因此校标测量是件极为复杂的事（复杂性）。（二）校标效度（实证效度）：1、定义：实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。也就是说，一个测验是否有效，应该以实践的效果作为检验标准。2、实证效度的种类：根据校标资料搜集的时间差异：同时效度：某人具有某种能力吗？某人是精神病吗？预测效度：某人会获得某种能力吗？某人会得精神病吗？。3、同时效度和预测效度的作用：同时效度：是测验取代校标的有效性。预测效度：是测验预测校标的有效性。（三）实证效度的确定方法：

29、1、实证效度的确定步骤：明确观念校标确定校标测量考察测验分数与校标测量的关系。2、实证效度的确定方法：相关法区分法命中率法（计算）：总命中率、正命中率、负命中率基础率、灵敏度、确认度：a、基础率是指符合筛选要求的群体在整个人群总体中所占的比率。b、灵敏度是指所有真正符合要求的人能被测验鉴别出来的人数的比率。c、确认度是指所有不合要求的人能被测验正确淘汰的人数的比率。功利率法。六、效度的应用：1、预测误差：效度系数（rxy）：效度系数的实际意义常常以决定系数来表示，决定系数是效度系数的平方，它表示测验正确预测或解释的校标的方差占总方差的比率。标准误（sest）：它是指所具有某一测验分数的受测者，

30、其校标分数（y)分布的标准差，也是预测误差大小的估计值，是对真正分数（t分数）估计的误差大小。sest=sy 2、预测校标分数：回归方程：y=a+byx.x( )可信区间(置信区间）：预测效率指数（e）：e=（1-k）*100。七、提高测量效度的方法：（一）影响测量效度的因素：效度是测量的随机误差和系统误差的综合反映。测验的构成测验的实施过程接受测验的被试所选校标的性质测量的信度。（二）提高测量效度的方法：精心编制测验量表，避免出现较大的系统误差妥善组织测验，控制随机误差创设标准的应试情境，让每个被试都能发挥正常的水平选好正确的校标，定好恰当的校标测量，正确地使用有关公式。八、几种效度的总结

31、：1、效度研究问题：测量是什么测量程度。2、测验有多种效度评估方法来证明该测验有效，但不同的测验会偏重于某种测量效果。（学绩测验内容效度；人格测验结构效度、实证效度）。3、效度均是在测验编制和应用之后求出的。4、内容效度验证的重点是确定测试内容与某个行为领域的一一对应关系结构效度验证的重点是测验本身，测验赖于编制起来的心理结构理论和测验测量到的该理论结构或性质的能力实证效度验证的重点是测验分数(x)是否与效标测量（y）有高度相关，也就是说，它注重的不是预测变量，而是效标测量。第六章测验的项目分析一、难度的意义：1、定义：难度（p 易度）：是指测验项目的难易程度。2、难度的大小的影响因素：本身

32、的难度测验的编制技术有关和被试的知识经验有关。二、项目难度的计算：1、二分法记分的项目：（是非题、选择题）通过率：p=r/n*100%，p：项目的通过率，r：答对或通过该项目的人数，n：全体被试人数。极端分组法：（被试人数较多时）p= ph +pl/2，ph、pl分别为高分组与低分组的通过率。选择题的难度修正：吉尔福德 cp=(kp-1)/(k-1)，cp：为校正后的通过率，p：为实际得到的通过率，k：为备选答案的数目。例：假定某一选择题有75%的被试通过，如果该题有5 个备选答案，则该题的实际难度：cp=(kp-1)/(k-1)，cp =(50.75-1)/(5-1)=0.69 。同样可以

33、得知：当有4个备选答案时：cp =0.67；有3个备选答案时：cp =0.63；有2个备选答案时(是非题)，cp =0.50。当每个试题备选答案的数目不同，而且比较它们的难度时，用校正后的通过率公式cp =(kp-1)/(k-1)比较合理。2、非二分法记分的项目：适用条件：当测验项目为问答题，或论述题，论文题时。公式：p=x/xmax100%，x：为全体被试在某一项目上的平均分，xmax为该项目的满分。三、测验难度水平的确定：项目的难度，取决于测验的目的、性质以及项目的形式。1、测验的目的是为了了解被试在某方面的知识技能的掌握情况，可以不必过多的考虑难度。2、测验的目的是为较准确地测量个体间的

34、差异，选择接近中等难度的项目为好。3、当测验应用于选拔人员时，项目的难度控制在接近录取率左右。四、难度的等距变换：1、以项目通过率来表示题目的难度，虽然计算简便，易于理解，但这类难度指标属于顺序变量，不具有相等的单位，所以指出的仅仅是项目的相对难度。2、通过率p无法指出难度差异大小，可见顺序性这一点，对我们作进一步的难度分析带来困难，必须设计将它转化成等距量表。当样本容量很大时，测验分数接近正态分布。此时，我们可以根据正态分布曲线表，将试题难度p作为正态曲线下的面积，转换成具有相等单位的等距量数，即z分数。 z分数有小数点和负值，通常需要转换成另一种单位的等距量表，其中较为常用的是美国教育测

35、验服务中心采用的难度指标：(ets)=13+4z，表示题目难度，z表示由p转换得来的标准分数。3、根据正态分布表可以知道，是以25为上限(即z=3)，1为下限的等距量表。值愈大，则难度愈大，值愈小，难度愈低。五、难度对测验的影响：测验难度影响测验分数的分布形态；测验的难度直接依赖与组成测验的项目难度（取决于测验的目的、性质及项目的形式）；通过考察测验分数的分布，可以对测验的难度做出直观的分析。六、区分度的意义：1.定义：区分度（d）是指测验项目对被试心理品质水平差异（心理特性）的区分能力。2.区分度（d）的取值范围：范围介于 -1.00至1.00之间。通常d为正值，称为积极区分，d为负值为消极

36、区分；d为0称作无区分作用。具有积极区分作用的项目，其d值越大，区分的效果越好。七、区分度计算：1、（名词解释）鉴别指数法（d）：是表示/衡量测验项目区分度大小的指标。适合于二分法记分的测验项目，是比较测验总分高和总分低的两组被试在项目通过率上的差别。d值越大，项目的区分度越高，即项目越有效。d=phpl，ph为高分组在某项目上的通过率；pl 为低分组在该项目上的通过率，二者通过率之差为鉴别指数d。项目鉴别指数与评价标准如下：美国测验专家伊贝尔（l.ebel）鉴别指数（d）项目评价 0.40以上很好 0.300.39 良好，修改后会更佳 0.200.29 尚可，但需修改 0.19以下

37、差，必须淘汰2、相关法：计算区分度最常用的方法。以某一项目分数与效标分数或测验总分的相关作为该项目区分度的指标，相关越高，项目区分度越高。（1）二列相关（双列相关）（选择题）：适用条件：两个连续变量其中一个变量被人为的分成两类二分变量在人为二分前的测量必须是正态分布。a.当一个测验的题目分数是连续的，而效标分数或测验总分被分为及格或不及格两类时，或高和低两类时，可用二列相关法；b.测验的效标或测验总分是连续的，而项目分数被人为的分为对、错或通过、不通过两类，也可用二列相关法。（2）点二列相关：适用条件：一个变量为连续变量另一个变量为二分变量（或双峰分布）的数据资料采用0，1记分。（3）相关

38、：相关的统计方法适用于两个变量是二点分配的资料，即两个变量都是二分名义变量。（4）积差相关：论文题连续的。八、区分度与难度的关系：区分度与难度有密切关系：1、难度越接近0.50，项目的潜在区分度越大，难度越接近1.00或0时，项目的潜在区分度越小。（倒u曲线） d的最大值与项目难度的关系项目通过率 d的最大值 1.00 0 0.90 0.20 0.70 0.60 0.50 1.00 0.30 0.60 0.10 0.20 0 02、在实际编制测验时，不能要求所有项目的难度均为0.50，而是使整个测验的难度分布是正态分布，且平均水平保持在0.50左右。3、难度和区分度都是相对的，是针对一定团体

39、而言的，绝对的难度和区分度是不存在的。一般说来，较难的项目对高水平被试区分度高，较易的项目对水平低的被试区分度高，中等难度的项目对中等水平的被试区分度高，这与中等难度的项目的区分度最高的说法并不矛盾。第七章测验常模一、分数的转换：（一）概念：1.原始分数：记分标准。2.导出分数：在原始分数转换的基础上，按照一定的规则，经过统计处理后获取的具有一定参照点和单位，且可以相互比较的分数（百分等级、标准分数、t分数）。3、分数转换。（二）几种常见的导出分数：1.百分等级分数：应用最广泛的导出分数。（1）定义：在一个群体测验中，得分低于这个分数的人数的百分比。（2）对百分等级分数的评价：优点：容易

40、计算，容易理解；普遍适用。缺点：缺少相等单位，属于顺序量表百分等级的分布呈长方形，而测验分数的分布通常趋于常态曲线，中间密集，两端分散。因而，接近中数或分配中间的原始分数的差异在转换成百分等级时往往被夸大，而接近分数两端的原始分数的差异转换成百分等级后则被大大缩小。（3）计算：未分组分数资料：pr=100- （pr为百分等级，r为排列顺序的序号，n为被试的总人数）分组分数资料：（被试团体较大） pr= （ x为被试原始分数，l为x所在组下限，f为x所在组的次数，fb为x所在组以下各组次数之和，i为组距，n为被试的总人数。）2.标准分数：（1）定义：是将原始分数与平均数的距离以标准差为单位表示出

41、来得量表，因为它的基本单位是标准差，所以叫标准分数。（2）计算公式：z= （z：标准分数， x：原始分数；：团体所有被试的原始分数的平均数； s ：原始分数的标准差。）（3）性质：z分数是以一批分数的平均数为参照点，以标准差为单位的等距量表标准分数的平均数为0，标准差为1，所以可以利用z分数对不同测验分数进行比较由于标准分数是等距量表，可以做代数运算标准分数与原始分数呈线性关系标准分数的绝对值表示原始分数距离平均数的距离，正负号表示原始分数处于平均数之上或之下当原始分数呈常态分布时，标准分数的范围大约在-3到3之间。（4）常态化标准分数（正态化标准分数）：原始分数百分等级标准分数。前提：所测

42、特质的分数在实际上应该是常态分布。（5）标准分数的变式：t分数：t10z+50 其他形式：通式为：z=az+ b，z为由z导出的导出分数；a、b为任意常数。a.美国大学入学考试委员会使用的标准分数，即ceeb分数。公式：ceeb分数100z+500，平均分数为500，标准差为100。b.韦氏智力测验采用的离差智商。公式:iq15z+100，iq的平均数为100，标准差为15。c.我国一种赴英国人员英语水平考试即ept所使用的分数。公式：ept分数20z+90，平均数为90，标准差为20。3、标准九分数：是将原始分数分成几个部分的标准分数系统。若原始分数服从正态分布，它是以0.5个标准差为单位，

43、将正态曲线下的横轴分为九段，最高一端为9分，最低一端为1分，中间一段为5分，除两端（1分，9分）外，每段均有半个标准差宽。标准九分与正态分布的对应关系如下：标准九分本段变积累加变积本段中值与平均数的距离9 4 100 大于2.08 7 96 1.57 12 89 1.06 17 77 0.55 20 60 0.04 17 40 0.53 12 23 1.02 7 11 1.51 4 4 大于2.0二、分数的合成：（一）分数合成的种类：1、项目的组合2、分测验或量表的组合3、测验或预测源的组合。（二）分数合成的问题：1、采用什么方法来合成分数？2、什么形式是最适合的分数合成？3、需要多少个

44、测验才是最恰当的分数组合？。（三）分数合成的方法（什么样的材料采用什么样的方法合成）。1、临床诊断直觉合成（校标特别明确不适宜用）：定义：根据直觉经验，主观地将各种因素组合以得出结论或预测的方法。适用条件：任何种类资任何形式的输出方式。效度指标：正确决定的数目（准确率）。优点：具有高度变形性质（综合性）；具有灵活的针对性。缺点：受判断者偏见的影响，不够客观；没有精确的数量指标；判断者需要受过训练并具有丰富经验。2、加权求和合成法（推理法）：（1）定义：根据某种先验的理想程序来做推论性加权、单位加权、等量加权、差异加权。（2）适用条件：各个测验所测特质间有相互代偿作用定量连续性的资料资料大体同时

45、获得。（3）效度指标：预测正确性。（4）优点：解释方便；缺点：等量加权和差异加权应用较复杂分数合成，其推论逻辑基于主观假设，而不是经验事实。3、多重回归：（1）定义：（利用测验结果对预测效标进行估计）就是研究一种事物或现象与其他多种事物或现象，在数量上相互联系和制约的统计方法。（2）适用条件：所测特质间有相互代偿性输入资料是连续的预测源与效标之间成线性关系输出的结果有两项：a.回归方程式以指出各个预测源的加权。b.复相关系数r表示预测源（当作一个合成体）与效标测量间的相关。（3）效度指标：多重相关系数r或r2命中率（用于分类或安置问题时）。（4）优点：可导出每个人的预测效标分数有利于选拔具有不

46、同专业的人才。缺点：对输入资料要求严格，操作较复杂。（渐进效度：（名词解释）指测验对于总测验效度的增益程度。）4、多重分段：（1）定义：把受测者达到最低标准（接受）与未达到最低标准（拒绝）两类，而不是在这两组人内部进行区分，综合分段，连续栅栏。（2）适用条件：各个测验所测特质之间不具备互偿性资料可以是连续的也可以是不连续的输出资料的方式分为接受或不接受两类。（3）效度指标：命中率。（4）优点：对输入资料要求不苛刻没有过高的限制容易操作解释方便。考虑功力率问题又很大优越性。缺点：是分类而非连续的测量，失去了精确性无法提供必要的信息，选出最有可能成功的人。三、常模团体：1、定义：具有某种共同特征

47、的人所组成的一个群体或是该群体的一个样本。2、确定常模团体的注意事项（常模团体的确定条件）：群体构成的界限必须明确常模团体必须是所测群体的一个代表性样本取样过程必须明确且有详尽的描述样本大小要适当常模团体必须是近时的注意一般常模与特殊常模的结合。四、常模：1、定义：常模团体的分数分布就是常模。（主要参数：平均数、标准差）2、常模的制定：确定有关的比较团体（确定常模团体）获得常模团体的分数分布测验分数（原始分数）导出分数、转换表（常模）五、几种主要的常模参照分数：（一）发展常模表：1、发展量表：年龄常模（年龄当量、心理年龄、智力年龄）：最直观的发展常模是年龄当量年纪常模（年纪当量）。2、商数：比

48、率商数教育商数成就商数。（二）组内常模表：1、百分等级常模：原始分数百分等级分数。2、标准分数常模六、常模资料的呈现形式：1、报告参数；2、转化表：简单转化表、复杂转化表；3、剖析图。第八章心理与教育测量的编制与实施（15分）一、编制心理与教育测验的基本程序：1、确定测验目的：明确测量对象；明确测量目标；明确测量用途。2、制定编题计划。3、编辑测验项目。4、预测与项目分析。5、合成测验：两种常见的测验项目排列方式：并列直进式、混合螺旋式。6、测验标准化：（简答题）（1）定义：（名词解释）所谓标准化是指测验的编制、施测、评分以及解释测验分数的程序的一致性。（2）测量标准化的主要内容：测量内容

49、：标准化的首要前提，是对所有受测者施测相同的或等值的题目，测量内容不同，所测得结果就无法进行比较。施测过程：标准化的第二个条件是对所有受测者必须在相同的条件下施测。包括：相同的测验情境；相同的指导语；相同的测验时限。测验评分：评分的客观性是标准化的第三个条件，评分的客观性意味着两个或两个以上的评分者对同一份测验试卷的评定是一致的。一般来说，不同评分者之间的一致性达到90%以上便可认为评分是客观的。测验分数的解释：对某一受测者分数的解释要与这一受测者所属团体的常模作比较，才能说明该受测者分数所代表的意义。7、鉴定测验。8、编写测验说明书：本测验的目的与功用本测验的理论依据实施测验的方法：包括何种

50、测验、内分几部分、每部分有多少个测验项目、答案如何做等等。测验的标准答案和评分方法关于测验的信度、效度资料的说明常模表，即如何依据常模解释测验结果。二、测验的实施过程：在施测过程中，施测者应当了解哪些因素会影响测验分数，并进一步对这些因素进行适当的控制。1、施测前的准备工作：准备好测验材料熟练掌握施测手续，训练内容包括：熟悉测验内容、掌握施测步骤、掌握计分方法、掌握解释分数的技术熟练使用测验指导语。2、指导语：心理测验的指导语通常包括对测验目的的说明和对题目反应方式的解释。指导语直接影响受测者反映的态度和方法指导语的作用是使受试者按正确形式对题目做出反应一般的能力测验和成就测验都要求有标准时间

51、限制，因为速度是能力测量中的一个重要因素，而人格测验和态度测验一般不要求有时间限制。3、测验情境：测验场地（通风、光线、噪音）；座位；答案纸型以及施测者的特征（行为、年龄、性别、表情）等务必不能有外界干扰施测者的态度对测验分数也有影响，施测者的微笑、点头，或说暗示的语言要严格控制。4、测验焦虑：测验焦虑是指被试因接受测验而产生的一种忧虑和紧张情绪，它会影响测验结果的真实性在测验时，应注意稳定被试的情绪，主试有时可以利用保证测验结果绝对保密或鼓励被试等方法来消除测验焦虑心理学证实：能力与测验焦虑呈负相关，亦即能力愈高的人，测验焦虑愈低；抱负水平与焦虑呈正相关。也即越渴望得高分，测验焦虑越高；竞争

52、性测验的测验焦虑高，经常接受测验的人焦虑低一些；轻微的测验焦虑会增强测验效果，但焦虑太高或毫无测验焦虑，则会降低测验效果主试的以下态度要避免：以测验来威胁被试，以使被试循规蹈矩；警告被试一定要尽力，因为“这测验很重要”；告诉被试答题要快，只有这样才能在规定的时间内答完所有题；恐吓被试说“如果测验失败，会有严重的不良后果”5、与受测者建立良好的协调关系：在测验学龄前儿童、小学一、二年级甚至三年级的小学生时，施测者保持友好、愉快、放松的自然态度，不能操之过急，匆忙示范，宁可等待儿童到他愿意接触时再开始。测验要像玩游戏一样。再大一点的学生通过竞赛精神可激发他们其做好测验。6、评分技术三、测验分数的解

53、释（简答、论述）（一）如何看待测验分数的意义：1、一个测验结果的解释必须对所做的具体测验要熟悉了解对受测者的情况也要有所了解还必须结合当时测验的具体情况，如是否有干扰，受测者当时有无情绪波动或身体不适等。2、解释测验分数意义遵循的基本原则：主试应充分了解测验的性质与功能对导致测验结果的原因的解释应慎重，谨防片面极端。遗传特征、测验前的学习、经验、测验情境的函数这三方面对测验成绩有影响。必须充分估计测验的常模和效度的局限性解释分数应参考其他有关资料。对测验分数应以“一段分数”来解释，而不应以“特定的数值”来解释。对来自不同测验的分数不能直接加以比较。（二）如何向受测者报告测验分数的原则：使用当事

54、人所理解的语言保证当事人知道这个测验测量或其预测什么告诉当事人分数解释的参照体告诉当事人分数不是一个精确的值分数只是决策的依据，而不是决策本身充分估计分数可能给当事人造成的影响测验结果应向无关的人员保密对低分者的解释应谨慎小心提供适当的引导和咨询服务。第九章测验等值一、定义：将不同测验（考察同一特质）上的分数（特质水平值）和项目（试题）参数做出单位系统转换，从而使之能相互比较的过程，叫做测验等值（test equating）。二、测验等值的实质：本质上说，测验等值是通过对考核同一种心理品质的多个测验形式做出测量分数系统转换，进而使这些不同测验形式的测验分数之间具有可比性。1、测验等值中说的测量分数系统的转换与测验原始分数及导出分数之间的转换是不相同的。等值转换的目的：是为了比较两个不同测验形式之间的实测分数，导出分数转换是为了将一个实测分数转换到一个可评价个体相对位置的分数系统上去。2、寻找测验等值关系与寻找两测验之间预测关系也是不相同的。三、测验等值的条件：（选择题）1、同质性：要求等值的两个测验必须是测量同一心理特质的。例：很难想象可以把数学测验的分数等值转换成语文测验的分数，但数学测验分数却可能等值转换成另一次内容难度近似的数学测验分数。 2、等信度：

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

心理与教育测量

文档简介

温馨提示

最新文档

评论

心理与教育测量

文档简介

温馨提示

最新文档

评论

相关文档