心理测量学(基础知识)PPT课件.ppt_第1页
心理测量学(基础知识)PPT课件.ppt_第2页
心理测量学(基础知识)PPT课件.ppt_第3页
心理测量学(基础知识)PPT课件.ppt_第4页
心理测量学(基础知识)PPT课件.ppt_第5页
已阅读5页,还剩144页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 心理测量学 基础知识部分 心理咨询师培训课程 1 7 2020 2 上篇 什么是心理测量学 心理测量起于行为主义盛行的时代 人的心理在相当程度上被看成是与一般动物的心理活动有同样的本质 所以是可以操控和测量的 但是我们今天看到 隐秘 深邃 有限而又无限 社会文化使得人类个体的行为远离动物行为的刻板模式 更具有随机性而似乎不可确定 还是可以测量的吗 是的 可以 言必由衷 行必有因 言与行提供了人类心灵评估的标尺 基于此 心理测量依然成为当代心理学工作者的有效技术了 返回首页 1 7 2020 3 目录 第一节概述第二节心理测验的常模第三节心理测验的信度第四节心理测验的效度第五节心理测验的项目分析第六节心理测验的编制程序第七节心理测验的使用 退出 1 7 2020 4 第一节心理测量学概述 心理测量学是心理学的基本方法学课程之一 它主要讨论如何借助于标准化的心理测量工具 心理测验对个体的心理特征或心理状态进行评估 并将其数量化的过程 因此 它基本的和重点的内容在于心理测验的编制方法 质量评估 实际应用和结果解释 以及经典测验的介绍和使用 1 7 2020 5 一心理测量的涵义 要素与量表 1 心理测量及其构成元素 事物总在不断地运动变化 而其运动变化表现为多种属性在质或量上的改变 这些可变的事物的属性叫变量 利用一定的规则 方法或工具 使事物的属性数量化 即确定一系列事物的属性值 就叫测量 其构成元素有 事物 即事物的属性 规则 数字 规则 则是指这一过程具有科学依据 确定的程序和量化的标准 数字 一般具有 同一性或区分性 等级性或位次性 等距性 可加性 当被测量的变量是反映心理活动的属性或特征时 这种测量就叫心理测量 如 记忆力测量 气质类型测量 焦虑水平测量等 P348 1 7 2020 6 2 心理测量的基本要素 测量有两个基本要素 参照点和单位 其中参照点是测量过程计算量的起点 包括绝对和相对参照点 绝对参照点就是绝对零点 相对参照点则根据情境来人为规定 也叫相对零点 单位是测量中的等值单元 它必须具备两个条件 有确定的意义 有相同的价值 就心理测量来说 第一 测量中几乎没有绝对零点 大多是以相对零点来计算的 第二 测量中很少有相等单位 所以在对测量值进行解释时更多看其相对意义 或将测量结果等值转换形成相等单位 当然 心理测量常以行为测量来完成 而行为测量中是可以有绝对零点和相等单位的 如学习能力无绝对零点 但考试成绩有零分 P349 1 7 2020 7 3 测量量表及其种类 如将事物某一属性的可能取值全部列出并按其相对位置排列 就构成了一个测量标尺 这一标尺就叫测量量表 measurescale 按照测量量表是否具有绝对零点 相等单位 以及测量所得数值的对比关系 我们可以将测量量表划分为四种 1 命名量表 也叫称名量表 2 顺序量表 也叫等级量表 3 等距量表 4 等比量表这里需要注意 1 各种量表值的意义 2 各种量表的量化水平 3 各种量表测量值允许的运算 加 减 乘 除 4 心理测量大多是在顺序量表上进行的 P349 1 7 2020 8 能够用来完成心理测量的标准化工具或程序叫心理测验 也叫心理量表 定义 心理学家依据一定心理学理论和系统观察 取样 而精心编制的一系列刺激项目及其标准化形式 就叫心理测验 心理测量就是心理测验的使用过程 它是收集个体对这一系列刺激项目的反应资料 进而对其心理特征 能力及其他心理结构进行评定的过程 所以从某种意义上说 心理测量就是从人的众多相关行为中进行取样 然后由这一行为样本推断其心理品质或心理状态 二 心理测验的基本概念 1 什么叫做心理测验 P350 1 7 2020 9 为理解心理测验 再强调三点 第一 心理测验所提供的是一系列刺激项目 借此收集被试对这些刺激的反应资料 所以心理测验实际上是进行行为取样的过程 为使收集来的行为资料意义较确定 测验项目应具体 直接 语义单一 尽量不使用含糊 抽象和有较大不确定性的问题 第二 测验不需要涉及某类行为的所有方面 而要有所选择 即要进行行为取样 选取那些能有效反映所想要测量的心理特征或倾向 第三 测验应是标准化的 即其编制 施用 评分和结果解释都必须按照系统程序和科学化的规则来进行 P350 1 7 2020 10 心理测验的三要素 第一 行为样组 心理测量是通过个体一组相关的行为测量间接完成的 所以其成功与否 或准确性高低 取决于心理测验中的行为取样的有效性 第二 标准化 心理测量更看重个体间测量结果的比较关系 为了使得测量结果具有可比性 心理测验必须标准化 第三 客观性 客观性是指测量结果较少受到主观的 其他偶然因素影响 而获得可靠结果 进行良好的行为取样和进行标准化 都是为了保证测量结果的客观性 P350 1 7 2020 11 心理测验的特点决定了心理测量的性质 第一 因为心理测验提供的是一个刺激序列 使用测验所获得的是人对这一刺激系列的反应资料 然后再推断其内在的心理特质 所以心理测量具有间接性 第二 针对测验的刺激项目 我们获得的主要是被试对刺激的反应倾向或反应强度 不具有绝对零点和绝对意义 只具有相对意义 所以心理测量具有相对性 第三 测验中的项目选择 施测程序 结果的分析与解释均是经过标准化的 这决定了心理测量具有相对的可靠性 即具有客观性 P351 1 7 2020 12 2 心理测验的分类 按测验的功能或目标不同 智力测验 特殊能力测验 人格测验按测验材料的性质不同 文字测验 操作测验按测验材料的严谨程度不同 客观测验 投射测验按测验的方式不同 个别测验 团体测验按测验对被试要求的不同 最高作为测验 典型行为测验按测验的目的不同 描述性测验 诊断性测验 预测性测验 P353 1 7 2020 13 三 如何看待心理测验 第一 万能论 心理测验测验完美无缺 可以解决一切问题 第二 无用论 侵犯隐私 违背民主原则 种族歧视 宿命论等 第三 心理测验就是智力测验 心理测验 智力测验 智商 遗传决定论 错误看法 P351 1 7 2020 14 正确看法 第一 心理测验是心理学研究和实际工作中的有效工具 可以帮助人们收集有关人的心理特征 心理状态的资料 获得对人的心理活动规律性的认知和进行科学决策 第二 心理测验作为研究方法和测量工具 尚不完善 其使用中会带来系统的和随机的误差 所以可信但不能全信 可靠但不是绝对可靠的 无用论 和 万能论 都是错误的 第三 心理测验不等于智力测验 更不能说成是 遗传决定论 P351 1 7 2020 15 四 心理测验在心理咨询中的应用 1 心理测验与心理咨询的关系 心理测验对心理咨询的影响 1 提供关于个体心理特质 心理状态 心理发展的客观资料 为教育心理咨询 发展预测咨询 职业指导提供依据 2 作为诊断 甄别与疗效评估的工具 使心理咨询具有更高的操作性 针对性和有效性 3 巧妙使用 可以作为心理咨询与治疗的手段之一 达到意想不到的效果 心理咨询对心理测验的影响 1 心理咨询与治疗实践的需要直接刺激和推动了心理测验的发展 2 心理咨询与治疗过程获得的资料丰富和推动了心理学理论和测验技术的完善与发展 P355 1 7 2020 16 2 我国心理咨询中运用较多的心理测验 1 智力测验 比奈智力测验 韦克斯勒智力测验 瑞文标准推理测验等 测查智力发展水平或进行智障诊断 2 人格测验 艾森克人格问卷 EPQ 卡特尔16种人格因素问卷 16PF 明尼苏达多项人格调查表 MMPI 等 这些测验可以达到了解 诊断和预测的目的 3 心理评定量表 精神病评定量表 躁狂状态评定量表 抑郁量表 恐怖量表等 这些测验主要用来进行临床诊断和疗效评估 P355 1 7 2020 17 五 心理测验的发展简史 1 现代心理测验的开始 1 英国的高尔顿 F Galton 受达尔文进化论的影响 最早关注个体气质特点与智能差异 即个性差异 为了研究差异的遗传性 设计了差异测量的方法 这可被看作是心理测验的开端 高尔顿提出相关的概念 并由他的学生皮尔逊 K Pearson 发展出积差相关 为心理测验奠定了统计学基础 使心理测验的信度 效度评估和进行因素分析成为可能 其实际测量集中在1884后的6年 波林 在测验领域 19世纪80年代是高尔顿的10年 90年代是卡特尔的10年 20世纪头10年则是比内的10年 P357 1 7 2020 18 2 心理测验的概念和标准化思想的提出 美国著名心理学家卡特尔 JamesM Cattell 于1890年在 心理 杂志上发表 心理测验与测量 首次正式提出 心理测验 mentaltest 的概念 并强调了心理测验标准化 制订常模的重要性 P357 1 7 2020 19 3 世界上第一个正式的心理测验 1904年 法国公共教育部成立了一个专门研究学习落后儿童教育方法的委员会 比奈 A Binet 成为该委员会成员 他开始着手制订有效方法来甄别学校中那些学习成绩差者 哪些是由于智力落后造成的 在西蒙 T Simon 医生协助下 比奈于次年发表 诊断异常儿童智力的新方法 公布一个由30个项目组成的粗略量表 这就是第一个正式的智力测验 被称为比奈 西蒙智力测验 比内在1908年发表修订版测验时 第一次使用了心理年龄 mentalage 简称MA 的概念 P358 1 7 2020 20 比奈智力量表后传到美国 经斯坦福大学的推孟 Terman 教授修订于1916年发表了被广泛使用的智力测验 即斯坦福 比奈智力量表 该量表第一次提出了智力商数的概念 简称智商 intelligenceratio 简称IQ 比内的主要工作从1898年发表 人格心理学中的测量 提出许多测验开始直至1911年去世 去世当年发表了他的智力测验的第二次修订版 P358 1 7 2020 21 2 现代心理测验的发展 1 操作测验的发展 比奈 西蒙量表以言语测验为主 制约了对整体智力的测验和测验向某些人群的推广 于是出现操作性测验 2 团体智力测验的发展 第一次世界大战之前 主要是属于个人测验 后因战争需要 团体智力测验迅速发展 3 能力倾向测验的发展 20世纪30年代 因素分析技术使智力结构理论迅速发展 促进了智力测验 特别是能力倾向测验的发展 4 人格测验的发展 20世纪40年代 由于社会动荡 人格障碍成为社会生活中的突出问题 这推动了人格理论的繁荣和发展 也进而推动了人格测验的发展 P358 1 7 2020 22 3 现代心理测验在中国的发展 在20世纪二三十年代 我国早期心理学家进行了比奈智力量表的引进和修订工作 陈鹤琴等著名心理学家进行了大量教育心理的测验和研究工作 后因抗战爆发 测验工作处于停滞 建国后的最初几年 心理测验也得到发展 但后因学习苏联批判儿童学 连带儿童学的研究方法 心理测验也受到批判 进入20世纪80年代后 我国的心理测验得到顺利发展 主要进行了智力与人格量表的引进和修订 近年 主要致力于测验的本土化工作 编制适合于我国文化背景的智力测验 适应行为量表等 P358 1 7 2020 23 1 用心理量表将心理现象数量化的方法是 A 个案法B 会谈法C 观察法D 测量法2 测量的二要素是 A 行为样组B 参照点C 客观性D 标准化E 单位3 测量结果可以进行加减乘除运算的量表是 A 命名量表B 顺序量表C 等距量表D 等比量表4 心理测验的要素是 A 行为样组B 参照点C 客观性D 标准化E 单位5 心理测验或心理测量的性质包括 A 神秘性B 间接性C 准确性D 客观性E 相对性 返回目录 本节学习检测题 1 7 2020 24 6 按测验的功能或目标分类 心理测验包括 A 个人测验B 智力测验C 文字测验D 特殊能力测验E 人格测验7 下列有关心理测验性质的描述哪项是正确的 A 心理测验可以直接反映心理品质的量B 心理测验分数是心理品质的相对估计C 心理测验分数是绝对客观的 没有主观因素参与D 如果两个人的测验分数相等 那么他们的心理品质也完全相同8 根据测验目的 可将心理测验划分为预测性 诊断性和 等形式 A 文字性B 非文字性C 计划性D 描述性9 我国心理门诊运用较多的心理测验主要有 A 智力测验B 管理能力测验C 人格测验D 心理评定量表E 团体智力测验 返回目录 1 7 2020 25 10 最早关注个别差异测量并提出相关概念的学者是 A 高尔顿B 卡特尔C 比内D 推孟11 最早提出 心理测验 概念 并强调要建立常模的学者是 A 高尔顿B 卡特尔C 比内D 推孟12 完成了第一个正式心理测验编制的学者是 A 高尔顿B 卡特尔C 比内D 推孟13 最早使用智力商数概念的学者是 A 高尔顿B 卡特尔C 比内D 推孟14 在比 西测验问世后 心理测验的主要发展为 A 操作测验的发展B 团体测验的发展C 能力倾向测验的发展D 人格测验的发展 返回目录 1 7 2020 26 第二节测验的常模 常模 就是常定模具 是衡量被试分数相对高低的固定对照 模板 它由 原始分 与 导出分 组成 实际上就是 测验所得原始分 与 在相应人群中该分排位的等级 的对照表 导出分也叫常模分 是根据常模样本施测的分数计算出来的 然后就成为评估被试测验分数的标准或基础 导出分是具有参照点和单位的一个意义明显的测验量表 是一个排位值 当被试参加测验 得到了原始分数之后 与常模对照 即可得到排位分 一 常模与常模分数 1 7 2020 27 二 常模团体及其测量分数的转换 1 什么叫做常模团体 常模团体是具有某种共同特征的人组成的一个群体 或者是该群体的一个代表性样本 确定常模团体的方法是 先由测验将要施测的对象确定一般总体 然后根据常模拟适用的范围确定目标总体 再从目标总体中抽取一代表性样本 就形成了一个常模团体 就一个测验 可以根据被试特征的不同选择出多个不同的常模团体 制订出多个常模 以适用于对不同被试的测量与评估 一 常模团体 P360 1 7 2020 28 2 常模团体的条件 适合于选用的常模团体必须符合下列条件 1 所测群体的构成必须是界定明确的 2 常模团体必须是所测群体的代表性样本 以保证分数的分布特征与目标总体一致 3 样本大小要适当 样本大小的关键是看其是否具有代表性 总体小 只有几十人 则需100 的样本 总体大 样本也要大 一般不少于30或100人 全国性常模 一般应有2000 3000人为宜 4 具有时空的新近性 P360 1 7 2020 29 3 常模团体的取样方法 取样就是从目标总体中抽取有代表性的样本 其方法包括概率性抽样和非概率性抽样两类 具体做法有 1 简单随机抽样 2 系统随机抽样 3 分组抽样 4 分层抽样 5 整群随机抽样 P361 1 7 2020 30 4 常模团体的抽样误差 略 我们期望常模团体能完全代表总体 即常模团体测验得分的平均分及其分布状态与所在总体完全重合 但实际上很难做到 在抽样过程中会产生误差 当这种误差一旦出现 就会成为一个常模中的系统误差 所以有必要对该误差大小进行估计 以便能估计出使用这个常模来评定被试成绩时可能产生的误差范围 统计学使用标准误来估计抽样误差 它与被试异质性成正比 与样本容量的平方根成反比 即 1 7 2020 31 试比较下列两组数据 1 7 2020 32 二 常模团体分数的转换 常模团体的被试均按标准程序参加测验 就可以得到每个被试的测验分数 将这些分数按大小顺序排列 就可以得到一个分数分布表 一系列排位等级 由此可确定各种等级位数和标准分数 百分等级 百分点 百分位数 十分位数 四分位数 标准分等 有了上述排位值或标准分 就可以找到某一被试测验分数的相对排位 这种排位值就是常模分数 P361 1 7 2020 33 返回目录 1 7 2020 34 三 常模的类型 1 发展常模 年龄量表 1 发展顺序量表 发展顺序量表 就是对正常儿童样本的心理或行为能力的发展顺序进行观测 并制订出各种发展水平与年龄的对照表 这种对照表就是发展顺序量表 它可以提供给人们的是关于各年龄正常儿童所具有的能力或行为方式 它是最直观的发展常模 最早的范例是葛塞尔发展顺序量表 P363 1 7 2020 35 葛塞尔发展程序表 葛塞尔发展程序表是按月份显示儿童在运动水平 适应性 语言 社会性四方面大致的发展水平 他强调儿童发展的规律性 顺序性 具体如 4周 能控制眼睛运动 去追随一个对象 16周 能使头保持平衡 28周 能用手抓握东西 并摆玩它 40周 能控制躯干 坐立或爬行 52周 能控制腿脚运动 站立或行走 P363 1 7 2020 36 皮亚杰关于儿童发展的研究 皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展 尤其注重某些特殊概念的形成 其中最著名的工作就是对 守恒 概念的研究 他发现 儿童不同时期出现不同的守恒概念 5岁时出现质量守恒概念 6岁时出现重量守恒概念 7岁时出现容量守恒概念 P363 1 7 2020 37 2 智力年龄 比奈 西蒙智力测验最先使用了智力年龄的概念 这个量表实际上是一个智力发展的年龄量表 根据儿童所能完成的题目处在哪一年龄 就把这一年龄称为他的智力年龄 简称智龄 IA 在吴天敏修订的比奈智力量表中 每个年龄有六个题目 所以每完成一个题目相当于智龄两个月 这些题目的难度是呈梯级增加的 这样可以根据被试完成的题数确定其智龄 P363 1 7 2020 38 3 年级当量 年级当量就是年级量表 测验结果说明被试的能力或学绩达到了哪一年级的水平 年级量表的单位通常为10个月 4 5的年级当量代表的是第4年级中的第5个月水平或说中间水平 而不是指4 5年级的平均水平 7 3代表的是7年级中的第3个月水平 P364 1 7 2020 39 2 百分位常模 百分位常模包括百分等级和百分点 四分位数 十分位数 未分组资料的百分等级 百分点 也叫百分位数 计算 P364 1 7 2020 40 3 标准分常模 标准分常模是将原始分数与平均数的距离以标准差为单位表示出来的量表 常见的标准分数有 z分数 Z分数 T分数 标准九分数 离差智商 IQ 等 在线性转换中 加上一个常数是为消除负数 乘上一个常数是为了去掉小数点 如将原始分数转换为平均数为50 标准差为10的标准分 则叫做T分数 T 50 10z 最早提出者是麦柯尔 P365 1 7 2020 41 非线性转换的标准分数 了解 标准九分是一9级的分数量表 它是以5为平均数 以2为标准差的一个分数量表 标准十分是一10级的分数量表 其以5为平均数 以1 5为标准差 标准二十分是一20级的分数量表 其以10为平均数 以3为标准差 P365 1 7 2020 42 4 智商及其意义 1 比率智商 但是 用比率智商反映个体的智力发展 概念有缺陷 首先心理年龄 MentalAge 简称MA 与实足年龄 ChronologicalAge 简称CA 并不同步增长 所以比率智商不适合于年龄较大的被试 其次 不同年龄组儿童的比率智商分布的情况不一样 所以相同的比率智商在不同年龄就具有不同意义 P366 1 7 2020 43 2 离差智商 离差智商是一种以年龄组为样本计算而得标准分数 并且转换成平均数为100 标准差为15的标准分数 其中 X为一被试的测验分数 M为相应年龄组常模样本测验的平均分 SD为相应年龄组常模样本测验的标准差 P366 1 7 2020 44 四 常模分数的表示方法 1 转换表法 转换表也叫常模表 一个转换表显示出一个特定的标准化样组的原始分数与其相应的等值分数 百分位 标准分数 T分数或者其他任何分数 利用转换表可以将被试的测验分数转换为与其对应的导出分数 P368 1 7 2020 45 2 剖面图法 剖面图是将测验分数的转换关系用图形表示出来 从剖面图上可以很直观地看出被试在各个分测验上的表现及其相应的位置 1 7 2020 46 1 7 2020 47 1 常模团体必须是所测群体的 A 总体B 优秀分子C 随机样本D 代表性样本2 全国性常模 一般常模团体应有 人为宜 A 30 100B 100 500C 2000 3000D 5000以上3 最早的发展顺序量表是 制订的 A 比内B 皮亚杰C 葛塞尔D 科尔伯格4 皮亚杰特别关注一些特殊概念形成的研究 如 概念的研究 A 数量B 守恒C 顺应D 同化5 百分位常模包括 A 百分等级B 百分点C 四分位数D 十分位数 本节学习检测题 1 7 2020 48 6 小明语文分数在全班50名同学中排15名 则其百分等级为 A 15 B 30 C 71 D 85 7 常见的标准分常模有 A T分数B 百分位数C 离差智商D 标准九分数8 标准T分数的平均数为50 标准差为 A 5B 10C 15D 不确定9 标准九分的平均数和标准差分别为 A 5 1B 6 1C 5 2D 6 210 标准十分的平均数和标准差分别为 A 5 1B 6 1C 5 1 5D 6 1 511 使用最广 影响最大的常态化标准分数是 A T分数B 比率智商C Z分数D 离差智商 1 7 2020 49 12 16PF的量表分是 A 标准九分B 标准十分C T分数D Z分数13 比率智商是指 A 实足年龄与心理年龄之比B 心理年龄与实足年龄之比C 心理年龄与实足年龄之差D 实足年龄与心理年龄之差14 在斯坦福 比内量表的发展中 其主要特征是 A 测验成绩用智龄表示B 首次引用智商概念C 用离差智商代替比率智商D 用L型和M型两个等值量表15 下面哪一个是离差智商 A IQ MA CA 100B IQ MA CA 100 C IQ 100 15 X X SDD IQ 50 15 X M SD16 最简单和最基本的常模表示方法是 A 比率智商B 离差智商C 转换表D 剖面图 1 7 2020 50 第三节测验的信度分析 信度是指同一被试者在不同时间内用同一测验 或用另一套相等的测验 重复测量 所得结果的一致性程度 前后测验分数一致性程度高 即可信度高 反之可信度低 一 信度的定义 P371 1 7 2020 51 信度的本质 一般来说 使用一个工具对个体进行测量时 所得结果由两部分组成 X T E 其中 T是真分数 它是稳定的值 E是随机误差 它的变化是随机的 如重复进行测量 随机误差会造成分数起伏变化 随机误差小 实测分数起伏小 信度较高 相反 随机误差大 实测分数起伏大 数据不稳定 信度较低 所以 信度受随机误差而不是系统误差影响 理论上讲 要评估工具的信度 就要对一个人反复进行测量 看前后结果的稳定性 但是 这在很多时候是行不通的 1 7 2020 52 通常的做法是 选取一个被试团体即样本 使用一个工具对样本团体中的每一个体进行测量 得到一组数据 这一组数据的总变异方差Sx2 ST2 SE2 如果测量中没有随机误差 则实测数据总方差就等于真分数方差 数据完全可信 如果随机误差很大 真分数方差只占总方差中很小一部分 数据几乎全无可信 如果随机误差较小 真分数占总方差的大部分 则信度较高 于是信度被定义为 一组测量分数中真分数的方差与测验分数的总方差之比 该比率也叫信度系数 由公式看出 随机误差引起的方差越小 信度系数越接近于1 1 7 2020 53 1 7 2020 54 二 信度的指标 信度的定义是明确的 但是在一组测量分数中 真分数方差是未知的 所以真分数方差与误差方差无法分离 信度系数计算仍然是一句空话 不过 可以设想 让一个被试团体接受同一种工具的两次测量 因为实测分数由真分数和随机误差组成 随机误差较小时实测分数主要由真分数组成而真分数在前后两次测量中是稳定的 所以前后两次实测分数一致性就高 具有较高的正相关 反之 就具有低相关甚至负相关 所以 两次测量结果的相关可以间接反映测量随机误差大小 信度系数就是一种相关系数 信度系数成为可计算的指标了 1 信度系数与信度指数 P371 1 7 2020 55 信度指数等于真分数标准差与实测分数标准差的比值 所以信度系数正好等于信度指数的平方 信度指数 P371 1 7 2020 56 何谓相关呢 相关系数的意义是什么 1 7 2020 57 2 测量的标准误 随机误差的标准差也就是标准误 对于一个样本的测量来说 分数的标准差一部分是反映个体真值的差异性 一部分是反映随机误差的起伏变化性即误差的标准差 根据前面的信度公式可以推导出 SE越大 rxx就越小 反之 rxx就越大 所以标准误也是一种信度指标 P371 1 7 2020 58 三 信度评估的方法 1 重测信度 test retestreliabllity 又称稳定性系数 使用同一测验 在其他条件相同的情况下对同一组被试者前后施测两次测验 求两次得分间的相关系数 一般是2 4周较宜 间隔时间最好不超过6个月 P372 1 7 2020 59 2 复本信度 alternate formreliability 以两个等值但题目不同的测验 复本 来测量同一群体 然后求得被试者在两个测验上得分的相关系数复本信度反映的是测验在内容上的等值性 故又称等值性系数 某种意义上 它更像效度 P372 1 7 2020 60 3 内部一致性信度 1 分半信度 split halfreliability 这个相关系数就代表了两半测验内容取样的一致程度 式中为rhh为一半分数的相关系数 rXX为测验在原长度时的信度估计值 P373 1 7 2020 61 2 同质性信度 homogeneityreliability 代表测验内部所有题目间的一致性 如果各项目测量同一心理特质 则项目间得分应有显著的正相关 这时内部一致性较高 信度较高 如果项目间出现低相关或负相关 则内部一致性差 信度不高 当测验包含多个分测验时 则应首先计算各分测验的同质性信度 再计算全量表的同质性信度 对二项记分测验 使用库德 理查逊公式计算同质信度 对于多等级记分的测验 计算克伦巴赫 系数来估算信度大小 对于项目编排时 专门进行反向记分处理的项目 要在计算同质性信度之前对记分进行反向调整 P373 1 7 2020 62 4 评分者信度 随机抽取若干份测卷 由两位评分者按评分标准分别给分 然后根据每份测验卷的两个分数计算相关 即得评分者信度 一般要求在成对的受过训练的评分者之间评分一致性要达到0 90以上 才认为评分是可信的 当评分者人数达到三人以上时 通过计算肯德尔和谐系数来估价评分者信度 P373 1 7 2020 63 四 信度与测验分数的解释 1 解释实测得分与真分数的相关 信度系数反映了实测分数变化与真分数变化的一致性程度 当rxx 1 00时 二者完全一致 实测数据的变异量 方差 全部是由于真分数不同引起的 当rxx 0 00时 则说明实测分数的变异量全部是由随机误差起伏变化引起的 实测数据变化没能反映真分数不同的任何信息 当rxx 0 90 说明实测数据变化的90 都是由真分数不同引起的 实测分数反映了真分数大部分的变化信息 具有高的可信度 所以 信度系数也反映了测量的随机误差比例 P373 1 7 2020 64 在根据信度水平决定是否采用某一测验时 需要重点考虑测验的目标和功用 一般能力测验和成就测验 信度应在0 90以上 人格 态度 兴趣 价值观等测验 信度应在0 80以上 另需注意 1 信度系数低于0 70时 测验不能用于对人的评价和预测 也不能用于作团体间的比较 达到0 70以上 可用于作团体比较 达到0 85以上 测验可用于对个人的评价和预测 2 新编测验的信度应高于同类测验或相似测验 2 确定测验的可接受程度 P374 1 7 2020 65 3 解释个人分数的意义 两个作用 其一 是估计真实分数的范围 其二 是了解实得分数再测时可能的变化情形 P374 1 7 2020 66 五 信度的影响因素 信度常用信度系数来表示 信度系数就是相关系数 相关系数的获得需要一个被试样本 或叫样本团体 1 样本团体异质性的影响 当样本异质性高时 计算的信度系数会较大 可能会高估测验的信度 反之 计算的信度系数较小 可能会低估测验信度 2 样本团体平均能力水平的影响 样本平均能力水平的高低也会影响分数的分布 所以也会影响信度计算 一般要求 在给出信度系数时 也要描述相应的测量样本 1 被试样本特征 P375 1 7 2020 67 2 测验的长度 测验的长度 即测验的项目数会影响测验的信度 1 测验越长 测验的测题取样或内容取样越具有代表性 2 测验越长 被试的猜测因素对结果的影响就越小 但是 增加测验长度的效果是遵循报酬递减率原则的 这里可以利用斯皮尔曼 布朗公式的导出公式了解测验长度与信度系数的关系 要使测验的信度从原来的rxx提高到rkk 则测验的长度需要增加到原来的K倍 P376 1 7 2020 68 3 测验的难度 对于能力与成就测验来说 存在难度问题 一般来说 中等难度的测验 计算出来的信度系数较大 太难和太容易都会使信度较低 对于简答题 难度为0 50 求得的信度较高 对于选择题 因有猜测成分 所以难度应适当提高 P376 1 7 2020 69 4 时间间隔 对于重测信度和不同时测量的复本信度来说 存在时间间隔问题 时间间隔越短 计算得到的信度系数越大 时间间隔越长 信度系数越低 一般是2 4周较宜 间隔时间最好不超过6个月 P376 1 7 2020 70 1 衡量测量结果一致性程度的指标是 A 区分度B 难度C 信度D 效度2 下列可作为信度指标的是 A 信度系数B 信度指数C 标准差D 标准误3 重测信度反映的是测验在 上的稳定性 A 内容B 时间C 空间D 误差4 复本信度反映的是两个测验在 上的一致性 A 内容B 时间C 空间D 误差5 重测信度的计算中 重测的时距一般最多不要超过 A 2周B 4周C 4月D 6月 本节学习检测题 1 7 2020 71 6 内部一致性信度主要包括 两种 A 分半信度和重测信度B 重测信度和复本信度C 复本信度和同质性信度D 分半信度和同质性信度7 二级评分测验同质信度可用以下 方法计算 A 分半信度B 库德 理查逊公式法C 系数法D 重测信度法8 计算的分半信度为0 80 那么整个测验的信度大约为 A 0 80B 0 85C 0 89D 0 959 用库德 理查逊公式计算信度的方法适用于 A 多等级选择测验B 判断题测验C 多项选择和判断题测验D 简答题10 克伦巴赫 系数法适合于 测验的信度计算 A 多等级选择测验B 判断题测验C 多项选择题测验D 简答题 1 7 2020 72 11 评估评分者之间一致性的信度是 A 复本信度B 肯德尔和谐系数C 同质信度D 分半信度12 一个测验选用哪种方法计算信度 主要是看 A 哪种因素导致更大的误差B 哪种因素导致的误差最小C 哪种方法更简单D 对哪种方法更熟练13 要取得较高的同质信度 测验内部项目间得分要有 A 较高正相关B 较高负相关C 较低正相关D 较低负相关14 当一个测验的信度系数为0 85时 就可以说 A 真分数变异占总变异的85 B 真分数变异占总变异的15 C 随机误差变异占总变异的85 D 随机误差变异占总变异的15 15 一般的能力测验和成就测验的信度系数应达到 以上 A 0 70B 0 80C 0 90D 0 95 1 7 2020 73 16 影响信度的因素包括 A 样本特征B 测验长度C 测验难度D 时间间隔17 样本团体同质性高 则计算的信度系数 A 会低估测验的信度B 会高估测验的信度C 会偏低D 会偏高18 当希望以增加测验长度的方法使其一50题组成的测验的信度系数从0 85提高到0 90 那么测验长度要增加 题 A 30B 60C 80D 9019 受时间间隔影响的信度计算是 A 重测信度B 分半信度C 同质信度D 克伦巴赫 系数 1 7 2020 74 第四节测验的效度 一 效度的概念 1 什么叫做效度 在心理测验中 效度是指一个测验所能测量到它想要测量的心理特质或倾向的程度 也就是它对测量目标测量的准确性 测量分数可分解为真分数和随机误差 真分数可以再分解为两部分 反映测量目标水平的分数和系统误差 即与测量目标有关的部分和与测量目标无关的部分 效度是 在一组测量分数中 与测量目标有关部分的方差S2V与总方差S2X之比 P379 1 7 2020 2020 1 7 75 76 2 效度的性质 1 效度具有相对性任何测验都是针对一定目标编制的 用于该目标就会有效 用于其他目标就可能无效 对某一总体有效的测验 对于其他总体未必有效 某一心理学家认为有效的测验 其他心理学家可能认为无效 2 效度具有连续性说明 一 测验效度也是用相关系数表示 有高低之分 非 有 和 无 之差 二是 效度是针对测量结果来说的 P379 1 7 2020 77 3 效度与信度的关系 1 信度是效度的必要条件 但不是充分条件 2 效度总会受到信度的制约 它不会超过信度的平方根 P380 1 7 2020 78 二 效度评估的方法 美国心理学会在1974年所发行的 教育与心理测量之标准 一书中将效度分为三大类 内容效度 构想效度 效标效度 1 内容效度 content relatedvalidity 内容效度是指测验项目在内容上的适合性 即是否是所欲测量的行为领域的代表性取样 要编制有高内容效度的测验 就要对测量的心理特性有明确的定义 并划定出相应的行为内容 其次 测验题目应是所界定的行为内容的代表性取样 P380 1 7 2020 79 内容效度的专家评定法 专家评定是最常用的内容效度评估方法 是请有关专家对测验题目与测量目标的符合性程度作出评判 看测验的题目是否代表欲测的内容 也可以请专家对测验项目的适合性进行定量评定 专家的判断多是依赖于对内容的逻辑分析 所以这种评估的效度也叫做逻辑效度 P381 1 7 2020 80 关于内容效度要注意的两个问题 第二 内容效度与表面效度的区分 最高作为测验可以有比较高的表面效度 典型行为测验则要有比较低的表面效度 但两类测验都要有高的内容效度 第一 测验要有高的内容效度 但不一定要有高的同质性 P381 1 7 2020 81 2 构想效度 1 什么叫做构想效度 构想效度 就是一个测验对于某一理论构想或内在心理特质假设的证实程度 测量程度 所以也叫做构思效度 结构效度等 建立构想效度的逻辑顺序 基于相关专业知识和观测资料 提出某一心理特质假设或某一心理结构理论假设 然后根据理论或假设所可能对应的行为特点编制测验并进行施测 最后对测量结果进行相关或因素分析 验证其与理论假设的符合程度 P382 1 7 2020 82 2 构想效度的评估方法 从测验的组成成分来分析其结构是否与理论构思一致 常用因素分析方法来确定测验的结构成分 当使用一个新编制的测验对目标群体施测后 对测验项目进行因素分析 还可以通过计算相容相关和区分相关来间接验证所编测验能够测量的是不是某一种心理特质或理论构想 P382 1 7 2020 83 3 效标效度 1 什么叫效标效度 效标效度是指使用测验分数预测个体在某种情境下行为表现的准确性 被预测的行为同时也就成为检验测验有效性的效标 这种效度也叫实证效度 根据效标资料与测验分数获得的时间不同 效标效度又分为同时效度和预测效度 二者差异主要在于测验的目的不同 同时效度与用来诊断现状的测验有关 后者与预测将来结果的测验有关 P383 1 7 2020 84 2 效标效度的评估方法 相关法 区分法 命中率法 P384 1 7 2020 85 4 效度系数的计算方法 效标效度的计算 第一步取得测验分数x和效标分数y 好的效标需要具备下列条件 有效的反映测验的目标 具有较高的信度 稳定可靠 可以客观地加以测量 可用数据或等级来表示 测量的方法要简单 省时省力 经济可用 1 7 2020 86 当测验分数 效标资料均为连续数据时 使用积差相关 当测验分数 效标资料均为等级变量时 使用等级相关 第二步根据两种分数的性质选用适当方法计算相关系数 1 7 2020 87 三 效度系数的作用 预测效标 效度系数的实际意义常以决定系数表示 即效度的内涵 为相关系数的平方 它表示测验正确预测或解释的效标方差占总方差的比例 如测验的效度是0 80 则测验分数能正确预测效标分数变异量的64 效度系数是根据测验分数和效标分数计算出来的相关系数 所以它也反映了二者所具有的共变关系 这样就可以建立二者的回归方程式 以便由测验分数预测效标分数 P385 1 7 2020 88 如果用一被试的测验分数来估计他的效标分数 误差会有多大呢 这用标准误来估计 从公式看 效度系数的大小与估计的误差有关 如果效度系数rxy 1 00 则估计误差等于0 通过测验分数可准确预测效标分数变化 如果rxy 0 00 则以测验分数无法估计效标分数 以测验分数预测效标则无异于猜测 P385 1 7 2020 89 预测效率指数 据预测效标分数的标准误计算公式 无关系数K的计算公式 K反映了测验分数与效标分数的无关程度 它受效度系数的影响 当效度系数等于1时 K 0 测验分数与效标分数有完全的对应关系 当效度系数等于0 K 1 测验分数与效标分数100 的无关 测验与效标分数完全无关 它对效标分数没有任何预测力 当效度系数等于0 90时 可以计算出K 0 436 即测验分数与效标分数的无关程度是43 6 预测效率指数就是56 4 即使用该测验预测被试的效标分数 较之瞎猜 可以减少56 4 的误差 P386 1 7 2020 90 四 效度的影响因素 根据前文关于信度和效度概念的分析 知道 随机误差影响信度 进而影响效度 系统误差直接影响效度本身 所以 凡是会产生随机误差和系统误差的因素都会影响测验的效度 P386 1 7 2020 91 1 测验编制本身的因素 测验取材的代表性 长度 试题类型 难度 区分度以及编排方式等都会影响效度 为此 编制要注意 1 测验材料要有应测内容具有代表性 2 尽量避免误差较大的题型 如是非题 3 难度要适中 具有较大的区分度 4 测验长度要恰当 保证一定的题量 5 测题的排列应先易后难 P386 1 7 2020 92 2 测验施测过程中的干扰因素 1 测验实施中主试的影响 如是否按标准化来实施 测验与效标测量的实施的时间间隔 测验环境的布置等 2 测验实施中被试的影响 如被试参加测验的动机 情绪 态度 身体状态 反应定势等 P386 1 7 2020 93 3 所抽取的样本团体的特点 1 样本团体的异质性 其他条件相同 样本团体同质性越高 分数范围越小 得到的效度系数就会越低 会低估测验效度 反之 得到的效度系数就越大 可能会高估效度 比如 只使用经选拔后的被试组成样本团体 增加了被试同质性 测验得到的效度系数会较低 2 干涉因素 样本团体的有些变量会影响效度测验 比如被试的年龄 性别 受教育程度 智力 动机 兴趣 职业等特征 对于同一个测验来说 使用的样本团体不同 得到的效度系数也会不同 P387 1 7 2020 94 4 效标的性质 1 效标与测验分数是否是线性关系 2 效标测验本身的可靠性 即信度 P388 1 7 2020 95 1 效度是指测验的准确性 即 A 真分数方差与总方差之比B 随机误差方差与总方差之比C 与测量目标有关的真实方差与总方差之比D 真分数方差与系统误差方差之比2 反映测验题目是否是所欲测量的行为领域的代表性取样 属于 A 内容效度B 构想效度C 效标效度D 表面效度3 使用专家判断法评估的效度也叫 A 效标效度B 表面效度C 逻辑效度D 构想效度4 在下列测验中 最需要降低表面效度的测验是 A 智力测验B 气质测验C 性格测验D 学绩测验 本节学习检测题 1 7 2020 96 5 当效度系数等于1时 被试的测验分数 A 可以准确预测其效标分数B 对效标分数没有任何的预测力C 就是效标分数D 与效标分数有最大的正相关6 影响效度的因素包括 A 测验本身B 主试因素C 被试因素D 效标的性质7 用下列样本评估中学生智力测验效度 得到较大效度系数的是 A 全省中学生的代表性样本B 全省重点高中学生的代表性样本C 全省青少年的代表性样本D 全省当年高考一本上线代表性样本 1 7 2020 97 第五节项目分析 一 项目的难度 1 难度的定义 测验项目的难易程度 通常以题目的通过率为指标 2 难度的计算方法 1 二分法计分项目最简单方法就是以被试在该项目上的通过率评估难度 当被试人数多时 可以高分组和低分组通过率的平均数来评估 P PH PL 2 P389 P R N 100 1 7 2020 98 在有多选项的选择题中 为了平衡机遇因素的影响 可采用吉尔福特的难度校正公式来计算难度 Cp为校正后的通过率 P为实际得到的通过率 K为被选答案数 1 7 2020 99 2 非二分计分的项目 即以被试在某一项目上得分的平均值除以该题满分 再乘以100 P390 1 7 2020 100 3 难度水平的确定 1 项目难度的确定 难度分析的目的在于筛选项目 难度确定取决于测验的目的 性质以及项目的形式 一般来说 P值越接近于0 50 区别力越高 为了使测验具有更大的区别力 各题目难度可考虑控制在0 50 0 20 当测验用于选拔时 可较多地选择难度接近于录取率的项目 当测验用于筛选或诊断出少数被试 则难度要比较低即P值要比较大 P390 1 7 2020 101 2 测验难度的确定 整个测验的难度取决于组成项目的难度 如果测验分数接近于常态分布 说明整个测验的难度较为恰当 如果出现明显的正偏态分布 说明难度偏大 可增加一些较容易的题目 如果出现明显的负偏态 说明难度偏小 可增加一些难度较大的题目 P390 1 7 2020 102 二 项目的区分度 1 项目区分度的定义 项目区分度也叫鉴别力 是指测验项目对被试的心理特性 倾向性或发展水平的区分能力 项目区分度的取值范围在 1 1之间 主要是指项目得分与实际能力水平之间的相关程度 相关系数越大 区分度越高 P391 1 7 2020 103 2 区分度的计算方法 1 鉴别指数 通常 以测验总分高分组 前27 和低分组 后27 在一项目上通过率或得分率之差作为该项目的鉴别指数 即D PH PL 美国测量专家伊贝尔 L Ebel 提出了一套项目鉴别指数的平均标准 0 40 很好0 30 0 39 良好 修改后更佳0 20 0 29 尚可 但需修改0 19以下 差 必须淘汰 P391 1 7 2020 104 2 相关法 计算区分度最常用的方法是 以某一项目分数与效标成绩或测验成绩总分的相关作为该项目区分度的指标 相关越高 表明项目越具有区分功能 P392 1 7 2020 105 3 区分度与难度的关系 一般来说 中等难度的项目区分度最大 但是区分度和难度都是相对的 有条件的 较难的项目对高水平的被试区分度高 较容易的项目对低水平的被试区分度高 中等难度的项目对中等水平的被试区分度高 测验中项目的难度分布最好也是常态分布的 其中很难的和很容易的项目都较少 中等难度的项目最多 平均难度在0 50左右 这样可以提高整个测验的鉴别力 P392 1 7 2020 106 下列公式中属于难度计算的是 A R N 100 B P PH PL 2C K

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论