




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北大心理测量串讲笔记北大心理测量串讲笔记 第第 1 1 章章 概论概论 1 中国古代心理测量简述 1 公元六世纪初 南朝人刘勰的著作 新论 专学 中提到了类似现代 分心测验 的思想 2 在中国古代 七巧板 是很常见的一种儿童玩具 其实它可以作为创造力测量的工具 3 中国古代心理测量的思想中包含着典型的东方文化特点 定性描述及带有道德判断色彩 2 中国近代心理测量的出现 1 1916 年 樊炳清先生首先介绍了比内 西蒙智力量表 2 1920 年 北京高等师范学校和南京师范学校建立了我国最早的两个心理学实验室 廖世承和陈 鹤琴先生在南京高等师范学校开设心理测验课 1921 年 他俩正式出版 心理测验法 一书 3 1922 年夏天 中华教育改进社聘请美国教育心理测验专家麦考尔来华讲学 4 1924 年 陆志韦先生发表了 订正比内西蒙智力测验说明书 30 年代又与吴天敏再次做了修 订 5 1931 年由艾伟 陆志韦 陈鹤琴 萧孝嵘等倡议 组织并成立了中国测验学会 6 1932 年 测验 杂志创刊 7 至抗战前夕 由我国心理学工作者制定或编制出的合乎标准的智力测验和人格测验约 20 种 教 育测验 50 多种 3 中国现代心理测量的发展 1 1936 年 苏联在批判 儿童学 时扩大化 心理测验也被一概禁止 2 从 1978 年北京大学首建心理系开始 心理测验才重新得到恢复 3 1979 年 林传鼎 张厚等以国外资料为参考 编制了少年儿童学习能力测验 4 1980 年初 北师大心理系开设了心理测量课 1984 年 在北京召开的第五届全国心理学年会上 成立了心理测验工作委员会 加强了测验工作的指导和监督 4 科学心理测验的产生 心理测验的产生 是出于实际需要 最初 人们用测验 是因为要治疗智 力落后者和精神病病人 1 法国的医生艾斯奎罗第一个把智力落后与精神病分开 他认为 精神病以情绪障碍为标志 不 一定伴随智力落后 而智力落后则是以出生时或婴儿期表现出来的智力缺陷为主要标志 2 50 多年后 法国的心理学家比内提出应该从正常学校学习的儿童中筛选出不适应的儿童 安排 在特殊的班级里学习和教育 此举动导致了心理测验史上重大事件的发生 第一个智力测验的诞生 3 实验心理学的诞生是心理测验产生的另一个重要原因 实验心理学的诞生和发展 还给心理测量 带来了另一个副产品 严格的标准化程序 标准化是现代心理测验的重要评价指标 5 西方早期的心理测验尝试 1 弗兰西斯 高尔顿是第一个倡导心理测验的人 他于 1884 年在伦敦国际博览会上专门设立了一 个 人类测量实验室 他的这一举动是心理测验史上第一个大规模系统地测量个体差异的尝试 2 高尔顿还是使用评定量表和问卷法的先驱 并且他发展了分析个体差异资料的统计方法 不仅 扩充了古特列特的百分位法 而且创造了粗浅的相关计算法 3 美国心理学家卡特尔 1980 年发表 心理测验与测量 一文于 心理 杂志上 这是在心理学文 献中首次出现 心理测验 一词 6 比内 西蒙量表的诞生及心理测验的发展 1 1904 年比内为了鉴别弱智儿童 他与西蒙合作编制成了世界上第一个科学的智力测验 比内 西蒙量表 1905 年 他在 心理学年报 上发表了文章 诊断异常儿童的新方法 介绍了该量表 历史上称为 1905 量表 从此 比内 西蒙量表宣告诞生 2 比内 西蒙量表自 1905 年发表后 比内和西蒙亲自主持过两次修订 一次在 1908 年 一次在 1911 年 此时比内已不幸去世 3 1905 年量表主要强调的是判断 理解和推理能力 也就是比内认为的智力的基本组成成分 1908 年版的量表删掉了 1905 年版中不合适的题目 增加了新题目 题目总数大 59 个 所有测验题目 按年龄分组 从 3 13 岁 测验的结果用 智力水平 来表示 人们常叫它为 智力年龄 它表 示一个儿童能完成何种年龄水平的儿童所能完成的测验 4 最有名的是 1918 年出版的美国斯坦福大学的推孟教授修订的 斯坦福 比内量表 这一量表首次 使用了 智力商数 的概念 简称为 IQ 是心理年龄和实际年龄的比值 5 比较有名的几个测验 1 智力测验 推孟的研究生欧提斯编制的团体智力测验 2 后在次基础上发展出美国陆军用甲 乙两 种测验 有基于因素分析理论编制的测量多项能力的韦克斯勒的儿童智力量表 还有桑代克编制的标 准化教育测验 2 人格测验 1917 年武德沃斯设计的 个人资料调查表 1912 年问世的罗夏克墨迹图测验 RIT 和于 1943 年首次出版 由哈撒韦和麦金利编制的目前影响最大的 MMPI 明尼苏达多相人格调查表 7 测量是 就是根据一定的法则用数字对事物加以确定 测量就是确定一个事物的属性的量多少 因此 我们所指的测量 就是根据一定的法则 采用一定的操作程序 给事物确定出一种数量化的价 值 8 测量的要素是 参照点和单位 参照点 它可以分为两种 一是绝对的零点 二是相对参照点 最理想的参照点是绝对零 心理测量 中所用的参照点都是人为的 因而测量的结果常常不能以 倍数 来解释 如 IQ 100 的人 IQ 50 的人的智力的两倍 9 量表是 就是有参照点和单位的连续体 10 量表的种类有 量表是由人来制订的 依单位和参照点的不同 量表的种类也不一样 根据测量 精度高低 斯蒂文斯将量表分为四个水平 由低到高分别为 命名量表 顺序量表 等距量表和等比 量表 种类 定义 特点 备注 命名量表 只是用数字来代表事物或对事物进行分类 命名量表中的数字没有任何数值意义 不能作 量化分析 无大小意义 只表明类别 无参照点和单位 无法比较大小或进行任何数学方法运算 顺序量表 表明类别的大小或某种属性的多少 主要用于分等论级和分类 数字仅表示等级并不表示 某种属性的真正量或绝对值 无参照点 没有绝对零度 和单位 无法进行数学方法运算 等距量表 存在大小关系 无绝对零度 但存在相对零点 可以进行数学运算 有相等单位 等比量表 是最精确的测量 大多是物理量表 而心理量表只能达到等距量表水平 可以知道事物之 间的某种特点上相差多少及它们之间的倍数关系 有相等单位和绝对零点 可以进行数学运算 11 心理测量是 就是通过观察人的少数有代表性的行为 对反映在人的行为活动中的心理特征 依 确定的原则进行推论和量化分析的一种科学手段 12 著名的心理测验学家安娜斯泰西认为 心理测验实质上是行为样本的客观和标准化的测量 这一定义包含有至少三个基本要素 行为样本 客观测量和标准化 心理测验要测量的是心理特征 但它要通过测量人的行为来实现 从行为测量中来推知心理特征 这就要找有代表性的少数行为作为 全部行为的样本 13 关于心理测量中的标准化 心理测量要做到客观必须在测验编制 实施 评分 解释过程中减少 主试和被试的随意性程度 标准化的测量是测量客观性的根本保证 14 心理测验的性质 间接性 相对性 客观性 15 心理测验的种类 1 按测验的内容分 能力测验 智力测验 反应能力测验 学绩测验 如成套的成就测验 人 格测验如 EPQ MMPI 等 2 按测验的对象特点分 个别测验和团体测验 3 按测验表现形式分 文字测验 纸笔测验 和非文字测验 4 按测验的目的分 描述性测验 诊断性测验 预测性测验 5 按测验的时间分 速度测验和难度测验 6 按测验要求分 有最高作为测验和典型行为测验 前者要求被试尽可能作出最好的回答 而且 有正确的答案 能力测验 学绩测验均属此类 后者要求被试按照日常习惯回答 无正确答案 所有 人格测验均可称为典型行为测验 16 心理测验的功能 1 从实际应用角度看 选拔人才 岗位安置 诊断 评价 辅助咨询 2 从理论研究角度看 搜集资料 提出和验证假设 实验分组 17 正确的测验观 1 测验是重要的心理学研究方法之一 是决策的辅助工具 2 心理测验作为研究方法和测量工具尚不完善 心理测验的最大问题是理论基础不够坚实 3 科学地看待测验 防止乱编滥用 18 错误的测验观 测验万能论 测验无用论 文化公平测验 只有相对的文化公平 没有绝对的文 化公平 心理测验即智力测验 第第 2 2 章章 心理测验的编制心理测验的编制 1 心理测验的目的是指 我们编测验干什么用 2 测验目的种类 1 显示性测验是指 测验题目和要测量的特征相似的测验 比如成就测验 2 预测性测验是 为了预测一些没被测量的行为的测验 3 心理测验的目标是指 编制的测验是测什么的 即测什么样的心理特征或人格特点 4 目标分析依测验不同可分为 1 工作分析 对于预测或选拔用的测验 主要任务就是对所预测行为活动做具体分析 即任务分 析或工作分析 2 对特定概念下定义 3 确定测验的具体内容 5 命题的基本原则 1 试题要符合测验的目的 2 内容取样要有代表性 3 题目格式要不被人误解 4 语句要简明扼要 既排除与答题无关的因素 又不能遗漏答题所依据的必要条件 避免使用生 僻的字句或词汇 5 答案确定 不应引起争议 创造力测验和人格测验除外 6 题目间内容相互独立 互不牵连 对不同题目的回答不致相互影响 7 题目不能含有答题倾向的线索 8 题目内容不超出受测团体的知识水平和理解能力 9 比开社会敏感性问题 如涉及社会禁忌或个人隐私的题目不应使用 10 便于施测 评分简捷 6 如测验涉及社会敏感性问题时的策略 1 命题时假定被试具有某种行为 使他不得不在确实没有该行为时才否定 可避免否定答案过多 的倾向 2 假定规范不一致 3 指出该行为是常见的 虽然是违规的 7 测验题目的来源 已出版的标准测验 理论和专家的经验 临床观察和记录 8 心理测验题目的类型 根据对被试的要求不同来分 可有两大类 提供型和选择型的题目 前者 求被试给出答案内容 如论文题 简答题 填充题 选择型题目要求被试在几个有限的答案中选择正 确的答案 如是非题 匹配题 选择题 由题干和选项构成 填充题等 9 测验题目在编排时所遵循的普遍原则是 测试同一因素的题目放在一起 同类型的测试题尽可能 组合在一起 题目的难度排列宜逐步上升 10 测题的常见编排方式 并列 直进式 混合螺旋式 第第 3 3 章章 测验的实施 计分和误差测验的实施 计分和误差 1 标准化是 测验编制中遵循科学的理论和技术 测验实施中要统一步骤和标准 结果解释时也要 统一标准 换句话说 不仅编制测验时要严格选题 预试取样 施测 建立常模 确定记分标准和解 释系统 有信度和效度验证 而且测验在实施测量时也要统一准和步骤 以控制无关因素对测验目的 和结果的影响 2 心理测验的实施程序 预告测验 准备测验环境 准备测验材料 熟悉测验的具体步骤 熟悉测 验的指导语 具体实施 3 实施心理测验的过程中的要素 主试 包括助手 被试 测试工具 环境 4 主试误差是 由于主试实施测验必然伴随的影响因素造成的误差 5 主试误差包括 主试者的生理物理因素 主试在施测时偏离规定程序 6 有几种情况主试能发生较大影响 1 测验步骤复杂 指导语冗长 繁琐 2 测验题目本身模糊不定 形式多变 3 安排的测验条件宽裕 有较多灵活机动的余地 4 被试属幼儿或有情绪捆扰者 7 控制误差的方法 1 严格遵从指导语 不带任何暗示 被试提问时 尽量按中性方式回答 2 测验前不讲太多无关的话 以免引起被试的烦躁情绪和反感 3 对特殊问题有心理准备 8 被试误差可分为 应试技巧与练习 动机和焦虑 反应定势 1 应试技巧与练习 速度测验比难度测验更易受练习因素的影响 2 动机和焦虑 对智力测验 成就测验和能力倾向测验来说 被试动机强才能有好成绩 一般来说 适度的测验焦虑会使人提高兴奋水平 促进注意力增强 反应速度加快 有利于智力测验 成就测验和能力倾向类测验的成绩 但是焦虑水平过高或过低都不利于测验 3 反应定势 也叫反应风格 是被试的一种反应倾向 与测验内容无关 简言之即被试的答题习 惯 定势的种类 求 快 定势 求 精确 定势 喜好正面叙述的定势 位置定势 长选项定势 猜 测定势 9 主试的心理因素 主试的态度对智力测验的成绩有影响 主试的动机也会影响测验 主试的期望 对测验结果的影响最典型的范例是 罗森塔儿效应 10 被试对主试的五种需要 现实需要 受人尊重的需要 自我表现的需要 对主试权威性的需要 特殊需要 11 如何控制主 被试交互作用引起的误差 可建立良好的主 被试协调关系 协调关系是指 主 被试之间产生的一种友好 合作 能促使被试最大限度地作好测验的关系 12 计分标准化的含义 1 对测验编制者而言 在编制测验时就要根据测验的目的 性质及题型确定一个适当的计分程序 2 对施测者而言 在测验完成以后要按测验操作手册上的规定要严格进行计分 13 计分的一般程序 记录被试反应 参考标准答案 计算最后得分 14 常见的猜测修正方法 S R 32 W n 33 1 S 是真正分数 R 是被试答对的题目数 W 是被 试答错的题目数 n 为选择项数目 第第 4 4 章章 测验的常模和分数的解释测验的常模和分数的解释 1 导出分数 原始分数的意义需有参照意义标 2 准才能体现出来 在心理测验中 这种标准是由 原始分数构成的分布转换而来的分数 就叫导出分数 导出分数具有一定的参照点和单位 2 常见的导出分数分 常模参照分数 内容参照分数 结果参照分数 3 常模团体 做心理测验 得到的测验分数需要做出有意义的解释 因而参考标准不可缺少 导出 分数是由原始分数转换而来 而原始分数由被试完成测验后得到 因此 许多被试构成的人群就是构 成参照标准的被试团体 也叫参照团体 或叫常模团体 常模团体是由具有某些共同特征的人所组成的一个群体 或者是该群体的一个样本 4 常模样本 找一个有代表性的样本来代表目标总体 也代表常模总体 这个用来代表常模总体的 样本 就是常模样本 常模样本必须具备常模总体的基本特征 5 常模样本的容量 总体的数目 一般情况 最小样本为 30 100 个 要是全国性的常模 一般地 要求有 2000 3000 人为宜 6 取样就是 从目标总体中选择有代表性的样本 一般地有两类取样方法 随机抽样和非随机抽样 具体说有 简单随机抽样 系统抽样 分组抽样 分层抽样 7 常模分数 就是施测常模样本被试后 将被试的原始分数按一定规则转换出来的导出分数 8 常模分数构成的分布是 通常所说的常模 它是解释心理测验分数的基础 人们常常会忽略常模的时间性 常模分数和常模均会随时间的变化而改变 因此常模必须经常修订 9 常模的表示方法 表格法和图示法 1 表格法就是转换表法 这种表示常模分数分布的方法是最常见的 它有三个要素 原始分数 导出分数 常模样本的特征描述 2 图示法就是剖面图法 10 参照常模的解释分数是 将被试的分数直接或间接地以常模样本中的相对等级或相对位置来表示 另一种常见法是以常模性质分 可分为 发展常模 反映心理发展程 百分位常模和标准分常模 11 发展常模 按发展常模来解释测验分数 某一测验分数就表示个人在以正常途径发展的心理特征 方面处于一个什么样的发展水平 这些平均表现构成的量表就是发展常模 象智力年龄 年级当量 发展顺序量表等均为发展常模 1 发展顺序量表 是直观的发展常模 因为它告诉人们多大的儿童具备什么能力或行为就表明其 发育正常 2 智力年龄 在比内 西蒙智力量表中首先使用了智力年龄的概念 智力年龄实际上是一种年龄量 表 也是用年龄来表示测验分数 以智力年龄为典型代表的年龄常模在做解释时确实非常简捷明了 但是智力年龄并不是单位恒定相等 的 而是随年龄的增长而增大 另外 智力年龄的概念显然不适用于成人 成人到一定阶段后智力发 展相对稳定 表现不出一年与一年之间的差别 3 年级当量 它实际上就是年级量表 测验结果说明属哪一年级的水平 在教育成就测验中最常 用 12 百分位常模是 把一个量表分成一百个位置 对不同的得分给予相应的等级评价 依据不同的等 级对结果作出解释 13 百分位常模可分两类 百分等级和百分点 1 百分等级 一个测验分数的百分等级式是指在常模样本中低于该分数人数的百分比 百分等级 是应用最广的测验分数表示方法 2 百分点 又叫百分位数 百分点或百分位数于百分等级的计算方法正好相反 百分等级是计算 低于某测验分数的人数百分化 而百分位数是计算处于某一百分比例的人对应的测验分数是多少 3 还有两种常见的变式 四分位数和十分位数 两者含义相似 14 百分位常模的优点与缺点 易于计算 解释 实用 不受原始得分的分数分布形态的影响 缺点 是 单位不相等 特别是分数的两端 百分位无法说明被试间差异的原始分数量大小 15 标准分常模 标准分数最常见的是 z 分数 标准分数是等距量表 它可以做加 减 乘 除运算 常见的标准分常模 z 分数 Z 分数 T 分数 标准九分数 离差智商 IQ 等 标准分由原始分转换而来 这种转换又可分成 线性转换 非线性转换 16 线性转换的标准分 z 分数 最典型的线性转换的标准分 1 公式 z X 2 X SD X 为原始分 X 为样本平均数 SD 为样本标准差 从公式看 z 的含义是 它表示某一分数与平均数之 差是标准差的几倍 3 z 的性质 1 平均数为 0 标准差为 1 2 z 分数有正 负 其绝对值表示原始分与平均数间的距离正值表示原始分大于平均数 负值则相反 3 z 分数的分布形态与原始分分布一致 17 非线性转换的标准分 1 T 分数是 平均数为 50 标准差为 10 的分数 即 这一词最早由麦柯尔于 1939 年提出 是为了纪念推孟和桑代克对智力测验 尤其是提出智商这一概念 所作出的巨大贡献 2 标准九 是标准化九分制的简称 它是以 5 为平均数 以 2 为标准差的一个分数量表 最早时 被广泛应用于美国空军的心理测验中 标准九分数也是一种标准分 它将原始分划分为 9 部分 最高是 9 分 最低 1 分 除 1 和 9 的范围略 大以外 其余均是以 5 为中心向两边各包含 0 5 个标准差的分数段 18 标准分常模小结 1 标准分常模分数均是等距分数 虽然不同类型的常模其平均数和标准差不同 但均可用离均值 来表示 2 标准分常模的局限性 标准化常模表示的是存在状态之间的横向比较 离开原常模样本 不同常 模样本之间的比较就没有意义 名称 z 分数和 z 分数 T 分数 标准九 标准十 标准二十 平均数 0 50 5 5 10 标准差 1 10 2 1 5 3 19 离差智商及其意义 传统比率智商的缺点 1 心理年龄与生理年龄呈线性关系 用传统的比率智商 不同年龄组的标准差不相等 从 10 20 都有 因此智龄与年龄的发展并不是呈线性关系 2 智力增长到何时达终点仍在争论 1 离差智商 通过与同 2 年龄的代表性样本的平均数相比较来确定智商的高低 离差智商是一种常态化标准分数 因而其计算方法与其他标准分数一样 公式为 IQ 100 15z 由于离差智商的提出 过去使用比率智商的测验都改用离差智商 其公式为 IQ 100 16z 两 者唯一的区别是标准差 一个是 15 一个是 16 2 由于标准差不同 离差智商间就不能直接比较 因为单位不等 相同的 IQ 值表示的智力水平也不一 样 3 常态化使得 IQ 的评定对智力较低者打分偏高 对智力较高者打分又偏低 而对中等智力者打分最准 确 20 效标参照测验是 格拉塞于 1963 年首先提出的 它是直接向人们报告被试完成什么测验题 能 拼多少单词 能做什么样的逻辑推理题等 21 效标参照测验的优点 1 效标参照测验巧妙地避开了对得分 名次的过细纠缠 使个人都能有自己大致的奋斗目标和希 望 2 效标参照测验能发现个人特有的长处 也会找到问题症结所在 3 常模参照测验的得分不能告诉我们评价被试的外在效标是什么 而指标参照测验的结果本身可能 就是效标 22 对效标参照测验的解释的方法 内容参照分数 结果参照分数 23 内容参照分数与常模参照分数的本质区别 用内容参照分数来解释测验结果 很象我们平时所说 的课程考查 只有 通过 与 不通过 或 及格 与 不及格 之分 没有 100 分与 60 分之分 就是说 它依据被试对某个确定的材料或技能的掌握程度和熟悉程度来表示测验的结果 所以它比较 的对象是测验的内容 而非完成测验的其他人 24 对内容参照测验的解释有两种内容参照分数可供选择 掌握分数和正确百分数 1 掌握分数 按效标参照的思想 最简便的做法就是确定一个评判标准 一判断被试是否通过或 达到掌握的水平 2 正确百分数是指被试在测验中答对题目的百分比例 第第 5 5 章章 信度信度 1 信度是指 测量结果的可靠性和一致性 因为心理测验通常测量人的行为 行为会由于各种各样 的原因 因时 因事 因地而产生变动 这些因素有些是偶然的 有些是固有的 人在完成心理测验 时的行为也会受上述因素的影响 从而使测验结果与真实结果不完全一致 所以我们要用信度来衡量 测验的可靠性和一致性 2 信度的操作化定义 1 误差理论认为 一个人的测验分数 X 是由真实分数 T 和误差 E 两部分构成的 公式是 X T E 2 因此信度就被定义为 一组测量分数的真实方差与实得方差的比 或者是指真实方差占总方差 的百分比 公式为 rxx 1 SE 2 SX 2 3 根据统计学理论 真实方差与实得方差的比是一个相关系数的平方 所以我们把这种相关系数 的平方叫做信度系数 4 计算公式为 rxx ST2 SX2 3 由于误差的来源信度的可分为 这种分类是基于信度的传统定义 真分数理论 1 重测信度 考虑的误差来源是时间取样 2 复本信度 考虑的误差来源是内容取样 3 分半信度 它考虑的误差来源也是内容取样 它与复本信度的差别是 分半信度考查一个测验 内容的两半题目测量的是否是同一个心理特点行为 4 同质性信度 内部一致性系数 考虑的是测验内容是否异质 5 评分者信度 考虑的误差来源是评分者间的差别 4 信度的表示方法 1 信度系数和信度指数 1 信度系数 rxx rx2T S2T S2 2 信度指数 rXT ST SX 2 测量标准误 SE SX 1 rxx 5 信度的意义 1 信度系数可以解释为样本测验分数的总方差中有多少比例是真分数方差 也就是测验的总变异 中真分数造成的变异占百分之几 它直接告诉我们测量的误差有多大 2 测量的标准误可以告诉我们有多大可能性真实分数在某一分数范围内 并且可以预测实得分数 再测时可能的变化情况 6 信度的作用 1 解释预测个人分数的意义 2 解释真实分数与实得分数间的关系 明确告诉我们测验误差大小 3 新编的测验信度应高于原有的同类测验或相似测验 4 下结论说某测验比较可靠 必须是依据情境的 经多次证实的 5 它是确定测验好坏的一个指标 一般的原则是 1 当 rxx 0 70 时 测验不能用于对个人作出评价或预测 而且不能做团体间比较 2 当 0 70 rxx 0 85 时 可用于团体比较 3 当 rxx 0 85 时 才可以用来鉴别或预测个人成绩或作用 7 重测信度 有时也叫稳定性 主要针对时间变量 1 重测信度采集数据得方法是 对同一组被试间隔一定的时间重复测试一次 4 重测信度的计算方法是积差相关法 因而 rxx 就是皮尔逊的积差相关系数 7 重测信度的时间间隔选择依测验性质和目的而定 如果测验是用于长期预测 则测量间隔长一 些 对儿童的智力测验一般是两周到四周为宜 对成年人 间隔可到半年 很少超过 6 个月 13 使用重测信度应注意 不是所有测验都可以计算重测信度 并且重测信度只是反映了随机误差 的影响 而不是反映被试心理特点的长期变化 8 复本信度 又叫等值性系数 1 数据采集方法是 给被试施测两个内容等值但题目不同的测验 求两组数值的相关 计算方法 常见的也是积差相关法 2 复本信度的高低反映了两个互为复本的测验等价的程度 而不是反映一个测验本身受随机误差 影响的大小 复本信度的高低关键取决于复本测验的选择 因而施题目取样问题 或者说是测验的内 容取样问题 3 复本信度优于重测信度的地方是 避免了重测带来的记忆效应和练习效应 可用于长期追踪研究 前后测量 减少了作弊的可能性 4 复本信度的缺点 有些测验的复本很难找到 有些测验因正迁移效应使测验性质改变 如测量的 内容很容易受练习的影响 复本信度也无法清除这种练习效应 5 重测复本信度 即再不同的时间里施测两个等值的测验 复本 得到的相关就是重测复本信度 也叫稳定等值系数 它比单一的重测信度或复本信度都要严格 全面一些 9 斯皮尔曼 布朗公式 rnn nrtt 1 n 13 1 rtt 14 rnn 是校正以后的相关系数 15 rtt 是实得的相关系数 16 n 为 rnn 对应的测验长度与 rtt 对应的测验长度之比 分半时 17 n N N 2 2 N 为测验全长 18 所以分半法信度的校正公式是 rxx 2 rnn 1 rhh 其中 rhh 为两半测验的相关系数 1 卢伦公式 rxx 1 Sd2 Sx2 其中 Sd2 是两半测验分数之差的方差 Sx2 为总方差 2 从理论上分析 分半信度反映的实际上是两半测验能够测量相同内容或心理特点的程度 10 内部一致性信度 同质性信度 同质性是指测验的所有题目间性质的一致性 即测的是同一种 心理特质或行为 同质性是测量单一特质的必要条件 这里讲的同质性是指测验题目得分反映的心理 特质一致 同质性的判别标准是 题目间呈高正相关 如果相关很低或是呈负相关 则题目为异质 1 库德和里查德森提出的 K R20 公式只适合预测题目是二分法计分的 克伦巴赫 系数适合于非 二分法计分的测验的内部一致性信度估计法 2 从同质性信度的含义我们不难看出 分半信度是求测验两半之间的一致性或同质性 而同质性 是求所有题目间的一致性 因此分半信度实际上是同质性信度的一种 可以作为测验同质性评价的粗 略估计指标 因为可以根据测验得分来推论或验证某种概念或理论构思 因此同质性信度也是一种构 思效度 或叫结构效度 它实际上介于信度与效度之间 11 评分者信度 有些心理测验的得分不是根据客观的计分系统计分的 是由评分者来给被试打分 因此 这样的测验的可靠性如何取决于评分者评分的一致性和稳定性如何 评分者信度因评分者人数不同而估计方法不一样 如果是两个评分者 独立对被试的反应评分 则可 以用积差相关来计算 或用斯皮尔曼等级相关法计算 如果评分者在三人以上 而且是等级评分 则 可以用 肯德尔和谐系数 W 来求评分者信度 12 以测量标准误表示信度的好处是 1 信度的单位与测验分数的单位相同 因此解释个人分数时非常直接 能直接指出允许测验分数 变化的范围 2 测验同质与否并不影响测量标准误的大小 测量标准误的不足之处时 无法比较不同测验间的 信度高低 比较不同测验的信度用信度系数 rxx 解释个人分数时用测量标准误 SE 13 常见的影响信度的因素有 样本特征 测验的长度 测验的难度 测量的时间间隔等 14 我们做信度考验时 常常选取一个与常模样本性质相同的样本施测 根据被试得分求出信度系数 1 样本团体得分分布的影响 求信度的样本团体得分分布如果比较窄小的话信度就低 2 样本团体异质性的影响 样本团体异质的话 测验分数的分布就比同质样本的要广 分数的离 差就大 样本的方差就大 信度就高 实际上 高信度可能是假性高信度 是由样本团体的异质造成 的 但如果常模总体要求各种各样的人 则异质的信度样本求得的信度就是真信度 这时 相反的情 况就需要校正信度 3 样本团体平均能力水平的影响 由于信度也会因样本间团体平均能力水平的不同而不同 因此在 求信度时 一定要注意信度样本与常模总体间是否一致 15 测验的长度 在其他条件均等的情况下 测验越长 信度越高 原因在于 1 测验越长 即题目越多 测验的内容取样就越有可能有代表性 2 测验越长 被试的猜测因素影响就越小 16 测验的难度 难度对信度的影响之存在于某些测验中 如智力测验 成就测验 能力倾向测验 教育测验等 测验的难度对信度有间接影响 因为如果测验过难 被试的得分会集中在低分区 过于 容易 分数则集中在高分区 两种情况都使信度样本的得分范围变窄 变异量降低 从而低估测验信 度 17 测验的时间间隔 这一因素之对重测信度和不同时测量时的复本信度有影响 对其余的信度来说 不存在时间间隔问题 第第 6 6 章章 效度效度 1 效度是指 测验能测量到所要测量的对象的程度 这一定义包含着两层含义 测验测量什么 测 验对测量目标的测量精确度和真实性是多少 2 效度的公式为 rxy SV2 SX2 它是与测量目标有关的真实分数方差与总方差的比率 其中 rxy 是常用的效度表示法 SV2 是 有关的真实方差 也就是由测验所要测量的心理变量引起的方差 也叫有效方差 SX2 是总方差 3 信度和效度的差别是 两者所涉及的误差不同 信度仅考虑偶然的随机误差占测验总变异的比例 效度则还包括与测验无关的但稳定的测量误差 1 信度是效度的必要而非充分条件 2 效度是受信度制约的 4 效度的性质 效度的真实含义是指测验结果的效度 也就是测验结果的准确程度 1 效度具有相对性 2 效度具有连续性 测验的有效性只有程度上的差别 3 效度也不是直接就可以测量到的 它是从已有的证据推理而来的 5 效度的种类 内容效度 构思效度和效标关联效度 6 效标关联效度是指 测验总分数与外在标 20 准 效标 之间的相关程度 反映的是用测验预 测个体在某种情境下行为的表现如何的有效性程度 由于外在标准成了考察测验有效性的参照标准 因此简称为效标 7 阿斯丁把效标分为两个层次 一是理论描述水平的 观念效标 二是操作定义水平的 效标测 量 1 观念效标是效标的理论定义 效标测量是效标的操作定义 效标测量必须能真正反映观念效标 2 效标测量的一个重要特征是客观性 为此因做到 1 避免偏见影响效标测量 特别是以等级评定为效标 4 测量时 评分者的主观偏见会有很大影响 2 防止效标污染 即指个人的效标因评定者知道个体的测验分数 也叫预测源分数 而受到影响 8 常用的效标 学业成就 临床诊断 实际工作表现 特殊训练成绩 效标团体比较 先前有效的 测验 等级评定 9 同时效度 它的效标资料是和测验分数差不多同时搜集的 一般情况下 它可以代替预测效度 10 预测效度的效标是经过一段时间以后才获得的 预测效度反映的是从测验分数预测任何效标情境 或一段时间后被试的行为表现的程度 11 构思效度就是 心理测验对某一理论概念或特质测量的程度 因此 研究构思效度就是要搞清楚 测验测量的是什么构思 概念或特质 测验分数的变异中有多少来自于测验的理论构思 构思效度 是没有单一指标的 它是由各方面证据累积起来作出评价的 12 确定构思效度的基本步骤 建立理论框架 根据理论框架推演出有关测验成绩的假设 用逻辑或 实证的方法来证明假设 13 确定构思效度的方法 测验内部的方法 测验间的方法 效标效度的研究 实验和观察法验证 1 测验内方法 这类方法是通过研究测验内部结构来界定理论构思 从而为构思效度提供证据 2 确定方法是 分析测验的内容效度和测验的内部一致性分析 测验的内部一致性可以由分半信 度 系数 KR20 或 KR21 等指标来衡量 它们考察的是测验题目是否同质 分测验与总测验是否一 致或同质 这些都可以证明测验所测量的构思是否合理 因而构成了证实构思效度高低的证据 3 有时分析被试对题目的反应特点也可以作为构思效度的证据 4 测验间的方法 通过分析几个测验间的相关关系 找出其共同之处 进行推断这些测验测量的 特质是什么 也可以确定这些测验构思效度如何 最简单的方法是计算两种测验之间得分的相关 区 分效度是构思效度的又一个证据 因素分析法也是建立构思效度的常用方法 5 实验法和观察法证实 观察实验前和实验后分数的差异也是验证构思效度的方法之一 14 内容效度是指 测验题目对有关内容或行为总体取样的适当性程度 因为这种效度主要是考察测 验的内容 因此叫内容效度 1 要想使测验的内容效度高 必须又两个条件 内容的范围或行为总体必须界定名确 测验题目 应该是所界定的内容范围的代表性样本 2 内容效度的确定方法 专家判断 经验判断 统计分析法 15 表面效度是指 一个测验看起来好象是测量所要测的东西的程度 换句话说 当那些未经过训练 的被试或测验应用者认为某测验是有效的测验时 该测验就有表面效度 16 效度的指标是指 效标关联效度和构思效度的的指标 效度指标一般有 效度系数 统计推断参 数 预期表等 17 效度系数 它是最常用的效度指标 尤其是效标关联效度 它是以皮尔逊积差相关系数来表示的 效度系数的实际意义常以决定性系数来表示 表达式是 rx2y 效度系数的平方就是决定性系数 测验 正确预测或解释的效标的方差占总方差的比例 18 效度的其他指标 一些描述不同团体的差异的统计指标 参数 也可以作为效度的指标 比如 t 考验 F 考验 重叠百分比等 19 效度的影响因素 测验本身的因素 测验施测的样本的性质 效标的性质等 1 对于测验本身因素又可分为 测验题目的质量 测验的长度 测验实施中的干扰 被试的因素 等 2 样本的性质 1 影响之一是 不同的团体对同一测验的反应可能会不一样 因被试的背景不同 对测验的题目可能 采取完全不同的方法来回答 2 响之二是 同一个测验 效度团体的性质不同 效度也会有很大差别 效度团体的性质包括年龄 性别 教育程度 智力水平 动机 职业等有关的特点 1 这些性质特点使测验对不同的团体具有不 同的预测能力 故称为干涉变量 3 影响之三是 样本团体的异质性 其他条件相同的时候 样本同质性越高 效度越低 第第 7 7 章章 项目分析项目分析 1 项目分析是指 一组分析被试对测验项目的反应的统计方法 而广义的项目分析则还包括内容效 度分析和项目编写的分析 2 最简便的难度指标通过率 所谓通过率就是在回答某个项目的样本中 正确回答该项目的人数的百 分比 3 项目难度与测验难度的确定 1 对题目难度来说 如果项目过难或过易 就会造成被试基本上都答错或基本上都答对了 也就 是 P 值接近 0 或 1 这样也就不能区分被试能力的差异 大体而言 项目难度为 50 时最理想 此时项 目具有最大鉴别力 2 在实际操作时 一般只需使项目的平均难度接近 50 而各个项目的难度在 50 20 之间变化 如 果测验是用于选拔或诊断 则最好多选一些难度与录取线接近的项目 在项目选择上还有一个要注意 的问题是 当项目形式是选择题时 要考虑到让 P 值大于概率水平 否则项目是无效的 4 鉴别力分析的设想基础 如果单个项目与测验测的是同 11 一特性 那么我们可以预期在测验上 得高分的人正确回答这一问题的概率大 而在测验上得低分的人正确回答这一问题的概率低 鉴别力 分析就是在这一设想的基础上进行的 项目的鉴别力就是其对于所测量的心理特性的区分能力 5 鉴别力分析的一般方法 鉴别力指数 项目 总分相关 项目间相关 6 鉴别力指数是 运用极端组计算项目鉴别力的一种简单方法 公式为 D PH PL 是高分组在项目 上的通过率 而是低分组在项目上的通过率 当 D 19 是 项目差 必须淘汰 但 D 在 20 29 之间时 项目尚可 但必须修改 当 D 在 30 39 之间时 项目良好 但还是最好稍做修改 而当 D 40 时 项目完全可以被接受 但一般测验 D 30 项目就可以接受了 7 项目总分相关是 被试在项目上的得分与其总测验分的简单相关 8 难度水平与鉴别力 难度水平直接限制了一个项目的鉴别力 如果当 P 值接近 50 项目最可能具有 高的鉴别力 但是 P 值接近 50 并不能保证项目有高的鉴别力 只能说在统计上已经没有限制了 9 项目特征曲线 运用图象直观地显示了随着测验者某种心理特征水平的变化 正确回答某个项目的 概率是如何变化的 项目特征曲线是现代心理测量学最有影响的理论之一 项目反应理论或称潜特征理 论的基础 ICC 归纳了项目分析的信息 显示了心理能力水平与项目反应之间的关系 当项目 总体相关为正时 ICC 的斜率也是正的 当相关接近 0 时 ICC 斜率也接近于 0 当相关为负 时 ICC 斜率为负 10 剪裁测验 如果能使测验适合于每个测验者的水平 那么就不用对每个人施测长长的每个能力水 平上均有项目的测验 这种测验就称为剪裁测验 又称计算机化的适应测验 第第 8 8 章章 智力测验智力测验 1 关于智力的定义 1 斯皮尔曼 Spearman 认为 智力是一种普遍的能力 它主要涉及联系的引出和相关的引出 2 比内和西蒙 Binet Simon 认为 智力是正确地进行理解 判断和推理的能力 3 韦克斯勒 Wechsler 认为 智力是个体有目的地行动 理性地思考以及有效地应付环境的总体 能力 2 智力是 通过经验进行学习的能力 适应环境的能力 3 智力的理论 Spearman 和 g 因素 1 在对各种智力和感觉能力的相关模式进行广泛研究之后 提出智力由两种因素组成 一个一般 因素 g 若干个特殊因素 S 2 它认为 g 因子是整个大脑皮层共有的能力或能量 而 S 因子只是代表了大脑中某些神经元的生理 功能 4 智力的理论 Thurstone 与基本心理能力 Thrustone 总结出了七种基本心理能力 语词理解 数 字 空间 知觉速度 语词流畅性 联想记忆 归纳推理 5 智力的理论 Cattell 与流体智力 晶体智力 Cattell 确定了两大因素 流体智力 晶体智力 1 流体智力 基本上是非语言 相对不受文化因素影响的心理功能 它与个体通过遗传获得的学 习和解决问题的能力有联系 2 晶体智力高度依赖于文化 是个体完成那些需要习得性或习惯性反应任务的能力 晶体智力是流 体智力运用在不同文化环境中的产物 6 智力的理论 Piaget 的认知发展理论 主要观点 1 儿童的思维与成人的思维存在质的差别 守恒是指 在物体表面看来发生变化时 能意识到物 体的实质没有变化 2 认知发展可分为四个阶段 感觉运动阶段 前运算阶段 具体运算阶段 形式运算阶段 3 图式是知识获得的基础 图式是经过组织的行为模式或定义明确的心理结构 7 Guilford 与智力结构模型 Guilford 在 1967 年提出了一个智力结构模型 这一模型为三维立方 体 每一维代表一个变量 它包括 1 自变量 代表思维的内容 2 中间变量 代表思维的操作 3 因变量 代表思维的产物 8 Sternberg 与智力的三主理论 该理论包括三方面 成分智力 经验智力 情境智力 9 韦克斯勒智力测验 1 韦克斯勒是从 1932 年开始他的测验编制的 目的是为了设计一个适合于测量精神病人的智力测 验 第一个韦氏测验出版在 1938 年 他将量表分为言语 操作两大部分 这一区分使我们可以比较测 验者使用词语和符号的能力和操作实物 感知视觉模式的能力 2 韦氏验的一般特点 1 几个重要的韦氏测验 1939 年韦克斯勒 贝利弗测验 1949 年韦克斯勒儿童智力量表 WISC 1974 年韦克斯勒儿童智力量表修订版 WISC R 1991 年韦克斯勒儿童智力量表第三版 WISC 2 各个韦氏测验的特点 A 10 12 个分测验 多个分测验使我们不 B 仅得到总 IQ C 而 D 且可以分析个体智力上的强点 和弱点 E 言语量表和操作量表各由 5 6 各分测验组成 这体现了左右脑功能的整合 F 共同 G 的 IQ 计分系统 这使我们可以比较被试的分测验分数 H 了解其相对强弱 I 不 J 同 K 年龄组由相同 L 的分测验有助于测验间的相互比较 3 韦克斯勒测验的分测验 常识 数字广度 词汇 算术 领悟 相似性 填图 图片排列 积木图 案 物体拼凑 译码或数字符号 迷津 句子 几何图形 动物房 A 常识是 一般知识性知识问题 B 要求被试用几句话或几个数字回答 C 问题从易到难排列 缺 点是容易受到文化背景和被试熟悉程度的影响 D 数字广度 由顺背和倒背两部分组成 4 韦氏成人智力量表修订版 WAIS R 共有 11 个分测验 其中包括六个言语量表 常识 数字广度 词汇 算术 领悟 相似性 五个操作量表 填图 图片排列 积木图案 物体拼凑 数字符号 所 有 11 个分测验分数合并成全量表分数 并可以分别求得三个智力商数 言语智商 VIQ 操作智商 PIQ 总智商 FIQ WAIS R 的标准化 被试年龄从 16 74 岁 5 韦氏儿童智力测验修订版 WISC R 适用于 6 16 岁儿童 它由五个言语分测验和五个操作分 测验组成 此外还有 2 个补充分测验 6 韦氏学前和小学儿童智力测验修订版 WPPSI R 该测验与 WPPSI 极为相似 只是年龄范围从原 来的 4 6 5 岁儿童扩展到 3 7 岁 3 个月儿童 7 韦氏智力量表中国修订版 从 1979 年起中国韦氏测验的修订工作由湖南医学院龚耀先教授主持 进行 于 1982 年出版了 WAIS 的中国修订版 WAIS RC 10 个体智力测验 1 斯坦福 比内智力量表 1 1916 年量表 首先采用了智商这一概念 2 1937 年量表 年龄范围从 1916 年量表的 3 13 岁扩展为 2 18 岁 并且编制了测验复本 分别 为 L 型和 M 型 3 1960 年量表 该量表采用离差智商 4 斯坦福 比内第四版 SB FE 该版的最大改变在于采用智力层次模型来划分和构建分测验 SB FE 的智力模型 SB FE 的编制者用一个三层次的认知能力结构模型作为编制量表的框架 这一模 型的最高层是一般智力 g 因子 第二层分成晶体智力和流体智力 此外又增加了短时记忆能力 短时 记忆能力包括珠子记忆 句子记忆 数字记忆和物体记忆四个分测验 2 考夫曼儿童成套评估测验 K ABC 是智力和成就的综合测量 K ABC 是以神经心理学和认知心 理学研究为基础 以 个体问题解决和信息加工模式 定义智力 K ABC 提供四个方面的分数 系列加工 同时加工 综合心理加工 成就测验 3 能力区分量表 DAS 适用于 2 岁 6 个月到 17 岁 11 个月的儿童 11 团体测验于个体测验的差异 团体测验采用多项选择 而个体测验多采用开放式问题 团体测验多采用客观的计算机评分 而个体测验一般为施测者评分 团体测验为团体施测 个体测验为个体施测 团体测验多用于筛选 而个体测验多用于诊断及弥补工作 团体测验标准化样本极大 而个体测验一般只用几千名 精心挑选的被试 12 团体智力测验 1 文化公平智力测验 CFIT 是 一个非言语流体智力测量 最早由 R B Cattell 发表在 教育 心理学 期刊上 它的目标是测量流体智力 避免文化因素的干扰 2 瑞文渐进测验 RPM 该测验既可以个体施测 但更多作为团体施测 该测验实际上是三个不同的测验 瑞文儿童彩色渐进测验 瑞文标准渐进测验 瑞文高级渐进测验 我国由北京师范大学张厚桀教授主持 从 1985 年起对瑞文测验进行修订 13 图书群体测验的类型 非言语测验 古德依纳芙 哈里斯绘人测验 非阅读性测验 婴儿智力测 验 发展程序表 14 非阅读和非动作测验 皮波迪图画词汇测验修订本 PPVT R 是 由 L M Dunn 编制 1981 年修订 的测验 测验由 175 张图片组
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学生素质综合评价实施方案
- 大班亲子活动策划方案(3篇)
- 外墙维修劳务合同范本
- 2025年下半年宿迁《轮机部(船舶辅机8301)》-海船船员考试在线自测试题含答案
- 宁化县小升初数学试卷
- 投资美发合同范本
- 新冠疫情应急物资保障预案
- 押金签订的合同范本
- 云南租车合同范本
- 六年级上册上数学试卷
- 数学原来这么有趣
- 高产小麦品种介绍
- 常见行政案件笔录模版
- 手术室甲状腺切除术手术配合护理查房
- 国家电网电力中级职称考试题
- 数据库设计规范说明
- 建设工程消防验收评定规则
- 肾内科临床技术操作规范2022版
- 山东省临沂市兰山区2022-2023学年小升初数学自主招生备考卷含答案
- 2023年中国工商银行软件开发中心春季校园招聘500人笔试模拟试题及答案解析
- 地质勘查钻探岩矿心管理通则
评论
0/150
提交评论