




已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章心理计量评估的基本知识 2020 4 5 1 第一节信度与效度 信度和效度是衡量测验性能的两个重要指标 反应测验的质量 一 信度 reliability 一 含义 同一被试者在不同时间内用同一测验重复测量 所得结果的一致程度 是指测量结果的稳定性和可靠性程度 信度只受随机误差的影响 理论上 真分数实得分数随机误差 信度 真分数方差 实得分数方差 实际中 一组受测着在同一个测验上两次施测所取得的两组分数之间的相关系数来表示 这个相关系数为信度系数 方差是各个数据与其算术平均数的离差平方和的平均数 2020 4 5 2 信度的作用信度是测量过程中所存在的随机误差大小的反映 信度低 测量随机误差大 测量结果就会与真分数发生较大偏离 信度是衡量一个测验好坏的重要指标之一 测验的信度达到多少才可以接受呢 一般来讲 能力与成就测验的信度应该在0 90以上 人格测量信度系数应该在0 80以上 测量中的系统误差与信度无关 2020 4 5 3 二 检验方法1 稳定性系数 又称再测信度 使用同一测验 在同样条件下对同一组被试者前后施测两次测验 求两次得分间的相关系数 其大小等于同一组被试在两次测验上所得分数的积差相关系数 一般是两周到四周较宜 间隔时间最好不超过六个月 2020 4 5 4 重测信度使用的条件 1 所测量的心理特质必须是稳定的 2 遗忘和练习的效果基本上相互抵消 3 在两次测试时间间隔内 被试在所要测查的心理特质方面没有其他的学习和练习 2020 4 5 5 2 复本信度 Alternate formreliability 含义与计算是指两个平行测验测量同一批被试所得结果的一致程度 其大小等于同一组被试在两个复本测验上所得分数的积差相关系数 计算公式同重测信度 2020 4 5 6 两个复本测验实施的时间不同 复本信度所表达的含义略有不同 1 等值性系数如果两个复本测验是同时连续测试的 则称这种复本信度为等值性系数 等值性系数的大小主要反映着两个复本测验的题目差别带来的变异情况 2020 4 5 7 稳定性与等值性系数如果两个复本测验是相距一段时间分两次测试 则称这种复本信度为稳定性与等值性系数 此时两个题目间的差别 两次施测情境 被试特质水平等方面的差别都会成为测验结果不一致的原因 2020 4 5 8 复本信度使用的条件 1 两个测验必须在项目的内容 形式 数量 难易 时限 指导语等方面相同或相似 2 两次测验的时间间隔要适当 局限 1 复本法只能减少而不能排除练习和记忆效应 2 对于许多测验来说要建立复本是非常困难的 2020 4 5 9 3 分半信度 Split halfreliability 含义与计算是指将一个测验分成对等的两半后 所有被试在这两半上得分的一致性 分半信度信度与等值性系数的解释一样 即可以把对等的两半测验看成是最短时距内施测的两个平行测验 分半信度描述的是两半题目间的一致性 所以也叫内部一致性系数 2020 4 5 10 注意题目分半的方法 按题号奇偶性分半 按题目难度分半 按题目内容分半等 计算方法与复本信度类似 但被试在两半测验上得分的相关系数只是半个测验的信度 所以必须用斯皮尔曼 布朗公式加以校正 2020 4 5 11 使用的前提条件和范围分半信度通常是在只能施测一次或没有复本的情况下使用 其中使用斯皮尔曼 布朗公式时要求全体被试在两半测验分数的变异数相等 当测验无法分成对等的两半时 无法使用 2020 4 5 12 4 同质性信度 Homogeneityreliability 含义同质性信度也叫内部一致性系数 它是测验内部所有题目间的一致性程度 这里的一致性有两种含义 一是所有题目都测的是同一种心理特质 二是所有题目得分之间都具有较高的正相关 同质性信度就是一个测验所测内容或特质的相同程度 2020 4 5 13 5 评分者信度 Scorerreliability 含义与计算评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度 对于主观试题 不同的评分者给出的分数是不等的 这样会造成误差 如何降低评分者信度是心理测量的重要任务之一 2020 4 5 14 二 效度 validity 一 含义效度是指所测量的与所要测量的心理特点之间符合的程度 或者简单地说是指一个心理测验的准确性 测量的效度既受随机误差的影响 同时也受系统误差的影响 效度是随机误差和系统误差的综合反映 判断一个测量是否有效要从多方面收集证据 例如 一个小学数学测验的成绩若同时受到数学能力和语文能力 读懂题意的能力 的影响 测试结果成绩低 就不能认为实际所要测的数学能力这一心理特质水平不高 2020 4 5 15 效度的数学定义 测验分数 有效分数 系统误差 随机误差测验分数的方差 有效分数的方差 系统误差的方差 随机误差的方差效度为有效分数的方差与测验分数方差的比 返回 2020 4 5 16 信度是指测试方法不受随机误差干扰的程度 反映测试结果的一致性和稳定性 consistency andstability 效度反映测试的准确性 accuracy 即在多大程度上测量了想要测的内容 信度和效度的共同点都是以相关系数来表示其大小的 都是整个运用问卷调查技术进行科研工作的可靠性保证 信度和效度的不同点涉及的误差不同信度仅考虑随机误差占测验总变异的比例 效度则还包括与测验无关但稳定的测量误差 研究的角度不同信度 测量的质量效度 问卷的质量 2020 4 5 17 总而言之 信度和效度相互排斥又相互依存 没有信度就不可能有效度 没有效度 信度就毫无意义 高信度可能带来低效度 高效度也可能带来低信度 举例来说 2020 4 5 18 三 效度的种类 内容效度效标关联效度结构效度 返回 2020 4 5 19 1 内容效度 contentvalidity 内容效度的含义测验项目对所要测量的内容范围的代表性程度 估计一个测验的内容效度就是确定该测验在多大程度上代表了所要测量的心理特质 或者说内容效度就是测验的测题对测验内容范围的代表程度 2020 4 5 20 2 验证测验内容效度的一般程序以教育测验为例 专家判断的方法内容效度的确定方法主要是逻辑分析的方法 其工作思路是请专家对测验题目与原定内容范围的吻合程度作出判断 步骤如下 1 明确测验目的及测验内容的范围 2 编制双向细目表 确定每个题目所测的内容 并与测验编制者所列的双向细目表对照3 确定每一小格中的测题数量 4 写出鉴定报告 考察题目对所定义的内容范围的覆盖率 判断题目难度与能力要求之间的差异等 2020 4 5 21 双向细目表举例 上页 22 3 内容效度的应用内容效度适合于测验所要测量的内容总体能够明确界定的情况 标准参照测验知识测验 技能测验等教育测验工作表现可以界定的职业心理测验不适合 智力测验 人格测验 2020 4 5 23 内容效度的局限性 1 内容效度缺乏可靠的统计指标 妨碍了测验间的可比性 2 内容效度由专家判断 带有主观性 3 双向细目表难以编制 2020 4 5 24 2 效标关联效度 实证效度 1 含义衡量测验有效性的一个很重要的方法是看根据测验所作出的预测能否被证实 如果一个测验的预测结果与将来实际发生的事情非常接近 那么这个测验就是一个好测验 效标关联效度 指测验分数与效度标准 被假设或定义为有效的某种外在标准 之间的相关 又称准则关联效度 即根据测验所作出的预测能否被实际的结果所证实 效标即效度标准 指独立于测验结果 反映测验目的的行为参照 2020 4 5 25 2 效标关联效度的类型 同时效度 concurrentvalidity 测验分数与几乎同时获得的效标分数之间的相关 例如 在招聘应届毕业生时 可将应聘大学生的面试和笔试综合分数与其在校综合测评成绩 效标 进行相关性分析 预测效度 predictivevalidity 测验分数与随后获得的效标分数之间的相关 例如 对于被录用者 可以将招聘测试分数与一段时间 半年或一年 之后的工作业绩考核结果进行比较 若这些人的工作绩效和招聘测试分数呈现密切相关关系时 说明招聘方法是有效的 可以推广到人员甄选与选拔中去 同时效度主要用于诊断现状 预测效度在于预测个体将来的行为 返回 2020 4 5 26 例如 用大学入学考试来预测被试入学后的学习 如果入学考试成绩好的同学 入学后的学校能力强 取得了好的成绩 那么说明大学入学考试是一个好测验 这里 被预测的行为 如被试入学后的学习 我们称为效标 所谓效标关联效度 是指测验分数与某一外部效标间的一致性程度 即测验结果能够代表或预测效标行为的有效性和准确性程度 因为效标效度需要有实际证据 所以又称为实证效度 如上例 若大学入学考试能较好地预测大学入学后的学习成绩 那测验就具有较高的效标关联效度 2020 4 5 27 分析效标关联效度的通常作法是对问卷 量表 测量结果与有效标准进行相关分析 相关系数越大表示问卷 量表 的效标关联效度越好 一般认为相关系数在0 4 0 8比较理想 若为连续型变量 计算Pearson或Fisher相关系数 若为分类变量 则计算Kendall或Spearman等级相关系数 一般而言 相关系数在0 4 0 8比较理想 2020 4 5 28 效标与效标测量估计测验效标关联效度首要条件是必须具有效标 准则 观念效标 概念阿斯汀 A W Astin 将效标量化效标测量如对于大学入学考试这个测验来说 观念效标是 大学学习成功 而大学学习成绩是效标测量 2020 4 5 29 1 效标的测量 有效性 高效度可靠性 高信度客观性 实用性 方便 经济 2020 4 5 30 2 常用的效标 学术成就 智力测验 标准化成就测验的效标 实际工作表现 特殊能力测验 部分智力测验和人格测验的效标 团体差异 测验分数能将已经知道的团体差异区分开来 临床诊断 人格测验的效标 特殊训练的成绩 特殊能力测验的效标 等级评定 人格测验中其他人的评定 现有的测验 返回 2020 4 5 31 三 效标关联效度估计的方法 相关系数法分组检验法命中率法 2020 4 5 32 1 相关系数法 方法 积差相关 点二列相关 二列相关 等级相关等优点 提供了预测源与效标之间的数量关系 可利用回归方程来预测效标分数 缺点 预测源与效标是非线性关系时 会低估效度 不能提供关于取舍正确性的指标 2020 4 5 33 2 分组检验法 基本思想 根据被试在准则上的行为表现 将他们分为不同的组别 如果这些组的预测源分数有显著差异 那么 这个测验的预测效度是较高的 步骤 依据被试在准则上的行为表现进行分组 成功与失败或合格与不合格 两独立样组测验分数的均数差异显著性t检验 计算重叠量 2020 4 5 34 3 命中率法 分类决策的正确性 2020 4 5 35 3 构想效度 一 构想效度的含义构想效度 constructvalidity 指测验分数在多大程度上测量或解释了某种理论构想 又译构念效度 二 确定结构效度的基本步骤1 建立理论框架2 提出假设3 检验假设 2020 4 5 36 测验构想效度的方法 1 逻辑验证法根据已有理论 考察测验数据是否符合逻辑推论 如 1 理论认为智力与年龄成正比 2 IQ分数与学习成绩呈显著相关 2020 4 5 37 2 考察测验的内部一致性内部一致性系数来评价某个测验构想效度的高低 3 计算相关系数 效标关联法 相容效度计算新旧同类测验分数之间的相关 区分效度计算不同结构的测验对不同特质的测验之间的相关 汇聚效度计算不同结构的测验对同一特质的测验之间的相关 4 因素分析法通过因素分析找到影响测验分数的共同因素 每个测验在共同因素上的负荷量即每个测验与共同因素的相关 称为测验的因素效度 2020 4 5 38 第二节常模 1 原始分数不能反映考生相对于团体的位置信息王明语文考试80分 你知道他的班级排名吗 以及班级其他同学的信息吗 要正确的解释 评价和使用测验的分数 必须借助于某种参照标准才能解释测验分数的含义 从而作出正确的评价 最常用的方法是建立常模标准 2020 4 5 39 活动2 常模的概念 常模由标准化样本测试结果计算而来 即某一标准化样本的平均数和标准差 是一种供比较的标准量数 常模的构成要素为 1 原始分数 2 导出分数 3 对常模团体的有关具体描述 常模可分为组间常模和组内常模两大类 前者有年级 年龄常模 反映不同群体在测验上表现的差异 后者有百分等级 标准分数 离差智商等常模 2020 4 5 40 被试在接受测验后 按照评分标准对其作答反应直接评出来的分数 叫原始分 导出分是在原始分的基础上 按一定的规则推导出来的分数 其目的是为了更好 更科学地解释分数的含义 这种把原始分数转化为导出分的过程 称作分数转换 原始分与导出分 2020 4 5 41 1 百分等级 含义 它是指把一个总体的所有分数按大小顺序排列后 把所有分数按个数等分为100等份 这每一个等份对应的百分数就是这个分数分布的百分等级 而刚好把所有分数个数分为100份的分数值则叫百分位数 换句话说 百分等级是以百分率的形式来表示一个人的相对等级 即我们将常模样本分成100等份时这个人所占的等级 王晓宁在小学五年级语文书写能力测验中得到原始分数45分 此分数相对应的百分等级为77 这表示他的分数赢过百分之七十七的人 而输给百分之二十三的人 2020 4 5 42 百分等级的计算 百分等级的计算关键在于确定在常模样本中分数低于某一特别分数的人数比例 这可以分两种情况 一种情况是对没有分组资料的数据分布求百分等级 公式为 PR 100 100 R 0 5 N 其中 R为排名顺序 N为总人数 全班50人 小明考了62分 排名第10 求其百分等级 2020 4 5 43 分组的百分等级 X 原始分数L X组所在组下限f X组所在组次数Fb X组所在组以下各组次数之和i 组距N 总人数 L f 53原始分数 Fb 另一种情况是对有分组资料的数据求百分等级 对这类资料中任一个分数计算百分等级的公式如下 2020 4 5 44 评价 百分等级 优点 1 容易计算 容易解释 甚至外行人也能看懂 2 对于各种测验和各种被试普遍适用 缺点 缺少相等单位 属于顺序量表 不能对它进行加 减 乘 除运算 因而使大多数统计分析无法运用 2020 4 5 45 2 发展量表 1 年龄量表智力年龄定义 智力年龄 代表智力水平的年龄 即儿童在年龄量表上所得的分数 特点 智龄单位不保持恒定 一般随年龄而减小 智力年龄计算 期坦福一比纳量表 上自5岁组下至14岁组 每组有6个测题 答对每个测题得智龄两个月 2020 4 5 46 2 年级当量含义 以各年级学生在某份测验上的平均原始分数 作为判断学生学习水平的一个指标 比如 四年级学生中解答问题的平均数为23 则原始分数23相当于4年级的年级当量 4 5就相当于四年级第5个月时的平均成绩 2020 4 5 47 2 年级当量使用注意事项1 年级当量不等同于实际水平 2 不同领域中的相同年级当量 并不意味着在这两个领域能力相等 3 年级当量中的连续增长假设是不可验证的 4 年级当量在分数分布高端和低端的人来说 可能有问题 5 年级常模仅适用于测验所涵盖的年级中所教的一般科目 一般不适用于高年级水平 2020 4 5 48 3 商数比率智商 IQ 智龄 实足年龄 100实足年龄 测验日期 出生日期 30d 月 教育商数 EQ 教育年龄 实足年龄 100 2020 4 5 49 1 线性转换的标准分数 Z分数 标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表 是最常用的一种等距量表 4 标准分数 2020 4 5 50 标准分数的性质 1 任何一批原始分数 转化成Z分数后 平均值为0 标准差为1 2 标准分数的单位是相等的 零点是相对的 3 标准分数本身是关于原始分数的一种线性变换 其分布形状与原始分数相同 4 在一般的情况下 标准分数的取值在 3到 3之间 2020 4 5 51 评价 线性转换的标准分数 优点 1 标准分数是等距量表 能进行进一步统计分析 2 可以对两个以上的测验分数进行比较 举例 某班语文 数学和英语成绩的平均数分别是80分 70分和85分 对应的标准差分别是10分 15分和12分 该班某生三科成绩分别是85分 82分和90分 问 该生这三科成绩哪一科最好 Z语文 85 80 10 0 5Z数学 82 70 15 0 8Z英语 90 85 12 0 42 2020 4 5 52 评价 线性转换的标准分数 缺点 1 不易理解 外行不易看懂 2 线性转换后的标准分数只能用来比较两个分布形态相同的分数 如果分布形态相差很大 仍然不能进行比较 2020 4 5 53 非线性转换的标准分数 为了能将来源于不同分布形式的分数进行比较 可使用非线性转换 将非正态分布转换成正态分布 思考 怎样将原始分数转换成正态化的标准分数呢 原始分数 百分等级 查正态分布表 Z分数 正态化的标准分数 2020 4 5 54 标准分数变形 在标准分数Z的应用中 由于标准分数Z分值过小 并往往带有小数和负值等缺陷 在许多情形下直接使用不大合乎人们表示分数的习惯 故通常把标准分数Z通过线性变换转到更大的标准分数量表上 Z分数一般转换公式为T a bza和b为选定的两个常数 Z为标准分数 T为线性变换的标准分数 2020 4 5 55 教育与心理测验中的T分数 T 50 10Z韦氏智力量表中各分测验的量表分 T 10 3Z韦氏智力量表智商 离差智商 IQ 100 15Z美国大学入学考试报告分数 CEEB 500 100Z为出国人员举行的英语水平考试 EPT 90 20Z美国教育测验中心举办 托福 考试 TOEFL 500 70Z 举例 2020 4 5 56 二 常模标准化 常模标准化是指常模团体具有代表性 常模来自一个团体 而非某个个体 2020 4 5 57 常模团体的界定 常模团体是由具有某种共同特征的人所组成的一个群体 通常选择一个能够代表总体的样组 该样组就叫做标准化样组 也就是常模团体 它用一个标准的 规范的分数表示出来 以提供比较的基础 2020 4 5 58 常模团体建立的条件 群体的构成必须明确界定常模团体必须是所测群体的代表性样本样本的大小要适当标准化样组是一定时空的产物为特殊群体制定特殊常模 2020 4 5 59 中国正常人SCL 90常模 N 1388 60 全国青年SCL 90常模 N 781 61 全国部分地区大学生SCL 90常模 N 4141 62 江西省全日制大学生SCL 90常模表 N 3422 63 常模团体必须是所测群体的代表性样本 常模团体缺乏代表性 会使常模资料产生偏差而影响对测验分数的解释 简单随机取样等距抽样分层随机取样两阶段随机取样 2020 4 5 64 样本的大小要适当 依据统计取样的原理 样本愈大则所求得的统计量误差愈小 愈接近总体的统计量 在实际工作中 应从经济的或实用的可能性和减少误差这两方面来综合考虑样本的大小 总体数目小 只有几十个人 则需要100 的样本 如果总体数目大 相应的样本也大 一般最低不小于30或100个 全国性常模 一般应有2000 3000人为宜 2020 4 5 65 标准化样组是一定时空的产物 由于教育 时代变迁等多种因素的影响 几年前所编制的常模可能不再适合 因此常模必须定期地修订 要以批判的眼光看待旧的常模 并尽可能采用新近的常模 2020 4 5 66 常模建立举例 中国新兵SCL 90常模的建立 中国心理卫生杂志 2000年04期全国大学生SCL 90新常模构建问题研究 中国校医 2009年03期3 7岁儿童气质量表全国城市常模的建立 中国儿童保健杂志 1998年04期中国小学生基本数学能力测试量表常模的建立 中国临床康复 2006年30期中学生SCL 90信度 效度检验与常模建立 中国心理卫生杂志 1999年01期Conners教师评定量表的应用性研究及壮族常模的建立 右江民族医学院学报 2005年02期 2020 4 5 67 三 常模参照测验与标准参照测验 常模参照测验 标准参照测验 2020 4 5 68 第三节其他有关测验的知识 2020 4 5 69 2020 4 5 70 例1某人在新入学的大学生中随机抽取40人 组织症状自评量表 SCL 90 测验 以了解新生心理健康的水平 及有针对性地进行心理教育和疏导 避免意外事件的发生 试就量表测验结果 对此次测验的可靠性进行分析 71 SCL 90量表 包含90个题目 由受试者根据自己在最近一周以内的实际感受 在 没有 很轻 中等 偏重 严重各选项中选择一个答案 每个选项分别计为0 1 2 3 4分 SCL 90分为9个因子 分别为躯体化 强迫症状 人际关系敏感 忧郁 焦虑 敌对性 恐怖 偏执和精神病性 分析对象为答卷者所选的五项答案得分 计算各因子得分和问卷总分 求各因子的各种信度系数和问卷总的信度系数 2020 4 5 72 表11 2各因子描述统计量 73 2020 4 5 74 在 Model 选项中 SPSS提供5种信度分析模型 Alpha Cronbach 系数 Split half 分半信度 又称Spearman Brown系数 其应用的前提条件是两个分半表的信度和方差均满足齐性 Guttman Guttman分半信度 可不满足上述要求 Parallel 平行模型 StrictParallel 严格平行模型 2020 4 5 75 量表的cronbach 系数 从菜单选择Analyze Scale ReliabilityAnalysis Item a1 b2 c3 a4 j89 i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药企厂房扩建知识培训内容课件
- 烧烤店员工聘用合同(标准版)4篇
- 个人借条债权转让协议书模板4篇
- 葡萄酒产区特色品牌国际化品牌国际化品牌国际化风险管理报告
- 教育行业教育信息化培训报告:教育信息化培训策略与实施
- 苹果健康知识培训课件
- 社区卫生服务站员工合同4篇
- 风电叶片回收处理技术2025年创新应用与市场潜力报告
- 热力管道培训课件
- 老龄化趋势下的2025年:老年健康管理长期照护服务模式创新与护理管理创新实践案例分享
- 鉴定机构运营管理制度
- 医院不良事件上报制度
- 《劳动项目四 扫地》(教案)-2024-2025学年人教版劳动二年级上册
- 双馈风机送出线路的暂态响应特性及保护适应性分析
- 2025年江苏东台市国有资产经营有限公司招聘笔试参考题库含答案解析
- 信息技术(基础模块)课件 第5章-新一代信息技术概述
- “教联体”在家校社协同育人中的实践
- 2025年道教人员考试试题及答案
- 商业装修工程合同样本范本
- 《居住区景观设计》课件
- 初中数学新人教版七年级上册第三章《代数式》教案(2024秋)
评论
0/150
提交评论