




已阅读5页,还剩118页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
心理测量学 心理学的重要研究方法之一 第一节概述 一 测量的基本概念 一 测量的定义测量 依据一定的法则 使用量具对事物的特征进行定量描述的过程 一定的法则事物的特征量具定量描述 二 测量的基本要素 1 参照点绝对参照点 绝对零点 相对参照点2 单位好的单位须符合两个条件 意义明确 同一单位对所有人来说意义相同 等价 第一单位与第二单位之间的距离 第二单位与第三单位之间的距离 三 测量的量表 量表 scale 使事物的特征数量化的数字的连续体 Stevens 将量表从低到高分为4个等级 1 命名量表 NominalScale 2 顺序量表 OrderScale 3 等距量表 IntervalScale 4 比率量表 RatioScale 1 命名量表 NominalScale 用数字来代表事物或对事物进行分类 代号 类别数字只是一种名称的替代物 不同的个体用不同的数字标志 如球员的号码 各种分类标志 男或女 正常或异常 等 2 顺序量表 OrderScale 给个体赋值 使数值的大小次序与个体在所测量的心理特性上的多少 大小 高低等的次序相符合 顺序量表在心理和教育中十分常见 如竞赛成绩排名等 3 等距量表 IntervalScale 给个体赋值 使数值间的差不仅能够反映出对应个体在所测量心理特性上的排序 而且能够反映出对应个体在该特性上的差异程度 如温度计 偏爱程度等 但建构间距量表不是容易的事 常常只能做到顺序量表 4 比率量表 RatioScale 给个体赋值 使数值间的比率能够反映对应个体在测量心理特性上比率 如身高 体重 速度等 但在心理学中是极少见的 心理测量通常都是顺序量表 为方便比较 通常把顺序量表转换为等距量表 二 心理测验的基本概念 一 定义心理测验 依据心理学理论 使用一定的操作程序 通过观察人的少数有代表性的行为 对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段 1 心理心理测验测量的是人的行为2 行为样本 从总体行为中抽取出来的 能够反映个人特定心理特质的一组行为 作为直接的测量对象 3 测验条件对所有被试必须是相同的 4 原始分数的解释只有与其他人的分数或常模比较才有意义 二 心理测量的性质 1心理测验的间接性通过测量外显行为来推断内隐的心理特质2心理测验的相对性没有绝对的标准3心理测验的客观性测验的客观性实际上就是测验的标准化问题 三心理测验的种类 一 心理测验的种类 一 按测验的功能分类1 能力测验智力测验 特殊能力测验 能力倾向测验2 学绩测验已获得的学业成就3 人格测验兴趣 态度 动机 气质 性格 二 按测验的方式分类1 个别测验优点 获得的信息多 容易建立融洽的合作关系 特殊被试 幼儿 盲人 缺点 费时 复杂 对主试要求高 2 团体测验优点 缺点 三 按测验材料性质分类1 文字 纸笔 测验2 非文字 操作 测验文化公平测验 四 按测验材料的严谨程度分类1 构造性测验2 投射性测验 五 按测验的要求分类1 最高行为测验2 典型行为测验 四 对心理测验的科学态度 一 错误观念1 万能论2 无用论3 心理测验就是智力测验 心理测验 智力测验 智商 遗传决定论 二 对待测验的正确态度1 心理测验是研究心理学的重要方法之一 是决策的辅助工具 2 心理测验作为研究方法和测量工具尚不完善 3 防止乱编和滥用心理测验 第二节测验的常模 一 常模团体 一 常模团体的性质由具有共同特征的人所组成的一组群体 或是该群体的一个样本 任何一个测验 都有许多可能的常模团体 在制定常模时 首先要确定常模团体 在对常模参照分数做解释时 也必须首先考虑常模团体的组成 二 确定常模团体的注意事项 常模团体的四个条件 1 群体构成的界限必须明确对每个常模团体的性质和特征的简短且明确的描述 2 常模团体必须是所测群体的代表性样本克服取样偏差 采用正确的取样方法 随机取样 系统抽样 分层取样 3 样本大小要适当从统计学原理上说 样本是越大越好 但考虑到经济 实用 样本数量也不能无限扩大 样本大小可以根据以下几方面来确定 常模总体的数目 总体数目小 则样本数目也小 总体数目大 样本数目也应大 一般来说 样本最好应有30 100人 如果是全国性常模 一般应有2000 3000人为宜 总体性质 总体性质越复杂 样本容量就越大 测验结果的精确度 精确度要求越高 样本量就越大 4 常模团体必须是近时的 三 取样的方法 取样 从目标人群中选择有代表性的样本上 统计学分类 随机抽样 非随机抽样随机原则 从总体中取样时 每个个案被抽取的机会是均等的 1 简单随机抽样按随机表顺序抽样 每个人或抽样单位有相同的机会成为常模中的一部分 2 系统抽样是介于随机抽样和和非随机抽样之间的一种抽样方法 其第一种样本可以依立意抽样法抽取 亦可用随机方式抽取 具体抽样流程为 抽样前 须将母体的每一个单位编号 先计算样本区间 即N n N表示母体的数目 n表示样本的大小 如果样本区间为分数 可四舍五入化为整数 然后从1到N n号中随机抽出一个号码作为第一个样本单位 将第一个样本单位的号码加下样本区间即得第二个样本单位 依此类推 直到样本数抽够为止 3 分组抽样先将总体依照一种或几种特征分为几个子总体 类 群 每一个子总体称为一层 然后从每一层中随机抽取一个子样本 将它们合在一起 即为总体的样本 称为分层样本 比如某中学有1000名学生装 其中男600人 女有400人 欲采用分层抽样从中抽取100人的一个样本 则其中男应有60人 女应有40人 样本的精确度还与分层数目及样本大小密切相关 分层越细 样本越大 则样本的代表性越好 4 分层抽样是将总体按照某种标准 年龄 文化程度 划分为一些子群体 每一个子群为一个抽样单位 用随机的方法从中抽若干子群 将抽出的子群中所有个体合起来作为总体的样本 四 常模分数与常模 1 常模分数 对常模样本施测后 将被试的原始分数按一定规则转换出来的导出分数 2 常模常模分数构成的分布是 它是解释心理测验分数的基础 种类 一般常模 特殊常模常模分数和常模均会随时间的变化而改变 因此常模必须经常修订 五 常模的类型 类型 1 发展量表2 商数3 百分位4 标准分数 一 发展量表 1 心理年龄 mentalage 智力年龄 指被试智力发展水平的年龄 单位是年 或岁 和12个等距的月 年龄量表最基本的假设是 随年龄的增长 所测量的特质有系统的改变 因此 不适用于成人 年龄量表的基本要素 1 题目 可区分不同年龄组 2 常模团体 由各个年龄被试组成的有代表性样本 3 常模表 2 年级当量 gradeequivalents 即年级常模 用年级代替年龄 指把学生的测验成绩与各年级学生的平均成绩比较 看他相当于几年级的水平 年级常模的单位通常为10个月间隔 如5年级的分布为5 0到5 9 年级当量只适用于一般课程 不适合只学1 2年的课程 年级当量只适用于解释本学年的水平 不适用于跨学年的 如一个五年级学生的年级当量为8 并不能说他已经掌握了8年级的课程 3 发展顺序量表 ordinalscales 格塞尔发展顺序量表格塞尔认为 婴幼儿的行为系统的建立是一个有次序的过程 反映了神经系统的不断成长和功能的分化 因而可以把每个成熟阶段的行为模式作为智能诊断的依据 皮亚杰量表用特定的任务来揭示儿童发展处于哪个阶段 5岁 质量守恒6岁 重量守恒7岁 容量守恒 二 商数 quotient 1 比率智商IQ 100 MA CA 缺点 实龄是等距的 而智龄不等距 智力发展不是直线的 计算成人智商时 以多大实龄作为除数 智力生长何时达到顶点 不同年龄组 比率智商分数具有不同的标准差 因而相同的比率智商对于不同年龄具有不同的意义 2 离差智商 IQ 100 15Z 三 百分位 1 百分等级 percentilerank 概念 某个分数的百分等级就是得分低于这个分数的人数的百分比 百分等级指示个体在常模团体中的相对位置 百分等级越低 个体所处的地位越低 2百分点相对于某一百分等级的分数点叫百分点或百分位数 3十分位百分点将分数分布分成100个等份 十分位是将分数分成10个等份 十分位提供一个10级的等级量表 每一级包括10 的分数 百分位的评价优点 1 容易计算 容易解释 2 对于各种被试和各种测验普遍适用 缺点 1 缺少相等单位 属于顺序量表 不能做加减乘除运算 2 分布与分数分布不一致 四 标准分数 standardscore 1Z分数 X XZ S不仅具有可比性 还具有可加性 Z 0SZ 1 3 3 约占总体的99 73 除了Z分数外 还可以把Z分数转换成T分数 标准九 离差智商等 转换方法 线性转换 从正态到正态非线性转换 从偏态到正态 通过百分等级 2T分数 非线性转换 常态化 纪念Terman和Thorndike T 10 Z 50平均数为50 标准差为10 3标准九 stanine 标准化九级分制标准九 5 2Z 即平均数为5 标准差为2 4离差智商 deviationIQ IQ 100 15Z 六 常模分数的表示方法 一 转化表转化表的3个基本要素 原始分 导出分 常模团体的特征描述 1 简单转化表2 复杂转化表 二 剖析图 第三节测验的信度 测量误差及其来源一 测量误差的含义 测量值与实际值的差异二 测量误差的种类系统误差 测量工具本身引起的误差 稳定 随机误差 由不稳定因素引起的误差 不稳定 真分数及其有关的假设 真分数 TrueScore 一个测量工具在没有测量误差时 所得到的纯正值 操作定义 无数次测量结果的平均值 观察分数 ObservedScore 测验分数 真分数的数学模型及其假设X T EX 测验分数T 真分数E 误差测量误差的假设 X T或 E 0 SX2 ST2 SE2实得分数的变异数 真分数的变异数 误差变异数 随机误差 ST2 SV2 SI2真变异数 与测量目的有关的变异数 与测量目的无关的稳定的变异数 系统误差 SX2 SV2 SI2 SE2 SX2 ST2 一信度概述 一 什么是信度 信度 reliability 是指测量结果的稳定性程度 也叫测量的可靠性 操作定义 一组测量分数的真变异数与总变异数 实得变异数 的比率 rxx ST2 Sx2rxx 信度系数 注意 1 信度指的是一组测验分数或一系列测量的特性 而不是个人分数的特性 2 真分数的变异数是不能直接测量的 因此信度是一个理论上构想的概念 只能根据一组实得分数作出估计 二 信度的作用1 评价测验 信度是测量过程中所存在的随机误差大小的反映2 解释个人测验分数的意义SE SX 1 RxxSE 标准误Sx 所得分数的标准差rxx 测验的信度真分数的置信区间 95 X 1 96SE3 不同测验分数的比较 二信度的估计方法 一 重测信度1 含义和计算重测信度 test retestreliability 用同一量表对同一组被试施测两次所得结果的一致性程度 rxx X1X2 N X1X2 S1S2 2 使用的前提条件所测量的心理特质必须是稳定的 练习和遗忘的效果基本上相互抵消 在两次施测的间隔时期内 被试在所要测查的心理特质方面没有获得更多的学习和训练 二 复本信度 1 含义和计算复本信度 Alternate formreliability 是指两个平行 等值 的测验测量同一批被试所得结果的一致性程度 计算方法与重测法相同 施测的安排 等值性系数 两个复本测验是同时连续施测的稳定等值系数 重测复本信度 两个复本测验是相距一段时间分两次施测的 2 使用的前提条件两测验真正平行 项目的内容 形式 数量 难易 时限 指导语等被试要有条件接受两个测验 注意 时间间隔要适当 3 局限只能减少而不能排除练习和记忆的影响 许多测验建立复本相当困难 三 分半信度 1 含义和计算分半信度 split halfreliability 是指将一个测验分成对等的两半后 所有被试在这两半上所得分数的一致性程度 假设 两半测验等值 常见的分半方法是按测题序号奇偶分半 l测验题目按某种顺序 如难度 排列 l如果是随机排列的题目 则必须是所有题目是平等的 要么难度相等 要么性质一致 是测同一个心理特质的 l如果测验有多个分量表 应在分量表内部排好顺序 再把各分量表的两半组合起来求相关 奇偶分半法作用注意事项 如果有相互有牵连的项目或一组解决同一问题的项目时 这些项目要放在同一半中 如果试卷中存在任选题或试卷为速度测验时 不宜使用分办信度 分半法是按正常的程序实施测验 然后将全部项目分成相等的两半 根据各人在这两半测验的分数计算其相关 然后进行修正 校正公式 斯皮尔曼 布郎公式rxx 2rhh 1 rhh rhh是两半测验分数之间的相关系数 当假定 两半测验等值 具有相同的平均数和标准差 不成立时 用弗朗那根公式或卢仑公式来估计信度 弗朗那根公式 rxx 2 1 Sa2 Sb2 Sx2 Sa2 Sb2是两半测验分数的变异数 Sx2是测验总分的变异数 卢仑公式 rxx 1 Sd2 Sx2Sd2 两半测验分数之差的变异数Sx2 测验总分的变异数 四 同质性信度1 含义同质性信度 homogeneityreliability 也叫内部一致性系数 是指测验内部所有题目间的一致性程度 可弥补分半法的不足 2 计算及适用范围基本公式 rkk Krij 1 K 1 rij K为测验项目数rij是项目间相关系数的平均数 库德 理查逊公式KR20公式 rxx K K 1 1 piqi Sx2 pi为答对第i题的人数的比例 qi为答错第i题的人数的比例 K为题目数 Sx2为测验总分的变异 适用于 已知各项目的难度 五 评分者信度1 含义和计算评分者信度 scorerreliability 是指多个评分者给同一批人的答卷进行评分的一致性程度 2人时 相关系数 积差相关 90多人时 肯德尔和谐系数W 12 Ri2 Ri 2 N K2 N3 N K 3 20 N 3 7时 查W表检验 RI为第i个被试被评的水平等级之和 七 影响测量信度的主要因素 一 被试方面被试团体同质性越高 个体差异越小 所得相关系数 信度 就越低 被试团体异质性越高 个体差异越大 所得相关系数 信度 就越高 二 主试方面指导语 态度 期望等 三 施测情境 四 测量工具测验长度 测验越长 信度越高 测验难度 过难或过易都会使个体间得分差异减小 降低信度 测验内容 试题取样不当 内部一致性低 题意模糊 信度则低 五 两次施测的间隔时间间隔时间越短 信度越高 间隔时间越长 信度越低 第四节测验的效度 一效度的概念1 什么是效度效度 validity 是指一个测验或量表实际能测出其所要测的心理特质的程度 1 效度是一个相对的概念 每个测量工具都有自己的目的 内隐特质是通过外显行为间接测得的 2 效度是测量的随机误差和系统误差的综合反映 3 判断一个测量是否有效要从多方面收集证据 操作定义 效度 SV2 SX2 rXY2 SX2 ST2 实得分数的变异数 真分数的变异数 误差变异数 随机误差 真变异数 与测量目的有关的变异数 与测量目的无关的稳定的变异数 系统误差 2 效度与信度的关系 1 信度高是效度高的必要而非充分条件一个测验效度高 其信度也必然高 但一个测验信度高 其效度不一定高 2 测验的效度受它的信度制约rXY rXX一个测验的信度必然比效度高 至少相等 二 效度的估计 1 内容效度内容效度 contentvalidity 是指测验题目对有关内容或行为取样的适当程度 即一个测验实际测到的内容与所要测量的内容之间的吻合程度 一个测验要有内容效度必须具备两个条件 1 要有定义完好的内容范围 2 测验题目应是所界定的内容范围的代表性取样 应用范围 主要应用于成就测验 也适合于某些用于选拔和分类的职业测验 不适用于能力倾向测验和人格测验 表面效度 surfacevalidity 外行人对某个测验从表面上看好像是测某种心理特质的程度 并不是一种真正的效度 人格测验要求表面效度不宜过高 2 内容效度的确定方法 1 逻辑分析法 专家根据自己的知识经验对量表的有效性 逻辑性 作出判断 也称逻辑效度 为使内容效度的判断过程更客观 一般采用下列步骤 确定测验内容的总体范围 编制双向细目表 编制评定量表 从测验内容所测的技能 题目对所定义的范围的覆盖率 各种题目数量和分数的比例以及题目形式的适当性等方面 对测验作出总的评价 2 统计方法 用两个测验复本来测同一批被试 若相关高 则内容效度可能高 但若相关低 则说明必有一个测验缺乏内容效度 3 经验推测法通过实践来检验效度 2 结构效度 structurevalidity是指一个测验实际测到所要测量的理论结构或特质的程度 或者说测验分数能够说明心理学理论的某种结构或特质的程度 特点 1 具有不同理论构思的测验 其结构效度无法进行比较 2 结构效度有时很难获得 3 结构效度没有单一的指标 是由各方面的证据累积起来进行评价的 结构效度的确定方法 结构效度确立的一般步骤 1 提出理论框架 2 依据理论框架推演出有关测验成绩的假设 3 用逻辑或实证的方法来证明假设 结构效度的确定方法 结构效度确立的一般步骤 1 提出理论框架 2 依据理论框架推演出有关测验成绩的假设 3 用逻辑或实证的方法来证明假设 具体方法 1 测验内部寻找证据法分析测验的内容效度 若内容效度高 说明其结构效度也高 分析被试对题目反应的特点 有无社会称许性的题目 如 当事情不顺我意时 我时常动怒 对该题的回答 也许反映不了要测的性格 计算测验的同质性信度 分半信度 系数 KR20 KR21 2 测验之间寻找证据法相容效度 新老测验之间的相关 两测验测的是同一心理特质 若相关高 则说明新测验可能有较高的效度 区分效度 新老测验之间的相关 两测验测的不是同一心理特质 若相关低 则说明新测验可能有较高的效度 因素分析法 得出的因素符合理论的构思 说明效度高 3 考察测验的实证效度法根据效标把被试分组 考察其得分差异 根据测验得分差异把被试分组 考察其所测特质 行为表现 的差异 4 实验法和观察法证实实验前 训练 实验后 3 实证效度 含义 种类及作用实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性 效标 criterion 被估计的行为是检验测验效度的标准 衡量一个测验是否有效的外在标准 实证效度又称效标关联效度 criterion relatedvalidity 常用的效标 学业成就临床诊断实际工作表现特殊训练成绩不同团体的总体表现先前有效的测验等级评定 效标测量的条件 a 有效性 效标测量能真正反映观念效标 b 可靠性 有较高的信度c 客观性 效标测量必须能真正反映观念效标 防止效标污染 效标污染 criterioncontamination 是指评定者知道被试的测验分数 因而影响到对效标的客观评定 d 实用性 经济实用 实证效度的确定方法 1 相关法测验分数与效标测量之间的相关系数 优点 数量化 可用回归方程进行个人效标预测缺点 要求预测源与效标呈线性关系 无法提供关于取舍正确性的指标 2 区分法检验测验分数能否有效地区分由效标所定义的团体 T检验 重叠量计算 3 命中率法应用范围 预测源和效标都是二分的 强调社会公平时使用 总命中率 B C A B C D 当测验用于提高工作或学习效率时使用 正命中率 B A B 四 影响测量效度的因素 A 测验的构成项目的质量 题型 区分度 难易顺序 项目数量测验长度与效度的关系 r nx y nrxy n 1 rxx nrxx n测验增长倍数 B 测验的实施过程C 接受测验的被试常模团体的同质性影响到对被试测验得分的解释 进而影响到测验的效度 测验偏倚 testbias 是指用不适用于被试的标准来解释被试的测验得分 因而造成解释的偏差 D 效标测量行为与所选效标的相似性越高 效度越高 测验分数与效标行为之间是否是线性关系 如果不是线性关系 求皮尔逊相关就会低估效度 效标本身的测量越可靠 效度就可能越高 E 测量的信度 第五节项目分析 项目分析 对项目进行筛选和修订 可以提高测验的信度和效度 定性分析 内容效度 题目编写的恰当性和有效性等的分析 定量分析 主要是指题目难度和区分度的分析 一 测验的难度 一 难度 difficulty 的含义难度 指项目的难易程度 在 最高 作为测验中 称为 难度 而在 典型 作为测验中 则指 通俗性 两者都是指在总体中 能够正确或确切回答某项目的人数 二 难度的计算 1 二分法记分项目 是非题 选择题 的难度用通过率来表示 通过率 易度 P R NR 通过人数 N全体被试人数P越大 难度越小 用极端分组法 上下27 被试较多时 测验总分从高到低排列 分别计算高分组和低分组在某一项目上的通过率 合并 P PH PL 2选择题难度的校正 CP KP 1 K 1 CP 校正后通过率 P 实得通过率 K 备选答案数目 2 论述题等非二分法记分项目的难度P X XmaxX 所有被试在该项目上的平均得分 Xmax 该项目的满分 三 测验难度水平的确定 项目难度取决于测验的目的 性质和项目形式 1 测验目的 效标参照测验 掌握测验 不考虑难度 选拔测验 难度 录取率2 项目形式选择题的难度一般应大于猜测概率 3 测验性质 一般都应防止被试得满分 满分的意义是不明确的 大体而言 难度为0 50时最理想 此时项目具有最大的鉴别力 在实际操作中 让所有项目难度都到达0 50困难很大 而且也不必要 一般只需使项目的平均难度接近0 50 而各个项目的难度在0 50 0 20之间变化 测验难度 1 测验难度影响测验分数的分布形态难度大 正偏态难度低 负偏态 2 测验难度影响测验分数的离散程度测验过难或过易 分数全距缩小 信度降低 P 0 50时最佳 二 测验的区分度 一 区分度的含义区分度 discrimination 指测验项目对被试心理品质水平差异的区分能力或鉴别能力 项目的区分度是测验是否有效的 指示器 高区分度项目能将不同水平的被试区分开来 二 区分度的计算1 鉴别指数法鉴别指数 indexofdiscrimination D 的计算 比较测验总分高和总分低的两组被试在项目通过率上的差别 D PH PLD值越大 区分度越高 项目越有效 伊贝尔鉴别指数评价标准 2相关法 相关法 项目 总分相关 以某一项目分数与效标分数或测验总分的相关作为该项目区分度的指标 相关越高 区分度 相关的计算方法 1 二列相关适用于 两个连续变量 其中一个变量被人为分成两类 如 一个测验的题目分数是连续的 而效标分数或测验总分被分成及格 不及格 效标分数或测验总分是连续的 而项目分数被分成通过 不通过 2 点双列相关 适用于 双变量数据例如 有一列数据是连续变量数据 如体重 身高以及许多测验与考试的分数 另一列数据是二分类的称名变量数据 如性别 分男与女 态度 分赞成和不赞成 学习经历 分有与无 考试结果 分合格与不合格 题目解答 分答对与答错 等数据 三 区分度与难度的关系 第六节测验编制的一般程序 一 测验的目标分析 对象 用途 目标二 测题的编写三 测验的编排和组织 一测验的目标分析 一 明确测量对象年龄 性别 职业 受教育程度 经济状况 民族 文化背景等 二 明确测量用途用于显示 或用于预测 三 明确测量目标工作分析 心理变量或行为特征 能力 人格 学业成就 对特定概念下定义 操作定义 具体 确定测验具体内容 双向细目表 二 测题的编写 一 收集测验资料
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论