第五章--社会科学研究中的测量_第1页
第五章--社会科学研究中的测量_第2页
第五章--社会科学研究中的测量_第3页
第五章--社会科学研究中的测量_第4页
第五章--社会科学研究中的测量_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章 社会科学研究中的测量 用工具检测事物的某个性质并用数字或其他符号表达它的大小叫做测量 测量是把该性质量化的过程 日常我们用直尺 衡器 仪表等各种工具测量物 体的长度 重量 体积 温度等物理性质 在自然科学中 研究者们用更为精 确 可靠的测量工具 对许多事物进行更缜密更细致的测量 一般说来 社会科学需要测量的是比自然科学更为抽象的事物 如 智商 工作业绩 幸福感 等 为了分析比较 我们用数字把它们量化 社 会科学中有些概念如 智商 已有了较为成熟的测量工具 更多的则没有 这 就需要运用我们的创造力 设计出新的测量工具 将原本无法测量的事物量化 社会科学的测量在不断发展 对很多事物人们还缺乏透彻的了解 对怎样 界定这些事物科学工作者们还未达成一致的意见 测量什么 怎样测量 用何 种工具 工具的有效性和可靠性如何 都是社会科学研究方法中的重大课题 准确界定待测量的事物并建立准确有效的测量方法是研究人员孜孜以求的目标 本章论述什么是测量 测量的精度 信度和效度 并说明在研究中运用测 量的一些方法 5 1 测量简介 5 1 1 什么是测量 在生活中 人们经常对事物的性质评头论足 如我们说小李聪明 说老王 脾气不好 说哪家饭店很棒 或者说昨晚的电影糟透了 这些评论都认为事物 的某个性质有大小 高低之分 并可加以比较 把事物分类 或进而比较 这 是测量的雏形 类似的评判有时至为关键 与人们利益攸关 比如需要确定员工的 工作 业绩 考察科研人员的 科研成绩 等等 以前在给职工分房的时候 还 要对 分房的资格 进行综合打分 然后排队 这些都需要量化 需要由简单 的判断发展成为比较准确的测量 到底什么是测量 简单地说 测量是根据规则将数字或其他符号赋予事物 或性质的过程 如语文教师改作文 可根据文章的质量分别打上 优 良 中 差 这个等级评定就是一种测量 是用语词打分 语词是一种符号 我们也 可用另一套符号如字母A B C D打分 再比如我们打算买汽车 发现各种 车的价格相差无几 于是决定根据车的外观 油耗和售后服务这三点进行比较 我们用数字给这三点分别打分 最满意的打5分 次之打4分 最不满意的打1分 以此排序 结果如表5 1 表5 1 给汽车打分 外观油耗服务总分 汽车甲1214 汽车乙45312 汽车丙55515 汽车丁53412 汽车戊1359 从表中可看出 丙车得分最高 因此是最佳选择 测量是赋值行为 什么需要赋值 赋值用什么样的符号或数字 以及怎样 赋值 事先都必须有说明 即必须有规则 赋值后的数字有的可用于比较 用 来观察事物之间的关系 如上面买车的例子 车与车就外观 油耗或服务任一 方面或三个方面都可比较 此外 外观和油耗 外观和服务 油耗和服务之间 也可以比较 上述表明 测量有三个要素 数字或符号 赋值以及规则 分别来看 数字或符号可以是阿拉伯数字 罗马数字 语词和其他任何可表示区分的 符号 数字或符号可用于代表人 物 性质 现象等 然而同是数字 其意义 不尽相同 并非所有数字都具有可加 减 乘 除的数学性质 有时数字只是 识别的标记 如车牌号码 身份证号码 旅馆房间号码等 这时数字和其他符 号的作用相似 唯一不同的是 用作符号的数字在帮助组织和记忆事物方面有 长处 如房间 车厢等号码模拟自然数的序列 便于寻找相应的房间和车厢 只有具有数学性质的数字才能用于量化分析 这类数字揭示量的信息 可用于 剖析事物之间大小 多少 高低等关系 测量中的赋值是一种映射关系 数字或符号被映射到事物之上 事物都给 贴上了标签 图5 1表示了这一过程 凡是圆形都被赋予1 方块都被赋予2 图 5 1 映射 测量的第三个成分是规则 规则说明怎样进行赋值 即根据什么标准 将 哪些符号赋予事物的哪些方面 如对汽车的耗油情况 我们规定 单位时间耗 油从高到低依次打1 2 3 4 5分 这就是一条规则 5 1 2 为什么要进行测量 测量的目的是为了对事物进行量化 以便对事物进行分析比较 测量延伸 我们的感官 测量帮助我们发现原本不易察觉的信息 科学的测量比人们日常的判断更准确 可靠和客观 并且提供量化的信息 温度计显然比人们的触觉要可靠 用衡器称重无疑比估摸要准确 除了精确和客观 科学的测量还使人们观察到平常看不见摸不着的东西 科学测量可以延伸我们的视觉 听觉 触觉等感官 如天文学家和生物学家用 天文望远镜和显微镜延伸视觉 从微观的分子到宏观的星系 科学使我们见到 了无数从前见不到的事物 社会科学工作者感兴趣的事物有些是有形的 如性别 肤色 但很多是无 2 1 形的 如态度 个性 能力 智商 又如凝聚力 逆反行为 青少年犯罪 综 合国力 消费水平 生活满意度 等等 社会科学的任务之一就是创造出测量 这些事物或性质的方法 用适当的数字或其他符号加以表述并进行量化分析 正如自然科学不断创造出新的测量工具 社会科学也在努力寻找量化事物 的新方法 新技术 拥有高效度 高信度的测量工具是学科发达的标志 在社 会 经济 教育 法律等各个领域 发达国家已发展形成各种卓有成效的指数 量表 测验等测量工具 可用于考察现状 解释现象或做出预测 这些测量技 术和手段已成为社会和经济发展的晴雨表 5 1 3 量度 度量和指标 为了便于讨论 我们有必要对有关测量的一些词汇做出界定 根据 现代汉语词典 量度 是对 长度 重量 容量以及功 能等 各种量的测定 量度 显然指的是测量过程 描述动作 本书用作同一意 义 但把它引申于对社会科学中事物的测量 度量 是描述事物的名词 根据 辞海 它是 计量长短和容积的标 准 本书把 度量 一词用作抽象的计量标准或单位 相当于英语的 measure 其意义超出长度和容积的范围 覆盖任何可以测量的事物 如 厘米 是长度的一种度量 measure 克 是重量的度量 智商 是智力的度量 等等 测量学中 指标 一词视情景有不同意义 有时它与 度量 同义 指某 种常见的测量单位 表示测量的结果 如白血球总分是血液中白血球数量的一 种度量 同时也是血液常规的一个指标 再如美国大学接受外国新生要看 TOEFL成绩 TOEFL成绩既是对英语能力的一种度量 也可看作一个指标 在另外的情况下 测量学中的 指标 指测量使用的工具 方法 或指测 量的方面 不一定是测量的结果 如诊断疾病可用多项指标 主诉 症状 各 种生化和物理检查 血液 小便 超声波 CT 以及医生的判断 再如考查人 们的英语作为外语的能力 可测试听力 阅读 口语 写作 翻译多个方面 每个方面即一个指标 而且每个方面 如阅读 又可用不同的方式进行测验 这些不同的方式同样可称作指标 5 2 测量精度 生产生活中 根据不同要求 测量重量 长度等物理性质可使用不同的测 量精度 称石头 讹错几千克不成问题 然而称金子就要精确到百分之几克甚 至更小的单位 社会科学研究中也有测量精度问题 对有些事物的测量需要使用精确 高 级的层次 另一些则可使用较粗疏 精确性略差的层次 例如职称评定委员会 遴选教授 这是一种测量行为 如够条件的候选人人数和待聘职位的数字相差 不大 评委们只需给候选人排序 但如僧多粥少 竞争激烈 则评委们必须按 能力和业绩仔细打分 用更精确的测量进行比较 测量精度与变量是连续还是离散的性质有关 待测量的变量可以设想为连 续的或离散的 连续变量有无数个值 铺陈在一个连续统 continuum 上 这 些值在理论上又是无限可分的 连续变量的例子如收入 学业成绩等 对它们 的测量精度相对要高 离散变量有数量相对固定 并且是分立的值 实际上是 界限分明的类别 例子有性别 年龄 职业 婚姻状况等 对离散变量的测量 只是分类行为 精度自然就低 5 2 1 四级测量 社会科学研究的测量水平一般分为四级 它们是称名测量 nominal measurement 顺序测量 ordinal measurement 等距测量 interval measurement 和比率测量 ratio measurement 分别代表了不同的测量精度 测量的精度与数字的意义密切相关 数字与数字 意义可能迥异 如朋友 告诉你他住在某宾馆某楼15号房间 他的女儿15岁 今天的温度是摄氏15度 同是15 意义显然不同 差异不仅在于它们表达不同的事物 而且在于它们表 示量的方式大相径庭 5 2 2 称名测量 称名测量是把事物划归各个类别 这实际上是一种分类并取名的做法 因 此叫做称名测量 比如我们把人分为男性和女性 左撇子和右撇子 内向的和 外向的 类别之间有性质的区分而不是量的差别 称名测量使事物具有归属性 称名测量本来与量无关 但我们不妨用数字来表示类别或归属 日常生活中的 称名量数有邮政编码 电话号码和球员号码等 在社会科学研究中 为了方便 输入数据和计算机处理 我们常把称名量数用数字代替 如把男性定为1 女性 定为2 把事物分类然后取名或赋值是最粗疏的测量 用于称名测量的变量是离散 变量 其类别分立 相互间没有量的关系 5 2 3 顺序测量 称名测量确定事物的类别 顺序测量不仅确定事物的类别 而且把所有的 类别排列成连续的序列 并有一种量贯穿始终 学生考试成绩排名 流行歌曲 排行榜 体育比赛的名次 都是顺序测量的例子 这些序列包含了量的信息 使类别具有程度上的不同 考试成绩排名显示学生掌握知识的不同程度 流行 歌曲排行榜反映歌曲受欢迎的程度 体育比赛名次则表示运动员能力和即时发 挥水平的高低 与顺序测量不同 称名测量中的数字不表示次序 如四班和一班 四班不 能因数字大说自己班比一班强 一班也不能因数字在先而声称比四班好 仅仅 表示类别的数字没有量的意义 自然不包含强弱 高低 大小的区分 需要注意的是 顺序测量只说明事物类别的次序 相邻类别之间的差异不 一定等同 第一名和第二名之间的差异与第二名和第三名之间的差异不可同日 而语 换句话说 它们间隔的距离可能而且通常不一样 在同一次数学竞赛中 一个中学有两个学生分获第一名和第四名 另一个中学有两个学生分获第二名 和第三名 我们不能说这两个中学棋鼓相当 因为1 4等于2 3 这个等式在 此没有意义 顺序测量中的数字除了标明类别和次序以外 不再具有其他数学 性质 同一事物 因分析的角度不同 可使用不同的测量水准 比如今天你吃的 午饭 一种方式是你说出食品的名称 米饭 排骨 豆腐和菠菜鸡蛋汤 这个 食谱在某个饭店可能用代号来称呼 米饭为1 排骨为2 豆腐为3 而菠菜鸡蛋 汤是4 这样做的目的是为了方便外间与厨房的通讯 然而饭店的代号与你的称 呼没有本质的不同 只是饭店用一套符号置换了另一套符号而已 你也许愿意根据自己的喜欢程度给这些食品排一排队 把排骨列为1 米饭 列为2 菠菜鸡蛋汤列为3 把最不喜欢的豆腐列为4 这套数字显然比饭店的代 号多了一个量的维度 这个量就是你喜欢的程度 在这个量的连续体上 排骨 的位置先于米饭 米饭的位置先于蛋汤 豆腐名列最后 这时你使用的是顺序 测量 米饭与排骨之间 排骨与蛋汤之间尽管都是一个间隔 这两个间隔不可 进行比较 假如你不仅是美食家 而且是营养师 你对食品所能提供的热量感兴趣 你发现那顿饭的排骨所能提供的热量是600大卡 米饭是400大卡 豆腐是200大 卡 你知道 排骨与米饭 米饭与豆腐之间在提供热量方面的差别是相同的 这时你使用的度量 measure 即热量具有间距相等的性质 也就是说 任何给 定的差异 只要数值相同 它们的意义就相同 换句话说 从一种食品得到的 热量可与其他任何食品的热量相比较 一份排骨的热量相当于三份豆腐的热量 一份米饭的热量相当于两份豆腐的热量 有关食品的热量还有一个绝对零值的问题 比如你饭间喝了一杯矿泉水 它能提供的热量可能是零 即不提供任何热量 类似的还有重量 长度等 重 量为零表示没有重量 长度为零表示没有长度 至此我们涉及了有关数量的四种性质 类别 贯穿类别的连续的量 等间 距和绝对零值 我们可以用这四种属性来定义四种不同精度的测量 它们分别 是 称名测量 顺序测量 等距测量和比率测量 见表5 2 表5 2 四级测量 属性 测量层次 类别连续的量等间距绝对零值例子 称名 电话号码 商品名称 顺序 名次 排行榜 等距 温度 点钟 比率 长度 重量 时间量 5 2 4 等距测量 与顺序测量相同的是 等距测量的值有一个连续的量贯穿其间 不同的是 等距测量具有间距相等的性质 我们可用一把带有刻度的直尺来标示不同的值 刻度1至4 6至9或12至15 它们之间的差别是相等的 同样的道理 在等距测 量中 1加4和2加3是相等的 温度是等距测量的一个例子 5 2 5 比率测量 与顺序测量和等距测量一样 比率量表具有连续量的性质 它与等距测量 一样还具有间距相等的性质 此外 比率测量还具有绝对零值的性质 最常见 的比率量值是物体的物理性质 如重量和长度 测量时 当这些性质的读数为 零时 表明这些性质不复存在 这一点不同于温度 温度为零时 并非没有温 度 零度是温度这个性质的一个读数 而且零度以下仍然有读数 表5 3举例说 明测量的层次 表5 3 问卷调查中的测量层次 地点 称名 上海 福州 广州 西安 成都 哈尔 滨 长春 兰州 年龄 比率 实际年龄 有真正的零值 如 40 岁是 20 岁的两倍 态度 顺序 您对在公共场所禁烟有什么看法 1 非常同意 2 同意 3 没看 法 4 不同意 5 非常不同意 测量的四个等级代表了测量的不同层次和精度 为一个构念 construct 选 取合适的测量等级要考虑两点 一是如何表述这个构念 二是打算使用何种测 量指标 构念本身的性质制约着精确水平 另一方面 研究者如何表述一个构念也 决定了测量的精度 原先用连续变量表述的构念 换一个角度 可转用离散变 量 如温度可以是连续的 多少度或者是几点几度 甚至是零点几度 但如果 我们不需要那么精确 温度可以粗略地分为 热 凉 冷 三级 年 龄也一样 可以用多少年多少月甚至多少天来表示 但也可粗略地描述成幼年 少年 青年 中年和老年 转换后 如果不考虑顺序问题 这些变量都改用了 称名测量 一般来说 连续变量可转换为离散变量 而大部分离散变量不可转 换为连续变量 但有少数离散变量可转换成意义相近的连续变量 如性别不能 表述为连续变量 但 女性气质 Femininity 就可以 我们可以找到合适 的测量方法来判定一些妇女比另一些妇女女性气质更高 同理 宗教 婚姻状 况只能是离散性变量 然而信教程度 对婚姻关系的信守程度就可以是连续变 量 测量层次制约了可以运用的统计学手段 精度高的测量可选用多种功能强 大的统计技术 而用于低精度测量的统计方法则相对要少 出于实际的考虑 在表述和测量变量的时候 好的做法是先设想用高层次 的测量 这是因为 高层次的测量很容易归并 转换 为低层次的测量 反之 则不可以 换句话说 开始时可收集较为精确 具体的数据 然后可忽略一些 不必要的精度要求 对数据进行合并 但假如一开始收集的数据不够具体 较 为粗略 期待以后再提高精度是不可能的 如年龄这个变量 可要求被调查人 给出具体的年龄 比率测量 然后在分析时把它们归并至各个年龄段 顺序 测量 假如一开始就让他们按年龄段对号入座 事后就无法知道他们具体的 年龄 5 3 信度和效度 任何测量都有信度和效度问题 信度和效度是判断测量质量的标准 决定 测量的成败 用通俗的话来说 测量的信度是指测量的可靠性 而效度是测量 的准确性 提高效度意味着找准要测量的东西 而改进信度是确保测量中不出 偏差 从逻辑上看 效度应先于信度 效度不仅是成功进行测量的必要条件 而 且也是否定测量结果的充分条件 效度差的研究即便信度很高也毫无价值 从 方法上看 对效度的判别比信度困难 信度的评价在技术上比效度容易操作 我们先介绍信度 然后再看效度 5 3 1 信度 简单地说 信度 reliability 指的是测量的可靠程度 测量的可靠与否取 决于测量工具和测量过程两个因素 测量工具必须精确可靠 测量过程本身必 须准确无误 测量结果是否可信可用重复的方法来检验 高信度的测量应经得 起重复检验 无论次数多少 对相同事物的每一次重复测量 其结果都应与先 前的结果高度一致 有关信度最简单的例子莫过于称重 用一台磅秤给孩子称体重 在间隔不 长的情况下 连续多次称得同一重量 如15千克 则说明测量可靠 反之 如 果称三次分别是15 14 5和16千克 则测量就不可靠 信度就低 原因可能有 二 一是磅秤已坏 二是操作有误 如孩子在磅秤上不安分 影响了测量的准 确程度 后者属于使用工具不当 即测量过程有误 社会科学研究中的测量信度问题要比称体重复杂得多 举一个教育方面的 例子 最常见的信度问题出现在改作文试卷的时候 改题的标准常常定得模棱 两可 不好把握 工具不精确 改卷人主观性介入太多 互相之间尺度把握 不同 判定的成绩有差异 即便是同一个人 由于已定的判题标准不好掌握 前后的判定也会不同 测量过程的问题 因此 作文改卷的信度往往很低 5 3 2 三类信度 恒定信度 stability reliability 恒定信度是一种跨时间的信度 它回答的问 题是 在相隔不久的时间内重复测量同一事物 结果是否相同 对同一个受 试群体用同一个工具进行两次测试 看结果是否一致 假如测量的是一个恒定的 性质 而且工具可靠 测量的结果应高度一致 在考试这类测量中 这种方法叫 做测验再测验 测量工具可以相同或不同 但不同的工具必须在形式和性质上相 等 即两次或多次测验可用不同的试卷 但试卷性质必须等同 信度高的测量 两次或多次测验的结果应该高度一致 代表性信度 representative reliability 代表性信度是一种跨人群的信度 它回答的问题是 假如对不同的人群使用同一个度量或指标 结果是否相同 人群指不同的社会阶层 种族 性别 年龄甚至国籍等 用一个测量工具对这 些不同的人群进行测量 假如结果一致 则测量的代表性信度高 比如设计一个 问及人们年龄的问题 假如刚过二十的年轻人在回答时总是高报自己的年龄 而 过了五十的人则总是低报自己的年龄 这个问题的代表性信度就不高 理想的应 该是无论年龄大小都能准确报出自己所属的年龄段 有一种叫做次人群分析 subpopulation analysis 的方法可以决定一种度量 是否具有代表性信度 测量以后 在不同的人群之间比较结果 并参照别的信 息来源确定信度 如调查问卷中有一道有关受教育程度的问题 调查者想了解 一下男女在回答时是否同样诚实 他可参考独立的信息来源 如对照这些被调 查人的学校档案 如果男女间出错的程度一样 亦即误差相同 则题目的代表 性信度是可靠的 等同信度 equivalence reliability 等同信度适用于多种指标测量同一个 构念的情形 即这个构念的操作定义包含多项操作的时候 如测试学生的外语 能力 可通过词汇 语法和结构 阅读理解等多方面进行考查 这种信度所问 的问题是 用各种指标测出的结果 能否达到高度的一致 如果各种指标 测试的是同一个构念 可靠的量度应表现为所有指标显示一致的结果 研究者通常用分半的方法来检测考试和调查问卷的等同信度 做法是把试 卷或者问卷的题目随机分成两半 如果这两半题目结果表现一致 则等同信度 不差 比如把一份20道题的试卷分成两半各10题 在考查同一批学生以后 这 两半所反映的学生水平是一致的 即在一个半卷上答得好的学生在另一半也答 得好 在一个半卷上做得不好的学生在另一半也做得不好 这说明这份试卷总 的等同信度是好的 检查量度的等同信度未必需要进行两次测试或在考完后用手工将试卷分成 两半 可用统计学中的克朗巴哈 Cronbach s Alpha 方法在一次测试的情 况下获得结果 前提是把考试成绩全部输入计算机 然后用统计软件进行分析 另一种等同信度是跨评价人信度 在观察或者测量一个指标时 有时我们 用两个以上的观察者 对同一个指标的观察或者量度可在相同时间相同地点对 相同的对象进行 一如体操比赛中的打分 众多裁判给一个运动员记分 如跨 评价人信度高 打出的分应高度一致 再如一项访谈性调查 其中包括让被调 查人回答开放性的问题 不同调查员对同一个被调查人回答的判定高度一致 则说明等同信度是好的 5 3 3 如何改进信度 达到完美的信度几无可能 提高信度可采取以下措施 1 准确界定要测 量的事物 2 运用尽可能精确的测量水准 3 使用多个测量指标 4 先行试验 前三点互有关联 准确界定 待测量的构念其性质越是单纯 测量的信度就越高 这就像测量 化学物质 这种物质越是纯净 就越容易测定其性质 如有其他物质搀杂其中 则必然难以测准 社会科学测量首先就是要找准要测量的东西 形成清晰准确的 定义 把它从杂乱的背景中分离出来 如果要测量的构念很复杂 则必须使用多 个度量 每一种度量只能测量单一的性质或单一的方面 各司其职 如若检测学 生听懂英语的能力 则所使用的解题说明就不能太难 否则分不清到底是考了听 力还是考了阅读能力 目的是考听力就只能考听力 不可兼考阅读 提高测量精度 测量精度与上述四级测量有关 一般说来 测量水准越高 越是精确 信度就越好 应尽可能获得详尽 具体的信息 例如我们可用 满意 不满意 两个类别来了解人们对生活的满意程度 也可用更多的类别 如加上 非常满意 较满意 等 再如测试学生的某项能力 可以打 优 良 中 差 也可按百分制打分 打分细致意味着必须注意所检测能力的细节 而不是 依据笼统的印象 测量水准高 获取的信息多 测量的可靠程度就增加 用多个测量指标 准确界定 用尽可能精确的测量水准都意味着对要测量 的事物仔细分析 一是为了凸显最想检测的东西 二是为了分离出尽可能多的方 面 在后一种情况下 我们可用多个指标一一进行测量 如听懂外语是一项综合 能力 考生要有抓住要点 把握整体 分析推理等本领 有时还需要有关的文化 知识 我们可使用针对不同方面的题目来测量 得到更为准确的结果 用多指标进行测量还意味着从不同的角度观察同一事物 看能否达到一致 的结论 如对精神性疾病的诊断 可同时参照主诉 症状 专家判断 人格测 验 亲朋诉说以及物理生化检查等多方面来确定 5 3 4 效度 效度 validity 一词意义较多 这里要讲的是测量效度 我们在下面的章 节里还要论及实验研究的效度 我们说某个度量具有效度 是就特定的目的和理论而言 对其他目的和理 论 这一度量并不一定有效 由于研究的分析单位或所适用的领域不同 同一 种度量不会对它们同时有效 比如 对教师队伍凝聚力适用的度量并不一定适 用于研究体育运动队的凝聚力 效度的基本意义是 正在测量的东西与想要测量的东西是否吻合 举个简 单的例子 我们想测量人的智力 有人说人的脑袋的大小反映智力的高低 脑 袋大的智力高 反之智力小 测量脑袋的大小简便易行 操作性非常强 我们 只要用软尺 甚至只要检查帽子的大小 就可以测得有关的数据 然而这一测 量显然没有效度 研究业已表明 脑袋的大小与智力无关 测量脑袋的大小并 不能测得人的智力水平 从这个例子可以看出 对要测量的事物做出正确的理论定义非常重要 对 事物认识不够 下错了定义 对测量有根本性的影响 上例的理论定义是智力 大小与脑袋大小呈正相关 这显然是错误的 第二步 从理论定义到操作定义 的转换也很重要 操作要准确无误地反映理论定义的含义 如果我们把听懂外 语的能力正确定义为能够抓住要点 把握整体 分析推理 了解文化内涵四个 方面 考试题目就应相应地考查这四点 考题没能覆盖这四点或考了别的内容 那就是操作定义出了问题 考试效度就低 至于用软尺测量脑袋大小 操作定 义与理论定义吻合 但理论定义是荒谬的 5 3 5 四类测量效度 表面效度 surface validity 最基本的效度 也是最容易获得的效度是表面 效度 这是科学群体对量度能否真正测量一个构念所做出的评判 换句话说 测 量是否真正反映想要测量的东西有时至少从表面上就可以判断 即内行们可以达 成一致意见 比如用 2 2 这类问题来考大学生的数学能力 显然没有效度 内容效度 content validity 内容效度是表面效度的一种特殊形式 它回答 的问题是 量度是否涵盖了理论定义所有的内容 理论定义是一个涵盖意义 和概念的空间 量度应该覆盖或者代表这个空间所有的意义和概念 确定内容效 度分为三步 首先 说明构念的理论定义的内容 其次 考察理论定义所有的方 面 抽取代表性的东西 第三 形成能够概括定义所有方面的度量或指标 举构念 女权主义 为例 女权主义是一种信念 认为在教育 家庭 工 作 政治权力等各个方面男女应该完全平等 这是一个理论定义 假如一项有 关女权主义的调查只问及 男女是否应该同工同酬 和 男女是否应该分担 家务 两个问题 那么它的内容效度就比较低 因为这两个问题只涉及理论 定义的一部分 劳动报酬和家务 其余如教育 政治权力以及家庭和工作的其 他方面都未涉及 为了获得更高的内容效度 一是可以扩充调查的范围 二是 可以缩小理论定义的涵盖面 参照效度 criterion validity 研究者拟测量一个构念 如已知有某个标准 可精确反映拟测构念的情况 他可用这个标准作为参照物 来考察自己测量工具 的有效性 这就是说 一个度量的效度可通过与另一个标准进行比较来核实 参 照效度有两个小类 同时性参照效度和预测性参照效度 同时性参照效度 要达到同时性参照效度 concurrent validity 一个度量必 须与先前已经存在 并被公认为有效的度量具有高度的相关 这个先前存在的度 量必须至少有表面效度 比如想设计一项新的智力测验 它是否具有同时性效度 要看它是否与已有的智力测验具有一致性 假定已有的测验运用同样的理论定义 这就是说 接受测试的人在已有的和新的测验上的表现应该一致 智力高的人 两者得分都要高 反之则都要低 两个测验在形式上并不一定相同 但是测定的 如果是同一样东西 它们理应产生相同或近似的效果 预测性参照效度 predictive validity 一个度量如能预测相关的未来情况 这个度量就具有预测性参照效度 这种效度并不适用于所有的度量 美国高中毕 业生进入大学以前都要参加学习能力测验 SAT 这种测验据说具有预测性参 照效度 因为它能预测学生将来在大学的学习成绩 如果学生在 SAT 上取得高 分 则说明该学生今后在大学能学得很好 假如取得高分的学生在大学中的表现 与分数中等或者很差的学生一样 则这种考试的预测效度就有问题 检验预测性效度的另一种方法是选择一批有某类特点的人 认定他们在一 个度量上会有什么样的表现 如我们设计一个测试性格的问卷 来甄别内向和 外向性格的人 我们选定一批典型的外向和内向性格的人先做这个问卷 假如 问卷果然能将他们区分开来 则说明它的效度很好 将来可用于检测人们的性 格倾向 构念效度 construct validity 构念效度适用于多指标测量 它回答的问题 是 如果量度是有效的 它各个指标的表现是否一致 要获得好的构念效度 理论定义对构念必须有清晰的界定 构念效度有两个小类 向心效度 convergent validity 向心效度指的是量度的多项指标互相关 联 指向相同 即检测同一构念的多项指标所产生的作用方向一致 比如了解受 教育程度这一构念 我们可以询问被调查人受教育的年限 也可查阅学校的档案 或者考一考他对学校知识的掌握程度 如果这三个指标表现不一致 如自称受过 大学教育的人考试成绩不如那些没读过大学的人 我们就会考虑这三个指标是 否不能联合组成同一个度量 离心效度 divergent validity 离心效度也叫做区分效度 discriminant validity 与向心效度正好相反 它的含义是 如一个构念各个指标不仅作用相 同 方向一致 而且与另一个对立构念的指标的指向完全相反 与它们没有联系 则这个度量的区分效度是好的 如我们在测试内向性格的问卷中加入几道反映外 向性格的题目 前者十题 后者五题 内向的人应在前十题上得高分而在后五题 上得低分 而外向的人则应截然相反 后五题拿高分而前十题得低分 这就是说 这两类题目应表现负向的相关 如果具有同方向的关联 那么这个问卷就没有区 分效度 5 3 6 信度和效度的关系 信度是获得效度的必要前提 它比效度容易获得 信度虽然是取得效度的 必要条件 但它不能保证测量的有效性 它不是效度的充分条件 一个度量可 反复产生同样的结果 也就是具有信度 但它所测量的东西不一定符合构念 的理论定义 高信度但无效度或效度低的测量毫无用处 我们可用图示的方法表示信度和效度的关系 见图5 2 图中的靶心表示 测量的最佳目标 子弹的落点遍布包括靶心的整个靶子 这表示效度和信度都 很差的测量 图A 假设子弹的落点集中于靶心以外的某个区域 则说明测 量虽具有很高的信度 却缺乏效度 图B 唯有当子弹的落点集中于靶心的 时候 才是既有信度又有效度的测量 图C 图5 2 信度和效度的关系 效度和信度通常互补 但在有的情景下 它们可能互相冲突 有时效度提 高了 信度却难以达到好的水平 而另一些时候则正好相反 前者发生在构念 的理论定义高度抽象的情况下 从抽象的概念到具体的操作转换困难 测量很 难进行 信度也就谈不上 如为了顾及信度 调整使用较为具体的观察和测量 手段 此时信度可得到提升 但效度未必就好 因此 界定一个抽象构念的真 正本质与准确地对它进行测量往往是一对矛盾 如 异化 alienation 是一 个高度抽象 主观成分很浓的构念 这是一种深切的失落感 弥漫于生活各个 方面 如社会关系 自我感觉 等等 在问卷调查中可设计出操作性很强的问 题来了解受试具体的方方面面 问卷因此可以达到较高的信度 但却可能难以 揭示构念所蕴涵的主观性成分 从而效度并不理想 有人认为 像 异化 这样与情感有关的构念不适合于研究 应该避免 而另一些人则认为 测量应该灵活一些 不用那么精确 主张更多地使用定性 的研究 由此可见 测量中的问题最终归结到对科学本质的根本看法上 譬如 如何进行研究 概念如何从理论上进行定义 等等 5 4 测量和研究 社会科学工作者需要用测量来收集数据和检验假说 研究开始于一般的课 题 研究者将其提炼 形成可用的题目 题目又陈述为可以检验的假说 假说 是有关变量之间因果关系的猜度 当变量确定以后 接着就是考虑测量问题 测量前的第一步是给变量下概念定义 5 4 1 形成概念 在测量开始前 研究者需要首先给变量下概念或理论定义 比如你想把 凝聚力 作为一个变量来研究 第一个问题就是 凝聚力是什么 下概 念定义需要参考有关的理论 认真思考 直接观察 阅读文献 并与同行进行 讨论 然后试着做出各种定义 好的定义必须简洁 清楚 明确 下定义有时 是个十分复杂的过程 有可能需要用整篇文章来讨论 理论概念通常和特定的理论框架和价值取向相一致 人们对怎样定义往往 有不同看法 如给 社会阶层 下定义 有人以拥有权力和财产为标志 而另 一些人则以社会地位 生活习俗以及在主观上互相认同为标准 对定义可有不 同意见 重要的是必须说明所采用定义的理据 有些概念本质上比别的概念更为复杂和抽象 如 异化 这些概念本身 包含下层概念 如 异化 意味着 无能力 这个下层概念可以进一步具体 化为一种感觉 比如觉得自己的前途和命运完全掌握在别人手里 在拟定理论 定义的时候 对类似概念的复杂程度必须有充分的认识 当你琢磨如何定义 凝聚力 的时候 一开始只有一些极其模糊的感觉 如觉得凝聚力与人们的工作态度有关 你于是和朋友进行讨论 探讨凝聚力是 什么 你还查字典 但字典滞后于语言的发展 现代汉语词典 说 凝聚力 等于 内聚力 意思是 物质内部分子间的相互吸引力 没有讲它的引申 义 辞海 则还未收入 凝聚力 一词 你又去图书馆查找文献 看有无这 方面已做过的研究 假如别人已有现成的定义 可以借用 当然不会忘记归誉 问题 你浏览外语文献 看国外类似的研究 近似的概念似乎是morale 即 士气 一个单位如有凝聚力 则士气高涨 经过这番努力 你对凝聚力有了较深刻的认识 凝聚力是一种精神 是一 种心态 是一种集体的感觉 你然后列出凝聚力的两个极端的表现 这实际上 已经把它转化为一个变量 高凝聚力意味着信心十足 乐观向上 意气风发 意味着为共同的事业勇于奉献和同甘共苦的精神 而低凝聚力则相反 没有信 心 悲观失望 精神萎靡 独来独往 不愿意为集体出力 如果你想调查教师 的凝聚力 你还必须了解有关教师的情况 一种做法是开列清单 写下教师凝 聚力高和低的表现 教师凝聚力高时 教师称赞自己的学校 愿意做份外的工 作 非常乐意和学生在一起等 教师凝聚力低的时候 教师牢骚满腹 除非迫 不得已不愿参加学校的活动 总想寻找别的出路等 凝聚力意味着对一个集体的态度和感觉 你尽可能列出与教师凝聚力有关 的各种因素 如学生 家长 工资待遇 学校管理 同事关系等 在列举各种 因素的时候 你遇到了寻找理论定义通常要遇到的问题 即教师的凝聚力是许 多种呢 还是只有一种却包含了多个方面 这个问题无法得到圆满的解答 你 必须自己拿主意 研究者有必要将感兴趣的概念和相近的概念进行比较 凝聚力和协作精神 有什么不同 协作精神看来只是在完成一个任务时人们为达到共同目标配合默 契的精神状态 不像凝聚力那样涉及对一个单位热爱与否 而且是持续较长时 间的情感 拟定理论定义是一个不断思索 推敲意义的过程 至此你已知道凝聚力是 一种心态或者感觉 它可处于高位也可处于低位 乐观向上或者悲观厌世 它有多个侧面 对不同人和事的态度 又是一个群体特征 并且它将持续一 段时间 这时你对这个概念的了解远比一开始清晰了 5 4 2 实现操作 在找到切实可行的理论定义以后 下一步就是为概念或变量下操作定义 操作定义说明对变量可执行的特定的操作 应使用的测量工具或测量过程 操 作定义有时被称作概念的指标或度量 测量一个概念的方法有多种 自然有优劣之分或可行与否 关键是找到合 适的度量或指标 度量和指标必须适合理论定义 并且在时间 经费等现实问 题许可的范围以内 再加上研究者的研究能力足以胜任 可以使用全新的操作 定义 也可用别人已经用过的 表5 4列出了寻找度量或指标时要注意的问题 表5 4 如何寻找度量 1 牢记理论定义 寻找任何度量的根本原则是不能偏离拟定 的理论定义 2 思路灵活 不能陷入某个或某类度量中不能自拔 要富有 创造性 不断寻找新的 更好的度量 不应指望用一种度量解决 所有问题 3 借用他人的度量 只要注意归誉问题 不妨大胆使用别人 现成的度量 或稍事修改后再用 从别人已做过的研究中也能发 现好的思路 4 充分估计可能遇到的困难 测量变量时常会遇到逻辑和实 际上的困难 预先如有充分的估计和周密的安排 可事半功倍 5 不可忘记分析单位 度量应和分析单位相符并适用于研究 者感兴趣的全部范围 使定义可操作化意味着将理论与实践挂钩 理论包括抽象的概念 定义和 关系等 操作定义描述对变量如何进行具体的测量 通过看得见摸得着的操作 说明所定义对象的存在 找到合适的测量工具至关重要 测量工具是获得指标和度量的手段 它必 须适合要测量的东西 并能准确体现理论定义的各个方面 回到教师凝聚力的例子 理论定义确定后 你着手拟定操作定义 即确定 用哪些具体的操作 用什么测量工具来反映理论定义概括的各个方面 你阅读 文献 看有无现成的工具与你的理论定义相吻合 可借来一用 如果没有 则 自己动手设计 凝聚力是一种心态和感觉 你只能通过间接的办法来测量 如 可设计一份问卷询问研究对象的感觉 了解他们对工作 环境 同事 学生 工资待遇 学校管理各方面的态度 你还可直接或间接地考察他们的行为 去 教室 办公室与他们聊天 倾听他们的心理感受 观察他们的工作表现 你也 可与学生谈心 了解教师的工作责任心和工作干劲 你还可以去咨询学校有关 部门 了解有关教师凝聚力的情况 如是否有很多请假和旷工现象 是否有很 多人请求调动 看有关他们工作表现的材料 总结 评语等 无论选择哪些指标和度量 目的都是充分获取有关理论定义各个方面的信 息 用一种手段获取一个方面的信息 或几种手段获取同一方面的信息 与此 同时有必要不断调整和完善理论定义 插叙 5 1 测量理论简介 测量理论讨论测量的信度 效度以及相关问题 它是一 整套数学和方法理论 技术性非常强 这里只作简要的介绍 以帮助读者了解高质量的测量所依据的原理是什么 测量理论认为 实践中的测量结果由三个部分组成 1 对构念本身的量度 即理想的量度 2 系统误差 3 随机误差 存在这三个部分只是从理论上推理得出的 假定 事实上是看不见的 看得见的是整个的测量 即实际 得出的观察结果或量度 然而任何测量都存在误差这一点不 容置疑 我们可用符号来代表测量结果和它的三个组成部分 X 实际得出的观察结果或量度 T 真实的量度 纯的 理想的构念 S 系统误差 任何不属于随机发生的误差 R 随机误差 非系统的 很难避免的 随机发生的误差 测量理论认为 任何一次具体的观察结果由真实的量度 加两类误差组成 误差是偏离真实量度的情况 这种偏离任 何时候都很难避免 因此 任何具体的测量都可用下面的公 式表示 X T S R 这个公式是测量理论的核心 简单地说 经验性的观察 结果事实上由三个看不见的部分组成 真实构念加上两个潜 在的误差 后两者是偏离真实构念的程度 上文已经谈到 测量中完美的效度应表现为测量用的经 验性指标与它所代表的构念完全吻合 从上面的公式可以看 出 如果两项潜在的误差均为零 观察的结果和真实的量度 就会完全相等 即 X T 不难看出 要提高测量的水平 研究人员必须竭尽全力消除两项误差 首先看公式中的随机误差 R 概率论认为 只要有足够 长的时间和足够多的个案 随机误差最终将是零 从而从公 式中消失 用统计学的术语说 随机误差的预期值是零 我 们不去探究概率论的细节 但随机误差为零在理论上是成立 的 因为只要有足够多的时间和个案 凡属真正的随机误差 最终会互相抵消 各种数学证明和实际的检验表明 大量随 机发生的独立事件 其误差是零 比如抛掷一个正常的硬币 观察正面还是反面发生的次数 当次数达到千万次 上亿次 的时候 我们有绝对的把握说 正面和反面出现的概率都是 50 出现正面多于反面或者反面多于正面的误差是零 再 如工厂用精密机床加工一个直径为 5 厘米的零件 生产中总 是允许一定程度的误差 只要误差落在精度要求的范围以内 就是合格的零件 假设这台机床很可靠 则生产的零件越多 平均误差就越小以至为零 因为稍高于或者低于标准几个微 米 在精度限定的范围之内 的情况最终会相互抵消 依据这个原理 研究者们认为 随机误差无可避免 但 如果研究设计合理 步骤正确 再加上研究的样本足够大并 具有代表性 随机误差可以忽略不计 一旦我们略去随机误差 观察就等于真实构念加上非随 机误差即系统误差 系统误差使结果发生规律性的偏差 而 这种偏差经过努力也可以尽可能减少 系统误差的例子如 调查问卷的某个问题因为措辞原因使被调查人普遍误解 结 果所有答案都出现相同的偏向 再如在访谈时 因调查员主 观偏见或操作失误 使被调查人的回答出现一致性的偏差 系统误差是提高效度和信度的大敌 它阻碍测量指标测出原 定要测出的东西 因此 提高测量质量的另一个做法是尽力 去除系统误差 系统误差表明 从经验数据所做出的推理有可能包含错 误 先前所说的测量效度可重新表述为 当观察值与真实量 度相等 即系统误差为零时 测量具有高效度 系统误差的来源很广 如缺乏恒定信度就会引起系统误 差 如家中称量体重的磅秤 由于弹簧的力量减弱 因此不 再具有恒定信度 我们每称一次 体重似乎增加一次 这就 是系统误差 是影响信度的根源之一 再如某个班考数学 监考老师推迟了收卷时间 结果该班学生的成绩比别的班普 遍要好 这也是系统误差 在第十六章 我们还要从方差 variance 的角度再次 探讨测量误差问题 5 4 3 多相观察原则 要想获得高水准 高品质的测量结果 我们必须遵循另一个叫做多相观察 heterogeneous observation 的原则 所谓多项观察 就是从多方面 多角度 并且反复多次观察一件事物 以便获得最准确可靠的观察结果 在其他条件相 等的情况下 多次 多方位的观察比起一次性 且是单方面的观察可提供更强 有力的证据 下面介绍三种技术来说明这个原则 重复 日常生活中 我们一次又一次重复做一件事情 预期出现同样的结 果 结果相同 则说明方法正确 在科学研究中 测量构念的步骤 或做出特 殊发现的过程也可以重复 重复测量一个构念并得到相同的结果可增强效度和 信度 重复某个发现过程可增加对原有发现的信心 需要注意的是 重复最好 由不同的研究者独立完成 重复的道理是 不同的研究者不大可能犯同样的错误 如果同样的发现和 结得以重复 那么出现系统误差的可能性就不大 如结果未能被重复 则说明 先前的结果有疑问 尽管重复研究是实证科学的基本原则 在实践中却不多见 许多研究未被 重复或重复未能发表 原因是多方面的 一般来说 研究者都希望自己的研究 具有创造性 科学群体强调首创性 而学术刊物的编辑们也倾向于把宝贵的空 间留给那些有新发现的文章 这些都制约了重复研究的发表 当重复的研究不能成功时 失败常常由于表5 5所列的四个原因之一或是有 些原因的综合 表5 5 重复失败的原因 1 原先的因果关系为真 但重复时条件变了 原来的因果关 系只在特定的条件下才成立 但在原先的研究中未加说明 这时 有必要找到这些条件是什么 2 原先的因果关系为真 但重复与原来的做法不符 发生的 原因一是原来的研究对过程的描述不够详细 二是做重复研究的 人不够细致 3 原先的因果关系有疑点 在原来的情景中其实有另一个自 变量 其实是干扰变量 在起作用 只是在一开始不明显 4 原先的因果关系为假 原来的报导失实 或者因果的联系 纯属偶然 5 4 4 三角测量法 测绘地形的勘察人员常从不同的角度确定物体的位置和物体间的距离 在 社会科学研究中 三角测量指的是用不同类型的测量指标或数据收集方法来考 察同一个变量 这是用多项指标进行测量的一种方法 三角观察的基本原理是 采用不同方式的测量指标可提高测量的质量 指 标间形式上的差异愈大 我们对测量质量的信心愈增 因为比起使用单一和近 似的方法 形式迥异的指标获得一致的结果意味着更好的效度 医学上的例子最能说明三角测量的重要性 如检查某人的精神健康状况 可同时请精神科医生面试 从病人的亲戚朋友那儿了解情况 让病人做精神检 测 再请人观察病人的行为举止 等等 如所有的指标反映一致 则表明检查 测量 的结果可靠 有效 下结论不再困难 在教育测量和评价中 三角测量的例子也很常见 如美国的大学 在录取 研究生或教职人员时 要求申请者递交多项材料 如学历证明 课程学习成绩 专家推荐信 专门的考试成绩 如GRE 等 每一种材料都是反映候选人能力 的一个指标 如果所有的指标反映一致 招生部门或人力资源部门就比较容易 做出判断 评价就比较准确 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论