第章:SPSS数据文件的建立和管理PPT课件.ppt_第1页
第章:SPSS数据文件的建立和管理PPT课件.ppt_第2页
第章:SPSS数据文件的建立和管理PPT课件.ppt_第3页
第章:SPSS数据文件的建立和管理PPT课件.ppt_第4页
第章:SPSS数据文件的建立和管理PPT课件.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS统计分析方法及应用第三章 SPSS数据的预处理 3 19 202012 59AM 浙江树人大学管理学院 0 1数据的排序 数据文件建立完成之后 为了方便统计分析 需要对数据进行初步的处理 如对数据进行排序 将一列数据扩大一个倍数 多列数据的求和等等 数据集中的数据是按照录入的先后排列的 并没有规律可言 不便于数据的分析 数据排序有什么好处呢 a 数据的排序 有助于了解数据的取值状况 变化规律 缺失值的个数等等 b 数据的排序 方便的得到变量的最大值 最小值 计算出数据的全距 了解数据的离散程度 1 数据排序的目的 3 19 202012 59AM 浙江树人大学管理学院 1 2 数据排序的规则 c 数据的排序 可以快速发现异常值 以便及时对其进行处理 a 排序分为升序与降序 可以同时对数据集中的多个变量进行排序 b 排序的规则是 按第一个变量排序 第一个变量相同时按第二个变量排序 余此类推 c 排序将导致个案的位置改变 未排序的变量数据随排序变量的位置同时改变 3 数据排序的操作 3 19 202012 59AM 浙江树人大学管理学院 2 3 数据排序例 b 选择排序变量并移入排序依据列表框中 指定该变量的数据是升序 Ascending 还是降序 Descending 的单选按钮 c 如果是多重排序 用同样的方法指定第二 第三排序变量 按第一个变量先排序 第一个变量相同 按下一个变量排序 余类推 对居民储蓄存款调查数据 利用排序的方法找出城镇居民和农村居民一次性存款的最大值和最小值 操作 户口 升序 存款金额 升序 a 选择菜单数据 排序个案 这时 数据集所有变量出现在排序对话框左侧的列表中 3 19 202012 59AM 浙江树人大学管理学院 3 3 19 202012 59AM 浙江树人大学管理学院 4 2 选择个案 数据 选择个案 在统计分析中 有时不需要对所有的观测进行分析 而可能只对某些特定的对象有兴趣 利用SPSS的选择个案命令可以实现这种样本筛选的功能 以SPSS安装配套数据文件居民储蓄调查数据 存款 数据为例 我们只统计农村居民的储蓄情况 使用筛选器变量 此时需要在下面选入一个筛选指示变量 该变量取值为非0的记录将被选中 进行之后的分析 过滤掉未选定的个案 未选定的个案不包括在分析中 但保留在数据集中 使用该选项会在数据文件中生成名为filter 的变量 对于选定个案该变量的值为1 对于未选定个案该变量值为0 而相应的未被选中的个案ID号处也会以反斜杠加以标记 3 19 202012 59AM 浙江树人大学管理学院 5 3 19 202012 59AM 浙江树人大学管理学院 6 3 19 202012 59AM 浙江树人大学管理学院 7 3 19 202012 59AM 浙江树人大学管理学院 8 3 加权个案 通常在做卡方检验的时候用的比较多 在默认情况下 数据集中的每一行就是一条原始记录 这在多数情况下没有什么问题 但有时却很麻烦 如果所示的数据 如果每一行就是一条原始记录 需要输入121行 这时候一般使用频数格式录入数据 即相同取值的个案只录入一次 另加一个频数变量用于记录该数值共出现了 1 以频数录入的格式 一般而言 下面两种情形需要进行该操作 多少次 这样就需要在分析时使用 加权个案 对话框将数据指定为频数格式 加下页 3 19 202012 59AM 浙江树人大学管理学院 9 观察其描述性统计 点击 数据 加权个案 3 19 202012 59AM 浙江树人大学管理学院 10 2 案例数据抽样权重的确定 例如 希望掌握菜市场某天蔬菜销售的平均价格 如果仅使用各种蔬菜销售单价的平均数作为平均价格就很不合理 还应考虑到销售量对平均价格的影响 因此 以蔬菜的销售量为权数计算各种蔬菜销售单价的加权平均数 就能够较准确地反映平均价格的水平 3 19 202012 59AM 浙江树人大学管理学院 11 例某医师研究物理疗法 药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效 资料见表 问三种疗法的有效率有无差别 三种疗法有效率的比较 加权个案用在卡方检验上的案例 3 19 202012 59AM 浙江树人大学管理学院 12 SPSS操作过程 行 列表卡方检验 建立数据文件数据格式 包括6行3列的频数格式 3个变量分别为行变量 列变量和频数变量 说明频数变量 数据加权个案 x2检验 从菜单选择分析描述统计交叉表 3 19 202012 59AM 浙江树人大学管理学院 13 3 19 202012 59AM 浙江树人大学管理学院 14 3 19 202012 59AM 浙江树人大学管理学院 15 结论 按 0 05检验水准拒绝H0 接受H1 可以认为三种疗法治疗周围性面神经麻痹的总体有效率有差别 3 19 202012 59AM 浙江树人大学管理学院 16 4 数据的拆分 Split 在进行统计分析时 经常要对文件中的观测进行分组 然后按组分别进行分析 例如要求按性别不同分组 又比如 省统计局每次的数据处理都是针对各个地级市的 学校对于学生数据的处理都是针对各个系的 以数据加工 职工数据 sav为例 我们需要看统计比较不同职称的失业保险情况 对之进行统计性描述 1 数据拆分的意义 2 数据拆分的步骤 选择菜单 数据 拆分文件 如下图所示 3 19 202012 59AM 浙江树人大学管理学院 17 3 19 202012 59AM 浙江树人大学管理学院 18 在对话框的右上端有3个单选按钮 a 分析所有个案 不创建组 默认选项 此选项也用于将拆分设置删除 b 比较组 将各组的结果在一个表输出 以方便结论的比较对照 c 按组分多个表输出结果 数据排序状态 分组状态的2个单选按钮 a 按分组变量排序文件 系统先按分组变量排序 然后进行拆分 b 文件已排序 已经按分组变量进行了排序 系统不需要再进行排序 可直接进行拆分 3 19 202012 59AM 浙江树人大学管理学院 19 下面我们看各种设置的结果 比较组 不设置 3 19 202012 59AM 浙江树人大学管理学院 20 按组织输出 3 19 202012 59AM 浙江树人大学管理学院 21 5变量的计算 在实际工作中 经常要对变量进行加工整理 产生新的变量和计算结果 比如计算一个变量的倍数 计算几个变量的和 差 计算变量的绝对值 平方等等 SPSS如何对变量进行计算呢 对职工的基本情况的数据 41页 表2 5进行处理 依据职称级别计算实发工资 满足 职称1 4的工资分别上浮5 3 2 1 用例子演示变量计算的基本操作 58页 变量计算的例 58页 3 19 202012 59AM 浙江树人大学管理学院 22 1 进入变量计算对话框 首先将数据加工 职工数据 sav数据集打开 选择菜单变换 计算变量 弹出对话框 3 19 202012 59AM 浙江树人大学管理学院 23 a 在目标变量的编辑框中输入变量的名称 这时的变量可以是新变量 也可以是原有变量 b 如果输入的变量名在数据集中已经存在 满足条件个案的值将替换旧变量对应的值 其它值不变 c 新变量的数据类型默认为数值型 点击类型与标签按钮 在弹出的对话框中可以定义新变量的数据类型和标签 2 定义结果变量 对于我们的例子 新变定义量名实发工资为 sfgz 选择默认数据类型 3 19 202012 59AM 浙江树人大学管理学院 24 sr bx 系数 系数因职称不同而不同 下图是上浮5 的情况 其它情形相似 3 19 202012 59AM 浙江树人大学管理学院 25 确认后sfgz中zc只有1的个案出现了工作调整的数据 其它做系统缺失值处理 再确认2 3 4时可将其补充 3 19 202012 59AM 浙江树人大学管理学院 26 3 算术表达式及运算符的定义 a 算术表达式的元素 变量可以从左侧的变量列表中选择 数字 运算符号可以在软键盘中选择 函数可以从右侧选择 这些也都可以直接用键盘输入 b 逻辑运算符及意义逻辑与 等价于AND逻辑或 等价于OR 逻辑非 等价于NOT 3 19 202012 59AM 浙江树人大学管理学院 27 4 条件语句编辑 单击if按钮 进入条件语句编辑框 有两个单选按钮 a 包括所有个案 对所有个案进行计算 默认选项 b 如果个案满足条件则包括 仅对满足条件的个案进行计算 选择这一单选按钮后 编辑框激活 c 在这里可以输入筛选条件 需要说明的是 每次只能编辑一个筛选条件 不能同时编辑多个筛选条件 高级工程师对应工资上浮5 高级职称的值等于1 在编辑框输入条件表达式 zc 1 3 19 202012 59AM 浙江树人大学管理学院 28 5 条件语句编辑例 这时高级工程师的个案的sfgz变量都有了数据 其它职称个案的sfgz的值为缺失值 重复同样的方法 分别设置 表达式条件 sr bx 1 03zc 2工程师 sr bx 1 02zc 3助理工程师 sr bx 1 01zc 4无职称这时变量sfgz所在的列将不再有缺失值 6 计算方法的不足 对于满足一定条件时变量的计算 无法一次将不同条件的表达式集中编写 只能一个条件的表达式运行一次 3 19 202012 59AM 浙江树人大学管理学院 29 2020 3 19 30 6 计数 在实际工作当中 需要对调查问卷的答案进行分析 例1 居民储蓄调查 存款 sav中有如下两个指标 收入情况 未来收入情况 取值分别为 1 增加 2 基本不变 3 减少 如果想了解在每一个个案中 选3 减少 的变量有几个 如何用SPSS快速的给出答案 例子特点 多个变量中 取同一个值的变量有多少个 例2 高考成绩 sav 要统计出每一考生语文 英语 数学 物理和化学5科成绩 落在某一区间 如 70 79 的有几科 例子特点 多个变量 取值在同一个区间的有多少个 3 19 202012 59AM 浙江树人大学管理学院 31 1 计数的功能 计数是统计出在一个个案中 多个变量取同一个值或在同一个区间取值的变量个数的方法 因此 处理这样的问题需要关注两个问题 A 考察哪几个变量 B 同时取什么值 在哪一个区间取值 选择菜单转换 计算个案内值的出现次数 进入计数选择对话框 出现计数设置对话框见图3 6 以上问题 如何通过SPSS软件实现 2 计数的步骤 3 19 202012 59AM 浙江树人大学管理学院 32 图3 6计数操作设置窗口 3 19 202012 59AM 浙江树人大学管理学院 33 2 计数取某一值变量的个数 计数变量用于存储统计结果 步骤如下 a 目标变量 在下面的文本框填入目标变量 用于存储计数的值 操作 在文本框中输入Xb 目标标签 在下面的文本框中输入变量的标签 作为目标变量的说明 可选 操作 堪忧 c 数字变量 将要计数的变量移入 操作 收入情况 未来收入情况 计数涉及的变量一般都取多个值 我们只关心多个变量 1 确定计数变量 3 19 202012 59AM 浙江树人大学管理学院 34 A 值 点击 定义值 按钮 确定变量取值的对话框 见图 在Value下边的文本框中填入几个变量都取的值 对于我们的例子填入3 完成设置 同时取某一个值或在某一个区间取值变量的个数 例子 收入情况未来收入情况这两个变量取3的有几个 3 19 202012 59AM 浙江树人大学管理学院 35 B S系统缺失 系统或用户缺失 统计几个变量同时取系统缺失值 用户缺失值的个数 很少用 略 统计多个变量中 在闭区间 m n 中取值的变量个数 例如 在高考成绩 sav数据集中 成绩的5个变量都在区间 70 79 中取值的变量个数 这时m 70 n 79 完成设置后观察生成变量的数据并进行分析 3 19 202012 59AM 浙江树人大学管理学院 36 类似的 还可以统计于右半开区间 n 中取值变量的个数 例如 5门成绩取得良以上的门数 统计于左半开区间 n 中取值变量的个数 例如 5门成绩中不及格的数量 这时的n 59 演示并观察运行的结果 3 19 202012 59AM 浙江树人大学管理学院 37 A 按照哪个变量进行分类 如 区域 性别 B 对哪个变量进行汇总 如 职工工资 高考总分 C 计算哪些指标 如 平均值 最大值和最小值 经济工作者根据工资数据 研究各县市职工的生活水平差异 需要计算各县市工资的平均工资 1 分类汇总关注的问题 7 分类汇总 根据高考总分 分析学生智力水平是否和性别有关 即按性别计算出高考总分的平均值 最高分和最低分 这两个例子的计算有如下特点 需要对数据进行分类 计算出每一类的某一经济指标 用SPSS如何实现呢 3 19 202012 59AM 浙江树人大学管理学院 38 2 分类汇总的基本操作 A 打开汇总菜单点击 数据 分类汇总 弹出分类汇总对话框 B 选择分类变量 从左边的变量列表框选择分类变量到分组变量框中 操作 职业 C 选择汇总变量汇总变量汇总变量模块 例 利用居民储蓄调查数据 sav数据集 分析职业与存款数额之间的关系 3 19 202012 59AM 浙江树人大学管理学院 39 操作 存款金额 D 确定计算什么统计量 点击 函数 按钮 弹出选择对话框 可供选择的统计量包括 均值 求和 最大值 最小值等20个选项 默认选项是均值 每次只能计算一个统计量 默认是均值 变量名与标签 按钮为计算的统计量定制标签 操作 均值 注意观察汇总变量的取值随着选择的改变而改变 E 输出每一类中包含的个案数 选择框个案数 若选择将生成一个每一类中所含个案数的变量 变量名为N BREAK 3 19 202012 59AM 浙江树人大学管理学院 40 3 19 202012 59AM 浙江树人大学管理学院 41 E 指定计算的统计量保存到何处 有3中选择 a 将统计量的计算结果存储到当前数据集 b 创建一个只含指定统计量作为变量的新数据集 这时需在下面的文本框给出数据集的名字 c 将计算的统计量存储到一个默认名称为agg sav 的新文件中 文件类型可以不是SPSS的文件类型 F 适用于大型数据集选项 a 文件已经按分组变量排序 在计算分类统计量之前已经关于分类变量排序 b 在汇总之前排序文件 在执行分类汇总前 系统先执行关于分类变量排序 3 19 202012 59AM 浙江树人大学管理学院 42 G 多重分类汇总 分类变量可以多于一个 这时的汇总称为多重分类汇总 第一个分类变量称为主分类变量 分类变量的指定顺序决定了汇总的先后顺序 例如 主分类变量是职业 第二分类变量为年龄 略 通过分类统计可以看出 随着职业的不同 存款数量的平均值也不同 查看数据集 3 19 202012 59AM 浙江树人大学管理学院 43 8 数据分组 数据分组是根据统计研究的需要 按照一定的特征将总体区分为若干个性质不同而又存在联系的部分的一种方法 这些部分称为这一统计总体的组 数据分组对总体而言是 分 即把总体划分为性质相异的若干组 对个体而言是 合 即把性质相同的个体合为一组 1 数据分组的意义 1 为什么要数据分组 2 数据分组的原则 3 19 202012 59AM 浙江树人大学管理学院 44 另一方面 差异很大时的两个事物看成相同的类 将抹杀事物质的区别与特征 混淆事物的优劣 不能正确的评价出事物的好坏将不利于相关工作的开展 3 分类原则的总结 一次性存款数量为1000元与1020元 虽然数量存在差异 未必有什么质的差别 考试成绩84分与88分的学生 虽然分数不同 但学生的基本素质可能没有本质的差别 统计分组的原则 是保证组间各个单位具有差异性 组内的各个单位具有同质性 3 19 202012 59AM 浙江树人大学管理学院 45 2 组距分组 重赋值Recode 对于定距变量 由于数值型变量的连续性与稠密性 为了研究的需要 有时需将数据进行分组 分组既要体现出组之间的差异 又不能分组太多 需要确定合适的分组区间 将变量的变化范围依次分成若干个满足包容性和互斥性的数值区间 什么叫包容性与互斥性呢 1 组距分组的定义 用文字表示的品质变量 如性别 职称 民族等等 这样的变量相当于利用变量的不同取值 自然的进行了分组 3 19 202012 59AM 浙江树人大学管理学院 46 按照组距分组的定义 用组的区间作为组的名称直观 但如果组区间数值很大或很复杂 研究问题不是很方便 将各个区间重新赋予一个值作为组的名称 这样的分组称为组距分组 也称为重赋值 Recode 每一个变量的值 必须属于其中的某一组是包容性 且只能属于一组 不能同时属于两个以上的组是互斥性 例子 某个企业的职工小区 人均可支配收入见下表 2 分组数目的确定 3 19 202012 59AM 浙江树人大学管理学院 47 3 组距的确定 分组过多时 容易将具有相同特征的数据分到了两个组 使问题复杂化 分组过少 会将具有不同特征的数据归为一组 淡化了数据的差异 数据应分成多少组 没有统一的方法与模式 通常根据数据本身的特点 数据的个数及研究问题的具体需要具体分析后确定 定义 组距是数据的上限 最大值 与数据的下限 最小值 之差除以组数 即 组距式分组的特点 平抑各组数据内部的区别 突出各组之间的差异 以方便观察数据的分布特征 3 19 202012 59AM 浙江树人大学管理学院 48 4 组距分组的实现 确定组数 组距的原则 组数一定是整数且不宜过多 组距一般是5或10的整数倍 例 数据加工 职工数据 sav数据集中工资最大值 1044 最小值 824 幅度 1044 824 220 根据数据变化的幅度及确定组距的原则 取组距为50 根据数据的分布特点 确定分组分为5组 开口组 850 851 900 901 950 951 1000 1001 操作 数据加工 职工数据 sav 组距 最大值 最小值 组数 A 打开要分组的数据文件 3 19 202012 59AM 浙江树人大学管理学院 49 菜单转换 重新编码为不同变量 对数据进行分组 对每个组的名称重编码存入一个不同的变量 这时弹出变量选择设置窗口 在左边变量的列表框中选择分组变量 将其移入右边的输入变量 输出变量列表框 例 sr 工资 在名称下面的文本框中 给出输出变量的名字 用于存储各个组的名字 B 打开数据分组对话框 C 选择分组变量 D 为输出变量命名 3 19 202012 59AM 浙江树人大学管理学院 50 E 建立新旧组名的对应关系 点旧值和新值 进入条件表达式设置对话框 进行条件表达式的设置 3个按钮 对新值进行设置并建立新旧值之间的对应关系 对建立的关系进行修改及将建立的关系删除等操作 可在下面的标签的文本框为输出变量定义一个标签 点击 更改 按钮完成输出变量的定义 例 s F 设置筛选条件 3 19 202012 59AM 浙江树人大学管理学院 51 G 总结 说明 a 这里举的例子是等距分组 从设置过程可以看出 也可以进行非等距分组 b 这里讲解的是将离散型 连续型的变量的值分成若干组 将每一组构成的区间和一个新变量的值建立了关系 执行的操作是 重新编码为不同变量 有时建立了新变量之后 旧的值已经没有用了 可以用新生成的变量将原数值替换掉 这时需要选择的操作是 重新编码为相同变量 理论与方法基本相同 演示例子 建立每一个值与区间变量的关系 3 19 202012 59AM 浙江树人大学管理学院 52 3 19 202012 59AM 浙江树人大学管理学院 53 3 19 202012

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论