第三章SPSS-数据的预处理ppt课件.ppt_第1页
第三章SPSS-数据的预处理ppt课件.ppt_第2页
第三章SPSS-数据的预处理ppt课件.ppt_第3页
第三章SPSS-数据的预处理ppt课件.ppt_第4页
第三章SPSS-数据的预处理ppt课件.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3 29 2020 1 SPSS统计分析方法及应用第三章 SPSS数据的预处理 3 29 2020 2 1数据的排序 数据文件建立完成之后 为了方便统计分析 需要对数据进行初步的处理 如对数据进行排序 将一列数据扩大一个倍数 多列数据的求和等等 数据集中的数据是按照录入的先后排列的 并没有规律可言 不便于数据的分析 数据排序有什么好处呢 a 经过排序的数据 有助于了解数据的取值状况 缺失值的数量等 b 经过数据的排序 方便的找出了变量的最大 最小值 计算出数据的全距 了解数据的离散程度 1 数据排序的目的 3 29 2020 3 2 数据排序的规则 c 通过排序 可以快速发现异常值 以便及时对其进行处理 a 排序分为升序与降序 可以同时对数据集中的多个变量进行排序 b 排序的规则是 按第一个变量排序 第一个变量相同时按第二个变量排序 余此类推 c 排序后是个案位置的改变 未排序的变量数据随排序变量的位置同时改变 3 数据排序的操作 3 29 2020 4 3 数据排序例 b 选择排序变量并移入Sortby列表框中 指定该变量的数据是升序 Ascending 还是降序 Descending 的单选按钮 c 如果是多重排序 用同样的方法指定第二 第三排序变量 按第一个变量先排序 第一个变量相同 按下一个变量排序 余类推 对居民储蓄存款调查数据 利用排序的方法找出城镇居民和农村居民一次性存款的最大值和最小值 操作 户口 升序 存款额 升序 a 选择菜单Data SortCases 这时 数据集所有变量出现在排序对话框左侧的列表中 3 29 2020 5 2变量的计算 在统计分析过程中 为了更有效的反映事物的本质 有时需要对变量的数据进行加工整理 产生新变量和计算结果 比如计算一个变量的倍数 计算几个变量的和 差 计算变量的绝对值 平方等等 因此 变量的计算是日常工作中经常遇到的 51 57页不讲 对职工的基本情况的数据 41页 表2 5进行处理 依据职称级别计算实发工资 满足 职称1 4的工资分别上浮5 3 2 1 用例子演示变量计算的基本操作 58页 变量计算的例 58页 3 29 2020 6 1 进入变量计算对话框 首先将数据加工 职工数据 sav数据集打开 选择菜单Transform 变换 ComputeVariable 计算变量 弹出算术表达式编辑窗口 a 在TargetVariable 目标变量 的编辑框中输入生成的新变量名称 这时的变量可以是新变量 也可以是原有变量 b 如果输入的变量名在数据文件中已经存在 满足条件个案新变量的值将替换旧变量对应的值 其它值不变 c 新变量的数据类型默认为数值型 点击Type Label按 2 定义结果变量 3 29 2020 7 图3 3变量计算窗口 3 29 2020 8 3 算术表达式及运算符的定义 对于我们的例子 新变定义量名实发工资为 sfgz 选择默认数据类型 见图3 3 a 算术表达式 NumericExpression 定义 将常数 变量用算术运算符和函数组合起来的式子 b 算术表达式的元素 变量可以从左侧的变量列表中选择 数字 运算符号可以在软键盘中选择 函数可以从右侧选择 这些也都可以直接用键盘输入 c 逻辑运算符及意义逻辑与 等价于AND逻辑或 等价于OR 钮 在弹出的对话框中可以定义新变量的数据类型和标签 3 29 2020 9 4 条件语句编辑 单击if按钮 进入条件语句编辑框 有两个单选按钮 a Includeallcases 对所有个案进行计算 默认选项 b Includeifcasessatisfiedcondition 仅对满足条件的个案进行计算 选择这一单选按钮后 编辑框激活 c 在这里可以输入筛选条件 需要说明的是 每次只能编辑一个筛选条件 不能同时编辑多个筛选条件 对应工资上浮5 的条件是职称值等于1 高级工程师 在编辑框输入表达式 zc 1 逻辑非 等价于NOT 在算术表达式编辑框输入 sr bx 1 05 3 29 2020 10 5 条件语句编辑编辑例 这时高级工程师的个案的sfgz变量都有了数据 其它职称个案的sfgz的值为缺失值 重复同样的方法 分别设置 表达式条件 sr bx 1 03zc 2工程师 sr bx 1 02zc 3助理工程师 sr bx 1 01zc 4无职称这时变量sfgz所在的列将不再有缺失值 点击条件语句编辑窗口的Continue按钮 退回到表达式编辑框 点击OK按钮 高级工程师的实发工资计算完成 3 29 2020 11 6 计算方法的不足 变量的计算 无法一次将不同条件的表达式集中编写 只能一个条件表达式运行一次 3 29 2020 12 3数据抽样 选取 在实际的工作中 往往需要对满足一定条件的数据进行分析 如研究储蓄存款时 将储户分成城镇储户和农村储户 这时的数据更具有相同的特征 研究也更具有针对性 因此 要对数据进行筛选 在统计学中也称之为抽样 抽样的步骤如下 打开居民储蓄调查数据 存款 sav菜单Data Selectcases 弹出抽样对话框见图3 4 1 左边为变量列表 右边显示抽样方法 有5个单选按钮 不进行抽样 所有的个案均参与统计分析 1 抽样方法的选择 1 Allcases 3 29 2020 13 图3 4 1数据抽样 3 29 2020 14 2 Ifconditionissatisfied 抽样得到的数据集是全部数据的一个子集 符合抽样条件的个案才参与统计分析操作 这一选项表示不进行抽样 也用于删除在此之前设置的抽样条件 筛选条件满足时抽取 例 抽取所有城镇储户的数据信息 a 在抽样界面 点击Ifconditionissatisfied单选按钮 b 点击If按钮 弹出SelectcasesIf对话框 操作 在编辑框输入等式 a13 1 抽取城镇户口客户 c 点击Continue按钮 完成条件抽样 不符合条件的打上删除标记注意 这里的筛选条件的值不能是变量的值标签 查看设置界面的当前状态 数据编辑窗口个案的删除标记 筛选变量 3 29 2020 15 A Approximately 近似 为了真实模拟社会现象 有时需要采用随机抽样 选择Randomsampleofcases单选按钮 这时Sample按钮激活 点击后进入Selectcases Randomsample定义抽样范围对话框 有两个单选按钮 在文本框中输入一个大于0小于100的数 按百分比抽取 3 Randomsampleofcases 3 29 2020 16 C 随机数种子发生器 精确抽样 从前n个个案中随机抽取m个个案 由于具体抽取多少个个案是事先知道的 因此称为精确抽样 这时需要m n 经过随机抽样后 未抽取数据的个案号打上了斜线 演示大概抽样 随机抽取30 的个案 查看状态标记变量 随机性的实现是由随机数种子控制的 在随机数发生器 B Exactly 例子将随机抽取总数的30 的个案构成一个数据集 抽样设置是百分数而非确切数值 因此称为大概抽样 3 29 2020 17 图3 5随机数种子设置窗口 与版本12兼容 3 29 2020 18 4 Basedontimeorcaserange a Rendom 每次抽取 都产生一个随机数作为开设置 b FixedValue 在下边的文本框中填入一个大于0小于的具体数值作为种子 在指定的范围内 顺序抽样 更适于时间序列数据 点击Range按钮 弹出Selectcases Range对话框 在初始化发生器 activeGeneratorInitialization 模块 设置开始点 Setstartingpoint 有两个选项 的设置菜单 Transform RandomNumberGenerator 弹出设置随机数对话框见图3 5 3 29 2020 19 5 Usefiltervariable 使用过滤器过滤变量 要求指定一个变量作为过滤变量 抽样从非缺失值的个案中抽取 这种方法主要用于排除含有系统缺失值的个案 在选择了抽样方式以后 SelectCases对话框右下角的Output模块中的单选按钮变为激活状态 从而可以进行抽样的输出选择 这里有3个单选按钮 抽样从第m个个案开始 到第n个个案结束 2 抽样数据集的输出 3 29 2020 20 2 Copyselectedcasestoanewdataset 过滤掉没有选择的个案 这时未被选中的个案上打上斜线作为删除标记 默认选项 删除没有被选择的个案 由于虽然此次没有抽取 但以后仍可能用到 一般不采取删除的方式处理方式 将选择了的个案存储到一个新的数据集中 这时需要在其后的文本框中输入要存储数据集的名字 3 Deleteunselectedcases 1 Filteroutunselectedcases 3 29 2020 21 4 几点说明 A 统计分析时 不对打上删除标记的个案进行分析 直到删除抽样设置为止 B 采用指定条件抽样和随机抽样这两种方法进行抽样 系统将在编辑窗口中自动生成一个变量名为filter 的新变量 取值为0或1 1表示个案被抽取 0表示数据未被抽取 这样的变量称为中间变量 作为筛选条件时使用 如果删除这一变量 抽样设置自动消除 如果删除了筛选条件 这一变量也会自动删除 演示随机抽样查看生成变量 C 对数据集不能同时设置两种抽样方式 设置一种抽样方式 在此之前设置的抽样方式将自动取消 3 29 2020 22 4 计数 在实际工作当中 需要对调查问卷的答案进行分析 例1 居民储蓄调查 存款 sav中有如下两个指标 收入情况 未来收入情况 取值分别为 1 增加 2 基本不变 3 减少 如果想了解在每一个个案中 选3 减少 的变量有几个 如何用SPSS快速的给出答案 例子特点 多个变量中 取同一值的变量有多少个 例2 中考成绩 计数63 sav 要统计出每一考生语文 英语 数学 物理和化学5科成绩 落在某一区间 如 70 79 的有几科 3 29 2020 23 1 计数的功能 计数是统计出在一个个案中 多个变量取同一个值或在同一个区间取值的变量个数的方法 因此 处理这样的问题需要关注两个问题 A 考察哪几个变量 B 同时取什么值 在哪一个区间取值 选择菜单Transform Countvaluewithincases 进入计数选择对话框 例子特点 多个变量 取值在同一个区间的有多少个 以上问题 如果通过SPSS软件实现 2 计数的步骤 3 29 2020 24 2 确定统计所关注的变量值 计数变量用于存储统计结果 步骤如下 a TargetVariable 在下面的文本框填入目标变量 用于存储计数的值 操作 在文本框中输入sb TargetLabel 在下面的文本框中输入变量的标签 作为目标变量的说明 可选 操作 堪忧 c NumericVariables 将要计数的变量输入 操作 收入情况 未来收入情况 变量一般取多个值 我们只关心多个变量同时取的某个 1 确定计数变量 3 29 2020 25 A 值设置 例子 收入情况未来收入情况这两个变量取3的有几个 点击 DefineValues 按钮 将选择的一个或多个变量与指定的值建立关系对话框 对话框分成两个区域 左边的区域是值定义 右边是值存储及修改 可以用3种方式定义值 单一数值 一个闭区间 一个开区间 步骤如下 A Value 默认选项 这时测试指定的一个或多个变量与文本框中给定的值是否相等 值的个数 这里是定义几个变量要取的那个固定的值 3 29 2020 26 操作 5门成绩中不及格的数量 B System missing SystemorUser missing 统计几个变量中系统缺失值 用户定义缺失值的数量 操作 5门成绩中 位于 80 89 的数量 操作 在文本框内输入3 3 29 2020 27 B 值的显示与修改 说明 每次只能定义一个取值方式 并定义一个用于存储统计结果的目标变量 操作 5门成绩中良以上的数量 3 29 2020 28 5分类汇总 根据高考总分 分析学生智力水平是否和性别有关 即按性别计算出高考总分的平均值 最高分和最低分 这两个例子的计算有如下特点 需要对数据进行分类 计算出每一类的某一经济指标 用SPSS如何实现呢 A 按照哪个变量进行分类 如 区域 性别 B 对哪个变量进行汇总 如 职工工资 高考总分 C 计算哪些指标 如 平均值 最大值和最小值 经济工作者根据工资数据 研究各县市职工的生活水平差异 需要计算各县市工资的平均工资 1 分类汇总关注的问题 3 29 2020 29 2 分类汇总的基本操作 A 打开汇总菜单点击 Data Aggregate 总计 汇总 弹出分类汇总对话框 B 选择分类变量 从左边的变量列表框选择分类变量到Break 破裂 Variable框中 操作 职业 C 选择汇总变量汇总变量AggregateVariable模块 例 利用居民储蓄调查数据 sav数据集 分析职业与存款数额之间的关系 3 29 2020 30 操作 存款金额 D 确定计算什么统计量 点击 Function 按钮 弹出选择对话框 可供选择的统计量包括 均值 求和 最大值 最小值等20个选项 默认选项是均值 每次只能计算一个统计量 默认是均值 Name Lable 按钮为计算的统计量定制标签 操作 均值 注意观察汇总变量的取值随着选择的改变而改变 E 输出每一类中包含的个案数 选择框Numberofcases 若选择将生成一个每一类中所含个案数的变量 变量名为N BREAK 3 29 2020 31 E 指定计算的统计量保存到何处 有3中选择 a Addaggregatedvariablestoactivedataset 将统计量的计算结果存储到当前数据集 b Createanewdatasetcontainingonlytheaggregatedvariables 创建一个只含指定统计量作为变量的新数据集 这时需在下面的文本框给出数据集的名字 c Writeanewdataonlytheaggregatedvariables 将计算的统计量存储到一个默认名称为agg sav 的新文件中 文件类型可以不是SPSS的文件类型 F Optionsforverylargedatasets大数据集选项 a alreadysortedbreakvariable在计算分类统计量之前已经关于分类变量排序 3 29 2020 32 G 多重分类汇总 分类变量可以多于一个 这时的汇总称为多重分类汇总 第一个分类变量称为主分类变量 分类变量的指定顺序决定了汇总的先后顺序 例如 主分类变量是职业 第二分类变量为年龄 略 引子 统计分析 经常要将数据进行分组 研究一类数据的共性 对于各种各样的数据 如何用SPSS实现分组呢 b Sortaggregating在执行分类汇总前 系统先执行关于分类变量排序 通过分类统计可以看出 随着职业的不同 存款数量的平均值也不同 查看数据集 3 29 2020 33 6数据分组 数据分组是根据统计研究的需要 按照一定的特征将总体区分为若干个性质不同而又存在联系的部分的一种方法 这些部分称为这一统计总体的组 数据分组对总体而言是 分 即把总体划分为性质相异的若干组 对个体而言是 合 即把性质相同的个体合为一组 1 数据分组的意义 1 为什么要数据分组 2 数据分组的原则 3 29 2020 34 另一方面 差异很大时的两个事物看成相同的类 将抹杀事物质的区别与特征 混淆事物的优劣 不能正确的评价出事物的好坏将不利于相关工作的开展 3 分类原则的总结 一次性存款数量为1000元与1020元 虽然数量存在差异 未必有什么质的差别 考试成绩84分与88分的学生 虽然分数不同 但学生的基本素质可能没有本质的差别 统计分组的原则 是保证组间各个单位具有差异性 组内的各个单位具有同质性 3 29 2020 35 2 组距分组 重赋值Recode 对于定距变量 由于数值型变量的连续性与稠密性 为了研究的需要 有时需将数据进行分组 分组既要体现出组之间的差异 又不能分组太多 需要确定合适的分组区间 将变量的变化范围依次分成若干个满足包容性和互斥性的数值区间 什么叫包容性与互斥性呢 1 组距分组的定义 用文字表示的品质变量 如性别 职称 民族等等 这样的变量相当于利用变量的不同取值 自然的进行了分组 3 29 2020 36 按照组距分组的定义 用组的区间作为组的名称直观 但如果组区间数值很大或很复杂 研究问题不是很方便 将各个区间重新赋予一个值作为组的名称 这样的分组称为组距分组 也称为重赋值 Recode 每一个变量的值 必须属于其中的某一组是包容性 且只能属于一组 不能同时属于两个以上的组是互斥性 例子 某个企业的职工小区 人均可支配收入见下表 2 分组数目的确定 3 29 2020 37 3 组距的确定 分组过多时 容易将具有相同特征的数据分到了两个组 使问题复杂化 分组过少 会将具有不同特征的数据归为一组 淡化了数据的差异 数据应分成多少组 没有统一的方法与模式 通常根据数据本身的特点 数据的个数及研究问题的具体需要具体分析后确定 定义 组距是数据的上限 最大值 与数据的下限 最小值 之差除以组数 即 组距式分组的特点 平抑各组数据内部的区别 突出各组之间的差异 以方便观察数据的分布特征 3 29 2020 38 4 组距分组的实现 确定组数 组距的原则 组数一定是整数且不宜过多 组距一般是5或10的整数倍 例 数据加工 职工数据 sav数据集中最大值 1044 最小值 824 幅度 1044 824 220 根据数据变化的幅度及确定组距的原则 取组距为50 根据数据的分布特点 确定分组分为5组 开口组 850 851 900 901 950 951 1000 1001 操作 数据加工 职工数据 sav 组距 最大值 最小值 组数 A 打开要分组的数据文件 3 29 2020 39 菜单Trasform RecodeIntoDifferentVariable 对数据进行分组 对每个组的名称重编码存入一个不同的变量 这时弹出变量选择设置窗口 在左边变量的列表框中选择分组变量 将其移入右边的InputVariable OutputVariable列表框 例 sr 工资 在Name下面的文本框中 给出输出变量的名字 用于存储各个组的名字 B 打开数据分组对话框 C 选择分组变量 D 为输出变量命名 3 29 2020 40 E 建立新旧组名的对应关系 进入条件表达式设置对话框 进行条件表达式的设置 3个按钮 对新值进行设置并建立新旧值之间的对应关系 对建立的关系进行修改及将建立的关系删除等操作 可在下面的Lable的文本框为输出变量定义一个标签 点击 change 按钮完成输出变量的定义 例 s F 设置筛选条件 3 29 2020 41 G 总结 说明 a 这里举的例子是等距分组 从设置过程可以看出 也可以进行非等距分组 b 这里讲解的是将离散型 连续型的变量的值分成若干组 将每一组构成的区间和一个新变量的值建立了关系 执行的操作是 RecodeIntoDifferentVariable 有时建立了新变量之后 旧的值已经没有用了 可以用新生成的变量将原数值替换掉 这时需要选择的操作是 RecodeIntoSameVariable 理论与方法基本相同 略 演示例子 建立每一个值与区间变量的关系 3 29 2020 河北工大廊坊分校经济系周玉江 42 7预处理的其他功能 数据处理是对变量进行 而变量在数据集中都是按列存放的 如果得到的变量数据是按行存放 则需要将行变量转化成列变量 将数据行列互换 即矩阵的转置 1 数据的转置 3 29 2020 43 1 选择变量 点击菜单Data Transpose 弹出转置设置对话框 数据集的所有变量出现在对话框左侧的列表框中 将要转置的变量移至变量窗口 操作 将xb nl sr zc xl bx移入 行数据转化成了新数据集的列 每一列需要确定变量的名称 有两种方法 2 确定新数据集变量的名称 将要转置的数据集打开 操作 数据加工 职工数据 sav A 原数据集存在取唯一值的变量 如果原数据集存在一个取值唯一的变量 如学号 职 3 29 2020 44 B 原数据集无唯一标示行数据的变量 值标签转置后将无效 将取唯一值的变量移至NameVariable标签下的文本框内 如果该变量的取值具有形式 xxx 生成的新数据集自动生成的变量名称为 K xxx 操

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论