第三章-SPSS数据的预处理[002].ppt_第1页
第三章-SPSS数据的预处理[002].ppt_第2页
第三章-SPSS数据的预处理[002].ppt_第3页
第三章-SPSS数据的预处理[002].ppt_第4页
第三章-SPSS数据的预处理[002].ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章SPSS数据的预处理 1 为什么要进行数据的预处理 在数据文件建立之后 通常还需要对分析的数据进行必要的预加工处理 这是数据分析过程中必不可少的一个关键步骤 数据的预加工处理服务于数据分析和建模 主要包括以下几个问题 2 数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能 转置 加权 数据拆分 定义变量集 预处理的内容 3 3 1数据的排序 SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列 这里的变量也称为排序变量 排序变量只有一个时 排序称为单值排序 排序变量有多个时 排序称为多重排序 多重排序中 第一个指定的排序变量称为主排序变量 其他依次指定的变量分别称为第二排序变量 第三排序变量等 4 数据排序便于数据的浏览 有助于了解数据的取值状况 缺失值数量的多少等 通过数据排序能够快捷的找到数据的最大值和最小值 进而可以计算出数据的全距 初步把握和比较数据的离散程度 通过数据排序能够快捷地发现数据的异常值 为进一步明确它们是否会对分析产生重要影响提供帮助 3 1 1数据排序的作用 5 SPSS数据排序的基本操作步骤 1 选择菜单Data SortCases 2 将主排序变量从左边的列表中选到Sortby框中 并在SortOrder框中选择按该变量的升序还是降序排序 3 如果是多重排序 还要一次指定第二 第三排序变量及相应的排序规则 3 1 2数据排序的基本操作 6 在左边的源变量框中选择排序变量进入Sortby框 如果选择2个以上的变量 观测量的排序结果与排序变量在Sortby框中的顺序有关 列于首位的为第一排序变量 在SortOrder栏内选择排序方式 升序与降序 7 1 数据排序是整行数据排序 而不是只对某列变量排序 2 多重排序中指定排序变量的次序很关键 先指定的变量优先于后指定的变量 多重排序可以在按某个变量值升序 或降序 排序的同时再按其他变量值降序 或升序 排序 3 数据排序后 原有数据的排序次序必然被打乱 说明 8 数据排序应用举例 利用居民储蓄调查数据 通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值 9 3 2变量计算 数据的转换处理是在原有数据的基础上 计算产生一些含有更丰富信息的新数据 例如根据职工的基本工资 失业保险 奖金等数据 计算实际月收入 这些新变量具有更直观更有效的特点 10 3 2 1变量计算的目的 SPSS变量计算是在原有数据的基础上 根据用户给出的SPSS算术表达式以及函数 对所有个案或满足条件的部分个案 计算产生一系列新变量 1 变量计算是针对所有个案 或指定的部分个案 的 每个个案都有自己的计算结果 2 变量计算的结果应保存到一个指定变量中 该变量的数据类型应与计算结果的数据类型相一致 在变量计算过程中涉及到几个概念 SPSS算数表达式 SPSS条件表达式和SPSS函数 11 指出按照什么方法计算变量 SPSS算术表达式 NumericExpression 是由常量 变量 算术运算符 圆括号 函数等组成的式子 字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括 乘方 在同一算术表达式中的常量及变量 数据类型应该一致 否则无法计算 3 2 2SPSS算术表达式 12 在变量计算中通常要求对不同的个案分别按照不同的方法进行计算 于是就需要通过一定的方式来指定个案 SPSS条件表达式是一个对条件进行判断的式子 其结果有两种取值 如果判断条件成立 则结果为真 如果判断条件不成立 则结果为假 条件表达式包括简单条件表达式和复合条件表达式 3 2 3SPSS条件表达式 13 1 简单条件表达式由关系运算符 常量 变量以及算术表达式等组成的式子 其中关系运算符包括 nl 35 2 复合条件表达式又称逻辑表达式 是由逻辑运算符号 圆括号和简单条件表达式等组成的式子 其中 逻辑运算符号包括 或AND 并且 或OR 或者 或NOT 非 NOT的运算优先级最高 其次是AND 最低是OR 可以通过圆括号改变运算的优先级 nl 35 andnot zc 3 14 SPSS函数是事先编好并存储在SPSS软件中 能够实现某些特定计算任务的一段计算机程序 这些程序都有各自的名字称为函数名 执行这些程序段得到的计算结果称为函数值 函数书写的具体形式为 函数名 参数 3 2 4SPSS函数 15 其中 函数名是SPSS已经规定好的 参数可以是常量 字符型常量应用引号括起来 也可以是变量或算术表达式 参数可能是一个 也可能是多个 各参数之间用逗号分隔 SPSS函数大致可以分成八大类 算术函数 统计函数 分布函数 逻辑函数 字符串函数 缺失值函数 日期函数和其他函数 16 1 选择菜单Transform Compute 弹出ComputeVariable对话框如下 3 2 5变量计算的基本操作 17 2 在Target框中输入存放计算结果的变量名 该变量可以是一个新变量 也可以是已经存在的变量 如果指定存放计算结果的变量为新变量 SPSS会自动创建它 如果指定产生的变量已经存在 SPSS会提问是否以计算结果覆盖原有值 新的变量默认为数值型 用户可以根据需要单击Type Label按钮修改 还可以对新变量加变量名标签 3 在NumericExpression框给出SPSS算术表达式 可以手工输入 也可以按窗口的按钮以及函数下拉菜单输入 18 4 如果希望对符合一定条件的个案进行变量计算 则单击If按钮 出现下面的窗口 选择Includeifcasesatisfiescondition选项 然后输入条件表达式 对不满足条件的个案 将不进行变量值计算 对新变量取值为系统缺失值 19 1 利用职工基本情况数据 依据职称级别计算实发工资 假设职称1至4职工的工资分别上调50 30 20 10 多次调用compute 2 利用裁判打分数据计算出选手的最后得分 计算标准为 去掉一个最高分和一个最低分 计算其余分数的平均分 3 计算 职工数据 sav 中职称值 2的职工求基本工资和失业保险的平均值 3 2 6变量计算的应用举例 20 3 3数据选取 抽样 数据选取就是根据分析的需要 从已收集到的大批量数据 总体 中按照一定的规则抽取部分数据 样本 参与分析的过程 通常也称为抽样 目的 方便对符合条件的case进行分析 SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取 这样后面的分析操作就只针对选出的数据 直到用户取消这种选取为止 21 1 选取全部数据 Allcases 2 按指定条件选取 Ifconditionissatisfied SPSS要求用户以条件表达式给出数据选取的条件 SPSS将自动对数据编辑窗口中的所有个案进行条件判断 那些满足条件的个案 即条件判断为真的个案将被自动选取出来 而那些条件判断为假的个案则不被选中 3 3 1数据选取的基本方式 22 3 随机抽样 Randomsampleofcases 即对数据编辑窗口中的所有个案进行随机筛选 包括如下两种方式 第一 近似抽样 Approximately 近似抽样要求用户给出一个百分比数值 SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案 注 由于SPSS在样本抽样方面的技术特点 抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目 会有小的偏差 因而称为近似抽样 23 第二 精确抽样 Exactly 精确抽样要求用户给出两个参数 第一个参数是希望选取的个案数 第二个参数是指定在前几个个案中选取 SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来 24 4 选取某一区域内的样本 Basedontimeorcaserange 即选取数据编辑窗口中样本号在指定范围内的所有个案 要求给出这个范围的上 下界个案号码 这种抽样方法适用于时间序列数据 5 通过过滤变量选取样本 Usefiltervariable 即依据过滤变量的取值进行样本选取 要求指定一个变量作为过滤变量 变量值为非0或非系统缺失值的个案将被选中 这种方法通常用于排除包含系统缺失值的个案 25 说明 1 完成数据选取后 以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止 2 采用指定条件选取和随机抽样方法进行数据选取后 SPSS将在数据编辑窗口中自动生成一个名为filter 的新变量 取值为1或0 1表示本个案被选中 0表示未被选中 该变量是SPSS产生的中间变量 如果删除它则自动取消样本抽样 26 1 选择菜单Data Selectcases 2 根据分析需要选择数据选取方法 3 Unselectedcasesare指定对未选中个案的处理方式Filtered表示在未被选中的个案号码上打一个 标记 Deleted表示将未被选中的个案从数据编辑窗口中删除 3 3 2数据选取的基本操作 27 SelectCases对话框 28 利用居民储蓄调查数据 根据不同的分析要求采用不同的数据选取方法抽样 1 如果只希望分析城镇储户的情况 可以通过数据选择功能采用指定条件的抽样方法进行抽样 2 如果只希望对其中的70 的数据进行分析 可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样 3 3 4数据选取的应用举例 29 3 4计数 3 4 1计数目的SPSS实现的计数是对所有个案或满足某条件的部分个案 计算若干变量中有几个变量的值落在指定的区间内 并将计数结果存入一个新变量中的过程 例如对学生的成绩进行综合测评时 可以依次计算每个学生的若干门课程中有几门课程得了优 有几门课程得了良 有几门课程不及格 SPSS实现计数的关键步骤是 指定哪些变量参与计数 计数的结果存入哪个新变量中指定计数区间 尤为关键 30 SPSS中的计数区间可以有以下几种描述形式 单个变量值 Value 系统缺失值 System missing 系统缺失值或用户缺失值 Systemoruser missing 给定最大值和最小值的区间 nthroughm 小于等于某指定值的区间 Lowestthroughn 大于等于某指定值的区间 nthroughhighest 3 4 2计数区间 31 上述后三个计数区间很容易理解 例如评价学生成绩 成绩为优的计数区间可以指定为90throughhighest 成绩为良的计数区间指定为80through89 不及格的计数区间指定为Lowestthrough59 前三个计数区间实际上是一些离散的数据点 严格讲并不是区间 但SPSS仍将其归在广义区间的范畴内 目的是方便一些其他的应用 32 1 选择菜单Transform Count 出现如下窗口 3 4 3计数的基本操作 33 2 将参与计数的变量选到NumericVariables框中 3 在TargetVariable框中输入存放计数结果的变量名 并在TargetLabel框中输入相应的变量名标签 4 单击DefineValues按钮定义计数区间 出现如下图窗口 34 通过单击Add Change Remove按钮完成计数区间的增加 修改和删除 35 5 如果仅希望对满足某条件的个案进行计数 则单击If按钮并输入相应的SPSS条件表达式 否则 本步可略去 36 利用居民储蓄调查数据分析近些年储户收入的总体状况 我们认为如果储户收入今年比去年增加了 且认为今后收入仍会增加则认为收入状况较好 试分析有多少个储户的收入状况较好 对学生的成绩进行综合测评时 可以依次计算每个学生的3门课程中有几门课程得了优 有几门课程得了良 有几门课程不及格 3 4 4计数的应用举例 37 3 5分类汇总 3 5 1分类汇总的目的分类汇总是按照某分类变量进行分类汇总计算 例如 某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距 最简单的做法就是分类汇总 即将职工按学历进行分类 分别计算不同学历职工的平均工资 然后可对平均工资进行比较 38 例如 某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的 打折促销 反应是否存在较大差异 用以分析不同消费群体的消费心理 最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度 标准差 并对它们进行比较 这个过程也可以通过分类汇总过程完成 例如 分析男生和女生学习成绩是否存在差距 39 SPSS实现分类汇总涉及两个主要方面 按照哪个变量 如上例中的学历 职业和年龄段 进行分类对哪个变量 如上例中的基本工资 消费金额 进行汇总 并指定对汇总变量计算哪些统计量 如上例中的平均工资 平均消费金额和标准差 40 2020 2 5 41 1 选择菜单Data Aggregate 出现如下所示的窗口 3 5 2分类汇总的基本操作 42 2 将分类变量选到BreakVariable s 框中 3 将汇总变量选到SummariesofVariable s 框中 4 单击Function按钮 指定对汇总变量计算哪些统计量 SPSS默认计算均值 43 5 指定将分类汇总结果保存到何处 有三种选择 第一 AddAggregatedVariablestoworkingdatafile 表示将结果存放到当前数据编辑窗口中 第二 Createnewdatafile 表示将结果存放到系统默认的名为aggr sav的SPSS数据文件中 可以单击File按钮 重新指定文件名 第三 Replaceworkingdatafile 表示用分类汇总结果覆盖数据编辑窗口中的数据 一般选择第二种方式 结果比较清晰 44 6 单击Name Label按钮 重新指定结果文件中的变量名或添加变量名标签 SPSS默认的变量名为原变量名后加 统计量名称 如a mean 7 如果希望在结果文件中保存各分类组的个案数 则选择Numberofcase选项 于是 SPSS会在结果文件中自动生成一个默认名为N Break的变量 可以修改该变量名 45 说明 分类汇总中的分类变量可以是多个 此时的分类汇总称为多重分类汇总 如上述不同职业和不同年龄段顾客消费的例子即是多重分类汇总的应用 类似于数据的排序 在多重分类汇总中 指定多个分类变量的前后次序是很关键的 第一个指定的分类变量为主分类变量 如职业 其他的依次为第二 如年龄段 第三分类变量等 它们决定了分类汇总的先后次序 46 例1 根据职工情况数据研究不同学历的职工的工资水平是否存在差异 最简单的分析可利用分类汇总功能计算不同学历职工的平均工资 然后进行比较 选择文化程度为分类变量 基本工资为汇总变量 3 5 3分类汇总的应用举例 47 例子2 利用学生成绩数据 分析男生和女生学习成绩是否存在差距 48 例3 利用居民储蓄调查数据 分析城镇储户和农村储户的一次平均存 取 款金额是否有显著的差异 可进行的最初步的分析是按照户口类型对存 取 款金额进行分类汇总 其中分类变量是户口 汇总变量是存 取 款金额 且计算其均值 49 3 6数据分组 3 6 1数据分组的方法数据分组就是根据统计研究的需要 将数据按照某种标准重新划分为不同的组别 适用对象 定距型数据 作用 在数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征 为适用于不同的统计分析需要 SPSS提供了以下几种数据分组方法 单项式分组组距分组 等距和不等距分组 50 居民家庭按人口数单项式分组 离散型变量如果变量值的变动范围不大 可以将一个变量值作为一组 称单项式分组 如右表 一次分一个 单项式分组 51 在连续型变量或离散型变量值较多的情况下 可采用组距式分组形式 组距式分组就是把全部变量值划分为几个区间 每一区间的变量值作为一组 如右表 组距式分组 52 在组距式分组中涉及到了几个关键点 1 分成多少组 组数确定问题 组数的多少以分组后能恰当反映总体内部的分布特征和规律为好 Sturges分组经验公式 K 1 LN N LN 2 其中 K为组数 N为数据个数 2 组距如何确定 组距 区间的距离即为组距 确定公式 组距 最大值 最小值 组数 3 根据组距各组的组距是否相等 又可以分为等距分组和不等距分组两种方式 53 4 组限 组距两端的数值称为组限 每组的最大值称为上限 用U Upperlimit 表示 每组的最小值称为下限 用L Lowerlimit 表示 统计数据时 注意 上组限不在内 法则 另外 极端组可采用开放式组距 5 组中值 每组上 下限之间的中点数值 即 组中值 上限十下限 2 54 例如 职工基本情况数据 可按基本工资对职工进行分组 见下表 55 SPSS单变量值分组的基本操作步骤 1 选择菜单Transform AutomaticRecode 2 将分组变量选择到Variable NewName框中 3 在NewName框后输入存放分组结果的变量名 并单击AddNewName按钮 4 在RecodeStartingfrom框中选择单变量值分组按升序还是按降序进行 Lowestvalue表示升序 Highestvalue表示降序 3 6 2SPSS的单项式分组 56 单项式分组应用举例 1 利用职工情况数据按职工的基本工资升序进行分组 2 按职工的职称升序进行分组 57 组数和组距确定后 便可实施分组操作了 在分组操作时应 指定分组变量定义分组区间 注意遵循 不重不漏 原则 指定存放结果的变量SPSS对分组结果有两种存放策略 一种是用分组变量值覆盖原变量 IntoSameVariables 另一种是将分组结果存到一个新变量中 IntoDifferentVariables 相应的操作也略有差异 通常采用第二种策略 3 6 3SPSS的组距式分组 58 1 IntoSameVariables分组操作 1 选择菜单Transform Recode IntoSameVariables 2 在出现的窗口中将分组变量选择到Variables框中 3 单击OldandNewValues按钮进行分组区间定义 4 在分组区间定义窗口中指定分组区间的下限和上限 并在NewValue框中给出该区间对应的分组值 单击Add按钮确认分组区间并加到Odd New框中 单击Change和Remove按钮来修改和删除分组区间 5 如果仅对符合一定条件的个案分组 则单击If按钮并输入SPSS条件表达式 否则 本步可略去 59 2 IntoDifferentVariables分组操作 1 选择菜单Transform Recode IntoDifferentVariables 2 在出现的窗口中将分组变量选择到InputVariable OutputVariable框中 3 在OutputVariable后输入存放分组结果的变量名 并单击Change按钮确认 可以在Label后输入相应的变量名标签 4 单击OldandNewValues按钮进行分组区间定义 方法与前面相似 5 如果仅对符合一定条件的个案分组 则单击If按钮并输入SPSS条件表达式 否则 本步可略去 60 例1 利用职工数据按职工基本工资分别采用IntoSameVariables和IntoDifferentVariables两种方式进行如下分组 3 6 4组距式分组的应用举例 61 例子2 利用居民储蓄调查数据 分析一次存款金额的分布情况 分成三组 10000以下 10000 50000 50000以上 62 3 7数据预处理的其他功能 3 7 1数据转置SPSS的数据转置就是将数据编辑窗口中数据的行列互换 基本操作步骤如下 1 选择菜单Data Transpose 2 指定数据转置后应保留哪些变量 将它们选入Variables框中 未被选中的变量将在新文件中缺失 3 指定转置后数据文件中各变量如何取名 63 应选择一个取值唯一的变量 如职工号 作为标记变量并放到NameVariable框中 转置后数据各变量取名为K 标记变量值 如K 001 K 002 K 003等 如果略去本步 则转置后数据各变量名默认为VAR00001 VAR00002 VAR00003等 同时 SPSS还会自动产生一个名为Case lbl的新变量 用来存放原数据文件中的各变量名 64 3 7 2加权处理 统计分析中的加权处理是极为常见的 如计算加权平均数等 适用条件 当数据文件中存在一个表示频数的变量时 定义该变量为加权变量 65 例如 希望掌握菜市场某天蔬菜销售的平均价格 如果仅用各种蔬菜销售单价的平均数作为平均价格就很不合理 还应考虑到销售量对平均价格的影响 因此 以蔬菜的销售量为权数计算各种蔬菜销售单价的加权平均数 就能够较准确地反应平均价格水平 66 SPSS中指定加权变量的操作步骤是 1 选择菜单Data WeightCases 2 选择WeightCasesby选项 并将某变量作为加权变量选到WeightCasesby框中 注意的是一旦指定了加权变量 那么以后的分析处理中加权是一直有效的 直到取消加权为止 取消加权应选择Donotweightcases选项 3 屏幕右下角会显示 weighton 67 例 根据蔬菜数据对各种蔬菜价格进行加权处理 如何计算蔬菜的平均价格 并将该结果与未加权处理计算的蔬菜平均价格进行比较 68 分析 加权处理 汇总 蔬菜平均价格 由于缺少统一分类变量 需要添加一个蔬菜类的统一标识分类变量 然后按该变量分类汇总 取消加权 在汇总 69 SPSS的数据拆分与数据排序很相似 但有一个重要的不同点 数据拆分不仅是按指定变量进行简单排序 更重要的是根据变量对数据进行分组 为以后的分组统计分析提供便利 3 7 3数据拆分 70 1 SPSS数据拆分的基本操作步骤 1 选择菜单Data SplitFile 出现窗口 71 2 将拆分变量选到GroupsBasedon框中 3 拆分会使后面的分组统计产生两种不同格式的结果 其中 Comparegroups表示将分组统计结果输出在同一表格中 以便于不同组之间的比较 Organizeoutputbygroups表示将分组统计结果分别输出在不同的表格中 通常选择第一种输出方式 4 如果数据编辑窗口中的数据已经事先按所指定的拆分变量进行了排序 则可以选择Fileisalreadysorted项 可以提高拆分执行的速度 否则 选择Sortthefilebygroupingvariables项 72 2 说明 1 数据拆分将对后面的分析一直起作用 即无论进行哪种统计分析 都将按拆分变量的不同组别分别分析计算 如果希望对所有数据进行整体分析 则需要重新执行数据拆分 在数据拆分窗口中选择Analyzeallcases项 2 对数据可以进行多重拆分 类似于数据的多重排序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论