第三章-SPSS数据的预处理[002].ppt

上传人：优*** IP属地：广东上传时间：2020-02-05 格式：PPT 页数：81 大小：1.50MB 积分：68 举报 版权申诉

已阅读5页，还剩76页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三章SPSS数据的预处理 1 为什么要进行数据的预处理在数据文件建立之后通常还需要对分析的数据进行必要的预加工处理这是数据分析过程中必不可少的一个关键步骤数据的预加工处理服务于数据分析和建模主要包括以下几个问题 2 数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能转置加权数据拆分定义变量集预处理的内容 3 3 1数据的排序 SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列这里的变量也称为排序变量排序变量只有一个时排序称为单值排序排序变量有多个时排序称为多重排序多重排序中第一个指定的排序变量称为主排序变量其他依次指定的变量分别称为第二排序变量第三排序变量等 4 数据排序便于数据的浏览有助于了解数据的取值状况缺失值数量的多少等通过数据排序能够快捷的找到数据的最大值和最小值进而可以计算出数据的全距初步把握和比较数据的离散程度通过数据排序能够快捷地发现数据的异常值为进一步明确它们是否会对分析产生重要影响提供帮助 3 1 1数据排序的作用 5 SPSS数据排序的基本操作步骤 1 选择菜单Data SortCases 2 将主排序变量从左边的列表中选到Sortby框中并在SortOrder框中选择按该变量的升序还是降序排序 3 如果是多重排序还要一次指定第二第三排序变量及相应的排序规则 3 1 2数据排序的基本操作 6 在左边的源变量框中选择排序变量进入Sortby框如果选择2个以上的变量观测量的排序结果与排序变量在Sortby框中的顺序有关列于首位的为第一排序变量在SortOrder栏内选择排序方式升序与降序 7 1 数据排序是整行数据排序而不是只对某列变量排序 2 多重排序中指定排序变量的次序很关键先指定的变量优先于后指定的变量多重排序可以在按某个变量值升序或降序排序的同时再按其他变量值降序或升序排序 3 数据排序后原有数据的排序次序必然被打乱说明 8 数据排序应用举例利用居民储蓄调查数据通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值 9 3 2变量计算数据的转换处理是在原有数据的基础上计算产生一些含有更丰富信息的新数据例如根据职工的基本工资失业保险奖金等数据计算实际月收入这些新变量具有更直观更有效的特点 10 3 2 1变量计算的目的 SPSS变量计算是在原有数据的基础上根据用户给出的SPSS算术表达式以及函数对所有个案或满足条件的部分个案计算产生一系列新变量 1 变量计算是针对所有个案或指定的部分个案的每个个案都有自己的计算结果 2 变量计算的结果应保存到一个指定变量中该变量的数据类型应与计算结果的数据类型相一致在变量计算过程中涉及到几个概念 SPSS算数表达式 SPSS条件表达式和SPSS函数 11 指出按照什么方法计算变量 SPSS算术表达式 NumericExpression 是由常量变量算术运算符圆括号函数等组成的式子字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括乘方在同一算术表达式中的常量及变量数据类型应该一致否则无法计算 3 2 2SPSS算术表达式 12 在变量计算中通常要求对不同的个案分别按照不同的方法进行计算于是就需要通过一定的方式来指定个案 SPSS条件表达式是一个对条件进行判断的式子其结果有两种取值如果判断条件成立则结果为真如果判断条件不成立则结果为假条件表达式包括简单条件表达式和复合条件表达式 3 2 3SPSS条件表达式 13 1 简单条件表达式由关系运算符常量变量以及算术表达式等组成的式子其中关系运算符包括 nl 35 2 复合条件表达式又称逻辑表达式是由逻辑运算符号圆括号和简单条件表达式等组成的式子其中逻辑运算符号包括或AND 并且或OR 或者或NOT 非 NOT的运算优先级最高其次是AND 最低是OR 可以通过圆括号改变运算的优先级 nl 35 andnot zc 3 14 SPSS函数是事先编好并存储在SPSS软件中能够实现某些特定计算任务的一段计算机程序这些程序都有各自的名字称为函数名执行这些程序段得到的计算结果称为函数值函数书写的具体形式为函数名参数 3 2 4SPSS函数 15 其中函数名是SPSS已经规定好的参数可以是常量字符型常量应用引号括起来也可以是变量或算术表达式参数可能是一个也可能是多个各参数之间用逗号分隔 SPSS函数大致可以分成八大类算术函数统计函数分布函数逻辑函数字符串函数缺失值函数日期函数和其他函数 16 1 选择菜单Transform Compute 弹出ComputeVariable对话框如下 3 2 5变量计算的基本操作 17 2 在Target框中输入存放计算结果的变量名该变量可以是一个新变量也可以是已经存在的变量如果指定存放计算结果的变量为新变量 SPSS会自动创建它如果指定产生的变量已经存在 SPSS会提问是否以计算结果覆盖原有值新的变量默认为数值型用户可以根据需要单击Type Label按钮修改还可以对新变量加变量名标签 3 在NumericExpression框给出SPSS算术表达式可以手工输入也可以按窗口的按钮以及函数下拉菜单输入 18 4 如果希望对符合一定条件的个案进行变量计算则单击If按钮出现下面的窗口选择Includeifcasesatisfiescondition选项然后输入条件表达式对不满足条件的个案将不进行变量值计算对新变量取值为系统缺失值 19 1 利用职工基本情况数据依据职称级别计算实发工资假设职称1至4职工的工资分别上调50 30 20 10 多次调用compute 2 利用裁判打分数据计算出选手的最后得分计算标准为去掉一个最高分和一个最低分计算其余分数的平均分 3 计算职工数据 sav 中职称值 2的职工求基本工资和失业保险的平均值 3 2 6变量计算的应用举例 20 3 3数据选取抽样数据选取就是根据分析的需要从已收集到的大批量数据总体中按照一定的规则抽取部分数据样本参与分析的过程通常也称为抽样目的方便对符合条件的case进行分析 SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取这样后面的分析操作就只针对选出的数据直到用户取消这种选取为止 21 1 选取全部数据 Allcases 2 按指定条件选取 Ifconditionissatisfied SPSS要求用户以条件表达式给出数据选取的条件 SPSS将自动对数据编辑窗口中的所有个案进行条件判断那些满足条件的个案即条件判断为真的个案将被自动选取出来而那些条件判断为假的个案则不被选中 3 3 1数据选取的基本方式 22 3 随机抽样 Randomsampleofcases 即对数据编辑窗口中的所有个案进行随机筛选包括如下两种方式第一近似抽样 Approximately 近似抽样要求用户给出一个百分比数值 SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案注由于SPSS在样本抽样方面的技术特点抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目会有小的偏差因而称为近似抽样 23 第二精确抽样 Exactly 精确抽样要求用户给出两个参数第一个参数是希望选取的个案数第二个参数是指定在前几个个案中选取 SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来 24 4 选取某一区域内的样本 Basedontimeorcaserange 即选取数据编辑窗口中样本号在指定范围内的所有个案要求给出这个范围的上下界个案号码这种抽样方法适用于时间序列数据 5 通过过滤变量选取样本 Usefiltervariable 即依据过滤变量的取值进行样本选取要求指定一个变量作为过滤变量变量值为非0或非系统缺失值的个案将被选中这种方法通常用于排除包含系统缺失值的个案 25 说明 1 完成数据选取后以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止 2 采用指定条件选取和随机抽样方法进行数据选取后 SPSS将在数据编辑窗口中自动生成一个名为filter 的新变量取值为1或0 1表示本个案被选中 0表示未被选中该变量是SPSS产生的中间变量如果删除它则自动取消样本抽样 26 1 选择菜单Data Selectcases 2 根据分析需要选择数据选取方法 3 Unselectedcasesare指定对未选中个案的处理方式Filtered表示在未被选中的个案号码上打一个标记 Deleted表示将未被选中的个案从数据编辑窗口中删除 3 3 2数据选取的基本操作 27 SelectCases对话框 28 利用居民储蓄调查数据根据不同的分析要求采用不同的数据选取方法抽样 1 如果只希望分析城镇储户的情况可以通过数据选择功能采用指定条件的抽样方法进行抽样 2 如果只希望对其中的70 的数据进行分析可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样 3 3 4数据选取的应用举例 29 3 4计数 3 4 1计数目的SPSS实现的计数是对所有个案或满足某条件的部分个案计算若干变量中有几个变量的值落在指定的区间内并将计数结果存入一个新变量中的过程例如对学生的成绩进行综合测评时可以依次计算每个学生的若干门课程中有几门课程得了优有几门课程得了良有几门课程不及格 SPSS实现计数的关键步骤是指定哪些变量参与计数计数的结果存入哪个新变量中指定计数区间尤为关键 30 SPSS中的计数区间可以有以下几种描述形式单个变量值 Value 系统缺失值 System missing 系统缺失值或用户缺失值 Systemoruser missing 给定最大值和最小值的区间 nthroughm 小于等于某指定值的区间 Lowestthroughn 大于等于某指定值的区间 nthroughhighest 3 4 2计数区间 31 上述后三个计数区间很容易理解例如评价学生成绩成绩为优的计数区间可以指定为90throughhighest 成绩为良的计数区间指定为80through89 不及格的计数区间指定为Lowestthrough59 前三个计数区间实际上是一些离散的数据点严格讲并不是区间但SPSS仍将其归在广义区间的范畴内目的是方便一些其他的应用 32 1 选择菜单Transform Count 出现如下窗口 3 4 3计数的基本操作 33 2 将参与计数的变量选到NumericVariables框中 3 在TargetVariable框中输入存放计数结果的变量名并在TargetLabel框中输入相应的变量名标签 4 单击DefineValues按钮定义计数区间出现如下图窗口 34 通过单击Add Change Remove按钮完成计数区间的增加修改和删除 35 5 如果仅希望对满足某条件的个案进行计数则单击If按钮并输入相应的SPSS条件表达式否则本步可略去 36 利用居民储蓄调查数据分析近些年储户收入的总体状况我们认为如果储户收入今年比去年增加了且认为今后收入仍会增加则认为收入状况较好试分析有多少个储户的收入状况较好对学生的成绩进行综合测评时可以依次计算每个学生的3门课程中有几门课程得了优有几门课程得了良有几门课程不及格 3 4 4计数的应用举例 37 3 5分类汇总 3 5 1分类汇总的目的分类汇总是按照某分类变量进行分类汇总计算例如某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距最简单的做法就是分类汇总即将职工按学历进行分类分别计算不同学历职工的平均工资然后可对平均工资进行比较 38 例如某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的打折促销反应是否存在较大差异用以分析不同消费群体的消费心理最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度标准差并对它们进行比较这个过程也可以通过分类汇总过程完成例如分析男生和女生学习成绩是否存在差距 39 SPSS实现分类汇总涉及两个主要方面按照哪个变量如上例中的学历职业和年龄段进行分类对哪个变量如上例中的基本工资消费金额进行汇总并指定对汇总变量计算哪些统计量如上例中的平均工资平均消费金额和标准差 40 2020 2 5 41 1 选择菜单Data Aggregate 出现如下所示的窗口 3 5 2分类汇总的基本操作 42 2 将分类变量选到BreakVariable s 框中 3 将汇总变量选到SummariesofVariable s 框中 4 单击Function按钮指定对汇总变量计算哪些统计量 SPSS默认计算均值 43 5 指定将分类汇总结果保存到何处有三种选择第一 AddAggregatedVariablestoworkingdatafile 表示将结果存放到当前数据编辑窗口中第二 Createnewdatafile 表示将结果存放到系统默认的名为aggr sav的SPSS数据文件中可以单击File按钮重新指定文件名第三 Replaceworkingdatafile 表示用分类汇总结果覆盖数据编辑窗口中的数据一般选择第二种方式结果比较清晰 44 6 单击Name Label按钮重新指定结果文件中的变量名或添加变量名标签 SPSS默认的变量名为原变量名后加统计量名称如a mean 7 如果希望在结果文件中保存各分类组的个案数则选择Numberofcase选项于是 SPSS会在结果文件中自动生成一个默认名为N Break的变量可以修改该变量名 45 说明分类汇总中的分类变量可以是多个此时的分类汇总称为多重分类汇总如上述不同职业和不同年龄段顾客消费的例子即是多重分类汇总的应用类似于数据的排序在多重分类汇总中指定多个分类变量的前后次序是很关键的第一个指定的分类变量为主分类变量如职业其他的依次为第二如年龄段第三分类变量等它们决定了分类汇总的先后次序 46 例1 根据职工情况数据研究不同学历的职工的工资水平是否存在差异最简单的分析可利用分类汇总功能计算不同学历职工的平均工资然后进行比较选择文化程度为分类变量基本工资为汇总变量 3 5 3分类汇总的应用举例 47 例子2 利用学生成绩数据分析男生和女生学习成绩是否存在差距 48 例3 利用居民储蓄调查数据分析城镇储户和农村储户的一次平均存取款金额是否有显著的差异可进行的最初步的分析是按照户口类型对存取款金额进行分类汇总其中分类变量是户口汇总变量是存取款金额且计算其均值 49 3 6数据分组 3 6 1数据分组的方法数据分组就是根据统计研究的需要将数据按照某种标准重新划分为不同的组别适用对象定距型数据作用在数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征为适用于不同的统计分析需要 SPSS提供了以下几种数据分组方法单项式分组组距分组等距和不等距分组 50 居民家庭按人口数单项式分组离散型变量如果变量值的变动范围不大可以将一个变量值作为一组称单项式分组如右表一次分一个单项式分组 51 在连续型变量或离散型变量值较多的情况下可采用组距式分组形式组距式分组就是把全部变量值划分为几个区间每一区间的变量值作为一组如右表组距式分组 52 在组距式分组中涉及到了几个关键点 1 分成多少组组数确定问题组数的多少以分组后能恰当反映总体内部的分布特征和规律为好 Sturges分组经验公式 K 1 LN N LN 2 其中 K为组数 N为数据个数 2 组距如何确定组距区间的距离即为组距确定公式组距最大值最小值组数 3 根据组距各组的组距是否相等又可以分为等距分组和不等距分组两种方式 53 4 组限组距两端的数值称为组限每组的最大值称为上限用U Upperlimit 表示每组的最小值称为下限用L Lowerlimit 表示统计数据时注意上组限不在内法则另外极端组可采用开放式组距 5 组中值每组上下限之间的中点数值即组中值上限十下限 2 54 例如职工基本情况数据可按基本工资对职工进行分组见下表 55 SPSS单变量值分组的基本操作步骤 1 选择菜单Transform AutomaticRecode 2 将分组变量选择到Variable NewName框中 3 在NewName框后输入存放分组结果的变量名并单击AddNewName按钮 4 在RecodeStartingfrom框中选择单变量值分组按升序还是按降序进行 Lowestvalue表示升序 Highestvalue表示降序 3 6 2SPSS的单项式分组 56 单项式分组应用举例 1 利用职工情况数据按职工的基本工资升序进行分组 2 按职工的职称升序进行分组 57 组数和组距确定后便可实施分组操作了在分组操作时应指定分组变量定义分组区间注意遵循不重不漏原则指定存放结果的变量SPSS对分组结果有两种存放策略一种是用分组变量值覆盖原变量 IntoSameVariables 另一种是将分组结果存到一个新变量中 IntoDifferentVariables 相应的操作也略有差异通常采用第二种策略 3 6 3SPSS的组距式分组 58 1 IntoSameVariables分组操作 1 选择菜单Transform Recode IntoSameVariables 2 在出现的窗口中将分组变量选择到Variables框中 3 单击OldandNewValues按钮进行分组区间定义 4 在分组区间定义窗口中指定分组区间的下限和上限并在NewValue框中给出该区间对应的分组值单击Add按钮确认分组区间并加到Odd New框中单击Change和Remove按钮来修改和删除分组区间 5 如果仅对符合一定条件的个案分组则单击If按钮并输入SPSS条件表达式否则本步可略去 59 2 IntoDifferentVariables分组操作 1 选择菜单Transform Recode IntoDifferentVariables 2 在出现的窗口中将分组变量选择到InputVariable OutputVariable框中 3 在OutputVariable后输入存放分组结果的变量名并单击Change按钮确认可以在Label后输入相应的变量名标签 4 单击OldandNewValues按钮进行分组区间定义方法与前面相似 5 如果仅对符合一定条件的个案分组则单击If按钮并输入SPSS条件表达式否则本步可略去 60 例1 利用职工数据按职工基本工资分别采用IntoSameVariables和IntoDifferentVariables两种方式进行如下分组 3 6 4组距式分组的应用举例 61 例子2 利用居民储蓄调查数据分析一次存款金额的分布情况分成三组 10000以下 10000 50000 50000以上 62 3 7数据预处理的其他功能 3 7 1数据转置SPSS的数据转置就是将数据编辑窗口中数据的行列互换基本操作步骤如下 1 选择菜单Data Transpose 2 指定数据转置后应保留哪些变量将它们选入Variables框中未被选中的变量将在新文件中缺失 3 指定转置后数据文件中各变量如何取名 63 应选择一个取值唯一的变量如职工号作为标记变量并放到NameVariable框中转置后数据各变量取名为K 标记变量值如K 001 K 002 K 003等如果略去本步则转置后数据各变量名默认为VAR00001 VAR00002 VAR00003等同时 SPSS还会自动产生一个名为Case lbl的新变量用来存放原数据文件中的各变量名 64 3 7 2加权处理统计分析中的加权处理是极为常见的如计算加权平均数等适用条件当数据文件中存在一个表示频数的变量时定义该变量为加权变量 65 例如希望掌握菜市场某天蔬菜销售的平均价格如果仅用各种蔬菜销售单价的平均数作为平均价格就很不合理还应考虑到销售量对平均价格的影响因此以蔬菜的销售量为权数计算各种蔬菜销售单价的加权平均数就能够较准确地反应平均价格水平 66 SPSS中指定加权变量的操作步骤是 1 选择菜单Data WeightCases 2 选择WeightCasesby选项并将某变量作为加权变量选到WeightCasesby框中注意的是一旦指定了加权变量那么以后的分析处理中加权是一直有效的直到取消加权为止取消加权应选择Donotweightcases选项 3 屏幕右下角会显示 weighton 67 例根据蔬菜数据对各种蔬菜价格进行加权处理如何计算蔬菜的平均价格并将该结果与未加权处理计算的蔬菜平均价格进行比较 68 分析加权处理汇总蔬菜平均价格由于缺少统一分类变量需要添加一个蔬菜类的统一标识分类变量然后按该变量分类汇总取消加权在汇总 69 SPSS的数据拆分与数据排序很相似但有一个重要的不同点数据拆分不仅是按指定变量进行简单排序更重要的是根据变量对数据进行分组为以后的分组统计分析提供便利 3 7 3数据拆分 70 1 SPSS数据拆分的基本操作步骤 1 选择菜单Data SplitFile 出现窗口 71 2 将拆分变量选到GroupsBasedon框中 3 拆分会使后面的分组统计产生两种不同格式的结果其中 Comparegroups表示将分组统计结果输出在同一表格中以便于不同组之间的比较 Organizeoutputbygroups表示将分组统计结果分别输出在不同的表格中通常选择第一种输出方式 4 如果数据编辑窗口中的数据已经事先按所指定的拆分变量进行了排序则可以选择Fileisalreadysorted项可以提高拆分执行的速度否则选择Sortthefilebygroupingvariables项 72 2 说明 1 数据拆分将对后面的分析一直起作用即无论进行哪种统计分析都将按拆分变量的不同组别分别分析计算如果希望对所有数据进行整体分析则需要重新执行数据拆分在数据拆分窗口中选择Analyzeallcases项 2 对数据可以进行多重拆分类似于数据的多重排序

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章-SPSS数据的预处理[002].ppt

文档简介

温馨提示

最新文档

评论

第三章-SPSS数据的预处理[002].ppt

文档简介

温馨提示

最新文档

评论

相关文档