第3章SPSS数据的预处理_第1页
第3章SPSS数据的预处理_第2页
第3章SPSS数据的预处理_第3页
第3章SPSS数据的预处理_第4页
第3章SPSS数据的预处理_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章第三章 SPSS 数据的预处理数据的预处理1第三章第三章 SPSS 数据数据的预处理的预处理l数据数据的的排序排序l查找重复个案查找重复个案l变量计算变量计算l数据选取(抽样)数据选取(抽样)l(变量值)计数(变量值)计数l分类汇总分类汇总l数据分组(变量重新赋值)数据分组(变量重新赋值)l数据预处理的其它功能:转置、加权、数据拆数据预处理的其它功能:转置、加权、数据拆分、缺失值处理等分、缺失值处理等菜单选项:菜单选项: “ “数据数据”、“转换转换”2数据的排序数据的排序数据的排序数据的排序:将所有个案按照用户指定的将所有个案按照用户指定的某一个某一个或或多个多个变量的变量值进行变量的

2、变量值进行升序升序或或降序降序重新排列。重新排列。排序的作用:方便了解数据的取值分布状况,特别排序的作用:方便了解数据的取值分布状况,特别是有助于发现数据的是有助于发现数据的异常值异常值。注意注意: :(1) 排序排序的次序:的次序:升序、降序。升序、降序。(2) 多重排序时,指定排序变量的多重排序时,指定排序变量的次序次序很关键很关键。 (3) 数据排序是对个案排序,而不只是对变量排序。数据排序是对个案排序,而不只是对变量排序。3数据的排序数据的排序菜单选项菜单选项: :数据数据 - - 排序排序个案个案例:例:“职工数据职工数据.sav” 主排序变量:职称主排序变量:职称- -降序,降序,

3、 第二排序变量:基本工资第二排序变量:基本工资- -升序,升序, 第三排序变量:年龄第三排序变量:年龄- -升序升序4查找重复个案查找重复个案重复个案:关键变量相同的个案重复个案:关键变量相同的个案查找重复个案的方法:先按指定的关键变量对所有查找重复个案的方法:先按指定的关键变量对所有个案个案排序排序,再确定重复个案中哪个个案是应保留下,再确定重复个案中哪个个案是应保留下来的。来的。菜单选项菜单选项: : 数据数据 - - 标识重复个案标识重复个案例:例:“职工数据职工数据_ _纵向合并纵向合并.sav”5变量计算变量计算含义:根据用户给出的含义:根据用户给出的 SPSS 算术表达式及函数,算

4、术表达式及函数,对所有或部分满足条件的个案进行加工。对所有或部分满足条件的个案进行加工。目的:产生新变量或对原变量进行必要的转换目的:产生新变量或对原变量进行必要的转换注意:注意:(1) 变量计算是变量计算是针对个案针对个案的,每个个案都有的,每个个案都有相应的计算结果;相应的计算结果;(2) 变量计算的结果应保存到一变量计算的结果应保存到一个指定变量中。个指定变量中。三个概念:三个概念:SPSS算术表达式、算术表达式、SPSS条件表达式和条件表达式和SPSS函数。函数。6SPSS 算术表达式算术表达式 SPSS算术表达式是由常量、变量、算术运算符、算术表达式是由常量、变量、算术运算符、圆括号

5、、函数等组成的式子。圆括号、函数等组成的式子。字符串型常量应当用引号括起来;字符串型常量应当用引号括起来;变量是指那些已存在于数据编辑窗口中的变量;变量是指那些已存在于数据编辑窗口中的变量;算术运算符主要包括算术运算符主要包括、*、/、*(乘方);(乘方);在同一算术表达式中的常量及变量,数据类型应该一在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算致,否则无法计算 。7SPSS 条件表达式条件表达式条件表达式通常用于条件表达式通常用于指定满足某个条件的个案指定满足某个条件的个案。条件表达式是一个对条件进行判断的式子条件表达式是一个对条件进行判断的式子。其结果有其结果有两种取值:

6、两种取值:如果判断条件成立,则结果为真;如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。如果判断条件不成立,则结果为假。条件表达式包括简单条件表达式和复合条件表达式。条件表达式包括简单条件表达式和复合条件表达式。8SPSS 条件表达式条件表达式简单条件表达式简单条件表达式:由关系运算符、常量、变量以及算术表达式等组成的由关系运算符、常量、变量以及算术表达式等组成的式子。式子。关系运算符包括:关系运算符包括: 、 32、sr 32) and not (sr - 计算变量计算变量例例1:“大学生职业生涯规划大学生职业生涯规划.sav” 问题:对每个个案计算问题:对每个个案计算 Q61

7、 Q64 的总得分,称的总得分,称为对专业和职业的认知得分。为对专业和职业的认知得分。例例2:生成:生成 10 个服从个服从 N(0,1) 分布的随机变量分布的随机变量11数据选取数据选取数据数据选取:根据选取:根据分析的需要,从已收集到的大批量分析的需要,从已收集到的大批量数据(总体)中按照一定的规则数据(总体)中按照一定的规则抽取部分数据抽取部分数据(样(样本)本)参与分析参与分析的过程,通常也称为的过程,通常也称为抽样抽样。目的目的: : (1)提高数据分析效率;提高数据分析效率;(2)可选取部分数据可选取部分数据参与建模,剩余的数据用于检验模型。参与建模,剩余的数据用于检验模型。菜单菜

8、单选项选项: : 数据数据 - - 选择个案选择个案12数据选取数据选取方法方法:按按指定条件选取指定条件选取:只选取:只选取符合条件的数据符合条件的数据随机随机选取:抽样选取:抽样选取某一范围内的样本:用于时间序列选取某一范围内的样本:用于时间序列数据数据使用筛选器变量:选定一个变量,取值为非使用筛选器变量:选定一个变量,取值为非0 0或非或非系统缺失值的个案被选中,用于排除包含系统缺失系统缺失值的个案被选中,用于排除包含系统缺失值的个案值的个案注意注意:应根据不同的分析要求采用:应根据不同的分析要求采用不同的选取不同的选取方法方法13数据选取数据选取例:例:“大学生职业生涯规划大学生职业生

9、涯规划.sav” 问题问题: (1) : (1) 仅仅对大四学生进行分析;对大四学生进行分析; (2)随机选取随机选取100100个个案。个个案。注意:完成数据选取后,之后的分析将只针对被选注意:完成数据选取后,之后的分析将只针对被选中的个案中的个案。取消个案选取取消个案选取的的方法:方法:删除删除 SPSS 产生的中间变量产生的中间变量 “ “filter_$” ” 在选择个案窗口中选择在选择个案窗口中选择“全部个案全部个案”14计数计数计数:对计数:对所有个案或满足某条件的部分个案,所有个案或满足某条件的部分个案,计算计算其若干其若干变量中有几个变量的值落在指定的区间内,变量中有几个变量的

10、值落在指定的区间内,并将计数结果存入一个新变量中的过程。并将计数结果存入一个新变量中的过程。例如,对例如,对大学毕业班学生的成绩进行综合测评时,大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门可以依次计算每个学生的若干门课程中有几门课程课程为优为优,有几门,有几门课程为良课程为良,有几门课程不及格,有几门课程不及格。步骤:指定参与计数的变量、指定计数区间步骤:指定参与计数的变量、指定计数区间菜单选项菜单选项: : 转换转换 - - 对个案内的值计数对个案内的值计数15计数计数例:例:“大学生职业生涯规划大学生职业生涯规划.sav” 问题:分析有多大比例的学生对问卷中

11、的量表问题问题:分析有多大比例的学生对问卷中的量表问题感觉不好回答(量表得分为感觉不好回答(量表得分为 0)。)。分析:先计算分析:先计算 Q61 Q616 中取值为中取值为 0 的变量个数的变量个数;再计算其中个数为非再计算其中个数为非 0 的学生数所占的百分比。的学生数所占的百分比。16分类汇总分类汇总分类汇总:按照指定的分类变量值对所有个案进行分类汇总:按照指定的分类变量值对所有个案进行分类,从而可以分类,从而可以分析各分析各分组下样本的统计分组下样本的统计特征。特征。SPSS 实现实现分类汇总涉及两个主要分类汇总涉及两个主要方面:方面: (1) 按照哪个(或多个)变量按照哪个(或多个)

12、变量进行进行分类分类 (2) 对对哪个变量进行汇总,并指定对汇总变量哪个变量进行汇总,并指定对汇总变量计算计算 哪些哪些统计量统计量。例如:分析不同学历职工的基本工资是否有差距。例如:分析不同学历职工的基本工资是否有差距。菜单菜单选项选项: : 数据数据 - - 分类汇总分类汇总17分类汇总分类汇总例:例:“大学生职业生涯规划大学生职业生涯规划.sav”问题:为评价不同专业类别学生对本专业和未来职业问题:为评价不同专业类别学生对本专业和未来职业的喜爱及了解程度,对专业和职业认知得分按专业类的喜爱及了解程度,对专业和职业认知得分按专业类别分别计算平均得分。别分别计算平均得分。分类变量:专业分类分

13、类变量:专业分类汇总变量:专业和职业认知得分汇总变量:专业和职业认知得分统计量:平均值统计量:平均值18数据拆分数据拆分数据拆分:是将数据按一个或几个指定的变量进行数据拆分:是将数据按一个或几个指定的变量进行分组。后续进行的统计分析将按照分组进行。分组。后续进行的统计分析将按照分组进行。菜单选项:数据菜单选项:数据 - - 拆分文件拆分文件注意注意:数据拆分后,在状态栏会显示数据拆分后,在状态栏会显示“拆分条件拆分条件”取消拆分方法:重新执行数据拆分,选择取消拆分方法:重新执行数据拆分,选择“分析所分析所有个案,不创建组有个案,不创建组”。例例:“职工数据职工数据.sav”,按职称变量分组,按

14、职称变量分组比较比较组:分组统计结果输出在同一张表格中组:分组统计结果输出在同一张表格中按组织输出:分组统计结果分别输出在不同的表格按组织输出:分组统计结果分别输出在不同的表格 19数据分组数据分组数据数据分组就是根据统计分析的需要,分组就是根据统计分析的需要,将数据将数据按照某按照某种标准重新划分为不同的组种标准重新划分为不同的组别。别。在数据分组的基础上进行的频数分析更能够概括和在数据分组的基础上进行的频数分析更能够概括和体现数据的分布体现数据的分布特征。特征。 按工资分组(元)按工资分组(元)频数(人)频数(人)频率()频率()850以下以下531.3850900531.39009501

15、6.39501000212.51000以上以上318.620组距组距分组分组 在在变量值较多的情况下,数据分组通常采用变量值较多的情况下,数据分组通常采用组距组距分组分组。组距分组是将全部变量值依次划分为若干区间。组距分组是将全部变量值依次划分为若干区间,并将同一区间的变量值作为一组。,并将同一区间的变量值作为一组。(1) 全距全距:最大值与最小值之差:最大值与最小值之差(2) 组组数:组数的多少以分组后数:组数的多少以分组后能清楚反映数据内部能清楚反映数据内部的的分布特征和规律分布特征和规律为原则。为原则。可可按按 Sturges 经验公式经验公式确确定组数:定组数:(3) 组距组距全距全距

16、组组数数 (2) 组距的组距的确定确定 ln1ln2nK 21变量重新赋值变量重新赋值组距分组的实现是对变量重新赋值的一种。组距分组的实现是对变量重新赋值的一种。变量的重新赋值变量的重新赋值赋值到同一变量:转换赋值到同一变量:转换 - - 重新编码重新编码为相同变量为相同变量赋值赋值到不同变量到不同变量:转换:转换 - - 重新编码重新编码为不同变量为不同变量例:例:“大学生职业生涯规划大学生职业生涯规划.sav” 问题:对专业和职业认知得分变量,以问题:对专业和职业认知得分变量,以5 5为组距进行为组距进行分组。分组。 22数据转置数据转置SPSS 的的数据数据转置:将转置:将数据编辑窗口中

17、数据的数据编辑窗口中数据的行列行列互换互换菜单选项:数据菜单选项:数据 - - 转置转置例例:“职工数据职工数据.sav”注意:转置后,数据结构的信息会丢失注意:转置后,数据结构的信息会丢失 23加权个案加权个案加权个案:加权个案:给个案加以不同的权重(给个案加以不同的权重(通过复制)通过复制)可计算加权平均可计算加权平均注意注意:对于使用计数数据的组织方式录入的数据,:对于使用计数数据的组织方式录入的数据,即相同个案只录入一次,另加一个计数变量记录该即相同个案只录入一次,另加一个计数变量记录该个案出现的次数。在分析前,应把计数变量作为加个案出现的次数。在分析前,应把计数变量作为加权变量,进行数据加权。(即还原为原始数据)权变量,进行数据加权。(即还原为原始数据) 24加权个案加权个案菜单选项:数据菜单选项:数据 - - 加权加权个案个案加权加权后后,数据编辑器窗口中的数据没有变化,但,数据编辑器窗口中的数据没有变化,但在在状态栏状态栏中会显示中会显示“加权范围加权范围”。一旦执行加权操作后,对以后的分析会一直有效。一旦执行加权操

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论