版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章第三章 SPSS数据的预处理数据的预处理 数据的排序数据的排序变量计算变量计算数据选取数据选取计数计数分类汇总分类汇总数据分组数据分组数据预处理的其他功能数据预处理的其他功能第一节数据的排序第一节数据的排序u数据排序的目的数据排序的目的u数据排序的基本操作数据排序的基本操作u数据排序的应用举例数据排序的应用举例数据排序的目的数据排序的目的lSPSS数据排序是将数据编辑窗口按照某个或数据排序是将数据编辑窗口按照某个或多个多个指定变量的变量值升序或降序指定变量的变量值升序或降序重新排列。重新排列。l便于数据的浏览,了解数据的便于数据的浏览,了解数据的取值状况、缺失取值状况、缺失值数量值数量等
2、等l快捷找到数据的快捷找到数据的最大值和最小值最大值和最小值l快捷发现数据的快捷发现数据的异常值异常值排序目的数据排序的基本操作(以职工数据数据排序的基本操作(以职工数据.sav为例)为例)菜单数据 排序个案以职称主排序变量升序、工资收入第二排序以职称主排序变量升序、工资收入第二排序变量升序为排序依据变量升序为排序依据数据排序应用举例数据排序应用举例(居民储蓄调查数据(居民储蓄调查数据.sav)练习练习l把年把年人均消费支出和教育人均消费支出和教育.sav中的数据按照年中的数据按照年人均可支配收入为主排序变量进行降序排列,人均可支配收入为主排序变量进行降序排列,教育支出为第二排序变量进行降序排
3、列。教育支出为第二排序变量进行降序排列。第二节变量计算第二节变量计算u变量计算的目的变量计算的目的uSPSS算术表达式算术表达式u条件表达式条件表达式u函数函数u变量计算的基本操作变量计算的基本操作变量计算的目的变量计算的目的l数据的转换处理l对数据的原有分布状态进行转换SPSSSPSS变量计算后会得到一系列新变量,需注意:变量计算后会得到一系列新变量,需注意:l 变量计算针对变量计算针对所有个案所有个案的,每条个案都有自己的的,每条个案都有自己的计算结果计算结果。l 变量计算的结果应保存到变量计算的结果应保存到一个指定变量一个指定变量中,该变量的数据中,该变量的数据 类型与计算结果的类型与计
4、算结果的数据类型要一致。数据类型要一致。SPSS算术表达式l由由常量、变量、算术运算符、圆括号、函数常量、变量、算术运算符、圆括号、函数等等组成的式子组成的式子条件表达式l简单条件表达式简单条件表达式 由由关系运算符关系运算符、常量、变量以及算术表达、常量、变量以及算术表达 式等组成的式子式等组成的式子l复合条件表达式复合条件表达式 由由逻辑运算符号逻辑运算符号、圆括号和简单条件表达式、圆括号和简单条件表达式等组成的式子。等组成的式子。函数函数l算术函数算术函数l统计函数统计函数l分布函数分布函数l逻辑函数逻辑函数l字符函数字符函数l日期函数日期函数l缺失值函数缺失值函数l其他函数其他函数变量
5、计算的基本操作(以职工数据.sav为例)菜单转换菜单转换计算变量计算变量第三节第三节 数据选取数据选取l数据选取:即为样本抽样。l提高数据分析效率l检验模型的需要目的:l按指定条件抽样按指定条件抽样l随机抽样随机抽样l选取某一区域内的样本选取某一区域内的样本l通过过滤变量选取样本通过过滤变量选取样本SPSS中四种抽样方法四种抽样方法菜单数据 选择个案按指定条件抽样随机抽样基于时间或个案全距通过过滤变量选取样本数据选取的应用举例利用居民储蓄调查数据,根据不同的分析要求采利用居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:用不同的数据选取方法抽样:(1)如果只希望分析城镇储户的情况
6、,可以通)如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法进行过数据选择功能采用指定条件的抽样方法进行抽样;抽样;(2)如果只希望对其中的)如果只希望对其中的70的数据进行分析的数据进行分析,可通过数据选择功能采用随机抽样中的近似,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。抽样方法进行抽样。第四节第四节 计数计数lSPSS计数是指对所有个案或满足其条件的部计数是指对所有个案或满足其条件的部分个案,计算若干个变量中有几个变量的值落分个案,计算若干个变量中有几个变量的值落在特定的区间内,并将计数结果存入一个新变在特定的区间内,并将计数结果存入一个新变量中的过程
7、量中的过程。关键步骤指定指定哪些变量参与计数哪些变量参与计数,计数的结果,计数的结果存入哪个变量中。存入哪个变量中。指定指定计数区间计数区间 单个变量值单个变量值 系统缺失值系统缺失值 系统缺失值或用户缺失值系统缺失值或用户缺失值 给定最大值和最小值的区间给定最大值和最小值的区间 小于等于某指定值的区间小于等于某指定值的区间 大于等于某指定值的区间大于等于某指定值的区间计数区间计数区间计数的基本操作计数的基本操作以居民储蓄调查数据(存款)以居民储蓄调查数据(存款).sav为例为例l菜单转换 对个案内的值计数 我们认为如果储户收入今年比去年增加了我们认为如果储户收入今年比去年增加了,且认为今后收
8、入仍会增加则认为收入状况较,且认为今后收入仍会增加则认为收入状况较好。试分析有多少个储户的收入状况较好。好。试分析有多少个储户的收入状况较好。以学生成绩以学生成绩.sav为例为例对两门课中成绩在优良以上(分数大于等于80分)的计数第五节第五节 分类汇总分类汇总l分类汇总分类汇总是按照某分类进行的汇总计算。是按照某分类进行的汇总计算。 l按照哪个变量进行分类l对哪个变量进行汇总,并指定对哪些统计量进行计算SPSS实现分类汇总需要明确:分类汇总的基本操作分类汇总的基本操作菜单数据 分类汇总 指定分类变量指定汇总变量单击函数按钮获得指定分类结果保存到何处单击变量名与标签得到若要保存各分类组的个案数分
9、类汇总后的结果练习练习1. 根据职工情况数据研究不同学历的职工的工资水平是根据职工情况数据研究不同学历的职工的工资水平是否存在差异?否存在差异? 最简单的分析可利用分类汇总功能计算不同学历最简单的分析可利用分类汇总功能计算不同学历职工的平均工资,然后进行比较。选择文化程度为分职工的平均工资,然后进行比较。选择文化程度为分类变量,基本工资为汇总变量。类变量,基本工资为汇总变量。2. 利用居民储蓄调查数据,分析城镇储户和农村储户的利用居民储蓄调查数据,分析城镇储户和农村储户的一次平均存(取)款金额是否有显著的差异。可进行一次平均存(取)款金额是否有显著的差异。可进行的最初步的分析是按照户口类型对存
10、(取)款金额进的最初步的分析是按照户口类型对存(取)款金额进行分类汇总。其中分类变量是户口,汇总变量是存(行分类汇总。其中分类变量是户口,汇总变量是存(取)款金额,且计算其均值。取)款金额,且计算其均值。第六节第六节 数据分组数据分组l数据分组数据分组就是根据统计研究的需要,将数据按就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。照某种标准重新划分为不同的组别。l对数值型数据进行整理和粗略把握数据分布情况对数值型数据进行整理和粗略把握数据分布情况l在数据分组基础上对数据进行频数分析在数据分组基础上对数据进行频数分析l实现数据的离散化处理实现数据的离散化处理分组目的SPSS的数据
11、分组方法的数据分组方法l单变量值分组单变量值分组l组距分组组距分组l分位数分组(略)分位数分组(略)单变量值分组lSPSS单变量值分组是把单变量值分组是把每一个变量值作为一每一个变量值作为一组组,这种分组方法通常,这种分组方法通常只适合于离散变量且变只适合于离散变量且变量值较少量值较少的情况。的情况。基本操作菜单转换 自动重新编码以职工数据.sav为例将分组变量基本工资(sr)选择到右边的框中在新名称在新名称后输入后输入存放分存放分组结果组结果的变量的变量名名在重新编码在重新编码的起点中的起点中选择是最选择是最低值进行低值进行还是最高还是最高值进行值进行 最低值最低值表示升表示升序,最序,最高
12、值表高值表示降序示降序组距分组组距分组组距分组组距分组是将全部变量值依次划分为若是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为干个区间,并将这一区间的变量值作为一组。一组。在在连续变量或变量值较多连续变量或变量值较多的情况下适用的情况下适用。分组关键分组数目的确定组距的确定l指定分组变量指定分组变量l定义分组区间定义分组区间l指定存放分组结果的变量指定存放分组结果的变量SPSS分组操作应注意:基本操作一:菜单转换 重新编码为相同变量以职工数据.sav为例把分组变量基本工资(sr)选到数字变量中单击旧值和新值得到定义分组区间先指定区间范围,再在“值”中添加对应的分组值基本操作二、菜
13、单转换 重新编码为不同变量将分组变量基本工资(sr)选入数字变量定义输出变量先指定区间范围,再在“值”中添加对应的分组值练习练习单变量值分组应用举例:单变量值分组应用举例: 1、利用职工情况数据按职工的基本工资升、利用职工情况数据按职工的基本工资升序进行分组。序进行分组。 2、按职工的职称升序进行分组。、按职工的职称升序进行分组。练习练习l根据数据文件根据数据文件2-2 2003-2015年某企业净利润年某企业净利润与员工总数与员工总数.sav,将,将“员工总数员工总数”按照以下方按照以下方式分组式分组:员工总员工总数数频数(人)频数(人)频率(频率(% %)201250753.8251300
14、215.4301350215.4351以上以上215.4第七节第七节 数据预处理的其他功能数据预处理的其他功能l数据转置数据转置l加权处理加权处理l数据拆分数据拆分数据转置数据转置(行列互换行列互换)以年人均消费支出和教育.Sav为例把变量和名称变量分别选入对应位置标记变量加权处理加权处理统计分析中的加权处理是极为常见的,如计算加统计分析中的加权处理是极为常见的,如计算加权平均数等。权平均数等。例如,希望掌握菜市场某天蔬菜销售的平均价格例如,希望掌握菜市场某天蔬菜销售的平均价格。如果仅用各种蔬菜销售单价的平均数作为平。如果仅用各种蔬菜销售单价的平均数作为平均价格就很不合理,还应考虑到销售量对平
15、均均价格就很不合理,还应考虑到销售量对平均价格的影响。因此,以蔬菜的销售量为权数计价格的影响。因此,以蔬菜的销售量为权数计算各种蔬菜销售单价的加权平均数,就能够较算各种蔬菜销售单价的加权平均数,就能够较准确地反应平均价格水平。准确地反应平均价格水平。 SPSS的数据拆分与数据排序很相似的数据拆分与数据排序很相似,但有一个重要的不同点,即数据拆分不,但有一个重要的不同点,即数据拆分不仅是按指定变量进行简单排序,更重要的仅是按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后的分是根据变量对数据进行分组,为以后的分组统计分析提供便利。组统计分析提供便利。数据拆分数据拆分以数据加工(职工
16、数据).sav为例 比较组:比较组:表示将分组统计结果输出在同一表格中,以便于不同组之间表示将分组统计结果输出在同一表格中,以便于不同组之间的比较;的比较;按组组织输出:按组组织输出:表示将分组统计结果分别输出在不同的表格中。表示将分组统计结果分别输出在不同的表格中。 通常选择第一种输出方式。通常选择第一种输出方式。说明:说明:(1)数据拆分将对后面的分析一直起作用,即)数据拆分将对后面的分析一直起作用,即无论进行哪种统计分析,都将按拆分变量的不无论进行哪种统计分析,都将按拆分变量的不同组别分别分析计算。如果希望对所有数据进同组别分别分析计算。如果希望对所有数据进行整体分析,则需要重新执行数据拆分,在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 交管站工作制度
- 住院总工作制度
- 办公楼工作制度
- 课时练 1.6小兔子安家(含答案)-数学北师大版一年级下册
- 美胜画室招生方案总结
- 可视化解决方案
- 计量接线盒的正确接线培训
- 开学前卫生消毒知识培训
- 成人校车安全培训
- 小学数学教师专业培训
- 人教统编版六年级语文下册第二单元《习作:写作品梗概》公开课教学课件
- 2026年3月山东济南轨道交通集团运营有限公司社会招聘备考题库附参考答案详解(典型题)
- 2026内蒙古环投集团社会招聘17人笔试备考试题及答案解析
- 2026年高考物理二轮复习:专题16 热学(复习讲义)(全国适用)(原卷版)
- TSG 08-2026 特种设备使用管理规则
- 2026年安徽粮食工程职业学院单招职业技能考试题库附答案详细解析
- DBJ-T36-073-2026 江西省装配式建筑评价标准
- 2026年全国教育工作会议精神学习传达与贯彻落实指南
- JJF 1059.1-2012测量不确定度评定与表示
- 河北唐山遵化经济开发区工作岗位竞聘【共500题含答案解析】模拟检测试卷
- 第二章 运动的守恒量和守恒定律
评论
0/150
提交评论