数据分析方法(SPSS入门)_第1页
数据分析方法(SPSS入门)_第2页
数据分析方法(SPSS入门)_第3页
数据分析方法(SPSS入门)_第4页
数据分析方法(SPSS入门)_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析方法及软件应用,授课教师:杨小宝副教授2013.09,SPSS入门-2,2.1SPSS简介2.2SPSS数据的管理2.3SPSS数据的预处理,为什么要进行数据的预处理,在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:,1.数据的排序2.变量计算3.数据选取(重点)4.分类汇总(重点)5.数据分组(重点)6.数据拆分(重点)7.数据预处理的其它功能(自学):计数、转置、加权、缺失值处理、数据排秩、定义变量集等,2.3SPSS数据的预处理,数据排序的目的数据排序的基本操作,2.3.1数据的排序,数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。,1)数据排序的目的,SPSS数据排序的基本操作步骤:(1)选择菜单数据Data个案排序SortCases(2)将主排序变量从左边的列表中选到排序依据Sortby框中,并在排序顺序SortOrder框中选择按该变量的升序还是降序排序。(3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。,2)数据排序的基本操作,在左边的源变量框中选择排序变量进入Sortby框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sortby框中的顺序有关。列于首位的为第一排序变量。,在SortOrder栏内选择排序方式-升序与降序,数据加工(职工数据).sav,数据排序举例,按基本工资升序和职称降序排序的结果,数据加工(职工数据).sav,变量计算的目的SPSS算术表达式SPSS条件表达式SPSS函数变量计算的应用举例,2.3.2变量计算,SPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。1)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。2)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。在变量计算过程中涉及到几个概念:SPSS算数表达式、SPSS条件表达式和SPSS函数。,1)变量计算的目的,计算下表中的职工实际收入,数据加工(职工数据).sav,原有数据中会增加新的一列,数据加工(职工数据).sav,2)SPSS算术表达式,选择出年龄不大于35岁且职称不低于3(讲师)的老师,3)SPSS条件表达式,SPSS函数,SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值。SPSS函数大致可以分成八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数。,4)SPSS函数,1、利用职工基本情况数据,依据职称级别计算实发工资。假设职称1至4职工的工资分别上调5,3,2,1。,5)变量计算的应用举例,在计算变量:If个案对话框中依次输入条件表达式,并在数学表达式框中输入相应公式,分别计算可得,结果,数据加工(职工数据).sav,数据选取的目的数据选取的方式数据选取的应用举例,2.3.3数据选取抽样,1)提高数据分析效率:可以依据一定的抽样方法从总体中抽取少量样本,后面的分析只针对样本进行,这样会大大提高分析的效率。2)检验模型的需要:为了验证模型一般可依据一定的抽样方法只选择部分样本参与数据建模,剩余的数据用于模型检验。,1)数据选取的两个目的,2)数据选取的方式,1)选取全部数据(Allcases)2)按指定条件选取(Ifconditionissatisfied)3)随机抽样(Randomsampleofcases):近似抽样和精确抽样4)选取某一区域内的样本(Basedontimeorcaserange)5)通过过滤变量选取样本(Usefiltervariable),利用居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:1)如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法进行抽样;2)如果只希望对其中的70的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。,3)数据选取的应用举例,1)只希望分析城镇储户的情况,结果,居民储蓄调查数据.sav,2)只希望对其中的70%数据进行分析,结果,居民储蓄调查数据.sav,1)完成数据选取后,以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。,说明,分类汇总是按照某分类变量进行分类汇总计算。例如,某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的“打折促销”反应是否存在较大差异,用以分析不同消费群体的消费心理。最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度(标准差),并对它们进行比较。这个过程也可以通过分类汇总过程完成。,2.3.4分类汇总,SPSS实现分类汇总涉及两个主要方面:按照哪个变量(如上例中的学历、职业和年龄段)进行分类对哪个变量(如上例中的基本工资、消费金额)进行汇总,并指定对汇总变量计算哪些统计量(如上例中的平均工资、平均消费金额和标准差),例1:根据职工情况数据研究不同学历的职工的工资水平是否存在差异?思路:先按学历对数据进行排序,再利用分类汇总功能计算不同学历职工的平均工资,然后进行比较。选择文化程度为分类变量,基本工资为汇总变量。,分类汇总的应用举例,1)选择菜单数据Data分类汇总aggregate,出现如下所示的窗口:,结果,数据加工(职工数据).sav,指定对汇总变量计算哪些统计量,自己练习,例2:利用居民储蓄调查数据,分析城镇储户和农村储户的一次平均存(取)款金额是否有显著的差异。可进行的最初步的分析是按照户口类型对存(取)款金额进行分类汇总。其中分类变量是户口,汇总变量是存(取)款金额,且计算其均值和标准差。,数据分组的目的SPSS的单变量值分组SPSS的组距分组,2.3.5数据分组,数据分组就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征。为适用于不同的统计分析需要,SPSS提供了以下几种数据分组方法:单变量值分组组距分组,1)数据分组的目的,居民家庭按人口数单项式分组,离散型变量如果变量值的变动范围不大,可以将一个变量值作为一组,称单项式分组。如右表:,单变量值分组,在连续型变量或离散型变量值较多的情况下,可采用组距式分组形式。组距式分组就是把全部变量值划分为几个区间,每一区间的变量值作为一组。如右表:,组距分组,SPSS单变量值分组的基本操作步骤:1)选择菜单转换Transform自动重新编码AutomaticRecode2)将分组变量选择到变量-新名称Variable-NewName框中3)在新名称NewName框后输入存放分组结果的变量名,并单击添加新名称AddNewName按钮4)在重新编码的起点RecodeStartingfrom框中选择单变量值分组按升序还是按降序进行。最低值Lowestvalue表示升序;最高值Highestvalue表示降序。,2)SPSS的单变量值分组,结果,数据加工(职工数据).sav,单变量值分组应用举例:利用职工情况数据按职工的基本工资升序进行分组。,组距分组中的关键问题有两个:1)分组数目的确定可参考Sturges提出的经验公式2)组距的确定组距=(最大值-最小值)/组数,3)SPSS的组距式分组,组数和组距确定后,便可实施分组操作了,在分组操作时应:指定分组变量定义分组区间(注意遵循“不重不漏”原则)指定存放结果的变量SPSS对分组结果有两种存放策略,一种是用分组变量值覆盖原变量(IntoSameVariables),另一种是将分组结果存到一个新变量中(IntoDifferentVariables)。相应的操作也略有差异。通常采用第二种策略。,1)选择菜单转换Transform重新编码为相同变量RecodeIntoSameVariables2)在出现的窗口中将分组变量选择到数字变量Variables框中。3)单击旧值和新值OldandNewValues按钮进行分组区间定义。,1、IntoSameVariables分组操作,4)在分组区间定义窗口中指定分组区间的下限和上限,并在新值NewValue框中给出该区间对应的分组值。单击添加Add按钮确认分组区间并加到旧-新Odd-New框中。单击更改Change和删除Remove按钮来修改和删除分组区间。5)如果仅对符合一定条件的个案分组,则单击如果If按钮并输入SPSS条件表达式。否则,本步可略去。,数据加工(职工数据).sav,结果,2.IntoDifferentVariables分组操作(自学),1)选择菜单Transform重新编码为不同变量RecodeIntoDifferentVariables。2)在出现的窗口中将分组变量选择到数字变量-输出变量InputVariable-OutputVariable框中。3)在输出变量OutputVariable框的名称Name中输入存放分组结果的变量名,并单击更改Change按钮确认。可以在标签Label中输入相应的变量名标签。,利用职工数据按职工基本工资采用IntoDifferentVariables方式进行如下分组:,自己练习,数据加工(职工数据).sav,SPSS的数据拆分与数据排序很相似,但有一个重要的不同点,即数据拆分不仅是按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后的分组统计分析提供便利。,2.3.6数据拆分,1、SPSS数据拆分的基本操作步骤:1)选择菜单数据Data拆分文件SplitFile,出现窗口,2)将拆分变量选到分组方式GroupsBasedon框中3)拆分会使后面的分组统计产生两种不同格式的结果。其中,比较组Comparegroups表示将分组统计结果输出在同一表格中,以便于不同组之间的比较;按组组织输出Organizeoutputbygroups表示将分组统计结果分别输出在不同的表格中。通常选择第一种输出方式。,2、说明:1)数据拆分将对后面的分析一直起作用,即无论进行哪种统计分析,都将按拆分变量的不同组别分别分析计算。如果希望对所有数据进行整体分析,则需要重新执行数据拆分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论